Reasoning with Sarcasm by Reading In-between(MIARN 2018)论文笔记
本文主要是提出了一種新的模型:MIARN(Multi-dimensional Intra-
Attention Recurrent Networks),Intra-attention其實可以看做是self-attention的一種變種,很簡單,但可解釋性很好!
1. Introduction
雖然反諷表達形式多樣,但其中有很大一部分(SemEval2018數據集顯示占69.9%)是前后情感矛盾式的反諷,比如在“I absolutely love to be ignored !詞對(word pair) {love, ignored}在情感、狀態或行為上“相反”,作者從這一點出發構造一種模型可以“looking in-between”。通常來講,先前的反諷識別模型模型多依賴深的序列化的神經網絡來建模反諷句子,比如主要使用GRU、LSTM等序列建模方法提取特征。這種模型有兩個缺點:
- GRU、LSTM無法精確捕捉反諷句中的“詞對相反”這種特點,這就相當于損失了反諷句中的很重要的一種文本特征;
- GRU、LSTM由于無法捕捉長期依賴,舉例來講,如果詞對{love, ignored}相距較遠便無法很好的檢測到。
一個更合理的模型應該是intra-sentence的,即不但要追求識別精度的提高,還要求模型具有可解釋性,由此推斷合理的模型應該使用注意力機制。而本文提出的MIARN就充分利用了intra-sentence內部關系的組合學習的直覺。具體模型如下:
接下來主要說一下左半部分。
2. Intra-Attention
“句內attention表示”是對于“詞對關系”的表示,用來突出{love, ignored}這種詞對關系。
Single-dimensional Intra-Attention
具體流程如下:
(1)計算所有詞對的注意力分數,得到如上圖所示的注意力分數矩陣:
sij=Wa([wi;wj])+bas_{ij}=W_a([w_i;w_j])+b_a sij?=Wa?([wi?;wj?])+ba?需要注意的是,要將對角線上的元素進行mask,這樣可以防止每個詞自身的注意力影響全局的注意力分布。
(2)按行進行max pooling操作,并做softmax歸一化。
a=softmax(maxrows)a = softmax(max_{row}s) a=softmax(maxrow?s)可以看做是保留了每個詞與其他詞中關系最強的權重信息。
(3)最后就是直接計算句內attention的表示:
va=∑i=1laiwiv_a = \sum_{i=1}^{l}a_iw_i va?=i=1∑l?ai?wi?
Multi-dimensional Intra-Attention
但是由于詞的復雜性,一個詞可能包含多種含義,所以每個詞對也應該有多個注意力分數,而不應該只是一個標量,所以應該先對詞對的多維或者說多視圖進行建模,然后再計算每個詞對的注意力分數。
對詞對的多維進行建模的方法也很簡單:將每個詞對映射到一個低維空間中,每一維都可以看做是這個詞對一個維度(含義)的注意力分數,然后再將每一維的注意力分數進行加權求和得到最終的注意力分數:
sij=Wp(ReLU(Wq([wi;wj])+bq))+bps_{ij}=W_p(ReLU(W_q([w_i;w_j])+b_q))+b_p sij?=Wp?(ReLU(Wq?([wi?;wj?])+bq?))+bp?
剩余的兩個步驟和Single-dimensional的步驟一樣。
3. Prediction layer
vav_ava?是intra-attention representation,vcv_cvc?是compositional representation,例如lstm最后隱層,則預測層為:
v=ReLU(Wz([va;vc])+bz)v = ReLU(W_z([v_a;v_c])+b_z) v=ReLU(Wz?([va?;vc?])+bz?)y^=Softmax(Wfv+bf)\hat{y}=Softmax(W_fv+b_f) y^?=Softmax(Wf?v+bf?)
4. Experimental Results
通過實驗可以得出:
- MIARN相對于SIARN來說,可以學到詞與詞之間更復雜的關系;
- 我們提出的模型在長短文本上效果都是最好的,但在長文本上效果提升度更大,因為intra-attention可以捕捉到長期依賴;
- 由上圖的注意力分布可以得出,MIARN的注意力分布與我們對建模對比度(相反詞對)和不一致性的直覺很一致,而LSTM的attention主要集中在最后,因為lstm是不斷組合表示,這樣第n個hidden可能和第n+1個hidden很相似,當文本較短時,注意力也就主要集中在最后一個或幾個hidden了…
總結
以上是生活随笔為你收集整理的Reasoning with Sarcasm by Reading In-between(MIARN 2018)论文笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: PID调参详解1
- 下一篇: Hive —— Design and A