ACL 2019 | 巧用文本语境信息:基于上下文感知的向量优化
「論文訪談間」是由 PaperWeekly 和中國中文信息學(xué)會社會媒體處理專委會(SMP)聯(lián)合發(fā)起的論文報道欄目,旨在讓國內(nèi)優(yōu)質(zhì)論文得到更多關(guān)注和認(rèn)可。
?
論文動機(jī)
作為典型的細(xì)粒度情感分析任務(wù),目標(biāo)-方面級別情感分析是自然語言處理領(lǐng)域的研究熱點(diǎn)之一,結(jié)合注意力機(jī)制的深度網(wǎng)絡(luò)模型在目標(biāo)-方面級別情感分析任務(wù)中取得了令人矚目的成功,但是仍存在一些待解決問題。
本文主要解決以下兩個問題:?
1. 現(xiàn)有的方法在表示目標(biāo)(target)和方面(aspect)時往往會脫離上下文。這種隨機(jī)初始化或不依賴于上下文的表示方法有三個弊端:1)同一個目標(biāo)或方面的向量表示在表達(dá)不同情感極性的句子中沒有得到區(qū)分;2)目標(biāo)不是確定實(shí)體時(例如“這個酒店”,“這個餐館”,“那部電影”等),輸入信息無法體現(xiàn)實(shí)體本身的價值;3)忽略了目標(biāo)和方面之間的相互聯(lián)系。?
2. 目標(biāo)和方面在上下文中存在重疊的關(guān)聯(lián)映射關(guān)系。在一句話中,一個目標(biāo)可能會對應(yīng)多個方面,而不同的方面可能會包含不同的情感極性。另一方面,在同一句話中往往會存在多個目標(biāo),所以目標(biāo)和方面之間會存在錯綜復(fù)雜的對應(yīng)關(guān)系。如圖 1:
句子中的“l(fā)ocation1”和“l(fā)ocation2”是兩個不同的目標(biāo),每一個目標(biāo)會對應(yīng)多個方面(Safety,Price,Transit 等),并且不同的方面可能會存在不同的情感極性。這里有一個有趣的現(xiàn)象,如果將“l(fā)ocation1”和“l(fā)ocation2”的位置交換,那么“l(fā)ocation1”和“l(fā)ocation2”所表達(dá)的方面和情感都會發(fā)生改變。所以,如何通過語境上下文精確推斷目標(biāo)和方面的相互關(guān)系以及文本對不同方面對象表達(dá)的情感是目標(biāo)-方面級別情感分析任務(wù)的主要挑戰(zhàn)之一。
方法
為解決上述問題,本文提出了一種結(jié)合上下文信息優(yōu)化目標(biāo)和方面向量表示的方法,該方法可以直接和現(xiàn)有基于神經(jīng)網(wǎng)絡(luò)的目標(biāo)-方面級別情感分析模型相結(jié)合(如圖 2 所示)。
因?yàn)榫渥又械哪繕?biāo)是任務(wù)的基礎(chǔ),然而考慮到同一個句子存在多個目標(biāo),如何針對不同目標(biāo)從上下文中自動學(xué)習(xí)向量表示呢?
具體來說,我們使用一個稀疏系數(shù)向量來提取文本中與目標(biāo)相關(guān)度較高的詞語,并使用這些詞語作為目標(biāo)的上下文信息。通過對目標(biāo)上下文詞向量的聚合獲得目標(biāo)的最終表示。通過這種方法,目標(biāo)的向量表示可以從上下文中自動學(xué)習(xí),所以就算句子中的目標(biāo)不是確定的實(shí)體,我們也能得到有價值的向量表示。
上下文感知的向量優(yōu)化主要包含兩個部分:重新構(gòu)建目標(biāo)向量和微調(diào)方面向量。為了使文本詞向量里帶有目標(biāo)與方面信息,此處首先將文本的詞向量序列輸入一個全連接網(wǎng)絡(luò),之后利用一個階躍函數(shù)將得到的文本向量稀疏化,以此表示文本中與目標(biāo)相關(guān)的詞語的掩碼。最后通過將稀疏系數(shù)向量和輸入的文本向量結(jié)合可以得到上下文相關(guān)的目標(biāo)和方面表示。
在訓(xùn)練過程中,1)針對目標(biāo)表示,我們希望獲得的上下文相關(guān)目標(biāo)向量盡量接近輸入的目標(biāo)向量,2)針對方面表示,我們希望上下文相關(guān)的方面表示盡可能靠近和它相關(guān)聯(lián)的目標(biāo),遠(yuǎn)離無關(guān)的目標(biāo)。
上下文相關(guān)的目標(biāo)向量表示
為了使目標(biāo)表示從上下文中自動生成,所以我們將提取上下文中和目標(biāo)有高度關(guān)聯(lián)的重要詞語來優(yōu)化目標(biāo)向量表示:
其中是優(yōu)化后的目標(biāo)向量表示,u' 是稀疏系數(shù)矩陣,Φ 是階躍函數(shù),mean(·) 代表取平均值。本文將通過最小化原始目標(biāo)向量和優(yōu)化目標(biāo)向量來學(xué)習(xí)優(yōu)化信息:
其中用來控制稀疏系數(shù)矩陣稀疏度。
上下文相關(guān)的方面向量表示
在方面向量表示優(yōu)化中,因?yàn)榉矫姹旧淼脑~語也具有一定的價值,例如方面“Price”,單從詞語本身,我們可以知道該方面涉及“價格”相關(guān)信息,所以我們保留了方面的原始向量信息。通過將方面本身的詞語和稀疏系數(shù)矩陣提取到的上下文信息結(jié)合可以得到優(yōu)化后的方面向量表示:
其中 α 用來控制上下文信息對優(yōu)化向量的影響程度。?
因?yàn)橥粋€句子中存在多個目標(biāo),而不同的目標(biāo)又關(guān)聯(lián)多個不同的方面,如何區(qū)分不同目標(biāo)-方面之間的相互聯(lián)系呢?為了解決該問題,對于每一個優(yōu)化方面向量,我們不僅考慮它和對應(yīng)目標(biāo)之間的距離,同時也關(guān)注它和那些無關(guān)目標(biāo)之間的距離,所以我們將目標(biāo)函數(shù)分為了兩部分:
通過目標(biāo)函數(shù)的兩部分作用,可以使優(yōu)化后的方面向量盡可能靠近與它相關(guān)聯(lián)的目標(biāo),并遠(yuǎn)離與它無關(guān)的目標(biāo),從而使輸入句子針對不同方面的情感信息得到有效區(qū)分。
實(shí)驗(yàn)結(jié)果
從表中結(jié)果可以看出,本文提出的優(yōu)化目標(biāo)和方面向量表示的方法在目標(biāo)識別和情感分類任務(wù)中都取得了更好的表現(xiàn),這說明了上下文相關(guān)的目標(biāo)和方面表示能提升模型在細(xì)粒度情感分析任務(wù)中的效果。同時我們可以發(fā)現(xiàn)本文提出的目標(biāo)-方面向量表示可以適用于大部分基于深度學(xué)習(xí)的目標(biāo)-方面文本情感分類模型。
可視化部分,本文使用了 t-SNE 對模型學(xué)習(xí)到的方面向量表示中間結(jié)果進(jìn)行可視化對比實(shí)驗(yàn)。從圖 3 結(jié)果可以看出,本文提出的方法能使不同方面在訓(xùn)練過程中得到更好的區(qū)分,有效提升了方面向量表示的質(zhì)量。
總結(jié)
本文提出了一種作用在細(xì)粒度情感分析的上下文感知目標(biāo)和方面向量優(yōu)化方法。實(shí)驗(yàn)結(jié)果表明,該向量優(yōu)化方法可以直接和現(xiàn)有的基于神經(jīng)網(wǎng)絡(luò)的目標(biāo)-方面級別情感分析模型相結(jié)合,并取得更好的效果。未來,我們嘗試將向量優(yōu)化方法應(yīng)用到其他自然語言處理任務(wù)中,并進(jìn)一步改善方法的有效性和通用性。
關(guān)于作者
梁斌,哈爾濱工業(yè)大學(xué)(深圳)計算機(jī)科學(xué)與技術(shù)學(xué)院博士研究生,主要研究方向?yàn)槲谋厩楦蟹治觥?/span>
杜嘉晨,哈爾濱工業(yè)大學(xué)(深圳)計算機(jī)科學(xué)與技術(shù)學(xué)院博士生,研究方向?yàn)槲谋厩楦杏嬎闩c文本生成。
徐睿峰,哈爾濱工業(yè)大學(xué)(深圳)計算機(jī)科學(xué)與技術(shù)學(xué)院教授,研究方向?yàn)樽匀徽Z言處理、情感計算、人機(jī)接口。
主辦單位
?
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 下載論文
總結(jié)
以上是生活随笔為你收集整理的ACL 2019 | 巧用文本语境信息:基于上下文感知的向量优化的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CVPR 2019 | 人脸照片秒变艺术
- 下一篇: 每周一起读 × 招募 | WWW 201