武汉大学提出软模板SoftProto框架,大幅增强方面词抽取任务
?PaperWeekly 原創(chuàng) ·?作者|陳壯
學(xué)校|武漢大學(xué)博士生
研究方向|情感分析、信息抽取等
本文介紹一篇我們發(fā)表于 EMNLP-2020?的論文《Enhancing Aspect Term Extraction with Soft Prototypes》,該工作提出基于軟模板的 SoftProto 框架來增強(qiáng)方面詞抽取任務(wù),旨在解決評(píng)論文本中方面詞和環(huán)境詞具有長尾分布的問題。
SoftProto 框架幾乎可以與所有的序列標(biāo)注器進(jìn)行結(jié)合。在多個(gè) SemEval 數(shù)據(jù)集上的實(shí)驗(yàn)表明,軟模板的引入大幅度地提升了幾個(gè)經(jīng)典序列標(biāo)注器在方面詞抽取任務(wù)上的性能。
?
論文標(biāo)題:
Enhancing Aspect Term Extraction with Soft Prototypes
論文鏈接:
https://www.aclweb.org/anthology/2020.emnlp-main.164.pdf
代碼&數(shù)據(jù):
https://github.com/NLPWM-WHU/SoftProto
?
方面詞抽取任務(wù)
方面詞抽取任務(wù)(Aspect Term Extraction,ATE)是方面級(jí)情感分析中的一個(gè)基礎(chǔ)性子任務(wù)。給定一個(gè)評(píng)論文本,ATE 的目標(biāo)是抽取被用戶表達(dá)了情感的方面短語。例如對(duì)于評(píng)論“The Bombay style bhelpuri is very palatable.”,ATE 希望抽取出方面詞“bhelpuri”。
ATE 在過去二十年間已被廣泛研究。早期的研究多致力于設(shè)計(jì)規(guī)則或是手工特征實(shí)現(xiàn)抽取。隨著深度學(xué)習(xí)的發(fā)展,目前多數(shù)研究都將 ATE 當(dāng)作一個(gè)序列標(biāo)注任務(wù),并設(shè)計(jì)序列標(biāo)注器為評(píng)論生成對(duì)應(yīng)的標(biāo)簽序列。
?
問題與動(dòng)機(jī)
雖然現(xiàn)有的序列標(biāo)注方法在 ATE 任務(wù)上已經(jīng)取得了優(yōu)良的性能,但它們?nèi)匀幻鎸?duì)一個(gè)嚴(yán)峻的挑戰(zhàn):由于缺少包含尾部詞的樣本,序列標(biāo)注器可能會(huì)收斂到較差的狀態(tài)。如圖 1 所示,在常用的 SemEval 數(shù)據(jù)集中,大約 80% 的方面詞和環(huán)境詞(即非方面詞)都出現(xiàn)不超過 5 次。根據(jù)相關(guān)研究,在訓(xùn)練樣本不足的情況下,神經(jīng)網(wǎng)絡(luò)模型很難收斂到最優(yōu)狀態(tài)。
▲ 圖1?SemEval數(shù)據(jù)集中方面詞(左圖)與環(huán)境詞(右圖)的分布
?
為了解決上述問題,我們的基本設(shè)想是將樣本相互關(guān)聯(lián)起來,從而幫助罕見詞的抽取。例如,如果我們將前例中的罕見方面詞“bhelpuri”與常見方面詞“food”關(guān)聯(lián)起來,與“bhelpuri”相關(guān)的樣本就會(huì)變得很豐富。
為了建立這種關(guān)聯(lián),尋找同義詞是一個(gè)直觀的想法,但該方法存在兩個(gè)問題:首先,詞典中只有小部分詞能找到確定的同義詞,雖然可以采用詞向量尋找最近鄰,但其語義相似性并不能得到保證;其次,方面詞的存在是動(dòng)態(tài)的,需要根據(jù)是否有針對(duì)該詞的觀點(diǎn)來確定。因此,我們需要建立一種動(dòng)態(tài)的關(guān)聯(lián)關(guān)系,且要從單詞的上下文而非單詞本身入手。
本文提出了一種軟檢索方法以建立單詞級(jí)的關(guān)聯(lián)。如圖2所示,在進(jìn)行軟檢索之后,我們可以得到一個(gè)生成的樣本,其與原樣本在詞級(jí)一一對(duì)應(yīng)。我們將其稱為“軟模板”,因?yàn)槠淇梢宰鳛橐粋€(gè)參考點(diǎn)來指導(dǎo)模型對(duì)于原樣本的學(xué)習(xí)過程。
▲ 圖2 軟檢索過程示意圖
?
我們借助語言模型 LM 實(shí)現(xiàn)軟檢索的過程。作為一個(gè)自監(jiān)督的任務(wù),語言模型的建模過程不需要額外標(biāo)注,且能吸收領(lǐng)域內(nèi)的全局知識(shí)。此外,現(xiàn)有研究表明,語言模型傾向于生成常見的輸出,這恰好滿足了我們將罕見詞與常見詞關(guān)聯(lián)起來的需求。
具體地,我們首先根據(jù)給定的語料預(yù)訓(xùn)練雙向語言模型(語料可以來自訓(xùn)練集或外部無標(biāo)注數(shù)據(jù)),接著固定語言模型,再根據(jù)單詞的上下文來推斷其對(duì)應(yīng)的模板詞。我們將生成的軟模板當(dāng)作標(biāo)注方面詞的輔助證據(jù),從而為模型判別長尾詞提供助力。
?
SoftProto框架
如圖 3 所示,SoftProto 框架由三部分組成:(1)模板生成器,用于實(shí)現(xiàn)軟檢索過程,并為樣本生成對(duì)應(yīng)的軟模板;(2)門控調(diào)制器,用于融合樣本與軟模板的知識(shí),并生成融合后表示;(3)序列標(biāo)注器,用于預(yù)測(cè)標(biāo)簽序列。
▲ 圖3 SoftProto框架
?
模板生成器的工作過程分為兩部分,如圖 4 所示。首先根據(jù)給定的語料預(yù)訓(xùn)練雙向的語言模型。隨后,固定語言模型的參數(shù),就可以根據(jù)某一位置的前文或后文推斷該處可能的詞。
語言模型在某一位置的輸出為一個(gè)詞表大小的概率分布,我們?nèi)〕?top-K 個(gè)候選詞(本文稱作 Oracle Words),并按照其對(duì)應(yīng)的概率,對(duì)詞向量進(jìn)行加權(quán)求和,可計(jì)算出該位置上前向或后向的軟模板向量,最終軟模板向量取前后向模板向量的均值。將每一位置的軟模板向量按順序排列,即可獲得樣本對(duì)應(yīng)的軟模板序列。
▲?圖4 語言模型的預(yù)訓(xùn)練與推斷過程
?
門控調(diào)制器通過對(duì)樣本表示和軟模板表示進(jìn)行兩方面的操作來促進(jìn)融合:第一,軟模板自身包含了可以作為支撐證據(jù)的信息,因此先將每個(gè)單詞的向量與其對(duì)應(yīng)的軟模板向量進(jìn)行拼接;第二,軟模板向量可以提純?cè)瓨颖镜谋硎?#xff0c;因此再對(duì)拼接向量的每一維做門控操作,最終可獲得融合后向量。
如下式,其中 x 為原樣本中的單詞向量,p 為對(duì)應(yīng)的模板詞向量,f 為融合后向量。
序列標(biāo)注器的目標(biāo)是從融合后向量中提出高層語義特征,并據(jù)此預(yù)測(cè)標(biāo)簽序列。由于軟模板獨(dú)立于序列標(biāo)注器,因此可以選用任意現(xiàn)存的標(biāo)注器作為基準(zhǔn)。根據(jù)標(biāo)注器的預(yù)測(cè)結(jié)果,與真實(shí)標(biāo)簽計(jì)算交叉熵?fù)p失,即可端到端地訓(xùn)練 SoftProto 框架(語言模型的預(yù)訓(xùn)練不包含在訓(xùn)練過程中)。
?
實(shí)驗(yàn)
為了驗(yàn)證軟模板對(duì)于 ATE 任務(wù)的作用,我們?cè)?SemEval 2014~2016 的四個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),其統(tǒng)計(jì)信息如表 1 所示。所有數(shù)據(jù)集都有固定的訓(xùn)練/測(cè)試劃分,我們從訓(xùn)練集中隨機(jī)選取 150 個(gè)樣本作為驗(yàn)證集,在驗(yàn)證集上取得最優(yōu) F1 的模型被用于測(cè)試。
▲?表1 實(shí)驗(yàn)數(shù)據(jù)集
?
我們使用 Fairseq 工具包進(jìn)行語言模型的預(yù)訓(xùn)練操作。預(yù)訓(xùn)練語言模型的語料有兩種來源:1)使用 ATE 數(shù)據(jù)集中的訓(xùn)練/驗(yàn)證集作為語料。針對(duì)四個(gè)數(shù)據(jù)集,我們就獲得了四組語言模型(每一組包含前向和后向兩種)。這樣的設(shè)置利用了數(shù)據(jù)集的內(nèi)部(internal)知識(shí),因此稱作 SoftProtoI;2)使用外部的無標(biāo)注數(shù)據(jù)作為語料。由于四個(gè)數(shù)據(jù)集分別屬于 Restaurant 和 Laptop 領(lǐng)域,因此我們使用 Yelp 和 Amazon 的大規(guī)模無標(biāo)注數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,這樣就獲得了兩組語言模型,分別對(duì)應(yīng)兩個(gè)領(lǐng)域。這樣的設(shè)置利用了數(shù)據(jù)集外部(external)的知識(shí),因此稱作 SoftProtoE。
我們選取了 BiLSTM、DECNN 和 Seq2Seq4ATE 三種模型作為 SoftProto 框架中的序列標(biāo)注器,分別使用 SoftProtoI 和 SoftProtoE 對(duì)其進(jìn)行增強(qiáng)。
同時(shí),我們還對(duì)比了兩種常用的增強(qiáng)方式:第一種是 Synonym,使用同義詞替代語言模型生成的 Oracle Words;第二種是 Replacement,按照一定概率隨機(jī)將原樣本中的單詞用其對(duì)應(yīng)的模板詞替換。最后,我們還選取了 SemEval 各數(shù)據(jù)集的優(yōu)勝模型和一些常用的神經(jīng)網(wǎng)絡(luò)模型作為 baseline 進(jìn)行對(duì)比。
如表 2 的實(shí)驗(yàn)結(jié)果所示,在 SoftProto 的增強(qiáng)下,所有三個(gè)序列標(biāo)注器都得到了較大的提升。例如對(duì)于 Seq2Seq4ATE 模型,SoftProtoE 在 Res14 數(shù)據(jù)集上實(shí)現(xiàn)了 3.30% 的提升。
我們還發(fā)現(xiàn) SoftProto 帶來的提升在小數(shù)據(jù)集(Res15 和 Res16)上更為明顯,這是因?yàn)樵谛?shù)據(jù)集中沒有足夠的樣本來訓(xùn)練一個(gè)好的神經(jīng)網(wǎng)絡(luò)序列標(biāo)注器。
同時(shí),SoftProtoE 的性能優(yōu)于 SoftProtoI,這是因?yàn)橥獠空Z料庫要比 ATE 自身的數(shù)據(jù)集大得多,在其上訓(xùn)練的語言模型也包含了更多的信息,可以生成質(zhì)量更高的軟模板。顯然,Synonym 和 Replacement 的方法不適用于增強(qiáng) ATE 任務(wù),它們?cè)谀承﹫?chǎng)景下甚至帶來了性能的下降。
▲?表2 實(shí)驗(yàn)結(jié)果
?
分析
樣例分析:如表 3 所示,我們選取了測(cè)試集中的六個(gè)樣本,深入觀察 SoftProto 的作用。
1. S1 和 S2 是相似的場(chǎng)景,原模型 DECNN 都只抽取了詞組的一部分,其原因是這些詞組在訓(xùn)練集中并沒有出現(xiàn)過,其語義特征不夠強(qiáng)烈。SoftProto 為 [Pastor] 引入了 [nachos, burrito, salsa, food] 等詞,為 [touch] 引入了 [DSLR, cable,camera, projector] 等詞。這些詞提供了很強(qiáng)的指示作用,從而幫助模型進(jìn)行了正確地抽取。
2. S3 也是個(gè)很有趣的例子。[surfuring] 是 [surfing]的一個(gè)稀有變體,原模型難以識(shí)別。而 SoftProto 為其引入了 [browsing, management, interface, search] 等詞,使得模型很容易識(shí)別出整體的詞組。
3. S4 體現(xiàn)了 SoftProto 的另一個(gè)功能,即識(shí)別形容詞是屬于描述性 descriptive 還是情感性 sentimental 的。[internal] 作為 [CD] 的描述詞,其本身并不是情感詞,而是方面詞的一部分。原模型認(rèn)為其是情感詞而不對(duì)其進(jìn)行抽取,而 SoftProto 為其引入了 [AC, on/off, wire, cable] 等詞,這些名詞性信息可以幫助模型判斷 [internal] 為方面詞。
4. S5 和 S6 證明了 SoftProtoE 相對(duì)于 SoftProtoI 的優(yōu)勢(shì)。由于 SoftProtoI 中語言模型包含的信息量較少,其存在較多的噪聲干擾,為原模型帶來的幫助有限,而 SoftProtoE 的軟模板質(zhì)量則高得多。
▲?表3 樣例分析
?
尾部方面詞抽取分析:為了證明 SoftProto 對(duì)于尾部方面詞的抽取確實(shí)有幫助,我們保持訓(xùn)練集不變,從測(cè)試集中挑選出包含尾部方面詞的樣本,這些方面詞在訓(xùn)練集上出現(xiàn)的次數(shù)不超過三次。如表 4 結(jié)果所示,SoftProto 有效地增強(qiáng)了原模型對(duì)于尾部方面詞的識(shí)別。
▲?表4 尾部方面詞抽取結(jié)果
總結(jié)
本文提出了一種通用的 SoftProto 框架來增強(qiáng) ATE 任務(wù)。相較于設(shè)計(jì)復(fù)雜的序列標(biāo)注器,我們轉(zhuǎn)向?qū)颖就ㄟ^軟模板相互關(guān)聯(lián)。為此,我們借助語言模型來自動(dòng)生成軟模板,并設(shè)計(jì)了一個(gè)簡(jiǎn)單而有效的門控調(diào)制器來利用軟模板。
在 SemEval 四個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)表明,SoftProto 顯著地提升了三種經(jīng)典 ATE 模型的性能,并同時(shí)維持了較低的計(jì)算開銷。在引入如 Yelp 和 Amazon 的外部大規(guī)模語料后,SoftProto 的性能還可以進(jìn)一步提升。未來,我們將嘗試將軟模板的方法拓展到更多的自然語言處理任務(wù)上。
更多閱讀
?
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。
?????來稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
?
總結(jié)
以上是生活随笔為你收集整理的武汉大学提出软模板SoftProto框架,大幅增强方面词抽取任务的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 直播 | EMNLP 2020:用语义分
- 下一篇: @请注意查收:《史上最全的AI论文资料》