當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

武汉大学提出软模板SoftProto框架，大幅增强方面词抽取任务

發(fā)布時(shí)間：2024/10/8 编程问答 59 豆豆

生活随笔收集整理的這篇文章主要介紹了武汉大学提出软模板SoftProto框架，大幅增强方面词抽取任务小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?PaperWeekly 原創(chuàng) ·?作者｜陳壯

學(xué)校｜武漢大學(xué)博士生

研究方向｜情感分析、信息抽取等

本文介紹一篇我們發(fā)表于 EMNLP-2020?的論文《Enhancing Aspect Term Extraction with Soft Prototypes》，該工作提出基于軟模板的 SoftProto 框架來增強(qiáng)方面詞抽取任務(wù)，旨在解決評(píng)論文本中方面詞和環(huán)境詞具有長尾分布的問題。

SoftProto 框架幾乎可以與所有的序列標(biāo)注器進(jìn)行結(jié)合。在多個(gè) SemEval 數(shù)據(jù)集上的實(shí)驗(yàn)表明，軟模板的引入大幅度地提升了幾個(gè)經(jīng)典序列標(biāo)注器在方面詞抽取任務(wù)上的性能。

論文標(biāo)題：

Enhancing Aspect Term Extraction with Soft Prototypes

論文鏈接：

https://www.aclweb.org/anthology/2020.emnlp-main.164.pdf

代碼&數(shù)據(jù)：

https://github.com/NLPWM-WHU/SoftProto

方面詞抽取任務(wù)

方面詞抽取任務(wù)（Aspect Term Extraction，ATE）是方面級(jí)情感分析中的一個(gè)基礎(chǔ)性子任務(wù)。給定一個(gè)評(píng)論文本，ATE 的目標(biāo)是抽取被用戶表達(dá)了情感的方面短語。例如對(duì)于評(píng)論“The Bombay style bhelpuri is very palatable.”，ATE 希望抽取出方面詞“bhelpuri”。

ATE 在過去二十年間已被廣泛研究。早期的研究多致力于設(shè)計(jì)規(guī)則或是手工特征實(shí)現(xiàn)抽取。隨著深度學(xué)習(xí)的發(fā)展，目前多數(shù)研究都將 ATE 當(dāng)作一個(gè)序列標(biāo)注任務(wù)，并設(shè)計(jì)序列標(biāo)注器為評(píng)論生成對(duì)應(yīng)的標(biāo)簽序列。

問題與動(dòng)機(jī)

雖然現(xiàn)有的序列標(biāo)注方法在 ATE 任務(wù)上已經(jīng)取得了優(yōu)良的性能，但它們?nèi)匀幻鎸?duì)一個(gè)嚴(yán)峻的挑戰(zhàn)：由于缺少包含尾部詞的樣本，序列標(biāo)注器可能會(huì)收斂到較差的狀態(tài)。如圖 1 所示，在常用的 SemEval 數(shù)據(jù)集中，大約 80% 的方面詞和環(huán)境詞（即非方面詞）都出現(xiàn)不超過 5 次。根據(jù)相關(guān)研究，在訓(xùn)練樣本不足的情況下，神經(jīng)網(wǎng)絡(luò)模型很難收斂到最優(yōu)狀態(tài)。

▲ 圖1?SemEval數(shù)據(jù)集中方面詞（左圖）與環(huán)境詞（右圖）的分布

為了解決上述問題，我們的基本設(shè)想是將樣本相互關(guān)聯(lián)起來，從而幫助罕見詞的抽取。例如，如果我們將前例中的罕見方面詞“bhelpuri”與常見方面詞“food”關(guān)聯(lián)起來，與“bhelpuri”相關(guān)的樣本就會(huì)變得很豐富。

為了建立這種關(guān)聯(lián)，尋找同義詞是一個(gè)直觀的想法，但該方法存在兩個(gè)問題：首先，詞典中只有小部分詞能找到確定的同義詞，雖然可以采用詞向量尋找最近鄰，但其語義相似性并不能得到保證；其次，方面詞的存在是動(dòng)態(tài)的，需要根據(jù)是否有針對(duì)該詞的觀點(diǎn)來確定。因此，我們需要建立一種動(dòng)態(tài)的關(guān)聯(lián)關(guān)系，且要從單詞的上下文而非單詞本身入手。

本文提出了一種軟檢索方法以建立單詞級(jí)的關(guān)聯(lián)。如圖2所示，在進(jìn)行軟檢索之后，我們可以得到一個(gè)生成的樣本，其與原樣本在詞級(jí)一一對(duì)應(yīng)。我們將其稱為“軟模板”，因?yàn)槠淇梢宰鳛橐粋€(gè)參考點(diǎn)來指導(dǎo)模型對(duì)于原樣本的學(xué)習(xí)過程。

▲ 圖2 軟檢索過程示意圖

我們借助語言模型 LM 實(shí)現(xiàn)軟檢索的過程。作為一個(gè)自監(jiān)督的任務(wù)，語言模型的建模過程不需要額外標(biāo)注，且能吸收領(lǐng)域內(nèi)的全局知識(shí)。此外，現(xiàn)有研究表明，語言模型傾向于生成常見的輸出，這恰好滿足了我們將罕見詞與常見詞關(guān)聯(lián)起來的需求。

具體地，我們首先根據(jù)給定的語料預(yù)訓(xùn)練雙向語言模型（語料可以來自訓(xùn)練集或外部無標(biāo)注數(shù)據(jù)），接著固定語言模型，再根據(jù)單詞的上下文來推斷其對(duì)應(yīng)的模板詞。我們將生成的軟模板當(dāng)作標(biāo)注方面詞的輔助證據(jù)，從而為模型判別長尾詞提供助力。

SoftProto框架

如圖 3 所示，SoftProto 框架由三部分組成：（1）模板生成器，用于實(shí)現(xiàn)軟檢索過程，并為樣本生成對(duì)應(yīng)的軟模板；（2）門控調(diào)制器，用于融合樣本與軟模板的知識(shí)，并生成融合后表示；（3）序列標(biāo)注器，用于預(yù)測(cè)標(biāo)簽序列。

▲ 圖3 SoftProto框架

模板生成器的工作過程分為兩部分，如圖 4 所示。首先根據(jù)給定的語料預(yù)訓(xùn)練雙向的語言模型。隨后，固定語言模型的參數(shù)，就可以根據(jù)某一位置的前文或后文推斷該處可能的詞。

語言模型在某一位置的輸出為一個(gè)詞表大小的概率分布，我們?nèi)〕?top-K 個(gè)候選詞（本文稱作 Oracle Words），并按照其對(duì)應(yīng)的概率，對(duì)詞向量進(jìn)行加權(quán)求和，可計(jì)算出該位置上前向或后向的軟模板向量，最終軟模板向量取前后向模板向量的均值。將每一位置的軟模板向量按順序排列，即可獲得樣本對(duì)應(yīng)的軟模板序列。

▲?圖4 語言模型的預(yù)訓(xùn)練與推斷過程

門控調(diào)制器通過對(duì)樣本表示和軟模板表示進(jìn)行兩方面的操作來促進(jìn)融合：第一，軟模板自身包含了可以作為支撐證據(jù)的信息，因此先將每個(gè)單詞的向量與其對(duì)應(yīng)的軟模板向量進(jìn)行拼接；第二，軟模板向量可以提純?cè)瓨颖镜谋硎?#xff0c;因此再對(duì)拼接向量的每一維做門控操作，最終可獲得融合后向量。

如下式，其中 x 為原樣本中的單詞向量，p 為對(duì)應(yīng)的模板詞向量，f 為融合后向量。

序列標(biāo)注器的目標(biāo)是從融合后向量中提出高層語義特征，并據(jù)此預(yù)測(cè)標(biāo)簽序列。由于軟模板獨(dú)立于序列標(biāo)注器，因此可以選用任意現(xiàn)存的標(biāo)注器作為基準(zhǔn)。根據(jù)標(biāo)注器的預(yù)測(cè)結(jié)果，與真實(shí)標(biāo)簽計(jì)算交叉熵?fù)p失，即可端到端地訓(xùn)練 SoftProto 框架（語言模型的預(yù)訓(xùn)練不包含在訓(xùn)練過程中）。

實(shí)驗(yàn)

為了驗(yàn)證軟模板對(duì)于 ATE 任務(wù)的作用，我們?cè)?SemEval 2014~2016 的四個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，其統(tǒng)計(jì)信息如表 1 所示。所有數(shù)據(jù)集都有固定的訓(xùn)練/測(cè)試劃分，我們從訓(xùn)練集中隨機(jī)選取 150 個(gè)樣本作為驗(yàn)證集，在驗(yàn)證集上取得最優(yōu) F1 的模型被用于測(cè)試。

▲?表1 實(shí)驗(yàn)數(shù)據(jù)集

我們使用 Fairseq 工具包進(jìn)行語言模型的預(yù)訓(xùn)練操作。預(yù)訓(xùn)練語言模型的語料有兩種來源：1）使用 ATE 數(shù)據(jù)集中的訓(xùn)練/驗(yàn)證集作為語料。針對(duì)四個(gè)數(shù)據(jù)集，我們就獲得了四組語言模型（每一組包含前向和后向兩種）。這樣的設(shè)置利用了數(shù)據(jù)集的內(nèi)部（internal）知識(shí)，因此稱作 SoftProtoI；2）使用外部的無標(biāo)注數(shù)據(jù)作為語料。由于四個(gè)數(shù)據(jù)集分別屬于 Restaurant 和 Laptop 領(lǐng)域，因此我們使用 Yelp 和 Amazon 的大規(guī)模無標(biāo)注數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，這樣就獲得了兩組語言模型，分別對(duì)應(yīng)兩個(gè)領(lǐng)域。這樣的設(shè)置利用了數(shù)據(jù)集外部（external）的知識(shí)，因此稱作 SoftProtoE。

我們選取了 BiLSTM、DECNN 和 Seq2Seq4ATE 三種模型作為 SoftProto 框架中的序列標(biāo)注器，分別使用 SoftProtoI 和 SoftProtoE 對(duì)其進(jìn)行增強(qiáng)。

同時(shí)，我們還對(duì)比了兩種常用的增強(qiáng)方式：第一種是 Synonym，使用同義詞替代語言模型生成的 Oracle Words；第二種是 Replacement，按照一定概率隨機(jī)將原樣本中的單詞用其對(duì)應(yīng)的模板詞替換。最后，我們還選取了 SemEval 各數(shù)據(jù)集的優(yōu)勝模型和一些常用的神經(jīng)網(wǎng)絡(luò)模型作為 baseline 進(jìn)行對(duì)比。

如表 2 的實(shí)驗(yàn)結(jié)果所示，在 SoftProto 的增強(qiáng)下，所有三個(gè)序列標(biāo)注器都得到了較大的提升。例如對(duì)于 Seq2Seq4ATE 模型，SoftProtoE 在 Res14 數(shù)據(jù)集上實(shí)現(xiàn)了 3.30% 的提升。

我們還發(fā)現(xiàn) SoftProto 帶來的提升在小數(shù)據(jù)集（Res15 和 Res16）上更為明顯，這是因?yàn)樵谛?shù)據(jù)集中沒有足夠的樣本來訓(xùn)練一個(gè)好的神經(jīng)網(wǎng)絡(luò)序列標(biāo)注器。

同時(shí)，SoftProtoE 的性能優(yōu)于 SoftProtoI，這是因?yàn)橥獠空Z料庫要比 ATE 自身的數(shù)據(jù)集大得多，在其上訓(xùn)練的語言模型也包含了更多的信息，可以生成質(zhì)量更高的軟模板。顯然，Synonym 和 Replacement 的方法不適用于增強(qiáng) ATE 任務(wù)，它們?cè)谀承﹫?chǎng)景下甚至帶來了性能的下降。

▲?表2 實(shí)驗(yàn)結(jié)果

分析

樣例分析：如表 3 所示，我們選取了測(cè)試集中的六個(gè)樣本，深入觀察 SoftProto 的作用。

1. S1 和 S2 是相似的場(chǎng)景，原模型 DECNN 都只抽取了詞組的一部分，其原因是這些詞組在訓(xùn)練集中并沒有出現(xiàn)過，其語義特征不夠強(qiáng)烈。SoftProto 為 [Pastor] 引入了 [nachos, burrito, salsa, food] 等詞，為 [touch] 引入了 [DSLR, cable,camera, projector] 等詞。這些詞提供了很強(qiáng)的指示作用，從而幫助模型進(jìn)行了正確地抽取。

2. S3 也是個(gè)很有趣的例子。[surfuring] 是 [surfing]的一個(gè)稀有變體，原模型難以識(shí)別。而 SoftProto 為其引入了 [browsing, management, interface, search] 等詞，使得模型很容易識(shí)別出整體的詞組。

3. S4 體現(xiàn)了 SoftProto 的另一個(gè)功能，即識(shí)別形容詞是屬于描述性 descriptive 還是情感性 sentimental 的。[internal] 作為 [CD] 的描述詞，其本身并不是情感詞，而是方面詞的一部分。原模型認(rèn)為其是情感詞而不對(duì)其進(jìn)行抽取，而 SoftProto 為其引入了 [AC, on/off, wire, cable] 等詞，這些名詞性信息可以幫助模型判斷 [internal] 為方面詞。

4. S5 和 S6 證明了 SoftProtoE 相對(duì)于 SoftProtoI 的優(yōu)勢(shì)。由于 SoftProtoI 中語言模型包含的信息量較少，其存在較多的噪聲干擾，為原模型帶來的幫助有限，而 SoftProtoE 的軟模板質(zhì)量則高得多。

▲?表3 樣例分析

尾部方面詞抽取分析：為了證明 SoftProto 對(duì)于尾部方面詞的抽取確實(shí)有幫助，我們保持訓(xùn)練集不變，從測(cè)試集中挑選出包含尾部方面詞的樣本，這些方面詞在訓(xùn)練集上出現(xiàn)的次數(shù)不超過三次。如表 4 結(jié)果所示，SoftProto 有效地增強(qiáng)了原模型對(duì)于尾部方面詞的識(shí)別。

▲?表4 尾部方面詞抽取結(jié)果

總結(jié)

本文提出了一種通用的 SoftProto 框架來增強(qiáng) ATE 任務(wù)。相較于設(shè)計(jì)復(fù)雜的序列標(biāo)注器，我們轉(zhuǎn)向?qū)颖就ㄟ^軟模板相互關(guān)聯(lián)。為此，我們借助語言模型來自動(dòng)生成軟模板，并設(shè)計(jì)了一個(gè)簡(jiǎn)單而有效的門控調(diào)制器來利用軟模板。

在 SemEval 四個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)表明，SoftProto 顯著地提升了三種經(jīng)典 ATE 模型的性能，并同時(shí)維持了較低的計(jì)算開銷。在引入如 Yelp 和 Amazon 的外部大規(guī)模語料后，SoftProto 的性能還可以進(jìn)一步提升。未來，我們將嘗試將軟模板的方法拓展到更多的自然語言處理任務(wù)上。

更多閱讀

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人，在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè)，讓知識(shí)真正流動(dòng)起來。

?????來稿標(biāo)準(zhǔn)：

? 稿件確系個(gè)人原創(chuàng)作品，來稿需注明作者個(gè)人信息（姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向）?

? 如果文章并非首發(fā)，請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā)，均會(huì)添加“原創(chuàng)”標(biāo)志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請(qǐng)單獨(dú)在附件中發(fā)送?

? 請(qǐng)留下即時(shí)聯(lián)系方式（微信或手機(jī)），以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通

????

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的武汉大学提出软模板SoftProto框架，大幅增强方面词抽取任务的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：直播 | EMNLP 2020：用语义分
下一篇： @请注意查收：《史上最全的AI论文资料》