日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

武汉大学提出软模板SoftProto框架,大幅增强方面词抽取任务

發(fā)布時(shí)間:2024/10/8 编程问答 59 豆豆
生活随笔 收集整理的這篇文章主要介紹了 武汉大学提出软模板SoftProto框架,大幅增强方面词抽取任务 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.


?PaperWeekly 原創(chuàng) ·?作者|陳壯

學(xué)校|武漢大學(xué)博士生

研究方向|情感分析、信息抽取等

本文介紹一篇我們發(fā)表于 EMNLP-2020?的論文《Enhancing Aspect Term Extraction with Soft Prototypes》,該工作提出基于軟模板的 SoftProto 框架來增強(qiáng)方面詞抽取任務(wù),旨在解決評(píng)論文本中方面詞和環(huán)境詞具有長尾分布的問題。

SoftProto 框架幾乎可以與所有的序列標(biāo)注器進(jìn)行結(jié)合。在多個(gè) SemEval 數(shù)據(jù)集上的實(shí)驗(yàn)表明,軟模板的引入大幅度地提升了幾個(gè)經(jīng)典序列標(biāo)注器在方面詞抽取任務(wù)上的性能。

?

論文標(biāo)題:

Enhancing Aspect Term Extraction with Soft Prototypes

論文鏈接:

https://www.aclweb.org/anthology/2020.emnlp-main.164.pdf

代碼&數(shù)據(jù):

https://github.com/NLPWM-WHU/SoftProto

?

方面詞抽取任務(wù)

方面詞抽取任務(wù)(Aspect Term Extraction,ATE)是方面級(jí)情感分析中的一個(gè)基礎(chǔ)性子任務(wù)。給定一個(gè)評(píng)論文本,ATE 的目標(biāo)是抽取被用戶表達(dá)了情感的方面短語。例如對(duì)于評(píng)論“The Bombay style bhelpuri is very palatable.”,ATE 希望抽取出方面詞“bhelpuri”。

ATE 在過去二十年間已被廣泛研究。早期的研究多致力于設(shè)計(jì)規(guī)則或是手工特征實(shí)現(xiàn)抽取。隨著深度學(xué)習(xí)的發(fā)展,目前多數(shù)研究都將 ATE 當(dāng)作一個(gè)序列標(biāo)注任務(wù),并設(shè)計(jì)序列標(biāo)注器為評(píng)論生成對(duì)應(yīng)的標(biāo)簽序列。

?

問題與動(dòng)機(jī)

雖然現(xiàn)有的序列標(biāo)注方法在 ATE 任務(wù)上已經(jīng)取得了優(yōu)良的性能,但它們?nèi)匀幻鎸?duì)一個(gè)嚴(yán)峻的挑戰(zhàn):由于缺少包含尾部詞的樣本,序列標(biāo)注器可能會(huì)收斂到較差的狀態(tài)。如圖 1 所示,在常用的 SemEval 數(shù)據(jù)集中,大約 80% 的方面詞和環(huán)境詞(即非方面詞)都出現(xiàn)不超過 5 次。根據(jù)相關(guān)研究,在訓(xùn)練樣本不足的情況下,神經(jīng)網(wǎng)絡(luò)模型很難收斂到最優(yōu)狀態(tài)。

▲ 圖1?SemEval數(shù)據(jù)集中方面詞(左圖)與環(huán)境詞(右圖)的分布

?

為了解決上述問題,我們的基本設(shè)想是將樣本相互關(guān)聯(lián)起來,從而幫助罕見詞的抽取。例如,如果我們將前例中的罕見方面詞“bhelpuri”與常見方面詞“food”關(guān)聯(lián)起來,與“bhelpuri”相關(guān)的樣本就會(huì)變得很豐富。

為了建立這種關(guān)聯(lián),尋找同義詞是一個(gè)直觀的想法,但該方法存在兩個(gè)問題:首先,詞典中只有小部分詞能找到確定的同義詞,雖然可以采用詞向量尋找最近鄰,但其語義相似性并不能得到保證;其次,方面詞的存在是動(dòng)態(tài)的,需要根據(jù)是否有針對(duì)該詞的觀點(diǎn)來確定。因此,我們需要建立一種動(dòng)態(tài)的關(guān)聯(lián)關(guān)系,且要從單詞的上下文而非單詞本身入手。

本文提出了一種軟檢索方法以建立單詞級(jí)的關(guān)聯(lián)。如圖2所示,在進(jìn)行軟檢索之后,我們可以得到一個(gè)生成的樣本,其與原樣本在詞級(jí)一一對(duì)應(yīng)。我們將其稱為“軟模板”,因?yàn)槠淇梢宰鳛橐粋€(gè)參考點(diǎn)來指導(dǎo)模型對(duì)于原樣本的學(xué)習(xí)過程。

▲ 圖2 軟檢索過程示意圖

?

我們借助語言模型 LM 實(shí)現(xiàn)軟檢索的過程。作為一個(gè)自監(jiān)督的任務(wù),語言模型的建模過程不需要額外標(biāo)注,且能吸收領(lǐng)域內(nèi)的全局知識(shí)。此外,現(xiàn)有研究表明,語言模型傾向于生成常見的輸出,這恰好滿足了我們將罕見詞與常見詞關(guān)聯(lián)起來的需求。

具體地,我們首先根據(jù)給定的語料預(yù)訓(xùn)練雙向語言模型(語料可以來自訓(xùn)練集或外部無標(biāo)注數(shù)據(jù)),接著固定語言模型,再根據(jù)單詞的上下文來推斷其對(duì)應(yīng)的模板詞。我們將生成的軟模板當(dāng)作標(biāo)注方面詞的輔助證據(jù),從而為模型判別長尾詞提供助力。

?

SoftProto框架

如圖 3 所示,SoftProto 框架由三部分組成:(1)模板生成器,用于實(shí)現(xiàn)軟檢索過程,并為樣本生成對(duì)應(yīng)的軟模板;(2)門控調(diào)制器,用于融合樣本與軟模板的知識(shí),并生成融合后表示;(3)序列標(biāo)注器,用于預(yù)測(cè)標(biāo)簽序列。

▲ 圖3 SoftProto框架

?

模板生成器的工作過程分為兩部分,如圖 4 所示。首先根據(jù)給定的語料預(yù)訓(xùn)練雙向的語言模型。隨后,固定語言模型的參數(shù),就可以根據(jù)某一位置的前文或后文推斷該處可能的詞。

語言模型在某一位置的輸出為一個(gè)詞表大小的概率分布,我們?nèi)〕?top-K 個(gè)候選詞(本文稱作 Oracle Words),并按照其對(duì)應(yīng)的概率,對(duì)詞向量進(jìn)行加權(quán)求和,可計(jì)算出該位置上前向或后向的軟模板向量,最終軟模板向量取前后向模板向量的均值。將每一位置的軟模板向量按順序排列,即可獲得樣本對(duì)應(yīng)的軟模板序列。

▲?圖4 語言模型的預(yù)訓(xùn)練與推斷過程

?

門控調(diào)制器通過對(duì)樣本表示和軟模板表示進(jìn)行兩方面的操作來促進(jìn)融合:第一,軟模板自身包含了可以作為支撐證據(jù)的信息,因此先將每個(gè)單詞的向量與其對(duì)應(yīng)的軟模板向量進(jìn)行拼接;第二,軟模板向量可以提純?cè)瓨颖镜谋硎?#xff0c;因此再對(duì)拼接向量的每一維做門控操作,最終可獲得融合后向量。

如下式,其中 x 為原樣本中的單詞向量,p 為對(duì)應(yīng)的模板詞向量,f 為融合后向量。

序列標(biāo)注器的目標(biāo)是從融合后向量中提出高層語義特征,并據(jù)此預(yù)測(cè)標(biāo)簽序列。由于軟模板獨(dú)立于序列標(biāo)注器,因此可以選用任意現(xiàn)存的標(biāo)注器作為基準(zhǔn)。根據(jù)標(biāo)注器的預(yù)測(cè)結(jié)果,與真實(shí)標(biāo)簽計(jì)算交叉熵?fù)p失,即可端到端地訓(xùn)練 SoftProto 框架(語言模型的預(yù)訓(xùn)練不包含在訓(xùn)練過程中)。

?

實(shí)驗(yàn)

為了驗(yàn)證軟模板對(duì)于 ATE 任務(wù)的作用,我們?cè)?SemEval 2014~2016 的四個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),其統(tǒng)計(jì)信息如表 1 所示。所有數(shù)據(jù)集都有固定的訓(xùn)練/測(cè)試劃分,我們從訓(xùn)練集中隨機(jī)選取 150 個(gè)樣本作為驗(yàn)證集,在驗(yàn)證集上取得最優(yōu) F1 的模型被用于測(cè)試。

▲?表1 實(shí)驗(yàn)數(shù)據(jù)集

?

我們使用 Fairseq 工具包進(jìn)行語言模型的預(yù)訓(xùn)練操作。預(yù)訓(xùn)練語言模型的語料有兩種來源:1)使用 ATE 數(shù)據(jù)集中的訓(xùn)練/驗(yàn)證集作為語料。針對(duì)四個(gè)數(shù)據(jù)集,我們就獲得了四組語言模型(每一組包含前向和后向兩種)。這樣的設(shè)置利用了數(shù)據(jù)集的內(nèi)部(internal)知識(shí),因此稱作 SoftProtoI;2)使用外部的無標(biāo)注數(shù)據(jù)作為語料。由于四個(gè)數(shù)據(jù)集分別屬于 Restaurant 和 Laptop 領(lǐng)域,因此我們使用 Yelp 和 Amazon 的大規(guī)模無標(biāo)注數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,這樣就獲得了兩組語言模型,分別對(duì)應(yīng)兩個(gè)領(lǐng)域。這樣的設(shè)置利用了數(shù)據(jù)集外部(external)的知識(shí),因此稱作 SoftProtoE。

我們選取了 BiLSTM、DECNN 和 Seq2Seq4ATE 三種模型作為 SoftProto 框架中的序列標(biāo)注器,分別使用 SoftProtoI 和 SoftProtoE 對(duì)其進(jìn)行增強(qiáng)。

同時(shí),我們還對(duì)比了兩種常用的增強(qiáng)方式:第一種是 Synonym,使用同義詞替代語言模型生成的 Oracle Words;第二種是 Replacement,按照一定概率隨機(jī)將原樣本中的單詞用其對(duì)應(yīng)的模板詞替換。最后,我們還選取了 SemEval 各數(shù)據(jù)集的優(yōu)勝模型和一些常用的神經(jīng)網(wǎng)絡(luò)模型作為 baseline 進(jìn)行對(duì)比。

如表 2 的實(shí)驗(yàn)結(jié)果所示,在 SoftProto 的增強(qiáng)下,所有三個(gè)序列標(biāo)注器都得到了較大的提升。例如對(duì)于 Seq2Seq4ATE 模型,SoftProtoE 在 Res14 數(shù)據(jù)集上實(shí)現(xiàn)了 3.30% 的提升。

我們還發(fā)現(xiàn) SoftProto 帶來的提升在小數(shù)據(jù)集(Res15 和 Res16)上更為明顯,這是因?yàn)樵谛?shù)據(jù)集中沒有足夠的樣本來訓(xùn)練一個(gè)好的神經(jīng)網(wǎng)絡(luò)序列標(biāo)注器。

同時(shí),SoftProtoE 的性能優(yōu)于 SoftProtoI,這是因?yàn)橥獠空Z料庫要比 ATE 自身的數(shù)據(jù)集大得多,在其上訓(xùn)練的語言模型也包含了更多的信息,可以生成質(zhì)量更高的軟模板。顯然,Synonym 和 Replacement 的方法不適用于增強(qiáng) ATE 任務(wù),它們?cè)谀承﹫?chǎng)景下甚至帶來了性能的下降。

▲?表2 實(shí)驗(yàn)結(jié)果

?

分析

樣例分析:如表 3 所示,我們選取了測(cè)試集中的六個(gè)樣本,深入觀察 SoftProto 的作用。

1. S1 和 S2 是相似的場(chǎng)景,原模型 DECNN 都只抽取了詞組的一部分,其原因是這些詞組在訓(xùn)練集中并沒有出現(xiàn)過,其語義特征不夠強(qiáng)烈。SoftProto 為 [Pastor] 引入了 [nachos, burrito, salsa, food] 等詞,為 [touch] 引入了 [DSLR, cable,camera, projector] 等詞。這些詞提供了很強(qiáng)的指示作用,從而幫助模型進(jìn)行了正確地抽取。

2. S3 也是個(gè)很有趣的例子。[surfuring] 是 [surfing]的一個(gè)稀有變體,原模型難以識(shí)別。而 SoftProto 為其引入了 [browsing, management, interface, search] 等詞,使得模型很容易識(shí)別出整體的詞組。

3. S4 體現(xiàn)了 SoftProto 的另一個(gè)功能,即識(shí)別形容詞是屬于描述性 descriptive 還是情感性 sentimental 的。[internal] 作為 [CD] 的描述詞,其本身并不是情感詞,而是方面詞的一部分。原模型認(rèn)為其是情感詞而不對(duì)其進(jìn)行抽取,而 SoftProto 為其引入了 [AC, on/off, wire, cable] 等詞,這些名詞性信息可以幫助模型判斷 [internal] 為方面詞。

4. S5 和 S6 證明了 SoftProtoE 相對(duì)于 SoftProtoI 的優(yōu)勢(shì)。由于 SoftProtoI 中語言模型包含的信息量較少,其存在較多的噪聲干擾,為原模型帶來的幫助有限,而 SoftProtoE 的軟模板質(zhì)量則高得多。

▲?表3 樣例分析

?

尾部方面詞抽取分析:為了證明 SoftProto 對(duì)于尾部方面詞的抽取確實(shí)有幫助,我們保持訓(xùn)練集不變,從測(cè)試集中挑選出包含尾部方面詞的樣本,這些方面詞在訓(xùn)練集上出現(xiàn)的次數(shù)不超過三次。如表 4 結(jié)果所示,SoftProto 有效地增強(qiáng)了原模型對(duì)于尾部方面詞的識(shí)別。

▲?表4 尾部方面詞抽取結(jié)果

總結(jié)

本文提出了一種通用的 SoftProto 框架來增強(qiáng) ATE 任務(wù)。相較于設(shè)計(jì)復(fù)雜的序列標(biāo)注器,我們轉(zhuǎn)向?qū)颖就ㄟ^軟模板相互關(guān)聯(lián)。為此,我們借助語言模型來自動(dòng)生成軟模板,并設(shè)計(jì)了一個(gè)簡(jiǎn)單而有效的門控調(diào)制器來利用軟模板。

在 SemEval 四個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)表明,SoftProto 顯著地提升了三種經(jīng)典 ATE 模型的性能,并同時(shí)維持了較低的計(jì)算開銷。在引入如 Yelp 和 Amazon 的外部大規(guī)模語料后,SoftProto 的性能還可以進(jìn)一步提升。未來,我們將嘗試將軟模板的方法拓展到更多的自然語言處理任務(wù)上。

更多閱讀

?

#投 稿?通 道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。

?????來稿標(biāo)準(zhǔn):

? 稿件確系個(gè)人原創(chuàng)作品,來稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?

? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志

?????投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?

? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通

????

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

?

總結(jié)

以上是生活随笔為你收集整理的武汉大学提出软模板SoftProto框架,大幅增强方面词抽取任务的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 亚洲一线二线在线观看 | 波多野结衣一二三区 | 色综合久久久久无码专区 | 一级伦理农村妇女愉情 | 国产精品人妻 | 玖玖爱国产 | 国产视频在线观看一区二区 | 欧美日韩中文字幕一区二区三区 | 韩日精品在线观看 | 日本性久久 | www.亚洲色图 | 九色影视 | 亚洲h片 | 伊人一道本 | 国内精品免费 | 玖玖999 | 男人操女人免费视频 | 中文字幕一区二区三区四区不卡 | h片在线看| 欧美福利一区 | 日韩精品在线一区二区 | 久久四虎| 爱情岛成人 | 18国产免费视频 | 国产69精品久久久久999小说 | 久久精品国产亚洲7777 | 久久影视 | 亚洲欧洲一区 | 理论片大全免费理伦片 | 成人免费不卡视频 | 国产网站在线看 | 日韩一区免费视频 | 吃奶在线观看 | 免费成人av网址 | 亚洲一级成人 | 男人的网站在线观看 | 熟女少妇精品一区二区 | 一区二区三区四区日韩 | 日本亚洲欧洲色 | 日本黄页视频 | 日日操日日摸 | 精品亚洲综合 | 欧美熟妇另类久久久久久不卡 | 深夜视频在线 | 久久精品国产亚洲av香蕉 | 伊人天天| 国产欧美日韩高清 | 欧美日韩在线视频免费观看 | 亚洲啪啪网址 | 丰满岳乱妇一区二区 | 日韩免费av网站 | 久久久久亚洲av无码专区 | 天天干天天天 | 欧美a级成人淫片免费看 | 精品人妻一区二区三区日产乱码卜 | 热久久中文字幕 | 黄色免费av| 亚洲精品www久久久久久 | 国产成人精品视频在线 | 久久久老熟女一区二区三区91 | 三级欧美视频 | 国产精品免费看久久久无码 | 国产成人短视频在线观看 | 森泽佳奈在线播放 | 亚洲丝袜视频 | 中文字幕一区二区三区门四区五区 | 国产亚洲精品精品精品 | 欧美69av| 亚洲国产精品欧美久久 | 免费污网站在线观看 | 精品久久国产视频 | 亚洲综合一区在线观看 | 亚洲国产婷婷 | 国语一区 | 精品视频第一页 | 97精品国产 | 爱爱视频欧美 | 婷婷资源网 | 2021毛片| 国产成人短视频在线观看 | 亚洲色图网站 | 狠狠综合 | 夜夜草影院 | 日韩精品成人一区二区在线 | 浪潮av色 | 国产91久久婷婷一区二区 | 男人靠女人免费视频网站 | 男女无套免费视频网站动漫 | 亚洲精品国产av | 亚洲色图欧美日韩 | 中文字幕有码在线播放 | 亚洲一区二区国产精品 | 成人国产免费观看 | 国产美女视频免费观看下载软件 | 欲求不满的岳中文字幕 | 91精产国品 | 国产极品免费 | 成人免费视频国产免费麻豆 | 成人高清视频免费观看 |