论文浅尝 | 将结构预测作为增广自然语言间的翻译任务
筆記整理 |?葉宏彬,浙江大學(xué)計(jì)算機(jī)博士生
論文地址:https://openreview.net/pdf?id=US-TP-xnXI
摘要:我們提出了一個(gè)新的框架,即增強(qiáng)自然語(yǔ)言之間的翻譯(Translation-between-Augmented Natural Languages,TANL)來(lái)解決許多結(jié)構(gòu)化預(yù)測(cè)語(yǔ)言任務(wù),包括聯(lián)合實(shí)體和關(guān)系提取、嵌套命名實(shí)體識(shí)別、關(guān)系分類(lèi)、語(yǔ)義角色標(biāo)注、事件提取、共指消解和對(duì)話(huà)狀態(tài)跟蹤。我們沒(méi)有訓(xùn)練特定于任務(wù)的區(qū)分分類(lèi)器來(lái)解決這個(gè)問(wèn)題,而是將其框架化為一個(gè)增強(qiáng)自然語(yǔ)言之間的翻譯任務(wù),從中可以很容易地提取與任務(wù)相關(guān)的信息。我們的方法可以在所有任務(wù)上匹配或優(yōu)于任務(wù)特定模型,特別是在聯(lián)合實(shí)體和關(guān)系提取(CoNLL04、ADE、NYT和ACE2005數(shù)據(jù)集)、關(guān)系分類(lèi)(FewRel和TACRED)和語(yǔ)義角色標(biāo)記(CoNLL-2005和CoNLL2012)方面取得了最新的成果。我們?cè)跒樗腥蝿?wù)使用相同的體系結(jié)構(gòu)和超參數(shù),甚至訓(xùn)練單個(gè)模型同時(shí)解決所有任務(wù)(多任務(wù)學(xué)習(xí))的情況下實(shí)現(xiàn)了這一點(diǎn)。最后,我們表明,由于更好地使用了標(biāo)簽語(yǔ)義,我們的框架還可以在低資源情況下顯著提高性能。
動(dòng)機(jī)
結(jié)構(gòu)化預(yù)測(cè)是指輸出空間由結(jié)構(gòu)化對(duì)象組成的推理任務(wù),例如表示實(shí)體及其關(guān)系的圖。在自然語(yǔ)言處理中,結(jié)構(gòu)化預(yù)測(cè)涉及到實(shí)體和關(guān)系提取、語(yǔ)義角色標(biāo)注和共指消解等廣泛的問(wèn)題。例如,如圖1,我們展示了兩個(gè)結(jié)構(gòu)預(yù)測(cè)任務(wù)(聯(lián)合實(shí)體和關(guān)系提取以及共指消解任務(wù)):
圖1 結(jié)構(gòu)預(yù)測(cè)任務(wù)示例
大多數(shù)方法通過(guò)在諸如BERT之類(lèi)的預(yù)訓(xùn)練變換編碼器的基礎(chǔ)上,對(duì)各種類(lèi)型的關(guān)系或?qū)傩允褂锰囟ㄓ谌蝿?wù)的鑒別器來(lái)處理結(jié)構(gòu)化預(yù)測(cè)。然而,這有兩個(gè)局限性。首先,有區(qū)別的分類(lèi)器不能很容易地利用預(yù)先訓(xùn)練的模型可能已經(jīng)具有的關(guān)于任務(wù)標(biāo)簽的語(yǔ)義的潛在知識(shí)。例如,知道一個(gè)人可以寫(xiě)一本書(shū)將大大簡(jiǎn)化學(xué)習(xí)作者關(guān)系在上述例子。然而,判別模型通常是在不知道標(biāo)簽語(yǔ)義的情況下訓(xùn)練的(它們的目標(biāo)是類(lèi)號(hào)),從而防止了這種正遷移。第二,由于判別模型的結(jié)構(gòu)適合于特定的任務(wù),因此很難訓(xùn)練單個(gè)模型來(lái)解決多個(gè)任務(wù),或者在不改變判別器的特定于任務(wù)的組件的情況下從一個(gè)任務(wù)微調(diào)模型到另一個(gè)任務(wù)(轉(zhuǎn)移學(xué)習(xí))。因此,作者想解決的主要問(wèn)題是:能否設(shè)計(jì)一個(gè)框架來(lái)解決不同的問(wèn)題。
方法
在本文中,作者提出了一個(gè) text-to-text的模型來(lái)解決這個(gè)問(wèn)題,通過(guò)將其框架化為增強(qiáng)自然語(yǔ)言(TANL)之間的翻譯任務(wù)。圖2顯示了在三個(gè)不同的結(jié)構(gòu)化預(yù)測(cè)任務(wù)的情況下,如何在的框架內(nèi)處理前面的示例。增廣語(yǔ)言的設(shè)計(jì)使得在輸入中對(duì)結(jié)構(gòu)化信息(如相關(guān)實(shí)體)進(jìn)行編碼,并將輸出文本解碼為結(jié)構(gòu)化信息變得容易。實(shí)驗(yàn)表明,開(kāi)箱即用的Transformer模型可以很容易地學(xué)習(xí)這種增強(qiáng)的語(yǔ)言翻譯任務(wù)。事實(shí)上,作者成功將框架應(yīng)用于廣泛的結(jié)構(gòu)化預(yù)測(cè)問(wèn)題,在許多數(shù)據(jù)集上獲得了最新的結(jié)果。在所有任務(wù)上都使用相同的體系結(jié)構(gòu)和超參數(shù),任務(wù)之間的唯一區(qū)別是增強(qiáng)的自然語(yǔ)言格式。這與以前使用特定任務(wù)區(qū)分模型的方法不同。輸入和輸出格式的選擇是至關(guān)重要的:通過(guò)使用盡可能接近自然語(yǔ)言的格式的注釋。嵌套實(shí)體和任意數(shù)量的關(guān)系也可以巧妙地處理,作者實(shí)現(xiàn)了一個(gè)對(duì)齊算法,將從輸出句子中提取的結(jié)構(gòu)信息與輸入句子中相應(yīng)的標(biāo)記進(jìn)行魯棒匹配。
圖2 增強(qiáng)自然語(yǔ)言框架
以聯(lián)合實(shí)體和關(guān)系抽取任務(wù)為例,如圖3。給定一個(gè)句子,這個(gè)任務(wù)的目的是提取一組實(shí)體和一組實(shí)體對(duì)之間的關(guān)系。每個(gè)預(yù)測(cè)的實(shí)體和關(guān)系必須分配給一個(gè)實(shí)體或關(guān)系類(lèi)型。為此任務(wù)設(shè)計(jì)的增強(qiáng)自然語(yǔ)言所需的輸出復(fù)制了輸入語(yǔ)句,并使用可解碼為結(jié)構(gòu)化對(duì)象的模式對(duì)其進(jìn)行擴(kuò)充,由一個(gè)實(shí)體和一些可能的關(guān)系組成的每個(gè)組都由特殊標(biāo)記[]括起來(lái)。一系列分隔的標(biāo)記以“X=Y”格式描述實(shí)體類(lèi)型和關(guān)系列表,其中X是關(guān)系類(lèi)型,Y是另一個(gè)實(shí)體(關(guān)系的尾部)。此外文中也列出了命名實(shí)體識(shí)別、關(guān)系分類(lèi)、語(yǔ)義角色標(biāo)注、共指消解、事件提取、對(duì)話(huà)狀態(tài)跟蹤這些任務(wù)各自的表示形式。
圖3 聯(lián)合實(shí)體和關(guān)系抽取任務(wù)
面對(duì)嵌套實(shí)體和多重關(guān)系這一特殊情況,如圖4。嵌套模式允許我們表示實(shí)體的層次結(jié)構(gòu)。在ADE數(shù)據(jù)集中的以下示例中,實(shí)體“l(fā)ithium toxicity”屬于disease類(lèi)型,并且具有drug類(lèi)型的子實(shí)體“l(fā)ithium”。“l(fā)ithium toxicity”實(shí)體涉及多種關(guān)系:一種是與“acyclovir”實(shí)體的effect類(lèi)型,另一種是與“l(fā)ithium”實(shí)體的effect類(lèi)型。一般來(lái)說(shuō),輸出中的關(guān)系可以以任何順序出現(xiàn)。
圖4 嵌套實(shí)體和多重關(guān)系
解碼結(jié)構(gòu)化對(duì)象過(guò)程中。一旦模型生成了一個(gè)擴(kuò)充自然語(yǔ)言格式的輸出句子,就對(duì)該句子進(jìn)行解碼以獲得預(yù)測(cè)的結(jié)構(gòu)化對(duì)象,如下幾點(diǎn):
1.移除所有特殊標(biāo)記并提取實(shí)體類(lèi)型和關(guān)系,以生成干凈的輸出。如果生成的句子的一部分格式無(wú)效,則該部分將被丟棄。
2.使用基于動(dòng)態(tài)規(guī)劃(DP)的Needleman-Wunsch對(duì)齊算法在令牌級(jí)別匹配輸入語(yǔ)句和清潔的輸出語(yǔ)句。然后,我們使用這種對(duì)齊來(lái)識(shí)別與原始輸入語(yǔ)句中的實(shí)體相對(duì)應(yīng)的標(biāo)記。該過(guò)程提高了模型對(duì)潛在不完美生成的魯棒性。
3.對(duì)于輸出中提出的每個(gè)關(guān)系,搜索與預(yù)測(cè)尾部實(shí)體完全匹配的最近實(shí)體。如果這樣的實(shí)體不存在,則丟棄關(guān)系。
4.丟棄其預(yù)測(cè)類(lèi)型不屬于依賴(lài)于數(shù)據(jù)集的類(lèi)型列表的實(shí)體或關(guān)系。
實(shí)驗(yàn)
總結(jié)與討論
1.本文的統(tǒng)一文本到文本的結(jié)構(gòu)化預(yù)測(cè)方法可以在一個(gè)簡(jiǎn)單的框架內(nèi)處理所有需要考慮的任務(wù),并在低資源環(huán)境下提供額外的好處。與文獻(xiàn)中常見(jiàn)的傳統(tǒng)模型不同,TANL是生成性的,因?yàn)樗谠鰪?qiáng)的自然語(yǔ)言中從輸入轉(zhuǎn)換為輸出。這些擴(kuò)充語(yǔ)言是靈活的,可以被設(shè)計(jì)來(lái)處理各種各樣的任務(wù)。這給融入知識(shí)圖譜工作帶來(lái)了啟發(fā)。
2.生成模型,特別是序列到序列模型,已經(jīng)成功地應(yīng)用于許多自然語(yǔ)言處理問(wèn)題,如機(jī)器翻譯、文本摘要等。這些任務(wù)涉及從一種自然語(yǔ)言輸入到另一種自然語(yǔ)言輸出的映射。然而,序列建模在結(jié)構(gòu)化預(yù)測(cè)中的應(yīng)用卻很少受到重視。這可能是因?yàn)槿藗冋J(rèn)為,生成方法過(guò)于不受約束,而且生成與結(jié)構(gòu)化對(duì)象相對(duì)應(yīng)的精確輸出格式不是一種可靠的方法,或者它可能會(huì)在區(qū)分性模型方面增加不必要的復(fù)雜性。作者證明這是完全相反的。生成方法可以很容易地處理不同的任務(wù),即在同一時(shí)間,可以輸出適合每個(gè)任務(wù)的特定結(jié)構(gòu),并且格式錯(cuò)誤的情況也很少,給生成任務(wù)帶來(lái)更多的拓展空間。
?
?
OpenKG
OpenKG(中文開(kāi)放知識(shí)圖譜)旨在推動(dòng)以中文為核心的知識(shí)圖譜數(shù)據(jù)的開(kāi)放、互聯(lián)及眾包,并促進(jìn)知識(shí)圖譜算法、工具及平臺(tái)的開(kāi)源開(kāi)放。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 将结构预测作为增广自然语言间的翻译任务的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 论文浅尝 - AAAI2021 | 基于
- 下一篇: 论文浅尝 | GMNN: Graph M