日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

技术动态 | 知识图谱从哪里来:实体关系抽取的现状与未来

發(fā)布時間:2024/7/5 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 技术动态 | 知识图谱从哪里来:实体关系抽取的现状与未来 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

本文作者為:韓旭、高天宇、劉知遠。轉(zhuǎn)載自劉知遠老師的知乎專欄,文章鏈接:https://zhuanlan.zhihu.com/p/91762831


最近幾年深度學(xué)習(xí)引發(fā)的人工智能浪潮席卷全球,在互聯(lián)網(wǎng)普及帶來的海量數(shù)據(jù)資源和摩爾定律支配下飛速提升的算力資源雙重加持下,深度學(xué)習(xí)深入影響了自然語言處理的各個方向,極大推動了自然語言處理的發(fā)展。來到2019年的今天,深度學(xué)習(xí)的諸多局限性也慢慢得到廣泛認知。對于自然語言處理而言,要做到精細深度的語義理解,單純依靠數(shù)據(jù)標(biāo)注與算力投入無法解決本質(zhì)問題。如果沒有先驗知識的支持,“中國的乒乓球誰都打不過”與“中國的足球誰都打不過”,在計算機看來語義上并沒有巨大差異,而實際上兩句中的“打不過”意思正好相反。因此,融入知識來進行知識指導(dǎo)的自然語言處理,是通向精細而深度的語言理解的必由之路。然而,這些知識又從哪里來呢?這就涉及到人工智能的一個關(guān)鍵研究問題——知識獲取。


知識圖譜

現(xiàn)有大型知識圖譜,諸如Wikidata、Yago、DBpedia,富含海量世界知識,并以結(jié)構(gòu)化形式存儲。如下圖所示,每個節(jié)點代表現(xiàn)實世界中的某個實體,它們的連邊上標(biāo)記實體間的關(guān)系。這樣,美國作家馬克·吐溫的相關(guān)知識就以結(jié)構(gòu)化的形式記錄下來。

目前,這些結(jié)構(gòu)化的知識已被廣泛應(yīng)用于搜索引擎、問答系統(tǒng)等自然語言處理應(yīng)用中。但與現(xiàn)實世界快速增長的知識量相比,知識圖譜覆蓋度仍力有未逮。由于知識規(guī)模巨大而人工標(biāo)注昂貴,這些新知識單靠人力標(biāo)注添加幾無可能完成。為了盡可能及時準(zhǔn)確地為知識圖譜增添更加豐富的世界知識,研究者們努力探索高效自動獲取世界知識的辦法,即實體關(guān)系抽取技術(shù)。

具體來說,給定一個句子和其中出現(xiàn)的實體,實體關(guān)系抽取模型需要根據(jù)句子語義信息推測實體間的關(guān)系。例如,給定句子:“清華大學(xué)坐落于北京近鄰”以及實體“清華大學(xué)”與“北京”,模型可以通過語義得到“位于”的關(guān)系,并最終抽取出(清華大學(xué),位于,北京)的知識三元組。

實體關(guān)系抽取是一個經(jīng)典任務(wù),在過去的20多年里都有持續(xù)研究開展,特征工程、核方法、圖模型曾被廣泛應(yīng)用其中,取得了一些階段性的成果。隨著深度學(xué)習(xí)時代來臨,神經(jīng)網(wǎng)絡(luò)模型則為實體關(guān)系抽取帶來了新的突破。


神經(jīng)網(wǎng)絡(luò)關(guān)系抽取模型

面向自然語言文本序列已經(jīng)有很多神經(jīng)網(wǎng)絡(luò)類型,例如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN、LSTM)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)和Transformer等,這些模型都可以通過適當(dāng)改造用于關(guān)系抽取。最初,工作 [1,2] 首次提出使用CNN對句子語義進行編碼,用于關(guān)系分類,比非神經(jīng)網(wǎng)絡(luò)方法比性能顯著提升;工作 [3,4] 將RNN與LSTM用于關(guān)系抽取;此外,工作 [5] 提出采用遞歸的神經(jīng)網(wǎng)絡(luò)對句子的語法分析樹建模,試圖在提取語義特征的同時考慮句子的詞法和句法特征,這個想法也被不少后續(xù)工作的進一步探索。這里,我們列出一個表格,總結(jié)各類典型神經(jīng)網(wǎng)絡(luò)在基準(zhǔn)測試數(shù)據(jù)集合SemEval-2010 Task-8 [6] 上的效果。

從上表可以看出,這些神經(jīng)網(wǎng)絡(luò)模型均取得了優(yōu)異的實驗結(jié)果,且相互之間沒有顯著的性能差異。這是否意味著關(guān)系抽取問題就此解決了呢?實際上并非如此。SemEval-2010 Task-8的任務(wù)設(shè)定為,對預(yù)先定義好的關(guān)系類別標(biāo)注大量的訓(xùn)練和測試樣例,樣例都是相對簡單的短句,而且每種關(guān)系的樣例分布也比較均勻。然而,實際應(yīng)用中往往面臨很多挑戰(zhàn):

  • 數(shù)據(jù)規(guī)模問題:人工精準(zhǔn)地標(biāo)注句子級別的數(shù)據(jù)代價十分高昂,需要耗費大量的時間和人力。在實際場景中,面向數(shù)以千計的關(guān)系、數(shù)以千萬計的實體對、以及數(shù)以億計的句子,依靠人工標(biāo)注訓(xùn)練數(shù)據(jù)幾乎是不可能完成的任務(wù)。

  • 學(xué)習(xí)能力問題:在實際情況下,實體間關(guān)系和實體對的出現(xiàn)頻率往往服從長尾分布,存在大量的樣例較少的關(guān)系或?qū)嶓w對。神經(jīng)網(wǎng)絡(luò)模型的效果需要依賴大規(guī)模標(biāo)注數(shù)據(jù)來保證,存在”舉十反一“的問題。如何提高深度模型的學(xué)習(xí)能力,實現(xiàn)”舉一反三“,是關(guān)系抽取需要解決的問題。

  • 復(fù)雜語境問題。現(xiàn)有模型主要從單個句子中抽取實體間關(guān)系,要求句子必須同時包含兩個實體。實際上,大量的實體間關(guān)系往往表現(xiàn)在一篇文檔的多個句子中,甚至在多個文檔中。如何在更復(fù)雜的語境下進行關(guān)系抽取,也是關(guān)系抽取面臨的問題。

  • 開放關(guān)系問題。現(xiàn)有任務(wù)設(shè)定一般假設(shè)有預(yù)先定義好的封閉關(guān)系集合,將任務(wù)轉(zhuǎn)換為關(guān)系分類問題。這樣的話,文本中蘊含的實體間的新型關(guān)系無法被有效獲取。如何利用深度學(xué)習(xí)模型自動發(fā)現(xiàn)實體間的新型關(guān)系,實現(xiàn)開放關(guān)系抽取,仍然是一個”開放“問題。

所以說,SemEval-2010 Task-8這樣的理想設(shè)定與實際場景存在巨大鴻溝,僅依靠神經(jīng)網(wǎng)絡(luò)提取單句語義特征,難以應(yīng)對關(guān)系抽取的各種復(fù)雜需求和挑戰(zhàn)。我們亟需探索更新穎的關(guān)系抽取框架,獲取更大規(guī)模的訓(xùn)練數(shù)據(jù),具備更高效的學(xué)習(xí)能力,善于理解復(fù)雜的文檔級語境信息,并能方便地擴展至開放關(guān)系抽取。

我們認為,這四個方面構(gòu)成了實體關(guān)系抽取需要進一步探索的主要方向。接下來,我們分別介紹這四個方面的發(fā)展現(xiàn)狀和挑戰(zhàn),以及我們的一些思考和努力。


更大規(guī)模的訓(xùn)練數(shù)據(jù)

神經(jīng)網(wǎng)絡(luò)關(guān)系抽取需要大量的訓(xùn)練數(shù)據(jù),但是人工標(biāo)注這些訓(xùn)練數(shù)據(jù)非常費時昂貴。為了自動獲取更多的訓(xùn)練數(shù)據(jù)訓(xùn)練模型,工作 [16] 提出了遠程監(jiān)督(Distant Supervision)的思想,將純文本與現(xiàn)有知識圖譜進行對齊,能夠自動標(biāo)注大規(guī)模訓(xùn)練數(shù)據(jù)。

遠程監(jiān)督的思想并不復(fù)雜,具體來說:如果兩個實體在知識圖譜中被標(biāo)記為某個關(guān)系,那么我們就認為同時包含這兩個實體的所有句子也在表達這種關(guān)系。再以(清華大學(xué),位于,北京)為例,我們會把同時包含“清華大學(xué)”和“北京”兩個實體的所有句子,都視為“位于”這個關(guān)系的訓(xùn)練樣例。

遠程監(jiān)督的這種啟發(fā)式標(biāo)注規(guī)則是把雙刃劍,它是自動標(biāo)注訓(xùn)練數(shù)據(jù)的有效策略,但其過強的設(shè)定不可避免地產(chǎn)生錯誤標(biāo)注。例如對于知識圖譜中(清華大學(xué),校長,邱勇)這個三元組事實,句子“邱勇?lián)吻迦A大學(xué)校長”可以反映“清華大學(xué)”與“邱勇”之間“校長”的關(guān)系;但是句子“邱勇考入清華大學(xué)化學(xué)與化學(xué)工程系”以及“邱勇?lián)吻迦A大學(xué)黨委常委”并不表達“校長”關(guān)系,但卻會被遠程監(jiān)督的啟發(fā)式規(guī)則錯誤地標(biāo)注為“校長”關(guān)系的訓(xùn)練實例。

雖然遠程監(jiān)督思想非常簡單也存在很多問題,不過它為更多收集訓(xùn)練數(shù)據(jù)開啟了新的紀元。受到這個思路的啟發(fā),很多學(xué)者積極考慮如何盡可能排除遠程監(jiān)督數(shù)據(jù)中的噪音標(biāo)注的干擾。從2015年開始,基于遠程監(jiān)督與降噪機制的神經(jīng)關(guān)系抽取模型得到了長足的發(fā)展,工作 [17] 引入了多實例學(xué)習(xí)方法,利用包含同一實體對的所有實例來共同預(yù)測實體間關(guān)系。我們課題組林衍凱等人工作 [19] 提出句子級別注意力機制,對不同的實例賦予不同的權(quán)重,用以降低噪音實例造成的影響。工作 [20] 引入對抗訓(xùn)練來提升模型對噪音數(shù)據(jù)的抵抗能力。工作 [21] 則構(gòu)建了一套強化學(xué)習(xí)機制來篩除噪音數(shù)據(jù),并利用剩余的數(shù)據(jù)來訓(xùn)練模型。

總結(jié)來說,已有對遠程監(jiān)督的降噪方法可以兼顧了關(guān)系抽取的魯棒性與有效性,也具有較強的可操作性和實用性。不過,使用已有知識圖譜對齊文本來獲取數(shù)據(jù)訓(xùn)練關(guān)系抽取模型,再利用該模型來抽取知識加入知識圖譜,本身就有一種雞生蛋與蛋生雞的味道。不完善的知識圖譜對齊所得到的文本訓(xùn)練數(shù)據(jù)也將是不完善的,對那些長尾知識而言,仍難以通過這種遠程監(jiān)督機制來得到訓(xùn)練實例。如何提出更有效的機制來高效獲取高質(zhì)量、高覆蓋、高平衡的訓(xùn)練數(shù)據(jù),仍然是一個值得深入思考的問題。


更高效的學(xué)習(xí)能力

即使通過遠程監(jiān)督等辦法能夠自動獲取高質(zhì)量的訓(xùn)練數(shù)據(jù),由于真實場景中關(guān)系和實體對的長尾分布特點,絕大部分的關(guān)系和實體對的可用樣例仍然較少。而且,對于醫(yī)療、金融等專業(yè)領(lǐng)域的專門關(guān)系,受限于數(shù)據(jù)規(guī)模的問題可用樣例也很有限。而神經(jīng)網(wǎng)絡(luò)模型作為典型的data-hungry技術(shù),在訓(xùn)練樣例過少時性能會受到極大影響。因此,研究者們希望探索有效提升模型學(xué)習(xí)能力的方法,以更好地利用有限訓(xùn)練樣例取得滿意的抽取性能。

實際上,人類可以通過少量樣本快速學(xué)習(xí)知識,具有“舉一反三”的能力。為了探索深度學(xué)習(xí)和機器學(xué)習(xí)“舉一反三”的能力,提出了少次學(xué)習(xí)(Few-shot learning)任務(wù)。通過設(shè)計少次學(xué)習(xí)機制,模型能夠利用從過往數(shù)據(jù)中學(xué)到的泛化知識,結(jié)合新類型數(shù)據(jù)的少量訓(xùn)練樣本,實現(xiàn)快速遷移學(xué)習(xí),具有一定的舉一反三能力。

過去少次學(xué)習(xí)研究主要集中于計算機視覺領(lǐng)域,自然語言處理領(lǐng)域還少有探索。我們課題組韓旭同學(xué)等的工作 [21] 首次將少次學(xué)習(xí)引入到關(guān)系抽取,構(gòu)建了少次關(guān)系抽取數(shù)據(jù)集FewRel,希望推動驅(qū)動自然語言處理特別是關(guān)系抽取任務(wù)的少次學(xué)習(xí)研究。如下圖所示,關(guān)系抽取少次學(xué)習(xí)問題僅為每種關(guān)系提供極少量樣例(如3-5個),要求盡可能提高測試樣例上的關(guān)系分類效果。

FewRel論文工作初步嘗試了幾個代表性少次學(xué)習(xí)方法包括度量學(xué)習(xí)(Metric learning)、元學(xué)習(xí)(Meta learning)、參數(shù)預(yù)測(Parameter prediction)等,評測表明即使是效果最佳的原型網(wǎng)絡(luò)(Prototypical Networks)模型,在少次關(guān)系抽取上的性能仍與人類表現(xiàn)相去甚遠。

為了更好解決遠程監(jiān)督關(guān)系抽取的少次學(xué)習(xí)問題,我們課題組的高天宇同學(xué)等的工作 [22] 提出了基于混合注意力機制的原型網(wǎng)絡(luò),同時考慮實例級別和特征級別的注意力機制,在減少噪音標(biāo)注影響的同時,能更好地關(guān)注到句中的有用特征,實現(xiàn)高效少次學(xué)習(xí)。工作 [24] 則提出多級匹配和整合結(jié)構(gòu),充分學(xué)習(xí)訓(xùn)練樣例之間的潛在關(guān)聯(lián),盡可能挖掘為數(shù)不多的樣例中的潛在信息。工作 [24] 則采用了預(yù)訓(xùn)練語言模型BERT來處理關(guān)系抽取中的少次學(xué)習(xí)問題,基于海量無監(jiān)督數(shù)據(jù)訓(xùn)練的BERT,能夠為少次學(xué)習(xí)模型提供有效的語義特征,在FewRel數(shù)據(jù)上取得了超過人類關(guān)系分類的水平。

在對少次學(xué)習(xí)關(guān)系抽取探究的過程中,課題組的高天宇同學(xué)等進一步發(fā)現(xiàn)兩個長期被忽視的方面 [25]:要將少次學(xué)習(xí)模型用于生產(chǎn)環(huán)境中,應(yīng)具備從資源豐富領(lǐng)域遷移到資源匱乏領(lǐng)域(low-resource domains)的能力,同時還應(yīng)具備檢測句子是否真的在表達某種預(yù)定義關(guān)系或者沒有表達任何關(guān)系的能力。為此他們提出了FewRel 2.0,在原版數(shù)據(jù)集FewRel的基礎(chǔ)上增加了以下兩大挑戰(zhàn):領(lǐng)域遷移(domain adaptation)和“以上都不是”檢測(none-of-the-above detection)。

對于領(lǐng)域遷移挑戰(zhàn),FewlRel 2.0 采集了大量醫(yī)療領(lǐng)域的數(shù)據(jù)并進行標(biāo)注,要求關(guān)系抽取模型在原語料進行訓(xùn)練后,還可以在這些新領(lǐng)域語料上進行少次學(xué)習(xí)。對于“以上都不是”檢測,FewRel 2.0 在原N-way K-shot設(shè)定(給定N個新類型,每個類型給定K個訓(xùn)練樣本)上,添加了一個“以上都不是”選項,大大增加了分類和檢測難度。

初步實驗發(fā)現(xiàn),以往有效的模型(包括基于BERT的模型)在這兩大挑戰(zhàn)任務(wù)均有顯著性能下降。盡管高天宇同學(xué)等在FewRel 2.0論文中也嘗試了一些可能的解決思路:例如對于領(lǐng)域遷移嘗試了經(jīng)典的對抗學(xué)習(xí)方法,模型性能得到了一定的提升;對于“以上都不是”檢測,提出了基于BERT next sentence prediction task的BERT-PAIR模型,可以在”以上都不是”挑戰(zhàn)取得一點效果。但這兩大挑戰(zhàn)依然需要更多創(chuàng)新探索。

總結(jié)來說,探索少次學(xué)習(xí)關(guān)系抽取,讓關(guān)系抽取模型具備更強大高效的學(xué)習(xí)能力,還是一個非常新興的研究方向,特別是面向關(guān)系抽取的少次學(xué)習(xí)問題,與其他領(lǐng)域的少次學(xué)習(xí)問題相比,具有自身獨有的特點與挑戰(zhàn)。不論是基于已有少次學(xué)習(xí)技術(shù)作出適于NLP和關(guān)系抽取的改進,還是提出全新的適用于關(guān)系抽取的少次學(xué)習(xí)模型,都將最大化地利用少量標(biāo)注數(shù)據(jù),推動關(guān)系抽取技術(shù)的落地實用。

更復(fù)雜的文本語境

現(xiàn)有關(guān)系抽取工作主要聚焦于句子級關(guān)系抽取,即根據(jù)句內(nèi)信息進行關(guān)系抽取,各類神經(jīng)網(wǎng)絡(luò)模型也擅長編碼句子級語義信息,在很多公開評測數(shù)據(jù)能夠取得最佳效果。而在實際場景中,大量的實體間關(guān)系是通過多個句子表達的。如下圖所示,文本中提到多個實體,并表現(xiàn)出復(fù)雜的相互關(guān)聯(lián)。根據(jù)從維基百科采樣的人工標(biāo)注數(shù)據(jù)的統(tǒng)計表明,至少40%的實體關(guān)系事實只能從多個句子中聯(lián)合獲取。為了實現(xiàn)多個實體間的跨句關(guān)系抽取,需要對文檔中的多個句子進行閱讀推理,這顯然超出了句子級關(guān)系抽取方法的能力范圍。因此,進行文檔級關(guān)系抽取勢在必行。

文檔級關(guān)系抽取研究需要大規(guī)模人工標(biāo)注數(shù)據(jù)集來進行訓(xùn)練和評測。目前文檔級關(guān)系抽取數(shù)據(jù)集還很少。工作 [26,27] 構(gòu)建了兩個遠程監(jiān)督的數(shù)據(jù)集,由于沒有進行人工標(biāo)注因此評測結(jié)果不太可靠。BC5CDR [28] 是人工標(biāo)注的文檔級關(guān)系抽取數(shù)據(jù)集,由1,500篇PubMed文檔構(gòu)成是生物醫(yī)學(xué)特定領(lǐng)域,且僅考慮“化學(xué)誘導(dǎo)的疾病”關(guān)系,不一定適合用來探索文檔級關(guān)系抽取的通用方法。工作 [29] 提出使用閱讀理解技術(shù)回答問題的方式從文檔中提取實體關(guān)系事實,這些問題從”實體-關(guān)系“對轉(zhuǎn)換而來。由于該工作數(shù)據(jù)集是針對這種方法量身定制的,也不那么適用于探索文檔級關(guān)系抽取的通用方法。這些數(shù)據(jù)集或者僅具有少量人工標(biāo)注的關(guān)系和實體,或者存在來自遠程監(jiān)督的噪音標(biāo)注,或者服務(wù)于特定領(lǐng)域或方法,有這樣或那樣的限制。

為了推動文檔級關(guān)系抽取的研究,課題組姚遠同學(xué)等 [30] 提出了DocRED數(shù)據(jù)集,是一個大規(guī)模的人工標(biāo)注的文檔級關(guān)系抽取數(shù)據(jù)集,基于維基百科正文和WikiData知識圖譜構(gòu)建而成,包含5,053篇維基百科文檔,132,375 個實體和53,554 個實體關(guān)系事實,是現(xiàn)有最大的人工標(biāo)注的文檔級關(guān)系抽取數(shù)據(jù)集。如下圖所示,文檔級關(guān)系抽取任務(wù)要求模型具有強大的模式識別、邏輯推理、指代推理和常識推理能力,這些方面都亟待更多長期的研究探索。

更開放的關(guān)系類型

現(xiàn)有關(guān)系抽取工作一般假設(shè)有預(yù)先定義好的封閉關(guān)系集合,將任務(wù)轉(zhuǎn)換為關(guān)系分類問題。然而在開放域的真實關(guān)系抽取場景中,文本中包含大量開放的實體關(guān)系,關(guān)系種類繁多,而且關(guān)系數(shù)量也會不斷增長,遠超過人為定義的關(guān)系種類數(shù)量。在這種情況下,傳統(tǒng)關(guān)系分類模型無法有效獲取文本中蘊含的實體間的新型關(guān)系。如何利用深度學(xué)習(xí)模型自動發(fā)現(xiàn)實體間的新型關(guān)系,實現(xiàn)開放關(guān)系抽取,仍然是一個”開放“問題。

為了實現(xiàn)面向開放領(lǐng)域的開放關(guān)系抽取,研究提出開放關(guān)系抽取(Open Relation Extraction,OpenRE)任務(wù),致力于從開放文本抽取實體間的任意關(guān)系事實。開放關(guān)系抽取涉及三方面的“開放”:首先是抽取關(guān)系種類的開放,與傳統(tǒng)關(guān)系抽取不同,它希望抽取所有已知和未知的關(guān)系;其次是測試語料的開放,例如新聞、醫(yī)療等不同領(lǐng)域,其文本各有不同特點,需要探索跨域魯棒的算法;第三是訓(xùn)練語料的開放,為了獲得盡可能好的開放關(guān)系抽取模型,有必要充分利用現(xiàn)有各類標(biāo)注數(shù)據(jù),包括精標(biāo)注、遠程監(jiān)督標(biāo)注數(shù)據(jù)等,而且不同訓(xùn)練數(shù)據(jù)集的關(guān)系定義和分布也有所不同,需要同時利用好多源數(shù)據(jù)。

在前深度學(xué)習(xí)時代,研究者也有探索開放信息抽取(Open Information Extraction,OpenIE)任務(wù)。開放關(guān)系抽取可以看做OpenIE的特例。當(dāng)時OpenIE主要通過無監(jiān)督的統(tǒng)計學(xué)習(xí)方法實現(xiàn),如Snowball算法等。雖然這些算法對于不同數(shù)據(jù)有較好的魯棒性,但精度往往較低,距離實用落地仍然相距甚遠。

最近,課題組吳睿東同學(xué)等的工作 [31] 提出了一種有監(jiān)督的開放關(guān)系抽取框架,可以通過”關(guān)系孿生網(wǎng)絡(luò)“(Relation Siamese Network,RSN)實現(xiàn)有監(jiān)督和弱監(jiān)督模式的自由切換,從而能夠同時利用預(yù)定義關(guān)系的有監(jiān)督數(shù)據(jù)和開放文本中新關(guān)系的無監(jiān)督數(shù)據(jù),來共同學(xué)習(xí)不同關(guān)系事實的語義相似度。具體來說,關(guān)系孿生網(wǎng)絡(luò)RSN采用孿生網(wǎng)絡(luò)結(jié)構(gòu),從預(yù)定義關(guān)系的標(biāo)注數(shù)據(jù)中學(xué)習(xí)關(guān)系樣本的深度語義特征和相互間的語義相似度,可用于計算包含開放關(guān)系文本的語義相似度。而且,RSN還使用了條件熵最小化和虛擬對抗訓(xùn)練兩種半監(jiān)督學(xué)習(xí)方法進一步利用無標(biāo)注的開放關(guān)系文本數(shù)據(jù),進一步提高開放關(guān)系抽取的穩(wěn)定性和泛化能力。基于RSN計算的開放關(guān)系相似度計算結(jié)果,模型可以在開放域?qū)ξ谋娟P(guān)系進行聚類,從而歸納出新型關(guān)系。

課題組高天宇同學(xué)等人工作 [32] 則從另一個角度出發(fā),對于開放域的特定新型關(guān)系,只需要提供少量精確的實例作為種子,就可以利用預(yù)訓(xùn)練的關(guān)系孿生網(wǎng)絡(luò)進行滾雪球(Neural SnowBall),從大量無標(biāo)注文本中歸納出該新型關(guān)系的更多實例,不斷迭代訓(xùn)練出適用于新型關(guān)系的關(guān)系抽取模型。

總結(jié)來說,開放域關(guān)系抽取在前深度學(xué)習(xí)時代取得了一些成效,但如何在深度學(xué)習(xí)時代與神經(jīng)網(wǎng)絡(luò)模型優(yōu)勢相結(jié)合,有力拓展神經(jīng)網(wǎng)絡(luò)關(guān)系抽取模型的泛化能力,值得更多深入探索。

總結(jié)

為了更及時地擴展知識圖譜,自動從海量數(shù)據(jù)中獲取新的世界知識已成為必由之路。以實體關(guān)系抽取為代表的知識獲取技術(shù)已經(jīng)取得了一些成果,特別是近年來深度學(xué)習(xí)模型極大地推動了關(guān)系抽取的發(fā)展。但是,與實際場景的關(guān)系抽取復(fù)雜挑戰(zhàn)的需求相比,現(xiàn)有技術(shù)仍有較大的局限性。我們亟需從實際場景需求出發(fā),解決訓(xùn)練數(shù)據(jù)獲取、少次學(xué)習(xí)能力、復(fù)雜文本語境、開放關(guān)系建模等挑戰(zhàn)問題,建立有效而魯棒的關(guān)系抽取系統(tǒng),這也是實體關(guān)系抽取任務(wù)需要繼續(xù)努力的方向。

我們課題組從2016年開始耕耘實體關(guān)系抽取任務(wù),先后有林衍凱、韓旭、姚遠、曾文遠、張正彥、朱昊、于鵬飛、于志竟成、高天宇、王曉智、吳睿東等同學(xué)在多方面開展了研究工作。去年在韓旭和高天宇等同學(xué)的努力下,發(fā)布了OpenNRE工具包 [33],經(jīng)過近兩年來的不斷改進,涵蓋有監(jiān)督關(guān)系抽取、遠程監(jiān)督關(guān)系抽取、少次學(xué)習(xí)關(guān)系抽取和文檔級關(guān)系抽取等豐富場景。此外,也花費大量科研經(jīng)費標(biāo)注了FewRel (1.0和2.0)和DocRED等數(shù)據(jù)集,旨在推動相關(guān)方向的研究。

本文總結(jié)了我們對實體關(guān)系抽取現(xiàn)狀、挑戰(zhàn)和未來發(fā)展方向的認識,以及我們在這些方面做出的努力,希望能夠引起大家的興趣,對大家有些幫助。期待更多學(xué)者和同學(xué)加入到這個領(lǐng)域研究中來。當(dāng)然,本文沒有提及一個重要挑戰(zhàn),即以事件抽取為代表的復(fù)雜結(jié)構(gòu)的知識獲取,未來有機會我們再專文探討。

限于個人水平,難免有偏頗舛誤之處,還請大家在評論中不吝指出,我們努力改進。需要說明的是,我們沒想把這篇文章寫成嚴謹?shù)膶W(xué)術(shù)論文,所以沒有面面俱到把每個方向的所有工作都介紹清楚,如有重要遺漏,還請批評指正。

作者簡介

韓旭,清華大學(xué)計算機科學(xué)與技術(shù)系博士三年級同學(xué),主要研究方向為自然語言處理、知識圖譜、信息抽取。在人工智能領(lǐng)域國際著名會議AAAI、ACL、EMNLP、COLING、NAACL上發(fā)表多篇論文,是OpenKE、OpenNRE等開源項目的開發(fā)者之一。主頁:https://thucsthanxu13.github.io/

高天宇,清華大學(xué)計算機系大四本科生,主要研究方向為自然語言處理、知識圖譜、關(guān)系抽取。在人工智能領(lǐng)域國際著名會議AAAI、EMNLP上發(fā)表多篇論文,是OpenNRE等開源項目的主要開發(fā)者之一。主頁:gaotianyu.xyz

劉知遠,清華大學(xué)計算機系副教授、博士生導(dǎo)師。主要研究方向為表示學(xué)習(xí)、知識圖譜和社會計算。主頁:http://nlp.csai.tsinghua.edu.cn/~lzy/

參考文獻

[1] ChunYang Liu, WenBo Sun, WenHan Chao, Wanxiang Che. Convolution Neural Network for Relation Extraction. The 9th International Conference on Advanced Data Mining and Applications (ADMA 2013).

[2] Daojian Zeng, Kang Liu, Siwei Lai, Guangyou Zhou, Jun Zhao. Relation Classification via Convolutional Deep Neural Network. The 25th International Conference on Computational Linguistics (COLING 2014).

[3] Dongxu Zhang, Dong Wang. Relation Classification via Recurrent Neural Network. arXiv preprint arXiv:1508.01006 (2015).

[4] Peng Zhou, Wei Shi, Jun Tian, Zhenyu Qi, Bingchen Li, Hongwei Hao, Bo Xu. Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification. The 54th Annual Meeting of the Association for Computational Linguistics (ACL 2016).

[5] Richard Socher, Brody Huval, Christopher D. Manning, Andrew Y. Ng. Semantic Compositionality through Recursive Matrix-Vector Spaces. The 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL 2012).

[6] Iris Hendrickx, Su Nam Kim, Zornitsa Kozareva, Preslav Nakov, Diarmuid ó Séaghdha, Sebastian Padó, Marco Pennacchiotti, Lorenza Romano, Stan Szpakowicz. SemEval-2010 Task 8: Multi-Way Classification of Semantic Relations between Pairs of Nominals. The 5th International Workshop on Semantic Evaluation (SEMEVAL 2010).

[7] Thien Huu Nguyen, Ralph Grishman. Relation Extraction: Perspective from Convolutional Neural Networks. The 1st Workshop on Vector Space Modeling for Natural Language Processing (LatentVar 2015).

[8] Cícero dos Santos, Bing Xiang, Bowen Zhou. Classifying Relations by Ranking with Convolutional Neural Networks. The 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (ACL-IJCNLP 2015).

[9] Shu Zhang, Dequan Zheng, Xinchen Hu, Ming Yang. Bidirectional Long Short-Term Memory Networks for Relation Classification. The 29th Pacific Asia Conference on Language, Information and Computation (PACLIC 2015).

[10] Minguang Xiao, Cong Liu. Semantic Relation Classification via Hierarchical Recurrent Neural Network with Attention. The 26th International Conference on Computational Linguistics (COLING 2016).

[11] Kun Xu, Yansong Feng, Songfang Huang, Dongyan Zhao. Semantic Relation Classification via Convolutional Neural Networks with Simple Negative Sampling. The 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP 2015).

[12] Yan Xu, Lili Mou, Ge Li, Yunchuan Chen, Hao Peng, Zhi Jin. Classifying Relations via Long Short Term Memory Networks along Shortest Dependency Paths. The 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP 2015).

[13] Yang Liu, Furu Wei, Sujian Li, Heng Ji, Ming Zhou, Houfeng Wang. A Dependency-Based Neural Network for Relation Classification. The 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (ACL-IJCNLP 2015).

[14] Yan Xu, Ran Jia, Lili Mou, Ge Li, Yunchuan Chen, Yangyang Lu, Zhi Jin. Improved Relation Classification by Deep Recurrent Neural Networks with Data Augmentation. The 26th International Conference on Computational Linguistics (COLING 2016).

[15] Rui Cai, Xiaodong Zhang, Houfeng Wang. Bidirectional Recurrent Convolutional Neural Network for Relation Classification. The 54th Annual Meeting of the Association for Computational Linguistics (ACL 2016).

[16] Mike Mintz, Steven Bills, Rion Snow, Daniel Jurafsky. Distant Supervision for Relation Extraction without Labeled Data. The 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing (ACL-IJCNLP 2009).

[17] Daojian Zeng, Kang Liu, Yubo Chen, Jun Zhao. Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks. The 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP 2015).

[18] Yankai Lin, Shiqi Shen, Zhiyuan Liu, Huanbo Luan, Maosong Sun. Neural Relation Extraction with Selective Attention over Instances. The 54th Annual Meeting of the Association for Computational Linguistics (ACL 2016).

[19] Yi Wu, David Bamman, Stuart Russell. Adversarial Training for Relation Extraction. The 2017 Conference on Empirical Methods in Natural Language Processing (EMNLP 2017).

[20] Jun Feng, Minlie Huang, Li Zhao, Yang Yang, Xiaoyan Zhu. Reinforcement Learning for Relation Classification from Noisy Data. The 32th AAAI Conference on Artificial Intelligence (AAAI 2018).

[21] Xu Han, Hao Zhu, Pengfei Yu, Ziyun Wang, Yuan Yao, Zhiyuan Liu, Maosong Sun. FewRel: A Large-Scale Supervised Few-Shot Relation Classification Dataset with State-of-the-Art Evaluation. The 2018 Conference on Empirical Methods in Natural Language Processing (EMNLP 2018).

[22] Tianyu Gao, Xu Han, Zhiyuan Liu, Maosong Sun. Hybrid Attention-based Prototypical Networks for Noisy Few-Shot Relation Classification. The 33th AAAI Conference on Artificial Intelligence (AAAI 2019).

[23] Zhi-Xiu Ye, Zhen-Hua Ling. Multi-Level Matching and Aggregation Network for Few-Shot Relation Classification. The 57th Annual Meeting of the Association for Computational Linguistics (ACL 2019).

[24] Livio Baldini Soares, Nicholas FitzGerald, Jeffrey Ling, Tom Kwiatkowski. Matching the Blanks: Distributional Similarity for Relation Learning. The 57th Annual Meeting of the Association for Computational Linguistics (ACL 2019).

[25] Tianyu Gao, Xu Han, Hao Zhu, Zhiyuan Liu, Peng Li, Maosong Sun, Jie Zhou. FewRel 2.0: Towards More Challenging Few-Shot Relation Classification. 2019 Conference on Empirical Methods in Natural Language Processing and 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP 2019).

[26] Chris Quirk, Hoifung Poon. Distant Supervision for Relation Extraction beyond the Sentence Boundary. The 15th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2017).

[27] Nanyun Peng, Hoifung Poon, Chris Quirk, Kristina Toutanova, Wen-tau Yih. Cross-Sentence N-ary Relation Extraction with Graph LSTMs. Transactions of the Association for Computational Linguistics (TACL 2017).

[28] Chih-Hsuan Wei, Yifan Peng, Robert Leaman, Allan Peter Davis, Carolyn J. Mattingly, Jiao Li, Thomas C. Wiegers, Zhiyong Lu. Overview of the BioCreative V Chemical Disease Relation (CDR) Task. The 5th BioCreative Challenge Evaluation Workshop (BioC 2015).

[29] Omer Levy, Minjoon Seo, Eunsol Choi, Luke Zettlemoyer. Zero-Shot Relation Extraction via Reading Comprehension. The 21st Conference on Computational Natural Language Learning (CoNLL 2017).

[30] Yuan Yao, Deming Ye, Peng Li, Xu Han, Yankai Lin, Zhenghao Liu, Zhiyuan Liu, Lixin Huang, Jie Zhou, Maosong Sun. DocRED: A Large-Scale Document-Level Relation Extraction Dataset. The 57th Annual Meeting of the Association for Computational Linguistics (ACL 2019).

[31] Ruidong Wu, Yuan Yao, Xu Han, Ruobing Xie, Zhiyuan Liu, Fen Lin, Leyu Lin, Maosong Sun. Open Relation Extraction: Relational Knowledge Transfer from Supervised Data to Unsupervised Data. 2019 Conference on Empirical Methods in Natural Language Processing and 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP 2019).

[32] Tianyu Gao, Xu Han, Ruobing Xie, Zhiyuan Liu, Fen Lin, Leyu Lin, Maosong Sun. Neural Snowball for Few-Shot Relation Learning. The 34th AAAI Conference on Artificial Intelligence (AAAI 2020).

[33] Xu Han, Tianyu Gao, Yuan Yao, Deming Ye, Zhiyuan Liu, Maosong Sun. OpenNRE: An Open and Extensible Toolkit for Neural Relation Extraction. The Conference on Empirical Methods in Natural Language Processing (EMNLP 2019).

?


?

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

點擊閱讀原文,進入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的技术动态 | 知识图谱从哪里来:实体关系抽取的现状与未来的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。