日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【转】自然语言系列学习之表示学习与知识获取(八)利用远程监督多实例的关系抽取

發(fā)布時間:2024/9/18 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【转】自然语言系列学习之表示学习与知识获取(八)利用远程监督多实例的关系抽取 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

下面介紹下如何利用遠(yuǎn)程監(jiān)督多實例進(jìn)行關(guān)系抽取。前文有提到到當(dāng)利用文本進(jìn)行關(guān)系抽取,基本思想是利用知識圖譜中,如(下圖)任意兩個實體同時在句子中出現(xiàn):

我們把句子當(dāng)成是兩個實體關(guān)系訓(xùn)練得樣例,這樣就可以訓(xùn)練出一個關(guān)于關(guān)系分類的模型。這被稱為Distant Supervision遠(yuǎn)程監(jiān)督,之所以叫做遠(yuǎn)程監(jiān)督是因為標(biāo)注數(shù)據(jù)通過知識庫自動標(biāo)注出來的,并沒有經(jīng)過人工干預(yù)。這種自動方式可以非常快的能構(gòu)建出非常大的關(guān)系分類的訓(xùn)練數(shù)據(jù),但它的問題是同時出現(xiàn)兩個實體的這些句子,并不見得都能夠很好的反映兩個實體在知識庫中是什么關(guān)系。

比如bill gates和microsoft在知識庫中是founder的關(guān)系(上圖例),但是 第1個句子和第3個句子的確是反映了founder的關(guān)系,但是第2個句子bill gates announced to retire from microsoft,他就沒有很好的反映founder的關(guān)系。

有個解決思路,就是說像融合文本中描述信息一樣,給不同的句子不同的權(quán)重,也就是每一個句子也去學(xué)CNN,得到他的表示,但是這個表示并不是直接進(jìn)行關(guān)系的預(yù)測,或者是說沒有構(gòu)建這種關(guān)系向量,而是先根據(jù)關(guān)系的向量,給句子的表示不同的權(quán)重,權(quán)重計算方式(上圖右側(cè))是計算關(guān)系表示跟文本表示之間的映射關(guān)系。

那么通過給不同句子不同的權(quán)重稱之為sentence-level attention,這樣就可以有效解決遠(yuǎn)程監(jiān)督中自動標(biāo)注多個句子的噪音問題。


如果利用cnn,有效的利用sentence-level attention,加att的方法的預(yù)測效果其實遠(yuǎn)遠(yuǎn)好于沒有考慮任何的多實例問題的cnn方法。

在2015年中科院自動化所趙軍老師,劉看老師組發(fā)表論文《Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks》(分段卷積神經(jīng)網(wǎng)絡(luò)用于關(guān)系提取的遠(yuǎn)程監(jiān)控)

論文中做了一個cnn改進(jìn)模型,就是根據(jù)這兩個實體,把句子劃分成三個不同部分,每一個部分單獨訓(xùn)練cnn,論文中叫這種cnn為piecewise conncolutional neural networks(pcnn)。清華大學(xué)團(tuán)隊在pcnn模型上嘗試sentence-level attention的效果,可以看到(上圖中)黑色的線遠(yuǎn)高于pcnn的效果,那么這其實也說明了考慮sentence-level attention的重要意義。

清華大學(xué)團(tuán)隊也比較了一些傳統(tǒng)方法(非deep learning的方法),直接從句子中抽取離散符號表示的特征,你可以看到基于CNN,基于PCNN的 attention效果要遠(yuǎn)好于feature base的方法,其實也說明現(xiàn)在一定要用deep learning的手段才能夠取得關(guān)于文本關(guān)系抽取最好的效果。


我們也可以看到通過一些(attention)例子,如relation employer of ,誰是誰的雇主, 我們利用sentence-level attention可以找到更好反映實體之間雇主關(guān)系的一些句子,那么給予比較低attention的一些句子,在一定程度上不能夠更好的反映employer of的關(guān)系。類似的place of birth出生地點,在上表中最下面一行是attention很高的句子(Ernst haefliger was born in davos on july 6,1919,and studied at the wettinger seminary…) ,上表中倒數(shù)第二行是attention很低的句子(Ernst haefliger ,a swiss tenor who…… roles, died on Saturday in davos,switzerland ,where he maintained a second home).通過上面的例子中能夠看出這種sentence-level attention有比較好的效果。

清華大學(xué)團(tuán)隊開源的研究成果

KB2E:TransE TransH TransR和PTransE:

開源代碼: http://www.github.com/thunlp/KB2E它是一個工具包,里面包含了幾乎所有模型有TransE, TransH,TransR和PTransE

Fast-TransE:

開源代碼 :https://github.com/thunlp/Fast-TransX清華團(tuán)隊為了能夠更好的去在大規(guī)模大規(guī)模的知識圖譜上進(jìn)行表示學(xué) 習(xí)。開發(fā)了一個加速的版本Fast-TransE,目前能夠?qū)崿F(xiàn)比kb2e里 面的 TransE 訓(xùn)練速度提升40倍,就是說原來一個數(shù)據(jù)需要訓(xùn)練兩 三個小時的時間,現(xiàn)在只需要4分鐘就可以完成

Nre:CNN, PCNN, x+ATT:

開源代碼: http://github.com/thunlp/NREnre是基于文本遠(yuǎn)程監(jiān)督關(guān)系抽取的方法,它包括CNN, PCNN, x+ATT等方法。

清華團(tuán)隊發(fā)表的相關(guān)論文:

《Neural Relation Extraction with Selective Attention over Instances》
該論文針對遠(yuǎn)程監(jiān)督關(guān)系抽取方法中的錯誤標(biāo)注問題,提出了在句子層級采用選擇性關(guān)注機(jī)制的模型。與現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型相比,該模型不僅可以綜合利用所有文本數(shù)據(jù),而且可以降低錯誤標(biāo)注數(shù)據(jù)的影響,抽取準(zhǔn)確率取得顯著提高。

《Relation Classification via Multi-Level Attention CNNs》
該論文針對關(guān)系分類問題提出了多關(guān)注機(jī)制的卷積神經(jīng)網(wǎng)絡(luò),顯著提升了關(guān)系分類效果。

《Knowledge Representation Learning with Entities, Attributes and Relations》
論文是面向知識圖譜的表示學(xué)習(xí)任務(wù),提出利用實體、屬性、關(guān)系三個元素來進(jìn)行表示學(xué)習(xí)。它提出對屬性和關(guān)系加以區(qū)分,并在表示學(xué)習(xí)的過程中區(qū)別對待,本文首先提出屬性與關(guān)系的區(qū)別,本文敘述:屬性的值一般是抽象的概念,如性別與職業(yè)等;而且通過統(tǒng)計發(fā)現(xiàn),屬性往往是多對一的,而且對于特定的屬性,其取值大多來源于一個小集合,如性別。對關(guān)系與屬性采用不同的約束方式進(jìn)行獨立表示學(xué)習(xí),同時提出屬性之間的更強(qiáng)的約束關(guān)系。論文想法新穎,很值得借鑒。

《Representation learning of knowledge graphs with hierarchical types》
論文是面向知識圖譜的表示學(xué)習(xí)任務(wù),提出融入實體類型信息輔助知識圖譜的表示學(xué)習(xí)。目前的大多數(shù)方法專注于利用知識圖譜中三元組結(jié)構(gòu)的表示學(xué)習(xí),而忽略了融入實體類型的信息。對于實體而言,對于不同的類型含義應(yīng)該具有不同的表示。論文中中從Freebase中獲取實體的類型信息,并將其層次化表示,并設(shè)計了兩種編碼方式,對于不同的關(guān)系通過參數(shù)調(diào)整獲得對應(yīng)的實體表示。

《RepresentationLearning of Knowledge Graphs with Entity Descriptions.》
論文提出融合知識圖譜三元組和實體描述文本的知識表示學(xué)習(xí)模型,實驗證明,該模型能根據(jù)描述為新實體自動構(gòu)建向量表示,顯著提升實體預(yù)測、關(guān)系預(yù)測和實體分類的性能。

《Modeling Relation Paths for Representation Learning of Knowledge Bases》
論文提出了一種基于路徑的知識圖譜表示模型,將實體之間的路徑表示為一種平移關(guān)系。論文其主要貢獻(xiàn)為提出了用于計算不同路徑的權(quán)重的基于路徑限制的資源分配算法和三種不同的路徑表示模型,并在知識圖譜完善和文本關(guān)系抽取中驗證了模型的有效性。

《Learning entity and relation embeddings for knowledge graph completion》
針對知識圖譜的表示學(xué)習(xí)模型TransR,將實體映射到不同關(guān)系空間中構(gòu)建優(yōu)化目標(biāo),并通過聚類對關(guān)系進(jìn)行細(xì)分,能夠有效改善1-N、N-1類型關(guān)系的表示,在鏈接預(yù)測和文本關(guān)系抽取等任務(wù)均取得了顯著的提升。

總結(jié)

以上是生活随笔為你收集整理的【转】自然语言系列学习之表示学习与知识获取(八)利用远程监督多实例的关系抽取的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。