日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【转】自然语言系列学习之表示学习与知识获取(五)融合文本和知识,利用cnn方法进行关系抽取

發(fā)布時(shí)間:2024/9/18 编程问答 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【转】自然语言系列学习之表示学习与知识获取(五)融合文本和知识,利用cnn方法进行关系抽取 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

本文重點(diǎn)放在怎么利用知識表示學(xué)習(xí),輔助我們進(jìn)行關(guān)系抽取,首先介紹如何利用分布式表示去融合知識和文本進(jìn)行文本的抽取。

前文提到利用知識圖譜學(xué)習(xí)了知識表示,就可以預(yù)測任意兩個實(shí)體之間的關(guān)系,它是通過t-h(r~t-h)來預(yù)測relation。關(guān)于兩個實(shí)體之間的關(guān)系預(yù)測,常用的做法是基于文本形式,它的基本思想是任意給出兩個實(shí)體到大規(guī)模的文本里面去尋找同時(shí)出現(xiàn)這兩個實(shí)體的句子,那我們就認(rèn)為同時(shí)出現(xiàn)兩個實(shí)體的句子,能夠反映這兩個實(shí)體的特征。那么我們從這些句子里抽取特征,然后就可以建立起這種關(guān)系的分類模型,它是基于文本的信息進(jìn)行關(guān)系預(yù)測的思想。

在文本上進(jìn)行關(guān)系抽取方面最新或者最好的方法,是2014年由中科院自動化所趙軍老師和劉康老師團(tuán)隊(duì)所研制的一系列基于深度學(xué)習(xí)的方法。

他們在2014年COLING(計(jì)算語言學(xué)國際會議:International Conference on Computational Linguistics,COLING)上,并且獲得最佳論文獎,論文中基本思想是給定兩個實(shí)體同時(shí)出現(xiàn)的句子,利用Convolutional neural network卷積神經(jīng)網(wǎng)絡(luò)自動的學(xué)習(xí)句子的低維向量表示,論文中認(rèn)為這個句子的低維向量表示能夠很好的反應(yīng)這個句子里面所表示的兩個實(shí)體之間的關(guān)系,通過把低維向量表示當(dāng)成這個句子的一個特征,那我們就可以構(gòu)建句子基于文本關(guān)系的分類模型,這是利用cnn進(jìn)行文本關(guān)系抽取的技術(shù)細(xì)節(jié)。

前面提到利用分布式表示學(xué)習(xí),我們可以有效的融合不同領(lǐng)域不同對象之間的語義信息,其實(shí)也是希望通過這種分布式表示去融合文本和知識來進(jìn)行關(guān)系的抽取。


例如上圖中的三元組,里面的每一個實(shí)體,頭實(shí)體和尾實(shí)體,他們的實(shí)體向量既可以用來knowledge graph(知識圖譜)的學(xué)習(xí),也可以在文本端參與文本里的word vector 的學(xué)習(xí) ,同樣在三元組里關(guān)系向量的學(xué)習(xí),一方面可以參與knowledge graph(知識圖譜)的transe的學(xué)習(xí),同時(shí)它還可以參與到基于文本cnn(如上圖,神經(jīng)網(wǎng)絡(luò))的表示進(jìn)行預(yù)測,這樣就可以利用分布式表示,然后建立起文本和知識的信息聯(lián)合的學(xué)習(xí),從而得到更好的關(guān)于實(shí)體關(guān)系的表示來進(jìn)行實(shí)體關(guān)系之間的抽取。


我們在關(guān)系抽取上進(jìn)行評測方法就是利用precision-recall(Precision,準(zhǔn)確率/查準(zhǔn)率。Recall,召回率/查全率。這兩個指標(biāo)分別以兩個角度衡量分類系統(tǒng)的準(zhǔn)確率)曲線,它的基本思想是有非常多的候選實(shí)體的對,然后利用算法預(yù)測它們之間的關(guān)系,并利用算法給每一個實(shí)體對在每一個可能的關(guān)系上打分,這樣每個實(shí)體對跟不同關(guān)系構(gòu)建的三元組(triple) 就可以進(jìn)行排序。所有的triple按照順序評價(jià),排在最前面的triple被預(yù)測實(shí)體之間關(guān)系的準(zhǔn)確率會更高一點(diǎn)。

所以每一條方法所對應(yīng)的曲線都是從rank list里第一位開始往下看,預(yù)測準(zhǔn)確情況對標(biāo)準(zhǔn)答案的情況形成一條曲線,這條曲線一般隨著rank list往下看,它的準(zhǔn)確率會越來越低,那么同時(shí)recall也會變得越來越高。上圖中下方粉色線是利用cnn方法通過文本信息進(jìn)行關(guān)系抽取的效果。

通過上圖看出,如果能夠把知識圖譜里的信息通過transe的方式融合進(jìn)來。實(shí)際上會極大提升關(guān)系抽取的效果,

這也充分說明充分利用知識圖譜里已有的知識,并用transe進(jìn)行表示,它對關(guān)系抽取有非常大的幫助。

總結(jié)

以上是生活随笔為你收集整理的【转】自然语言系列学习之表示学习与知识获取(五)融合文本和知识,利用cnn方法进行关系抽取的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。