自然语言系列学习之表示学习与知识获取(六)融合实体描述的知识表示和融合实体所在句子的知识表示
利用文本信息還有還有另外一個(gè)非常重要的來源,就是來自于實(shí)體的描述,在知識(shí)庫(kù)里對(duì)一些實(shí)體構(gòu)建關(guān)于它的一個(gè)簡(jiǎn)單的介紹(short description)。
這些簡(jiǎn)短的介紹,往往能夠很好的反映實(shí)體的表示,它的語義信息。那我們就想有沒有可能充分利用這些比較簡(jiǎn)短的描述,去更好的進(jìn)行知識(shí)的表示學(xué)習(xí)。
2016年清華大學(xué)發(fā)表了一篇論文《Representation Learning of Knowledge Graphs with Entity Descriptions》,論文中利用cnn,也就是卷積神經(jīng)網(wǎng)絡(luò)(上圖),去對(duì)實(shí)體描述進(jìn)行表示學(xué)習(xí),那么就可以利用它的description去構(gòu)建實(shí)體的表示。這個(gè)實(shí)體的表示同時(shí)也會(huì)參與knowledge graph里面transe的學(xué)習(xí)。通過這種方式,就可以可以更好的學(xué)習(xí)得到實(shí)體關(guān)系的表示。
Zero-shot場(chǎng)景下的關(guān)系預(yù)測(cè)
這種實(shí)體充分利用描述信息這種實(shí)體表示,它有一個(gè)非常重要的好處是,當(dāng)出現(xiàn)一個(gè)新的實(shí)體,這個(gè)實(shí)體從來沒有在knowledge graph中出現(xiàn)過,那么就沒有辦法利用transe去得到這種實(shí)體表示,我們就可以通過《Representation Learning of Knowledge Graphs with Entity Descriptions》中的cnn模型,利用實(shí)體的介紹,那么就可以自動(dòng)的重建關(guān)于實(shí)體的表示。
根據(jù)上圖可以看出利用重新構(gòu)建的實(shí)體表示可以很好的去建立起這些實(shí)體跟知識(shí)庫(kù)里已有的實(shí)體之間的關(guān)系預(yù)測(cè)。 實(shí)際上也能夠取得一個(gè)相對(duì)不錯(cuò)的效果,也說明在zero shot scenario場(chǎng)景下,可以利用實(shí)體描述信息重建實(shí)體表示,能相對(duì)較好的進(jìn)行關(guān)系預(yù)測(cè)。
融合實(shí)體所在句子的知識(shí)表示
在大規(guī)?;ヂ?lián)網(wǎng)上實(shí)際更多是在用同時(shí)出現(xiàn)兩個(gè)實(shí)體的句子,前面所提到的每一個(gè)實(shí)體,可以利用它們的描述信息輔助的進(jìn)行知識(shí)表示。
假設(shè)這些實(shí)體描述信息存在互聯(lián)網(wǎng)文本數(shù)據(jù)中,清華大學(xué)團(tuán)隊(duì)認(rèn)為在互聯(lián)網(wǎng)上出現(xiàn)的那些某一個(gè)實(shí)體的句子,實(shí)際上也有可能幫助我們進(jìn)行實(shí)體的表示學(xué)習(xí)。清華大學(xué)團(tuán)隊(duì)構(gòu)建出如下圖的模型:
這個(gè)模型的特點(diǎn)是說每一個(gè)實(shí)體一方面用knowledge graph去學(xué)習(xí),它基于知識(shí)庫(kù)的表示,同時(shí)也會(huì)考慮,這些實(shí)體表示有沒有可能來自于文本里的每一個(gè)句子,利用這些句子構(gòu)建出來的低維向量表示,形成來自文本的表示。它問題在于比如說一個(gè)實(shí)體,并不是在互聯(lián)網(wǎng)上出現(xiàn)的每一個(gè)句子都能夠很好的反映實(shí)體的語義信息,而我們希望能達(dá)到的效果是,如economics出現(xiàn)在三句話里(上上圖),根據(jù)這三句話能夠反映實(shí)體的語義信息的情況,給予不同的權(quán)重。所以(上圖中)特意給每一個(gè)不同的句子不同的權(quán)重,這個(gè)權(quán)重跟這個(gè)實(shí)體通過knowledge graph學(xué)習(xí)表示有密切的關(guān)系。 通過這種方式,有一個(gè)非常有意思的發(fā)現(xiàn),就是可以利用modfiy graph ,為實(shí)體本身尋找在互聯(lián)網(wǎng)中更有代表性的描述,如下圖中的幾個(gè)詞
每個(gè)實(shí)體都找權(quán)重最高的句子,這些句子都能夠很好的反映實(shí)體的語義信息,這個(gè)方法未來有潛力在構(gòu)建知識(shí)圖譜的時(shí)候能為新的實(shí)體自動(dòng)尋找他們可能的比較好的,比較有代表性的description。 上面是介紹了幾個(gè)融合文本和知識(shí)進(jìn)行關(guān)系抽取的方法。
總結(jié)
以上是生活随笔為你收集整理的自然语言系列学习之表示学习与知识获取(六)融合实体描述的知识表示和融合实体所在句子的知识表示的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【转】自然语言系列学习之表示学习与知识获
- 下一篇: 自然语言系列学习之表示学习与知识获取(七