论文浅尝 | 基于超平面的时间感知知识图谱嵌入
鏈接:http://talukdar.net/papers/emnlp2018_HyTE.pdf
?
本文主要關(guān)注 KG embedding 中三元組成立的時間有效性問題,比如三元組(Cristiano Ronaldo, playsFor, Manchester United),其成立的有效時間段是2003年到2009年,這個使三元組有效成立的時間段被稱為 temporal scopes,這些temporalscopes隨著時間的推移對許多數(shù)據(jù)集會產(chǎn)生影響(比如YAGO,Wikidata),現(xiàn)有的 KG embedding方法很少考慮到時間這一維度,因為它們假設(shè)所有的三元組總是永遠正確的,可是現(xiàn)實中很多情況下不是這樣。本文提出了 HyTE 模型,HyTE 不僅能夠利用時間導向進行知識圖譜圖推理,還能夠為那些缺失時間注釋的事實預測temporal scopes 。實驗結(jié)果表明該模型與傳統(tǒng)模型或者同類模型相比都有著突出的表現(xiàn)。
Background
知識圖譜嵌入(Knowledge graph embedding)方法是將知識圖譜中的實體和關(guān)系表示成連續(xù)稠密低維實值向量,從而可以通過向量來高效計算實體與關(guān)系的語義聯(lián)系。從2013年TransE的提出,到后來一系列的衍生模型,比如 TransH,TransD,TransR,DKRL, TKRL, RESCAL, HOLE 等等,都是對 TransE 模型的擴展。這些模型都沒有考慮時間維度,一直將知識圖譜當做靜態(tài)來處理,這顯然不符合事實,數(shù)據(jù)的暴漲與更新表明知識圖譜本來就是動態(tài)的,所以后來有工作將時間信息考慮進去,但只是將時間序列作為KG embedding過程中的約束,沒有明顯地體現(xiàn)時間的特性,為此,本文提出的HyTE模型直接在學習的過程中結(jié)合時間信息。
?
Model
本文認為不僅是知識圖譜中的實體可能會隨著時間改變,實體間的關(guān)系也是如此,由于TransE模型不能處理多關(guān)系的情形,而 TransH 模型能夠使實體在不同的關(guān)系下?lián)碛胁煌谋硎?#xff0c;所以本文受TransH的啟發(fā)提出了一個基于超平面的時間感知知識圖譜嵌入模型。
?
考慮一個四元組 (h,r,t,[τs, τe]),這里的τs和τe分別定義了三元組成立時間段的起始與截止。TransE模型將實體和關(guān)系考慮到相同的語義空間,但是在不同的時間段,實體與關(guān)系組成的(h,r)可能會對應到不同的尾實體t,所以在本文的模型中,希望實體能夠隨不同的時間點有著不同的表示。為了達到這一目的,文中將時間表示成超平面(hyperplane),模型示意圖如下:
eh,et,er,分別表示三元組中頭實體,尾實體以及關(guān)系所對應的向量表示,τ1和τ2分別表示此三元組有效成立時間段的起始時間與截止時間。eh(τ1), er(τ1) 以及表示各向量在時間超平面τ1上的投影,最終,模型通過最小化翻譯距離來完成結(jié)合時間的實體與關(guān)系embedding學習過程。
Experiment
實驗數(shù)據(jù)包含兩部分:YAGO11k和Wikidata12k,這兩個數(shù)據(jù)集抽取了YAGO 以及Wikidata中帶有時間注釋(time annotations)的部分。通過 Link prediction 以及 Temporal scoping 兩個實驗任務與其它模型比較,實驗結(jié)果如下:
實體預測結(jié)果:
關(guān)系預測結(jié)果:
temporal Scoping預測結(jié)果(越小越好):
實驗結(jié)果表明,HyTE模型在相關(guān)任務上與其它模型相比有較為顯著的提升。
?
論文筆記整理:張良,東南大學博士,研究方向為知識圖譜,自然語言處理。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進知識圖譜和語義技術(shù)的普及和廣泛應用。
轉(zhuǎn)載須知:轉(zhuǎn)載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標題,請注明原標題。
?
點擊閱讀原文,進入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 基于超平面的时间感知知识图谱嵌入的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 去腾讯等BAT面试完的Mysql面试55
- 下一篇: 论文浅尝 | 用于开放领域的问题生成