论文浅尝 | 从具有数值边缘属性的知识图谱中学习嵌入
論文筆記整理:朱珈徵,天津大學碩士
鏈接:https://www.ijcai.org/proceedings/2021/0395.pdf
動機
從遺傳數據到社會網絡,在越來越多的場景下與知識圖譜邊緣相關的數值已經被用來表示不確定性、邊的重要性,甚至是帶外知識。然而,傳統的知識圖嵌入模型并沒有設計來捕獲這些信息,這損害了預測能力。在這項工作中,作者們的任務是預測缺失環節的概率估計與數字增強三元知識圖。作者提出了FocusE,一個知識圖嵌入的附加層,以增強邊相關數字文字的鏈接預測,它將數字邊緣屬性注入傳統知識圖嵌入體系的評分層。對公開可用的豐富數字的知識圖的實驗表明,作者的方法優于傳統的數字不可知的基線以及最近的UKGE模型。
亮點
FocusE的亮點主要包括:
1.FocusE適用于采用標準負樣本生成協議的任何現有KGE模型,并使用邊數值字面值來調節真三元組的分數與其相應的負損壞之間的差值;2.通過修改損失函數,以更稀疏的困難示例為目標,利用數值文字將傳統KGE模型聚焦于具有更高數值的三元組,實驗表明,使用FocusE訓練的模型優于數字不可知 的基線,特別是在區分具有高數值屬性的三元組和與低值相關的三元組時;
概念及模型
基于FocusE增強的知識圖嵌入模型體系結構。附加組件充當傳統計分層和損失之間的中間層。知識圖嵌入模型(KGE)是用于預測實體之間缺失鏈接的神經結構;知識圖的嵌入是通過在訓練知識圖上訓練神經結構來學習的:輸入層將訓練三元組提供給檢索實體和關系的嵌入查找層。在本文中,作者預測了看不見的數值增強三元組t = (s, p, o, w)的概率估計。該任務被形式化為傳統鏈路預測的相同的學習排序問題。
基于FocusE增強的知識圖嵌入模型體系結構如下:
?FocusE
FocusE是一個知識圖嵌入架構的附加層,旨在用數字豐富的三元組進行鏈路預測。FocusE會考慮與每個鏈接相關聯的數字文字。不管它們的語義如何,作者都是在數值強化或減弱鏈接存在的可能性的假設下操作的。例如,給定數值w在[0 - 1]范圍內,作者假設高值識別出具有更高概率為真的三元組,低值挑選出弱或不太可能的關系,而w = 0三元組被認為是負樣本。
FocusE包含一個插件層,該插件層位于傳統KGE方法的計分層和損失層之間,設計用于訓練期間,如上圖。與傳統體系結構不同,在將評分層提供給損失函數之前,作者根據與三元組相關的數值調整其輸出,以獲得重點評分。作者利用與三元組相關聯的數值,以便在訓練期間,模型將重點放在具有更高數值的三元組上。模型從訓練具有高數值的三元組中學習,同時使用邊緣數值來最大化分配給真實三元組的分數和分配給其損壞的分數之間的差值。這會增加模型的損失,并幫助它關注具有更高值的三元組。
設t = (s, p, o)是正的三元組。作者定義t的變體為 t_{-}=(s,p,o')或t^{-}=(s',p,o)。其中, s', o' 分別是主體或客體的變體。
設f(t)為KGE模型的打分函數:
作者使用軟加非線性σ來確保f(t)返回的分數大于或等于零,而不引入過多的失真:
為了考慮與三元組相關的數值的影響,作者定義了一個調制因子是α∈R,它負責在圖形結構的影響和與每個三元組相關的數值的影響之間取得平衡:
在β∈[0,1]是結構性的影響,一個調制圖拓撲影響的超參數,并且w∈R是與正三元組t相關聯的數值。β用于重新衡量三元組價值w。如果β= 0使用原始數值w。當β = 1時,忽略數值w,模型等效于傳統KGE結構。注意,正三元組和負三元組被分配了不同的α方程。這樣做是為了在三元組數值較高時降低三元組值與它們各自的錯誤值之間的差值。
最后,FocusE層h(t)定義為:
把上述所有這些放在一起,FocusE層h(t)然后在損失函數L中使用。這是一個修改過的,更穩定的數字版本的負對數似然標準化softmax分數:
理論分析
實驗
作者評估了FocusE在鏈接預測任務中的預測能力。實驗表明,FocusE在區分低值三元組和高值三元組方面優于傳統的KGE模型及其最接近的直接競爭對手UKGE。作者采用了3個公開數據集進行實驗,分別是:CN15K、NL27K、PPI5K。
作者預測每個三元組t = (s, p,o) ∈T是否是一個正的事實,其中t是一個不相交的保留測試集,只包括正的三元組。作者把這個問題看作是一個學習排序的任務:對于每一個t = (s, p,o) ∈T,作者通過一次破壞其中一方(即主體或客體)來生成合成的負t。作者預測每一個t和它的所有負t的得分。然后作者將唯一的正t與所有負N進行排序。作者報告了通過從生成的變體列表中過濾掉虛假的基本事實正數來學習排名度量,如平均秩(MR)、平均倒數秩(MRR)和n(其中n = 1,10)的命中率。
結果表明,FocusE帶來了更好或非常相似的MRR,相較于傳統的數字不可知的基線:FocusE增加了所有模型的MRR,它比最好的基線高出14個基點。實驗表明,FocusE在CN15K上的MRR比UKGE高15個基點,在NL27K上的MRR比UKGE高19個基點,在PPI15K上的MRR比UKGE高30個基點。FocusE實現了更好的預測能力,而不需要額外的帶外規則
下圖顯示了如果λ增加,性能就會提高。在大多數情況下,當λ > 400 epoch時,模型性能達到飽和
總結
作者證明,通過插入一個額外的層,可以使傳統的KGE體系結構意識到與三元組相關的數值。這將導致模型更好地區分高值和低值三元組,而不考慮數字屬性的語義,而且不需要額外的帶外規則(與UKGE不同)。未來的工作將研究預測與看不見的三元組相關的數值的能力。作者還將擴展他們的方法,以支持與同一個三元組關聯的多個數字屬性。
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 | 从具有数值边缘属性的知识图谱中学习嵌入的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 基于潜在类别信息的实体链接
- 下一篇: 论文浅尝 | 一种可解释的语义匹配复值网