论文浅尝 - COLING2020 | 一种用于跨语言实体对齐的上下文对齐强化跨图谱注意力网络...
筆記整理 | 譚亦鳴,東南大學博士生
來源:COLING 2020
鏈接:https://www.aclweb.org/anthology/2020.coling-main.520.pdf
本文發現,目前基于GCN的對齊方法都是分別考慮兩個KG,然后分別學習它們的embedding,并認為這種做法忽視了KG預對齊鏈接的使用。因此,作者提出了一種新的上下文對齊強化跨圖譜注意力網絡(Contextual Alignment Enhanced Cross Graph Attention Network, CAECGAT),用于跨語言實體對齊任務。該模型能夠利用來自預對齊種子的跨圖譜信息聯合學習不同圖譜的embedding。論文在三個benchmark實體鏈接數據集上做了充分的實驗,論證了該方法性能上的優勢。
方法
圖1(a) 描述了使用預對齊實體的上下文信息,能夠為對齊構建提供更加充分的證據。
例如:中文圖譜中的“哥威迅語“是的譯文可以匹配上英文圖譜中的”Gothic language“,但是事實上正確的英文實體對齊是”Gwich’ in language“,利用預對齊的上下文信息則可清晰判斷出這種情況。
圖1(b) 則描述了考慮預對齊上下文的模型與常規GCN-based模型之間的區別。
圖2是CAECGAT的方法示意圖,其中的核心是CGAT(Cross-KG Attention)層,該部分包含Aggregation和 Attention-based Cross-KG Propagation兩個主要部分,前者利用預對齊種子上下文,轉換雙語圖譜得到跨圖譜信息。后者則用于擴展這些跨圖譜信息。進一步利用Stacking multiple CGAT層,能夠擴展單跳鄰居信息為多跳鄰居。
對于每組預對齊實體組合,組合它們在其他KG中的對應實體的embedding,并使用一個門單元更新它們。其形式如公式1:
其中,el表示第l層的向量表示,gl表示門單元,用于控制跨圖譜信息流,如公式2,對于沒有預對齊的實體在aggregation層則沒有變化。
通過應用這種aggregation方法,可以獲得帶有共享實體表示的跨圖譜embedding,形式上如公式3,4所示:
接著,利用收集的鄰居信息,繼續使用attention機制對entity embeding進行更新,形式如公式5和6:
形式上,上述aggregation與propagation兩層可以一起表示為:
作者描述CAECGAT模型的算法如下:
實驗
本文實驗使用的是DBP15K數據的三個子集,統計信息如下所示:
實驗結果如表3所示:
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 - COLING2020 | 一种用于跨语言实体对齐的上下文对齐强化跨图谱注意力网络...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 设计模式实践及总结
- 下一篇: 论文浅尝 | 图神经网络的对抗攻击和防御