论文浅尝 | 通过阅读实体描述进行零样本的实体链接
筆記整理 |?賴澤升,東南大學本科生
來源:ACL2019
動機
??先前實體鏈接的大多數工作都著重于與通用實體數據庫的鏈接,通常希望鏈接到專門的實體詞典,例如法律案件,公司項目描述,小說中的字符集或術語表。
但這些工作的不足之處在于,對于這些專用實體詞典,帶標簽的數據不易獲得,而且獲取起來往往相當昂貴。
因此,為了解決上述問題,論文提出了一種新的實體鏈接模型,以將其推廣到看不見的專業實體。但是,該任務的難度在于:在沒有可用的完整別名表或頻率統計數據和元數據的情況下,模型必須閱讀實體描述并推斷實體mention與其上下文的對應關系;由于帶有標簽的mention對于測試實體是不可用的,因此模型必須適應新mention的上下文和實體描述。
為了解決上述難題,論文提出了一種新的預訓練模型DAP,去解決如何將不可見的實體鏈接到一個新的領域的問題,從而完成零樣本的實體鏈接任務。
貢獻
文章的主要貢獻:
(1)提出了一個新的零樣本實體鏈接任務,旨在以最小的假設條件下,挑戰實體鏈接系統的泛化能力。并且為此任務構建了一個數據集,該數據集將公開提供。
(2)通過使用最前沿的閱讀理解模型為實體鏈接任務來建立強大的基準。此外,論文還發現上下文和實體描述之間的attention對于此任務至關重要,而在以前的實體鏈接工作中并未使用attention。
(3)提出了一種簡單但新穎的適應策略,該策略稱為領域自適應預訓練策略(DAP),并通過實驗表明它可以進一步提高實體鏈接的性能。
模型
論文將實體鏈接任務分為兩個階段,第一階段是快速產生候選實體,第二階段是對每個候選實體計算得分,選出得分最高的即為目標實體。
對于第一階段,論文使用BM25(TF-IDF的一種變體)來衡量mention字符串和候選文檔之間的相似性。通過Lucene的BM25評分檢索到的前k個實體用于培訓和評估。在論文的實驗中,k設置為64。排名前64位的候選實體的平均覆蓋率小于77%。這說明任務艱巨,并且在候選實體生成階段仍有很大的改進空間。
對于第二階段,論文中使用了基于Transformer結構的BERT。在BERT中,mention用m表示,候選實體的描述用e表示,兩者都由128個詞標記表示,被連接起來并作為序列對連同特殊的開始和分隔符一起輸入到模型中:Mention中的單詞被特殊的嵌入向量標記,該向量被添加到mention的單詞嵌入中。Transformer編碼器對輸入的信息產生向量hm,e,它是最后一個隱藏層輸出的特殊表示。在候選實體集合中,每一個實體的得分由公式:得出,此處的是經過學習的參數向量。選出得分最高的候選實體即為目標實體。該模型的訓練方法是使用softmax loss。在論文中,使用了具有12層,隱藏層數為768和12個attention的體系結構,此結構模型稱為Full-Transformer。
為了評估這種新穎模型的價值,論文中還使用了Full-Transformer兩個變種模型作對比實驗。一個被稱為Pool-Transformer,原理是分別將mention和候選實體描述輸入到Transformer中,在最后的隱藏層分別輸出hm和he。該mention和候選實體之間的相似度用公式:計算,然后選出得分最高的候選實體。另外一個被稱為:Cand-Pool-Transformer,原理是使用單個向量表示實體,但可以單獨使用mention及其上下文。該模型還使用了兩個Transformer編碼器,但引入了一個額外的attention模塊,該模塊使hm可以在上下文中參與mention的單個token表示。
實驗
論文中,作者引入了一系列符號來描述組成預訓練階段的各種方式。
Usrc表示來自源世界文檔的一系列的文本段
Utgt表示目標世界文檔中的文本片段
Usrc+tgt表示從Usrc和Utgt中隨機交錯抽取的文本段
Uwb表示在開源語料庫中的文本段,在此實驗中語料庫指的是Wikipedia和BookCorpus
如下表4所示,零樣本實體鏈接的基準結果如下。在所有驗證域上的平均歸一化實體鏈接準確度中最高的是:Full-Transformer+Uwb組合,達到了76.06
下圖2(a)表示,使用DAP模型對實體鏈接任務的準確度相比其他模型要高,,并且經過對模型的微調后,準確度會比原來上升一些。圖(b)表示了在目標域上評估的預訓練模型的MLM(Masked LM)準確性與微調模型的實體鏈接性能之間的關系。可以看出。兩者呈正相關的關系。
下表5顯示了Full-Transformer(Uwb)對訓練集和測試集中可見實體和不可見實體的預測準確度
下表6顯示了Full-Transformer在測試域對實體鏈接的準確度
總結
本文提出了一種零樣本實體鏈接的新任務,并為此構建了一個多世界數據集。該數據集可以用作實體鏈接研究的共享基準,該鏈接任務主要用于專門的專業領域,在領域中其中沒有帶有標注的mention,并且實體僅通過描述進行定義。并且文章還通過將強大的神經閱讀理解與領域自適應預訓練(DAP)相結合,提出了一個強大的基準。經過實驗證明,論文中提出的模型比之前的實體鏈接工作準確率更好,驗證了模型的有效性。但與此同時,候選實體生成階段留有很大的改進空間。
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 | 通过阅读实体描述进行零样本的实体链接的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 图谱实战 | 斯坦福黄柯鑫:图机器学习在
- 下一篇: 论文浅尝 - ECIR2021 | 两种