论文浅尝 | 基于潜在类别信息的实体链接
筆記整理 |?黃一凡,東南大學本科生
來源:AAAI2020
鏈接:https://arxiv.org/pdf/2001.01447v1.pdf
一、簡介
作者意識到在利用預訓練模型進行實體鏈接時,往往會將類別信息忽略,因此會導致模型將指稱鏈接到擁有錯誤類別的錯誤實體。為了驗證這一發現,作者對DeepED(Ganea and Hofmann 2017)在AIDA-CoNLL的驗證集上的結果進行分析,發現超過一半的錯誤中,類別信息都不匹配。原因有二:一是詞袋模型忽視了位置信息;二是DeepED采取的預訓練模型編碼方式對實體的類別信息不敏感。
為了解決上述問題,本文提出將待鏈接指稱的前后相鄰詞建模,從而考慮潛在的類別信息。另外,本文還將一個基于BERT的實體相似度特征納入原始模型,使其可以更好地注意類別信息。
二、貢獻
a)指出當前基于注意力機制的模型常常會將某一指稱鏈接到不屬于同一類別的實體并分析其可能成因。
b)提出一個全新的基于BERT的實體表示方法,可以更好地注意到潛在類別信息。
c)將基于BERT的實體相似度特征納入DeepED。
d)在標準benchmark數據集上驗證了該模型的有效性,并有顯著提高。此外,該模型可以更正大部分類別錯誤。
三、模型
該模型包含兩個階段:1)基于BERT構造實體表示 2)在模型中加入實體相似度特征
3.1、基于BERT的實體表示
3.1.1、上下文表示
一個指稱的相鄰文本可以代表其類別信息。因此,我們通過提取預訓練BERT模型的最頂層表示來表示上下文:
3.1.2、實體表示
對于每一個實體,隨機從維基百科采樣N個上下文信息,接著用平均池化表示該實體:
3.2、基于BERT的實體相似度
使用上下文表示和實體表示間的cosine相似度定義實體相似度:
最終,采用兩個擁有100個隱藏單元和ReLU激活函數的全連接層將計算得到的實體相似度與原模型結合:
四、實驗
4.1、數據集
為了全面的評估該模型的效果,作者分別測試了該模型的in-domain和out-domain效果。
對于in-domain,使用AIDA-CoNLL數據集進行訓練、驗證以及測試;對于out-domain,使用AIDA-CoNLL訓練集上訓練的模型,在五個流行的數據集上進行測試:MSNBC,AQUAINT,ACE 2004,WNED-CWEB,WNED-WIKI。
4.2、設置
為了與DeepED模型進行對比,候選指稱生成采用了與其相同的方法,同時只考慮在知識庫中存在的指稱。
4.3、結果
該表展示了在in-domain設置下本文提出的模型與其他SOTA模型在AIDA-B數據集上的F1得分對比??梢园l現,不論是在local模型還是global模型,該模型均取得了顯著的提高。
另外,在out-domain中,平均來看,本文提出的模型相對原有模型也有著一定的模型。由此可見,該模型的魯棒性較好。
4.4、分析
a)為了驗證該模型可以更好地獲取類別信息,作者進行了一個基于該模型的類別預測實驗。實驗從維基百科中隨機采樣了10萬個實體,并預測它們的類別。最終結果驗證了作者的猜想。
b)該模型可以大大減少類別錯誤。作者還更進一步分析了依然存在的類別錯誤,并將其成因分為三類:先驗知識、全局信息和上下文信息,并會在今后根據此進一步對模型進行改進。
c)經過實驗進一步發現,如果使用表現更好的全局模型,該模型的效果還會進一步提高。
五、總結
本文提出提取潛在的類別信息來提高實體鏈接的表現,實驗表明該模型無論在in-domain還是out-domain都可以提高表現。在未來,作者還將進一步研究全局模型處理方法來進一步提高實體鏈接的準確率。
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 | 基于潜在类别信息的实体链接的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 阿里P8架构师谈:高并发网站的监控系统选
- 下一篇: 论文浅尝 | 从具有数值边缘属性的知识图