當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

实体链指比赛方案分享

發布時間：2024/7/5 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了实体链指比赛方案分享小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

實體鏈指比賽方案分享：https://aistudio.baidu.com/aistudio/projectdetail/1331020?channelType=0&channel=0

實體鏈指比賽方案分享

比賽任務
實體鏈指，又稱實體鏈接（Entity Linking，EL），即對于給定的一個中文短文本（如搜索 Query、微博、對話內容、文章/視頻/圖片的標題等），EL 將其中的實體指稱項（mention）與給定知識庫（Knowledge Base）中對應的實體（entity）進行關聯。 **輸入：**中文短文本以及該短文本中的實體指稱項（mention）和其在中文短文本中的位置偏移（offset）的集合。

輸出：輸出文本此中文短文本的實體鏈指結果。每個結果包含：實體指稱項 mention、其在中文短文本中的位置偏移offset、其在給定知識庫中的實體id，如果為 NIL 情況，需要再給出實體的上位概念類型NIL_type。舉個例子：

給定文本“王者榮耀中的李白有哪些臺詞”、實體指稱項“王者榮耀”和位置偏移“0”、實體指稱項“李白”和位置偏移“6”。知識庫中每個實體指稱項對應多個候選實體，如“李白”有“李白_唐代詩人”、“李白_手游《王者榮耀》中的英雄角色”、“李白_李榮浩演唱歌曲”等候選實體。任務目標就是從知識庫中多個侯選實體中發現于文本中實體指稱項正確關聯的實體。這里實體指稱項“李白”正確關聯的實體就是“李白_手游《王者榮耀》中的英雄角色”，實體指稱項“王者榮耀”正確關聯的實體就是“王者榮耀_2015年騰訊天美發行的MOBA手游”。

比賽難點
相比于長文本擁有豐富上下文信息能輔助實體的歧義消解，短文本的實體鏈指存在很大的挑戰，包括：

比賽數據集主要來自于：真實的互聯網網頁標題數據、視頻標題數據以及用戶搜索 Query。存在口語化嚴重、語序錯亂、錯別字多等問題，導致實體歧義消解困難。
短文本上下文語境不豐富，須對上下文語境進行精準理解。
相比英文，中文由于語言自身的特點，在短文本的鏈指問題上更有挑戰。
3. 相關研究
實體鏈指的主要目標是識別上下文中的名稱指代哪個現實世界中的實體。具體而言，實體鏈指是將給定文本中的一個指稱項映射到知識庫中的相應實體上去，如果知識庫尚未收錄相應實體，則返回空實體。

最近有不少這方面的優秀工作。Ganea O E& Hofmann T. [1] 開創性地在 EL 中引入 Entity Embedding 作為信息，利用 Attention 機制來獲得 Context 的表征，通過實體間的一致性，和 Mention 到 Entity 的 LinkCount 先驗概率聯合消歧。

Le, P., & Titov, I. [2] 不僅僅考慮 Local/Global 的影響，同時將實體的關系也考慮進 Embedding 中，對 Entity，Mention，Relation 元組進行 Embedding，借用 ESIM 思想進行對多關系加權處理，并使用網絡進行匹配操作。

Raiman JR&Raiman OM [3] 認為當我們能預測出實體 Mention 的 Type，消歧這個任務就做的差不多了，主要利用 Type System、Type Classifier 和 LinkCount 來達到消歧的目的。

Sil et al. [4] 不但利用包含 Mention 的句子和 Wiki 頁面的相似度，還加入了細粒度的相似度計算模型，將幾種相似度作為神經網絡的輸入，避免了句子中不相關單詞對 Mention 消歧的影響。綜合來看，實體鏈接不僅要考慮 Text 的文本信息、KB 的信息、消歧后的一致性，還需要根據具體的業務場景采用不同的方案，需要靈活的運用 LinkCount、Context、Attributes、Coherence 這四大特征。

我們針對百度發布的面向中文短文本的實體鏈指任務，設計了多因子融合實體鏈指模型。首先采用了預訓練的 BERT 來對短文本中的指稱項進行類別預測，利用預測的類型構建一個 NIL 實體，和其他候選構成完備候選實體集，然后對每一個候選實體進行多方位的特征因子抽取，利用一個多層感知機將多個特征因子融合打分，最后根據每一個候選實體和文本的關聯度進行排序，選擇分數最高的候選實體作為實體消歧預測結果。

方案設計
實體鏈接一般包括三個主要環節：實體識別、候選實體獲取、實體消歧。比賽任務去掉了實體識別，專注于中文短文本場景下的多歧義實體消歧技術，另外增加了對新實體（NIL 實體）的上位概念類型判斷。處理NIL實體問題的常用方法有：1. NIL Threshold：通過一個置信度的閾值來判斷；2. Binary Classification：訓練一個二分類的模型，判斷Top1 Entity是否真的是文中的mention想要表達的實體；3. Rank with NIL：在rank的時候，在候選實體中加入NIL Entity，構成完備侯選實體集，再排序選擇top1 Entity。本設計方案采用第三種方法，先識別指稱項類別，再加入NIL Entity構成完備侯選實體集，最后進行消歧，因此模型整體包括三個模塊，指稱項分類模塊、候選實體獲取模塊和實體消歧模塊。模型框架如下：

4.1 指稱項分類
指稱項分類，指在給定上位概念類型體系的基礎上，預測mention在text中的上位概念類型。指稱項分類模塊的實現主要基于 BERT 模型，輸入文本，經過 BERT 模型編碼，取 CLS 位置的特征向量、指稱項開始和結束位置對應的特征向量，三個向量拼接，經過全連接層，最后 Softmax 激活得到指稱項的類別概率分布。模型結構如下圖所示：

其中優化主要改進的點包括：

二次訓練：訓練集合中非 NIL 部分的分類數據與 NIL 的分布不同，直接與 NIL 部分的數據一起訓練會導致模型整體預測 NIL 實體的準確率下降，而直接用 NIL 部分的數據訓練則有些訓練數據較少的類會訓練的不充分。所以我們采用二次訓練的方法，第一次的時候使用了訓練集中非 NIL 的部分，訓練兩個 Epoch，然后再在這個基礎上去訓練 NIL 部分。

對抗學習：對抗訓練是對抗防御的一種，它構造了一些對抗樣本加入到原數據集中，希望增強模型對對抗樣本的魯棒性。我們在模型訓練的時候加入了對抗學習，所使用的對抗學習方法是 Fast Gradient Method [5]。

模型融合：本次使用了 4 個 BERT 預訓練模型。模型融合的方法是使用多折的方法訓練了一個基于 MLP 的分類模型。

4.2 候選實體獲取
候選實體獲取，指從mention出發，找到KB中所有可能的實體，組成候選實體集。利用實體的 Alias 字段生成 Mention 和實體的映射表，實體的 Alias 的屬性值即為該實體的 Mention，包含該 Mention 的所有實體組成候選實體集合。在候選實體獲取時，從 Mention 和實體的映射表中，取出該 Mention 的候選實體集合，然后指稱項的類別構成的 NIL 實體組成完備候選實體集。這樣組成的完備候選實體集中，必有一個正確的實體和文本中的指稱項關聯。訓練時，指稱項的類別來自標注文本中 Kb_id 對應的實體類型，預測時，指稱項的類別由 4.1 部分描述的指稱項分類模塊預測得到。

為了后續使用方便，我們將完備候選實體集中的實體屬性進行拼接，處理成實體的描述文本。由于 Type 字段，義項描述和摘要字段的信息重要且占比較大，描述文本中都按照 Type、義項描述、摘要和 Data 中其他 Predicate、Object 對的順序進行拼接。

4.3 實體消歧
針對實體消歧任務，目前最常用的方法是將其視為二分類問題。對每一個候選實體進行多方位的特征因子抽取，將這些特征因子利用一個多層感知機模型進行融合打分，預測每一個候選實體和指稱項的關聯分數。最后對這些分數進行排序，由于我們在候選實體獲取階段，構建的是完備候選實體集，那么必有一個正確候選實體，所以在排序后選擇 Top1 即可作為指稱項的關聯實體。

特征因子抽取的抽取包括上下文相關特征和上下文無關特征，其中上下文相關特征包括指稱項和候選實體的關聯概率計算，多個指稱項之間的關聯概率計算等，上下文無關特征包括實體的流行度、實體的類型等。

這里起到關鍵作用的特征就是指稱項和候選實體的關聯概率。指稱項和候選實體的關聯概率和語義相似度計算的區別在于需要指明文本中待消歧的指稱項。我們利用標記符在文本中直接標記出指稱項的位置，指明待消歧的指稱項。輸入文本和候選實體描述文本，在文本的指稱項開始和結束位置添加標記符，經過 BERT 模型編碼，取 CLS 位置的特征向量，經過全連接層，最后 Softmax 激活得到文本中指稱項和候選實體之間的相關性。求指稱項和候選實體關聯概率的模型結構如下圖所示。

另外我們在實體消歧模塊也嘗試加入對抗學習來提高模型的魯棒性，其中對抗學習的方法是Fast Gradient Method。不同的 BERT 預訓練模型抽取的特征不同，為了豐富特征，本模塊采用了 19 個特征因子來從不同方面刻畫指稱項和候選實體的相關性。這 19 個特征如下表所示，分別為：

popularyity是上下文獨立特征，統計得到，統計的標注數據中指稱項映射到實體的關聯概率。

coherence是上下文依賴特征，統計得到，文本中其他指稱項出現在侯選實體描述文本中的概率。

coherence2是上下文依賴特征，統計得到，統計的標注數據中其他指稱項出現時指稱項和侯選實體的關聯概率。

nil是上下文獨立特征，實體自帶屬性，候選實體是否為NIL實體。

bert-base是上下文依賴特征，模型學習得到，bert-base預測的指稱項和侯選實體的關聯概率。

bertbase=p(ei∣m,c)bert base=p(e_i|m,c)
bert-base-rank是上下文依賴特征，計算得到，bert-base預測的指稱項和侯選實體的關聯排名。

的關聯概率在候選實體集里的rank排名。其余特征均由相應的BERT模型和加入對抗學習的BERT模型預測得到。

特征因子融合的方法是使用多折的方法訓練了一個 MLP 的模型。將所有數據集分成 n 份，不重復地每次取其中一份做測試集，用其他四份做訓練集訓練模型，訓練得到 n 個模型。預測時，取 n 個模型的預測結果的平均值，作為預測結果。

實驗結果
中文短文本的實體鏈指比賽，限定在給定的標注數據和知識庫中。標注數據均通過百度眾包標注生成，準確率 95% 以上。標注數據集主要來自于：真實的互聯網網頁標題數據、視頻標題數據、用戶搜索 Query。每條標注數據包含 Text，Text_id 和 Mention_data 字段，Mention_data 里面包含連接的 Mention，Offset 以及 Kb_id 字段。知識庫包含來自百度百科知識庫的約 39 萬個實體。知識庫中每行代表知識庫的一條記錄（一個實體信息），每條記錄為 Json 數據格式。

指稱項分類模型訓練中使用二次訓練的方法 F1 提升了約 1%，使用對抗學習 F1 提升了約 0.5%，模型融合后在 Dev 數據上 F1 值達到了 90.02%。具體參數和驗證數據集下結果如下表：

實體消歧模型共抽取了 19 個特征因子，使用多折的方法訓練了一個 MLP 的模型對這些特征因子進行融合，融合后在 Dev 數據上 F1 值達到了 89.29%。具體參數和驗證數據集下結果如下表：

總結與討論
本文對實體鏈指消歧做了一些探索。利用指稱項類型預測，構建 NIL_type 實體，解決無鏈接指代預測問題，同時利用 BERT、對抗學習、特征融合等訓練方法極大地提高了實體消歧的準確率。

還有很多需要優化的店，比如當前方法沒有充分利用其它指稱項的侯選實體信息，對其他指稱項信息的利用僅僅停留在名稱層面。另外，可以利用一些特征，先對候選實體進行一次排序，選擇排序前幾的候選實體進行下一步的消歧，這樣分層消歧在候選實體過多的情況下不僅可以提高準確率，還能提高消歧效率。

參考文獻
[1] Ganea O E, Hofmann T. Deep joint entity disambiguation with local neural attention[J]. arXiv preprint arXiv:1704.04920, 2017.

[2] Le P, Titov I. Improving entity linking by modeling latent relations between mentions[J]. arXiv preprint arXiv:1804.10637, 2018.

[3] Raiman J, Raiman O. Deeptype: multilingual entity linking by neural type system evolution[J]. arXiv preprint arXiv:1802.01021, 2018.

[4] Sil A, Kundu G, Florian R, et al. Neural cross-lingual entity linking[J]. arXiv preprint arXiv:1712.01813, 2017.

[5] Goodfellow, Ian J, Shlens, Jonathon, and Szegedy, Christian. Explaining and harnessing adversarial examples.International Conference on Learning Representations(ICLR), 2015.

總結

以上是生活随笔為你收集整理的实体链指比赛方案分享的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：机器学习中的特征建模（特征工程）和算法选
下一篇：论文浅尝 | 近期论文精选