當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 通过多原型实体指称向量关联文本和实体

發布時間：2024/7/5 编程问答 26 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | 通过多原型实体指称向量关联文本和实体小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Cao Y,Huang L, Ji H, et al. Bridge Text and Knowledge by Learning Multi-Prototype Entity Mention Embedding[C]// Meeting of the Association for Computational Linguistics. 2017:1623-1633.

導讀：學術界近兩年來十分關注如何將文本等非結構化數據和知識庫等結構化數據映射到相同的語義空間中，然而在相同的語義空間中建模的過程會受到文本中實體指稱（mention）歧義的影響，即文本中的同一個姓名如邁克爾·喬丹可能指的是著名的籃球運動員喬丹也可能是我們敬仰的教授喬丹，那么在語義空間中，因為他們的字面表達相同而將其建模成為統一的向量顯然是不合理的。因此，文中提出了一種新的mention向量表示的學習框架Multi-Prototype Entity Mention Embedding (MPME)，它可以根據實體指稱所對應的詞義的不同而聯合文本和知識庫學習到不同的表示。此外，文中提出了一種類似于語言模型的方法解決了實體指稱的語義消歧問題。最后，實驗部分利用實體鏈接任務作為MPME的應用場景，取得了當前最優的實驗效果。

研究動機

當前有相當多的工作研究如何將文本和知識庫進行關聯建模，顯然這樣會為自然語言處理及知識庫相關的研究任務帶來比較大的性能提升。當前的研究思路可以粗略地分為兩類，其一是利用深度神經網絡將實體和詞語直接在統一的語義空間中進行建模，但這類方法比較受限于計算復雜度以及語料的規模。其二是分別對知識庫中的實體以及文本中的實體指稱進行建模，并且利用 wiki 百科中的外鏈獲取 mention 和 entity 之間的關聯，相當于在各自訓練的過程中加入了一層約束用于確保他們在各自的語義空間中有相似的表達。上述兩類方法都會面對同一個實體指稱可能對應到多個實體的歧義問題，即文本中提到的邁克爾喬丹可能是教授也可能是運動員或其他不甚知名的人，也會面臨多個實體指稱對應同一個實體的歧義問題，即文本中出現的姚明和小巨人可能指的同一個人。因此本文著手解決實體指稱的語義歧義問題，類似于傳統的實體鏈接任務。

創新點

本文提出了一種新型的實體指稱表示學習方法 MPME，結合文本信息以及知識庫信息學習實體指稱的表示；此外，文中還提出了一種基于語言模型的決策方法來進行實體指稱的語義消歧。

模型

MPME 框架結構示意圖

如圖所示，模型可以大致分成兩個部分。

其一是表示學習部分，通過 Word Embedding 和 Knowledge Graph Embedding 對文本和知識庫分別進行建模，其中每個實體指稱都對應著一個實體集合，也就是它們潛在的語義。在Entity Representation Learning中，訓練的目標是有相似的關聯實體的實體之間更相似。在Text Representation Learning中，實體指稱將和其他詞匯一起通過 Skip-Gram 模型進行訓練，在Mention Representation Learning中，實體指稱被替換為相應的詞義（sense），上下文的表示來自文本表示學習部分，實體的表示來自知識庫表示學習部分，目標是得到更好的實體指稱的表達s_j^*，使得根據上下文信息，能夠確定實體指稱所對應的語義（對應哪個實體）。

其二是測試場景下的消歧部分，模型會綜合考慮實體指稱對應的上下文信息，以及實體指稱對應各個語義的統計概率分布進行計算。

實驗結果

文章的目標是訓練得到一組高質量的實體指稱向量，仍然沒有跳出表示學習的框架，因此實驗部分首先比較了采用$MPME$之后，訓練得到的向量的相似實體指稱都有哪些，以及從 mention embedding 和相應的 entity embedding余弦距離的角度進行了分析，各項指標相對對比模型SPME提高了1%左右，這一部分就不做贅述了。

同時，文章利用 mention embedding 在實體鏈接任務上進行了驗證，在AIDA數據集上，不管是有監督的實體鏈接任務還是無監督的實體鏈接任務，利用 MPME 均取得了相較于之前最好結果3%左右的提升。

啟發

mention 之間的信息

本文中把文本和知識庫分別單獨進行建模，mention 的建模過程中比較多的考慮 mention 和 entity 之間的關聯，所謂的上下文更多的是以詞窗口內詞匯的形式出現的，而不是上下文中其他的mention，因此有可能會忽略一些關鍵的信息。傳統的實體鏈接方法中比較多使用的一類是基于圖的算法，其優勢便在于能夠更充分的發掘 mention 和 mention 之間，mention 和 entity 以及 entity 和 entity 直接的結構關聯信息，利用這些信息進行消歧已經足夠有效（體現在實體鏈接任務的準確率上），那么也可以嘗試利用圖結構更好地學習 mention 的表示。

潛在的問題在于，假設 mention 所對應的兩個歧義實體屬于同一個 category，那么它們會共享十分相似的上下文，通過本文所題出的方法將不能很好的解決這個問題。比如兩只都叫做旺財的狗，它們的日常表現應該會比較相似，唯一不同的可能就只有它們的主人不同，這一點需要上下文中 mention 的參與，共同建模。

未登錄詞的處理

實際的應用場景中，未登錄mention的數目理應遠多于已經訓練的 mention 的數目，這樣才能體現出模型或方法的泛化能力，這也為我們提出更加 general 的 framework 提出的新的需求，或者說，訓練的過程盡可能簡單，所需的額外信息盡可能的少，對未登錄詞的發現更加友好的框架。

論文筆記整理：吳桐桐，東南大學博士生，研究方向為自然語言問答。

OpenKG.CN

中文開放知識圖譜（簡稱OpenKG.CN）旨在促進中文知識圖譜數據的開放與互聯，促進知識圖譜和語義技術的普及和廣泛應用。

轉載須知：轉載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標題，請注明原標題。

點擊閱讀原文，進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的论文浅尝 | 通过多原型实体指称向量关联文本和实体的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： pkuseg：一个多领域中文分词工具包
下一篇：肖仰华 | 基于知识图谱的可解释人工智能