當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Large-Scale Named Entity Disambiguation Based on Wikipedia Data

發布時間：2024/4/17 编程问答 50 豆豆

生活随笔收集整理的這篇文章主要介紹了 Large-Scale Named Entity Disambiguation Based on Wikipedia Data 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Large-Scale Named Entity Disambiguation Based on Wikipedia Data

基于維基百科數據的大規模命名實體消岐

1．引言

　　1.1.?概念

　　實體（entity）:?客觀存在的事物；

　　表層形式（surface form）：?實體的助記符號；

　　實體和表層形式是多對多的關系：一個表層形式可以和多個實體相關聯，指代多個實體；一個實體可以有多個表層形式指代它

　　1.2.?實體標識的目標

　　把表層形式映射到實體，并標注實體的類型（人名、地名、組織名等）。當文檔數量越來越多的時候，表層形式的語義歧義問題越來越突出。

???????如：Texas在維基百科中指代超過20個實體。在百度百科中，一個人名也對應多個人。

　　1.3.?前人的工作

???????實體標識的重要性：略。

???????前人的工作：簡單舉兩個。

　　Bagga Baldwin(1998)解決跨文檔的共指關系。

　　問題描述：不同文檔的兩個同名實體是否指代相同的事物

　　解決方案：統計各個文檔中所有出現這個同名實體句子的詞向量，然后計算向量的余弦值。

　　Ravin和Kazi用Nominator來解決夸文檔的共指關系。Nominator是第一個成功解決實體識別和共指關系消解的系統。（沒有看這個系統）

　　2.?系統介紹

　　2.1.?任務描述

　　給定一個實體的表層形式，給表層形式分配一個實體（用唯一名稱或者id表示）。

　　這個任務類似于詞義消解（word sense disambiguation，?WSD），為文章中的多義詞分配正確的意思。

　　2.2.?消岐方法

　　一句話總結：用一個龐大的實體列表和廣泛的世界知識來做命名實體消岐。

???????分為2個子任務：

　　1）如何得到實體列表和世界知識；

　　2）如何運用這些數據

??????2.2.1.?需要在維基百科中得到的知識：

?????????????????????a)?已知的實體（entity）

?????????????????????b)?實體的類別（如果可用，人名、地名、組織名等）（entity class）

?????????????????????c)?實體已知的表層形式（surface form）

?????????????????????d)?上下文證據（contextual evidence）

?????????????????????e)?類別標記（category tag）

　　2.2.2.?如何得到上的說的5種數據

　　a)?英文維基百科頁面可以分成4類

??????　　i)?實體頁面（entity page）

??????????????羅列單個實體的描述信息（最多）

　　　　例子：http://en.wikipedia.org/wiki/Texas_(TV_series)?

??????　　?ii)?重定向頁面（redirecting page）

　　　　一個實體有多種名稱，或者某些頁面已經廢棄不用，來指向其他表示他們的頁面

　　　　例子：http://en.wikipedia.org/wiki/Another_World_in_Texas

??????　　?iii)?消岐頁面（disambiguation page）

　　　　一個實體有多種名稱，消岐頁面列出名稱可能表示的所有實體

　　　　例子：http://en.wikipedia.org/wiki/Texas_(disambiguation)

? ? ? ? ? ? iv)?列表頁面（list page）

? ? ? ? ? ? 聚集相同類型的實體

　　　　例子：http://en.wikipedia.org/wiki/List_of_band_name_etymologies

　　b)?抽取的內容：

???????i)?得到表層形式到實體的映射（surface form mapping to entity）

??????????????實體頁面和重定向頁面的title，和這些title去除同位語的形式

??????????????消岐頁面：指向其他實體頁面的超鏈接，是被指實體的表層形式

　　　　實體頁面的正文中，指向其他實體頁面的超鏈接是被指實體的表層形式。

http://en.wikipedia.org/wiki/Pam_Long

　　ii)?得到類別標記（category information）

　　　　列表頁面的title是所有本頁面的類別標記

　　　　實體頁面中包含的類別標記

　　　　頁面段落title

　　iii)?得到上下文（context）

　　　　實體頁面

　　　　其他指向該實體頁面的實體（互為上下文）

　　2.2.3.如何運用

???????a)?文檔分析

??????????????把文檔切分成句子；

??????????????判斷句首單詞是否是實體的一部分，如果不是首字母小寫

??????????????把title中的非實體單詞的大寫字母化為小寫

??????????????使用統計方法識別實體，判別實體邊界

　　把一篇文章中的所有相同的表層形式分配一個類別（人名、地名、組織名、其他）

??????????????消除結構歧義（連接性歧義、所有格歧義、介詞前置歧義）。

??????????????把短的表層形式轉化為長的表層形。

???????b)?消岐組件

　　消岐處理使用向量空間模型。把分析文檔得到的向量表示和實體頁面的向量表示做比較。

　　令C={c₁,…,c_M}為維基頁面中已知的上下文集合,T={t₁,…,t_N}是已知的類別標簽的集合。一個實體可以用一個向量δe={0,1}^M+N表示，δe由兩部分組成δe|_c∈{0,1}^M，δe|_t∈{0,1}^N。

　　令ε(s)代表具有表層形式s的實體集合。D為文檔，S(D)={s₁,…,s_n}是在文檔D中標識的表層形式集合。我們建立文檔的上下文向量d={d₁,…,d_m}∈N^M,其中d_i是上下文c_i出現的次數。建立擴增向量?。

　　目標是為表層形式分配實體。s_i|->e_i,i=1,…,n。使實體的上下文和文檔的上下文具有一致性，并且對文檔中每對分配的實體的類別標記具有一致性。下面是公式：

　　注意：為一個表層形式分配的實體取決于其他被分配的所有實體，這樣來說是一個復雜度很高、很困難的優化任務。另一個方案是考慮文檔中所有表層形式的所有可能實體的類別標記。公式如下

　　上面公式可以重寫為

　　與開始的公式相等。

　　因此，消岐分為兩個步驟：

　　（1）??建立擴增文檔向量

　　（2）??最大化上面公式

　　注意的是：并不對笛卡爾積做歸一化處理（也就是不是計算余弦值）

轉載于:https://www.cnblogs.com/Dream-Fish/p/3956410.html

總結

以上是生活随笔為你收集整理的Large-Scale Named Entity Disambiguation Based on Wikipedia Data的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： JavaScript 本地验证用户注册信
下一篇：有名管道的使用