Large-Scale Named Entity Disambiguation Based on Wikipedia Data
Large-Scale Named Entity Disambiguation Based on Wikipedia Data
基于維基百科數據的大規模命名實體消岐
?
1.引言
1.1.?概念
實體(entity):?客觀存在的事物;
表層形式(surface form):?實體的助記符號;
實體和表層形式是多對多的關系:一個表層形式可以和多個實體相關聯,指代多個實體;一個實體可以有多個表層形式指代它
1.2.?實體標識的目標
把表層形式映射到實體,并標注實體的類型(人名、地名、組織名等)。當文檔數量越來越多的時候,表層形式的語義歧義問題越來越突出。
???????如:Texas在維基百科中指代超過20個實體。在百度百科中,一個人名也對應多個人。
1.3.?前人的工作
???????實體標識的重要性:略。
???????前人的工作:簡單舉兩個。
Bagga Baldwin(1998)解決跨文檔的共指關系。
問題描述:不同文檔的兩個同名實體是否指代相同的事物
解決方案:統計各個文檔中所有出現這個同名實體句子的詞向量,然后計算向量的余弦值。
Ravin和Kazi用Nominator來解決夸文檔的共指關系。Nominator是第一個成功解決實體識別和共指關系消解的系統。(沒有看這個系統)
2.?系統介紹
2.1.?任務描述
給定一個實體的表層形式,給表層形式分配一個實體(用唯一名稱或者id表示)。
這個任務類似于詞義消解(word sense disambiguation,?WSD),為文章中的多義詞分配正確的意思。
2.2.?消岐方法
一句話總結:用一個龐大的實體列表和廣泛的世界知識來做命名實體消岐。
???????分為2個子任務:
1)如何得到實體列表和世界知識;
2)如何運用這些數據
??????2.2.1.?需要在維基百科中得到的知識:
?????????????????????a)?已知的實體(entity)
?????????????????????b)?實體的類別(如果可用,人名、地名、組織名等)(entity class)
?????????????????????c)?實體已知的表層形式(surface form)
?????????????????????d)?上下文證據(contextual evidence)
?????????????????????e)?類別標記(category tag)
2.2.2.?如何得到上的說的5種數據
a)?英文維基百科頁面可以分成4類
?????? i)?實體頁面(entity page)
??????????????羅列單個實體的描述信息(最多)
例子:http://en.wikipedia.org/wiki/Texas_(TV_series)?
?????? ?ii)?重定向頁面(redirecting page)
一個實體有多種名稱,或者某些頁面已經廢棄不用,來指向其他表示他們的頁面
例子:http://en.wikipedia.org/wiki/Another_World_in_Texas
?????? ?iii)?消岐頁面(disambiguation page)
一個實體有多種名稱,消岐頁面列出名稱可能表示的所有實體
例子:http://en.wikipedia.org/wiki/Texas_(disambiguation)
? ? ? ? ? ? iv)?列表頁面(list page)
? ? ? ? ? ? 聚集相同類型的實體
例子:http://en.wikipedia.org/wiki/List_of_band_name_etymologies
b)?抽取的內容:
???????i)?得到表層形式到實體的映射(surface form mapping to entity)
??????????????實體頁面和重定向頁面的title,和這些title去除同位語的形式
??????????????消岐頁面:指向其他實體頁面的超鏈接,是被指實體的表層形式
實體頁面的正文中,指向其他實體頁面的超鏈接是被指實體的表層形式。
http://en.wikipedia.org/wiki/Pam_Long
ii)?得到類別標記(category information)
列表頁面的title是所有本頁面的類別標記
實體頁面中包含的類別標記
頁面段落title
iii)?得到上下文(context)
實體頁面
其他指向該實體頁面的實體(互為上下文)
2.2.3.如何運用
???????a)?文檔分析
??????????????把文檔切分成句子;
??????????????判斷句首單詞是否是實體的一部分,如果不是首字母小寫
??????????????把title中的非實體單詞的大寫字母化為小寫
??????????????使用統計方法識別實體,判別實體邊界
把一篇文章中的所有相同的表層形式分配一個類別(人名、地名、組織名、其他)
??????????????消除結構歧義(連接性歧義、所有格歧義、介詞前置歧義)。
??????????????把短的表層形式轉化為長的表層形。
???????b)?消岐組件
消岐處理使用向量空間模型。把分析文檔得到的向量表示和實體頁面的向量表示做比較。
令C={c1,…,cM}為維基頁面中已知的上下文集合,T={t1,…,tN}是已知的類別標簽的集合。一個實體可以用一個向量δe={0,1}M+N表示,δe由兩部分組成δe|c∈{0,1}M,δe|t∈{0,1}N。
令ε(s)代表具有表層形式s的實體集合。D為文檔,S(D)={s1,…,sn}是在文檔D中標識的表層形式集合。我們建立文檔的上下文向量d={d1,…,dm}∈NM,其中di是上下文ci出現的次數。建立擴增向量?。
目標是為表層形式分配實體。si|->ei,i=1,…,n。使實體的上下文和文檔的上下文具有一致性,并且對文檔中每對分配的實體的類別標記具有一致性。下面是公式:
注意:為一個表層形式分配的實體取決于其他被分配的所有實體,這樣來說是一個復雜度很高、很困難的優化任務。另一個方案是考慮文檔中所有表層形式的所有可能實體的類別標記。公式如下
上面公式可以重寫為
與開始的公式相等。
因此,消岐分為兩個步驟:
(1)??建立擴增文檔向量
(2)??最大化上面公式
注意的是:并不對笛卡爾積做歸一化處理(也就是不是計算余弦值)
轉載于:https://www.cnblogs.com/Dream-Fish/p/3956410.html
總結
以上是生活随笔為你收集整理的Large-Scale Named Entity Disambiguation Based on Wikipedia Data的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: JavaScript 本地验证用户注册信
- 下一篇: 有名管道的使用