日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Large-Scale Named Entity Disambiguation Based on Wikipedia Data

發布時間:2024/4/17 编程问答 50 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Large-Scale Named Entity Disambiguation Based on Wikipedia Data 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Large-Scale Named Entity Disambiguation Based on Wikipedia Data

基于維基百科數據的大規模命名實體消岐

?

1.引言

  1.1.?概念

  實體(entity:?客觀存在的事物;

  表層形式(surface form):?實體的助記符號;

  實體和表層形式是多對多的關系:一個表層形式可以和多個實體相關聯,指代多個實體;一個實體可以有多個表層形式指代它

  1.2.?實體標識的目標

  把表層形式映射到實體,并標注實體的類型(人名、地名、組織名等)。當文檔數量越來越多的時候,表層形式的語義歧義問題越來越突出。

???????如:Texas在維基百科中指代超過20個實體。在百度百科中,一個人名也對應多個人。

  1.3.?前人的工作

???????實體標識的重要性:略。

???????前人的工作:簡單舉兩個。

  Bagga Baldwin(1998)解決跨文檔的共指關系。

  問題描述:不同文檔的兩個同名實體是否指代相同的事物

  解決方案:統計各個文檔中所有出現這個同名實體句子的詞向量,然后計算向量的余弦值。

  Ravin和Kazi用Nominator來解決夸文檔的共指關系。Nominator是第一個成功解決實體識別和共指關系消解的系統。(沒有看這個系統)

  2.?系統介紹

  2.1.?任務描述

  給定一個實體的表層形式,給表層形式分配一個實體(用唯一名稱或者id表示)。

  這個任務類似于詞義消解(word sense disambiguation,?WSD),為文章中的多義詞分配正確的意思。

  2.2.?消岐方法

  一句話總結:用一個龐大的實體列表和廣泛的世界知識來做命名實體消岐。

???????分為2個子任務:

  1)如何得到實體列表和世界知識;

  2)如何運用這些數據

??????2.2.1.?需要在維基百科中得到的知識:

?????????????????????a)?已知的實體(entity)

?????????????????????b)?實體的類別(如果可用,人名、地名、組織名等)(entity class)

?????????????????????c)?實體已知的表層形式(surface form)

?????????????????????d)?上下文證據(contextual evidence)

?????????????????????e)?類別標記(category tag)

  2.2.2.?如何得到上的說的5種數據

  a)?英文維基百科頁面可以分成4類

??????  i)?實體頁面(entity page)

??????????????羅列單個實體的描述信息(最多)

    例子:http://en.wikipedia.org/wiki/Texas_(TV_series)?

??????  ?ii)?重定向頁面(redirecting page)

    一個實體有多種名稱,或者某些頁面已經廢棄不用,來指向其他表示他們的頁面

    例子:http://en.wikipedia.org/wiki/Another_World_in_Texas

??????  ?iii)?消岐頁面(disambiguation page)

    一個實體有多種名稱,消岐頁面列出名稱可能表示的所有實體

    例子:http://en.wikipedia.org/wiki/Texas_(disambiguation)

? ? ? ? ? ? iv)?列表頁面(list page)

? ? ? ? ? ? 聚集相同類型的實體

    例子:http://en.wikipedia.org/wiki/List_of_band_name_etymologies

  b)?抽取的內容:

???????i)?得到表層形式到實體的映射(surface form mapping to entity)

??????????????實體頁面和重定向頁面的title,和這些title去除同位語的形式

??????????????消岐頁面:指向其他實體頁面的超鏈接,是被指實體的表層形式

    實體頁面的正文中,指向其他實體頁面的超鏈接是被指實體的表層形式。

http://en.wikipedia.org/wiki/Pam_Long

  ii)?得到類別標記(category information)

    列表頁面的title是所有本頁面的類別標記

    實體頁面中包含的類別標記

    頁面段落title

  iii)?得到上下文(context)

    實體頁面

    其他指向該實體頁面的實體(互為上下文)

  2.2.3.如何運用

???????a)?文檔分析

??????????????把文檔切分成句子;

??????????????判斷句首單詞是否是實體的一部分,如果不是首字母小寫

??????????????把title中的非實體單詞的大寫字母化為小寫

??????????????使用統計方法識別實體,判別實體邊界

  把一篇文章中的所有相同的表層形式分配一個類別(人名、地名、組織名、其他)

??????????????消除結構歧義(連接性歧義、所有格歧義、介詞前置歧義)。

??????????????把短的表層形式轉化為長的表層形。

???????b)?消岐組件

  消岐處理使用向量空間模型。把分析文檔得到的向量表示和實體頁面的向量表示做比較。

  令C={c1,…,cM}為維基頁面中已知的上下文集合,T={t1,…,tN}是已知的類別標簽的集合。一個實體可以用一個向量δe={0,1}M+N表示,δe由兩部分組成δe|c{0,1}Mδe|t{0,1}N

    

  令ε(s)代表具有表層形式s的實體集合。D為文檔,S(D)={s1,…,sn}是在文檔D中標識的表層形式集合。我們建立文檔的上下文向量d={d1,…,dm}∈NM,其中di是上下文ci出現的次數。建立擴增向量?。

  目標是為表層形式分配實體。si|->ei,i=1,…,n。使實體的上下文和文檔的上下文具有一致性,并且對文檔中每對分配的實體的類別標記具有一致性。下面是公式:

    

  注意:為一個表層形式分配的實體取決于其他被分配的所有實體,這樣來說是一個復雜度很高、很困難的優化任務。另一個方案是考慮文檔中所有表層形式的所有可能實體的類別標記。公式如下

    

  上面公式可以重寫為

    

  與開始的公式相等。

  

  因此,消岐分為兩個步驟:

  (1)??建立擴增文檔向量

  (2)??最大化上面公式

  注意的是:并不對笛卡爾積做歸一化處理(也就是不是計算余弦值)

轉載于:https://www.cnblogs.com/Dream-Fish/p/3956410.html

總結

以上是生活随笔為你收集整理的Large-Scale Named Entity Disambiguation Based on Wikipedia Data的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。