命名实体的消歧
文章目錄
- 定義
- 任務(wù)
- 基于聚類(lèi)的實(shí)體消歧
- 基本思路
- 核心問(wèn)題
- 挑戰(zhàn)
- 基于鏈接的實(shí)體消歧
- 主要步驟:
- 如何進(jìn)行行實(shí)體鏈接?
定義
命名實(shí)體的歧義指的是一個(gè)實(shí)體指稱(chēng)項(xiàng)可對(duì)應(yīng)到多個(gè)真實(shí)世界實(shí)體
確定一個(gè)實(shí)體指稱(chēng)項(xiàng)所指向的真實(shí)世界實(shí)體,這就是命名實(shí)體消歧
任務(wù)
基于聚類(lèi)的實(shí)體消歧
把所有實(shí)體指稱(chēng)項(xiàng)按其指向的目標(biāo)實(shí)體進(jìn)行聚類(lèi)
每一個(gè)實(shí)體指稱(chēng)項(xiàng)對(duì)應(yīng)到一個(gè)單獨(dú)的類(lèi)別
基本思路
同一指稱(chēng)項(xiàng)具有近似的上下文
利用聚類(lèi)算法進(jìn)行消歧
核心問(wèn)題
選取何種特征對(duì)于指稱(chēng)項(xiàng)進(jìn)行表示,通常可以選擇以下幾種特征:
1.詞袋模型(Bagga et al., COLING, 1998)
利用待消歧實(shí)體周邊的詞來(lái)構(gòu)造向量
利用向量空間模型來(lái)計(jì)算兩個(gè)實(shí)體指稱(chēng)項(xiàng)的相似度,進(jìn)行聚類(lèi)
2.語(yǔ)義特征(Pederson et al., CLITP, 2005)
詞袋模型,沒(méi)有考慮詞的語(yǔ)義信息
利用SVD分解挖掘詞的語(yǔ)義信息
利用詞袋和淺層語(yǔ)義特征,共同來(lái)表示指稱(chēng)項(xiàng),利用余弦相似度來(lái)計(jì)算兩個(gè)指稱(chēng)項(xiàng)的相似度
3.社會(huì)化網(wǎng)絡(luò)(Bekkerman et al., WWW, 2005)
不同的人具有不同的社會(huì)關(guān)系
MJ, Pippen, Buckley, Ewing, Kobe等的社會(huì)化關(guān)聯(lián)信息所表 現(xiàn)出來(lái)的網(wǎng)頁(yè)鏈接特征,對(duì)網(wǎng)頁(yè)進(jìn)行聚類(lèi),從而實(shí)現(xiàn)網(wǎng)頁(yè)內(nèi)的人名聚類(lèi)消歧。
4.維基百科的知識(shí)(Han and Zhao, CIKM, 2009)
Wikipedia中相關(guān)實(shí)體具有鏈接關(guān)系
這種鏈接關(guān)系反映條目之間的語(yǔ)義相關(guān)度
用實(shí)體上下文的維基條目對(duì)于實(shí)體進(jìn)行向量表示
利用維基條目之間的相關(guān)度計(jì)算指稱(chēng)項(xiàng)之間的相似度(解決 數(shù)據(jù)稀疏問(wèn)題)
5.多源異構(gòu)語(yǔ)義知識(shí)融合(Han and Zhao, ACL, 2010)
多源異構(gòu)知識(shí)的表示框架:語(yǔ)義圖
等同概念識(shí)別
概念連接
同時(shí)捕捉顯式語(yǔ)義知識(shí)和結(jié)構(gòu)化語(yǔ)義知識(shí)
語(yǔ)義圖的邊(顯式語(yǔ)義知識(shí))——建模了所有從知識(shí)源中直接抽取出的 概念之間的顯式語(yǔ)義關(guān)聯(lián)
語(yǔ)義圖的結(jié)構(gòu)(結(jié)構(gòu)化語(yǔ)義知識(shí))——建模了概念之間的隱藏語(yǔ)義關(guān)聯(lián)
語(yǔ)義圖中語(yǔ)義知識(shí)的挖掘和融合算法
計(jì)算原則:“如果一個(gè)概念的鄰居概念與另一個(gè)概念存在語(yǔ)義關(guān)聯(lián),則這 個(gè)概念也與另一個(gè)概念存在語(yǔ)義關(guān)聯(lián)”
語(yǔ)義關(guān)聯(lián)在圖中的傳遞性
挑戰(zhàn)
消歧目標(biāo)難以確定
缺乏實(shí)體的顯式表示
基于鏈接的實(shí)體消歧
將實(shí)體指稱(chēng)項(xiàng)與目標(biāo)實(shí)體列表中的對(duì)應(yīng)實(shí)體進(jìn)行鏈接實(shí)現(xiàn)消歧
任務(wù)
給定實(shí)體指稱(chēng)項(xiàng)和它所在的文本,將其鏈接到給定知識(shí)庫(kù)中的相應(yīng) 實(shí)體上
主要步驟:
1.候選實(shí)體的發(fā)現(xiàn)
給定實(shí)體指稱(chēng)項(xiàng),鏈接系統(tǒng)根據(jù)知識(shí)、規(guī)則等信息找到實(shí)體指稱(chēng)項(xiàng)的候選實(shí)體
2.候選實(shí)體的鏈接
系統(tǒng)根據(jù)指稱(chēng)項(xiàng)和候選實(shí)體之間的相似度等特征,選擇實(shí)體指稱(chēng)項(xiàng)的目標(biāo)實(shí)體
如:
邁克爾喬丹是有名的籃球運(yùn)動(dòng)員 為 實(shí)體指稱(chēng)項(xiàng)文本
找到候選實(shí)體如下:
1.邁克爾喬丹(籃球運(yùn)動(dòng)員)
2.邁克爾喬丹(教授)
3.邁克爾杰克遜(歌手)
通過(guò)與1鏈接就完成了正確的實(shí)體鏈接
如何根據(jù)實(shí)體指稱(chēng)項(xiàng)找出候選實(shí)體?
可以根據(jù)百科的信息
可以利用上下文信息
如何進(jìn)行行實(shí)體鏈接?
基本方法
計(jì)算實(shí)體指稱(chēng)項(xiàng)和候選實(shí)體的相似度,選擇相似度最大的候選實(shí)體
單一實(shí)體鏈接
BOW模型 (Honnibal TAC 2009, Bikel TAC 2009)
加入候選實(shí)體的類(lèi)別特征(Bunescu et al., EACL 2006)
加入候選實(shí)體的流行度等特征(Han et al., ACL 2011)
協(xié)同實(shí)體鏈接
利用實(shí)體之間類(lèi)別的共現(xiàn)特征(Cucerzan, EMNLP 2007)
利用實(shí)體之間鏈接關(guān)系(Kulkarni et al., KDD 2009)
利用同一篇文檔中不同實(shí)體之間存在的語(yǔ)義關(guān)聯(lián)特征(Han et al., SIGIR 2011)
基于詞袋模型計(jì)算相似度:
將實(shí)體指稱(chēng)項(xiàng)上下文文本與候選實(shí)體上下文文本表示成詞袋子向量 形式,通過(guò)計(jì)算向量間的夾角確定指稱(chēng)項(xiàng)與候選實(shí)體相似度,系統(tǒng)選擇相似度最大的候選實(shí)體進(jìn)行鏈接
總結(jié)
- 上一篇: 安全保密领域人工智能的应用
- 下一篇: 知识图谱中传统关系抽取方法