论文浅尝 | Hike: A Hybrid Human-Machine Method for Entity Alignment
Zhuang Y,Li G, Zhong Z, et al. Hike: A Hybrid Human-Machine Method for Entity Alignmentin Large-Scale Knowledge Bases[C]// ACM, 2017:1917-1926. ( CIKM 2017 )
?
論文鏈接:http://dbgroup.cs.tsinghua.edu.cn/ligl/crowdalign.pdf
Motivation
隨著語義網絡的迅速發展,越來越多的大規模知識圖譜公開發布,為了綜合使用多個來源的知識圖譜,首要步驟就是進行實體對齊(Entity Alignment)。近年來,許多研究者提出了自動化的實體對齊方法,但是,由于知識圖譜數據的不均衡性,導致此類方法對齊質量較低,特別是召回率(Recall)。因此,可考慮借助于眾包平臺提升對齊效果,文章提出了一個人機協作的方法,對大規模知識圖譜進行實體對齊。
Framework
方法主要流程如圖所示:
首先,通過機器學習方法對知識庫進行粗略的實體對齊,然后分別將以對齊實體對(MatchedPairs)和未對齊實體對(UnmatchedPairs)放入眾包平臺,讓人進行判斷。兩條流水線的步驟類似,主要包括四個部分:實體集劃分(EntityPartition)、建立偏序(PartialOrder Construction)、問題選擇(QuestionSelection)、容錯處理(ErrorTolerance)。
實體集劃分的目的是將同類的實體聚類到一個集合,實體對齊只在集合內部進行,集合之間不進行對齊操作。實體集劃分的依據是屬性,通常同一類實體的屬性是相似的。
偏序定義如下:
建立偏序的目的在于找出最具有推理期望(InferenceExpectation)的實體對,偏序集實例如下:
其中,如果P11被判斷為Unmatch,則所有偏序小于P11的節點都可以推斷為unmatch。反之,如果P45被推斷為Match,則所有偏序大于P45的節點都可以推斷為Match。
推理期望公式如下:
其中,pre和suc分別表示前驅和后繼節點。
對于問題選擇,文章提出了兩個貪心算法,分別為一次選一個節點以及一次選多個節點。算法如下:
Experiment
數據集:Yago 、 DBPedia
對比方法:PARIS、PBA
眾包平臺:ChinaCrowds
評估問題選擇方法:
可以看到,兩個貪心算法差別不大,但是比隨機選擇性能好。
評估問題集大小:
隨著問題集合的增加,精確率、召回率、F值均有提升。
評估實體對齊結果:
實驗表明,各項評估指標具有提升,證實了人機協作的有效性,但是MQS算法復雜度太高,導致運行時間過長。
?
本文作者:羅丹,浙江大學碩士,研究方向:機器學習,知識圖譜。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
轉載須知:轉載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標題,請注明原標題。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | Hike: A Hybrid Human-Machine Method for Entity Alignment的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Dockerfile构建python 运
- 下一篇: AI 趋势