胡伟 | 面向多实体人机协作消解的对比表生成自动化方法
?
眾包實(shí)體消解
實(shí)體消解(Entity Resolution,簡(jiǎn)稱ER)旨在發(fā)現(xiàn)不同知識(shí)圖譜中指稱真實(shí)世界相同對(duì)象的實(shí)體。眾包實(shí)體消解(Crowd ER)在使用機(jī)器的基礎(chǔ)上,還使用人來(lái)完成實(shí)體消解任務(wù)。眾包實(shí)體消解的一個(gè)常見流程如下圖所示:
(Waldo: AnAdaptive Human Interface for Crowd Entity Resolution. SIGMOD 2017)
?
在眾包實(shí)體消解中,存在一系列關(guān)鍵問(wèn)題亟待解決,包括:1)如何呈現(xiàn)一個(gè)實(shí)體消解任務(wù)?2)如何選擇合適的人來(lái)完成任務(wù)?3)如何在給定預(yù)算限制下挑選任務(wù)?等等。論文作者發(fā)現(xiàn),當(dāng)前研究很少關(guān)注第1個(gè)問(wèn)題,即如何通過(guò)呈現(xiàn)一些關(guān)鍵信息(例如實(shí)體的重要屬性和取值)來(lái)幫助單個(gè)人更高效和精準(zhǔn)地完成一個(gè)實(shí)體消解任務(wù)。
?
一個(gè)例子
論文作者關(guān)注多實(shí)體消解任務(wù)(multi-entityresolution,簡(jiǎn)稱MER),下圖展示了一個(gè)包含3個(gè)實(shí)體的多實(shí)體消解任務(wù),它們擁有了相似的屬性和取值,有待人來(lái)完成消解。
相關(guān)工作
基于列表的多實(shí)體消解任務(wù)呈現(xiàn)方式,類似于傳統(tǒng)搜索引擎。
基于成對(duì)的多實(shí)體消解任務(wù)呈現(xiàn)方式,每次僅比較兩個(gè)實(shí)體并對(duì)齊它們間的相似屬性。
考慮到屬性和取值的數(shù)量可能很多,上述兩類方法常通過(guò)生成摘要來(lái)提高人的消解效率。然而,這兩類方法對(duì)于多實(shí)體消解任務(wù)而言,也均存在一些不足。例如,由于缺乏直接對(duì)比,基于列表的方法需要人在心里記錄并比較不同實(shí)體;又如,基于成對(duì)的方法雖然能使人更加專注兩個(gè)實(shí)體的比較,但是可伸縮性差。更為重要的是,這兩類方法在形成列表或成對(duì)的過(guò)程中,會(huì)丟失實(shí)體消解結(jié)果間的傳遞性和聚類性等。
?
本文方法
論文作者提出了一種基于對(duì)比表(comparativetable)的多實(shí)體消解任務(wù)呈現(xiàn)方法,將實(shí)體和重要屬性分別組成表的行和列頭,并將重要取值填入表單元中。擬解決的關(guān)鍵問(wèn)題是實(shí)體的屬性和取值的異構(gòu)性及規(guī)模性與有限的表格呈現(xiàn)空間之間的矛盾。方法框架如下圖所示,包括3個(gè)主要步驟:
全體屬性匹配,包括屬性間相似度計(jì)算和屬性團(tuán)生成兩個(gè)子步驟。
優(yōu)良性評(píng)估,考慮了屬性團(tuán)的判別性、豐富性、語(yǔ)義性和多樣性4個(gè)特征。
對(duì)比表生成,包括屬性團(tuán)的選擇和取值的選擇兩個(gè)子步驟。
?
下圖展示了根據(jù)上述例子生成的一個(gè)多實(shí)體消解任務(wù)對(duì)比表。
實(shí)驗(yàn)結(jié)果
論文作者從10個(gè)流行領(lǐng)域各選取了25個(gè)DBpedia實(shí)體作為種子,并通過(guò)維基百科消歧頁(yè)面為每個(gè)種子實(shí)體隨機(jī)選取2 ~ 4個(gè)Freebase、Wikidata和YAGO實(shí)體,再?gòu)闹须S機(jī)選擇出10個(gè)實(shí)體構(gòu)成一個(gè)多實(shí)體消解任務(wù)。共計(jì)250個(gè)任務(wù),2500個(gè)實(shí)體,指稱804個(gè)真實(shí)世界對(duì)象。
實(shí)驗(yàn)從3個(gè)方面檢驗(yàn)了基于對(duì)比表的方法有效性,包括:1)全體屬性匹配的準(zhǔn)確性;2)屬性團(tuán)排序的有效性;3)通過(guò)雇傭60位研究生進(jìn)行實(shí)操,從效率、精度和打分3個(gè)方面與基于列表和基于成對(duì)的兩個(gè)代表性方法進(jìn)行了比較。
?
[1] Jiacheng Huang, Wei Hu*, Haoxuan Li, Yuzhong Qu. Automated Comparative Table Generation for Facilitating Human Intervention in Multi-Entity Resolution. In: ACM SIGIR Conference on Research and Development in Information Retrieval. 585–594, 2018
-- End --
實(shí)驗(yàn)室介紹:南京大學(xué)萬(wàn)維網(wǎng)軟件(Websoft)研究組在瞿裕忠教授的帶領(lǐng)下,長(zhǎng)期從事知識(shí)圖譜(語(yǔ)義網(wǎng))及相關(guān)技術(shù)的研發(fā),研究組成員包括胡偉副教授、程龔副教授以及30余位博士和和碩士研究生,近期的研究方向主要包括:智能問(wèn)答、知識(shí)融合和語(yǔ)義搜索。
聯(lián)系方式:胡偉,whu@nju.edu.cn,微信號(hào):whu1982
網(wǎng)站:http://ws.nju.edu.cn
OpenKG.CN
中文開放知識(shí)圖譜(簡(jiǎn)稱OpenKG.CN)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的胡伟 | 面向多实体人机协作消解的对比表生成自动化方法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Python 文件操作中的读写模式:op
- 下一篇: .依存句法分析--提取用户评论