日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

胡伟 | 面向多实体人机协作消解的对比表生成自动化方法

發(fā)布時(shí)間:2024/7/5 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 胡伟 | 面向多实体人机协作消解的对比表生成自动化方法 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?


眾包實(shí)體消解


實(shí)體消解(Entity Resolution,簡(jiǎn)稱ER)旨在發(fā)現(xiàn)不同知識(shí)圖譜中指稱真實(shí)世界相同對(duì)象的實(shí)體。眾包實(shí)體消解(Crowd ER)在使用機(jī)器的基礎(chǔ)上,還使用人來(lái)完成實(shí)體消解任務(wù)。眾包實(shí)體消解的一個(gè)常見流程如下圖所示:



Waldo: AnAdaptive Human Interface for Crowd Entity Resolution. SIGMOD 2017

?

在眾包實(shí)體消解中,存在一系列關(guān)鍵問(wèn)題亟待解決,包括:1)如何呈現(xiàn)一個(gè)實(shí)體消解任務(wù)?2)如何選擇合適的人來(lái)完成任務(wù)?3)如何在給定預(yù)算限制下挑選任務(wù)?等等。論文作者發(fā)現(xiàn),當(dāng)前研究很少關(guān)注第1個(gè)問(wèn)題,即如何通過(guò)呈現(xiàn)一些關(guān)鍵信息(例如實(shí)體的重要屬性和取值)來(lái)幫助單個(gè)人更高效和精準(zhǔn)地完成一個(gè)實(shí)體消解任務(wù)。

?

一個(gè)例子


論文作者關(guān)注多實(shí)體消解任務(wù)(multi-entityresolution,簡(jiǎn)稱MER),下圖展示了一個(gè)包含3個(gè)實(shí)體的多實(shí)體消解任務(wù),它們擁有了相似的屬性和取值,有待人來(lái)完成消解。


相關(guān)工作


  • 基于列表的多實(shí)體消解任務(wù)呈現(xiàn)方式,類似于傳統(tǒng)搜索引擎。

  • 基于成對(duì)的多實(shí)體消解任務(wù)呈現(xiàn)方式,每次僅比較兩個(gè)實(shí)體并對(duì)齊它們間的相似屬性。

考慮到屬性和取值的數(shù)量可能很多,上述兩類方法常通過(guò)生成摘要來(lái)提高人的消解效率。然而,這兩類方法對(duì)于多實(shí)體消解任務(wù)而言,也均存在一些不足。例如,由于缺乏直接對(duì)比,基于列表的方法需要人在心里記錄并比較不同實(shí)體;又如,基于成對(duì)的方法雖然能使人更加專注兩個(gè)實(shí)體的比較,但是可伸縮性差。更為重要的是,這兩類方法在形成列表或成對(duì)的過(guò)程中,會(huì)丟失實(shí)體消解結(jié)果間的傳遞性和聚類性等。

?

本文方法


論文作者提出了一種基于對(duì)比表(comparativetable)的多實(shí)體消解任務(wù)呈現(xiàn)方法,將實(shí)體和重要屬性分別組成表的行和列頭,并將重要取值填入表單元中。擬解決的關(guān)鍵問(wèn)題是實(shí)體的屬性和取值的異構(gòu)性及規(guī)模性與有限的表格呈現(xiàn)空間之間的矛盾。方法框架如下圖所示,包括3個(gè)主要步驟:



  • 全體屬性匹配,包括屬性間相似度計(jì)算和屬性團(tuán)生成兩個(gè)子步驟。

  • 優(yōu)良性評(píng)估,考慮了屬性團(tuán)的判別性、豐富性、語(yǔ)義性和多樣性4個(gè)特征。

  • 對(duì)比表生成,包括屬性團(tuán)的選擇和取值的選擇兩個(gè)子步驟。

  • ?

    下圖展示了根據(jù)上述例子生成的一個(gè)多實(shí)體消解任務(wù)對(duì)比表。


    實(shí)驗(yàn)結(jié)果


    論文作者從10個(gè)流行領(lǐng)域各選取了25個(gè)DBpedia實(shí)體作為種子,并通過(guò)維基百科消歧頁(yè)面為每個(gè)種子實(shí)體隨機(jī)選取2 ~ 4個(gè)FreebaseWikidataYAGO實(shí)體,再?gòu)闹须S機(jī)選擇出10個(gè)實(shí)體構(gòu)成一個(gè)多實(shí)體消解任務(wù)。共計(jì)250個(gè)任務(wù),2500個(gè)實(shí)體,指稱804個(gè)真實(shí)世界對(duì)象。

    實(shí)驗(yàn)從3個(gè)方面檢驗(yàn)了基于對(duì)比表的方法有效性,包括:1)全體屬性匹配的準(zhǔn)確性;2)屬性團(tuán)排序的有效性;3)通過(guò)雇傭60位研究生進(jìn)行實(shí)操,從效率、精度和打分3個(gè)方面與基于列表和基于成對(duì)的兩個(gè)代表性方法進(jìn)行了比較。

    ?

    [1] Jiacheng Huang, Wei Hu*, Haoxuan Li, Yuzhong Qu. Automated Comparative Table Generation for Facilitating Human Intervention in Multi-Entity Resolution. In: ACM SIGIR Conference on Research and Development in Information Retrieval. 585–594, 2018


    -- End --


    實(shí)驗(yàn)室介紹:南京大學(xué)萬(wàn)維網(wǎng)軟件(Websoft)研究組在瞿裕忠教授的帶領(lǐng)下,長(zhǎng)期從事知識(shí)圖譜(語(yǔ)義網(wǎng))及相關(guān)技術(shù)的研發(fā),研究組成員包括胡偉副教授、程龔副教授以及30余位博士和和碩士研究生,近期的研究方向主要包括:智能問(wèn)答、知識(shí)融合和語(yǔ)義搜索。
    聯(lián)系方式:胡偉,whu@nju.edu.cn,微信號(hào):whu1982
    網(wǎng)站:http://ws.nju.edu.cn




    OpenKG.CN


    中文開放知識(shí)圖譜(簡(jiǎn)稱OpenKG.CN)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。

    點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。

    總結(jié)

    以上是生活随笔為你收集整理的胡伟 | 面向多实体人机协作消解的对比表生成自动化方法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。