论文浅尝 | Data Intelligence - 多篇语义资源论文
本文轉(zhuǎn)載自公眾號:DI數(shù)據(jù)智能 。?
? ? ? ? ? ? ??
編者按:Data Intelligence最新發(fā)表一組語義資源論文,包括世界著名語義網(wǎng)技術(shù)專家荷蘭阿姆斯特丹自由大學(xué)計算機科學(xué)系Frank van Harmelen教授團隊的Constructing and Cleaning Identity Graphs in the LOD Cloud,人工智能和語義網(wǎng)研究領(lǐng)域國際知名學(xué)者、美國倫斯勒理工學(xué)院Deborah McGuinness教授團隊的The Semantic Data Dictionary – An Approach for Describing and Annotating Data,英國開放大學(xué)研究者團隊的The Computer Science Ontology: A Comprehensive Automatically-Generated Taxonomy of Research Areas,美國堪薩斯州立大學(xué)著名語義網(wǎng)技術(shù)專家Pascal Hitzler教授團隊的GeoLink Data Set: A Complex Alignment Benchmark from Real-world Ontology以及意大利Cefriel公司知識技術(shù)團隊專家的文章:Refining Linked Data with Games with a Purpose 。
論文1
Constructing and Cleaning Identity Graphs in the LOD Cloud(在關(guān)聯(lián)開放數(shù)據(jù)云上構(gòu)建并清理等價關(guān)系圖譜)
引用本文:J. Raad, W. Beek, F. van Harmelen, J. Wielemaker, N. Pernelle & F.Sa?s. Constructing and cleaning identity graphs in the LOD cloud. Data Intelligence 2(2020), 323–352. https://doi.org/10.1162/dint_a_00057
摘要:因為缺少個體命名的權(quán)威機構(gòu),所以在語義網(wǎng)上普遍存在著不同數(shù)據(jù)集用不同名稱指代同一個體的現(xiàn)象。當(dāng)使用多個名稱表示同一個體時,我們需要使用 owl:sameAs 語句來關(guān)聯(lián)數(shù)據(jù),并促進重用。2009年開始就有研究指出使用 owl:sameAs 屬性時有時會產(chǎn)生錯誤。我們之前的工作展示過一張包含超過5億條明確含有 owl:sameAs語句和350億條暗含owl:sameAs語句的等價關(guān)系圖譜(identity graph)。我們提出了一個可擴展的方法,可自動計算每一條等價語句的錯誤程度。在本文中,我們生成了整張等價關(guān)系圖譜的子圖,這些子圖都包含一定程度的錯誤數(shù)據(jù)。本文結(jié)論是盡管語義網(wǎng)中包含了許多錯誤的owl:sameAs語句,但語義網(wǎng)上的數(shù)據(jù)仍是可用的,同時我們可把因錯誤使用owl:sameAs語句帶來的負(fù)面影響降到最低。
?? 閱讀全文,請掃描二維碼
論文 2
The Semantic Data Dictionary – An Approach for Describing and Annotating Data(語義數(shù)據(jù)字典——一種描述和注釋數(shù)據(jù)的方法)
引用本文:S.M. Rashid, J.P. McCusker, P. Pinheiro, M.P. Bax, H. Santos, J.A.Stingone, A.K. Das & D.L. McGuinness. The semantic data dictionary – an approach for describing and annotating data. Data Intelligence 2(2020), 443–486. https://doi.org/10.1162/dint_a_00058
摘要:數(shù)據(jù)集提供者在以數(shù)據(jù)字典的形式發(fā)布數(shù)據(jù)時,通常會為字典表里每列數(shù)據(jù)提供文本描述。雖然這些本文描述有助于用戶正確理解數(shù)據(jù)集中每列數(shù)據(jù)的含義,但并不適合機讀,也沒有遵循統(tǒng)一的標(biāo)準(zhǔn)規(guī)范。已有研究指出語義數(shù)據(jù)字典可彌補現(xiàn)有數(shù)據(jù)字典的缺陷。語義數(shù)據(jù)字典,規(guī)定了數(shù)據(jù)的語義表示規(guī)范,可使各種不同數(shù)據(jù)集的數(shù)據(jù)表達規(guī)范化。本研究的語義數(shù)據(jù)字典基于生物醫(yī)學(xué)數(shù)據(jù)構(gòu)建,但實際上這種方法可以、并已被用于不同的學(xué)科領(lǐng)域。利用語義數(shù)據(jù)字典可促進數(shù)據(jù)的被發(fā)現(xiàn)、互操作、可重用,可溯源和可再現(xiàn)。本文展示了可公開獲取的美國國家健康與營養(yǎng)檢驗調(diào)查數(shù)據(jù)集的語義標(biāo)注的實例,討論了數(shù)據(jù)建模的挑戰(zhàn),描述了研究者利用語義數(shù)據(jù)字典方法進行的工作,包括美國國立衛(wèi)生研究院資助的大型健康數(shù)據(jù)網(wǎng)站和倫斯勒理工學(xué)院和IBM合作的“分析、學(xué)習(xí)和語義”健康賦能項目。在評測部分,研究者們設(shè)計了四個指標(biāo):數(shù)據(jù)、語義、FAIR原則和普適性,分別對比了語義數(shù)據(jù)字典、傳統(tǒng)數(shù)據(jù)字典、映射語言和數(shù)據(jù)集成工具在這四個指標(biāo)上的得分。研究者們也對該方法的局限性進行了討論并對未來研究方向進行了展望。
?? 閱讀全文,請掃描二維碼
論文 3
The Computer Science Ontology: A Comprehensive Automatically-Generated Taxonomy of Research Areas(計算機科學(xué)本體:自動生成對研究領(lǐng)域的全面分類)
引用本文:A. Salatino, T. Thanapalasingam, A. Mannocci, A. Birukou, F. Osborne & E. Motta. The computer science ontology: A comprehensive automatically-generated taxonomy of research areas. Data Intelligence 2(2020). https://doi.org/10.1162/dint_a_00055
摘要:研究領(lǐng)域本體是用來描繪某個研究領(lǐng)域特征,探索和分析該領(lǐng)域的重要工具。有一些研究領(lǐng)域已經(jīng)編制出能夠全面描繪本領(lǐng)域的大型主題詞表,例如生物醫(yī)學(xué)領(lǐng)域的MeSH醫(yī)學(xué)主題詞表,物理學(xué)領(lǐng)域的PhySHC主題詞表。相比之下,計算機科學(xué)領(lǐng)域的主題詞表粒度粗,而且發(fā)展緩慢。例如,ACM分類系統(tǒng)只包括2,000個研究主題,而且最近的版本還是2012年發(fā)布的。在本文中,我們介紹了能自動對研究領(lǐng)域進行分類的大型計算機科學(xué)本體( Computer Science Ontology,CSO),它包括1,400個主題和162,000條語義關(guān)系。該本體是通過在一個包含1,600萬篇科技文章的大型數(shù)據(jù)集上運用 Klink-2算法而建立的。
?CSO的優(yōu)勢體現(xiàn)在:1)本體中的大量主題沒有在其他分類體系中出現(xiàn)過;2)通過在最近出版的文章數(shù)據(jù)集上運行Klink-2算法可自動升級CSO。在CSO基礎(chǔ)上開發(fā)的幾款工具已被Springer Nature編輯團隊采用,而且CSO已經(jīng)被用來作為解決方案,例如對科研出版物進行分類,發(fā)現(xiàn)新的研究社區(qū),預(yù)測研究趨勢等。為推廣CSO的應(yīng)用,我們也發(fā)布了可用來自動分類研究論文的CSO分類器,可幫助用戶下載和研究CSO、提供對CSO的細(xì)粒度反饋的CSO門戶網(wǎng)站。用戶可以使用此網(wǎng)站進行導(dǎo)航,對本體的各個部分進行可視化,對主題和語義關(guān)系給出評分,提出需要補充哪些主題和語義關(guān)系的建議。
??? 此外,CSO主體數(shù)據(jù)已在Data Intelligence期刊數(shù)據(jù)平臺上與論文關(guān)聯(lián)發(fā)布,歡迎大家下載使用。
論文全文地址為:https://www.mitpressjournals.org/doi/pdf/10.1162/dint_a_00055
數(shù)據(jù)下載地址為:http://www.en.scidb.cn/journalDetail?dataSetId=662664481360314368&code=5e05cb5d64a42fa9add9b7ae&tID=journalOne&dataSetType=journal#(需先注冊后下載)
閱讀全文,請掃描二維碼
論文 4
GeoLink Data Set: A Complex Alignment Benchmark from Real-world Ontology (GeoLink數(shù)據(jù)集:基于真實數(shù)據(jù)的復(fù)雜本體匹配研究基準(zhǔn)數(shù)據(jù)集)
引用本文:L. Zhou, M. Cheatham, A. Krisnadhi& P.Hitzler. GeoLink data set: A complex alignment benchmark from real-worldontology. Data Intelligence 2(2020). https://doi.org/10.1162/dint_a_00054
摘要:本體對齊的研究已經(jīng)有十多年的歷史,研究人員已經(jīng)提出了很多方法,并開發(fā)了系統(tǒng)來發(fā)現(xiàn)兩個本體之間一對一的匹配關(guān)系。但是,很少有本體對齊系統(tǒng)的研究關(guān)注本體間復(fù)雜的匹配關(guān)系。這其中的原因可能是目前并沒有廣泛接受的包含復(fù)雜關(guān)系的本體對齊基準(zhǔn)數(shù)據(jù)集。本文基于GeoLink項目構(gòu)建了一個真實世界數(shù)據(jù)集,可作為復(fù)雜本體匹配的基準(zhǔn)數(shù)據(jù)集。本數(shù)據(jù)集包括兩個本體,GeoLink基本本體(GeoLink Base Ontology, GBO) 和GeoLink模塊本體(GeoLink Modular Ontology, GMO), 以及一個在咨詢各學(xué)院領(lǐng)域?qū)<液笫止?gòu)建的校驗參考數(shù)據(jù)集。
?本數(shù)據(jù)集實體對齊包括一對一、一對多、多對多三種類型,使用EDOAL語言(即Expressive and Declarative Ontology Alignment Language,本體匹配表達及聲明語言)和規(guī)則語法來描述實體對應(yīng)屬性關(guān)系?;鶞?zhǔn)數(shù)據(jù)集的最初版本已經(jīng)進行了擴充,現(xiàn)在的版本包括由七位地球科學(xué)家提供的真實世界實例數(shù)據(jù),而且兩個本體的數(shù)據(jù)集都已經(jīng)發(fā)布。此基準(zhǔn)數(shù)據(jù)集可用在對齊系統(tǒng)中,或已經(jīng)有訓(xùn)練數(shù)據(jù)的系統(tǒng)。此外,此數(shù)據(jù)集已經(jīng)被用于本體對齊競賽(Ontology Alignment Evaluation Initiative, OAEI)中的復(fù)雜本體匹配的比賽中,幫助研究者們測試他們的自動對齊系統(tǒng)和算法。本文也分析了復(fù)雜本體對齊工作面臨的挑戰(zhàn),并提供了未來研究工作的路線圖。
?該論文描述的數(shù)據(jù)集已在Data Intelligence期刊數(shù)據(jù)平臺在線發(fā)布,敬請大家下載。
論文全文地址為:https://www.mitpressjournals.org/doi/pdf/10.1162/dint_a_00054
數(shù)據(jù)下載地址為:http://www.en.scidb.cn/journalDetail?dataSetId=662677835797757952&code=5e05cb5d64a42fa9add9b7ae&tID=journalOne&dataSetType=journal(需先注冊后下載)
閱讀全文,請掃描二維碼
論文 5
Refining Linked Data with Games with a Purpose(用有目的的游戲優(yōu)化關(guān)聯(lián)數(shù)據(jù))
引用本文:I. Celino, G. Re Calegari & A. Fiano. Refining linked data with games with a purpose. Data Intelligence 2(2020). https://doi.org/10.1162/dint_a_00056。
摘要:隨著關(guān)聯(lián)數(shù)據(jù)和知識圖譜的興起,我們迫切需要更多的數(shù)據(jù)集以及更準(zhǔn)確的數(shù)據(jù)來補充缺失的知識,發(fā)現(xiàn)和改正已有數(shù)據(jù)的錯誤。研究人員已經(jīng)提出了一些解決方案,這些方案大多依賴機器學(xué)習(xí)和自然語言處理技術(shù),通常也需要一種“黃金標(biāo)準(zhǔn)”,即“參考標(biāo)準(zhǔn)數(shù)據(jù)”來訓(xùn)練自動分類模型?!包S金標(biāo)準(zhǔn)”是人工構(gòu)建的,或通過邀請領(lǐng)域?qū)<覅⑴c構(gòu)建,或采用眾包和人力計算的解決方案構(gòu)建。本文提出了一種開源軟件框架,通過激勵措施啟發(fā)用戶參加網(wǎng)上游戲,我們稱之為“有目的的游戲”(Games with a Purpose, GWAP),來優(yōu)化關(guān)聯(lián)數(shù)據(jù),也就是說通過眾包的方式得到部分“參考標(biāo)準(zhǔn)數(shù)據(jù)”。本框架支持的關(guān)聯(lián)數(shù)據(jù)的功能包括創(chuàng)建數(shù)據(jù)鏈接,給鏈接評分和校驗鏈接。通過介紹本框架的支持功能和定義每個眾包任務(wù)是如何幫助實現(xiàn)這些功能,我們展示了本文提出的框架方法所具有的現(xiàn)實意義。
???文中介紹了利用“有目的的游戲”(GWAP)玩家貢獻的數(shù)據(jù)推斷“參考標(biāo)準(zhǔn)數(shù)據(jù)”的方法。通過對比GWAP和傳統(tǒng)眾包方法來說明本文方法的必要性,本文解釋并描述了方法過程,通過與目前最先進的方法對比顯示本文方法的先進性。本文提出的方法有多種用途:文中描述了基于本方法的不同應(yīng)用來展示它的可重用性和可擴展的潛力。文中也提供了本文方法的參考資料,包括整個教程,讓新手在幾個小時內(nèi)可以學(xué)會使用本框架方法拓展新的應(yīng)用案列。
???????? 論文全文地址為:https://www.mitpressjournals.org/doi/pdf/10.1162/dint_a_00056
?? 閱讀全文,請掃描二維碼
?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ???
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點擊閱讀原文,進入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | Data Intelligence - 多篇语义资源论文的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 开源开放 | 多模态实体链接数据集MEL
- 下一篇: 论文浅尝 - ICML2020 | 跨域