日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ACL 2020 | 用于链接预测的开放知识图谱嵌入

發(fā)布時間:2024/10/8 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ACL 2020 | 用于链接预测的开放知识图谱嵌入 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?PaperWeekly 原創(chuàng) ·?作者|舒意恒

學(xué)校|南京大學(xué)碩士生

研究方向|知識圖譜

當(dāng)前大量的知識圖譜都是通過文本直接構(gòu)建的。由于當(dāng)前的知識圖譜構(gòu)建方法的局限性,其中難免包含對同一實體或關(guān)系的多種表述。

知識圖譜嵌入模型的發(fā)展,長期關(guān)注于如何設(shè)計更好的評分函數(shù)、如何反映知識圖譜的內(nèi)在結(jié)構(gòu),但非常少的研究關(guān)注于知識圖譜的實體和關(guān)系本身具有多種描述形式。本文提出的嵌入方法和基準(zhǔn)測試,針對當(dāng)前知識圖譜構(gòu)建的特點,提供了值得關(guān)注的見解。


論文標(biāo)題:Can We Predict New Facts with Open Knowledge Graph Embeddings: A Benchmark for Open Link Prediction

論文來源:ACL 2020

論文鏈接:https://www.aclweb.org/anthology/2020.acl-main.209/

介紹

知識圖譜是三元組的集合,其中,主語或賓語以結(jié)點表示,關(guān)系以帶標(biāo)簽的邊表示。當(dāng)前知識圖譜的構(gòu)建通常需要豐富的文本鏈接和信息框,但它們并不是在每個領(lǐng)域都可用。因此,作者想要探索通過原始文本而沒有中間步驟構(gòu)建起來的知識圖譜上,是否能夠做鏈接預(yù)測,例如藥物發(fā)現(xiàn)等領(lǐng)域。

開放信息提取系統(tǒng)自動地從非結(jié)構(gòu)化數(shù)據(jù)中提取三元組,例如文本是一種非結(jié)構(gòu)化數(shù)據(jù)。作者將這樣提取出的數(shù)據(jù)稱為開放知識圖譜。作者嘗試探索在沒有規(guī)范和監(jiān)督的情況下,如何在開放知識圖譜上推理出潛在的事實知識。

鏈接預(yù)測是知識圖譜上需要推理的一個常見任務(wù)。它的目標(biāo)是預(yù)測知識圖譜上缺失的事實。而當(dāng)前知識圖譜嵌入模型已成功用于預(yù)測知識圖譜中的缺失事實。

開放知識圖譜

開放知識圖譜可以完全自動地被構(gòu)建。它們不需要實體和關(guān)系的詞典,因此他們能夠捕捉更多信息。例如,不同的實體描述在不同的時間段指的是不同的實體版本。類似地,關(guān)系的描述也可能是多變的。

相比于一般的知識圖譜,開放知識圖譜包含豐富的概念知識。開放知識圖譜可能包含更多的噪聲,并且事實知識可能更加不確定。

如圖,一般的知識圖譜(curated KGs)對比開放知識圖譜(open KGs)。

開放鏈接預(yù)測

在開放鏈接預(yù)測中,模型對一個有序的陳述進行預(yù)測。但是問題可能有多個等價的正確答案,即多個答案可能指代的是同一個實體,但有不同的表述。作者將其評估準(zhǔn)則稱為指代排序準(zhǔn)則(mention-ranking protocol)。

作者的評估準(zhǔn)則基于正確答案描述的最高排名。在過濾的設(shè)置上,除了被評價的實體外,已知答案實體的多種表述都將從排名中被過濾。該準(zhǔn)則使用評價三元組實體的不同表述的知識來獲得合適的排名,消除一個實體多種表述對排序的影響。

因此,該準(zhǔn)則需要(1)待評價三元組的頭實體和尾實體的注解,以及(2)這些實體的全面的表述集合。

構(gòu)建開放鏈接預(yù)測的基準(zhǔn)測試

4.1 數(shù)據(jù)源

作者將其提出的基準(zhǔn)測試,稱為 OLPBENCH,它基于 OPIEC [1] 構(gòu)建,后者是一個最近發(fā)布的數(shù)據(jù)集,它從英文維基百科的文本構(gòu)建得到。

4.2 評估數(shù)據(jù)

數(shù)據(jù)質(zhì)量 從數(shù)據(jù)集中,作者構(gòu)建了滿足以下要求的驗證集和測試集。評估數(shù)據(jù)中的噪聲應(yīng)該盡量的被限制,作者選擇了一種簡單有效的準(zhǔn)則。在采樣評估數(shù)據(jù)中的候選項中,不考慮 token 數(shù)量小于 3 的非常短的關(guān)系。作者給出了三個理由:

  • 短關(guān)系通常歸屬于長關(guān)系。

  • 長關(guān)系更少地被簡單的應(yīng)用于知識圖譜構(gòu)建方法的模式所捕捉。

  • 自動提取的實體注解,對于短關(guān)系來說略顯嘈雜。

數(shù)據(jù)構(gòu)建中的人為干預(yù) 為了保證數(shù)據(jù)的質(zhì)量,作者認為,對于規(guī)模較小的驗證數(shù)據(jù),人類經(jīng)驗的干預(yù)是必要的。因此,作者將驗證數(shù)據(jù)分為三類。

  • VALID-ALL:沒有人類的工作

  • VALID-MENTION:其中有部分人類的工作。

  • VALID-LINKED:大多數(shù)是人類的工作。

如圖是 OLPBENCH 中鏈接數(shù)據(jù)與非鏈接數(shù)據(jù)的樣例。

4.3 訓(xùn)練數(shù)據(jù)

為了評估知識圖譜上的鏈接預(yù)測模型,評估事實通常通過對知識圖譜的三元組進行采樣生成。最簡單的避免訓(xùn)練數(shù)據(jù)泄露到測試數(shù)據(jù)中的方法是直接刪除評估三元組的訓(xùn)練數(shù)據(jù)。

但這種簡單的方法可能并不能完全避免泄露,訓(xùn)練三元組仍然可能直接被推斷到。例如,評估三元組 (a, siblingOf, b) 可以輕松地被訓(xùn)練三元組 (b, siblingOf, a) 回答到。

在開放知識圖譜中,關(guān)系的轉(zhuǎn)述導(dǎo)致了另外一種泄漏。例如,關(guān)系 “is in” 和 “l(fā)ocated in” 可能包含許多相同的實體對。

作者使用了三個級別的泄漏移除方法,稱為 SIMPLE、BASIC 和 THOROUGH,即簡單的、基本的和徹底的泄漏移除。例如,訓(xùn)練數(shù)據(jù)中存在三元組 (i, k, j) 的情況:

  • 簡單移除:只有三元組 (i, k, j) 被移除,i 和 j 的其他表述不被移除。

  • 基本移除:三元組 (i, k, j) 和 (j, k, i) 都被移除,i 和 j 的其他表述也都被移除。

  • 徹底移除:在基本移除的基礎(chǔ)上,按以下模式移除評估數(shù)據(jù)中的三元組:

    • (i, *, j) 和 (j, * i),即刪掉兩實體間任何方向的任何形式的關(guān)系,例如,三元組 (“J. Smith”, “is player of”, “Liverpool”).

    • (i, k + j,?) 和 (?, k + i, j),例如,三元組,(“J. Smith”, “is Liverpool’s defender on”, “Saturday”).

    • (i + k + j, ?, ?) 和 (?, ?, i + k + j),例如,三元組 (“Liverpool defender J. Smith”, “kicked”, “the ball”).

這三種移除方式將生成三個不同的訓(xùn)練集。

開放知識圖譜嵌入

知識圖譜嵌入模型已經(jīng)成功地應(yīng)用于知識圖譜的鏈接預(yù)測,而作者將它擴展到開放知識圖譜的鏈接預(yù)測當(dāng)中。

知識圖譜嵌入模型 知識圖譜嵌入模型將每個實體和關(guān)系與一個嵌入關(guān)聯(lián)起來,嵌入是以鏈接預(yù)測為目標(biāo)學(xué)習(xí)到的稠密向量表示。這些模型為三元組計算分數(shù),它的目標(biāo)是為正確的三元組學(xué)習(xí)到高分數(shù),為錯誤到三元組學(xué)習(xí)到低分數(shù)。

組合得到的知識圖譜嵌入模型 作者考慮用組合函數(shù)從表面形式的標(biāo)記中創(chuàng)建實體和關(guān)系表征。只要在訓(xùn)練過程中觀察到標(biāo)記,一個讀取表述和開放關(guān)系標(biāo)記的模型原則上可以處理任何表述和開放關(guān)系。

作者使用一個通用的模型架構(gòu),它組合了關(guān)系模型和組合函數(shù)。關(guān)系模型用于對三元組的評分,組合函數(shù)用于對一個實體或關(guān)系的多個 token 的組合。

使用組合的知識圖譜嵌入模型。三元組的 token 首先被分別的嵌入,然后組合為一個表述或關(guān)系嵌入。最后,一個知識圖譜嵌入模型被用于計算三元組的分數(shù)。

實驗

作者使用 ComplEx [2] 作為關(guān)系模型,它是一個高效的雙線性模型(bilinear model)。對于組合函數(shù),作者使用一層 LSTM,hidden size 等于 token embedding 大小。作者將其稱為 ComplEx-LSTM 模型。

對比模型 為了測試出有多少問題不需要通過整個問題的信息直接回答,作者提出兩個對比模型。給定一個問題 (i, k, ?),PREDICT-WITH-REL 通過 (r, ?) 進行評分。例如問題,(“Jamie Carragher”, “is defender of”, ?),我們詢問 (“is defender of”, ?). 而類似地,PREDICT-WITH-ENT 忽略關(guān)系而只計算實體對的分數(shù)。

如圖是測試集上的結(jié)果,同時利用實體和關(guān)系的 ComplEx-LSTM 超越了作為對比的 PRED-WITH-ENT / PRED-WITH-REL。同時,泄露移除的程度越大,鏈接預(yù)測的效果越差,一定程度說明現(xiàn)有方法不能很好地處理開放知識圖譜。人類對數(shù)據(jù)集的干預(yù)同時對模型表現(xiàn)的提升有影響。

如圖是驗證集上的結(jié)果。效果略高于測試集。

結(jié)論

作者提出了開放鏈接預(yù)測任務(wù),以及一種構(gòu)建開放鏈接預(yù)測基準(zhǔn)測試的方法,并構(gòu)建了一個基準(zhǔn)測試 OLPBENCH。作者研究了評估事實的泄露、非關(guān)系信息和實體知識對鏈接預(yù)測任務(wù)的影響,并通過實驗證明其方法預(yù)測出的事實基本是新的事實,而不是知識圖譜中原有的。

參考文獻

[1] Kiril Gashteovski, Sebastian Wanner, Sven Hertling, Samuel Broscheit, and Rainer Gemulla. 2019. OPIEC: an open information extraction corpus. CoRR, abs/1904.12324.

[2] The ?o Trouillon, Johannes Welbl, Sebastian Riedel, Eric Gaussier, and Guillaume Bouchard. 2016. Complex embeddings for simple link prediction. In Proceedings of the 33nd International Conference on Machine Learning, ICML 2016, New York City, NY, USA, June 19-24, 2016, pages 2071–2080.

更多閱讀

#投 稿?通 道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。

?????來稿標(biāo)準(zhǔn):

? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?

? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標(biāo)志

?????投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨在附件中發(fā)送?

? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通

????

現(xiàn)在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的ACL 2020 | 用于链接预测的开放知识图谱嵌入的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 日韩不卡免费视频 | 98在线视频 | 久久久久夜 | 国产日韩欧美高清 | 婷婷丁香色 | 99热在线观看免费 | 性欧美丰满熟妇xxxx性 | 精品国产一区一区二区三亚瑟 | 亚洲毛片一区二区 | 插插网站 | 国产69精品久久久久久 | h视频免费在线观看 | 午夜欧美精品久久久久久久 | 成人免费av网站 | 国产精品第十页 | 免费的理伦片在线播放 | 久久影片 | www.x日本 | 人妻精品无码一区二区三区 | 97日日夜夜| 欧美熟妇乱码在线一区 | 一级免费黄色片 | 另类小说婷婷 | 久久亚洲免费视频 | 欧美在线一级 | 少妇高潮一区二区三区69 | 上床视频在线观看 | 日韩精品一二三四区 | 永久免费AV无码网站韩国毛片 | 国产青青操 | 少妇一边呻吟一边说使劲视频 | 男女瑟瑟网站 | 日韩不卡在线视频 | 超碰男人天堂 | 长河落日| 久久色视频 | 欧美自拍第一页 | 中文字幕一区二区人妻痴汉电车 | 中文字幕精品一区久久久久 | 亚洲午夜精品久久 | 国产精品夫妻自拍 | 久久日本精品字幕区二区 | 天天摸天天做天天爽水多 | 中文字幕超清在线免费观看 | 人妻丰满熟妇av无码区不卡 | 中文字幕第一页久久 | 草久久av | 人人妻人人做人人爽 | 深夜福利网址 | 色狠久 | 久久精品国产亚洲AV无码麻豆 | 亚洲无码久久久久 | 亚洲av综合色区无码另类小说 | 香蕉视频污在线观看 | 久热国产精品视频 | 91学生片黄 | 日韩免费观看一区二区 | 欧美一区二区三区视频 | 日韩一卡二卡在线 | 日韩一区二区三区四区五区六区 | 日韩精品国产一区 | 午夜影院日本 | 欧美浪妇xxxx高跟鞋交 | 丁香婷婷久久 | 国语对白做受按摩的注意事项 | 久久久久久国 | 色妞综合网 | 一级特黄高清 | 免费黄网在线看 | 自拍1区 | 精品98| 国产激情小视频 | 国产亚洲一区二区在线 | 麻豆性视频| 巨乳美女动漫 | 蜜乳av中文字幕 | 中文字幕+乱码+中文 | av女人的天堂 | 欧美又大粗又爽又黄大片视频 | 在线免费精品视频 | 色诱久久av | 精品国产免费一区二区三区 | 日本激情免费 | 久久99精品久久久水蜜桃 | 亚洲色图视频网站 | 日韩免费在线视频观看 | www.色呦呦| 日韩精品视频在线 | 欧美日韩在线成人 | 人妻大战黑人白浆狂泄 | 91蝌蚪在线| 日韩一区二区三区视频 | 中文字幕理伦片免费看 | 超碰人人超 | 韩国三级免费 | 国产在线免费 | 午夜一区二区三区在线 | 精品一区二区三区免费毛片 | 美国免费高清电影在线观看 |