论文浅尝 - ACL2020 | IntKB: 一种交互式知识图谱补全框架
筆記整理 | 譚亦鳴,東南大學博士
來源:? ACL 2020
鏈接:https://www.aclweb.org/anthology/2020.coling-main.490.pdf
資源:https://github.com/bernhard2202/intkb.
概述
知識庫作為許多下游NLP任務的資源基礎,存在的一個普遍缺陷是它的不完整性。目前最好的知識庫補全框架則缺乏足夠的準確性,無法在脫離人工監督的情況下完全自動化的完成知識補全。因此,作為彌補方案,本文提出了IntKB,一種基于問答pipeline的交互式圖譜補全框架。該框架的設計面向“人在回路”范式的特性需求:i. 該系統生成的事實與文本片段一致,可由人類直接驗證。ii. 該系統設計為可在知識庫補全過程中不斷學習,因此能夠使zero-或者few-shot的初始狀態隨著時間推移而顯著提升性能。iii. 當且僅當存在足夠信息進行正確預測的情況下,才會出發與人的交互。因此,作者采用負例和無答案的fold-option來訓練系統。該框架在實驗中取得較好的性能:對于初始狀態下的未見關系,它實現了29.7%的Hits@1,并且在此基礎上,這個結果逐漸提高到46.2%。
方法
圖1描述了本文所提方法的大致框架,主要包含三個過程:
1.Sentence selection:句子篩選模塊的輸入是一個不完整的三元組形如[h, r, _](同指查詢),針對這個輸入,返回一個經過排序的候選句子集(即可能涵蓋尾實體(答案)的文本)。在這里,用于檢索的文檔被約束為與頭實體h相關的文檔子集,接著作者為每個句子建立基于tf-idf的向量表示(這里只考慮上述文檔子集的idf而不是整個文檔)。對于查詢向量,論文使用關系類型的semantic names,并將每個關系類型轉換為對應的tf-idf向量,而后計算每個句子和查詢之間的相似性得分。該結果用于步驟2中的關系抽取。
2.Relation extraction: 關系抽取模型的輸入是上一步中排序Top-n的句子,以及原始查詢[h, r, _],每條句子都被轉換成一條查詢,而后輸入BERT-QA模型,用于返回作為候選答案的文本區間。之后,作者將關系抽取視作閱讀理解的一個特例(即“問”未知的尾實體),不同于過去需要構建問題模板的方式,這里通過關系類型的semantic names構建多個噪聲關鍵詞查詢。因此,本文的知識庫補全工作是在數據缺少的情況下進行的,且只使用知識庫中的信息無需額外的人工監督。
3.Answer re-ranking:從BERT-QA獲取到若干候選答案之后,最后一步就是對它們進行重排序。排序前,作者首先匯總所有具有匹配文本的候選答案,例如預測中多次出現了某個關鍵詞,則合并這些候選答案為一個。而后使用前兩步得到的候選答案的特征信息做排序(使用Kratzwald et al., 2019提出的方法),最終,得到對于[h, r, _]的預測候選。
面向知識庫補全的Continuous Learning
1.冷啟動
作者建議使用以下三步對框架進行初始化,首先是事實對齊,使用遠程監督的方式將初始知識庫中的事實與文本語料中的句子進行對齊,其次是對數據集中不存在的事實生成負例訓練樣本,再者,知識轉移,通過訓練將負樣本和對齊的事實反饋到問答pipeline中。
2.基于用戶反饋的持續提升
由于對訓練中未見關系類型的預測是很困難的,因此這里作者通過交互機制,在標注過程中動態生成關于zero-shot關系的訓練數據,所有用戶正反饋的事實都會立刻添加到知識庫中。
實驗
本文針對其框架機制,構建了一個數據集,包括一個不完整知識庫,一個文本語料(都是來自Wikidata的子集),知識庫中的關系被分為已知關系(訓練可見),和未知關系(訓練中看不見,zero-shot)等兩類。作者首先評估了模型在可見知識子集上的性能,而后評估了zero-shot子集上的性能,論文構建了兩套baseline,分別為BERT-Sentence 與Na¨?ve QA pipeline,實驗結果如以下兩張表所示
:
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 - ACL2020 | IntKB: 一种交互式知识图谱补全框架的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 - ICLR 2020 | 用
- 下一篇: 开源开放 | 中文相对复杂词汇识别数据集