ACL 2020 | 知识库问答的多跳复杂问题查询图生成
?PaperWeekly 原創 ·?作者|舒意恒
學校|南京大學碩士生
研究方向|知識圖譜
先前從知識庫回答復雜問題的工作通常分別解決兩種類型的復雜性:具有約束的問題和具有多跳關系的問題。
在本文中,作者同時處理兩種類型的復雜性。通過觀察發現,盡早將約束條件納入查詢圖可以更有效地減少搜索空間,作者提出了一種改進的分階段查詢圖生成方法,該方法具有更靈活的生成查詢圖的方式。該文實驗清楚地表明,其方法在三個基準 KBQA 數據集上達到了最先進的水平。
論文標題:Query Graph Generation for Answering Multi-hop Complex Questions from Knowledge Base
論文來源:ACL 2020
論文鏈接:https://www.aclweb.org/anthology/2020.acl-main.91.pdf
介紹
知識庫問答嘗試根據知識庫回答事實類問題。它最近吸引了很多研究者的關注。知識庫問答的早期研究,關注于只包含一個關系的簡單問題。但是,真實的問題通常更加復雜,因此最近的研究關注于復雜的知識庫文檔。
當前有兩種類型的復雜性被研究。
第一,帶有約束的單關系問題。例如一個問題,誰是第 1 任美國總統?其中有一個簡單的關系是,某個國家的總統。但也有一個約束,也就是第一個這個條件需要被滿足。針對這種問題,分階段的查詢圖生成方法已經被提出。它首先識別一條關系路徑,然后將約束添加進去,生成一個查詢圖。
第二,有多跳關系的問題。例如一個問題,誰是 Facebook 創始者的妻子?這個答案與 Facebook 之間有兩條關系。一個是創始者,另一個是妻子。為了回答這些問題,我們需要考慮更長的關系路徑來獲得正確的答案。
最主要的挑戰是如何限制搜索空間,也就是減少要考慮的多跳關系路徑的數量,因為搜索空間隨著關系路徑的長度,指數級的增長。一種解決方案是使用波束搜索。然而作者認為,幾乎沒有工作能夠同時處理這兩種復雜性。
在該文中,作者嘗試同時處理兩種復雜性,提出了修改分階段的查詢圖生成方法以支持更長的關系路徑。然而。相比在構建關系路徑之后添加約束。作者嘗試將添加約束和擴展關系路徑同時進行。這使得算法能更有效的減少搜索空間。
方法
2.1 預備
作者的方法很大程度上受啟發于現有的分階段查詢圖生成方法。一個查詢圖有 4 種類型的節點,實體(知識庫中已有的實體),存在變量(未確定的實體),lambda 變量(未確定的實體,表示答案)和聚合函數(針對實體集合的處理)。一個查詢圖應該恰好有一個 lambda 變量,0 個或若干個存在變量和聚合函數。
作者將分階段查詢圖生成方法總結如下。
第一,從一個問題中的實體開始,找到核心的關系路徑,將主題實體和一個 lambda 變量連接。
第二,在第 1 步的基礎上,從一個核心關系路徑,連接一個或多個在問題中找到的約束。一個約束包含一個實體加關系或一個聚合函數加關系。
第三。在前 2 步的基礎上。通過與問題的相似度,對查詢圖進行排序。這通常是由神經網絡完成的,例如 CNN。
第四,執行排序最高的查詢圖,來獲得答案實體。
2.2 動機
將上述概述的現有方法直接應用于有約束多跳 KBQA 時,我們將面臨的主要挑戰是無法處理包含多跳關系的問題,因為現有工作僅考慮具有單跳。如果通過允許更長的核心關系路徑進行簡單的修改,搜索空間會突然變得更大。
例如, 在 ComplexWebQuestions 數據集上,如果允許最多 3 跳的核心關系路徑,則平均每個問題將有大約 10,000 個核心關系路徑,這在計算上代價非常高。
最近的多跳知識庫問答的工作,通過波束搜索解決這個問題,在生成 t+1 跳關系路徑前,只保留 top-K 的 t 跳關系。然而,這種方法忽略了生成關系路徑的約束。
因此,作者提出了一種改進的分級查詢圖生成方法,該方法在將約束附加到它之前不等待每個核心關系路徑被完全生成。這種生成查詢圖的更加靈活的方法,再結合波束搜索機制和語義匹配模型以指導修剪,探索了一個很小的搜索空間,同時仍然保持了找到正確查詢圖的高可能性。
2.3 查詢圖生成
形式化地,作者的方法使用波束搜索迭代地生成候選查詢圖。假設第 t 個迭代產生了 K 個查詢圖的集合,在 t + 1 次迭代中,
作者使用了 extend、connect、aggregate 三個行為之一來為當前的查詢圖添加一條邊或一個節點。在每個時間步獲得查詢圖之后,用評分函數來對所有查詢圖進行排序,并找出 top-k。如此持續迭代,直到某一迭代的評分不高于它前一迭代的評分。
在迭代過程中,允許以下的行為來擴展一個查詢圖。
擴展動作將核心關系路徑擴展了 R 中的一個關系。如果當前查詢圖僅包含主題實體 e,則擴展動作將在 KB 中找到鏈接到 e 的關系 r,并將路徑增長到 r。它還使 r 的另一端成為 lambda 變量 x。如果當前查詢圖具有 lambda 變量 x,則擴展操作會將 x 更改為存在變量 y,通過對 KB 執行當前查詢圖來查找 KB 中 y 的所有綁定,找到鏈接到這些實體之一的關系 r ,最后將 r 附加到 y。r 的另一端成為新的 lambda 變量 x。
除了當前核心關系路徑開始處的主題實體之外,問題中通常還會找到其他實體。連接操作將這樣的實體 e 鏈接到 lambda 變量 x 或連接到 x 的存在變量(即 CVT 節點)。要確定使用哪個關系 r 鏈接 e 和 x,我們可以再次找到 x 的所有綁定,通過執行當前查詢圖,然后找到這些實體之一與 e 之間存在的關系。
作者使用一組預定義的關鍵字從問題中檢測聚合函數。聚合操作會將檢測到的聚合函數作為新節點附加到 lambda 變量 x 或連接到作為 CVT 節點的 x 的存在變量。
該方法的新穎之處在于,可以在連接和聚合操作之后應用擴展操作,而以前的方法是不允許的。擴展和連接操作可以理解為對多跳推理的實現,而聚合操作可理解為對問題約束的實現。
2.4 查詢圖排序
在第 t 次迭代的末尾,算法對候選查詢圖進行排序,每個圖獲得 7 維的特征向量,并將這些向量饋送到一個全連接層。
向量的第一個維度來自基于 BERT 的語義匹配模型。具體來說,算法通過遵循構造查詢圖 g 所采取的動作序列并將每個步驟所涉及的實體和關系的文本描述順序添加到序列中,將 g 轉換為標記序列。存在變量和 lambda 變量將被忽略。
向量的其他 6 個維度如下:第一個維度是查詢圖中所有已鏈接實體的累積實體鏈接得分。第二個是查詢圖中出現的鏈接實體的數量。第三到第五個分別是查詢圖中實體類型的數量,時間表達式和最高級的數量。最后一個特征是查詢圖的答案實體的數量。
不過,作者通過 BERT 將一個查詢圖序列化的方式是否合理,可能是值得討論的。而其他 6 個維度是對查詢圖做一些簡單的統計。
2.5 學習
為了訓練模型,作者使用成對的問題及其正確答案,而沒有任何參考的 ground-truth 查詢圖。遵循 Das 等人的框架,作者使用 REINFORCE 算法以端到端的方式學習策略函數 ,其中 是我們想要學習的參數集,包括要更新的 BERT 參數和 7 維向量 的全連接層的梯度。作者使用預測答案的 F1 分數作為獎勵(reward)。
實驗
本文的實驗在三個數據集上進行:ComplexWebQuestions (CWQ),其中超過 30% 的問題有 2-hop 關系和約束;WebQuestionsSP (WQSP),僅有 0.5% 的問題有 2-hop 關系和約束;ComplexQuestions (CQ),沒有針對每個問題提供參考的查詢圖,大多數問題有 1-hop 關系。
可以說,作者研究的多跳,實際上主要是 2-hop 以內。
數據集統計、算法對比以及消融實驗如表所示。作者手工檢查了 100 個錯誤案例,大致如下。
排序錯誤:超過 65% 的錯誤來自于對查詢圖的錯誤排序。作者認為這其中一些錯誤對于人類來講也很難分辨,例如一些少見的縮寫。
主題鏈接錯誤:27% 的錯誤是因為實體或表達的鏈接錯誤。
生成限制:查詢圖生成策略的局限導致了約 6% 的錯誤。對于部分問題,仍然存在難以找到匹配查詢圖的情況,例如問題 “What jobs did John Adams have before he was president?”
小結
作者提出了一種改進的分階段查詢圖生成方法,可同時處理具有多跳關系和約束的復雜問題。通過盡早將約束合并到查詢圖中,采用波束搜索的方式,可以限制搜索空間,在三個 QA 數據集上取得 SOTA 的表現。
但是,作者對多跳關系的實驗受數據集等因素限制,局限在 2-hop 以內。排序錯誤、主題鏈接錯誤、生成限制等原因目前局限了算法的表現。個人認為,采用 BERT 對查詢圖序列化的方式也有待討論。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的ACL 2020 | 知识库问答的多跳复杂问题查询图生成的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 荣耀 X50 系列手机销量破 1500
- 下一篇: 淘宝也做自营店,推出“淘精选”业务