论文浅尝 - ACL2020 | 用于回答知识库中的多跳复杂问题的查询图生成方法
論文筆記整理:譚亦鳴,東南大學博士。
來源:ACL 2020
鏈接:
https://www.aclweb.org/anthology/2020.acl-main.91.pdf
1.介紹
在以往的工作中,知識圖譜復雜問答一般被分為兩種類型分別處理:
其一是帶有約束的問題,例如“Who was the ?rst president of the U.S.?”,其中僅包含一個關系“presidentof…”但存在約束“first”,對于這類問題,一般采用多階段方法通過構建包含關系的主路徑,再對其添加約束的方式得到對應查詢圖;
其二則是多關系問題,例如“Who is the wife of the founder of Facebook?”,其中包含兩個關系“wife of…”以及“founder of…”,這類問題的回答需要考慮更長的關系路徑,主要挑戰在于長路徑帶來的更大的搜索空間,一般采用beam search的方式實現答案路徑的構成;這篇文章里,作者嘗試同時解決這兩類問題(較少有人考慮同時處理這兩類問題)。
動機:作者發現,通過優先將約束合并到查詢圖中(querygraph),可以有效減少多關系情況下的搜索空間規模。基于上述動機,作者提出了一種改進的階段查詢圖生成方法用于靈活的生成查詢圖。在三個benchmark KBQA數據集上,該模型均達到了最優實驗效果。
2.模型/方法
參照過去的工作,一個查詢圖包含四類節點,如圖1所示:
Grounded entity(圖1灰色矩形節點):是已經存在于KG的實體節點;
Existential variable(圖1白色矩形節點):未確定的KG中的實體節點;
Lambda variable(圖1圓形節點):也是未確定的KG實體節點,一般表示答案;
Aggregation function(圖1菱形節點):是一種對實體集合的聚合函數,例如argmin取最小值,或count計數等;
?????? 一般階段查詢圖構建過程是:
a.從groundedentity出發,確定一條主關系路徑,連接到一個lambda variable節點(目前的工作中,這主路徑只包含一個關系)
b.向主路徑中添加(問題里出現的)一個或多個約束,約束由一個固定實體或者一個聚合函數與一個關系組成。
c.對于前兩步得到的所有candidate查詢圖,通過衡量它們與問題的相似性進行排序,而后挑出目標查詢圖(一般利用CNN完成),從而從KG中找到答案
本文工作的挑戰是多跳(多關系)主路徑問題,作者表示,如果簡單的利用上述方法擴充到2-hop或更多跳的問題中,對于每個問題將會得到10000規模的主路徑候選,窮舉情況下,這個計算量就相當不劃算了。
以圖1中的問題為例,作者考慮的多關系問題解答過程舉例如下:
給定一個局部主路徑The Jeff Probst Show(entity)→nominated_for(elation) → y1(entity) →nominee(relation)→y2(entity),首先對y2添加約束(is_a, TV producer)約束,再找y2對應實體時的搜索空間將大幅縮減。
作者提出了三種action:{extend,connect,aggregate}用于查詢圖生成的循環過程,從而使得生成過程更加靈活。
?????? Extend:在主路徑上添加一個關系,如果當前查詢圖僅包含一個主實體,extend操作將會找到一個在KG中連接到主實體的r,并擴充主路徑。如果主路徑上存在lambdavariable,extend操作將會把該節點變為existential variable,通過執行當前查詢圖,從KG中找到所有與該節點相結合的節點,并找到對應的關系添加到查詢圖中,關系的另一端節點則標為新的lambdavariable。
?????? Connect:除了主實體之外,問題中也常常存在其他確定實體,connect操作將這些確定實體連接到答案節點或者某個中間節點上。
?????? Aggregate:則是將聚合操作函數作為新的節點添加到答案節點或中間節點上。
?????? 三個操作并沒有嚴格的順序規定,因此查詢圖生成過程的限制相對較少。
?????? 在得到候選查詢圖之后,作者使用一個七維特征向量衡量圖與原始自然語言問題之間的相似性,實現查詢圖排序。七維特征分別來自:
?????? BERT-based 語義匹配模型
?????? 查詢圖中確定實體的累計實體鏈接得分
?????? 確定實體在查詢圖中出現的數量
? 實體類型數,時序表達以及查詢圖中的最高級,最后一個特征是答案實體在查詢圖中的個數。
3.實驗
實驗數據:ComplexWebQuestion, WebQuestionSP以及ComplexQuestions, 其中以ComplexWebQuestion為主要評估數據集,因為其中的多關系帶約束復雜問題占比相對其他兩者更多。
?????? 對比模型包括三類:現有的階段查詢圖生成模型(無法處理多跳關系);beam搜索方法(無法處理約束);將復雜問題拆分為簡單問題的方法。
實驗結果如下表所示
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 - ACL2020 | 用于回答知识库中的多跳复杂问题的查询图生成方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 利用推理链进行视觉问题回答
- 下一篇: 论文浅尝 - COLING2020 |