复杂知识库问答最新综述:方法、挑战与解决方案
?PaperWeekly 原創(chuàng) ·?作者?|?劉興賢
學(xué)校?|?北京郵電大學(xué)碩士生
研究方向?|?自然語言處理
本文是一篇有關(guān)復(fù)雜知識庫問答(Complex KBQA)的綜述,主要圍繞 Complex KBQA 遇到的挑戰(zhàn)、現(xiàn)有的方法以及解決方案角度來敘述。
目前兩類主流的復(fù)雜KBQA方法,是基于語義句法分析(SP-based)的方法和基于信息檢索(IR-based)的方法。本文從這兩個(gè)類別的角度對目前最先進(jìn)的方法進(jìn)行了全面的回顧。
論文題目:
A Survey on Complex Knowledge Base Question Answering: Methods, Challenges and Solutions
論文地址:
https://arxiv.org/abs/2105.11644
該論文被收錄于 IJCAI 2021,作者來自新加坡管理大學(xué)、人大、北京大數(shù)據(jù)管理分析中心重點(diǎn)實(shí)驗(yàn)室。
知識庫問答(KBQA)旨在通過知識庫回答問題。近年來,大量的研究集中在語義或句法上復(fù)雜的問題上。本文詳細(xì)地總結(jié)了復(fù)雜 KBQA 的典型挑戰(zhàn)和解決方案。首先介紹 KBQA 任務(wù)的背景。接下來,我們介紹了兩類主流的復(fù)雜 KBQA 方法,即基于語義句法分析(SP-based)的方法和基于信息檢索(IR-based)的方法。
然后,我們從這兩個(gè)類別的角度對先進(jìn)的方法進(jìn)行了全面的回顧。具體地說,我們詳細(xì)說明了他們對典型挑戰(zhàn)的解決方案。最后,總結(jié)并討論了未來的研究方向。
Complex KBQA Example
對于問題“誰是 The Jeff Probst Show 提名的 TV Producer 的第一任妻子?”,可以看到該問題涉及了 7 個(gè)實(shí)體,為了回答該問題,需要 KBQA 系統(tǒng)有一定的推理能力與數(shù)值計(jì)算能力,然而這樣的問題對于目前的 KBQA 系統(tǒng)是相當(dāng)困難的。
Main Challenge
1. 現(xiàn)有的基于語義解析(SP)的方法中使用的解析器很難覆蓋各種復(fù)雜的查詢(例如,多跳推理、約束關(guān)系和數(shù)值運(yùn)算)。類似地,以前的基于 IR 的方法可能無法回答復(fù)雜的查詢,因?yàn)樗鼈兊呐判蚴窃跊]有可追蹤推理的小范圍實(shí)體上執(zhí)行的。
2. 復(fù)雜問題中的關(guān)系和主語越多,潛在邏輯形式的搜索空間就越大,這將大大增加計(jì)算成本。同時(shí),更多的關(guān)系和主題可能會使基于信息檢索的方法檢索所有相關(guān)實(shí)體進(jìn)行排序更加困難。
3. 這兩種方法都將問題理解作為首要步驟。當(dāng)問題在語義和句法方面都變得復(fù)雜時(shí),要求模型具有很強(qiáng)的自然語言理解和泛化能力。
4. 為復(fù)雜問題標(biāo)注通向答案的基本事實(shí)路徑的成本很高,通常,只提供問答對。這表明基于語義解析(SP)的方法和基于信息檢索(IR)的方法必須分別在沒有正確邏輯形式和推理路徑注釋的情況下進(jìn)行訓(xùn)練。如此微弱的監(jiān)督信號給這兩種方式都帶來了困難。
Mainstream Approaches
基于語義解析的方法(SP)
該方法旨在將自然語言的問句解析成邏輯形式,通常步驟如下:
(1)使用一個(gè)問題理解模塊,對句子進(jìn)行語義和語法解析,獲得編碼后的問題。
(2)利用邏輯解析模塊將編碼后的問題轉(zhuǎn)化為一個(gè)還未實(shí)例化(未填充具體實(shí)體關(guān)系)的邏輯形式。
(3)針對知識庫,將邏輯形式與結(jié)構(gòu)化的知識庫進(jìn)行語義對齊,進(jìn)一步實(shí)例化上一步的邏輯形式。
(4)對知識庫執(zhí)行解析后的邏輯形式,通過知識庫執(zhí)行模塊生成預(yù)測答案。
基于信息檢索的方法(IR)
該方法旨在使用問題中傳達(dá)的信息,直接從知識庫中檢索并排序答案。
(1)確定中心實(shí)體,并從知識庫中提取出特定于問題的子圖。理想情況下,該圖應(yīng)該包含所有語文題相關(guān)的實(shí)體和關(guān)系。
(2)通過一個(gè)問題表示模塊,對輸入的問題進(jìn)行編碼,該模塊分析問題的編碼并輸出推理指令,這些指令并非具有明確含義的,而是一個(gè)向量。
(3)基于圖的推理模塊通過基于向量的計(jì)算進(jìn)行語義匹配,將信息沿著圖中的相鄰實(shí)體傳播并聚合。
(4)利用答案排序模塊根據(jù)推理結(jié)束時(shí)的推理狀態(tài)對圖中的實(shí)體進(jìn)行排序。
Overview
總體而言,基于 SP 的方法可以通過生成可表達(dá)的邏輯形式來產(chǎn)生更具解釋性的推理過程。然而,它們嚴(yán)重依賴于邏輯形式和解析算法的設(shè)計(jì),成為性能提高的瓶頸。作為對比,基于 IR 的方法對圖結(jié)構(gòu)進(jìn)行復(fù)雜推理,并進(jìn)行語義匹配。這樣的方法適合流行的端到端訓(xùn)練,并使基于 IR 的方法更易于訓(xùn)練。然而,推理模型的黑盒結(jié)構(gòu)使得中間推理更難解釋。
Challenges and Solutions
5.1 Semantic Parsing-based Methods
5.1.1 Overview
基于 SP 的方法遵循先分析后執(zhí)行的過程,即問題理解、邏輯分析、知識庫實(shí)例化和知識庫執(zhí)行。對于復(fù)雜的 KBQA,這些模塊將遇到不同的挑戰(zhàn)。
(1)當(dāng)問題在語義和句法方面都比較復(fù)雜時(shí),問題理解變得更加困難。其次,邏輯分析必須涵蓋復(fù)雜問題的各種查詢類型。
(2)涉及更多關(guān)系和主題的復(fù)雜問題會極大地增加解析可能的搜索空間,從而降低解析效率。
(3)人工標(biāo)注邏輯形式不僅費(fèi)時(shí)費(fèi)力,而且訓(xùn)練弱監(jiān)督信號(即問答對)的SP方法具有挑戰(zhàn)性。
5.1.2 Understanding Complex Semantics and Syntax
作為基于 SP 的方法的第一步,問題理解模塊將非結(jié)構(gòu)化文本轉(zhuǎn)換為結(jié)構(gòu)化表示,這有利于后續(xù)的句法分析。
與簡單問句相比,復(fù)雜問句具有更復(fù)雜的問句類型和成分語義,增加了語言分析的難度。為了更好地理解復(fù)雜的自然語言問題,許多現(xiàn)有方法依賴于句法分析,例如依存關(guān)系 [Abujabal 等人,2017;Abujabal 等人,2018 [1];Luo等人,2018 [2] ] 和抽象意義表示(AMR)[Kapanipathi 等人,2020 [3] ],以在問題成分和邏輯元素(例如,實(shí)體、關(guān)系、實(shí)體類型和屬性)之間提供更好的對齊。?
然而,對于復(fù)雜問題,特別是對于那些具有長距離依存關(guān)系的問題,生成句法分析的準(zhǔn)確率仍然不能令人滿意。為了減輕從句法分析到下游語義分析的錯(cuò)誤傳播,[Sun 等人, 2020 [4] ] 提出了一種改進(jìn)方法。利用基于骨架的句法分析方法,獲得復(fù)雜問題的主干,這是一個(gè)具有多個(gè)分支(即原文跨度的樞軸詞)的簡單問題。
另一項(xiàng)工作側(cè)重于利用邏輯形式的結(jié)構(gòu)屬性(如樹結(jié)構(gòu)或圖結(jié)構(gòu))對候選解析進(jìn)行排名。他們試圖通過引入結(jié)構(gòu)感知的特征編碼器 [Zhu 等人,2020 [5] ],應(yīng)用細(xì)粒度的槽匹配 [Mahehwari 等人,2019 年 [6] ],以及添加關(guān)于查詢結(jié)構(gòu)的約束來過濾噪音查詢,來改善邏輯形式和問題之間的匹配 [Chen 等人,2020 [7] ]。
5.1.3 Parsing Complex Queries
在句法分析過程中,傳統(tǒng)的語義句法分析(例如 CCG [Cai and Yates,2013 [8] ];Kwiatkowski 等人,2013 [9];Reddy等人,2014 [10])在分析簡單問題時(shí)顯示出了它們的潛力。然而,由于本體不匹配問題,這些方法對于復(fù)雜的問題可能是次優(yōu)的 [Yih 等人,2015 年 [11] ]。因此,有必要利用知識庫的結(jié)構(gòu)進(jìn)行更準(zhǔn)確的解析。
為了滿足復(fù)雜問題的組合性,研究者將不同的表達(dá)邏輯形式作為目標(biāo)。[Bast 和 Haussmann, 2015 [12] ] 設(shè)計(jì)了三個(gè)查詢模板作為解析目標(biāo),可以涵蓋查詢1-跳、2- 跳關(guān)系和單約束涉及關(guān)系的問題。雖然該方法可以成功地解析幾種類型的復(fù)雜問題,但它存在覆蓋范圍有限的問題。
[Yih 等, 2015 [11] ] 提出將問題解析成一個(gè)查詢圖。查詢圖是與知識庫模式緊密匹配的圖結(jié)構(gòu)邏輯形式。這種查詢圖在復(fù)雜的 KBQA 任務(wù)中表現(xiàn)出很強(qiáng)的表達(dá)能力。但是,它們是由預(yù)定義的人工規(guī)則限制生成的,這不適用于大規(guī)模數(shù)據(jù)集和長尾復(fù)雜問題類型。后續(xù)工作試圖改進(jìn)查詢圖的表達(dá)方式。
為了推廣到看不見的長尾問題類型,[Ding 等人, 2019 [13] ] 提出利用頻繁使用的查詢子結(jié)構(gòu)進(jìn)行形式化查詢生成。[Abujabal 等人,2017 [1] ] 利用句法標(biāo)注提高查詢圖的結(jié)構(gòu)復(fù)雜度。[Hu 等人,2018b [14] ] 應(yīng)用了更多的聚合運(yùn)算符(如“合并”)來擬合復(fù)雜的問題,并進(jìn)行了共指消解。
5.1.4 Grounding with Large Search Space
為了獲得可執(zhí)行的邏輯形式,知識庫實(shí)例化模塊用知識庫實(shí)例化可能的邏輯形式(將在知識庫中的實(shí)體關(guān)系添加進(jìn)可執(zhí)行的查詢語句)。由于知識庫中的一個(gè)實(shí)體可能鏈接到數(shù)百甚至數(shù)千個(gè)關(guān)系,考慮到計(jì)算資源和時(shí)間復(fù)雜性,為一個(gè)復(fù)雜問題建立所有可能的邏輯形式是代價(jià)高昂的。
最近,研究人員提出了多種解決問題的方法。[Zheng 等人,2018b [15] ] 提出將一個(gè)復(fù)雜問題分解為多個(gè)簡單問題,每個(gè)問題解析成一個(gè)簡單的邏輯形式。然后,通過這些簡單的邏輯形式生成中間答案,并聯(lián)合得到最終答案。這種分解-執(zhí)行-連接策略可以有效地縮小搜索空間。
[Bhutani 等人, 2019 [16] ] 也研究了類似的方法,他們通過利用依賴關(guān)系結(jié)構(gòu)減少了人工標(biāo)注。同時(shí),一些研究采用擴(kuò)展排序策略,通過 Beam Search 來減小搜索空間。[Chen 等人,2019 [17] ] 首先采用逐跳貪婪搜索策略對最可能的查詢圖進(jìn)行擴(kuò)展,直至得到最優(yōu)查詢圖。
[Lan 等人,2019c [18] ] 提出了一種迭代匹配模塊,在每個(gè)搜索步驟中無需重新訪問生成的查詢圖即可對問題進(jìn)行解析。這種順序展開過程只在回答多跳問題時(shí)有效,而對于有約束或數(shù)值運(yùn)算的問題則無能為力。[Lan 和 Jiang, 2020 [19] ] 定義了更多的操作來支持三個(gè)典型的復(fù)雜查詢,這可以大大減少搜索空間。
5.1.5 Training under Weak Supervision Signals
為了處理訓(xùn)練數(shù)據(jù)有限或不足的問題,采用了基于強(qiáng)化學(xué)習(xí)(RL)的優(yōu)化方法來最大化預(yù)期回報(bào) [Liang 等人,2017 [20];Qiu 等人,2020b [21] ]。在這種情況下,基于 SP 的方法只能在執(zhí)行完完整的解析邏輯形式后才能收到反饋,這導(dǎo)致了嚴(yán)重的稀疏正反饋和數(shù)據(jù)低效問題。為了解決這些問題,一些研究工作采用了 reward shaping 策略來進(jìn)行句法分析評估。
[Saha 等人,2019 [22] ] 當(dāng)預(yù)測答案與基本事實(shí)類型相同時(shí),附加反饋獎(jiǎng)勵(lì)模型。[Hua 等人, 2020b [23] ] 采用類似的思路,通過將生成的邏輯形式與存儲在內(nèi)存緩沖區(qū)中的高反饋邏輯形式進(jìn)行比較,對生成的邏輯形式進(jìn)行評估。除了對整個(gè)過程的反饋之外,語義分析過程中的中間反饋也可能有助于解決這一挑戰(zhàn)。
最近,[Qiu 等人,2020b [21] ] 提出了自己的觀點(diǎn),將查詢圖生成問題描述為一個(gè)層次化決策問題,并提出了一種基于層次化 RL 的框架,該框架具有提供中間反饋的機(jī)制。為了加快和穩(wěn)定訓(xùn)練過程,[Qiu 等人,2020b [21] ] 使用一個(gè)偽 gold 過程(用手工規(guī)則生成的高反饋邏輯表格)預(yù)訓(xùn)練模型。因?yàn)閭吸S金程序也可以從該模型中產(chǎn)生,[Liang 等人,2017 [20] ] 提出通過迭代最大似然訓(xùn)練過程來保持偽 gold 過程的 bootstrap 訓(xùn)練。
5.2 Information Retrieval-based Methods
5.2.1 Overview
整個(gè)過程通常由檢索源構(gòu)建、問題表示、基于圖的推理和答案排序模塊組成。對于復(fù)雜的 KBQA,這些模塊將遇到不同的挑戰(zhàn)。
(1)檢索源構(gòu)建模塊從知識庫中提取問題特定子圖,該圖涵蓋了每個(gè)問題的廣泛相關(guān)事實(shí)。知識庫的不完全性 [Min 等人,2013 [24] ] 的問題不可忽視,因此提取的圖中可能缺少正確的推理路徑。這個(gè)問題更有可能發(fā)生在復(fù)雜問題的情況下。
(2)問題表示模塊理解問題并生成指導(dǎo)推理過程的指令。當(dāng)問題很復(fù)雜時(shí),這一步就會變得具有挑戰(zhàn)性。
(3)通過語義匹配對圖進(jìn)行推理。在處理復(fù)雜問題時(shí),這些方法通過語義相似度對答案進(jìn)行排序,圖中沒有可追溯的推理,這給推理分析和故障診斷帶來了困難。
(4)該系統(tǒng)在弱監(jiān)督信號(即只有問答對但沒有推理路徑)下遇到同樣的訓(xùn)練挑戰(zhàn)。
5.2.2 Reasoning under Incomplete KB
基于 IR 的方法首先從知識庫中提取問題特定子圖,然后對其進(jìn)行推理。由于簡單的問題只需要在知識庫中的中心實(shí)體鄰域上進(jìn)行 1 跳推理,因此基于 IR 的方法不太可能受到知識庫固有的不完全性的影響 [Min 等人,2013 [24] ]。
相比之下,對于復(fù)雜的問題來說,這可能是一個(gè)嚴(yán)重的問題,因?yàn)樵谔囟▎栴}的圖表中可能沒有正確的推理路徑。此外,這種不完整性減少了用于編碼實(shí)體的鄰域信息,這給有效推理帶來了額外的挑戰(zhàn)。
為了應(yīng)對這一挑戰(zhàn),研究人員利用輔助信息(比如維基百科檢索到的與問題相關(guān)的大型文本語料庫),可以提供廣泛的非結(jié)構(gòu)化知識作為補(bǔ)充證據(jù)。[Sun 等人,2018 [25] ] 和 [Sun 等人, 2019 [26] ] 提出用額外的問題相關(guān)文本語句來補(bǔ)充從不完備知識庫中提取的子圖,形成一個(gè)異構(gòu)圖,并在其上進(jìn)行推理。
[Xiong 等人,2019 [27];Han 等人, 2020a [28] ] 沒有直接將句子作為節(jié)點(diǎn)補(bǔ)充到問題特定的圖中,而是在實(shí)體表示中融合額外的文本信息來補(bǔ)充知識。該方法首先對問句相關(guān)實(shí)體進(jìn)行編碼,然后通過聚合句子的表示來補(bǔ)充不完整的知識庫,以增強(qiáng)相應(yīng)的實(shí)體表示。
除了額外的文本語料庫外,還采用了知識庫嵌入的方法,通過進(jìn)行缺省鏈接預(yù)測來緩解知識庫的稀疏性。受知識庫補(bǔ)全任務(wù)的啟發(fā),[Saxena 等人,2020 [29] ] 利用預(yù)先訓(xùn)練的知識庫嵌入來豐富學(xué)習(xí)的實(shí)體表示并解決不完整的知識庫問題。
5.2.3 Understanding Complex Semantics
一般而言,基于 IR 的方法通過神經(jīng)網(wǎng)絡(luò)(例如 LSTM)將問題直接編碼為低維向量來生成推理指令。通過上述方法靜態(tài)生成的推理指令不能有效地表示復(fù)雜問題的組合語義。為了更全面地理解問題,最近的工作在推理過程中動態(tài)更新了推理指令。
為了把重點(diǎn)放在問題目前未分析的部分,[Miller 等人,2016 [30];Zhou 等人,2018 [31];Xu 等人,2019 [32] ] 建議用推理過程中檢索到的信息更新推理指令。除了用推理信息更新指令表示外,[He 等人,2021 [33] ] 還對指令表示進(jìn)行了修改,提出用動態(tài)注意力機(jī)制關(guān)注問題的不同部分。
這種動態(tài)注意機(jī)制可以促進(jìn)模型注意到問題所傳達(dá)的其他信息,并為后續(xù)的推理步驟提供適當(dāng)?shù)闹笇?dǎo)。[Sun 等人,2018 [25] ] 沒有分解問題的語義,提出使用圖表中的上下文信息來增強(qiáng)問題的表示。在每個(gè)推理步驟之后,他們通過聚合來自主題實(shí)體的信息來更新推理指令。
5.2.4 Uninterpretable Reasoning
傳統(tǒng)的基于信息檢索的方法通過計(jì)算問題和圖中實(shí)體之間的單一語義相似度來對答案進(jìn)行排序,這在中間步驟較難解釋。由于復(fù)雜的問題通常會查詢多個(gè)事實(shí),因此系統(tǒng)應(yīng)該基于一個(gè)可追蹤和可觀察的推理過程來準(zhǔn)確地預(yù)測圖上的答案。即使有些工作多次重復(fù)推理步驟,他們也不能沿著圖表中可追蹤的路徑進(jìn)行推理。為了推導(dǎo)出更具解釋性的推理過程,引入了多跳推理。
[Zhou 等人,2018 [31] ] 和 [Xu 等人,2019 [32] ] 提出使在每一跳預(yù)測的關(guān)系或?qū)嶓w可追溯和可觀察。它們從預(yù)定義的記憶模塊中輸出中間預(yù)測(即匹配的關(guān)系或?qū)嶓w)作為可解釋的推理路徑。然而,它不能充分利用語義關(guān)系信息進(jìn)行邊對邊推理。因此,[Han等人,2020b [34] ] 通過精確定位一組通過相同關(guān)系連接的實(shí)體,構(gòu)建了一個(gè)更密集的超圖,它模擬了人的跳躍關(guān)系推理,并輸出一條順序關(guān)系路徑,使推理具有可解釋性。
5.2.5 Training under Weak Supervision Signals
與基于 SP 的方法類似,基于 IR 的方法很難在中間步驟沒有任何注釋的情況下推理正確的答案,因?yàn)槟P椭钡酵评斫Y(jié)束才能收到任何反饋。人們發(fā)現(xiàn),這種情況可能導(dǎo)致虛假推理 [He 等人,2021 [33] ]。
為了緩解這些問題,[Qiu 等人,2020a [35] ] 將知識庫上的推理過程定義為擴(kuò)展知識庫上的推理路徑,并采用獎(jiǎng)勵(lì)形成策略提供中間獎(jiǎng)勵(lì)。為了評估中間步驟的推理路徑,他們利用問題和推理路徑之間的語義相似性來提供反饋。
除了在中間步驟評估推理路徑之外,更直觀的想法是推斷偽中間狀態(tài),并用這樣的推斷信號增強(qiáng)模型訓(xùn)練。受圖上雙向搜索算法的啟發(fā),[He 等人,2021 [33] ] 提出了基于圖的雙向搜索算法,通過同步雙向推理過程來學(xué)習(xí)中間推理實(shí)體分布。
目前已有的工作大多集中在中間環(huán)節(jié)的監(jiān)控信號增強(qiáng)上,而對實(shí)體鏈接環(huán)節(jié)的研究較少。研究人員使用離線工具來定位問題主題實(shí)體,這可能會導(dǎo)致錯(cuò)誤傳播到后續(xù)推理中。為了準(zhǔn)確定位不帶標(biāo)注的主題實(shí)體,[Zhang 等人,2018 [36] ] 提出了一種新的主題實(shí)體定位方法,利用基于知識庫的中心實(shí)體識別和后續(xù)推理的聯(lián)合學(xué)習(xí)算法來訓(xùn)練實(shí)體鏈接模塊。
Conclusion and Future Directions
6.1 Evolutionary KBQA
復(fù)雜 KBQA 現(xiàn)有方法通常是在離線訓(xùn)練數(shù)據(jù)集上學(xué)習(xí)的,然后在線部署來回答用戶的問題。由于這種明確的分離,現(xiàn)有的 KBQA 系統(tǒng)大多跟不上世界知識的快速增長,無法回答新的問題。然而,用戶反饋可能會為已部署的 KBQA 系統(tǒng)提供改進(jìn)自身的機(jī)會。
基于這一觀察,[Abujabal 等人,2018 [37] ] 利用用戶反饋糾正 KBQA 系統(tǒng)生成的答案,并進(jìn)行進(jìn)一步改進(jìn)。除了驗(yàn)證系統(tǒng)預(yù)測的正確性外,用戶也可能在答疑過程中發(fā)揮更積極的作用。
[Zheng 等人,2018a [38] ] 設(shè)計(jì)了一種交互式方式,讓用戶直接參與知識庫問答系統(tǒng)的問題解析過程。在未來,KBQA 系統(tǒng)在在線部署后要得到持續(xù)改進(jìn),對于可持續(xù)性的、不斷進(jìn)化的 KBQA 的探索勢在必行。
6.2 Robust and Interpretable Models
雖然現(xiàn)有的方法在目前的基準(zhǔn)數(shù)據(jù)集上取得了令人振奮的結(jié)果,但它們可能很容易無法處理分布外的情況。
Few-Shot 學(xué)習(xí)是訓(xùn)練數(shù)據(jù)有限的場景。以前的一些研究 [Hua 等人,2020a;He等人,2021 [33] ] 討論了相關(guān)主題,但在分析挑戰(zhàn)和問題解決方面仍然遠(yuǎn)遠(yuǎn)不全面。
成分泛化是另一個(gè)場景,在該場景中,訓(xùn)練過程新穎單詞組合應(yīng)該在測試過程中被推斷出來。為了支持對這一問題的更多研究,[Gu 等人,2020 [39] ] 和 [Keysers等人,2020 [40] ] 介紹了相關(guān)數(shù)據(jù)集,即 GraQA 和 CFQ。這些模型應(yīng)該能夠處理分布不均的問題,并獲得可解釋的推理過程。設(shè)計(jì)具有良好可解釋性和健壯性的 KBQA 方法可能是未來研究的一個(gè)具有挑戰(zhàn)性但很有前途的課題。
6.3 More General Knowledge Base
由于知識庫的不完整性,研究人員納入了額外的信息(如文本 [Sun 等人,2018 年?[25] ]、圖像 [Xie 等人,2017 [41] ] 和人與人的互動 [He 等人,2020 [42] ] )來補(bǔ)充知識庫,這將進(jìn)一步改善復(fù)雜的 KBQA 性能。
還有一些任務(wù)(例如,視覺問答和常識知識推理)可以表示為基于特定知識庫的問答。例如,在視覺問答中,從圖像中提取的場景圖可以看作是一個(gè)特殊的知識庫 [Hudson and Manning,2019 [43] ]。
盡管將關(guān)系知識顯性地表示為結(jié)構(gòu)型知識庫,但一些研究者建議對隱性的“知識庫”進(jìn)行推理。[Petroni 等人,2019 [44] ] 分析了一系列預(yù)訓(xùn)練模型中的關(guān)系知識,并進(jìn)行了一些后續(xù)工作 [Bouraoui 等人,2020 [45];Jiang 等人,2020 [46] ],進(jìn)一步證明了它對回答完形填空語句的有效性。雖然現(xiàn)有的大部分工作都集中在傳統(tǒng)的結(jié)構(gòu)化知識庫上,但對知識庫的更廣泛的定義和對知識庫的靈活使用可能有助于 KBQA 研究表現(xiàn)出更大的影響力。
參考文獻(xiàn)
[1] Abdalghani Abujabal, Mohamed Yahya, Mirek Riedewald, and Gerhard Weikum. Automated template generation for question answering over knowledge graphs. In WWW, 2017.
[2] [Luo et al., 2018] Kangqi Luo, Fengli Lin, Xusheng Luo, and Kenny Q. Zhu. Knowledge base question answering via encoding of complex query graphs. In EMNLP, 2018.
[3] [Kapanipathi et al., 2020] Pavan Kapanipathi, Ibrahim Abdelaziz, Srinivas Ravishankar, Salim Roukos, Alexander G. Gray, Ram′on Fernandez Astudillo, Maria Chang, Cristina Cornelio, Saswati Dana, Achille Fokoue, Dinesh Garg, Alfio Gliozzo, Sairam Gurajada, Hima Karanam, Naweed Khan, Dinesh Khandelwal, Young-Suk Lee, Yunyao Li, Francois P. S. Luus, Ndivhuwo Makondo, Nandana Mihindukulasooriya, Tahira Naseem, Sumit Neelam, Lucian Popa, Revanth Gangi Reddy, Ryan Riegel, Gaetano Rossiello, Udit Sharma, G. P. Shrivatsa Bhargav, and Mo Yu. Question answering over knowledge bases by leveraging semantic parsing and neuro-symbolic reasoning. In AAAI, 2020.
[4] [Sun et al., 2020] Yawei Sun, Lingling Zhang, Gong Cheng, and Yuzhong Qu. SPARQA: skeleton-based semantic parsing for complex questions over knowledge bases. In AAAI, 2020.
[5] [Zhu et al., 2020] Shuguang Zhu, Xiang Cheng, and Sen Su. Knowledge-based question answering by tree-to-sequence learning. Neurocomputing, 2020.
[6] [Maheshwari et al., 2019] Gaurav Maheshwari, Priyansh Trivedi, Denis Lukovnikov, Nilesh Chakraborty, Asja Fischer, and Jens Lehmann. Learning to rank query graphs for complex question answering over knowledge graphs. In ISWC, 2019.
[7] [Chen et al., 2020] Yongrui Chen, Huiying Li, Yuncheng Hua, and Guilin Qi. Formal query building with query structure prediction for complex question answering over knowledge base. In IJCAI, 2020.
[8] [Cai and Yates, 2013] Qingqing Cai and Alexander Yates. Large-scale semantic parsing via schema matching and lexicon extension. In ACL, 2013.
[9] [Kwiatkowski et al., 2013] Tom Kwiatkowski, Eunsol Choi, Yoav Artzi, and Luke Zettlemoyer. Scaling semantic parsers with on-the-fly ontology matching. In EMNLP, 2013.
[10] [Reddy et al., 2014] Siva Reddy, Mirella Lapata, and Mark Steedman. Large-scale semantic parsing without questionanswer pairs. TACL, 2014.
[11] [Yih et al., 2015] Wen-tau Yih, Ming-Wei Chang, Xiaodong He, and Jianfeng Gao. Semantic parsing via staged query graph generation: Question answering with knowledge base. In ACL, 2015.
[12] [Bast and Haussmann, 2015] Hannah Bast and Elmar Haussmann. More accurate question answering on freebase. In CIKM, 2015.
[13] [Ding et al., 2019] Jiwei Ding, Wei Hu, Qixin Xu, and Yuzhong Qu. Leveraging frequent query substructures to generate formal queries for complex question answering. In EMNLP, 2019.
[14] [Hu et al., 2018b] Sen Hu, Lei Zou, and Xinbo Zhang. Astate-transition framework to answer complex questionsover knowledge base. In EMNLP, 2018.
[15] [Zheng et al., 2018b] Weiguo Zheng, Jeffrey Xu Yu, Lei Zou, and Hong Cheng. Question answering over knowledgegraphs: Question understanding via template decomposition. In VLDB Endow., 2018.
[16] [Bhutani et al., 2019] Nikita Bhutani, Xinyi Zheng, and H. V. Jagadish. Learning to answer complex questions over knowledge bases with query composition. In CIKM, 2019.
[17] [Chen et al., 2019] Zi-Yuan Chen, Chih-Hung Chang, Yi- Pei Chen, Jijnasa Nayak, and Lun-Wei Ku. UHop: An unrestricted-hop relation extraction framework for knowledge-based question answering. In NAACL, 2019.
[18] [Lan et al., 2019c] Yunshi Lan, Shuohang Wang, and Jing Jiang. Multi-hop knowledge base question answering with an iterative sequence matching model. In ICDM, 2019.
[19] [Lan and Jiang, 2020] Yunshi Lan and Jing Jiang. Query graph generation for answering multi-hop complex questions from knowledge bases. In ACL, 2020.
[20] [Liang et al., 2017] Chen Liang, Jonathan Berant, Quoc Le, Kenneth D. Forbus, and Ni Lao. Neural symbolic machines: Learning semantic parsers on Freebase with weak supervision. In ACL, 2017.
[21] [Qiu et al., 2020b] Yunqi Qiu, Kun Zhang, Yuanzhuo Wang, Xiaolong Jin, Long Bai, Saiping Guan, and Xueqi Cheng. Hierarchical query graph generation for complex question answering over knowledge graph. In CIKM, 2020.
[22] [Saha et al., 2019] Amrita Saha, Ghulam Ahmed Ansari, Abhishek Laddha, Karthik Sankaranarayanan, and Soumen Chakrabarti. Complex program induction for querying knowledge bases in the absence of gold programs. TACL, 2019.
[23] [Hua et al., 2020b] Yuncheng Hua, Yuan-Fang Li, Guilin Qi, Wei Wu, Jingyao Zhang, and Daiqing Qi. Less is more: Data-efficient complex question answering over knowledge bases. J. Web Semant., 2020.
[24] [Min et al., 2013] Bonan Min, Ralph Grishman, Li Wan, Chang Wang, and David Gondek. Distant supervision for relation extraction with an incomplete knowledge base. In NAACL-HLT, 2013.
[25] [Sun et al., 2018] Haitian Sun, Bhuwan Dhingra, Manzil Zaheer, Kathryn Mazaitis, Ruslan Salakhutdinov, and William Cohen. Open domain question answering using early fusion of knowledge bases and text. In EMNLP, 2018.
[26] [Sun et al., 2019] Haitian Sun, Tania Bedrax-Weiss, and William Cohen. Pullnet: Open domain question answering with iterative retrieval on knowledge bases and text. In EMNLP, 2019.
[27] [Xiong et al., 2019] Wenhan Xiong, Mo Yu, Shiyu Chang, Xiaoxiao Guo, and William Yang Wang. Improving question answering over incomplete kbs with knowledge-aware reader. In ACL, 2019.
[28] [Han et al., 2020a] Jiale Han, Bo Cheng, and Xu Wang. Open domain question answering based on text enhanced knowledge graph with hyperedge infusion. In EMNLP, 2020.
[29] [Saxena et al., 2020] Apoorv Saxena, Aditay Tripathi, and Partha Talukdar. Improving multi-hop question answering over knowledge graphs using knowledge base embeddings. In ACL, 2020.
[30] [Miller et al., 2016] Alexander Miller, Adam Fisch, Jesse Dodge, Amir-Hossein Karimi, Antoine Bordes, and Jason Weston. Key-value memory networks for directly reading documents. In EMNLP, 2016.
[31] [Zhou et al., 2018] Mantong Zhou, Minlie Huang, and Xiaoyan Zhu. An interpretable reasoning network for multirelation question answering. In COLING, 2018.
[32] [Xu et al., 2019] Kun Xu, Yuxuan Lai, Yansong Feng, and Zhiguo Wang. Enhancing key-value memory neural networks for knowledge based question answering. In NAACL-HLT, 2019.
[33] [He et al., 2021] Gaole He, Yunshi Lan, Jing Jiang, Wayne Xin Zhao, and Ji-Rong Wen. Improving multihop knowledge base question answering by learning intermediate supervision signals. In WSDM, 2021
[34] [Han et al., 2020b] Jiale Han, Bo Cheng, and Xu Wang. Two-phase hypergraph based reasoning with dynamic relations for multi-hop kbqa. In IJCAI, 2020.
[35] [Qiu et al., 2020a] Yunqi Qiu, Yuanzhuo Wang, Xiaolong Jin, and Kun Zhang. Stepwise reasoning for multi-relation question answering over knowledge graph with weak supervision. In WSDM, 2020.
[36] [Zhang et al., 2018] Yuyu Zhang, Hanjun Dai, Zornitsa Kozareva, Alexander J Smola, and Le Song. Variational reasoning for question answering with knowledge graph. In AAAI, 2018.
[37] [Abujabal et al., 2018] Abdalghani Abujabal, Rishiraj Saha Roy, Mohamed Yahya, and Gerhard Weikum. Neverending learning for open-domain question answering over knowledge bases. In WWW, 2018.
[38] [Zheng et al., 2018a] Weiguo Zheng, Hong Cheng, Jeffrey Xu Yu, Lei Zou, and Kangfei Zhao. Never-ending learning for open-domain question answering over knowledge bases. In InfoScience, 2018.
[39] [Gu et al., 2020] Yu Gu, Sue Kase, Michelle Vanni, Brian M. Sadler, Percy Liang, Xifeng Yan, and Yu Su. Beyond I.I.D.: three levels of generalization for question answering on knowledge bases. In WWW, 2020.
[40] [Keysers et al., 2020] Daniel Keysers, Nathanael Sch¨arli, Nathan Scales, Hylke Buisman, Daniel Furrer, Sergii Kashubin, Nikola Momchev, Danila Sinopalnikov, Lukasz Stafiniak, Tibor Tihon, Dmitry Tsarkov, Xiao Wang, Marc van Zee, and Olivier Bousquet. Measuring compositional generalization: A comprehensive method on realistic data. In ICLR, 2020.
[41] [Xie et al., 2017] Ruobing Xie, Zhiyuan Liu, Huanbo Luan, and Maosong Sun. Image-embodied knowledge representation learning. In IJCAI, pages 3140–3146, 2017.
[42] [He et al., 2020] Gaole He, Junyi Li,Wayne Xin Zhao, Peiju Liu, and Ji-Rong Wen. Mining implicit entity preference from user-item interaction data for knowledge graph completion via adversarial learning. In WWW, 2020.
[43] [Hudson and Manning, 2019] Drew A. Hudson and Christopher D. Manning. Learning by abstraction: The neural state machine. In NeurIPS, 2019.
[44] [Petroni et al., 2019] Fabio Petroni, Tim Rockt¨aschel, Sebastian Riedel, Patrick S. H. Lewis, Anton Bakhtin, Yuxiang Wu, and Alexander H. Miller. Language models as knowledge bases? In EMNLP, 2019.
[45] [Bouraoui et al., 2020] Zied Bouraoui, Jos′e Camacho- Collados, and Steven Schockaert. Inducing relational knowledge from BERT. In AAAI, 2020.
[46] [Jiang et al., 2020] Zhengbao Jiang, Frank F. Xu, Jun Araki, and Graham Neubig. How can we know what language models know. TACL, 2020.
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識真正流動起來。
?????稿件基本要求:
? 文章確系個(gè)人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
?????投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時(shí)聯(lián)系方式(微信),以便我們在稿件選用的第一時(shí)間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的复杂知识库问答最新综述:方法、挑战与解决方案的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 我不建议你这样进军人工智能……
- 下一篇: ICCV 2021|面向城市场景理解的大