日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 - WSDM20 | 基于弱监督及逐步推理的多关系知识图谱问答

發布時間:2024/7/5 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 - WSDM20 | 基于弱监督及逐步推理的多关系知识图谱问答 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文筆記整理:劉曉臻,東南大學計算機科學與工程學院本科生。




來源:WSDM ’20

鏈接:https://dl.acm.org/doi/abs/10.1145/3336191.3371812

動機

知識圖譜問答(KG-QA)系統大多包含兩個步驟:鏈接問題中的topic entity到KG,然后識別問題所指的在KG中的最相關的關系。根據獲取答案所需的KG三元組的數量,可以將自然語言問題分成單一關系問題和多關系問題兩種。

現有的KG-QA方法可以分成兩個主流的分支。

第一種主要致力于學習一個能夠將非結構化的問題轉換為結構化表示的語義解析器(Semantic Parser, SP),其中傳統的基于SP的方法利用諸如SPARQL、λ-DCS和λ-calculus之類的邏輯形式,但這就要求用戶熟悉這些邏輯形式的語法和后臺數據結構,而且預測所得的結構和和KG的結構之間存在的不匹配的情況也會限制模型的表現。因此最近的研究使用query graph來表示問題的語義結構,這樣可以取得較好的結果,但以人工標注成本作為代價,因此難以用于其它領域,且依賴于成熟的NLPpipelines,會有錯誤的疊加。

另外一個分支的方法利用以topic entity為中心的子圖獲取候選答案,且將問題和每個候選子圖編碼為同一個嵌入空間的語義向量,利用嵌入相似度排序,其中神經網絡可以較好地用以表示問題和KG成分。這一類方法可以端到端地訓練,且有泛化到其他領域的可能,但在多關系問題上表現不是很好。

因此,對于后一類方法,最近的研究工作致力于提高多關系問題上的推理能力。然而還有以下幾個挑戰:(1) 時間復雜度過高,因為現有的方法對于每個問題都需要用到整個以topic entity為中心的子圖,使得候選答案個數以指數級上升。(2) 語義信息太復雜,因為多關系問題中的每一個部分都對三元組選擇有各自的影響,故需要在不同步驟里關注問題中的不同部分,而許多現有的方法沒有對多關系問題作更進一步的分析,因此表現很差。(3) 需要使用弱監督來訓練,因為一步步地分析到底如何回答一個多關系問題是不現實的,這需要大量的數據標注。實際的標注只有最終的答案,因此是弱監督的。有些工作使用外部知識(如Wikipediafree text)來豐富分布式表示,但這種操作不適用于沒有外部知識的某些特定領域。

針對以上挑戰,本文提出了一個基于強化學習的神經網絡模型“Stepwise Reasoning Network (SRN)”。貢獻如下:

(1) 針對第一個挑戰,SRN將多關系問題的回答形式化為一個順序決策問題,通過學習一個從topic entity開始,在KG中執行路徑搜索的策略來得到一個自然語言問題的答案,并使用beam search在每一步獲取三元組列表,因此可以不考慮整個以topic entity為中心的子圖,進而顯著減少對于一個問題的候選答案。

(2) 針對第二個挑戰,SRN使用注意力機制決定當前關注哪一個部分以獲取問題中不同部分的獨特的信息,在每一步使用對應的單層感知機以強調三元組選擇的順序,使用GRU網絡來編碼決策歷史。

(3) SRN使用REINFORCE算法進行端到端訓練。針對第三個挑戰,特別是在弱監督、多關系問題的情況下存在的一系列問題,SRN使用基于potential 的reward shaping方法來為agent提供額外的rewards,該方法不會使得agent偏離真正的目標,也不需要外部知識。

(4) 通過實驗證明了方法的有效性,在3個benchmark數據集上進行了ablationstudy。

方法

1.任務定義

一個KG由G= (E, R)表示,E為實體集合,R為關系集合;KG中每個三元組(es, r, eo)都代表了現實生活中的一個基本事實。對于一個自然語言問題q,一個KG-QA模型返回事實性答案,答案包含存儲在KG中的三元組,對于許多復雜問題,要求不止一個三元組。

2.強化學習形式化

強化學習常被形式化為一個馬爾可夫決策過程(Markov decision process, MDP)。本文將MDP視為從交互中學習到回答基于KG的自然語言問題。如圖1,agent是學習者,也是決策者,在一個離散時間決策步驟序列中的每一步,agent和除它之外的一切(環境)交互。

圖 1

具體地,一個MDP定義為一個元組(S, A, p, R),S為狀態空間,A為行動空間,為狀態轉換概率,為獎勵函數。在每個時間步t,agent觀察環境的狀態St ∈ S,然后選擇一個行動At ∈ A(St)。作為結果,環境轉換到一個新的狀態St+1,概率為,然后根據獎勵函數,agent會獲得一個數值上的獎勵。整個過程如圖1。具體到本任務,則有以下定義:對于狀態,中,q為問題,es是topic entity,et是從es搜索路徑過程中,在時間步t時所訪問的實體,ht則為agent之前所做的決策的集合。t時的候選行動集合基于St, A(St)由G中所有et的出邊構成,即。另外,由于回答一個問題所需的三元組數量未知,故在中A(St)加入一個自環邊,表示終止行動,agent在此進入終止狀態。對于狀態轉換,一旦agent選擇了行動,狀態就變換成,其中。最后,獎勵是環境傳給agent的特殊信號,是agent的目的的形式化表現,在episodic RL任務中,agent在每個時間步都會獲得一個獎勵,agent的目標就是最大化其所獲得的獎勵。但由于本文使用的是弱監督,agent只有在得到最終的正確的答案節點時才能獲得一個正值終止獎勵(通常為1),此時可以視之前的每個決策為正確的,讓它們也獲得一個正值獎勵。但這樣會導致獎勵延后且稀疏,阻礙訓練的收斂。本文利用一個potential 函數來減輕這一問題,后面會詳細說明。

3.策略網絡(Policy Network)

?????

本文使用深度神經網絡參數化搜索策略,以求解上述的有限MDP。一個參數化的策略π以每一步的狀態信息為輸入,輸出在候選行動上的概率分布,即,。本文使用雙向GRU網絡來將q轉換為向量,并在每個時間步使用單層感知機轉換向量,以將問題中的不同部分用不同步驟來區分。使用注意力機制來讓表示中能包含關系信息。最終,概率分布基于包含了關系嵌入、能夠感知到關系的問題表示和所編碼的決策歷史的語義得分。

具體地,對于一個長度為n個詞的問題,使用密集詞嵌入初始化每個詞,并將q中的topicentity的提及用token“<< span="">e>”替換,并且預先使用一個topic entity linker標注好此提及。之后,將這一串詞嵌入輸入一個雙向GRU網絡并得到一系列d維輸出狀態,,其中每個wi由正向和反向兩個GRU分別的的d/2維輸出拼接得到。在每個時間步t,q通過學習到的單層感知機轉換成一個能感知到步驟的表示,。進一步地,通過將前一步決策所得的關系輸入一個GRU網絡來編碼決策歷史,具體為,其中,為Aj--1中的關系。H0和r0都是零向量。

根據狀態St獲取行動空間A(St),對于所有的,計算一個能夠感知關系的問題表示,計算方法為:首先將r*投射到qt的嵌入空間上,計算r*與的相似度然后將結果傳給一個SoftMax層,得到一個在上的注意力分布。通過以下公式得到這些向量的加權和,作為關系r*和問題q之間的交互:

其中為關系r*的嵌入,都是學得的參數,⊙是Hadamard乘。然后,使用用以下公式描述的感知機計算at的語義得分:

其中兩個W都是學得的參數。基于相似度,選擇at的概率值通過一個SoftMax層計算:

然后根據概率分布從A(St)中抽樣出行動At。注意到,KG中存在一對多的關系,故關系相同的候選行動將會被以相同度概率抽樣。

因此,以下算法展示了一個agent如何通過該策略網絡對給定的問題獲取一個決策軌跡,預測的回答為節點:

綜上,對于一個示例問題“Where was the father of Sylvia Brett’s other half born?”,本文的推理框架如下圖2:

圖 2

4.基于Potential的Reward Shaping

前面已經提到了弱監督帶來的獎勵的延后和稀疏問題,針對這個問題,比較便利的方法是對原始的MDP提供額外的獎勵,但這樣可能會使得agent被困在子目標中,無法達成真正的目標。因此,有文獻提出了基于potential的rewardshaping,文獻中提到,一個shaping reward function 是基于potential的指的是對所有的存在 ,其中s0指的是像終止狀態一樣的吸收狀態,γ是discountfactor。可以證明,當F是基于potential的時候,中的每個最有策略都是中的一個最優策略,反之亦然。

本文基于以上定理提出了一個基于potential函數的rewardshaping函數。?*用來衡量給定問題的多少語義信息被agent之前所做出的決策包含。這里,正確的決策指含KG中的一個關系,該關系能覆蓋到問題中的部分語義信息。本文的?*計算如下:

其中Qt是前一步中的每個詞向量的和,Ht是所編碼的決策歷史,其關系嵌入是用的與訓練的KG嵌入矩陣(TransE方法)。因此,該方法不需要除了KG結構信息之外的任何外部先驗知識,故可以用于其他領域。本文修改了原始的reward 函數,對于基于potential的rewardshaping函數 ,本文的reward函數為:

5.訓練

對于所有的參數θ,訓練目標為在所有問題-答案對上最大化預期reward:

其中η為discountfactor,D為訓練集,(q, a)是D中的一個問題-答案對。使用經典的策略梯度法(REINFORCE算法)優化。

實驗

本文在三個benchmark數據集上評估SRN的效果,分別是通用領域的PathQuestion (含PQ和PQL兩種)、足球領域的 WC2014 (其中單一關系問題集為WC-1H,2關系問題集為WC-2H,前面兩個集問題集的混合集為WC-M,合取型問題集為WC-C)和電影領域的METAQA (原數據集有純人工構建集Vanilla,也有使用機器翻譯得到的其他數據集,本文僅使用Vanilla和Vanilla-EU,EU指未標注topic-entity。)。數據集的細節如下表1。

Baseline有IRN、VRN、MemNN、KV-MemNN和MINERVA,其中MINERVA是一個使用RL的知識圖譜補全模型。

實現細節上,首先,詞嵌入用預訓練的嵌入初始化,KG嵌入使用基于TransE的預訓練結果,兩種嵌入的維數都是300。用于編碼問題的雙向GRU有2層,隱藏層維數為150。用于編碼歷史的單向GRU有3個300維的隱藏層。對GRU都使用dropout,dropout率為0.3。對于神經網絡種的層,使用Xavier初始化。對于基于potential的rewardshaping,discount factorγ為0.95,對于REINFORCE算法,本文將discountfactor η調節在(0.9, 1.0)之間。訓練時的beam size為1,即貪心搜索;測試時的beamsize則為32。對于參數優化,使用ADAM optimizer,初始學習率lr為0.001,使用驗證集上的表現來確定所有超參。(PQ, PQL, 和WC2014)的訓練/驗證/測試比為8:1:1,衡量在5次不同的劃分結果上的平均表現。對于METAQA,使用其標準劃分,但同樣做5次平均。METAQA論文種的模型和IRN模型都是給定了回答問題所需的三元組數量的(對應的數據集為PQ、PQL和METAQA),本文認為這是不現實的,因此本文混合了這些問題,得到了PQ-M、PQL-M、Vanilla-Mix和Vanilla-EU-Mix。

實驗結果如下表2和表3。

根據結果,可以看出SRN在來自不同領域的多關系問題上超越了所有baseline。本文認為這種差距是因為baseline都是考慮整個以topic entity為中心的子圖,而這可能會導致topic entity的T跳之內的其他knowledgeitem會誤導訓練和測試。注意到同樣使用RL的MINERVA在更復雜的問題上表現不好,本文認為這也是因為它考慮整個以topic-entity為中心的子圖,導致了reward的延后和稀疏問題。注意到所有的方法都在Vanilla-EU上表現更差,因為該數據集沒有標注topic entity,而topic entity鏈接是這一切的基礎。本文使用了一個topic-entity linker,而VRN使用了一個基于全連接神經網絡的topic entity recognizer,且將topic entity的處理和多跳推理放在一起同時訓練。然而實驗結果表明這種方法表現不好,尤其是在3跳問題上。本文認為這是由于VRN有reward的延后和稀疏問題,導致其設計的topic entity recognizer接收到了更少的正信號,因此訓練可能不充分。另外,注意到IRN-weak在PQL和Vanilla上表現不好,本文認為這可能是由于它所用的多任務訓練策略,即KG嵌入的訓練和其他QA參數的訓練交替進行,而這種策略在更大的KG上既花太多時間,又可能會讓損失函數誤導QA任務。

最后,本文還做了ablationstudy。首先,本文嘗試去掉了策略網絡中的注意力機制,結果如表2和表3。可以看出,沒有了注意力機制的模型在所要求的三元組數量未知的情況下表現遠不如原始SRN。然后,本文去掉了感知機,計算相似度改用余弦相似度。結果同樣見表2和表3,可以看見在PQL這樣的KG更大的數據集上表現不好。在Vanilla上,這樣的模型在所要求的三元組數量已知的情況下表現還行,但未知的情況下則表現下降許多。另外,本文還在6個三跳數據集評估了去掉基于potential的reward shaping的SRN的訓練過程,如圖3,圖種紅線是原始SRN在驗證集上的表現,藍線是去掉基于potential的reward shaping的SRN在驗證集上的表現。可以看出這一策略的確會加快收斂。

圖 3

總結

本文針對多關系的知識圖譜問答提出了一個基于深度強化學習的模型SRN,主要的特點為將多關系問答視為RL中的順序決策問題,使用beamsearch來顯著降低候選答案,使用注意力機制和神經網絡來決定當前步驟中應該關注問題中的哪個部分,最后,提出了基于potential的reward shaping策略緩解來弱監督帶來的reward的延后和稀疏問題。實驗證明了SRN的有效性。最后,本文還指出了SRN存在缺陷,即不能很好地回答推理路徑上含限制的問題,如“Which player is the highest in NBA?”。

?


?

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的论文浅尝 - WSDM20 | 基于弱监督及逐步推理的多关系知识图谱问答的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。