日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文学习2-Incorporating Graph Attention Mechanism into Knowledge Graph Reasoning Based on Deep Reinforce

發布時間:2024/7/5 编程问答 51 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文学习2-Incorporating Graph Attention Mechanism into Knowledge Graph Reasoning Based on Deep Reinforce 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

  • 摘要
  • 介紹
  • 相關工作
  • 方法
    • Mean Selection Rate (MSR) and Mean Replacement Rate (MRR

Incorporating Graph Attention Mechanism into Knowledge Graph Reasoning Based on Deep Reinforcement Learning

摘要

知識圖(KG)推理的目的是尋找關系的推理路徑,以解決KG中的不完全性問題。以前的許多基于路徑的方法,如PRA和DeepPath,要么缺乏記憶部件,要么在訓練中卡住。因此,他們的表現總是依賴于良好的訓練。本文提出了一種基于AttnPath的深度強化學習模型,該模型將LSTM和圖注意機制作為記憶組件。我們定義了平均選擇率(MSR)和平均替換率(MRR)兩個指標來定量衡量查詢關系的學習難度,并利用它們在強化學習框架下對模型進行微調。同時,提出了一種新的增強學習機制使agent每一步都向前走,以避免agent在同一實體節點上不斷陷入停滯。在此基礎上,該模型不僅可以擺脫訓練前的訓練過程,而且與其他模型相比,可以達到最先進的性能。我們使用不同的任務在FB15K-237和NELL- 995數據集上測試我們的模型。大量的實驗表明,該模型與現有的許多最先進的方法相比是有效的和有競爭力的,并且在實踐中表現良好。

介紹

  • 推理的方法

    • 基于規則
    • 基于路徑
    • 基于嵌入
      同時,它提供了一個新的視角,將深度強化學習(Deep Reinforcement Learning, DRL)引入到預測缺失環節的任務中,如DeepPath (Xiong et al., 2017),這是一種基于路徑的方法。DeepPath是第一個將DRL整合到KG推理中的作品。與PRA相比,它取得了顯著的改進,但仍然存在一些缺點。首先,它缺少記憶部件,因此需要預先培訓。訓練前的操作需要為模型訓練提供許多已知(或存在)的路徑。這種蠻力操作可能會使模型在預先訓練的給定路徑上過度擬合。其次,在訓練時對KG中不同的關系設置相同的超參數是不合適的,忽略了實體之間連接的多樣性。最后,當代理選擇了一個無效的路徑時,它會停止并重新選擇,這會導致不斷地選擇這個無效的路徑,最后卡在一個節點上。因此,本文針對上述不足,提出了一種新的深度強化學習模型和算法。該模型也屬于基于路徑的框架。我們的貢獻可以總結如下
  • DRL的缺陷

    • 缺少記憶部件,需要預先訓練
      • 訓練前的操作需要為模型訓練提供許多已知(或存在)的路徑–》過擬合
    • 不同關系超參數不同,忽略了實體之間連接的多樣性
    • 當代理選擇了一個無效的路徑時,它會停止并重新選擇–卡住
  • 本文的貢獻

    • LSTM+圖attention作為記憶組件,不用再預訓練了
    • 定義了兩個度量標準(MSR和MRR),以定量地度量學習關系的可替換路徑的難度,這些可替換路徑用于對模型進行微調。
    • 提出了一種新的增強學習機制,通過強制agent每一步都向前走來避免agent在同一實體節點上不斷陷入停滯。

相關工作

到目前為止,已經有許多工作被提出來解決KG不完全的問題。

  • 基于規則的方法,如
    • ProPPR (Wang and Cohen, 2016)和Neural LP (Yang et al., 2017),通過人工或數學邏輯規則生成推理規則,然后根據現有的三元組將其應用于填補缺失的環節。雖然這類方法有堅實的數學背景,但它們很難擴展到大型的kg,因為它們直接操作符號,而可能的推理路徑的數量與實體的數量呈指數關系。
  • 基于嵌入的方法,如
    • TransE (Bordes et al., 2013)和TransR (Lin et al., 2015),將實體和關系映射到低維連續的向量空間中,獲取實體和關系之間的距離特征。然后,通過比較兩個訓練實體嵌入和查詢關系嵌入之間的距離來判斷查詢關系是否存在。這種方法需要KG中的所有三元組都參與訓練,只適用于單跳推理。
  • 基于路徑的,如
    • PRA (Lao et al., 2011)和DeepPath (Xiong et al., 2017),訓練一個agent在一個KG上導航,找到某個關系的可替換路徑,然后將其作為下游任務的特征。路徑排序算法(PRA)是第一個基于路徑的推理方法。
    • Neelakantan等人開發了一個基于RNN的組合模型,該模型非原子性地組合了一條路徑的含義和多跳關系連接的原因(Neelakantan et al., 2015)。
    • Guu等人提出了一種軟邊遍歷算子,該算子可以遞歸地應用于預測路徑,減少TransE和TransR等單跳KG完井方法面臨的級聯傳播誤差(Guu et al., 2015)。
    • Toutanova等人提出了一種動態規劃算法,該算法將所有有界長度的關系路徑合并到一個KG中,并對組合路徑表示中的關系和中間節點進行建模(Toutanova等人,2016)。這樣的表示可以幫助生成更多高質量的推理路徑。
    • Das等人將DeepPath (Xiong等,2017)改進為MINERVA (Das等,2018),后者從QA s的角度看待KG。它去掉了預訓練,引入LSTM來記憶以前走過的路徑,并訓練一個代理在某個實體上運行,如果它相信這個實體是正確的答案。
    • Lin等人通過引入獎勵形成和行動退出來改進這兩種方法(Lin et al., 2018)。獎勵塑造用動態懲罰代替無用選擇的固定懲罰,既可以基于基于邊緣的預訓練嵌入,如TransE,也可以基于基于概率的嵌入,如ConvE (Dettmers et al., 2018)。而action dropout則隨機地掩蓋了一定比例的有效action,以減少查詢關系的不相關路徑。
    • DIVA (Chen et al., 2018)將路徑作為潛在變量,將關系作為觀測變量,建立變量推理模型,完成KG推理任務。它還使用波束搜索來擴大搜索范圍。
    • M-Walk (Shen et al., 2018)利用另一種稱為蒙特卡羅樹搜索(Monte Carlo Tree Search, MCTS)的RL算法來解決稀疏獎勵問題。注意機制首次被引入多跳KG推理中(Wang et al., 2018)。但是,它只計算查詢嵌入的注意權重和所有找到的路徑嵌入。它們被用來幫助判斷vanilla模型找到的答案是否正確。

方法

  • 由于我們使用強化學習(RL)作為序列決策模型的訓練算法,我們首先在KG推理中引入RL框架的基本元素,包括環境、狀態、動作和獎勵。

  • 環境:在本任務中,環境指的是整個KG,不包括查詢關系及其逆。整個培訓過程環境保持一致

  • 狀態:agent的狀態由三個部分連接:

    • 嵌入部分、
      • deepPath中用了TransE,這里用TransD(映射到關系所帶的向量空間中
      • e′=(rpep′+I)emt=(et′,etarget′?et′)e'=(r_pe_p'+I)e\\m_t=(e'_t,e'_{target}-e_t')e=(rp?ep?+I)emt?=(et?,etarget??et?)
    • LSTM部分
      • ht=LSTM(ht?1,mt)h_t=LSTM(h_{t-1},m_t)ht?=LSTM(ht?1?,mt?)
    • 圖形注意部分
  • 動作:選哪個關系(邊)走

    • 有關系-有效邊
    • 無關系-無效邊
  • 獎勵

    • 一步的無效操作:-1
    • 可以獲得全局解的(一整條路徑):convE(a series of actions can lead to ground truth)
    • 獎勵是全局精度、路徑效率和路徑多樣性的加權和。根據約定,全局精度設置為1,路徑效率為路徑長度的倒數,因為我們鼓勵代理盡可能少的步進。(和DeepPath一樣)
  • 使用注意力機制Graph Attention mechanism (GAT)

    • self-attention在實體層
    • attention權重用一層前饋神經網絡訓練
    • αij=LeakyReLU(aT(Wei′,Wej′)只計算它和它的鄰居,j是與i相鄰的節點,然后normalizeαij=αijΣk∈Niαikai=Σk∈NiαikWeksi,t=[mi,t;ht;at]\alpha_{ij}=LeakyReLU(a^T(W_{ei'},W_{ej'})\\只計算它和它的鄰居,j是與i相鄰的節點,然后normalize\\\alpha_{ij}=\frac{\alpha_{ij}}{\Sigma_{k\in N_i} \alpha_{ik}}\\a_i=\Sigma_{k\in N_i}\alpha_{ik}W_{e_k}\\s_{i,t}=[m_{i,t};h_t;a_t]αij?=LeakyReLU(aT(Wei?,Wej?jinormalizeαij?=ΣkNi??αik?αij??ai?=ΣkNi??αik?Wek??si,t?=[mi,t?;ht?;at?]
    • 然后輸入一個三層前饋神經網絡,其最終輸出是一個長度等于所有關系的數量(以KG為單位)的Softmax概率。代理選擇一個動作并獲得獎勵。當它成功到達尾部實體或在指定次數內沒有到達時,整個事件的獎勵將用于更新所有參數。

Mean Selection Rate (MSR) and Mean Replacement Rate (MRR

對于不同的查詢關系,需要為每個查詢關系訓練不同的模型。而在實踐中,每個關系的難度值都是不同的。某些關系可能具有更多的替換關系,這表明agent可以很容易地選擇從head實體到tail的替換路徑。因此,我們發明了兩個指標,平均選擇率(MSR)和平均替代率。在這里,定量地測量每個關系的不同值。

較低的MSR表示學習r比較困難,因為與關系r相關的實體可能有更多方面。

較高的MRR表示一個關系可能有更多的替換關系,因此更容易學習,因為代理可以直接選擇一個替代關系來到達目的地。在我們的模型中,我們有三種方法來防止過度擬合:L2正則化、dropout和action dropout。然而,對于比較容易學習的關系(高MSR和MRR),我們希望實施更多的正規化,以鼓勵代理尋找更多樣化的路徑,而不是過度擬合立即成功。否則,對于較難學習的關系(MSR和MRR較低),我們最好關注路徑找到的成功率,因此我們應該減少正規化。
為簡單起見,我們使用指數來計算關系r的難度系數。它被定義為exp(MSR?+MRR?),并分別乘以三種正則化方法的基本速率。正則化方法的基本速率是基于KG的,在相同KG中的所有關系之間共享。

在此基礎上,我們提出了一種新的訓練算法,如算法1所示。在我們的算法中,我們的貢獻之一是,**當代理選擇了一個無效路徑時,我們的模型不僅懲罰了它,而且還迫使它選擇一個有效的關系來前進。**神經網絡的概率在所有有效關系上被歸一化,這些有效關系反過來又決定了強制動作的概率。初始化之后,第6行根據網絡的輸出對操作進行采樣。當代理選擇了一個無效的操作時,第7行10被執行,第9行10強制代理前進。當代理選擇一個有效的操作時,執行第12行。22和25行19日更新參數無效的行為,有效的行動成功的事件,和有效的行動在一個不成功的事件,分別與獎賞-1,Rtotal Rshaping。

總結

以上是生活随笔為你收集整理的论文学习2-Incorporating Graph Attention Mechanism into Knowledge Graph Reasoning Based on Deep Reinforce的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。