通过图注意力神经网络进行多智能体游戏抽象_[读论文] AttnPath: 将图注意力机制融入基于深度强化学习的知识图谱推理中...
- 論文原文:Incorporating Graph Attention Mechanism into Knowledge Graph Reasoning Based on Deep Reinforcement Learning
- 出版:EMNLP 2019
- 關(guān)鍵詞:基于路徑的知識(shí)圖譜推理,深度強(qiáng)化學(xué)習(xí),圖注意力機(jī)制,LSTM,知識(shí)圖譜補(bǔ)全
摘要
知識(shí)圖譜(KG)推理旨在找到關(guān)系的推理路徑,以解決 KG中的不完整性問(wèn)題。許多以前的基于路徑的方法(例如PRA和DeepPath)都缺少記憶組件,或者陷入了訓(xùn)練過(guò)程中。因此,它們的表現(xiàn)總是依賴于良好的訓(xùn)練。
在本文中,我們提出了一個(gè)基于 AttnPath 的基于深度強(qiáng)化學(xué)習(xí)的模型,該模型將 LSTM 和圖注意力機(jī)制作為記憶組件。我們定義兩個(gè)指標(biāo),平均選擇率(MSR)和平均替換率(MRR),以定量地衡量學(xué)習(xí)查詢關(guān)系的難度,并在強(qiáng)化學(xué)習(xí)的框架下利用它們來(lái)微調(diào)模型。同時(shí),提出了一種新的強(qiáng)化學(xué)習(xí)機(jī)制,即通過(guò)強(qiáng)制智能體每走一步來(lái)避免智能體不斷停滯在同一實(shí)體節(jié)點(diǎn)上?;诖瞬僮?#xff0c;所提出的模型不僅可以擺脫預(yù)訓(xùn)練過(guò)程,而且與其他模型相比也能達(dá)到最新的性能。
我們?cè)诰哂胁煌蝿?wù)的 FB15K-237 和 NELL995 數(shù)據(jù)集上測(cè)試了我們的模型。大量的實(shí)驗(yàn)表明,我們的模型在許多當(dāng)前最先進(jìn)的方法中均有效且具有競(jìng)爭(zhēng)力,并且在實(shí)踐中也表現(xiàn)良好。
1 介紹
主要有三種方式執(zhí)行知識(shí)圖譜推理,基于規(guī)則、基于嵌入和基于路徑的方法。同時(shí),知識(shí)圖譜推理提供了一種視角:將深度強(qiáng)化學(xué)習(xí)帶入到預(yù)測(cè)缺失鏈接到任務(wù)中。
例如 DeepPath,一個(gè)基于路徑的方法,它是第一個(gè)將深度強(qiáng)化學(xué)習(xí)集成到知識(shí)圖譜推理任務(wù)中的工作。相比于 PRA,它仍然有一些缺陷: - 缺乏記憶組件,導(dǎo)致需要預(yù)訓(xùn)練。預(yù)訓(xùn)練要求提供許多已知的或存在的路徑用于模型訓(xùn)練。這種暴力操作可能使模型在用于預(yù)訓(xùn)練的路徑上過(guò)擬合。 - 訓(xùn)練過(guò)程中為知識(shí)圖譜中不同的關(guān)系設(shè)置同樣的超參數(shù)是不合理的,它忽略了實(shí)體之間連接的多樣性。 - 當(dāng)智能體選擇無(wú)效的路徑時(shí),它將停止并重新選擇,可能導(dǎo)致不斷選擇無(wú)效的路徑并最終卡在一個(gè)結(jié)點(diǎn)上。
因此,在該文中,作者提出一種新的深度強(qiáng)化學(xué)習(xí)模型和一個(gè)算法,試圖解決上述問(wèn)題。該方法屬于基于路徑的框架中。該文的貢獻(xiàn)主要是:
- 提出一種模型 AttnPath,集成 LSTM 和圖注意力作為記憶組件,并不再需要預(yù)訓(xùn)練。
- 定義了兩個(gè)度量標(biāo)準(zhǔn)(MSR和MRR),以定量地度量學(xué)習(xí)關(guān)系的可替換路徑的難度。該度量用于微調(diào)模型。
- 提出了一種新的強(qiáng)化學(xué)習(xí)機(jī)制,通過(guò)強(qiáng)制智能體每走一步來(lái)避免智能體不斷停滯在同一實(shí)體節(jié)點(diǎn)上。
3 AttnPath:集成記憶組件
3.1 知識(shí)圖譜推理的強(qiáng)化學(xué)習(xí)框架
因?yàn)槭褂脧?qiáng)化學(xué)習(xí)作為序列決策模型的訓(xùn)練算法,作者首先介紹知識(shí)圖譜推理中的強(qiáng)化學(xué)習(xí)框架的基本元素。包括環(huán)境、狀態(tài)、行為和獎(jiǎng)勵(lì)。
環(huán)境:在該任務(wù)中,環(huán)境指的是整個(gè)知識(shí)圖譜,排除查詢關(guān)系和逆關(guān)系。環(huán)境在整個(gè)訓(xùn)練過(guò)程中保持不變。 狀態(tài):智能體的狀態(tài)由三部分拼接而成,嵌入部分、LSTM 部分、圖注意力部分。 不同于 DeepPath 使用 TransE 作為知識(shí)圖譜嵌入模型,AttnPath 使用 TransD 模型。狀態(tài)的嵌入部分可描述為:
狀態(tài)的 LSTM 部分和圖注意力部分在后文描述。
行為:對(duì)于知識(shí)圖譜推理任務(wù),一個(gè)行為指的是一個(gè)智能體選擇關(guān)系路徑前進(jìn)。基于深度強(qiáng)化學(xué)習(xí)的框架,它根據(jù)模型提供的概率選擇關(guān)系。行為可能是有效的或無(wú)效的。有效的行為表示有輸出關(guān)系是與當(dāng)前實(shí)體相連的關(guān)系,而無(wú)效的關(guān)系表示該實(shí)體沒有對(duì)應(yīng)的關(guān)系。
獎(jiǎng)勵(lì):獎(jiǎng)勵(lì)是根據(jù)行為是否有效、或者一系列行為是否能在有限步驟內(nèi)導(dǎo)向正確的尾實(shí)體,而給予智能體的反饋。
對(duì)于無(wú)效的行為,獎(jiǎng)勵(lì)是 -1. 對(duì)于不引向真實(shí)實(shí)體的行為,作者選擇 ConvE 的輸出作為獎(jiǎng)勵(lì)。因?yàn)?ConvE 輸出概率,在 (0, 1) 之間,作者使用對(duì)數(shù)操作將獎(jiǎng)勵(lì)的擴(kuò)大并提升可辨別性。
對(duì)于引向真實(shí)實(shí)體的行為,即成功的事件,獎(jiǎng)勵(lì)是全局準(zhǔn)確性、路徑高效性、路徑多樣性的加權(quán)和。按照慣例,將全局準(zhǔn)確性設(shè)置為 1,并且路徑效率是路徑長(zhǎng)度的倒數(shù),因?yàn)槲覀児膭?lì)智能體盡可能少地走步。路徑多樣性定義為:
其中 |F| 是找到的路徑的數(shù)量,p 是路徑的嵌入,簡(jiǎn)單地定義為路徑中所有關(guān)系嵌入的和。
上面的定義保證了有效動(dòng)作的獎(jiǎng)勵(lì)總是大于無(wú)效動(dòng)作的獎(jiǎng)勵(lì),而成功的事件的獎(jiǎng)勵(lì)總是大于不成功的事件的獎(jiǎng)勵(lì)。
3.2 LSTM 和圖注意力作為記憶組件
在模型中,作者使用三層 LSTM,使智能體能記憶并從記憶中學(xué)習(xí)之前執(zhí)行過(guò)的行為。將第 t 步的隱藏狀態(tài)是記為 h_t,初始隱藏狀態(tài)為 h0,我們可得:
這就是狀態(tài)的 LSTM 部分。
通常而言,一個(gè)實(shí)體有多個(gè)方面,例如表示一個(gè)人的實(shí)體可能有職業(yè)和家庭成員兩種角色。對(duì)于不同的查詢關(guān)系,較好的方式是讓智能體關(guān)注于與查詢關(guān)系更加相關(guān)的關(guān)系與鄰居。
因此,作者引入了圖注意力機(jī)制。GAT 是在實(shí)體結(jié)點(diǎn)的自注意力。圖注意力機(jī)制部分的描述如下:
智能體選擇一個(gè)動(dòng)作并獲得獎(jiǎng)勵(lì)。在成功到達(dá)尾部實(shí)體或未達(dá)到指定的次數(shù)后,整個(gè)事件的獎(jiǎng)勵(lì)將用于更新所有參數(shù)。使用 REINFORCE 算法完成優(yōu)化,并使用以下隨機(jī)梯度更新θ:
上面圖 1 展示了強(qiáng)化學(xué)習(xí)框架,相比于 DeepPath 的關(guān)鍵創(chuàng)新是集成了 LSTM 和圖注意力機(jī)制。讀到這里,請(qǐng)?jiān)僮x一遍該論文原文的標(biāo)題。
3.3 平均選擇/替換率
對(duì)于不同的查詢關(guān)系,需要為每個(gè)查詢模型訓(xùn)練不同的模型。實(shí)際上,每種關(guān)系的難度值都完全不同。某些關(guān)系可能具有更多的替換關(guān)系,這表明智能體可以輕松選擇從頭部實(shí)體到尾部的替換路徑。因此,我們?cè)谶@里發(fā)明了兩個(gè)指標(biāo),均值選擇率(MSR)和均值替換率(MRR),以定量地衡量每個(gè)關(guān)系的難度值。
較低的 MSR 表示更難學(xué)習(xí)給定的關(guān)系,因?yàn)榕c該關(guān)系相連的實(shí)體可能有更多的語(yǔ)義層面。
較高的 MRR 表示關(guān)系可能有更多的替代關(guān)系,所以它更容易學(xué)習(xí)因?yàn)橹悄荏w可以直接選擇替代關(guān)系來(lái)到達(dá)終點(diǎn)。
該模型中使用了三種方法來(lái)防止過(guò)擬合:L2 正則化、dropout、行為 dropout。但是,對(duì)于易于學(xué)習(xí)的關(guān)系(較高的MSR和MRR),我們希望施加更多的正規(guī)化以鼓勵(lì)智能體找到更多不同的路徑,而又不會(huì)過(guò)分適應(yīng)即時(shí)的成功。另外,對(duì)于較難學(xué)習(xí)的關(guān)系(MSR和MRR較低),我們最好將重點(diǎn)放在尋找路徑的成功率上,因此應(yīng)減少正則化。
為簡(jiǎn)單起見,我們使用指數(shù)計(jì)算關(guān)系r的難度系數(shù)。它定義為 exp(MSR(r) + MRR(r)),并分別乘以三種正則化方法的基本速率。正則化方法的基本速率基于 KG,在同一 KG 中的所有關(guān)系之間共享。
3.4 整體訓(xùn)練算法
基于提出的模型,我們提出了一種新的訓(xùn)練算法,如算法 1 所示。
作者對(duì)算法的貢獻(xiàn)之一是,當(dāng)智能體選擇無(wú)效路徑時(shí),模型不僅會(huì)對(duì)其進(jìn)行懲罰,還會(huì)強(qiáng)制其選擇有效關(guān)系以向前邁進(jìn)。來(lái)自神經(jīng)網(wǎng)絡(luò)的概率在所有有效關(guān)系中均被歸一化,這反過(guò)來(lái)又影響了強(qiáng)制行為的概率。
初始化之后,第6行根據(jù)網(wǎng)絡(luò)的輸出對(duì)動(dòng)作進(jìn)行采樣。當(dāng)智能體選擇無(wú)效動(dòng)作時(shí),將執(zhí)行第7到10行,而第9到10行則迫使智能體向前移動(dòng)。當(dāng)智能體選擇有效動(dòng)作時(shí),將執(zhí)行第12行。第19、22和25行使用獎(jiǎng)勵(lì)-1,Rtotal和Rshaping分別更新無(wú)效動(dòng)作,成功事件中的有效動(dòng)作和不成功事件中的有效動(dòng)作的參數(shù)。
4 實(shí)驗(yàn)
作者使用關(guān)系預(yù)測(cè)和鏈接預(yù)測(cè)兩個(gè)任務(wù)對(duì)該模型做實(shí)驗(yàn),并比較了和 DeepPath 的表現(xiàn)差距。
5 結(jié)論與未來(lái)工作
在本文中,作者提出了 AttnPath,這是一種基于 DRL 的 KG 推理任務(wù)模型,該模型將 LSTM 和圖注意力機(jī)制作為記憶組件,以減輕模型的預(yù)訓(xùn)練。
作者還發(fā)明了兩個(gè)指標(biāo) MSR 和 MRR 來(lái)衡量關(guān)系的學(xué)習(xí)難度,并將其用于更好地微調(diào)訓(xùn)練超參數(shù)。
作者改進(jìn)了訓(xùn)練過(guò)程,以防止智能體陷入毫無(wú)意義的狀態(tài)。
定性實(shí)驗(yàn)和定量分析表明,作者的方法明顯優(yōu)于DeepPath和基于嵌入的方法,證明了其有效性。
在未來(lái),作者有興趣于使用多任務(wù)學(xué)習(xí),使模型能同時(shí)學(xué)習(xí)多個(gè)查詢關(guān)系。作者也感興趣于研究如何使用 GAT、MSR 和 MRR 于其他 KG 相關(guān)的任務(wù),例如 KG 的表示、關(guān)系聚類和 KBQA。
總結(jié)
以上是生活随笔為你收集整理的通过图注意力神经网络进行多智能体游戏抽象_[读论文] AttnPath: 将图注意力机制融入基于深度强化学习的知识图谱推理中...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: python列表功能默写_Python
- 下一篇: 列名或所提供值的数目与表定义不匹配_关于