太强了!!!GNN + PLM→CIKM'22最佳论文
大家好,這里是NewBeeNLP。今天分享一篇 CIKM 2022 Best Paper ,文章和代碼鏈接如下。
論文標(biāo)題:
Commonsense Knowledge Base Completion with Relational Graph Attention Network and Pre-trained Language Model
論文鏈接:
https://dl.acm.org/doi/10.1145/3511808.3557564
代碼鏈接:
https://github.com/DeqingYang/CKBC
研究背景
常識在各種語料庫中很少被明確表達(dá),但對于機(jī)器理解自然語言非常有用。與傳統(tǒng)的知識庫(KG)不同,常識庫(CKG)中的節(jié)點(diǎn)通常由自由格式的文本表示,并且比傳統(tǒng)的 KG 規(guī)模更大,更稀疏。因此,這對傳統(tǒng)的知識庫補(bǔ)全(KBC)方法造成了挑戰(zhàn)。
最近,一些學(xué)者致力于開發(fā)常識庫補(bǔ)全(CKBC)模型,通過預(yù)測和推斷缺失的實(shí)體來提高 CKG 的覆蓋率。Malaviya 等人于 2020 年提出了一個(gè) CKBC 模型,圖卷積網(wǎng)絡(luò)(GCN)和預(yù)訓(xùn)練語言模型(PLM)的結(jié)合幫助他們的模型達(dá)到了最先進(jìn)的性能。然而,該模型存在以下缺點(diǎn):
1. 在 GCN 的信息傳播和聚合過程中,一個(gè)節(jié)點(diǎn)的所有鄰居節(jié)點(diǎn)都被同等看待。但事實(shí)上,CKG 中的所有鄰居節(jié)點(diǎn)應(yīng)該被賦予不同的權(quán)重。此外,GCN 的表示學(xué)習(xí)忽略了不同邊的語義信息。
2. 為了實(shí)現(xiàn)從 PLM 到 CKG 的遷移學(xué)習(xí),Malaviya 等人采用了一個(gè)掩碼任務(wù)來微調(diào) BERT。然而,掩碼任務(wù)只是針對 PLM 預(yù)訓(xùn)練的通用要求而提出的,并不十分適用于 CKBC。
為了解決這些問題,本文提出了一個(gè)新的 CKBC 模型。首先提出了一種關(guān)系圖注意力網(wǎng)絡(luò)的變體——RGAT,將邊信息和不同鄰居節(jié)點(diǎn)的權(quán)重編碼到三元組的結(jié)構(gòu)表示中。其次利用序列分類任務(wù)而不是掩碼任務(wù)來微調(diào) BERT,使得 BERT 中的外部知識能被更好地提煉為三元組的上下文表示,從而提高 CKBC 的性能。
網(wǎng)絡(luò)結(jié)構(gòu)
如圖 1 所示,本文提出的 CKBC 模型框架主要由 Encoder 和 Decoder 組成。在 Encoder 中,我們提出了一個(gè)序列分類任務(wù)來對 BERT 進(jìn)行微調(diào),以此生成 CKG 中三元組各元素的上下文表示。接下來,使用本文提出的 RGAT 學(xué)習(xí)三元組的結(jié)構(gòu)表示,然后與上下文表示相連接,在 Decoder 中用于預(yù)測給定三元組的得分。
2.1 Encoder模型
2.1.1 BERT微調(diào)模型
我們提出了序列分類任務(wù)來微調(diào)模型中的 BERT,因?yàn)樗m合于 CKBC 目標(biāo)。給定一個(gè)三元組 ,我們將 與特殊標(biāo)記 [CLS] 連接起來作為 BERT 的輸入,通過判斷輸入序列是否正確,BERT 可以充分融合三元組的語義信息,這個(gè)分類任務(wù)的概率分布表示為:
其中 是 [CLS] 的最終的隱藏層表示,而 是分類層的參數(shù)矩陣。然后我們使用交叉熵?fù)p失函數(shù)作為 BERT 的損失函數(shù):
通過微調(diào) BERT,我們從 BERT 的最后一個(gè)隱藏層獲得了三元組的上下文表示。
2.1.2 CKG致密化
為了更好地捕捉語義相近的實(shí)體之間的潛在關(guān)系,我們在將知識庫 G 輸入到后續(xù)的 RGAT 之前,首先將一些輔助邊添加到 G 中,但在 Decoder 中不會使用這些輔助邊。具體來說,兩個(gè)節(jié)點(diǎn)之間的語義相似性是根據(jù)它們從微調(diào)的 BERT 中獲得的上下文表示來計(jì)算的,如果這兩個(gè)節(jié)點(diǎn)的語義相似度大于閾值 τ,我們就在它們之間添加一條輔助邊。在本文,τ 被設(shè)定為 0.95,因此,122,618 條輔助邊被添加到 CKG 中。
2.1.3?RGAT模型
我們提出了基于圖注意網(wǎng)絡(luò)(GATs)的 RGAT,它考慮到了鄰居節(jié)點(diǎn)的權(quán)重和關(guān)系嵌入,以學(xué)習(xí)節(jié)點(diǎn)的結(jié)構(gòu)表示。給定一個(gè)三元組 ,該三元組在第 h 層中的向量表示通過下面的線性變換得到:
其中 為第 h 層的線性變換矩陣,|| 為連接符。以節(jié)點(diǎn) 作為當(dāng)前節(jié)點(diǎn),其與第 h 層鄰居節(jié)點(diǎn) 的注意力可以計(jì)算為:
然后,RGAT 中節(jié)點(diǎn) 在第 h 層的結(jié)構(gòu)表示為:
值得注意的是,在 RGAT 中進(jìn)行結(jié)構(gòu)表示的學(xué)習(xí)后,節(jié)點(diǎn)可能會失去其初始信息。為了解決這個(gè)問題,我們在 RGAT 的最后一層表示中添加了所有節(jié)點(diǎn)的初始嵌入:
為了學(xué)習(xí) RGAT 中第 h 層中關(guān)系的結(jié)構(gòu)表示,我們只使用如下所述的線性變換:
為了訓(xùn)練 RGAT,我們使用了 hinge loss 作為損失函數(shù):
2.2?Decoder模型
本論?使? ConvKB 作為 Decoder 解碼器,給定三元組 ,ConvKB 的評分函數(shù)可以描述為:
其中, 和 是共享的參數(shù),獨(dú)立于 ; 表示卷積算子;concat 表示一個(gè)拼接操作符。為了訓(xùn)練 ConvKB 模型,本文使用帶有 正則項(xiàng)的 soft-margin loss 作為目標(biāo)函數(shù):
實(shí)驗(yàn)結(jié)果
本文在 CN-100K 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),采用 MR、MRR 和 HIT@1/3/10 作為評價(jià)指標(biāo)。并且我們選取 DistMult、ComplEx、ConvE、ConvTransE、ConvKB、IndectivE 以及 MalaviyaModel 作為 baseline 模型。為了做消融實(shí)驗(yàn),使用 -BERT 和 -RGAT 分別表示沒有上下文表示和沒有結(jié)構(gòu)表示的模型變體,-SIM 表示沒有圖致密化的模型變體。具體結(jié)果如下表所示:
Ours 的模型性能優(yōu)于 Ours-BERT 表明將 BERT 的外部知識納入到 CKBC 的上下文表示中是非常重要的。Ours 的模型優(yōu)于 SOTA 基線 MalaviyaModel,不僅驗(yàn)證了本文模型中使用的 RGAT 比 MalaviyaModel 中的 GCN 更有效,而且還證明了我們 BERT 微調(diào)中的序列分類任務(wù)比 MalaviyaModel 中的掩碼任務(wù)更好。
事實(shí)上,Ours-BERT-SIM 只是在 ConvKB 中加入了 RGAT,而 Ours-BERT-SIM 比 ConvKB 有明顯的性能改進(jìn),證明了加入 RGAT 的意義。同時(shí)我們的模型又優(yōu)于 Ours-RGAT-SIM,表明由 RGAT 學(xué)習(xí)的結(jié)構(gòu)表示可以補(bǔ)充上下文信息,從而產(chǎn)生更好的 CKBC 模型。
案例分析
本文分別替換了 <city, IsA, place> 中的頭實(shí)體和尾實(shí)體,然后獲得以下五個(gè)模型排名前十的預(yù)測結(jié)果。
可以看到 Ours-SIM 表現(xiàn)最好,因?yàn)橛懈嗟恼_實(shí)體被預(yù)測出來且排名較高。頭實(shí)體預(yù)測結(jié)果中有 9 個(gè)正確的實(shí)體,其中原始頭實(shí)體 city 和原始尾實(shí)體 place 均排在第一位。MalaviyaModel 也正確地預(yù)測了原始頭實(shí)體 city 和尾實(shí)體 place,并與 Ours-SIM 一樣排名第一,但它所預(yù)測的正確實(shí)體數(shù)比 Ours-SIM 少。InductivE 正確預(yù)測了原始頭實(shí)體和尾實(shí)體,但預(yù)測的正確實(shí)體較少,且排名低于上述兩個(gè)模型。Ours-RGAT-SIM 預(yù)測正確的實(shí)體數(shù)量雖然與 InductivE 相同,但未能預(yù)測到原始頭實(shí)體 city。Ours-BERT-SIM 在五個(gè)模型中預(yù)測結(jié)果最差,但它仍然預(yù)測了原始尾實(shí)體 place。
總結(jié)
本文提出了一個(gè)新的 CKBC 模型,它結(jié)合了 RGAT 和通過序列分類任務(wù)微調(diào)后的 BERT。融合 RGAT 學(xué)到的結(jié)構(gòu)表示和 BERT 學(xué)到的上下文表示,本文模型中三元組的各元素表示得到了增強(qiáng),從而提高了 CKBC 的性能。
一起交流
想和你一起學(xué)習(xí)進(jìn)步!『NewBeeNLP』目前已經(jīng)建立了多個(gè)不同方向交流群(機(jī)器學(xué)習(xí) / 深度學(xué)習(xí) / 自然語言處理 / 搜索推薦 / 圖網(wǎng)絡(luò) / 面試交流 /?等),名額有限,趕緊添加下方微信加入一起討論交流吧!(注意一定o要備注信息才能通過)
總結(jié)
以上是生活随笔為你收集整理的太强了!!!GNN + PLM→CIKM'22最佳论文的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 华为鸿蒙harmonyos-面向全场,华
- 下一篇: ConvE,知识图谱嵌入(KGE)论文复