论文浅尝 | 利用图 Transformer 实现基于知识图谱的文本生成
論文筆記整理:譚亦鳴,東南大學博士生,研究方向為跨語言知識圖譜問答。
來源:NAACL2019
鏈接:https://arxiv.org/pdf/1904.02342.pdf
?
??? 本文關注如何從信息抽取結果(特別是知識圖譜)出發,生成連貫的多句文本。作者表示圖譜化的知識表示在計算中普遍存在,但由于其非層次,長距離依賴,結構多樣等特性,使得基于圖譜的文本生成成為一個巨大的挑戰。
?
動機
為了擺脫圖譜表示學習過程需要添加的線性/層次約束,有效利用起圖譜中的關系結構,作者提出一種新的Graph Transformer編碼器。
?
貢獻
1.????提出了一種Graph Transformer編碼方法用于知識圖譜表示學習
2.????提出一種將IE輸出轉換為圖結構用于編碼的過程
3.????構建了一個可復用的大型“圖譜-文本”對數據集
?
方法
Graph Transformer
????? 預先準備為了進行編碼,作者將圖譜重構為一種無標注的連接圖,實體和關系都為圖中的節點,下圖左為一般的知識圖譜三元組形式,右邊為重構的圖結構。可以看到,每個三元組都被替換為兩個“實體->關系/關系->實體”的有向圖,同時為了保留未連接實體之間的信息流(information flow),作者設置了一個全局結點G指向所有的實體節點。
?????? 最終得到的是一個全連接,無標注的圖G = (V, E),其中V表示圖中所有節點的列表(實體,關系,全局節點),E則是表示圖中各條邊的方向的鄰接矩陣。
???????????
Transformer 模型本文模型與圖注意力網絡(GAT)的思路相近,利用注意力機制,將相鄰節點的信息用于生成目標節點的隱狀態表示。但是GAT模型僅考慮圖譜中已出現相鄰節點的信息,本文提出的全局節點設定使得模型能夠利用更為全局的信息(可能存在的實體關聯,但并未出現在知識子圖中的潛在信息)
下圖是graph transformer模型的框架圖,結構上與普遍使用的transformer模型并無明顯區別,本文不再贅述。
??????????? Graph Attention的計算由各head的輸入加權拼接實現,過程如下:
End2End 文本生成模型
????? End2End 文本生成整體上還是由編碼和解碼兩個部分構成(如下圖),其中,編碼結果由兩個編碼輸入整合得到,分別為圖譜編碼(來自 graph transformer)與主題/標題(Title)編碼(來自biRNN)。個人理解,主題編碼的目的是給多句文本的生成提供一個順序指導,假設多句連貫文本本質上是一條一套三元組構成的路徑,主題編碼則是表示路徑的起點,以及生成過程必須經過的某些節點。
??????? 解碼部分則是由一個單向的RNN構成,生成序列的過程除了從詞表中選詞的softmax方式外,還添加了復制機制,這一做法可以避免低置信度文本生成(以及OOV情況)。
實驗
數據說明:
本文實驗所使用的訓練數據來自AGENDA(Abstract Generation Dataset,摘要生成數據集,科技論文領域),作者利用SciIE信息抽取系統,將摘要中的實體/關系識別出來,作為節點構建知識圖譜,過程如下圖所示。
AGENDA數據集的相關統計參數如下圖所示,作者將數據集切分為38720規模的訓練集,1000驗證集與1000測試集
?
實驗方案:
作者考慮了人工評價與自動評價兩種評測機制,自動評價方法選擇了常見的BLEU與METEOR,用于反映生成文本相對參考文本的n元文法相似程度,對比系統與結果如下表所示。
人工評價方面,則通過投票,對候選系統的輸出結果進行投票,可以看到本文方法在best評價的獲取數量是Rewriter(未引入知識圖譜的方法)的兩倍,可以說,圖譜化的知識相對非結構化文本提供了更清晰的知識結構。
??????? 更為直觀的是一些生成樣例,如下圖所示:
思考
??? 本文使用的圖譜由文本中的信息抽取構造而成,并不是對現有知識圖譜的應用,這一做法避免了圖譜中實體/關系節點表示形式與自然語言表達差異性帶來的影響,是一種“文本->圖譜->文本”的過程,圖譜中節點的表達都明顯傾向自然語言。換言之,這種圖譜結構的穩定性(歧義性)是需要討論的,此外,本方法直接用于已有圖譜(如DBpedia,YAGO)到文本的生成,則需要解決實體關系描述傾向非自然語言的情況。
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的论文浅尝 | 利用图 Transformer 实现基于知识图谱的文本生成的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 - JWS2020 | FEE
- 下一篇: 论文浅尝 - ACL2021 | 探讨跨