當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 利用图 Transformer 实现基于知识图谱的文本生成

發布時間：2024/7/5 编程问答 24 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | 利用图 Transformer 实现基于知识图谱的文本生成小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文筆記整理：譚亦鳴，東南大學博士生，研究方向為跨語言知識圖譜問答。

來源：NAACL2019

鏈接：https://arxiv.org/pdf/1904.02342.pdf

??? 本文關注如何從信息抽取結果（特別是知識圖譜）出發，生成連貫的多句文本。作者表示圖譜化的知識表示在計算中普遍存在，但由于其非層次，長距離依賴，結構多樣等特性，使得基于圖譜的文本生成成為一個巨大的挑戰。

動機

為了擺脫圖譜表示學習過程需要添加的線性/層次約束，有效利用起圖譜中的關系結構，作者提出一種新的Graph Transformer編碼器。

貢獻

1.????提出了一種Graph Transformer編碼方法用于知識圖譜表示學習

2.????提出一種將IE輸出轉換為圖結構用于編碼的過程

3.????構建了一個可復用的大型“圖譜-文本”對數據集

方法

Graph Transformer

????? 預先準備為了進行編碼，作者將圖譜重構為一種無標注的連接圖，實體和關系都為圖中的節點，下圖左為一般的知識圖譜三元組形式，右邊為重構的圖結構。可以看到，每個三元組都被替換為兩個“實體->關系/關系->實體”的有向圖，同時為了保留未連接實體之間的信息流（information flow），作者設置了一個全局結點G指向所有的實體節點。

?????? 最終得到的是一個全連接，無標注的圖G = (V, E)，其中V表示圖中所有節點的列表（實體，關系，全局節點），E則是表示圖中各條邊的方向的鄰接矩陣。

???????????

Transformer 模型本文模型與圖注意力網絡（GAT）的思路相近，利用注意力機制，將相鄰節點的信息用于生成目標節點的隱狀態表示。但是GAT模型僅考慮圖譜中已出現相鄰節點的信息，本文提出的全局節點設定使得模型能夠利用更為全局的信息（可能存在的實體關聯，但并未出現在知識子圖中的潛在信息）

下圖是graph transformer模型的框架圖，結構上與普遍使用的transformer模型并無明顯區別，本文不再贅述。

??????????? Graph Attention的計算由各head的輸入加權拼接實現，過程如下：

End2End 文本生成模型

????? End2End 文本生成整體上還是由編碼和解碼兩個部分構成（如下圖），其中，編碼結果由兩個編碼輸入整合得到，分別為圖譜編碼（來自 graph transformer）與主題/標題（Title）編碼（來自biRNN）。個人理解，主題編碼的目的是給多句文本的生成提供一個順序指導，假設多句連貫文本本質上是一條一套三元組構成的路徑，主題編碼則是表示路徑的起點，以及生成過程必須經過的某些節點。

??????? 解碼部分則是由一個單向的RNN構成，生成序列的過程除了從詞表中選詞的softmax方式外，還添加了復制機制，這一做法可以避免低置信度文本生成（以及OOV情況）。

實驗

數據說明：

本文實驗所使用的訓練數據來自AGENDA（Abstract Generation Dataset，摘要生成數據集，科技論文領域），作者利用SciIE信息抽取系統，將摘要中的實體/關系識別出來，作為節點構建知識圖譜，過程如下圖所示。

AGENDA數據集的相關統計參數如下圖所示，作者將數據集切分為38720規模的訓練集，1000驗證集與1000測試集

實驗方案：

作者考慮了人工評價與自動評價兩種評測機制，自動評價方法選擇了常見的BLEU與METEOR，用于反映生成文本相對參考文本的n元文法相似程度，對比系統與結果如下表所示。

人工評價方面，則通過投票，對候選系統的輸出結果進行投票，可以看到本文方法在best評價的獲取數量是Rewriter（未引入知識圖譜的方法）的兩倍，可以說，圖譜化的知識相對非結構化文本提供了更清晰的知識結構。

??????? 更為直觀的是一些生成樣例，如下圖所示：

思考

??? 本文使用的圖譜由文本中的信息抽取構造而成，并不是對現有知識圖譜的應用，這一做法避免了圖譜中實體/關系節點表示形式與自然語言表達差異性帶來的影響，是一種“文本->圖譜->文本”的過程，圖譜中節點的表達都明顯傾向自然語言。換言之，這種圖譜結構的穩定性（歧義性）是需要討論的，此外，本方法直接用于已有圖譜（如DBpedia，YAGO）到文本的生成，則需要解決實體關系描述傾向非自然語言的情況。

OpenKG

開放知識圖譜（簡稱 OpenKG）旨在促進中文知識圖譜數據的開放與互聯，促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文，進入 OpenKG 博客。

創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的论文浅尝 | 利用图 Transformer 实现基于知识图谱的文本生成的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：论文浅尝 - JWS2020 | FEE
下一篇：论文浅尝 - ACL2021 | 探讨跨