日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

PGN: 指针生成网络(Get To The Point: Summarization with Pointer-Generator Networks)

發(fā)布時間:2024/1/8 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 PGN: 指针生成网络(Get To The Point: Summarization with Pointer-Generator Networks) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

  • 1 引言
  • 2 本文模型
    • 2.1 Seq2Seq 注意力模型
    • 2.2 指針生成網(wǎng)絡(luò)
    • 2.3 覆蓋機制(Coverage mechanism)

Reference
1. Get To The Point: Summarization with Pointer-Generator Networks


seq2seq模型可用于文本摘要(并非簡單地選擇、重排原始文本的段落),然后這些模型有兩個缺點:不易關(guān)注真實細節(jié),以及傾向于生成重復(fù)文本

本文提出一種新穎的架構(gòu):使用兩種方式增強標準的seq2seq注意力模型。第一,使用混合指針生成網(wǎng)絡(luò),利用指針從原文精確地復(fù)制單詞,同時保留生成器產(chǎn)生新單詞的能力。第二,使用覆蓋機制跟蹤哪些單詞已經(jīng)被摘取,避免生成重復(fù)文本。

1 引言

文本摘要任務(wù)旨在輸出僅包含原文主要信息的壓縮文本,大致具有兩種方法:抽取式摘要式。抽取式方法直接抽取段落原文,而摘要式方法可能生成一些原文中并非出現(xiàn)的單詞或短語,類似于人類寫的摘要。

抽取式方法相對容易,因為直接抽取原文大段文本,可保證語法和準確性。從另一個角度來說,模型的經(jīng)驗?zāi)芰τ谏筛哔|(zhì)量摘要至關(guān)重要,如改寫、總結(jié),以及結(jié)合現(xiàn)實世界知識,僅摘要式框架具備這種可能性。

摘要式總結(jié)較為困難,先前模型大多采用抽取式,最近提出的seq2seq模型使得摘要式總結(jié)成為可能。盡管seq2seq模型具備很大潛力,但它們也暴露了一些不良行為,如無法準確復(fù)制真實細節(jié)無法處理OOV問題,以及傾向于自我重復(fù)

本文提出一種網(wǎng)絡(luò)結(jié)構(gòu),在多句上下文總結(jié)中解決以上三個問題。最近的摘要式模型主要關(guān)注與標題生成(將一兩句話縮減至單一標題),我們相信長文本摘要挑戰(zhàn)與實用性并存,本文使用CNN/Daily Mail數(shù)據(jù)集,其包含新聞文章(平均39句)和多句摘要,結(jié)果顯示,本文提出的模型高于SOTA模型2個ROUGE點。

本文的混合指針生成模型通過指針從原文中復(fù)制單詞,文本生成準確性提高,并解決了OOV問題,同時保留生成原文中未出現(xiàn)的新單詞的能力,該網(wǎng)絡(luò)可視為摘要方法和抽取方法之間的平衡,類似于應(yīng)用于短文本摘要的 CopyNetForced-Attention Sentence Compression 模型。我們提出一種新型的覆蓋向量(源于NMT,可用于跟蹤和控制原文的覆蓋率),結(jié)果表明,覆蓋機制對于消除重復(fù)性非常有效。

2 本文模型

2.1 Seq2Seq 注意力模型

本文基線模型類似于圖2中的模型:

文中各token依次輸入至單層BiLSTM,網(wǎng)絡(luò)輸出編碼器隱狀態(tài)序列 h i h_i hi?,在時間步 t t t,解碼器(單層單向LSTM)接收到先前單詞的詞向量(訓練階段為參考摘要的前一個單詞,測試階段為解碼器上一時刻輸出的單詞),輸出隱狀態(tài) s t s_t st?

基于Bahdanau et al.(2015)注意力機制,計算注意力分布:

式中, v , W h , W s , b attn v, W_h, W_s, b_\text{attn} v,Wh?,Ws?,battn?為可學習的參數(shù)。注意力分布可看作為源單詞的概率分布,告訴解碼器應(yīng)關(guān)注哪些單詞生成下一個單詞。接著,使用注意力機制加權(quán)編碼器隱狀態(tài),輸出上下文向量 h t ? h_t^* ht??:

上下文向量可看作為固定維度的、當前時間步從源中讀取的內(nèi)容,將其與解碼器隱狀態(tài) s t s_t st?拼接,輸入至兩層線性網(wǎng)絡(luò),產(chǎn)生詞典概率分布 P vocab P_\text{vocab} Pvocab?

式中, V , V ′ , b , b ′ V, V', b, b' V,V,b,b為可學習參數(shù)。 P vocab P_\text{vocab} Pvocab?為詞典中所有單詞的概率分布,告知我們預(yù)測單詞 w w w的最終概率分布:

訓練階段,時間步 t t t的損失為目標單詞 w t ? w_t^* wt??的負對數(shù)似然:

整個序列的全部損失為

2.2 指針生成網(wǎng)絡(luò)

本文模型為基線模型seq2seq和指針網(wǎng)絡(luò)的混合,其允許通過指針復(fù)制單詞,以及從固定大小的詞典中生成單詞。在圖三所示的指針生成網(wǎng)絡(luò)中,注意力分布 a t a^t at和上下文向量 h t ? h_t^* ht??可以利用2.1章節(jié)所述公式計算。

此外,時間步利用上下文向量 h t ? h_t^* ht??,解碼器隱狀態(tài) s t s_t st?,解碼器輸入 x t x_t xt?計算生成概率分布:

式中,向量 w h ? , w s , w x w_{h^*},w_s,w_x wh??,ws?,wx?和變量 b ptr b_\text{ptr} bptr?為可學習參數(shù), σ \sigma σ為sigmoid函數(shù)。 p gen p_\text{gen} pgen?可看作為軟開關(guān),用于選擇是利用 P vocab P_\text{vocab} Pvocab?從詞表中抽取單詞,還是利用注意力分布 a t a_t at?從輸入句抽取單詞。

對于每一篇文檔,將原文中所有出現(xiàn)的單詞和詞典結(jié)合為擴充詞典,獲得在擴展詞典上的概率分布:

注意到,如果 w w w不存在與詞典中,則 P vocab ( w ) = 0 P_\text{vocab}(w)=0 Pvocab?(w)=0;類似地,如果 w w w不存在于原文中,則 ∑ i : w i = w a i t = 0 \sum_{i:w_i=w}a_i^t=0 i:wi?=w?ait?=0。產(chǎn)生OOV單詞的能力是指針網(wǎng)絡(luò)的主要優(yōu)勢之一,而我們的基線模型產(chǎn)生單詞的數(shù)量局限于預(yù)設(shè)置的詞典。損失函數(shù)如公式(6)和(7)所示,但我們修改為公式(9)所示的概率分布 P ( w ) P(w) P(w)

2.3 覆蓋機制(Coverage mechanism)

重復(fù)是seq2seq模型的常見問題,在生成多句時尤其明顯(如圖1所示),我們采用覆蓋機制解決這個問題。覆蓋機制模型中,我們維持之前所有解碼步的注意力分布之和作為覆蓋向量 c t \bm{c_t} ct?

直觀上, c t \bm{c_t} ct?為原文單詞上的分布(未歸一化),表示這些單詞到目前為止從注意力機制中所獲得的覆蓋度。注意到, c 0 \bm{c^0} c0為零向量,因為初始時刻源文中沒有任何單詞被覆蓋。

覆蓋向量作為注意力機制的額外輸入,將公式(1)改為

式中, w c w_c wc?是與 v v v具有相同長度的可學習向量。覆蓋機制使得注意力機制的當前決策受其先前決策( c t c_t ct?之和)影響,因此應(yīng)該更易避免注意力機制關(guān)注相同位置,從而避免生成重復(fù)文本。

我們發(fā)現(xiàn),額外定義覆蓋損失懲罰重復(fù)關(guān)注相同位置是必要的,覆蓋損失

覆蓋損失有界: covloss t ≤ ∑ i a i t = 1 \text{covloss}_t\leq\sum_ia_i^t=1 covlosst?i?ait?=1,公式(12)中的覆蓋損失有別于機器翻譯中的覆蓋損失。MT中,假定翻譯率大致為1:1,如果覆蓋向量大于或小于1,其將作為懲罰向量。本文損失函數(shù)比較靈活,因為摘要不需要一致覆蓋率,本文僅懲罰注意力機制與到目前為止的覆蓋向量之間的重疊部分,防止重復(fù)關(guān)注。

最終,使用超參數(shù) λ \lambda λ加權(quán)覆蓋損失至先前損失,產(chǎn)生新的合成損失:

總結(jié)

以上是生活随笔為你收集整理的PGN: 指针生成网络(Get To The Point: Summarization with Pointer-Generator Networks)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。