當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ICML 2020 | Google提出最强生成式摘要预训练模型——天马

發布時間：2024/10/8 编程问答 41 豆豆

生活随笔收集整理的這篇文章主要介紹了 ICML 2020 | Google提出最强生成式摘要预训练模型——天马小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly 原創 ·?作者｜蔡杰

學校｜北京大學碩士生

研究方向｜QA

論文標題：PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization

論文來源：ICML 2020

論文鏈接：https://arxiv.org/abs/1912.08777

代碼鏈接：https://github.com/google-research/pegasus

概述

文章提出了一種專門針對文本摘要生成的預訓練方法，并提出了一種 GSG (Gap Sentence Generation) 的生成方法，該方法在模型的 fine-tune 階段只需要 1000 個 example 就能達到 12 個數據集的 SOTA，這個結果還是很搶眼的，值得仔細讀一讀。

首先看一看模型圖：

▲ 模型圖

論文里舉的例子里有三句話，encode 的時候將中間的那句話用符號代替，前后兩個句子中隨機找一些單詞，用代替。然后預訓練的時候，encoder 的任務就是去預測前后兩個句子中的位置上原來的單詞，decoder 的任務就是去生成中間的覆蓋的一整句話。整體的思路很簡單，圖很清晰。

有一個個人覺得奇怪的地方就是看到模型圖的時候猜測這里的是每個詞對應一個，應該有 sentence_length 個，但是文章說的是只用一個來代表整個句子，這樣的話可能會丟失句子這個的句子的長度信息，對于前后句子的相對位置也會有影響。如果我的猜測有不正確的地方還請大佬們指正。

論文中提到，pre-train 的 task 如果和 down-stream 的 task 越接近，那 down-stream 的 task 的效果也就會更好，按理說這是個大家都知道的結論，但是沒想到這個效果更好竟然也會體現在樣本的數量上，只需要 1000 個 examples 就能超過 SOTA，這是結論是我沒有想到的。

為了讓 pre-train 時候的 task 更接近文本摘要任務，選擇 Gap_Sentence（代表的句子）的時候作者用了一些策略來選擇。

Random 隨機選擇 m 個句子來 mask
Lead 選擇前 m 個句子來 mask
Principle 給每個句子進行打分，計算每個句子和剩下部分內容的 ROUGE1-F1 值，從高到低取 m 個句子來 mask

▲ 不同策略選擇的句子

作者預訓練的時候訓練了兩個版本，一個版本是單獨的 encoder，只用了 MLM（mask language model）作為 target，在 decode 階段 decoder 和 encoder 共享參數。

另一個版本則是兩個 target 一起訓練（MLM 和 GSG）。MLM 這個 target 在前期（100k-200k steps）還是很管用的，但是到了后期反而會對 performance 造成影響，所以在 large 模型中，作者直接舍棄了這個 MLM 這個 target。

數據

預訓練?

finetune

實驗

圖 3 可以看出，使用 HugeNews 來 pre-train 的模型在使用前兩個數據集 fine-tune 之后效果更好，在后兩個數據集反之。說明預訓練預料如果和下游任務接近，那效果會更好。（這不是很顯然的嗎。。。

圖4（a）對比了 6 種不同的 GSG 策略，Ind-Orig 獲得了最佳性能，其次是 Seq-Uniq。Ind-Orig 和 Seq-Uniq 在四個下游數據集始終是最好的（或相似的） “Random” 和 “Lead” 在兩個新聞數據集上的表現都不錯，但是在兩個非新聞數據集上，表現并不好。結果表明選擇 principal 句子最適合下游摘要任務。

上圖顯示了不同的選取間隔句子比例帶來的不同效果，最佳性能的 GSR 低于 50％。間隔語句為 15％的模型在 CNN / DailyMail 上的 ROUGE 得分最高，而XSum / Reddit TIFU 和 WikiHow 分別為 30％和 45％時表現更好。

不同的詞表大小，帶來的收益也是不一樣的。

再看看 large 模型的效果：

圖 6 顯示的是 low-resource 微調的結果。實線是在 0（zero-shot），10，100、1k，10k 的示例。虛線是 Transformer-base 模型，其大小與 PEGASUS-base 相同，并且經過完整的監督數據集訓練，但無需預訓練。

這就是論文中提到的只需要 1000 個 example，便可以超過 SOTA。

更多閱讀

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學習心得或技術干貨。我們的目的只有一個，讓知識真正流動起來。

?????來稿標準：

? 稿件確系個人原創作品，來稿需注明作者個人信息（姓名+學校/工作單位+學歷/職位+研究方向）?

? 如果文章并非首發，請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發，均會添加“原創”標志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨在附件中發送?

? 請留下即時聯系方式（微信或手機），以便我們在編輯發布時和作者溝通

????

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結

以上是生活随笔為你收集整理的ICML 2020 | Google提出最强生成式摘要预训练模型——天马的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： CVPR 2020 | 反传统的无监督人
下一篇： LTP 4.0！单模型完成6项自然语言处