ICML 2020 | Google提出最强生成式摘要预训练模型——天马
?PaperWeekly 原創 ·?作者|蔡杰
學校|北京大學碩士生
研究方向|QA
論文標題:PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization
論文來源:ICML 2020
論文鏈接:https://arxiv.org/abs/1912.08777
代碼鏈接:https://github.com/google-research/pegasus
概述
文章提出了一種專門針對文本摘要生成的預訓練方法,并提出了一種 GSG (Gap Sentence Generation) 的生成方法,該方法在模型的 fine-tune 階段只需要 1000 個 example 就能達到 12 個數據集的 SOTA,這個結果還是很搶眼的,值得仔細讀一讀。
首先看一看模型圖:
▲ 模型圖
論文里舉的例子里有三句話,encode 的時候將中間的那句話用 符號代替,前后兩個句子中隨機找一些單詞,用 代替。然后預訓練的時候,encoder 的任務就是去預測前后兩個句子中的 位置上原來的單詞,decoder 的任務就是去生成中間的 覆蓋的一整句話。整體的思路很簡單,圖很清晰。
有一個個人覺得奇怪的地方就是看到模型圖的時候猜測這里的 是每個詞對應一個,應該有 sentence_length 個 ,但是文章說的是只用一個 來代表整個句子,這樣的話可能會丟失句子這個 的句子的長度信息,對于前后句子的相對位置也會有影響。如果我的猜測有不正確的地方還請大佬們指正。
論文中提到,pre-train 的 task 如果和 down-stream 的 task 越接近,那 down-stream 的 task 的效果也就會更好,按理說這是個大家都知道的結論,但是沒想到這個效果更好竟然也會體現在樣本的數量上,只需要 1000 個 examples 就能超過 SOTA,這是結論是我沒有想到的。
為了讓 pre-train 時候的 task 更接近文本摘要任務,選擇 Gap_Sentence( 代表的句子)的時候作者用了一些策略來選擇。
Random 隨機選擇 m 個句子來 mask
Lead 選擇前 m 個句子來 mask
Principle 給每個句子進行打分,計算每個句子和剩下部分內容的 ROUGE1-F1 值,從高到低取 m 個句子來 mask
▲ 不同策略選擇的句子
作者預訓練的時候訓練了兩個版本,一個版本是單獨的 encoder,只用了 MLM(mask language model)作為 target,在 decode 階段 decoder 和 encoder 共享參數。
另一個版本則是兩個 target 一起訓練(MLM 和 GSG)。MLM 這個 target 在前期(100k-200k steps)還是很管用的,但是到了后期反而會對 performance 造成影響,所以在 large 模型中,作者直接舍棄了這個 MLM 這個 target。
數據
預訓練?
finetune
實驗
圖 3 可以看出,使用 HugeNews 來 pre-train 的模型在使用前兩個數據集 fine-tune 之后效果更好,在后兩個數據集反之。說明預訓練預料如果和下游任務接近,那效果會更好。(這不是很顯然的嗎。。。
圖4(a)對比了 6 種不同的 GSG 策略,Ind-Orig 獲得了最佳性能,其次是 Seq-Uniq。Ind-Orig 和 Seq-Uniq 在四個下游數據集始終是最好的(或相似的) “Random” 和 “Lead” 在兩個新聞數據集上的表現都不錯,但是在兩個非新聞數據集上,表現并不好。結果表明選擇 principal 句子最適合下游摘要任務。
上圖顯示了不同的選取間隔句子比例帶來的不同效果, 最佳性能的 GSR 低于 50%。間隔語句為 15% 的模型在 CNN / DailyMail 上的 ROUGE 得分最高,而XSum / Reddit TIFU 和 WikiHow 分別為 30% 和 45% 時表現更好。
不同的詞表大小,帶來的收益也是不一樣的。
再看看 large 模型的效果:
圖 6 顯示的是 low-resource 微調的結果。實線是在 0(zero-shot),10,100、1k,10k 的示例。虛線是 Transformer-base 模型,其大小與 PEGASUS-base 相同,并且經過完整的監督數據集訓練,但無需預訓練。
這就是論文中提到的只需要 1000 個 example,便可以超過 SOTA。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的ICML 2020 | Google提出最强生成式摘要预训练模型——天马的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CVPR 2020 | 反传统的无监督人
- 下一篇: LTP 4.0!单模型完成6项自然语言处