日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

谷歌发布最新“天马”模型,自动生成文本摘要已超越人类!

發布時間:2023/11/22 综合教程 32 生活家
生活随笔 收集整理的這篇文章主要介紹了 谷歌发布最新“天马”模型,自动生成文本摘要已超越人类! 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

  我們知道,Transfromer 在處理長序列文本方面比 CNN/RNN 表現更為出色,因此,最強大的預訓練模型,如 BERT、GPT 均采用的是 Transfromer 基礎架構。而且事實證明,在處理諸如機器翻譯、文本摘要、語音識別、問答系統等多種語言任務時,只需進行微調,即可達到 SOTA 性能。

  但是,Transfromer 的自監督目標(self-supervised)更偏通用性,與下游語言任務聯系性不強,也就是說它不知道下游執行的是機器翻譯,還是文本摘要。如果自監督目標能夠與下游任務建立緊密聯系,那么,微調性能會更好。

  基于這樣的目的,Google AI 團隊研發出了 PEGASU(天馬)模型。

  基于 Transfromer 編/譯碼器的天馬架構

  結果出人意料,研究發現“天馬”模型不僅表現出了卓越的性能,而且在小樣本數據下,能夠達到同樣的效果,極大地優化了訓練效率,降低了數據成本。

  目前,這項研究的論文《PEGASUS:Pre-training with Extracted Gap-sentence for Abstractive Summarization》已經發表在預印論文庫 arXiv 上,而且被 ICML 國際機器學習大會收錄。

  從“間隙句子”到文本摘要,小樣本性能更佳

  研究人員假設,預訓練目標越接近下游任務,微調的性能越好。為此,他們設定下游語言任務為“提取文本摘要”,而預訓練目標為“生成間隙句子”(Gap Sentences Generation)。研究人員在輸入文檔中刪除一些完整句子,天馬模型的任務就是恢復他們。如果輸出結果中能夠呈現被刪掉的句子,即表示與下游任務建立了聯系,即生成了 GSG。如下圖所示:

  這個過程就像我們做填空題一樣。研究人員表示,這項看似人類都無法完成的任務真的實現了。而且他們發現越是刪除一些“重要”的句子,試驗的效果越好。

  基于此,他們在 12 個下游摘要數據集上對模型進行了微調,結果顯示預訓練后的輸出示例與微調摘要非常相似,而且這一結果經過了 ROUGE 標準測試。ROUGE 通過N元語法重疊來計算兩個文本的相似度。

  另外,這些數據集十分豐富,包含文章,科學論文,專利,短篇小說,電子郵件,法律文件和使用說明,等,這說明天馬模型在選擇文本主題上方面并沒有局限性。

  更令人驚奇的是,研究人員發現天馬模型在小樣本數據集中同樣表現出了卓越的性能。以下是研究人員選定 4 個數據集后,ROUGE 得分與監督樣本數量的關系。(虛線表示具有全監督但沒有預訓練的 Transformer 編解碼器性能。)

  可以看出,僅 1000 個微調示例,天馬模型已經有了非常好的性能表現,而且高于未經訓練的示例(虛線)。這一結果,表明天馬模型在優化性能的同時,可以極大的降低數據使用的成本,同時提高了訓練效率。

  超越人類的性能表現

  為了確保實驗結果的準確性,除了 ROUGE 標準的衡量外,研究人員還采取了人工評估的方法。即將實驗后的摘要與人類撰寫的摘要進行對比。這類似于圖靈測試。

  研究人員采用了 3 個不同的數據集,評分者在進行優劣判斷時,并不知道哪一個是人類的,最終結果顯示評分者并不總是喜歡人類編寫的摘要。

  而且,從 XSum、CNN /Daily Mail 和 Reddit TIFU 這三個數據集中可以看出,僅訓練 1000 個示例同樣達到了超越人類的水平,再次印證天馬模型在小樣本下的性能優勢。

  不過,雖然經天馬模型預訓練后的性能表現能夠與人類相媲美,它還是會存在失誤。比如研究人員就以下文本進行了預訓練。XSum 數據集中的這篇示例全文沒有提到數字“4”,但是在文本提取中,天馬能夠抽象出文本摘要“No proposals have been submitted to preserve four Royal Navy frigates for reuse, the BBC has learned.”,而且從2-5 都是如此。

  但是在第六艘護衛艦時,天馬出現了失誤,其摘要中顯示的是“七”。說明模型在重復文本提取方面還需要進一步優化。為此,研究人員也將該項目公開發布到了 Github 上。

  如果你想了解更多研究內容,可參考:

  https://ai.googleblog.com/2020/06/pegasus-state-of-art-model-for.html

  https://arxiv.org/abs/1912.08777

  https://github.com/google-research/pegasus

總結

以上是生活随笔為你收集整理的谷歌发布最新“天马”模型,自动生成文本摘要已超越人类!的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。