當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

谷歌 | 最新110亿参数的T5模型17项NLP任务霸榜SuperGLUE！

發(fā)布時間：2023/12/29 编程问答 97 豆豆

生活随笔收集整理的這篇文章主要介紹了谷歌 | 最新110亿参数的T5模型17项NLP任务霸榜SuperGLUE！小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

??新智元報道??

來源：github

谷歌在最新發(fā)布的論文《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》提出了一個新的預(yù)訓(xùn)練模型：T5。該模型涵蓋了問題解答，文本分類等方面，參數(shù)量達到了110億！一舉超越ALBERT，刷新Glue榜單，成為全新的NLP SOTA預(yù)訓(xùn)練模型。

榜單地址：

https://gluebenchmark.com/leaderboard

甚至在GLUE的升級版SuperGlue上，T5也超越了Facebook提出的的RoBERTa，以89.8的得分成為僅次于人類基準的SOTA模型！

榜單地址：

https://super.gluebenchmark.com/leaderboard

T5：穩(wěn)健推進，暴力碾壓

從論文中我們了解到，谷歌的T5模型沒有用到什么新的方法，而是從全面的視角來概述當前 NLP 領(lǐng)域遷移學(xué)習(xí)的發(fā)展現(xiàn)狀。不過谷歌能讓110億參數(shù)跑在seq2seq模式上，并且一舉超越現(xiàn)有最強模型成為新SOTA，證明了該方式的可行性。

因此本次T5算不上出奇制勝，而是像一個巨大的戰(zhàn)艦一樣，穩(wěn)健推進暴力碾壓，在摘要生成、問答、文本分類等諸多基準測試中都取得了 SOTA 性能。

作為一個文本到文本的統(tǒng)一框架，可以將同一模型、目標、訓(xùn)練流程和解碼過程，直接應(yīng)用于實驗中的每一項任務(wù)。研究者可以在這個框架上比較不同遷移學(xué)習(xí)目標、未標注數(shù)據(jù)集或者其他因素的有效性，也可以通過擴展模型和數(shù)據(jù)集來發(fā)現(xiàn) NLP 領(lǐng)域遷移學(xué)習(xí)的局限。

谷歌編寫的通用知識訓(xùn)練語料庫中的片段來自Common Crawl網(wǎng)站，該項目每個月從網(wǎng)絡(luò)上爬取大約20 TB的英文文本。

為了過濾出亂碼、菜單和錯誤消息，僅保留以終端標點符號（句點，感嘆號，問號或結(jié)束引號）結(jié)尾的文本行，同時刪除帶有明顯填充文本和重復(fù)項的頁面。最終所得到的集合比預(yù)訓(xùn)練的數(shù)據(jù)集大了一個數(shù)量級，約為750GB。該數(shù)據(jù)集Colossal Clean Crawled Corpus（C4）已開源。

T5模型構(gòu)造

研究人員在語料庫上訓(xùn)練了幾種基于Transformer的模型，以評估其文本到文本方法的有效性。

研究人員使用的編碼器-解碼器 Transformer 基本依照了原版 Transformer 架構(gòu)。解碼器包含了一堆“塊”，其中每個塊又包含兩個子部件：自注意力層和小的前饋網(wǎng)絡(luò)。

自注意力不受順序的影響，因此就可以將明確的位置信號提供給Transformer，如今比較流行的做法是使用相對位置嵌。相對位置嵌入和固定嵌入的方式不同，它是根據(jù)自注意力機制，對比key和query之前的偏置，生成一個不同的學(xué)習(xí)到的嵌入，權(quán)重是動態(tài)的。

論文提到的所有的模型都使用了32個嵌入，范圍的大小能夠以對數(shù)方式增加，最高能到128偏置。研究人員還使用了一種簡化的位置嵌入來提高效率，每個嵌入只是作為添加到用于計算注意力權(quán)重的相應(yīng)logit的一個標量。

不過團隊也承認，T5在諸如翻譯之類的語言任務(wù)中不盡人意，研究人員將此歸咎于特定任務(wù)數(shù)據(jù)的相對缺乏和培訓(xùn)規(guī)模的不足。因此，他們提倡研究使用較小的模型實現(xiàn)更強性能的方法，以便將遷移學(xué)習(xí)應(yīng)用于影響最大的地方。

該論文的合著者寫道：“我們的研究得出重要的結(jié)果是：較大的模型往往表現(xiàn)更好。用于運行這些模型的硬件一直在變得越來越便宜，功能越來越強大，這一事實表明，擴大規(guī)模可能仍然是實現(xiàn)更好性能的有前途的方法。但是，在某些應(yīng)用程序和場景中，總是存在使用較小或較便宜的模型有幫助的情況，例如在執(zhí)行客戶端推斷或聯(lián)合學(xué)習(xí)時。”

大模型攻堅、小模型掃尾。NLP模型在SuperGLUE上徹底超越人類的一天，還遠嗎？

論文鏈接：

https://arxiv.org/abs/1910.10683 Github?

GitHub鏈接：

https://github.com/google-research/text-to-text-transfer-transformer

推薦閱讀

總結(jié)

以上是生活随笔為你收集整理的谷歌 | 最新110亿参数的T5模型17项NLP任务霸榜SuperGLUE！的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： C语言入门项目——BMI指数计算器
下一篇： PPT学习（5）