日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

谷歌 | 最新110亿参数的T5模型17项NLP任务霸榜SuperGLUE!

發(fā)布時間:2023/12/29 编程问答 97 豆豆
生活随笔 收集整理的這篇文章主要介紹了 谷歌 | 最新110亿参数的T5模型17项NLP任务霸榜SuperGLUE! 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.



??新智元報道??

來源:github

谷歌在最新發(fā)布的論文《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》提出了一個新的預(yù)訓(xùn)練模型:T5。該模型涵蓋了問題解答,文本分類等方面,參數(shù)量達到了110億!一舉超越ALBERT,刷新Glue榜單,成為全新的NLP SOTA預(yù)訓(xùn)練模型。

榜單地址:

https://gluebenchmark.com/leaderboard

甚至在GLUE的升級版SuperGlue上,T5也超越了Facebook提出的的RoBERTa,以89.8的得分成為僅次于人類基準的SOTA模型!

榜單地址:

https://super.gluebenchmark.com/leaderboard

T5:穩(wěn)健推進,暴力碾壓

從論文中我們了解到,谷歌的T5模型沒有用到什么新的方法,而是從全面的視角來概述當前 NLP 領(lǐng)域遷移學(xué)習(xí)的發(fā)展現(xiàn)狀。不過谷歌能讓110億參數(shù)跑在seq2seq模式上,并且一舉超越現(xiàn)有最強模型成為新SOTA,證明了該方式的可行性。

因此本次T5算不上出奇制勝,而是像一個巨大的戰(zhàn)艦一樣,穩(wěn)健推進暴力碾壓,在摘要生成、問答、文本分類等諸多基準測試中都取得了 SOTA 性能。

作為一個文本到文本的統(tǒng)一框架,可以將同一模型、目標、訓(xùn)練流程和解碼過程,直接應(yīng)用于實驗中的每一項任務(wù)。研究者可以在這個框架上比較不同遷移學(xué)習(xí)目標、未標注數(shù)據(jù)集或者其他因素的有效性,也可以通過擴展模型和數(shù)據(jù)集來發(fā)現(xiàn) NLP 領(lǐng)域遷移學(xué)習(xí)的局限。

谷歌編寫的通用知識訓(xùn)練語料庫中的片段來自Common Crawl網(wǎng)站,該項目每個月從網(wǎng)絡(luò)上爬取大約20 TB的英文文本。

為了過濾出亂碼、菜單和錯誤消息,僅保留以終端標點符號(句點,感嘆號,問號或結(jié)束引號)結(jié)尾的文本行,同時刪除帶有明顯填充文本和重復(fù)項的頁面。最終所得到的集合比預(yù)訓(xùn)練的數(shù)據(jù)集大了一個數(shù)量級,約為750GB。該數(shù)據(jù)集Colossal Clean Crawled Corpus(C4)已開源。

T5模型構(gòu)造

研究人員在語料庫上訓(xùn)練了幾種基于Transformer的模型,以評估其文本到文本方法的有效性。

研究人員使用的編碼器-解碼器 Transformer 基本依照了原版 Transformer 架構(gòu)。解碼器包含了一堆“塊”,其中每個塊又包含兩個子部件:自注意力層和小的前饋網(wǎng)絡(luò)。

自注意力不受順序的影響,因此就可以將明確的位置信號提供給Transformer,如今比較流行的做法是使用相對位置嵌。相對位置嵌入和固定嵌入的方式不同,它是根據(jù)自注意力機制,對比key和query之前的偏置,生成一個不同的學(xué)習(xí)到的嵌入,權(quán)重是動態(tài)的。

論文提到的所有的模型都使用了32個嵌入,范圍的大小能夠以對數(shù)方式增加,最高能到128偏置。研究人員還使用了一種簡化的位置嵌入來提高效率,每個嵌入只是作為添加到用于計算注意力權(quán)重的相應(yīng)logit的一個標量。

不過團隊也承認,T5在諸如翻譯之類的語言任務(wù)中不盡人意,研究人員將此歸咎于特定任務(wù)數(shù)據(jù)的相對缺乏和培訓(xùn)規(guī)模的不足。因此,他們提倡研究使用較小的模型實現(xiàn)更強性能的方法,以便將遷移學(xué)習(xí)應(yīng)用于影響最大的地方。

該論文的合著者寫道:“我們的研究得出重要的結(jié)果是:較大的模型往往表現(xiàn)更好。用于運行這些模型的硬件一直在變得越來越便宜,功能越來越強大,這一事實表明,擴大規(guī)模可能仍然是實現(xiàn)更好性能的有前途的方法。但是,在某些應(yīng)用程序和場景中,總是存在使用較小或較便宜的模型有幫助的情況,例如在執(zhí)行客戶端推斷或聯(lián)合學(xué)習(xí)時。”

大模型攻堅、小模型掃尾。NLP模型在SuperGLUE上徹底超越人類的一天,還遠嗎?

論文鏈接:

https://arxiv.org/abs/1910.10683 Github?

GitHub鏈接:

https://github.com/google-research/text-to-text-transfer-transformer

推薦閱讀


總結(jié)

以上是生活随笔為你收集整理的谷歌 | 最新110亿参数的T5模型17项NLP任务霸榜SuperGLUE!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。