谷歌 | 最新110亿参数的T5模型17项NLP任务霸榜SuperGLUE!
??新智元報道??
來源:github
谷歌在最新發(fā)布的論文《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》提出了一個新的預(yù)訓(xùn)練模型:T5。該模型涵蓋了問題解答,文本分類等方面,參數(shù)量達到了110億!一舉超越ALBERT,刷新Glue榜單,成為全新的NLP SOTA預(yù)訓(xùn)練模型。
榜單地址:
https://gluebenchmark.com/leaderboard
甚至在GLUE的升級版SuperGlue上,T5也超越了Facebook提出的的RoBERTa,以89.8的得分成為僅次于人類基準的SOTA模型!
榜單地址:
https://super.gluebenchmark.com/leaderboard
T5:穩(wěn)健推進,暴力碾壓
從論文中我們了解到,谷歌的T5模型沒有用到什么新的方法,而是從全面的視角來概述當前 NLP 領(lǐng)域遷移學(xué)習(xí)的發(fā)展現(xiàn)狀。不過谷歌能讓110億參數(shù)跑在seq2seq模式上,并且一舉超越現(xiàn)有最強模型成為新SOTA,證明了該方式的可行性。
因此本次T5算不上出奇制勝,而是像一個巨大的戰(zhàn)艦一樣,穩(wěn)健推進暴力碾壓,在摘要生成、問答、文本分類等諸多基準測試中都取得了 SOTA 性能。
作為一個文本到文本的統(tǒng)一框架,可以將同一模型、目標、訓(xùn)練流程和解碼過程,直接應(yīng)用于實驗中的每一項任務(wù)。研究者可以在這個框架上比較不同遷移學(xué)習(xí)目標、未標注數(shù)據(jù)集或者其他因素的有效性,也可以通過擴展模型和數(shù)據(jù)集來發(fā)現(xiàn) NLP 領(lǐng)域遷移學(xué)習(xí)的局限。
谷歌編寫的通用知識訓(xùn)練語料庫中的片段來自Common Crawl網(wǎng)站,該項目每個月從網(wǎng)絡(luò)上爬取大約20 TB的英文文本。
為了過濾出亂碼、菜單和錯誤消息,僅保留以終端標點符號(句點,感嘆號,問號或結(jié)束引號)結(jié)尾的文本行,同時刪除帶有明顯填充文本和重復(fù)項的頁面。最終所得到的集合比預(yù)訓(xùn)練的數(shù)據(jù)集大了一個數(shù)量級,約為750GB。該數(shù)據(jù)集Colossal Clean Crawled Corpus(C4)已開源。
T5模型構(gòu)造
研究人員在語料庫上訓(xùn)練了幾種基于Transformer的模型,以評估其文本到文本方法的有效性。
研究人員使用的編碼器-解碼器 Transformer 基本依照了原版 Transformer 架構(gòu)。解碼器包含了一堆“塊”,其中每個塊又包含兩個子部件:自注意力層和小的前饋網(wǎng)絡(luò)。
自注意力不受順序的影響,因此就可以將明確的位置信號提供給Transformer,如今比較流行的做法是使用相對位置嵌。相對位置嵌入和固定嵌入的方式不同,它是根據(jù)自注意力機制,對比key和query之前的偏置,生成一個不同的學(xué)習(xí)到的嵌入,權(quán)重是動態(tài)的。
論文提到的所有的模型都使用了32個嵌入,范圍的大小能夠以對數(shù)方式增加,最高能到128偏置。研究人員還使用了一種簡化的位置嵌入來提高效率,每個嵌入只是作為添加到用于計算注意力權(quán)重的相應(yīng)logit的一個標量。
不過團隊也承認,T5在諸如翻譯之類的語言任務(wù)中不盡人意,研究人員將此歸咎于特定任務(wù)數(shù)據(jù)的相對缺乏和培訓(xùn)規(guī)模的不足。因此,他們提倡研究使用較小的模型實現(xiàn)更強性能的方法,以便將遷移學(xué)習(xí)應(yīng)用于影響最大的地方。
該論文的合著者寫道:“我們的研究得出重要的結(jié)果是:較大的模型往往表現(xiàn)更好。用于運行這些模型的硬件一直在變得越來越便宜,功能越來越強大,這一事實表明,擴大規(guī)模可能仍然是實現(xiàn)更好性能的有前途的方法。但是,在某些應(yīng)用程序和場景中,總是存在使用較小或較便宜的模型有幫助的情況,例如在執(zhí)行客戶端推斷或聯(lián)合學(xué)習(xí)時。”
大模型攻堅、小模型掃尾。NLP模型在SuperGLUE上徹底超越人類的一天,還遠嗎?
論文鏈接:
https://arxiv.org/abs/1910.10683 Github?
GitHub鏈接:
https://github.com/google-research/text-to-text-transfer-transformer
推薦閱讀總結(jié)
以上是生活随笔為你收集整理的谷歌 | 最新110亿参数的T5模型17项NLP任务霸榜SuperGLUE!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: C语言入门项目——BMI指数计算器
- 下一篇: PPT学习(5)