GPT-3诞生,Finetune也不再必要了!NLP领域又一核弹!
一只小狐貍帶你解鎖煉丹術(shù)&NLP秘籍
2018年10月推出的BERT一直有著劃NLP時(shí)代的意義,然而還有一個(gè)讓人不能忽略的全程陪跑模型——OpenAI GPT(Generative Pre-Training)在以它的方式堅(jiān)持著,向更通用的終極目標(biāo)進(jìn)發(fā)。
最初的GPT只是一個(gè)12層單向的Transformer,通過(guò)預(yù)訓(xùn)練+精調(diào)的方式進(jìn)行訓(xùn)練,BERT一出來(lái)就被比下去了。之后2019年初的GPT-2提出了meta-learning,把所有NLP任務(wù)的輸入輸出進(jìn)行了整合,全部用文字來(lái)表示,比如對(duì)于翻譯任務(wù)的輸入是“英翻法:This is life”,輸出是“C'est la vie”。直接把任務(wù)要做什么以自然語(yǔ)言的形式放到了輸入中。通過(guò)這種方式進(jìn)行了大規(guī)模的訓(xùn)練,并用了15億參數(shù)的大模型,一舉成為當(dāng)時(shí)最強(qiáng)的生成模型。
遺憾的是,GPT-2在NLU領(lǐng)域仍并不如BERT,且隨著19年其他大模型的推出占據(jù)了下風(fēng),年初微軟推出的Turing-NLG已經(jīng)到達(dá)了170億參數(shù),而GPT-2只有15億。這些模型的尺寸已經(jīng)遠(yuǎn)遠(yuǎn)超出了大部分公司的預(yù)算和調(diào)參俠們的想象。。。已經(jīng)到極限了嗎?
不,“極限挑戰(zhàn)”才剛剛開(kāi)始,OpenAI在十幾個(gè)小時(shí)前悄然放出了GPT第三季——《Language Models are Few-Shot Learners》。
paper鏈接:https://arxiv.org/abs/2005.14165
github鏈接:https://github.com/openai/gpt-3
GPT-3依舊延續(xù)自己的單向語(yǔ)言模型訓(xùn)練方式,只不過(guò)這次把模型尺寸增大到了1750億,并且使用45TB數(shù)據(jù)進(jìn)行訓(xùn)練。同時(shí),GPT-3主要聚焦于更通用的NLP模型,解決當(dāng)前BERT類模型的兩個(gè)缺點(diǎn):
對(duì)領(lǐng)域內(nèi)有標(biāo)簽數(shù)據(jù)的過(guò)分依賴:雖然有了預(yù)訓(xùn)練+精調(diào)的兩段式框架,但還是少不了一定量的領(lǐng)域標(biāo)注數(shù)據(jù),否則很難取得不錯(cuò)的效果,而標(biāo)注數(shù)據(jù)的成本又是很高的。
對(duì)于領(lǐng)域數(shù)據(jù)分布的過(guò)擬合:在精調(diào)階段,因?yàn)轭I(lǐng)域數(shù)據(jù)有限,模型只能擬合訓(xùn)練數(shù)據(jù)分布,如果數(shù)據(jù)較少的話就可能造成過(guò)擬合,致使模型的泛華能力下降,更加無(wú)法應(yīng)用到其他領(lǐng)域。
因此GPT-3的主要目標(biāo)是用更少的領(lǐng)域數(shù)據(jù)、且不經(jīng)過(guò)精調(diào)步驟去解決問(wèn)題。
為了達(dá)到上述目的,作者們用預(yù)訓(xùn)練好的GPT-3探索了不同輸入形式下的推理效果:
這里的Zero-shot、One-shot、Few-shot都是完全不需要精調(diào)的,因?yàn)镚PT-3是單向transformer,在預(yù)測(cè)新的token時(shí)會(huì)對(duì)之前的examples進(jìn)行編碼。
作者們訓(xùn)練了以下幾種尺寸的模型進(jìn)行對(duì)比:
實(shí)驗(yàn)證明Few-shot下GPT-3有很好的表現(xiàn):
最重要的是,GPT-3在Few-shot設(shè)定下,在部分NLU任務(wù)上超越了當(dāng)前Fine-tuning的SOTA。該論文長(zhǎng)達(dá)72頁(yè)(Google T5是53頁(yè)),第10頁(yè)之后都是長(zhǎng)長(zhǎng)的實(shí)驗(yàn)結(jié)果與分析。需要的同學(xué)們可以在公眾號(hào)后臺(tái)回復(fù)「0529」獲取下載鏈接。
顯然,GPT-3的模型參數(shù)、訓(xùn)練數(shù)據(jù)和工作量都是驚人的,論文署名多達(dá)31個(gè)作者,所有實(shí)驗(yàn)做下來(lái)肯定也耗費(fèi)了不少時(shí)間。雖然一直都存在對(duì)于大模型的質(zhì)疑聲音,但我們確確實(shí)實(shí)從T5、GPT-3這樣的模型上看到了NLP領(lǐng)域的進(jìn)步,眾多業(yè)務(wù)也開(kāi)始受益于離線或者線上的BERT。事物的發(fā)展都是由量變到質(zhì)變的過(guò)程,感謝科研工作者們的不懈努力和大廠們的巨額投入,奧利給。
本文收錄于原創(chuàng)專輯:《賣(mài)萌屋@自然語(yǔ)言處理》
重磅驚喜:賣(mài)萌屋小可愛(ài)們苦心經(jīng)營(yíng)的 自然語(yǔ)言處理討論群 成立三群啦!掃描下方二維碼,后臺(tái)回復(fù)「入群」即可加入。眾多頂會(huì)審稿人、大廠研究員、知乎大V以及美麗小姐姐等你來(lái)撩噢~(手慢
夕小瑤的賣(mài)萌屋
_
關(guān)注&星標(biāo)小夕,帶你解鎖AI秘籍
訂閱號(hào)主頁(yè)下方「撩一下」有驚喜哦
可
能
喜
歡
ACL2020 | 線上搜索結(jié)果大幅提升!亞馬遜提出對(duì)抗式query-doc相關(guān)性模型
別再蒸餾3層BERT了!變矮又能變瘦的DynaBERT了解一下
All in Linux:一個(gè)算法工程師的IDE斷奶之路
賣(mài)萌屋算法崗面試手冊(cè)上線!通往面試自由之路
巨省顯存的重計(jì)算技巧在TF、Keras中的正確打開(kāi)方式
硬核推導(dǎo)Google AdaFactor:一個(gè)省顯存的寶藏優(yōu)化器
總結(jié)
以上是生活随笔為你收集整理的GPT-3诞生,Finetune也不再必要了!NLP领域又一核弹!的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 卖萌屋学术站开放注册啦!寻募种子用户,超
- 下一篇: 知乎搜索框背后的Query理解和语义召回