有钱可以多任性?OpenAI提出人肉模型训练,文本摘要全面超越人类表现!
文 | 小軼
背景
三個多月前,OpenAI的GPT-3在NLP界掀起軒然大波。就在上周,視金錢如糞土的OpenAI團隊又在文本摘要方面推出了最新力作,全方位超越人類表現。其亮點在于:以人類偏好替代自動化評測方法(如ROUGE、BLUE)為訓練目標,用人類反饋作為獎勵進行強化學習,性能表現十分驚艷。
對于較為復雜的NLP任務,如何進行評測、如何構造精準的損失函數已困擾了NLP researchers多年。以文本摘要為例,若采用自動化指標,模型的生成結果將逐漸逼近數據集內人工手寫的摘要。但這種評價方式其實并不符合我們真正的訓練目標。我們希望生成的并非“與數據集相近的摘要”,而是一篇“好的摘要”——它應該精簡、準確、概括性強、語言連貫流暢。用BLUE和ROUGE顯然評測不了這些維度。
此外,過度模仿數據集內容還存在很多更深層的隱患。大量數據集,比如本工作采用的TL;DR數據集,都是直接從網絡上爬取下來的。其內容是由成千上萬、形形色色的互聯網用戶上傳。其質量良莠不齊是一方面,更嚴重的是其中不乏一些危險暴力、真實性存疑的言論。這些互聯網的暗面是我們不希望AI學到的。
用人類反饋指導AI的學習過程,不僅僅是用更精準的評測方式提高性能、刷新SOTA,也是在AI safety方面的一點推進。
論文題目:
《Learning to Summarize with Human Feedback》
論文鏈接:
https://arxiv.org/pdf/2009.01325.pdf
開源代碼:
https://github.com/openai/summarize-from-feedback
Arxiv訪問慢的小伙伴也可以在 【夕小瑤的賣萌屋】訂閱號后臺回復關鍵詞 【0914】 下載論文PDF~
方法
整體流程可歸納為以下4步,后文將依次展開:
訓練初始摘要模型Supervised Baseline
構建人類反饋數據集,不斷人工比較兩篇摘要優劣
用上述“人類反饋數據集”訓練一個Reward Model,模仿人類偏好對摘要打分
用強化學習的方法繼續訓練Supervised Baseline,每一步的獎勵由上述Reward Model給出,從而學習符合人類偏好的摘要生成策略
下圖展示了2-4步的實現細節:
1. 訓練初始摘要模型
模型采用GPT-3風格的Transformer decoder。作者總共訓了兩個不同size的baseline。當然參數規模還沒有真的GPT-3那么喪心病狂——也就一個13億,一個67億吧:)(Bert-large的4倍和20倍)。
訓練方法,pretrain+fine-tune兩步走。先在大量語料上進行預訓練得到Pretrained Model。然后再用摘要數據集TL;DR中質量較高的部分,對模型進行fine-tune,得到Supervised Baseline。為保證baseline足夠強大,可堪一戰,作者用baseline跑了一下CNN/DM——一個baseline在預訓練和fine-tune時都沒見過的另一個摘要數據集。其性能表現可超越2019年5月時的SOTA。
2. 構建人類反饋數據集
構建過程就是不斷給標注者同一文章的2篇摘要,要求選出其較為偏好的的一篇。最終數據集總共包含6.48w次比較。
值得一提的是作者團隊為保證標注質量做出的努力。大概翻譯一下作者原話:
“在之前的工作中,我們發現標注者經常給我們覺得很一般的文章也打高分。所以這次,我們斥巨資保證標注質量。為提高與標注者的交流效率,我們拒絕采用第三方標注平臺,直接雇傭80名標注者到身邊......對標注者每小時的標注量不做要求(如果標得太快會在一開始就被辭掉)。我們也不按標注數目發工資,而是按工作時長,15刀/時。”
3. 訓練Reward Model
光靠人工標注的6.48w條比較數據,仍然還不足以調教一個規模龐大的摘要模型。于是,作者以人類標注數據為基礎,訓練了一個Reward Model,模仿人類喜好對摘要進行打分。
模型結構,就是第1步中Supervised Baseline上再疊一個線性層。訓練的時候,給標注者已經比較過的摘要,摘要,讓Reward Model分別打分(,?)。假設標注結果是比好,則損失函數為:
4. 學習符合人類偏好的摘要生成策略
萬事俱備后,作者用強化學習的方法繼續訓練Supervised Baseline,以符合人類偏好為目標調整生成策略。仔細讀paper細節的話,會發現每一步的獎勵其實并不只Reward Model的打分,而是由兩部分構成的:
(向右滑動查看完整公式)
即Reward Model的給分。后面又減去了一項,是初始Supervised Model與當前模型的相對熵。也就是說,既希望新的模型能夠在Reward Model這里得高分,又不允許它離初始模型偏離得太遠。因為相應實驗表明(如下圖所示),當模型與初始狀態相對熵變大的時候,Reward Model可能會對模型打高分(圖中虛線),但實際人類喜好程度(圖中實線)反而會不斷降低。
這樣的差異說明Reward Model對于人類偏好的模仿能力仍然十分有限。論文附錄部分也列舉了一些模型overfit后的結果,如下圖所示。可以看到,當模型overfit后,似乎可以學習到某種固定的pattern騙取Reward Model的高分。
實驗
論文實驗部分持續彌漫金錢的味道。所有實驗都采用人工評測的方式,以保證最大程度的準確性。
1. TL;DR實驗結果: TL;DR是模型做fine-tune的數據集,作者在其測試集上進行評測,實驗結果見下圖。共比較了4種摘要生成結果:
數據集中人工寫的reference summaries
用人類反饋強化學習過的最終模型
未經強化學習的Supervised Baseline
未在摘要任務上fine-tune過的預訓練模型
左圖是多維度的人工評測打分(coverage,coherence,accuracy)。右圖中,縱軸是人類偏好比例,橫軸為模型規模。結論:經人類反饋強化學習后,全方位超越人類表現。
2.遷移實驗結果: 盡管模型從未學習過新聞領域的摘要生成,模型依然在新聞類數據集CNN/DM上取得了很好的表現。如下圖所示,在模型規模相等的情況下,TL;DR上強化學習后的模型(Human feedback transfer)與直接在CNN/DM上fine-tune過的模型(Supervised CNN/DM)相比,評測結果相差無幾。
感想與小結
盡管提升效果顯著,本工作還是存在很多局限性。一個是錢的問題。此外,直接用人類反饋指導模型學習的可操作性、可普適性仍然存疑。我們也看到,在進行強化學習時的獎勵并非直接由reward model給出,還需要加一個相對熵限制項。并且從實驗中的分析結果來看,模型訓練似乎非常容易過擬合。可以想見整個調參過程應該是非常復雜的。
其實,用人類的行為模式指導AI的思想已不是首次出現。例如OpenAI去年就有用人類偏好精調GPT-2的工作。又如發表于今年ACL上的一篇工作,比較了人類與RNN的attention模式差異。在此之前,也有用人類偏好指導語義解析和翻譯任務的工作。當然,高質量、大規模地標注人類反饋需要雄厚的財力。也是因為這個原因,其他工作多不能做到OpenAI的規模。
無論如何,人肉煉丹所得到的提升效果肉眼可見。相關工作也已在今年工作中陸續涌現。是否會成為NLP界的下一個熱點,也尚未可知。
文末福利
后臺回復關鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
有頂會審稿人、大廠研究員、知乎大V和妹紙
等你來撩哦~
總結
以上是生活随笔為你收集整理的有钱可以多任性?OpenAI提出人肉模型训练,文本摘要全面超越人类表现!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 卖萌屋学术站发布!通往高效刷论文之路
- 下一篇: 2020年,中国AI创业公司将走向何方