日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

有钱可以多任性?OpenAI提出人肉模型训练,文本摘要全面超越人类表现!

發布時間:2024/7/5 ChatGpt 54 豆豆
生活随笔 收集整理的這篇文章主要介紹了 有钱可以多任性?OpenAI提出人肉模型训练,文本摘要全面超越人类表现! 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文 | 小軼


背景

三個多月前,OpenAI的GPT-3在NLP界掀起軒然大波。就在上周,視金錢如糞土的OpenAI團隊又在文本摘要方面推出了最新力作,全方位超越人類表現。其亮點在于:以人類偏好替代自動化評測方法(如ROUGE、BLUE)為訓練目標用人類反饋作為獎勵進行強化學習,性能表現十分驚艷。

對于較為復雜的NLP任務,如何進行評測、如何構造精準的損失函數已困擾了NLP researchers多年。以文本摘要為例,若采用自動化指標,模型的生成結果將逐漸逼近數據集內人工手寫的摘要。但這種評價方式其實并不符合我們真正的訓練目標。我們希望生成的并非“與數據集相近的摘要”,而是一篇“好的摘要”——它應該精簡、準確、概括性強、語言連貫流暢。用BLUE和ROUGE顯然評測不了這些維度。

此外,過度模仿數據集內容還存在很多更深層的隱患。大量數據集,比如本工作采用的TL;DR數據集,都是直接從網絡上爬取下來的。其內容是由成千上萬、形形色色的互聯網用戶上傳。其質量良莠不齊是一方面,更嚴重的是其中不乏一些危險暴力、真實性存疑的言論。這些互聯網的暗面是我們不希望AI學到的。

用人類反饋指導AI的學習過程,不僅僅是用更精準的評測方式提高性能、刷新SOTA,也是在AI safety方面的一點推進。

論文題目
《Learning to Summarize with Human Feedback》

論文鏈接:
https://arxiv.org/pdf/2009.01325.pdf

開源代碼:
https://github.com/openai/summarize-from-feedback

Arxiv訪問慢的小伙伴也可以在 【夕小瑤的賣萌屋】訂閱號后臺回復關鍵詞 【0914】 下載論文PDF~

方法

整體流程可歸納為以下4步,后文將依次展開:

  • 訓練初始摘要模型Supervised Baseline

  • 構建人類反饋數據集,不斷人工比較兩篇摘要優劣

  • 用上述“人類反饋數據集”訓練一個Reward Model,模仿人類偏好對摘要打分

  • 用強化學習的方法繼續訓練Supervised Baseline,每一步的獎勵由上述Reward Model給出,從而學習符合人類偏好的摘要生成策略

  • 下圖展示了2-4步的實現細節:

    1. 訓練初始摘要模型

    模型采用GPT-3風格的Transformer decoder。作者總共訓了兩個不同size的baseline。當然參數規模還沒有真的GPT-3那么喪心病狂——也就一個13億,一個67億吧:)(Bert-large的4倍和20倍)。

    訓練方法,pretrain+fine-tune兩步走。先在大量語料上進行預訓練得到Pretrained Model。然后再用摘要數據集TL;DR中質量較高的部分,對模型進行fine-tune,得到Supervised Baseline。為保證baseline足夠強大,可堪一戰,作者用baseline跑了一下CNN/DM——一個baseline在預訓練和fine-tune時都沒見過的另一個摘要數據集。其性能表現可超越2019年5月時的SOTA。

    2. 構建人類反饋數據集

    構建過程就是不斷給標注者同一文章的2篇摘要,要求選出其較為偏好的的一篇。最終數據集總共包含6.48w次比較。

    值得一提的是作者團隊為保證標注質量做出的努力。大概翻譯一下作者原話:

    “在之前的工作中,我們發現標注者經常給我們覺得很一般的文章也打高分。所以這次,我們斥巨資保證標注質量。為提高與標注者的交流效率,我們拒絕采用第三方標注平臺,直接雇傭80名標注者到身邊......對標注者每小時的標注量不做要求(如果標得太快會在一開始就被辭掉)。我們也不按標注數目發工資,而是按工作時長,15刀/時。”

    3. 訓練Reward Model

    光靠人工標注的6.48w條比較數據,仍然還不足以調教一個規模龐大的摘要模型。于是,作者以人類標注數據為基礎,訓練了一個Reward Model,模仿人類喜好對摘要進行打分。

    模型結構,就是第1步中Supervised Baseline上再疊一個線性層。訓練的時候,給標注者已經比較過的摘要,摘要,讓Reward Model分別打分(,?)。假設標注結果是比好,則損失函數為:

    4. 學習符合人類偏好的摘要生成策略

    萬事俱備后,作者用強化學習的方法繼續訓練Supervised Baseline,以符合人類偏好為目標調整生成策略。仔細讀paper細節的話,會發現每一步的獎勵其實并不只Reward Model的打分,而是由兩部分構成的:

    (向右滑動查看完整公式)

    即Reward Model的給分。后面又減去了一項,是初始Supervised Model與當前模型的相對熵。也就是說,既希望新的模型能夠在Reward Model這里得高分,又不允許它離初始模型偏離得太遠。因為相應實驗表明(如下圖所示),當模型與初始狀態相對熵變大的時候,Reward Model可能會對模型打高分(圖中虛線),但實際人類喜好程度(圖中實線)反而會不斷降低。

    這樣的差異說明Reward Model對于人類偏好的模仿能力仍然十分有限。論文附錄部分也列舉了一些模型overfit后的結果,如下圖所示。可以看到,當模型overfit后,似乎可以學習到某種固定的pattern騙取Reward Model的高分。

    實驗

    論文實驗部分持續彌漫金錢的味道。所有實驗都采用人工評測的方式,以保證最大程度的準確性。

    1. TL;DR實驗結果: TL;DR是模型做fine-tune的數據集,作者在其測試集上進行評測,實驗結果見下圖。共比較了4種摘要生成結果:

    • 數據集中人工寫的reference summaries

    • 用人類反饋強化學習過的最終模型

    • 未經強化學習的Supervised Baseline

    • 未在摘要任務上fine-tune過的預訓練模型

    左圖是多維度的人工評測打分(coverage,coherence,accuracy)。右圖中,縱軸是人類偏好比例,橫軸為模型規模。結論:經人類反饋強化學習后,全方位超越人類表現。

    2.遷移實驗結果: 盡管模型從未學習過新聞領域的摘要生成,模型依然在新聞類數據集CNN/DM上取得了很好的表現。如下圖所示,在模型規模相等的情況下,TL;DR上強化學習后的模型(Human feedback transfer)與直接在CNN/DM上fine-tune過的模型(Supervised CNN/DM)相比,評測結果相差無幾。

    感想與小結

    盡管提升效果顯著,本工作還是存在很多局限性。一個是錢的問題。此外,直接用人類反饋指導模型學習的可操作性、可普適性仍然存疑。我們也看到,在進行強化學習時的獎勵并非直接由reward model給出,還需要加一個相對熵限制項。并且從實驗中的分析結果來看,模型訓練似乎非常容易過擬合。可以想見整個調參過程應該是非常復雜的。

    其實,用人類的行為模式指導AI的思想已不是首次出現。例如OpenAI去年就有用人類偏好精調GPT-2的工作。又如發表于今年ACL上的一篇工作,比較了人類與RNN的attention模式差異。在此之前,也有用人類偏好指導語義解析和翻譯任務的工作。當然,高質量、大規模地標注人類反饋需要雄厚的財力。也是因為這個原因,其他工作多不能做到OpenAI的規模。

    無論如何,人肉煉丹所得到的提升效果肉眼可見。相關工作也已在今年工作中陸續涌現。是否會成為NLP界的下一個熱點,也尚未可知。


    文末福利
    后臺回復關鍵詞【入群
    加入賣萌屋NLP/IR/Rec與求職討論群
    有頂會審稿人、大廠研究員、知乎大V和妹紙
    等你來撩哦~

    總結

    以上是生活随笔為你收集整理的有钱可以多任性?OpenAI提出人肉模型训练,文本摘要全面超越人类表现!的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。