日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

谷歌提出可量化评估NLG模型性能的BLEURT指标

發(fā)布時間:2023/11/22 综合教程 62 生活家
生活随笔 收集整理的這篇文章主要介紹了 谷歌提出可量化评估NLG模型性能的BLEURT指标 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

  過去幾年,自然語言生成(NLG)模型得到了巨大的發(fā)展,通讀、總結文本、以及參與對話的能力都已大幅提升。為便于研究團隊評估不同 NLG 模型的性能,搜索巨頭谷歌(Google)特地提出了一個名叫 BLEURT 量化指標。通常情況下,我們可以通過人工和自動化流程來評估 NLG 模型,比如雙語評估學習(BLEU)。前者的缺點是太費人力,后者的優(yōu)勢是具有更高的準確性。

(來自:MIT Tech Review)

  谷歌研究人員稱,BLEURT 是一種針對自然語言模型(NLG)的全新自動化評估指標,可為不同模型打出可靠的評分,結果接近、甚至超越了人類指標。

  據(jù)悉,BLEURT 的核心為機器學習。對于任何 ML 模型,最重要的就是訓練用的數(shù)據(jù)有多豐富。然而對于 NLG 模型來說,其訓練數(shù)據(jù)是相當有限的。

  實際上,在 WMT Metrics Task 數(shù)據(jù)集中(目前人類匯聚的最大集合),也僅收集了涵蓋新聞領域的大約 26 萬數(shù)據(jù)。

  若將之用作唯一的訓練數(shù)據(jù)集,那 WMT 度量任務數(shù)據(jù)集將失去訓練模型的通用性和魯棒性。為攻克這一問題,研究人員采取了轉移學習的方法。

  首先,研究團隊使用了 BERT 的上下文詞,且其已順利聚合到 Yis 和 BERTscore 等 NLG 量化工具中。

  接著,研究人員介紹了一種新穎的預訓練方案,以提升 BLEURT 的魯棒性和準確度,同時有助于應對模型的質量偏移。

  在微調人工量化標準前,BLEURT 借助了數(shù)以百萬計的合成句子,對 NLG 模型展開了“預熱”訓練。其通過來自維基百科的句子、加上隨機擾動來生成訓練數(shù)據(jù)。

  研究團隊未手機人工評分,而是使用了相關文獻(含 BLEU)中的指標與模型集合,能夠以極低的代價來擴大訓練示例的數(shù)量,然后對 BLEURT 進行了兩次預訓練。

  其一階段目標是語言建模,二階段目標則是評估 NLG 模型,此后團隊在 WMT 指標數(shù)據(jù)集上對模型進行了微調。一旦受過訓練,BLEURT 就會試著與競爭方案對抗,以證明其由于當前的指標。

  據(jù)悉,BLUERT 在 Python 3 上運行,且依賴于 TensorFlow,詳情可參閱 GitHub 項目介紹頁(傳送門)。有關這項研究的詳情,可翻看ArXiv上的預印本。

  最后,研究人員還總結了其它結果,比如 BLEURT 試圖“捕獲表面重疊以外的 NLG 質量”,該指標在兩項學術基準評估中獲得了 SOTA 的評價。

總結

以上是生活随笔為你收集整理的谷歌提出可量化评估NLG模型性能的BLEURT指标的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯,歡迎將生活随笔推薦給好友。