日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

em算法 实例 正态分布_Petuum提出序列生成学习算法通用框架

發布時間:2025/3/15 编程问答 20 豆豆
生活随笔 收集整理的這篇文章主要介紹了 em算法 实例 正态分布_Petuum提出序列生成学习算法通用框架 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
近日,來自人工智能創業公司 Petuum 的研究人員發表論文,提出序列生成學習算法的通用框架——廣義的熵正則化策略優化框架(Generalized Entropy-Regularized Policy Optimization)。該框架是對包括最大似然學習 (MLE)、增強學習 (RL) 等多種廣泛使用的算法的泛化。研究人員進而提出一種新的序列生成算法,該算法在已有算法中進行動態插值,在機器翻譯和文本摘要任務中實現了穩定的提升。

序列生成是一個常見的機器學習任務,比如機器翻譯、文本摘要、圖像字幕生成等。

近日,Petuum 發布論文《Connecting the Dots Between MLE and RL for Sequence Generation》,對多種廣泛使用的序列生成學習算法提出了統一的視角,即廣義的熵正則化策略優化框架。可以證明這些算法在數學上等同于在框架中設定不同超參數的特例。該研究提供了對不同算法的系統性的理解和對比,并啟發更多的算法提升。基于此通用框架,研究人員還提出了一種新的插值算法,在機器翻譯和文本摘要任務中實現了穩定的提升。

序列模型的發展(如具備不同單元和注意力機制的循環神經網絡)促進了序列生成任務的進步。這些模型通常可以使用多種不同的學習算法進行訓練,詳見下文。

常用的序列生成學習算法(點)

標準的訓練算法基于最大似然估計(MLE),即試圖最大化真實數據的對數似然(data log-likelihood)。盡管 MLE 訓練計算簡單、高效,但它會遭遇曝光偏差(exposure bias)。即模型在預測下一個 token 時使用的是真實數據中的 token,而訓練出的模型在測試時無法得到真實數據而只能使用模型預測出的 token。這種訓練和測試之間的偏差導致預測出現誤差,且隨著序列長度的增加,這一偏差也會越來越大。

很多研究試圖解決該問題,其中一些基于強化學習 (RL)。例如,Ranzato 等人在《Sequence Level Training with Recurrent Neural Networks》中采用策略梯度算法,通過在訓練和測試階段使用同樣的解碼策略來避免這種偏差。但是,基于 RL 的序列生成方法會面臨極低的采樣效率和極高的方差。

為了使訓練更加可行,其他研究人員提出了多種方法,這些方法介于 MLE 和 RL 之間。例如,RAML 對 MLE 數據樣本根據 reward 函數進行擾動,SPG 基于 reward 分布實現策略梯度的高效采樣,數據加噪(data noising)等方法也有一定的性能提升。

最大似然估計(MLE)

最大似然估計是訓練序列生成模型最常用的方法。MLE 旨在尋找最大化數據對數似然的最優參數值:

獎勵增強最大似然(RAML)

RAML 最初用于將特定任務的 reward(task metric reward)納入 MLE 訓練,該方法相對于原版 MLE 有很大的性能提升。具體來說,RAML 引入了一個指數 reward 分布 e(y|y*) ∝ exp{R(y|y*)},其中 R 指任務度量(如 BLEU)。RAML 最大化以下目標函數:

如果我們將 e(y|y*) 中的任務獎勵 R 換成 MLE 的 δ 獎勵,則 RAML 目標函數等同于原版 MLE 目標函數,即:

數據加噪

向訓練數據添加噪聲是常用的正則化方法。之前的研究提出多種適合序列生成 的數據加噪策略。例如,將數據 y* 中的每個 token 以概率 γ 替換成噪聲 token,每個噪聲 token 隨機從一元頻率分布(unigram frequency distribution)中采樣獲得。然后將得到的帶噪聲數據用于 MLE 訓練。形式上來看,它等同于使用獎勵函數:

其中 u(·) 表示一元頻率分布。使用松弛(即平滑)獎勵后,數據加噪一定程度上擴展了原版 MLE 的探索空間。其效果本質上等同于 RAML 算法,區別在于 RAML 基于任務獎勵函數來擴展探索空間。

Softmax 策略梯度 (SPG)

SPG 旨在適應原版策略梯度,用作采樣的獎勵函數。SPG 的目標函數如下:

其中 R 表示 reward 函數。作為標準策略梯度算法的變體,SPG 旨在解決曝光偏差問題,并表現出了卓越的結果。

圖 1:不同算法的有效探索空間。(a):MLE 的探索空間即訓練樣本的集合。(b):RAML 和數據加噪使用平滑的獎勵函數,允許訓練樣本周圍的較大探索空間。(c):常見的策略優化算法(如 SPG)大體上允許全部探索空間。

連點成線

Petuum 對這些學習算法構建了一個統一的視角。具體來說,他們展示了一個廣義熵正則化策略優化(ERPO)框架,并證明明顯不同的多種算法(如 MLE、RAML、SPG 和數據加噪)都可以重新公式化為該框架中的特殊實例,唯一的區別在于 reward 函數和超參數值的不同選擇。

除了對已有算法進行全新詮釋以外,該統一視角還推動了新算法的開發。研究人員展示了一個新算法,隨著訓練的進行,新算法對 reward 函數和超參數值退火,從而逐漸擴展探索空間。退火實際上就是在已有算法中進行動態插值。在機器翻譯和文本摘要任務上的實驗表明,該插值算法比已有的方法有顯著提升。

通用框架

該研究提出的通用框架旨在用常見的數學公式統一上述算法。該框架基于策略優化,策略優化即在模型分布下最大化期望獎勵。大量關于熵正則化策略優化(ERPO)的研究通過用信息論正則化項增強策略優化來穩定學習。Petuum 研究人員提出一個 ERPO 的通用公式。假設變量分布為 q(y|x),則我們采用以下目標函數:

其中 (x, y*) 表示訓練數據對,y 指在 q(y|x) 分布中采樣的句子,KL(·||·) 表示 KL 散度,H(·) 是香農熵,α 和 β表示相應項的均衡權重,pθ 指用 θ 進行參數化的序列生成模型。

使用拉格朗日乘子法,該目標函數可以通過類似 EM 算法的步驟分別優化 q 和θ。在第 n 次迭代時:

現有算法是特殊實例

我們可以將已有的序列生成算法表示為該框架的特殊實例。

最大似然估計(MLE)

使 (R = Rδ, α → 0, β = 1)。如果 y = y*,則 ERPO 的 E-step 中 q(y|x) = 1,反之結果為 0。因此 M-step 與以下公式等價:

可見上式精確地還原了 MLE 的目標函數。

也就是說,MLE 可以看做帶有 δ 獎勵及上述權重值的策略優化算法的一個實例。任何不能精確匹配數據 y* 的樣本 y 都將收到負無窮獎勵,從而永遠不對模型學習做出貢獻。

獎勵增強最大似然(RAML)

如果用 MLE δ 獎勵取代 e(y|y*) 中的任務獎勵 R,則 RAML 目標函數就將等同于原版 MLE 目標函數。MLE 和 RAML 之間的這種關系在 ERPO 中仍然存在。與在 ERPO 中還原 MLE 的方法類似,使 (α → 0, β = 1),但將 R 設置為任務度量獎勵,則 ERPO 的 M-step 精確地等同于最大化上述 RAML 目標函數。

數據加噪

數據加噪也可以作為 ERPO 框架中的特殊實例。從取 (R = Rδ, α → 0, β = 1) 的 MLE 的 ERPO 重公式化開始,數據加噪可以用上述一元松弛 Rδ 進行公式化。

Softmax 策略梯度(SPG)

SPG 可以輕松兼容 ERPO 框架。將 SPG 目標函數的梯度設為 θ,我們可以立即得到與 ERPO 相同的更新規則,(α = 1, β = 0, R = common reward)。

注意,SPG 和 RAML 配置中唯一的區別在于現在 α = 1。與 RAML 相比,SPG 利用獎勵分布和模型分布使探索空間更向前了一步。從理論上來講,在訓練階段進行充分的探索將提高測試階段的性能。然而,隨著訓練難度的增加,必須使用額外的復雜優化及近似技術(Ding & Soricut, 2017),使訓練更加可行。

圖 2:不同學習算法的統一表述。每個算法對通用 ERPO 框架來說都是一個特例,采用了超參數 (R, α, β) 的某些特定取值。

應用:插值算法

在廣義 ERPO 框架中,一系列常用學習算法都可以被理解為具有三個特定規格超參數 (R, α, β) 的實例。每個算法都可以被視為超參數空間(圖 1)中的一個點。通常,具有更受限的獎勵函數 R 和非常小的 α 的點具有更小的有效探索空間,并且允許高效學習(如 MLE),相比之下,帶有平滑 R 和較大 α 的點將導致更難的學習問題,但允許更高效的探索和更好的測試性能(如 (softmax) 策略梯度)。研究人員在論文中還探索了一種對現有算法進行插值的示例算法。

該插值算法從最受限但最簡單的配置 (MLE) 開始學習,并逐漸擴展探索空間以減少和測試階段之間的差異——由易到難的學習范式。由于已經將常用算法映射到超參數空間中的點,因此插值變得非常簡單,只需超參數值的退火。

實驗結果

研究人員在機器翻譯和文本摘要任務上評估了上述插值算法。如下圖所示,與之前的方法相比,該算法達到了更好的效果。

圖 3:上圖是不同學習算法在機器翻譯任務上的收斂曲線。下圖是與 MLE 相比,該算法在文本摘要任務上的提升。

論文:Connecting the Dots Between MLE and RL for Sequence Generation

  • 論文鏈接:https://arxiv.org/abs/1811.09740
  • 代碼:https://github.com/asyml/texar/tree/master/examples/seq2seq_exposure_bias

該研究的代碼實現基于 Texar,一個通用、易用的文本生成工具庫。

總結

以上是生活随笔為你收集整理的em算法 实例 正态分布_Petuum提出序列生成学习算法通用框架的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 国产懂色av | 五月激情在线观看 | 性喷潮久久久久久久久 | 免费福利在线视频 | 亚洲精品乱码久久久久久麻豆不卡 | 日韩制服在线 | 国产性生活网站 | 成人欧美在线视频 | 色哟哟一区二区三区四区 | 香蕉视频国产在线观看 | 无套暴操 | 日本不卡一区在线 | 少妇太爽了太深了太硬了 | 波多野结衣一区二区 | 污视频网站在线 | 女子spa高潮呻吟抽搐 | 日韩在线视频看看 | 97视频在线观看免费高清完整版在线观看 | 亚洲精品久久久久国产 | 久久久久久免费精品 | 丰满熟妇被猛烈进入高清片 | 亚洲每日在线 | 久草视频在线播放 | 三级男人添奶爽爽爽视频 | 欧美成人午夜 | 精品久久久一区 | 青青操视频在线播放 | 超碰天天干 | 欧美91成人网 | 怨女1988国语版在线观看高清 | 亚洲国产www| 黄色片在线免费观看视频 | 中国av在线 | 成人依人 | 狠狠干狠狠操视频 | 豆豆色成人网 | 色资源av| 午夜爱| 国产又粗又黄又爽 | 人妻色综合网站 | 亚洲精品456 | 久久无码性爱视频 | 91日韩在线视频 | 久久久视屏 | 国产美女精品一区二区三区 | 国产 xxxx | 日精品 | 日韩av在线高清 | 国产一区二区三区四区视频 | 天天草夜夜草 | 99久久久无码国产精品性色戒 | 欧美三级久久久 | 久久精品国产久精国产 | 久久精品丝袜高跟鞋 | 奇米影视777第四色 2019中文字幕在线免费观看 | 久久亚洲影院 | japanese24hdxxxx日韩 | 熟妇人妻久久中文字幕 | 中国a级大片 | 91精品国产综合久久久久久 | 深夜视频一区二区三区 | 三年中文在线观看中文版 | 97se视频| 国产xxx在线观看 | 熟女av一区二区三区 | 蜜臀av一区二区三区有限公司 | av色综合 | 青草av在线| 亚洲午夜av久久乱码 | 亚洲精品视频播放 | 国产视频一区二区三区在线观看 | 国产成人三级一区二区在线观看一 | 永久免费看片在线观看 | av毛片观看| 黄色免费91 | 桃花久久| 自偷自拍亚洲 | 99在线精品视频免费观看20 | 免费黄色一区二区 | 国内偷拍久久 | 久久这里有精品 | 国产精品丝袜 | 妞干网这里只有精品 | 日韩特黄毛片 | 国产性生活视频 | 三级黄色在线 | 亚洲性综合网 | 亚洲欧洲激情 | 国产精品宾馆在线 | 男男一级淫片免费播放 | 三上悠亚一区二区在线观看 | 亚洲涩涩图 | av资源共享 | 黄色一级片视频 | 97在线公开视频 | av免费观看大全 | 99精品久久久久久中文字幕 | 91香蕉视频官网 | 丰满多毛的大隂户视频 |