日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【强化学习】策略梯度Policy-Gradient

發布時間:2025/4/5 编程问答 20 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【强化学习】策略梯度Policy-Gradient 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄

      • Value-based 強化學習方法的不足
      • Policy-based 強化學習方法的引入
      • 策略梯度的優化目標
      • 策略函數的設計
            • Softmax策略函數
            • Gauss策略函數
      • 蒙特卡羅策略梯度reinforce算法
      • 小結

強化學習筆記,內容來自 劉建平老師的博客
?

Value-based 強化學習方法的不足

? Q-learning、Sarsa、DQN都是基于價值的強化學習算法,存在主要三種不足:

? 1. 對連續動作的處理能力不足

? DQN之類的方法一般都是只處理離散動作,無法處理連續動作。

? 2. 對受限狀態下的問題處理能力不足

? 在使用特征來描述狀態空間中的某一個狀態時,有可能因為個體觀測的限制或者建模的局限,導致真實環境下本來不同的兩 個狀態卻再我們建模后擁有相同的特征描述,進而很有可能導致我們的value Based方法無法得到最優解。

? 3. 無法解決隨機策略問題

? Value-based強化學習方法對應的最優策略通常是確定性策略,因為其是從眾多行為價值中選擇一個最大價值的行為,而有 些問題的最優策略卻是隨機策略,這種情況下同樣是無法通過基于價值的學習來求解的。

?
?
?

Policy-based 強化學習方法的引入

? 在Value-based強化學習方法里,對價值函數進行了近似表示,引入了一個動作價值函數q^,這個函數由參數w描述,并接受狀態S與動作A作為輸入,計算后得到近似的動作價值,即:

?

? 在Policy-based強化學習方法下,采樣類似的思路,只不過這時對策略進行近似表示。此時策略π可以被被描述為一個包含參數θ的函數,即:

?

? 將策略表示成一個連續的函數后就可以用連續函數的優化方法來尋找最優的策略了,最常用的方法就是梯度上升法。

?
?
?

策略梯度的優化目標

? 1. 初始狀態收獲的期望:

?

? 2. 平均價值:

?

? (其中,dπθ(s)是基于策略πθ生成的馬爾科夫鏈關于狀態的靜態分布 )

? 3. 每一時間步的評價獎勵:

?

? 無論哪一種,最終對θ求導的梯度都可表示為:

?

? 還可以采用很多其他可能的優化目標來做梯度上升,此時梯度式子里面的?θlogπθ(s,a)部分并不改變,變化的只是后面的Qπ(s,a)部分。?θlogπθ(s,a) 一般稱為分值函數(score function)。

?
?
?

策略函數的設計

Softmax策略函數

? 主要應用于離散空間中,使用描述狀態和行為的特征?(s,a) 與參數θ的線性組合來權衡一個行為發生的幾率,即:

?

? 則通過求導求出對應的分值函數為:

?

Gauss策略函數

? 主要應用于連續行為空間,對應的行為從高斯分布N(?(s)^T θ,σ^2)中產生。對應的分值函數通過對策略求導可以得到為:

?

?
?
?

蒙特卡羅策略梯度reinforce算法

? 蒙特卡羅策略梯度reinforce算法是最簡單的策略梯度算法,使用價值函數 v(s) 來近似代替策略梯度公式里面的 Qπ(s,a)。

? 算法流程:

? 輸入:N個蒙特卡羅完整序列,訓練步長α

輸出:策略函數的參數θ

? 1. for 每個蒙特卡羅序列:

? a)用蒙特卡羅法計算序列每個時間位置t的狀態價值 vt

? b)對序列每個時間位置t,使用梯度上升法更新策略函數的參數θ:

?

? 2. 返回策略函數的參數θ(策略函數可以是Softmax策略,高斯策略或者其他策略 )

?
?
?

小結

? 策略梯度提供了和 DQN 之類的方法不同的新思路,但是簡單的蒙特卡羅策略梯度reinforce算法卻并不完美。由于是蒙特卡羅法,需要完全的序列樣本才能做算法迭代,同時蒙特卡羅法使用收獲的期望來計算狀態價值,會導致行為有較多的變異性,參數更新的方向很可能不是策略梯度的最優方向。因此,Policy-based的強化學習方法還需要改進,例如 Policy-based與Value-based結合的策略梯度方法Actor-Critic。

總結

以上是生活随笔為你收集整理的【强化学习】策略梯度Policy-Gradient的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。