當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习（三）—— 策略学习（Policy-Based）及策略梯度（Policy Gradient）

發布時間：2025/3/21 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了强化学习（三）—— 策略学习（Policy-Based）及策略梯度（Policy Gradient）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

強化學習（三）—— 策略學習（Policy-Based）及策略梯度（Policy Gradient）

1. 策略學習
2. 策略梯度
3. 案例

1. 策略學習

Policy Network

通過策略網絡近似策略函數
$π(a∣st)≈π(a∣st;θ)π(a|s_t)≈π(a|s_t;\theta)$
狀態價值函數及其近似
$Vπ(st)=∑aπ(a∣st)Qπ(st,a)V_π(s_t)=\sum_aπ(a|s_t)Q_π(s_t,a)$
$V(st;θ)=∑aπ(a∣st;θ)?Qπ(st,a)V(s_t;\theta)=\sum_aπ(a|s_t;\theta)·Q_π(s_t,a)$
策略學習最大化的目標函數
$J(θ)=ES[V(S;θ)]J(\theta)=E_S[V(S;\theta)]$
依據策略梯度上升進行
$θ←θ+β??V(s;θ)?θ\theta\gets\theta+\beta·\frac{\partial V(s;\theta)}{\partial \theta}$

2. 策略梯度

Policy Gradient

$?V(s;θ)θ=∑aQπ(s,a)?π(a∣s;θ)?θ=∫aQπ(s,a)?π(a∣s;θ)?θ=∑aπ(a∣s;θ)?Qπ(s,a)?ln[π(a∣s;θ)]?θ=EA～π(a∣s;θ)[Qπ(s,A)?ln[π(A∣s;θ)]?θ]≈Qπ(st,at)?ln[π(at∣st;θ)]?θ\frac{\partial V(s;\theta)}{\theta}=\sum_a{Q_\pi(s,a)\frac{\partial\pi(a|s;\theta)}{\partial\theta}}\\=\int_a{Q_\pi(s,a)\frac{\partial\pi(a|s;\theta)}{\partial\theta}}\\=\sum_a{\pi(a|s;\theta)·Q_\pi(s,a)\frac{\partial ln[\pi(a|s;\theta)]}{\partial\theta}}\\=E_{A\sim\pi(a|s;\theta)}[Q_\pi(s,A)\frac{\partial ln[\pi(A|s;\theta)]}{\partial\theta}]\\≈Q_\pi(s_t,a_t)\frac{\partial ln[\pi(a_t|s_t;\theta)]}{\partial\theta}$

觀測得到狀態
$s_t$
依據策略函數隨機采樣動作
$at=π(at∣st;θ)a_t = \pi(a_t|s_t;\theta)$
計算價值函數
$qt=Qπ(st,at)q_t = Q_\pi(s_t,a_t)$
求取策略網絡的梯度
$dθ,t=?ln[π(at∣st;θ)]?θ∣θ=θtd_{\theta,t}=\frac{\partial ln[\pi(a_t|s_t;\theta)]}{\partial\theta}|\theta=\theta_t$
計算近似的策略梯度
$g(at,θt)=qt?dθ,tg(a_t,\theta _t)=q_t·d_{\theta,t}$
更新策略網絡
$θt+1=θt+β?g(at,θt)\theta_{t+1}=\theta_t+\beta·g(a_t,\theta_t)$

3. 案例

目前沒有好的方法近似動作價值函數，則未撰寫案例。

by CyrusMay 2022 03 29

總結

以上是生活随笔為你收集整理的强化学习（三）—— 策略学习（Policy-Based）及策略梯度（Policy Gradient）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：强化学习（二）—— 价值学习（Value
下一篇：强化学习（四）—— Actor-Crit