强化学习(三)—— 策略学习(Policy-Based)及策略梯度(Policy Gradient)
強化學習(三)—— 策略學習(Policy-Based)及策略梯度(Policy Gradient)
- 1. 策略學習
- 2. 策略梯度
- 3. 案例
1. 策略學習
Policy Network
- 通過策略網絡近似策略函數
π(a∣st)≈π(a∣st;θ)π(a|s_t)≈π(a|s_t;\theta) π(a∣st?)≈π(a∣st?;θ) - 狀態價值函數及其近似
Vπ(st)=∑aπ(a∣st)Qπ(st,a)V_π(s_t)=\sum_aπ(a|s_t)Q_π(s_t,a) Vπ?(st?)=a∑?π(a∣st?)Qπ?(st?,a)
V(st;θ)=∑aπ(a∣st;θ)?Qπ(st,a)V(s_t;\theta)=\sum_aπ(a|s_t;\theta)·Q_π(s_t,a) V(st?;θ)=a∑?π(a∣st?;θ)?Qπ?(st?,a) - 策略學習最大化的目標函數
J(θ)=ES[V(S;θ)]J(\theta)=E_S[V(S;\theta)] J(θ)=ES?[V(S;θ)] - 依據策略梯度上升進行
θ←θ+β??V(s;θ)?θ\theta\gets\theta+\beta·\frac{\partial V(s;\theta)}{\partial \theta} θ←θ+β??θ?V(s;θ)?
2. 策略梯度
Policy Gradient
?V(s;θ)θ=∑aQπ(s,a)?π(a∣s;θ)?θ=∫aQπ(s,a)?π(a∣s;θ)?θ=∑aπ(a∣s;θ)?Qπ(s,a)?ln[π(a∣s;θ)]?θ=EA~π(a∣s;θ)[Qπ(s,A)?ln[π(A∣s;θ)]?θ]≈Qπ(st,at)?ln[π(at∣st;θ)]?θ\frac{\partial V(s;\theta)}{\theta}=\sum_a{Q_\pi(s,a)\frac{\partial\pi(a|s;\theta)}{\partial\theta}}\\=\int_a{Q_\pi(s,a)\frac{\partial\pi(a|s;\theta)}{\partial\theta}}\\=\sum_a{\pi(a|s;\theta)·Q_\pi(s,a)\frac{\partial ln[\pi(a|s;\theta)]}{\partial\theta}}\\=E_{A\sim\pi(a|s;\theta)}[Q_\pi(s,A)\frac{\partial ln[\pi(A|s;\theta)]}{\partial\theta}]\\≈Q_\pi(s_t,a_t)\frac{\partial ln[\pi(a_t|s_t;\theta)]}{\partial\theta} θ?V(s;θ)?=a∑?Qπ?(s,a)?θ?π(a∣s;θ)?=∫a?Qπ?(s,a)?θ?π(a∣s;θ)?=a∑?π(a∣s;θ)?Qπ?(s,a)?θ?ln[π(a∣s;θ)]?=EA~π(a∣s;θ)?[Qπ?(s,A)?θ?ln[π(A∣s;θ)]?]≈Qπ?(st?,at?)?θ?ln[π(at?∣st?;θ)]?
- 觀測得到狀態
sts_t st? - 依據策略函數隨機采樣動作
at=π(at∣st;θ)a_t = \pi(a_t|s_t;\theta) at?=π(at?∣st?;θ) - 計算價值函數
qt=Qπ(st,at)q_t = Q_\pi(s_t,a_t) qt?=Qπ?(st?,at?) - 求取策略網絡的梯度
dθ,t=?ln[π(at∣st;θ)]?θ∣θ=θtd_{\theta,t}=\frac{\partial ln[\pi(a_t|s_t;\theta)]}{\partial\theta}|\theta=\theta_t dθ,t?=?θ?ln[π(at?∣st?;θ)]?∣θ=θt? - 計算近似的策略梯度
g(at,θt)=qt?dθ,tg(a_t,\theta _t)=q_t·d_{\theta,t} g(at?,θt?)=qt??dθ,t? - 更新策略網絡
θt+1=θt+β?g(at,θt)\theta_{t+1}=\theta_t+\beta·g(a_t,\theta_t) θt+1?=θt?+β?g(at?,θt?)
3. 案例
目前沒有好的方法近似動作價值函數,則未撰寫案例。
by CyrusMay 2022 03 29
總結
以上是生活随笔為你收集整理的强化学习(三)—— 策略学习(Policy-Based)及策略梯度(Policy Gradient)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 强化学习(二)—— 价值学习(Value
- 下一篇: 强化学习(四)—— Actor-Crit