日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习(三)—— 策略学习(Policy-Based)及策略梯度(Policy Gradient)

發布時間:2025/3/21 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 强化学习(三)—— 策略学习(Policy-Based)及策略梯度(Policy Gradient) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

強化學習(三)—— 策略學習(Policy-Based)及策略梯度(Policy Gradient)

  • 1. 策略學習
  • 2. 策略梯度
  • 3. 案例

1. 策略學習

Policy Network

  • 通過策略網絡近似策略函數
    π(a∣st)≈π(a∣st;θ)π(a|s_t)≈π(a|s_t;\theta) π(ast?)π(ast?;θ)
  • 狀態價值函數及其近似
    Vπ(st)=∑aπ(a∣st)Qπ(st,a)V_π(s_t)=\sum_aπ(a|s_t)Q_π(s_t,a) Vπ?(st?)=a?π(ast?)Qπ?(st?,a)
    V(st;θ)=∑aπ(a∣st;θ)?Qπ(st,a)V(s_t;\theta)=\sum_aπ(a|s_t;\theta)·Q_π(s_t,a) V(st?;θ)=a?π(ast?;θ)?Qπ?(st?,a)
  • 策略學習最大化的目標函數
    J(θ)=ES[V(S;θ)]J(\theta)=E_S[V(S;\theta)] J(θ)=ES?[V(S;θ)]
  • 依據策略梯度上升進行
    θ←θ+β??V(s;θ)?θ\theta\gets\theta+\beta·\frac{\partial V(s;\theta)}{\partial \theta} θθ+β??θ?V(s;θ)?

2. 策略梯度

Policy Gradient

?V(s;θ)θ=∑aQπ(s,a)?π(a∣s;θ)?θ=∫aQπ(s,a)?π(a∣s;θ)?θ=∑aπ(a∣s;θ)?Qπ(s,a)?ln[π(a∣s;θ)]?θ=EA~π(a∣s;θ)[Qπ(s,A)?ln[π(A∣s;θ)]?θ]≈Qπ(st,at)?ln[π(at∣st;θ)]?θ\frac{\partial V(s;\theta)}{\theta}=\sum_a{Q_\pi(s,a)\frac{\partial\pi(a|s;\theta)}{\partial\theta}}\\=\int_a{Q_\pi(s,a)\frac{\partial\pi(a|s;\theta)}{\partial\theta}}\\=\sum_a{\pi(a|s;\theta)·Q_\pi(s,a)\frac{\partial ln[\pi(a|s;\theta)]}{\partial\theta}}\\=E_{A\sim\pi(a|s;\theta)}[Q_\pi(s,A)\frac{\partial ln[\pi(A|s;\theta)]}{\partial\theta}]\\≈Q_\pi(s_t,a_t)\frac{\partial ln[\pi(a_t|s_t;\theta)]}{\partial\theta} θ?V(s;θ)?=a?Qπ?(s,a)?θ?π(as;θ)?=a?Qπ?(s,a)?θ?π(as;θ)?=a?π(as;θ)?Qπ?(s,a)?θ?ln[π(as;θ)]?=EAπ(as;θ)?[Qπ?(s,A)?θ?ln[π(As;θ)]?]Qπ?(st?,at?)?θ?ln[π(at?st?;θ)]?

  • 觀測得到狀態
    sts_t st?
  • 依據策略函數隨機采樣動作
    at=π(at∣st;θ)a_t = \pi(a_t|s_t;\theta) at?=π(at?st?;θ)
  • 計算價值函數
    qt=Qπ(st,at)q_t = Q_\pi(s_t,a_t) qt?=Qπ?(st?,at?)
  • 求取策略網絡的梯度
    dθ,t=?ln[π(at∣st;θ)]?θ∣θ=θtd_{\theta,t}=\frac{\partial ln[\pi(a_t|s_t;\theta)]}{\partial\theta}|\theta=\theta_t dθ,t?=?θ?ln[π(at?st?;θ)]?θ=θt?
  • 計算近似的策略梯度
    g(at,θt)=qt?dθ,tg(a_t,\theta _t)=q_t·d_{\theta,t} g(at?,θt?)=qt??dθ,t?
  • 更新策略網絡
    θt+1=θt+β?g(at,θt)\theta_{t+1}=\theta_t+\beta·g(a_t,\theta_t) θt+1?=θt?+β?g(at?,θt?)

3. 案例

目前沒有好的方法近似動作價值函數,則未撰寫案例。

by CyrusMay 2022 03 29

總結

以上是生活随笔為你收集整理的强化学习(三)—— 策略学习(Policy-Based)及策略梯度(Policy Gradient)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。