日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

7. 基于策略的强化学习——蒙特卡洛策略梯度REINFORCE算法

發布時間:2024/10/12 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 7. 基于策略的强化学习——蒙特卡洛策略梯度REINFORCE算法 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

前6篇我們都是估計動作值函數Q,從而可以根據估計的Q值選擇相應的動作。但是這樣的值函數(Value Based)估計方法有著一定的限制。第一,值函數估計方法最后得到的策略是固定策略,不能應對最優策略是隨機策略的情況,隨機策略指的是以一定的概率選擇不同的動作,而不是只可能有一個最優動作。第二,值函數估計方法能很好的處理離散動作空間,無法處理連續動作。第三,在使用特征來描述狀態空間中的某一個狀態時,有可能因為個體觀測的限制或者建模的局限,導致真實環境下本來不同的兩個狀態卻再我們建模后擁有相同的特征描述,進而很有可能導致我們的Value Based方法無法得到最優解。本篇介紹策略估計的方法,直接參數化策略,基于策略來學習,且這種方式更容易收斂。

類似于基于值函數的強化學習方法參數化動作值函數,在基于策略的強化學習方法下,講策略$\pi$描述為一個包含參數$\theta$的函數,

\[{\pi _\theta }\left( {s,a} \right) = P\left( {a|s,\theta } \right)\]

之前基于值函數的強化學習方法的策略$\pi$其實是確定性的貪心策略,當我們估計出動作值函數Q之后,策略$\pi$就是選擇Q值大的動作執行。然而本章的策略$\pi$是一種概率分布,表示在某一狀態s下,選擇不同動作a的概率分布。常用的策略分布函數有兩種,

一種是離散空間的softmax函數,用$\phi {(s,a)}$函數描述狀態s和動作a的特征,與參數$\theta$線性組合,作為自然對數e的指數,來計算某一個動作a在所有動作A的比例,從而表示發生的概率,

\[{\pi _\theta }(s,a) = \frac{{{e^{\phi {{(s,a)}^T}\theta }}}}{{\sum\limits_A {{e^{\phi {{(s,a)}^T}\theta }}} }}\]

另一種是連續空間的高斯函數,該種策略的行為分布從高斯分布$N\left( {\phi {{(s)}^T}\theta ,{\sigma ^2}} \right)$中產生,

\[{\pi _\theta }(s,a) = N\left( {\phi {{(s)}^T}\theta ,{\sigma ^2}} \right)\]

將策略表示成一個連續的函數后,我們就可以用連續函數的優化方法來更新參數$\theta$,從而得到最優的策略。最常用的方法就是梯度下降法了。那么,用來什么優化目標來反向傳遞更新參數呢?常用的策略梯度優化目標$J(\theta)$有三種,在片段式環境里,我們可以用初始狀態收獲的期望值,在連續環境里,我們可以用狀態的平均值,或者每一步的平均獎勵。不管目標函數是什么,它的梯度都可以表示為(見論文[1]的推導)

\[{\nabla _\theta }J(\theta ) = {{\rm E}_{\pi \theta }}\left[ {{\nabla _\theta }\log {\pi _\theta }\left( {{s_t},{a_t}} \right){Q_t}} \right]\]

有了策略$\pi_\theta$的函數表達式,有了目標函數,我們就可以利用優化方法來更新參數了。策略$\pi$表示的是選擇動作的概率分布,所以在根據樣本更新參數的過程中,其實就是根據獎勵R增大或減小動作被選擇的概率。

接下來介紹基于蒙特卡洛采樣的策略梯度算法——REINFORCE算法,基于狀態價值V函數來更新


1. 初始化策略$\pi$的參數$\theta$

2. for 每一個完整的episode,$\left\{ {{s_1},{a_1},{r_2},...,{s_{T - 1}},{a_{T - 1}},{r_T}} \right\} \sim {\pi _\theta }$:

3.  for t=1到t=T-1:

4.    用蒙特卡洛求經驗平均值來計算$v_t$

5.? ?   更新參數$\theta$,

 ?     $\theta? \leftarrow \theta? + \alpha {\nabla _\theta }\log {\pi _\theta }\left( {{s_t},{a_t}} \right){v_t}$

6.  ? 依據更新的$\theta$值,按照新的策略$\pi_\theta$生成新的完整的episode,回到步驟2.

7. 重復以上步驟,從許多個episode中不斷更新$\theta$,從而得到最優策略$\pi$


?

[1] Sutton R S, Mcallester D A, Singh S P, et al. Policy Gradient Methods for Reinforcement Learning with Function Approximation[C]. neural information processing systems, 1999: 1057-1063.

轉載于:https://www.cnblogs.com/yijuncheng/p/10311342.html

總結

以上是生活随笔為你收集整理的7. 基于策略的强化学习——蒙特卡洛策略梯度REINFORCE算法的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 色婷婷综合成人av | 自拍偷拍在线播放 | 99热成人| 午夜痒痒网 | 欧美不卡一二三 | 中文字幕永久在线视频 | 女警白嫩翘臀呻吟迎合 | 国产福利一区在线 | 日本女优中文字幕 | www狠狠操| 国产91美女视频 | 日本久久久久 | 手机看片91 | 久久久亚洲av波多野结衣 | 欧洲女性下面有没有毛发 | 国产情侣一区二区三区 | 男女黄床上色视频 | 日韩久久免费视频 | 在线观看aaa| 一级黄色性片 | 中文字幕+乱码+中文乱码91 | 手机av免费看 | 天堂一区| 国产九九九九 | 欲求不满的岳中文字幕 | 欧美粗又大 | 亚洲三级小视频 | 久久e热| 污网站免费在线观看 | 97精品在线 | 91精品人妻一区二区三区 | 怡红院亚洲 | 荷兰女人裸体性做爰 | 日韩一级影视 | 五月天开心网 | 丰满人妻一区二区三区四区 | 亚洲美女性生活视频 | 黄色成人av网站 | 成人在线亚洲 | 封神榜二在线高清免费观看 | 在线观看黄色av网站 | 一级片视频在线观看 | 国产福利视频一区二区 | 国产精品免费一区二区三区 | av手机免费看 | 亚洲第十页 | av资源在线免费观看 | 成年人免费在线视频 | 欧美色视频在线 | 天天插美女 | 日韩极品视频在线观看 | 五月婷婷网 | 色偷偷噜噜噜亚洲男人 | 国产av成人一区二区三区高清 | 国产91丝袜在线播放 | 国产精品成人国产乱一区 | 成人黄色三级视频 | 三级国产在线 | 午夜在线观看一区 | 蜜臀人妻四季av一区二区不卡 | 日不卡| 狠狠躁夜夜躁av无码中文幕 | 麻豆精品视频在线 | 极品少妇av| 国产免费激情 | 真实的国产乱xxxx在线 | 国产三级按摩推拿按摩 | 国产一区二区三区 | 亚洲精品乱码久久久久久久 | 国产思思 | 五月天综合 | 欧美日韩大片 | 在线免费看黄网站 | 97国产一区| 黄色免费在线播放 | 日韩视频精品一区 | 波多野结衣 一区 | 国产午夜伦鲁鲁 | 都市激情亚洲一区 | 免费av不卡在线观看 | 69免费| 乱日视频| 亚洲成人av在线播放 | 免费天堂av | 久久青| 国产黄色一级大片 | 久久久久久av无码免费看大片 | 欧美巨鞭大战丰满少妇 | 肉色超薄丝袜脚交69xx | 四虎免费观看 | 九九热视频在线播放 | 2一3sex性hd | 秘密基地动漫在线观看免费 | 国产av剧情一区二区三区 | 91av片| 影音先锋啪啪资源 | 久久成人精品一区二区 | 狗爬女子的视频 | 在线播放一区 |