日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

重温强化学习之无模型学习方法:蒙特卡洛方法

發布時間:2025/4/5 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 重温强化学习之无模型学习方法:蒙特卡洛方法 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1、無模型方法簡介

無模型屬于學習方法的一種,(學習和規劃),需要智能體和環境進行交互,一般采用樣本備份,需要結合充分的探索

MDPs中未知P,R-無模型

交互是為了更加了解環境,了解狀態

動態規劃是已經知道模型,沒有模型通過采樣的方法,也就是樣本備份

從經驗中學習

和動態規劃的區別:

無模型學習:

? ? ?1、未知環境模型

? ? ? 2、需要與環境進行交互,有交互成本(時間、金錢)

? ? ? 3、樣本備份

? ? ? 4、異步備份(更新狀態值函數不需要等待更新其它狀態值函數)

? ? ? 5、需要充分的探索(不進行充分探索,學不到最優策略)

? ? ? 6、兩個策略(行為策略和目標策略)

動態規劃:

? ? ? 1、已知環境模型

? ? ? ?2、不需要直接交互,直接利用環境模型推導

? ? ? ?3、全寬備份

? ? ? ?4、同步和異步

? ? ? ?5、無探索(只需要做演算就可以)

? ? ? ?6、一個策略

2、在策略和離策略

行為策略是智能體與環境進行交互的策略,(用來產生樣本)

目標策略是我們學習的策略,即Vpi 時的下標

在策略(on-policy)學習:

? ? ? ?行為策略和目標策略是同一個策略,直接使用樣本統計屬性去估計總體,更簡單且收斂性更好

? ? ? ?數據利用性更差(只有智能體當前交互的樣本能夠被利用)

? ? ? ?限定學習過程中的策略是隨機性策略

離策略(off-policy)學習:

? ? ? 行為策略和目標策略不是同一個策略??

? ? ? 一般行為策略選用隨機性策略,目標策略選用確定性策略

? ? ? 需要結合重要性采樣才能使用樣本估計總體

? ? ? 方差更大,收斂性更差

? ? ? 數據利用性更好(可以使用其它智能體交互的樣本,例如學圍棋可以用棋譜樣本用)

? ? ? 行為策略比目標策略更具備探索性,即,在每個狀態下,目標策略的可行動作是行為策略可行動作的子集

重要性采樣:

? ??

例子:

? ? ?

重要性采樣公式:

? ? ?

離策略學習中的重要性采樣:

3、蒙特卡洛方法(Monte Carlo,MC)

?

蒙特卡洛樹,蒙特卡洛在樹中采樣一條軌跡

方差比較大,樹中每一個節點有一定隨機性,軌跡比較長,中間隨機性較大,

做一次實驗,可信性比較差

樣本備份

動態規劃方法:

考慮所有后繼狀態以及所做的動作

一步備份,只考慮一步情況,蒙特卡洛考慮到最終的狀態

4、蒙特卡洛評價

? ? ? ? ? ?

蒙特卡洛不使用貝爾曼方程

在策略蒙特卡洛評價:

? ? ? First-visit MC策略評價:

? ? ? ? ? ?

? ? ? ? ? ? ? ? ??

? ? ? ? ? ?

? ? ? ? Every-visit MC策略評價:

? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ??

對Q函數的MC方法:

? ? ? ??

? ? ? ? ? ? ? ?? ? ?

? ? ? ?

離策略蒙特卡洛評價:

? ? ? ??

MC特點小結:

? ? ? ??

?

5、增量式蒙塔卡洛算法

為什么需要增量式蒙特卡洛?

增量式MC更新

? ? ? ? ? ? ? ? ? ? ? ? ?

平均值更新

常量步長:

? ? ? ? ? ? ? ? ? ? ? ??

特點:? ? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ? ??

6、蒙特卡洛優化

廣義策略迭代:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

MC中的廣義策略迭代

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

問題一:使用哪個值函數?Q函數

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

問題二:是否可以貪婪策略提升?

? ? ? ?MC雖然利用過去的經驗數據,但是某些狀態并未遍歷到,遍歷不夠充分,置信度不夠

?

-貪婪策略

? ? ? ? ? ? ??

? ? ? ? ? ? ? ? ? ? ? ?? ?? ?

? ? ? ? ? ? ??

策略提升

? ? ? ? ? ? ? ?

? ? ? ? ? ??

?

MC策略迭代:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

?

增量式策略評價:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

每條軌跡

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

7、蒙塔卡洛算法引申

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ???

?

總結

以上是生活随笔為你收集整理的重温强化学习之无模型学习方法:蒙特卡洛方法的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 亚洲综合免费视频 | 情五月 | 榴莲视频黄色 | 激情av中文字幕 | 在线观看9.1| 操综合网 | 99热这里只有精品4 精品国产黄色 | 成人午夜视频免费观看 | 久久涩综合 | 色姑娘综合 | 青青草国产成人99久久 | www.三级| 色花堂在线 | 男人添女人下部高潮全视频 | 啪啪网站免费观看 | 免费av免费看| 国产免费观看久久黄av片 | 中国性老太hd大全69 | 日本不卡视频一区 | 日本免费无人高清 | 婷婷社区五月天 | 日本精品视频网站 | h片大全| 久久av一区二区三区漫画 | 欧美激情成人在线 | 大咪咪dvd | 青青草成人av | 久久午夜影视 | 亚洲黄色一级 | 三级电影在线看 | www麻豆视频 | 黑人一级视频 | 成人av网址在线 | 黄色大片黄色大片 | 少妇人妻综合久久中文字幕 | 成人免费在线视频 | 亚洲女则毛耸耸bbw 边吃奶边添下面好爽 | 亚洲成人av免费观看 | 影音先锋黄色资源 | 天堂av亚洲av国产av电影 | 国产精品一区二区三区在线看 | 麻豆久久久 | 欧美人妻一区二区三区 | 99热这里只有精品4 精品国产黄色 | 一区二区三区美女视频 | 日韩精品中文在线 | 色老头一区二区三区 | 女性女同性aⅴ免费观女性恋 | 九九热视频免费观看 | 欧洲美一区二区三区亚洲 | 国产成年人免费视频 | sao浪受的饥渴日常 91免费入口 | 日韩精品在线视频观看 | 日本黄网站色大片免费观看 | 欧美久久成人 | 久久久久国产精品国产 | 精品无人区无码乱码毛片国产 | 青青青在线视频观看 | 日本高清不卡码 | 免费一区二区三区 | 男人的天堂97 | 精品无码一区二区三区蜜臀 | 国产一级理论片 | 97超碰国产精品无码蜜芽 | 直接看av的网站 | 日本www色 | 农村妇女毛片 | 国产黄色自拍视频 | 欧美大肚乱孕交hd孕妇 | 2020av视频| 亚洲精品一卡 | 韩国一级淫片 | 日本美女影院 | 香蕉久久网站 | 国产精品xxx在线 | 国产日日夜夜 | 超碰人人人| 四虎成人精品永久免费av九九 | 国内精品偷拍 | 九九热视频在线观看 | 性网| 爱久久| 99久久久无码国产精品免费 | 欧美a级黄色片 | 亚洲av成人无码一区二区三区在线观看 | 天堂а√在线最新版中文在线 | 日韩中文第一页 | 天天操天天干天天摸 | 粉嫩av懂色av蜜臀av分享 | 欧美变态网站 | 激情欧美一区 | 日韩美女免费线视频 | 男人av网| 欧美精品第一页 | 国产人妖一区 | 黄色动漫免费在线观看 | h片在线免费 | 日日涩| 网友自拍av|