日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

David Silver强化学习公开课】-2:MDP

發布時間:2025/3/15 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 David Silver强化学习公开课】-2:MDP 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、一些概念

馬爾科夫性質:當前時刻狀態僅僅與前一個時刻相關。

狀態轉移矩陣,表明了任意狀態a到狀態b的條件概率。

馬爾科夫過程(馬爾科夫鏈):一個具有馬爾科夫性質的無記憶的隨機過程,包含n個狀態。

馬爾科夫激勵過程(S,P,R,γ)是一個帶有value的馬爾科夫鏈。

GtGt來表示t時刻會得到的總的return。出于數學計算、防止NaN無窮大的return等原因,引入折扣因子γ[0,1]γ∈[0,1]來對下一時刻的獎勵和更遠的獎勵之間進行取舍。(若所有序列都會在有限步終結,而且策略上合適,γ也可以取1。)

Gt=Rt+1+γRt+2+...=k=0γkRt+k+1Gt=Rt+1+γRt+2+...=∑k=0∞γkRt+k+1

價值函數v(s),在馬爾科夫激勵過程(MRP)中表征指定狀態下,獲得的return的期望。是由所有包含該狀態的樣本Sample序列計算出來的。其中RsRs是立即獎勵,可以認為是離開狀態s時獲得的獎勵。

v(s)=E[Gt|St=s]=E[Rt+1+γ(v(st+1)|St=s)]=Rs+γsSPssv(s)v(s)=E[Gt|St=s]=E[Rt+1+γ(v(st+1)|St=s)]=Rs+γ∑s′∈SPss′v(s′)

上面的公式可以向量化的表示為:

V=R+γPVV=R+γPV

而這個公式是有解析解的,MRP每個狀態的價值可以直接被解出來。

二、MDP

馬爾科夫決策過程(S,A,P,R,γ),在MRP基礎上增加了有限的action集合。

策略,給定狀態時,關于行為的概率分布,用π來表示。決定了agent的行為。

MDP和馬爾科夫過程、MRP內在的聯系。

狀態價值函數vπ(s)vπ(s)定義了在狀態s下,采用策略π,所能獲得的期望return。

行為價值函數qπ(s,a)qπ(s,a)定義了在狀態s下,采取行為a,并在之后采用策略π所能獲得的期望return。

這兩個價值函數之間密切相關。狀態的價值,就等于這個狀態下所有行為a產生的行為價值q,乘以做出該行為的概率(策略)π。反之,行為的價值,就等于這個行為所能產生的立即獎勵immediate reward加上折扣因子乘以下一個狀態(到達這個狀態的概率由動態轉移矩陣來確定)乘以這個狀態的狀態價值。

在MDP中,你能夠控制你的行為(通過策略),但是你無法控制環境(做出行為之后會發生什么),這個要靠動態轉移矩陣來計算。

最佳價值函數v?(s)v?(s)q?(s,a)q?(s,a)。最佳策略π?π?,就是在每個狀態下選擇最大的行為價值函數q*。

如何計算這個Q呢,Bellman Optimality Equation。也就是對每個狀態,其價值等于價值最大的行為的價值,而這個行為的價值又由直接獎勵和行為*可能會導致的狀態價值有關。

v?(s)=maxaq?(s,a)v?(s)=maxaq?(s,a) q?(s,a)=Ras+γsSPassv?(s)q?(s,a)=Rsa+γ∑s′∈SPss′av?(s′)

而這個公式就無法直接解析求解了,求解的方法有:

  • Value iteration
  • Policy iteration
  • Q-learning
  • Sarsa

最后,對MDP的擴展模型和其他一些概念進行了簡介,如infinite/continuous/POMDP/belief states。

參考

  • https://zhuanlan.zhihu.com/p/21378532
原文地址:http://cairohy.github.io/2017/08/29/deeplearning/%E3%80%8ADavid%20Silver%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E5%85%AC%E5%BC%80%E8%AF%BE%E3%80%8B-2%EF%BC%9AMDP/

總結

以上是生活随笔為你收集整理的David Silver强化学习公开课】-2:MDP的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 欧美日韩一区精品 | 日本三级吹潮 | 天天干天天操天天操 | 久久国产精品99久久人人澡 | 少妇视频一区 | 神马午夜嘿嘿 | 国产伦精品一区二区三区四区视频 | 天天久久久 | 青青伊人av| 国产精品v欧美精品v日韩 | www.com亚洲 | 欧美日韩激情网 | 99嫩草 | 色婷婷在线观看视频 | 亚洲欧美一区二区三区在线观看 | 依依成人在线视频 | 国产乱淫av片 | 欧美日本一区 | 成人免费激情视频 | 日韩操操 | 亚洲免费专区 | 窝窝视频在线观看 | 好爽…又高潮了毛片免费看 | 日韩午夜精品视频 | 欧美中文字幕一区二区 | 男人添女人囗交视频 | 美女被叉叉的影院 | 国产xxxx在线 | 国产精品人人做人人爽人人添 | 黄色大片儿 | 久久精品国产大片免费观看 | 操她视频网站 | 亚洲精品社区 | 美人被强行糟蹋np各种play | 亚洲四区| 久久久国产精品久久久 | 99久久亚洲精品日本无码 | 国产日韩欧美精品在线观看 | 国产精品福利网站 | 国产一线二线三线在线观看 | 日韩av在线导航 | 亚洲成人婷婷 | 亚洲老老头同性老头交j | 日韩精品卡通动漫网站 | 97人人爽| 日本公妇乱偷中文字幕 | 久久99热精品 | 一久久久久 | 婷婷在线综合 | 国产伦精品一区二区三区高清版 | 日韩av伦理 | 无码国产精品久久一区免费 | 伊人中文在线 | 好吊妞视频这里只有精品 | 狠狠干狠狠干狠狠干 | 亚洲av无码一区二区三区在线播放 | 超污巨黄的小短文 | 色噜噜一区二区三区 | 美女喷液视频 | 国产色在线,com | 色屁屁 | 男女视频在线观看免费 | 国产精品--色哟哟 | 777视频在线观看 | 欧美黑人做爰爽爽爽 | 久久久成人精品 | 国产a级大片 | 精品国产福利 | 精品国产一级久久 | 日韩福利网 | 国产专区一区二区三区 | 星空大象mv高清在线观看免费 | 在线电影一区二区三区 | 亚洲精品日韩在线观看 | 99热在线播放 | 男女扒开双腿猛进入爽爽免费 | 黄色在线观看视频 | 亚洲色图欧美在线 | 神秘马戏团在线观看免费高清中文 | www一区| 天天综合久久 | 午夜av在线播放 | 巨大黑人极品videos精品 | 三年中文在线观看中文版 | 久久婷婷av | 麻豆视频网页 | 亚洲制服在线观看 | 日本不卡在线观看 | 国产免费一区二区三区 | 欧美精品动漫 | 色国产视频 | 亚洲AV无码一区二区三区蜜桃 | 不卡的av在线 | jvid在线| 无人码人妻一区二区三区免费 | 91高清免费 | 国产午夜免费 | 在线播放国产精品 | 日韩一级淫片 |