當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习note1——马尔科夫奖励过程MRP和马尔科夫决策过程MDP各个函数的定义与区别

發布時間：2025/1/21 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了强化学习note1——马尔科夫奖励过程MRP和马尔科夫决策过程MDP各个函数的定义与区别小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

馬爾科夫獎勵過程MRP

狀態轉移函數： $P(St+1=s′∣st=s)P\left(S_{t+1}=s^{\prime} \mid s_{t}=s\right)$

獎勵函數： $R(st=s)=E[rt∣st=s]R\left(s_{t}=s\right)=\mathbb{E}\left[r_{t} \mid s_{t}=s\right]$

回報： $Gt=Rt+1+γRt+2+γ2Rt+3+γ3Rt+4+…+γT?t?1RT\mathrm{G}_{\mathrm{t}}=\mathrm{R}_{\mathrm{t}+1}+\gamma \mathrm{R}_{\mathrm{t}+2}+\gamma^{2} \mathrm{R}_{\mathrm{t}+3}+\gamma^{3} \mathrm{R}_{\mathrm{t}+4}+\ldots+\gamma^{\mathrm{T}-\mathrm{t}-1} \mathrm{R}_{\mathrm{T}}$

回報只是狀態轉移中的一條路徑的價值

狀態價值函數：回報的期望 $Vt(s)=E[Gt∣st=s]=E[Rt+1+γRt+2+γ2Rt+3+…+γT?t?1RT∣st=s]\begin{aligned} \mathrm{V}_{\mathrm{t}}(\mathrm{s}) &=\mathbb{E}\left[\mathrm{G}_{\mathrm{t}} \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right] \\ &=\mathbb{E}\left[\mathrm{R}_{\mathrm{t}+1}+\gamma \mathrm{R}_{\mathrm{t}+2}+\gamma^{2} \mathrm{R}_{\mathrm{t}+3}+\ldots+\gamma^{\mathrm{T}-\mathrm{t}-1} \mathrm{R}_{\mathrm{T}} \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right] \end{aligned}$ ，

狀態價值函數相較于獎勵函數，考慮了折扣后的未來的獎勵，是一個更加靠譜的狀態價值的估計;獎勵函數只是考慮了當下。
狀態價值函數是回報的一個期望
$R_{t+1}表示t時刻的獎勵$

馬爾科夫決策過程MDP

狀態轉移概率 $P(St+1=s′∣st=s，at=a)P\left(S_{t+1}=s^{\prime} \mid s_{t}=s，a_{t}=a\right)$

獎勵函數 $R(st=s，at=a)=E[rt∣st=s，at=a]R\left(s_{t}=s，a_{t}=a\right)=\mathbb{E}\left[r_{t} \mid s_{t}=s，a_{t}=a\right]$

狀態價值函數： $vπ(s)=Eπ[Gt∣st=s]\mathrm{v}^{\pi}(s)=\mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s\right]$

動作價值函數，Q函數： $qπ(s,a)=Eπ[Gt∣st=s,At=a]q^{\pi}(s, a)=\mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s, A_{t}=a\right]$

總結

以上是生活随笔為你收集整理的强化学习note1——马尔科夫奖励过程MRP和马尔科夫决策过程MDP各个函数的定义与区别的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： windows 下conda安装gym
下一篇：强化学习note2——value ite