强化学习note1——马尔科夫奖励过程MRP和马尔科夫决策过程MDP各个函数的定义与区别
馬爾科夫獎勵過程MRP
狀態轉移函數:P(St+1=s′∣st=s)P\left(S_{t+1}=s^{\prime} \mid s_{t}=s\right)P(St+1?=s′∣st?=s)
獎勵函數:R(st=s)=E[rt∣st=s]R\left(s_{t}=s\right)=\mathbb{E}\left[r_{t} \mid s_{t}=s\right]R(st?=s)=E[rt?∣st?=s]
回報:Gt=Rt+1+γRt+2+γ2Rt+3+γ3Rt+4+…+γT?t?1RT\mathrm{G}_{\mathrm{t}}=\mathrm{R}_{\mathrm{t}+1}+\gamma \mathrm{R}_{\mathrm{t}+2}+\gamma^{2} \mathrm{R}_{\mathrm{t}+3}+\gamma^{3} \mathrm{R}_{\mathrm{t}+4}+\ldots+\gamma^{\mathrm{T}-\mathrm{t}-1} \mathrm{R}_{\mathrm{T}}Gt?=Rt+1?+γRt+2?+γ2Rt+3?+γ3Rt+4?+…+γT?t?1RT?
回報只是狀態轉移中的一條路徑的價值
狀態價值函數:回報的期望Vt(s)=E[Gt∣st=s]=E[Rt+1+γRt+2+γ2Rt+3+…+γT?t?1RT∣st=s]\begin{aligned} \mathrm{V}_{\mathrm{t}}(\mathrm{s}) &=\mathbb{E}\left[\mathrm{G}_{\mathrm{t}} \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right] \\ &=\mathbb{E}\left[\mathrm{R}_{\mathrm{t}+1}+\gamma \mathrm{R}_{\mathrm{t}+2}+\gamma^{2} \mathrm{R}_{\mathrm{t}+3}+\ldots+\gamma^{\mathrm{T}-\mathrm{t}-1} \mathrm{R}_{\mathrm{T}} \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right] \end{aligned}Vt?(s)?=E[Gt?∣st?=s]=E[Rt+1?+γRt+2?+γ2Rt+3?+…+γT?t?1RT?∣st?=s]?,
狀態價值函數相較于獎勵函數,考慮了折扣后的未來的獎勵,是一個更加靠譜的狀態價值的估計;獎勵函數只是考慮了當下。
狀態價值函數是回報的一個期望
Rt+1表示t時刻的獎勵R_{t+1}表示t時刻的獎勵Rt+1?表示t時刻的獎勵
馬爾科夫決策過程MDP
狀態轉移概率P(St+1=s′∣st=s,at=a)P\left(S_{t+1}=s^{\prime} \mid s_{t}=s,a_{t}=a\right)P(St+1?=s′∣st?=s,at?=a)
獎勵函數R(st=s,at=a)=E[rt∣st=s,at=a]R\left(s_{t}=s,a_{t}=a\right)=\mathbb{E}\left[r_{t} \mid s_{t}=s,a_{t}=a\right]R(st?=s,at?=a)=E[rt?∣st?=s,at?=a]
回報:Gt=Rt+1+γRt+2+γ2Rt+3+γ3Rt+4+…+γT?t?1RT\mathrm{G}_{\mathrm{t}}=\mathrm{R}_{\mathrm{t}+1}+\gamma \mathrm{R}_{\mathrm{t}+2}+\gamma^{2} \mathrm{R}_{\mathrm{t}+3}+\gamma^{3} \mathrm{R}_{\mathrm{t}+4}+\ldots+\gamma^{\mathrm{T}-\mathrm{t}-1} \mathrm{R}_{\mathrm{T}}Gt?=Rt+1?+γRt+2?+γ2Rt+3?+γ3Rt+4?+…+γT?t?1RT?
狀態價值函數:vπ(s)=Eπ[Gt∣st=s]\mathrm{v}^{\pi}(s)=\mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s\right]vπ(s)=Eπ?[Gt?∣st?=s]
動作價值函數,Q函數:qπ(s,a)=Eπ[Gt∣st=s,At=a]q^{\pi}(s, a)=\mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s, A_{t}=a\right]qπ(s,a)=Eπ?[Gt?∣st?=s,At?=a]
總結
以上是生活随笔為你收集整理的强化学习note1——马尔科夫奖励过程MRP和马尔科夫决策过程MDP各个函数的定义与区别的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: windows 下conda安装gym
- 下一篇: 强化学习note2——value ite