马尔可夫Markov决策过程 MDP、马尔可夫奖励过程MRP
引言
在概率論及統計學中,馬爾可夫過程(英語:Markov process)是一個具備了馬爾可夫性質的隨機過程,因為俄國數學家安德雷·馬爾可夫得名。馬爾可夫過程是不具備記憶特質的(memorylessness)。換言之,馬爾可夫過程的條件概率僅僅與系統的當前狀態相關,而與它的過去歷史或未來狀態,都是獨立、不相關的。
概論
1. Markov Decision Process馬爾可夫決策過程
機器學習算法(有監督,無監督,弱監督)中,馬爾科夫決策過程是弱監督中的一類叫增強學習。增加學習與傳統的有監督和無監督不同的地方是,這些方法都是一次性決定最終結果的,而無法刻畫一個決策過程,無法直接定義每一次決策的優劣,也就是說每一次的決策信息都是弱信息,所以某種程度上講,強化學習也屬于弱監督學習。從模型角度來看,也屬于馬爾科夫模型,其與隱馬爾科夫模型有非常強的可比性。
下面是一個常用的馬爾科夫模型的劃分關系
1.1 MDP定義
MDP就是具有決策狀態的馬爾可夫獎勵過程。這里我們直接給出了馬爾可夫決策過程的定義:
- 狀態(state): 智能體在每個步驟中所處于的狀態集合
- 行為(action): 智能體在每個步驟中所能執行的動作集合
- 轉移概率(transition): 智能體處于狀態s下,執行動作a后,會轉移到狀態s’的概率
- 獎勵(reward): 智能體處于狀態s下,執行動作a后,轉移到狀態s’后獲得的立即獎勵值
- 策略(policy): 智能體處于狀態s下,應該執行動作a的概率
值得注意的是,在馬爾科夫決策過程中,狀態集合是離散的,動作集合是離散的,轉移概率是已知的,獎勵是已知的。在這個條件下的學習稱之為有模型學習。
1.2 問題求解1
1.2.1 策略迭代算法
1.2.2 值迭代算法
1.3 實例
1.3.1 策略迭代實例
使用馬爾科夫決策過程策略迭代算法進行計算,具體過程詳見,
https://github.com/persistforever/ReinforcementLearning/tree/master/carrental
1.3.2 值迭代實例
賭徒問題 :一個賭徒拋硬幣下賭注,如果硬幣正面朝上,他本局將贏得和下注數量相同的錢,如果硬幣背面朝上,他本局將輸掉下注的錢,當他輸光所有的賭資或者贏得$100則停止賭博,硬幣正面朝上的概率為p。賭博過程是一個無折扣的有限的馬爾科夫決策問題。
使用馬爾科夫決策過程值迭代算法進行計算,具體過程詳見,
https://github.com/persistforever/ReinforcementLearning/tree/master/gambler
1.4 問題求解2
1.4.1 Policies策略
1.4.2 Policy based Value Function基于策略的價值函數
1.4.3 Bellman Expectation Equation貝爾曼期望方程
1.4.4 Optimal Value Function最優價值函數
1.4.5 Theorem of MDP定理
1.4.6 Finding an Optimal Policy尋找最優策略
1.4.7 Bellman Optimality Equation貝爾曼最優方程
1.4.7.1 Solving the Bellman Optimality Equation求解貝爾曼最優方程
貝爾曼最優方程是非線性的,通常而言沒有固定的解法,有很多著名的迭代解法:
- Value Iteration 價值迭代
- Policy Iteration 策略迭代
- Q-learning
- Sarsa
這個可以大家之后去多了解了解。
1.5 最優決策
也許上面的目標函數還不清晰,如何求解最有決策,如何最大化累積回報
下面結合例子來介紹如何求解上面的目標函數。且說明累積回報函數本身就是一個過程的累積回報,回報函數才是每一步的回報。
下面再來看求解上述最優問題,其中 就是以s為初始狀態沿著決策函數走到結束狀態的累積回報。
1.6 值迭代
1.7 策略迭代
值迭代是使累積回報值最優為目標進行迭代,而策略迭代是借助累積回報最優即策略最優的等價性,進行策略迭代。
1.8 MDP中的參數估計
回過頭來再來看前面的馬爾科夫決策過程的定義是一個五元組,一般情況下,五元組應該是我們更加特定的問題建立馬爾科夫決策模型時該確定的,并在此基礎上來求解最優決策。所以在求解最優決策之前,我們還需更加實際問題建立馬爾科夫模型,建模過程就是確定五元組的過程,其中我們僅考慮狀態轉移概率,那么也就是一個參數估計過程。(其他參數一般都好確定,或設定)。
假設,在時間過程中,我們有下面的狀態轉移路徑:
2. Markov Reward Process馬爾可夫獎勵過程
2.1 MRP
簡單來說,馬爾可夫獎勵過程就是含有獎勵的馬爾可夫鏈,要想理解MRP方程的含義,我們就得弄清楚獎勵函數的由來,我們可以把獎勵表述為進入某一狀態后收獲的獎勵。獎勵函數如下所示:
2.2 Return回報
2.3 Value Function價值函數
2.4 Bellman Equation貝爾曼方程
https://zhuanlan.zhihu.com/p/271221558
總結
以上是生活随笔為你收集整理的马尔可夫Markov决策过程 MDP、马尔可夫奖励过程MRP的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mac电脑使用ie浏览器(mac电脑ie
- 下一篇: 网络流量模型