强化学习(六)时序差分在线控制算法SARSA
生活随笔
收集整理的這篇文章主要介紹了
强化学习(六)时序差分在线控制算法SARSA
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
在強化學習(五)用時序差分法(TD)求解中,我們討論了用時序差分來求解強化學習預測問題的方法,但是對控制算法的求解過程沒有深入,本文我們就對時序差分的在線控制算法SARSA做詳細的討論。
SARSA這一篇對應Sutton書的第六章部分和UCL強化學習課程的第五講部分。
1. SARSA算法的引入
SARSA算法是一種使用時序差分求解強化學習控制問題的方法,回顧下此時我們的控制問題可以表示為:給定強化學習的5個要素:狀態集SS, 動作集AA, 即時獎勵RR,衰減因子γγ, 探索率??, 求解最優的動作價值函數q?q?和最優策略π?π?。
這一類強化學習的問題求解不需要環境的狀態轉化模型,是不基于模型的強化學習問題求解方法。對于它的控制問題求解,和蒙特卡羅法類似,都是價值迭代,即通過價值函數的更新,來更新當前的策略,再通過新的策略,來產生新的狀態和即時獎勵,進而更新價值函數。一直進行下去,直到價值函數和策略都收斂。
再回顧下時序差分法的控制問題,可以分為兩類,一類是在線控制,即一直使用一個策略來更新價值函數和選擇新的動作。而另一類是離線控制,會使用兩個控制策略,一個策略用于選擇新的動作,另一個策略用于更新價值函數。
我們的SARSA算法,屬于在線控制這一類,即一直使用一個策略來更新價值函數和選擇新的動作,而這個策略是????貪婪法,在
總結
以上是生活随笔為你收集整理的强化学习(六)时序差分在线控制算法SARSA的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 强化学习(五)用时序差分法(TD)求解
- 下一篇: 强化学习(八)价值函数的近似表示与Dee