當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习（六）时序差分在线控制算法SARSA

發布時間：2025/4/5 编程问答 20 豆豆

生活随笔收集整理的這篇文章主要介紹了强化学习（六）时序差分在线控制算法SARSA 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

　在強化學習（五）用時序差分法（TD）求解中，我們討論了用時序差分來求解強化學習預測問題的方法，但是對控制算法的求解過程沒有深入，本文我們就對時序差分的在線控制算法SARSA做詳細的討論。

　　　　SARSA這一篇對應Sutton書的第六章部分和UCL強化學習課程的第五講部分。

　　　　SARSA算法是一種使用時序差分求解強化學習控制問題的方法，回顧下此時我們的控制問題可以表示為：給定強化學習的5個要素：狀態集SS, 動作集AA, 即時獎勵RR，衰減因子γγ, 探索率??, 求解最優的動作價值函數q?q?和最優策略π?π?。

　　　　這一類強化學習的問題求解不需要環境的狀態轉化模型，是不基于模型的強化學習問題求解方法。對于它的控制問題求解，和蒙特卡羅法類似，都是價值迭代，即通過價值函數的更新，來更新當前的策略，再通過新的策略，來產生新的狀態和即時獎勵，進而更新價值函數。一直進行下去，直到價值函數和策略都收斂。

　　　　再回顧下時序差分法的控制問題，可以分為兩類，一類是在線控制，即一直使用一個策略來更新價值函數和選擇新的動作。而另一類是離線控制，會使用兩個控制策略，一個策略用于選擇新的動作，另一個策略用于更新價值函數。

　　　　我們的SARSA算法，屬于在線控制這一類，即一直使用一個策略來更新價值函數和選擇新的動作，而這個策略是????貪婪法，在

以上是生活随笔為你收集整理的强化学习（六）时序差分在线控制算法SARSA的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。