當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习笔记：Sarsa算法

發布時間：2025/4/5 编程问答 28 豆豆

生活随笔收集整理的這篇文章主要介紹了强化学习笔记：Sarsa算法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Sarsa算法和TD類似，只不過TD是更新狀態的獎勵函數V，這里是更新Q函數強化學習筆記：Q-learning ：temporal difference 方法_UQI-LIUWJ的博客-CSDN博客

TD
Sarsa

?該算法由于每次更新值函數需要知道當前的狀態(state)、當前的動作(action)、獎勵(reward)、下一步的狀態(state)、下一步的動作(action)，即 (St?,At?,Rt+1?,St+1?,At+1?)?這幾個值，由此得名?Sarsa?算法。

?????????右邊是環境，左邊是 agent 。

????????我們每次跟環境交互一次之后呢，就可以 learn 一下，向環境輸出 action，然后從環境當中拿到 state 和 reward。

????????Agent 主要實現兩個方法：

????????Sarsa 是一種 on-policy 策略。

????????Sarsa 優化的是它實際執行的策略，它直接拿下一步會執行的 action (At+1) 來去優化 Q 表格，所以 on-policy 在學習的過程中，只存在一種確定的策略，它用這種確定的策略去做 action 的選取，也用一種這種確定的策略去做優化。

以上是生活随笔為你收集整理的强化学习笔记：Sarsa算法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。