日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习笔记:Sarsa算法

發布時間:2025/4/5 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 强化学习笔记:Sarsa算法 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1 Sarsa(0)

Sarsa算法和TD類似,只不過TD是更新狀態的獎勵函數V,這里是更新Q函數強化學習筆記:Q-learning :temporal difference 方法_UQI-LIUWJ的博客-CSDN博客

TD
Sarsa

?該算法由于每次更新值函數需要知道當前的狀態(state)、當前的動作(action)、獎勵(reward)、下一步的狀態(state)、下一步的動作(action),即 (St?,At?,Rt+1?,St+1?,At+1?)?這幾個值 ,由此得名?Sarsa?算法。

?2 n-step Sarsa

?3 與環境交互

?????????右邊是環境,左邊是 agent 。

????????我們每次跟環境交互一次之后呢,就可以 learn 一下,向環境輸出 action,然后從環境當中拿到 state 和 reward。

????????Agent 主要實現兩個方法:

  • 一個就是根據 Q 表格去選擇動作,輸出 action。
  • 另外一個就是拿到 (St?,At?,Rt+1?,St+1?,At+1?)?這幾個值去更新我們的 Q 表格。

4 Sarsa on-policy

????????Sarsa 是一種 on-policy 策略。

?

????????Sarsa 優化的是它實際執行的策略,它直接拿下一步會執行的 action (At+1) 來去優化 Q 表格,所以 on-policy 在學習的過程中,只存在一種確定的策略,它用這種確定的策略去做 action 的選取,也用一種這種確定的策略去做優化。

總結

以上是生活随笔為你收集整理的强化学习笔记:Sarsa算法的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。