日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习笔记 experience replay 经验回放

發布時間:2025/4/5 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 强化学习笔记 experience replay 经验回放 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?1 回顧 :DQN

DQN 筆記 State-action Value Function(Q-function)_UQI-LIUWJ的博客-CSDN博客

DQN是希望通過神經網絡來學習Q(s,a)的結果,我們輸入一個人狀態s,通過DQN可以得到各個action對應的Q(s,a)

通常用TD來求解DQN

其中rt是實際進行交互得到的真實獎勵,Q(s,a),是預測得到的價值函數

(注:Q是fixed target network,所以qt和yt會稍有不同)?

在之前我們所說的DQN中,我們每次采樣得到一組episode??,然后就用這組episode來計算相應的loss,進行梯度下降更新參數?

而用這組數據訓練了模型之后,這組數據就被丟棄了

2 TD算法的缺點

2.1 缺乏經驗?

而事實上,經驗是可以重復使用的?

2.2 correlated updates

比如玩游戲,當前畫面和下一幀畫面之間的區別會非常小,也就是會非常相近。實驗證明把這些episode數據盡量打散,有利于訓練得更好

3 經驗回放

經驗回放可以克服之前的兩個缺點

把最近的n條記錄存到一個buffer里面

如果存滿了,每次存入一條新的transition,就刪除當前最老的那一條transition

3.1 使用經驗回放之后的TD

????????這里是從buffer中隨機選擇一個transition,實際上是從buffer中隨機選擇一個batch,做mini-batch SGD?

3.2 經驗回放的好處

1 打破了transition的關聯性

2 經驗可以重復使用

4 優先經驗回放

buffer里面有多條 transition,每條的優先級各不相同

????????比如以超級瑪麗為例,左邊是普通關卡,右邊是打boss的關卡。左邊常見右邊不常見。由于右邊的經驗少,所以很難真正訓練除右邊的情況應該如何做決策,在這種情況下,右邊的重要性更大一些。

? ? ? ? ?在priority experience replay 中,如果一條transition有更高的TD error δt,那么我們就認為他距離TD target比較大,DQN就不熟悉這個場景,所以需要給他較大的優先級。

????????

? ? ? ? 優先經驗回放的思路就是用非均勻抽樣代替均勻抽樣,有兩種抽樣方法

? ? ? ? rank(t)是δt排序后的序號,δt越大,rank(t)越小

????????抽樣的時候是非均勻采樣的,我們需要相應地調整學習率,以減少不同抽樣概率帶來的偏差

????????

????????如果一條transition有較大的抽樣概率,那么他的學習率應當相應地小一些 (用來抵消大抽樣概率帶來的偏差,因為大抽樣概率那么我被采樣到的次數就會稍多)

????????如果一條transition 剛被采集到,我們是不知道他的δt的,此時我們直接給他設置最大的優先級,也就是未被使用過的transition具有最高的優先級

? ? ? ? 每次使用一條transition之后,我們都要重新更新他的δt

參考資料:

深度強化學習(全)_嗶哩嗶哩_bilibili

總結

以上是生活随笔為你收集整理的强化学习笔记 experience replay 经验回放的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。