日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习(九)Deep Q-Learning进阶之Nature DQN

發布時間:2025/4/5 编程问答 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 强化学习(九)Deep Q-Learning进阶之Nature DQN 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

  在強化學習(八)價值函數的近似表示與Deep Q-Learning中,我們講到了Deep Q-Learning(NIPS 2013)的算法和代碼,在這個算法基礎上,有很多Deep Q-Learning(以下簡稱DQN)的改進版,今天我們來討論DQN的第一個改進版Nature DQN(NIPS 2015)。

    本章內容主要參考了ICML 2016的deep RL tutorial和Nature DQN的論文。

1. DQN(NIPS 2013)的問題

    在上一篇我們已經討論了DQN(NIPS 2013)的算法原理和代碼實現,雖然它可以訓練像CartPole這樣的簡單游戲,但是有很多問題。這里我們先討論第一個問題。

    注意到DQN(NIPS 2013)里面,我們使用的目標Q值的計算方式:

yj={RjRj+γmaxa′Q(?(S′j),A′j,w)is_endjistrueis_endjisfalseyj={Rjis_endjistrueRj+γmaxa′Q(?(Sj′),Aj′,w)is_endjisfalse

    這里目標Q值的計算使用到了當前要訓練的Q網絡參數來計算Q(?(S′j),A′j,w)Q(?(Sj′),Aj′,w),而實際上,我們又希望通過yjyj來后續更新Q網絡參數。這樣兩者循環依賴,迭代起來兩者的相關性就太強了。不利于算法的收斂。

    因此,一個改進版的DQN: Nature DQ

《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀

總結

以上是生活随笔為你收集整理的强化学习(九)Deep Q-Learning进阶之Nature DQN的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。