日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习算法Policy Gradient

發布時間:2024/4/14 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 强化学习算法Policy Gradient 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1 算法的優缺點

 1.1 優點

  在DQN算法中,神經網絡輸出的是動作的q值,這對于一個agent擁有少數的離散的動作還是可以的。但是如果某個agent的動作是連續的,這無疑對DQN算法是一個巨大的挑戰,為了解決這個問題,前輩們將基于值的方法改成了基于策略的方法,即輸出動作的概率。

 1.2 缺點

  策略梯度算法應用未來損失的return作為更新迭代的依據,即在一個回合過后,在這一回合中,若執行的某一動作的動作價值R大,則會加在下一回合選擇這一動作的概率,反之,若執行的某一動作的動作價值R小,則會在下一回合選擇這一動作的概率減小。因此,要想用return做為預測動作概率的神經網絡更新的依據,就必須先擁有一個決策鏈,才能將return計算出來,因此每一個更新是在一個回合結束后才能更新一個。更新的速率比較慢

2 算法的流程

 2.1 算法的整體邏輯

? 2.2 算法的更新邏輯

?

轉載于:https://www.cnblogs.com/swenwen/p/10722851.html

總結

以上是生活随笔為你收集整理的强化学习算法Policy Gradient的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。