日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

针对连续动作的DQN

發布時間:2025/4/5 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 针对连续动作的DQN 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1 前言

????????跟基于策略梯度的方法比起來,DQN在處理連續狀態的問題中 是比較好的。(因為前者是計算Q-table,后者是計算Q-function。前者在狀態空間連續的時候是很難計算的)。

? ? ? ? 同時,DQN是比較容易訓練的:在 DQN 里面,你只要能夠估計出Q函數,就保證你一定可以找到一個比較好的策略。也就是你只要能夠估計出Q函數,就保證你可以改進策略。而估計Q函數這件事情,是比較容易的,因為它就是一個回歸問題。在回歸問題里面, 你可以輕易地知道模型學習得是不是越來越好,只要看那個回歸的損失有沒有下降,你就知道說模型學習得好不好,所以估計Q函數相較于學習一個策略是比較容易的。

? ? ? ? 但是,DQN也存在一些問題,最大的問題是它不太容易處理連續動作。假設動作是連續的,做 DQN 就會有困難。因為在做 DQN 里面一個很重要的一步是你要能夠解這個優化問題。估計出 Q函數Q(s,a)?以后,必須要找到一個?a,它可以讓?Q(s,a)最大

????????假如a是連續的,你無法窮舉所有可能的連續動作,來看哪一個連續動作可以讓 Q 的值最大。

?

????????那么,怎么解決這個問題呢?第八章 DQN (連續動作) (datawhalechina.github.io)?提出了四種方案:

2 方案1

????????采樣出?N?個可能的?a:,一個一個帶到 Q函數里面,看那個最大。

????????當然這不是一個非常精確的做法,因為你沒有辦法做太多的采樣, 所以你估計出來的 Q 值,最后決定的動作可能不是非常的精確

3 方案2

????????既然要解的是一個優化問題,那么我們要做的其實就是要最大化目標函數Q。

????????要最大化一個東西, 就可以用梯度上升。

????????我們就把a當作是參數,然后要找一組a去最大化Q函數,就用梯度上升去更新?a?的值,最后看看能不能找到一個a去最大化Q函數,也就是目標函數。

? ? ? ? 但這種方案會遇到兩個問題:

1)全局最大值的問題,我們可能會停在局部最大值, 就不見得能夠真的找到最優的結果。

2)這個運算量會很大,因為我們需要迭代地訓練Q函數和a的值。我們訓練一個Q函數網絡就很花時間了。如果你用梯度上升的方法來計算當前最優的a, 等于是你每次要決定采取哪一個動作的時候,都還要做一次訓練網絡的過程,顯然運算量是很大的。

4 方案3

? ? ? ? 第三個方案是特別設計一個網絡的架構,或者說是特別設計Q函數,使得解 arg max 的問題變得非常容易。

????????也就是說,這邊的Q函數不是一個一般的Q函數,特別設計一下這個Q函數,是的Q函數最大的時候,a比較容易去求得。

? ? ? ? 怎么去設計這個Q函數,是一個學問。(有些問題可能找不到這樣的Q函數,或者Q函數不好找,這也是這一方案的局限性)下面舉一個例子:

????????輸入?s,Q函數會輸出 3 個東西。向量μ(s),矩陣Σ(s),標量V(s)。

? ? ? ? 我們知道Q函數是需要輸入一個狀態s和一個動作a,然后決定一個值。我們現在只輸入了s,還沒有將a加進來。【這個例子里面a是機器人各個關節的旋轉角度,也是一個向量】

? ? ? ? 于是之后我們處理Q(s,a),用a和μ(s),Σ(s),V一起計算最終的Q

????????把向量?a?減掉向量μ,取轉置,所以它是一個行向量。Σ?是一個矩陣。然后a減掉 μ(s)?,是一個列向量。所以是一個標量,這個數值就是 這個例子里面的Q(s,a)。

????????假設?Q(s,a)?定義成這個樣子,我們要怎么找到一個a去最大化這個 Q 值呢?這個方案非常簡單。

? ? ? ? 我們人為令Σ是一個正定矩陣(這個由的設計決定,它直接輸出的不是正定矩陣,然后這個矩陣通過一些操作使它變成正定矩陣輸入,稱為Σ(s))

? ? ? ? 因而此時一定是正的,它前面乘上一個負號。所以第一項假設我們不看這個負號的話,第一項的值越小,最終的 Q 值就越大。

????????怎么讓第一項的值最小呢?直接把a代入?μ?的值,讓它變成 0,就會讓第一項的值最小。

5 方案4?

????????第 4 種方案就是不要用 DQN。用 DQN 處理連續動作還是比較麻煩。 基于策略的方法 PPO 和基于價值的方法 DQN,這兩者其實是可以結合在一起的,如下圖所示,也就是演員-評論員的方法。

?

總結

以上是生活随笔為你收集整理的针对连续动作的DQN的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 91精品一区二区三区综合在线爱 | 日韩亚洲精品视频 | gogo人体做爰大胆视频 | 麻豆综合网 | 最近中文字幕免费视频 | 日本少妇中出 | 四虎影院永久地址 | 成年人小视频 | 男人用嘴添女人下身免费视频 | 91免费短视频 | 天堂一区二区三区 | 免费观看一区 | 无码人妻aⅴ一区二区三区 国产高清一区二区三区四区 | 欧美亚洲综合在线 | 精品国产乱子伦 | 香蕉网在线观看 | 亚洲一区二区在线免费观看 | 91精品国产91久久久久久黑人 | 中文毛片 | 免费黄色小视频 | 无人码人妻一区二区三区免费 | 亚洲欧洲免费无码 | ktv做爰视频一区二区 | 在线中文字幕亚洲 | 精品毛片 | 亚洲青涩网 | 一级片观看 | 天天干狠狠爱 | 91欧美国产 | 手机在线看黄色 | 中文字幕精品在线视频 | 黄色一级片免费看 | 欧美成人精品欧美一级 | 美女福利影院 | 91国自啪| 色播亚洲| 欧美日韩在线高清 | 国产夫妇交换聚会群4p | www.成人.com | 国产看真人毛片爱做a片 | 久久精品视频网 | 午夜激情在线观看 | 捆绑凌虐一区二区三区 | 丝袜国产一区 | 老司机一区二区三区 | 中文字幕在线观看二区 | 免费视频久久久 | 免费小视频 | 午夜av免费 | 日本午夜三级 | 美女赤身免费网站 | 欧美男人天堂网 | 欧美人妻少妇一区二区三区 | 可以直接在线观看的av | 男人天堂av网站 | 91插视频 | 91黄瓜| 在线观看国产一区 | av免费在线不卡 | 日韩av网站在线观看 | 波多野结衣中文字幕一区二区 | 日本啪啪动态图 | 嫩草av久久伊人妇女超级a | 久久精品国产亚洲av久一一区 | 91 高清 在线 制服 偷拍 | 一区二区三区四区免费视频 | 天天操天天射天天爽 | 欧美熟妇精品一区二区蜜桃视频 | 九九av在线| 亚洲一区二区自拍偷拍 | 玖玖精品视频 | 国产午夜精品一区二区理论影院 | 强行挺进白丝老师里呻吟 | 伊人激情视频 | 九九亚洲视频 | 欧美成人性生活 | 欧美成人秋霞久久aa片 | 日韩一级欧美一级 | 国产在线中文 | 国产suv精品一区二区四 | 美女扒开腿让男生桶 | 五月网婷婷 | 一区二区三区四区视频 | 丁香婷婷一区二区三区 | 国产一区二区三区电影在线观看 | 九九爱国产 | 天天免费视频 | 小俊大肉大捧一进一出好爽 | 亚洲少妇30p| 99re8在线精品视频免费播放 | 一级片免费观看 | 麻豆av在线播放 | 国产成人精品在线观看 | 日韩精品中文字幕一区 | 中文字幕第一页在线视频 | 亚洲香蕉av| 国产精品资源网站 | 成人片在线视频 | xxxx18国产|