日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文笔记 General Advantage Estimation(GAE)

發(fā)布時間:2023/12/18 编程问答 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文笔记 General Advantage Estimation(GAE) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

論文筆記GAE

    • 1 引言
    • 2 GAE
    • 3 置信域值函數(shù)更新
    • 4 實驗

GAE 全稱General Advantage Estimation,是一種平衡優(yōu)勢函數(shù)估計中的偏差和方差的方法。論文地址https://arxiv.org/abs/1506.02438

1 引言

  • 策略梯度法存在的兩個方面問題
    樣本利用率,由于樣本利用率低需要大量采樣;
    算法穩(wěn)定性,需要讓算法在變化的數(shù)據(jù)分布中穩(wěn)定提升;

  • 值函數(shù)也是為了解決信用分配問題,能夠在延遲獎勵到來之前判斷動作的好壞。

  • 策略梯度法與AC法的區(qū)別:
    使用全部獎勵來估計策略梯度,盡管無偏但是方差大;Actor-Critic方法使用值函數(shù)來估計獎勵,能夠降低偏差但是方差較大。

  • 方差、偏差的影響:
    高方差需要更多的樣本來訓(xùn)練,偏差會導(dǎo)致不收斂或收斂結(jié)果較差。

  • 本文兩個貢獻:

  • 提出GAE來平衡偏差和方差;
  • 提出值函數(shù)置信域方法;
  • 2 GAE

    策略梯度估計方法有如下多種,使用優(yōu)勢函數(shù)的方法方差最小。

    gamma-just是指期望為如下表達式:

    定義狀態(tài)值函數(shù)V的TD error:

    定義k步估計的優(yōu)勢函數(shù):

    當k越大,方差越大,偏差越小。
    GAE定義為lambda指數(shù)下降權(quán)重調(diào)整的Ak求和

    當lambda=0時,相當于TD-error;當lambda=1時,相當于A∞。

    GAE(γ, 1) 是 γ-just 不管 V是否準確 , 但是因為求和項較多具有高方差。
    GAE(γ, 0) 是 γ-just 只在 V = V π,γ (最有值函數(shù))時,否則會引入偏差,但是方差更小。
    當 0 < λ < 1 就是平衡方差與偏差的過程。

    GAE策略梯度更新公式:

    3 置信域值函數(shù)更新

    置信域方法的好處是防止過擬合最近一批數(shù)據(jù)。
    使用共軛梯度法求解

    ![在這里插入圖片描述](https://img-blog.csdnimg.cn/20200328002213720.png

    4 實驗

    算法偽代碼:

    如果先更新值函數(shù)會引入新的偏差,文章的解釋是:如果先滿足了貝爾曼方程,TD-error為0,策略梯度也為0。

    部分實驗結(jié)果如下,能看出gamma一般取0.99、0.999,lambda一般取0.95-1

    問題
    為什么使用狀態(tài)值函數(shù)而不是動作值函數(shù)?
    答:狀態(tài)值函數(shù)輸入維度更少,訓(xùn)練更方便;本文的方法能夠平衡偏差和方差,如果使用動作值函數(shù)Q會讓我們得到高偏差。

    總結(jié)

    以上是生活随笔為你收集整理的论文笔记 General Advantage Estimation(GAE)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 免费观看黄色一级视频 | 国产精品久久久久久久久绿色 | 国产伦精品一区二区免费 | 欧美三级韩国三级日本三斤在线观看 | 九九在线观看高清免费 | а√天堂中文在线资源8 | 黄色刺激视频 | 午夜激情福利电影 | 人人澡人人澡人人澡 | 波多野结衣在线看 | 99riav在线| 茄子香蕉视频 | 国产亚洲精品精品国产亚洲综合 | 国产成人无码精品久久久电影 | 一区二区三区在线视频播放 | 亚洲欧洲精品一区二区 | 亚州av成人| 中国少妇色 | 亚洲午夜精品一区二区 | 永久免费在线观看av | 激情中文字幕 | 超碰青娱乐 | 麻豆精品国产 | www.天天操.com | 操操操日日日 | 成人免费福利视频 | 日韩视频精品 | 97精品人妻一区二区三区蜜桃 | 蜜桃aaa| 欧美黄色网| 日韩欧美成人免费视频 | 美女视频久久久 | 色偷av| 美味的客房沙龙服务 | 麻豆视频精品 | 欧美黄色精品 | 成年视频在线播放 | 涩涩爱影院| 人妻洗澡被强公日日澡 | 潘金莲三级野外 | 一本大道久久久久精品嫩草 | 国产一区二区在线免费观看 | 中文字幕在线观看欧美 | 午夜影院0606 | 色草在线 | 久久xxxx| 一级免费毛片 | 亚洲精品v天堂中文字幕 | 亚洲一二三精品 | 91精品啪在线观看国产线免费 | 日韩视频三区 | a级片日本 | 天天狠天天插 | 青草视频在线播放 | 日韩夫妻性生活 | 少女视频的播放方法 | 99在线视频免费观看 | 91在线影院 | 国产又爽又黄的视频 | 五月婷婷小说 | 福利国产片 | 青青草伊人 | av成人在线播放 | jizz黄色片 | 日本久色 | 日韩一级片网址 | av日韩一区二区三区 | 精品97人妻无码中文永久在线 | 中文字幕人乱码中文字 | 日韩在线第三页 | 理论片毛片 | 久久久蜜桃一区二区人 | 在线观看福利网站 | 亚洲av中文无码乱人伦在线观看 | 人妖被c到高潮欧美gay | 亚洲成人第一区 | 亚洲大片在线观看 | 色视频国产 | 欧美交| 三上悠亚人妻中文字幕在线 | 久久99久久99精品免观看粉嫩 | 亚洲三级黄色 | 影音先锋在线国产 | 日韩精品在线免费视频 | 日批视频免费 | 国产精品99精品久久免费 | 日韩h在线| 95香蕉视频 | 午夜精品久久久久久久 | 日本在线观看一区二区 | 99久久婷婷国产一区二区三区 | 亚洲色精品三区二区一区 | 波多野结衣91| 在线h片 | 日韩在线观看免费 | 日本xxxx高潮少妇 | 中文字幕免费观看视频 | 久色99 | 亚洲熟妇无码久久精品 |