日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

AlphaGo之父亲授深度强化学习十大法则

發布時間:2024/1/17 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 AlphaGo之父亲授深度强化学习十大法则 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

原則 #1 評價驅動發展

客觀、量化的評價驅動進展:

  • 評價指標的選擇決定了進展的方向

  • 這可以說是項目過程中最重要的決策

排行榜驅動的研究:

  • 確保評價指標緊貼最終目標

  • 避免主觀評估(如人為監測)

假設驅動的研究:

  • 提出假設:

    • “雙 Q 學習優于 Q 學習,減少了向上偏差”

  • 在廣泛的條件下驗證該假設

  • 做同類比較,不對比目前最新進展

  • 要理解,而不是看排行榜排名

原則 #2 可伸縮性決定成敗

  • 可伸縮性是算法相對于資源的性能梯度

    • 如果提供更多的資源,性能是如何增加的?

  • 資源包括計算、內存或數據

  • 可伸縮性最終決定了算法成功與否

  • 可伸縮性總是(最終)比好的出發點更重要

  • 好的算法在資源無限的條件下總是最優的

原則 #3 通用性保證算法符合未來發展

  • 算法的通用性是它在不同的強化學習環境下的性能體現

  • 避免對當前任務的過擬合

  • 尋找可以推廣到未知、未來環境的算法

  • 我們無法預測未來,但是:

    • 或許未來的任務會至少和當前任務一樣復雜

    • 而在未來,當前任務中遇到的困難很可能會增加

結論:在多樣化且真實的強化學習環境中進行驗證

原則 #4 信任智能體的經驗

經驗(觀察、行為、獎勵)是強化學習的數據:

  • 在智能體的整個生命歷程中,可以不斷積累經驗

  • 要相信經驗是知識的唯一來源

    • 人類的專業知識總會起誘導作用(人類數據,特征,啟發式、約束、抽象、域操作)

  • 僅從經驗中學習似乎是不可能的,但是:

    • 要接受的是,強化學習的核心問題是困難的

    • 這是人工智能的核心問題

    • 這是值得我們努力的

  • 長遠來看,從經驗中學習永遠是贏家

原則 #5 狀態是主觀的

智能體應該根據經驗構建自己的狀態。

智能體狀態是前一狀態和新觀察的函數

這是一個循環神經網絡的隱藏狀態

永遠不要根據環境的“真實”狀態(部分可觀察馬爾可夫決策過程,POMDP)來下定義

原則 #6 控制數據流

  • 智能體存在于豐富的感覺運動的數據流中

    • 輸入智能體的觀察數據流

    • 智能體輸出的行為數據流

  • 智能體行為影響物流

  • 控制特征 => 控制數據流

  • 控制數據流 => 控制未來

  • 控制未來 => 最大化任意獎勵

原則 #7 值函數建模世界

為什么要使用值函數?

  • 值函數可以有效地總結 / 緩存未來

  • 固定時間查找,而不是指數級的正向預搜索(LookAhead),可以簡化搜索規劃

  • 可以獨立計算和學習

學習多個值函數可以:

  • 有效地模擬世界的許多方面(通過控制數據流)

    • 包含后續的狀態變量

  • 支持多種時間尺度

避免在原始時間步長上模擬世界。

原則 #8 規劃:從想象的經驗中學習

一種有效的規劃方法:

  • 想象下一步會發生什么

    • 基于模型的狀態采樣軌跡

  • 從想象的經驗中學習

  • 使用已應用于實際經驗的強化學習算法

現在,應該關注值函數近似(value function approximation)。

原則 #9 賦能函數近似器

可微分網絡架構是強大的工具,有助于:

  • 豐富的方式表示狀態

  • 可微分記憶

  • 可微分規劃

  • 分級控制

算法復雜度應用到網絡架構,可以:

  • 減少算法的復雜度(如何更新參數)

  • 增加架構的可表達性(參數用來做什么)

原則 #10 學會學習

人工智能的歷史展示了一條清晰的發展足跡:

第一代:尚好的舊式人工智能

  • 手動預測

  • 不支持學習

第二代:淺嘗學習

  • 手動處理特征

  • 開始學習預測

第三代:深度學習

  • 手動算法(優化器、目標、架構等)

  • 端到端的特征和預測學習

第四代:元學習

  • 無需手工

  • 端到端的算法、特征及預測學習

原文鏈接:

http://www.deeplearningindaba.com/uploads/1/0/2/6/102657286/principles_of_deep_rl.pdf

總結

以上是生活随笔為你收集整理的AlphaGo之父亲授深度强化学习十大法则的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。