AlphaGo之父亲授深度强化学习十大法则
原則 #1 評價驅動發展
客觀、量化的評價驅動進展:
-
評價指標的選擇決定了進展的方向
-
這可以說是項目過程中最重要的決策
排行榜驅動的研究:
-
確保評價指標緊貼最終目標
-
避免主觀評估(如人為監測)
假設驅動的研究:
-
提出假設:
-
“雙 Q 學習優于 Q 學習,減少了向上偏差”
-
-
在廣泛的條件下驗證該假設
-
做同類比較,不對比目前最新進展
-
要理解,而不是看排行榜排名
原則 #2 可伸縮性決定成敗
-
可伸縮性是算法相對于資源的性能梯度
-
如果提供更多的資源,性能是如何增加的?
-
-
資源包括計算、內存或數據
-
可伸縮性最終決定了算法成功與否
-
可伸縮性總是(最終)比好的出發點更重要
-
好的算法在資源無限的條件下總是最優的
原則 #3 通用性保證算法符合未來發展
-
算法的通用性是它在不同的強化學習環境下的性能體現
-
避免對當前任務的過擬合
-
尋找可以推廣到未知、未來環境的算法
-
我們無法預測未來,但是:
-
或許未來的任務會至少和當前任務一樣復雜
-
而在未來,當前任務中遇到的困難很可能會增加
-
結論:在多樣化且真實的強化學習環境中進行驗證
原則 #4 信任智能體的經驗
經驗(觀察、行為、獎勵)是強化學習的數據:
-
在智能體的整個生命歷程中,可以不斷積累經驗
-
要相信經驗是知識的唯一來源
-
人類的專業知識總會起誘導作用(人類數據,特征,啟發式、約束、抽象、域操作)
-
-
僅從經驗中學習似乎是不可能的,但是:
-
要接受的是,強化學習的核心問題是困難的
-
這是人工智能的核心問題
-
這是值得我們努力的
-
-
長遠來看,從經驗中學習永遠是贏家
原則 #5 狀態是主觀的
智能體應該根據經驗構建自己的狀態。
智能體狀態是前一狀態和新觀察的函數
這是一個循環神經網絡的隱藏狀態
永遠不要根據環境的“真實”狀態(部分可觀察馬爾可夫決策過程,POMDP)來下定義
原則 #6 控制數據流
-
智能體存在于豐富的感覺運動的數據流中
-
輸入智能體的觀察數據流
-
智能體輸出的行為數據流
-
-
智能體行為影響物流
-
控制特征 => 控制數據流
-
控制數據流 => 控制未來
-
控制未來 => 最大化任意獎勵
原則 #7 值函數建模世界
為什么要使用值函數?
-
值函數可以有效地總結 / 緩存未來
-
固定時間查找,而不是指數級的正向預搜索(LookAhead),可以簡化搜索規劃
-
可以獨立計算和學習
學習多個值函數可以:
-
有效地模擬世界的許多方面(通過控制數據流)
-
包含后續的狀態變量
-
-
支持多種時間尺度
避免在原始時間步長上模擬世界。
原則 #8 規劃:從想象的經驗中學習
一種有效的規劃方法:
-
想象下一步會發生什么
-
基于模型的狀態采樣軌跡
-
-
從想象的經驗中學習
-
使用已應用于實際經驗的強化學習算法
現在,應該關注值函數近似(value function approximation)。
原則 #9 賦能函數近似器
可微分網絡架構是強大的工具,有助于:
-
豐富的方式表示狀態
-
可微分記憶
-
可微分規劃
-
分級控制
-
…
算法復雜度應用到網絡架構,可以:
-
減少算法的復雜度(如何更新參數)
-
增加架構的可表達性(參數用來做什么)
原則 #10 學會學習
人工智能的歷史展示了一條清晰的發展足跡:
第一代:尚好的舊式人工智能
-
手動預測
-
不支持學習
第二代:淺嘗學習
-
手動處理特征
-
開始學習預測
第三代:深度學習
-
手動算法(優化器、目標、架構等)
-
端到端的特征和預測學習
第四代:元學習
-
無需手工
-
端到端的算法、特征及預測學習
原文鏈接:
http://www.deeplearningindaba.com/uploads/1/0/2/6/102657286/principles_of_deep_rl.pdf
總結
以上是生活随笔為你收集整理的AlphaGo之父亲授深度强化学习十大法则的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 推荐系统中使用ctr排序的f(x)的设计
- 下一篇: 详解分布式协调服务 ZooKeeper