听乌森聊强化学习的那些事
作者介紹
蓮石東路@烏森
心之所向,無界成長。從底層架構到應用實戰,聊聊煉數成金背后的故事。
持續更新數據治理、數據科學、數據可視化、空間計算系列文章。
?
?
1??聊聊強化學習
?
前幾天的一則新聞非常有意思。說的是2021年的美洲杯帆船賽上,新西蘭酋長隊利用強化學習測試水翼設計,他們稱之為“AI水手”。”AI水手”在模擬器里學習如何應對風速和風向,學習調整14種不同的風帆和控制船只,經過不斷的試錯迭代,只用了八周時間就從一個什么都不懂的小白成長到戰勝人類水手的水平。
?
?
有了”經驗豐富”的”AI水手”的幫助,新西蘭酋長隊迭代設計的速度提升了十倍,得以用指數級速度測試更多船體設計并實現了性能優勢,衛冕帆船賽的冠軍。
?
這畫面是不是很眼熟,沒錯,就跟阿爾法狗戰勝人類頂級圍起棋手那回一樣,計算機再次用算力優勢在一個領域里超越了人類。強化學習證明了自己在游戲以外領域的價值,幫助人們提升了設計工業產品的速度。
?
強化學習其實不是個新鮮概念了,只不過過去是被深度學習領域的CV、NLP等熱門技術掩蓋,現在重新被關注了而已。
?
那么,它具體是干什么的?簡而言之,就是”自學成才”。
?
還是以Alpha Go舉例。早期采用監督學習的 Alpha Go,需要輸入大量人類棋手的下法、對弈棋局等數據,不斷學習下法,也就是說,它是在“模仿”人類。但無論怎么模仿,它終究還是難以真正超越人類。到了采取了強化學習的Alpha Go Zero 的版本,它就不再對著人類的玩法照貓畫虎了。了解到基本的規則以及最終要達到的目標后,就開始“隨便下”,如果下贏了,就會得到獎勵,然后指導下一步的決策;如果輸了,就會有懲罰。在這種嘗試——反饋——學習的過程中,完成自我進化。
?
對比于監督學習,強化學習的優勢在于:無需在前期就輸入大量數據,可以自我迭代完成學習的過程。對于許多場景來說,我們并沒有太多可以參照的數據,而且有些小的變動都有可能會導致過去的經驗沒法直接套用,監督式的機器學習算法,學無可學。
?
正因為強化學習更接近于人類的思維模式,也難怪強化學習之父Richard Sutton說:” 我相信,從某種意義上講,強化學習是人工智能的未來。”
?
學會下圍棋只是強化學習開始,在產業界落地才是AI技術真正價值的所在。
?
好了,閑話不多說,下面來介紹一些強化學習的入門知識。
?
?
2??強化學習的基本概念
?
強化學習是機器學習中的一個領域,強調如何基于環境而行動,以取得最大化的預期利益。其靈感來源于心理學中的行為主義理論,即有機體如何在環境給予的獎勵或懲罰的刺激下,逐步形成對刺激的預期,產生能獲得最大利益的習慣性行為。在維基百科對強化學習的定義為:受到行為心理學的啟發,強化學習主要關注智能體如何在環境中采取不同的行動,以最大限度地提高累積獎勵。
?
就本質來說,強化學習是要解決做決策的問題,也就是自動決策問題,且可以連續做決策。
?
?
3??強化學習的組成元素
?
(1)四大元素
?
強化學習包含四個元素:智能體(agent),環境,行動/動作,獎勵。
?
下面給出強化學習四大元素的定義:
?
智能體:強化學習的本體,作為學習者或者決策者。
環境:強化學習智能體以外的一切,主要由狀態集組成。狀態表示環境的數據。狀態集是環境中所有可能的狀態。
行動/動作:智能體可以做出的動作。動作集是智能體可以做出的所有動作。
獎勵:智能體在執行一個動作后,獲得的正/負獎勵信號。獎勵集是智能體可以獲得所有反饋信息,正/負獎勵信號亦可稱作正/負反饋信號。
?
(2)策略與目標
?
強化學習是從環境狀態到動作的映射學習,該映射關系稱為策略。通俗地說,智能體選擇動作的思考過程即為策略。
?
智能體自動尋找在連續時間序列里的最優策略,而最優策略通常指最大化長期累積獎勵。
?
可見,強化學習實際上是智能體在與環境進行交互的過程中,學會最佳決策序列。
?
?
4??強化學習的分類
?
強化學習通常分為兩種,一種是無模型的,另一種是基于模型的。
?
(1)無模型強化學習
?
無模型強化學習直接為參與者生成策略,所有的環境知識都嵌入到這個策略中。
?
① 策略梯度算法
?
策略梯度算法修改代理的策略以跟蹤那些為其帶來更高獎勵的操作。這使這些算法符合策略,因此它們只能從算法內采取的操作中學習。
?
用于連接主義強化學習的簡單統計梯度跟蹤算法--1992年:提出了政策梯度的概念,提出了系統地增加產生高回報的行為的可能性的核心思想。
?
② 基于價值的算法
?
基于價值的算法會根據給定狀態的感知價值來修改代理策略。這使得這些算法脫離策略,因為代理可以通過從任何策略中讀取獎勵函數來更新其內部狀態結構。
?
Q學習--1992年:Q學習是現代強化學習中基于價值的經典方法,其中代理存儲每個動作狀態對的感知值,然后通知策略動作。
?
深度Q網絡(DQN)--2015年:深度Q學習僅應用神經網絡來模擬Q函數的每個動作和狀態,這可以節省大量的計算資源,并有可能擴展到連續的時間動作空間。
?
③ Actor-Critic算法
?
行為者批判算法將基于策略和基于價值的方法結合在一起--通過對價值(critic)和行為(actor)使用單獨的網絡近似值。這兩個網絡相互配合,使彼此規范化并有望獲得更穩定的結果。
?
Actor-Critic算法--2000年:提出了用兩個單獨的但相互交織的模型來生成控制策略的想法。
?
信任區域政策優化(TRPO)--2015年:基于actor critic途徑,TRPO的作者希望在每個訓練迭代中調整策略的變化,他們引入了一個關于KL散度的硬約束,即新策略分布中的信息變化。使用約束而不是懲罰,在實踐中允許更大的訓練步驟和更快的收斂。
?
近端政策優化(PPO)--2017年:PPO是對TRPO的改進,相較于之前的TRPO方法更加易于實現。
?
深度確定性策略梯度(DDPG)--2016年:DDPG將Q學習與策略梯度更新規則結合在一起,允許Q學習應用于許多連續控制環境。
?
雙延遲深度確定性策略梯度(TD3)--2018年:TD3在DDPG的基礎上進行了3個主要更改:1)同時學習兩個Q函數,采用較低的Bellman估計值以減少方差;2)與Q函數相比,更新策略的頻率更低;3)向目標操作添加噪音,以降低攻擊性策略。
?
Soft Actor Critic(SAC)--2018年:為了在機器人實驗中使用無模型的RL,作者希望提高樣本效率,數據收集的廣度和勘探的安全性。他們使用基于熵的RL來控制探索,并使用DDPG樣式Q函數逼近進行連續控制。
?
隨著樣本復雜度下降和結果上升,許多人對無模型強化學習的應用感到非常興奮。最近的研究已將這些方法的越來越多的部分用于物理實驗,這使廣泛使用的機器人的前景更近了一步。
?
(2)基于模型的強化學習
?
基于模型的強化學習嘗試建立環境知識,并利用這些知識采取明智的措施。
?
學習控制的概率推斷(PILCO)--2011:它提出了一種基于高斯過程(GP)的策略搜索方法。
?
帶有軌跡采樣的概率集成(PETS)--2018:PETS將三個部分組合成一個功能算法:
1)由多個隨機初始化的神經網絡組成的動力學模型(模型集合);
2)基于粒子的傳播算法;
3)和簡單模型預測控制器。
?
基于模型的元策略優化(MB-MPO)--2018年:使用元學習來選擇集成中哪個動態模型最能優化策略并減少模型偏差。這種元優化允許MBRL在更低的樣本中更接近于漸進的無模型性能。
?
模型集成信任區域策略優化(ME-TRPO)--2018年:ME-TRPO是TRPO在模型集成上的應用,該模型集成被認為是環境的基本事實。對無模型版本的一個細微的添加是策略訓練的停止條件,只有在策略迭代時,一定比例的模型不再看到改進時才會停止。
?
近年來,基于模型的強化學習有很多令人興奮的應用,例如四軸飛行器和步行機器人。
?
在下一篇中會講講業內一些強化學習的運用。
?
?
?
?
?
?
一個數據人的自留地是一個助力數據人成長的大家庭,幫助對數據感興趣的伙伴們明確學習方向、精準提升技能。關注我,帶你探索數據的神奇奧秘
?
1、回“數據產品”,獲取<大廠數據產品面試題>
2、回“數據中臺”,獲取<大廠數據中臺資料>
3、回“商業分析”,獲取<大廠商業分析面試題>;
4、回“交個朋友”,進交流群,認識更多的數據小伙伴。
總結
以上是生活随笔為你收集整理的听乌森聊强化学习的那些事的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 排课软件
- 下一篇: 拳王虚拟项目公社:0基础小白副业年赚30