强化学习(八)价值函数的近似表示与Deep Q-Learning
在強(qiáng)化學(xué)習(xí)系列的前七篇里,我們主要討論的都是規(guī)模比較小的強(qiáng)化學(xué)習(xí)問(wèn)題求解算法。今天開(kāi)始我們步入深度強(qiáng)化學(xué)習(xí)。這一篇關(guān)注于價(jià)值函數(shù)的近似表示和Deep Q-Learning算法。
Deep Q-Learning這一篇對(duì)應(yīng)Sutton書(shū)的第11章部分和UCL強(qiáng)化學(xué)習(xí)課程的第六講。
1. 為何需要價(jià)值函數(shù)的近似表示
在之前講到了強(qiáng)化學(xué)習(xí)求解方法,無(wú)論是動(dòng)態(tài)規(guī)劃DP,蒙特卡羅方法MC,還是時(shí)序差分TD,使用的狀態(tài)都是離散的有限個(gè)狀態(tài)集合SS。此時(shí)問(wèn)題的規(guī)模比較小,比較容易求解。但是假如我們遇到復(fù)雜的狀態(tài)集合呢?甚至很多時(shí)候,狀態(tài)是連續(xù)的,那么就算離散化后,集合也很大,此時(shí)我們的傳統(tǒng)方法,比如Q-Learning,根本無(wú)法在內(nèi)存中維護(hù)這么大的一張Q表。
比如經(jīng)典的冰球世界(PuckWorld) 強(qiáng)化學(xué)習(xí)問(wèn)題,具體的動(dòng)態(tài)demo見(jiàn)這里。環(huán)境由一個(gè)正方形區(qū)域構(gòu)成代表著冰球場(chǎng)地,場(chǎng)地內(nèi)大的圓代表著運(yùn)動(dòng)員個(gè)體,小圓代表著目標(biāo)冰球。在這個(gè)正方形環(huán)境中,小圓會(huì)每隔一定的時(shí)間隨機(jī)改變?cè)趫?chǎng)地的位置,而代表個(gè)體的大圓的任務(wù)就是盡可能快的接近冰球目標(biāo)。大圓可以操作的行為是在水平和豎直共四個(gè)方向上施加一個(gè)時(shí)間步時(shí)長(zhǎng)的一個(gè)大小固定的力,借此來(lái)改變大圓的速度。環(huán)境會(huì)在每一個(gè)時(shí)間步內(nèi)告訴個(gè)體當(dāng)前的水平與垂直坐標(biāo)、當(dāng)前的速度在水平和垂直方向上的分量以及目標(biāo)的水平和垂直坐標(biāo)共6項(xiàng)數(shù)據(jù),獎(jiǎng)勵(lì)值為個(gè)體與目標(biāo)兩者中心距離的負(fù)數(shù),也就是距離越大獎(jiǎng)勵(lì)值越低且最高獎(jiǎng)勵(lì)值為0。
在這個(gè)問(wèn)題中,狀態(tài)是一個(gè)6維的向
《新程序員》:云原生和全面數(shù)字化實(shí)踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結(jié)
以上是生活随笔為你收集整理的强化学习(八)价值函数的近似表示与Deep Q-Learning的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 强化学习(六)时序差分在线控制算法SAR
- 下一篇: 强化学习(九)Deep Q-Learni