日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

漫谈强化学习中的引导搜索策略

發(fā)布時間:2024/10/8 编程问答 46 豆豆
生活随笔 收集整理的這篇文章主要介紹了 漫谈强化学习中的引导搜索策略 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?PaperWeekly 原創(chuàng) ·?作者|李文浩

學(xué)校|華東師范大學(xué)博士生

研究方向|強(qiáng)化學(xué)習(xí)

本文將介紹 GPS 方法,GPS 方法是由強(qiáng)化學(xué)習(xí)大牛 Sergey Levine(在最近的 ICLR 2019 發(fā)表了 13 篇論文)于 2013 年提出的,目前被作為基礎(chǔ)算法廣泛應(yīng)用于各種強(qiáng)化學(xué)習(xí)任務(wù)中。

其出發(fā)點(diǎn)在于純粹的策略梯度方法在更新參數(shù)時不會用到環(huán)境模型因而屬于一種無模型強(qiáng)化學(xué)習(xí)算法,所謂成也蕭何敗也蕭何,雖然這使得策略梯度方法通用性很好,但是由于沒有利用到任何環(huán)境的內(nèi)在屬性,使得其訓(xùn)練只能完全依靠試錯,效率較低。

基于模型的路徑優(yōu)化算法(例如 iLQR)方法,能夠充分利用環(huán)境模型,從而在利用較少訓(xùn)練樣本的情況下即可使得算法收斂到局部最優(yōu)解。

但是路徑優(yōu)化算法是一個開環(huán)方法,在隨機(jī)環(huán)境下效果較差,雖然能夠通過使用 MPC 方法(基本思想是每次只執(zhí)行路徑優(yōu)化算法輸出的第一個時間步的動作)來增加算法的穩(wěn)定性,但是執(zhí)行時耗時較長無法適用于實(shí)時任務(wù)。但是策略梯度方法是一個閉環(huán)方法,因而其對于隨即環(huán)境的適應(yīng)能力以及執(zhí)行耗時上都能達(dá)到很好的效果。

因而一個直觀的想法是,能不能將兩者結(jié)合起來,用路徑優(yōu)化算法的輸出結(jié)果來指導(dǎo)策略梯度方法的訓(xùn)練過程,從而提升策略梯度方法的效率呢?GPS 方法正是基于這種思想提出的。

本文主要對早期 GPS 的三篇論文進(jìn)行了總結(jié)(還包括了一些其他論文的相關(guān)結(jié)論),具體請參閱文末的參考文獻(xiàn)。

文章的結(jié)構(gòu)如下:第一部分將會對最原始的 GPS 方法進(jìn)行介紹,第二部分將會介紹一個改進(jìn)版本。注意,這兩種版本的 GPS 算法都必須事先已知環(huán)境模型。第三部分將介紹一個在未知環(huán)境模型(需要在算法訓(xùn)練的過程中對環(huán)境模型進(jìn)行局部估計(jì))的情況下也能夠使用的 GPS 算法。

以上三種 GPS 算法均屬于基于模型的強(qiáng)化學(xué)習(xí)算法(以后我將專門寫一篇文章來介紹基于模型的強(qiáng)化學(xué)習(xí)算法)。為了方便起見,我將最原始的GPS算法記為 GPS-V1 (ICML 2013) [2],改進(jìn)版記為 GPS-V2 (ICML 2014) [3],最后一個版本記為 GPS-V3 (NIPS 2014) [4]。

GPS-V1

原始版本的 GPS 算法基本思想是首先使用路徑優(yōu)化算法產(chǎn)生一些訓(xùn)練數(shù)據(jù)并加入訓(xùn)練集中用以指導(dǎo)后續(xù)策略梯度方法的訓(xùn)練。但是策略梯度方法是在線策略算法,只能使用當(dāng)前策略采樣得到的數(shù)據(jù)來估計(jì)梯度從而更新參數(shù)。

為了能夠使用其他策略采樣的數(shù)據(jù),這里必須要使用一種技術(shù):重要性采樣。在這里我首先跑一下題來介紹一下重要性采樣。

1.1 重要性采樣

對于一個函數(shù) 以及一個概率分布 ,我們想要計(jì)算如下統(tǒng)計(jì)量:

我們知道,一般估計(jì)一個期望值的方法是從變量從屬的概率分布中進(jìn)行采樣,然后計(jì)算均值。但是實(shí)際上概率分布 可能非常復(fù)雜,我們沒有辦法從其中進(jìn)行采樣。重要性采樣方法通過從另外一個較為簡單的分布 中采樣出的樣本對以上期望值進(jìn)行估計(jì):

1.2 基于重要性采樣的策略梯度方法

讓我們回到正題,利用這種方法就可以在估計(jì)當(dāng)前正在學(xué)習(xí)的策略的梯度時采用其他策略采樣出的樣本:

其中 。從理論上來說 才是期望的無偏估計(jì),這里為了減小訓(xùn)練時的方差采用了這個特殊值。

但是我們是在其他策略采樣出的樣本分布的基礎(chǔ)上進(jìn)行新策略的搜索,一旦新策略的樣本分布與采樣樣本分布相距較遠(yuǎn)時,無法保證估計(jì)梯度的準(zhǔn)確性。前面有工作是通過計(jì)算重要性權(quán)重的方差來判斷新策略的準(zhǔn)確性的 [6],但是對于很長的路徑,重要性權(quán)重在大部分地方都為0,方差也很小,但是并不能說明什么問題。

V1 版本的 GPS 算法通過在優(yōu)化目標(biāo)上額外加入重要性權(quán)重的對數(shù)值的方式,來“軟最大化”重要性權(quán)重值,畢竟重要性權(quán)重越大,代表新策略分布與采樣分布更為接近(但其實(shí)在采樣分布概率較小的地方新策略分配一個較大的概率也會使得這個值比較大,所以感覺這種方法還是有很大缺陷的):

1.3 指導(dǎo)樣本的生成

GPS 系列算法希望使用路徑優(yōu)化算法生成的指導(dǎo)樣本來引導(dǎo)策略梯度算法往高回報(bào)的區(qū)域搜索(而非暴力試錯)。在之前的文章中我們講過 iLQR 算法,但是只展開講了確定性情況下的相關(guān)知識。

而策略梯度算法的應(yīng)用場景大部分都是非確定性場景,即使是確定性場景,也會因?yàn)樵肼暤拇嬖谑蛊鋵?shí)際上同樣是非確定性的。因而,下面我們主要關(guān)注非確定性場景下的指導(dǎo)樣本生成。

在非確定性條件下,指導(dǎo)樣本將服從某個概率分布,我們希望這個概率分布滿足以下兩個性質(zhì):

  • 各區(qū)域的概率密度不要過大(否則會使得重要性權(quán)重較小,使得指導(dǎo)樣本對于梯度的貢獻(xiàn)很小)

  • 該分布要盡可能覆蓋高回報(bào)區(qū)域

  • GPS-V1 的作者發(fā)現(xiàn),如果指導(dǎo)樣本的分布 是分布 的 I-投影,即最小化如下 KL 散度:

    得到的分布 即可滿足以上兩個性質(zhì)。具體來說,上式右邊第一部分保證了性質(zhì) 2,右邊第二部分保證了性質(zhì) 1。那么剩余的問題是分布 的具體形式是什么呢?

    GPS-V1 假設(shè)分布 是一個高斯分布,這是一個很自然的也是最容易想到的假設(shè)。而且如果我們希望能夠用只能解決非隨機(jī)環(huán)境的路徑優(yōu)化算法例如 iLQR 來解決隨即環(huán)境下的規(guī)劃問題的話,只能假設(shè) 為高斯分布。

    為了能夠直接使用類似 iLQR 算法的路徑優(yōu)化算法,我們這里再引入另外一個概念或者一個框架,叫做線性可解馬爾科夫決策過程(LMDP)[5]。該框架的核心思想在于,摒棄動作(action)的概念。

    智能體在不斷優(yōu)化其策略的過程中,會通過動作來改變其自身的狀態(tài)轉(zhuǎn)移概率(即在一個狀態(tài)下轉(zhuǎn)移到下一個狀態(tài)的概率,策略在不斷優(yōu)化,那么每個狀態(tài)下采取的動作也會變化,因而狀態(tài)轉(zhuǎn)移概率也會發(fā)生變化)。那么為何不放棄這一間接的做法,將策略直接定義為狀態(tài)轉(zhuǎn)移概率呢?即:

    這就是 LMDP 的核心思想(這部分牽涉的知識較廣,我同樣會之后單獨(dú)寫一篇文章來詳細(xì)介紹)。在 LMDP 的框架下,其回報(bào)函數(shù)變成如下形式:

    其中 代表學(xué)習(xí)到的策略(即學(xué)習(xí)到的狀態(tài)轉(zhuǎn)移概率), 代表智能體在沒有任何算法控制的情況下的狀態(tài)轉(zhuǎn)移概率。當(dāng) 表示一個均勻分布時,上式可轉(zhuǎn)化為:

    因而求解一個 LMDP 得到的指導(dǎo)樣本的概率分布是滿足前面提到的兩個性質(zhì)的。另外,可以證明,當(dāng)狀態(tài)轉(zhuǎn)移是線性以及回報(bào)函數(shù)是二次函數(shù)的情況下,最優(yōu)策略可以直接通過 iLQR 算法求解并且求解出的最優(yōu)策略服從以下高斯分布:

    代表確定環(huán)境下運(yùn)用 iLQR 算法得出的最優(yōu)策略, 代表確定環(huán)境下運(yùn)行 iLQR 算法中的參數(shù),具體參見 iLQR 算法。值得注意的是,由于 LMDP 并沒有動作這一概念,之所以可以得出以上結(jié)論,是采用 LMDP 估計(jì) MDP 得出的結(jié)論,具體細(xì)節(jié)我會單獨(dú)寫一篇文章細(xì)講。

    這里得出的結(jié)論是什么意思呢?其實(shí)就是說在運(yùn)行 iLQR 算法時,將前向循環(huán)中計(jì)算最優(yōu)動作的過程轉(zhuǎn)化為從以上高斯分布中采樣,然后將優(yōu)化目標(biāo)從僅僅最小化(或最大化)損失函數(shù)(或回報(bào)函數(shù))轉(zhuǎn)變?yōu)橥瑫r最大化最優(yōu)策略的熵即可即可。這樣導(dǎo)出的指導(dǎo)樣本就滿足我們的要求。

    還有一個問題是 只有在狀態(tài)轉(zhuǎn)移是線性的情況下才是一個高斯分布,在狀態(tài)轉(zhuǎn)移是非線性的情況下, 是指導(dǎo)樣本分布的一個局部的高斯估計(jì)。

    由于 GPS 算法需要通過指導(dǎo)樣本來將策略搜索的方向引導(dǎo)向高回報(bào)區(qū)域(這個高回報(bào)區(qū)域就是采樣出指導(dǎo)樣本的高斯分布的均值區(qū)域),但是這個分布只在指導(dǎo)樣本附近是準(zhǔn)確的,離得比較遠(yuǎn)就會出現(xiàn)較大誤差,但是策略搜索的區(qū)域是任意的,就會出現(xiàn)梯度估計(jì)不準(zhǔn)確的現(xiàn)象。

    以上問題其實(shí)已經(jīng)緩解了,前面提到的改進(jìn)版的梯度公式中的正則項(xiàng)保證了策略搜索的區(qū)域會靠近指導(dǎo)樣本的區(qū)域:

    1.4 適應(yīng)性指導(dǎo)樣本分布

    我們的策略是用某個特定的函數(shù)來進(jìn)行估計(jì)的,而函數(shù)的表示能力是有限的(即使是神經(jīng)網(wǎng)絡(luò),不同網(wǎng)絡(luò)層數(shù)以及神經(jīng)元個數(shù)都會對網(wǎng)絡(luò)的表示能力產(chǎn)生影響。而所謂的通用函數(shù)估計(jì)器是在神經(jīng)元個數(shù)無限的情況下才成立),那么強(qiáng)行讓學(xué)習(xí)策略的分布與知道樣本的分布盡可能一致可能會導(dǎo)致一些問題。

    考慮下面這種情況:指導(dǎo)樣本是在了解模型的情況下進(jìn)行決策的,而策略梯度算法是在不知道模型的情況下進(jìn)行決策的。因而前者除了觀察到的狀態(tài)外還利用了環(huán)境模型的信息,在相似的觀察下可能會進(jìn)行差異較大的決策。換句話講,策略函數(shù)要嘗試去擬合一些相似輸入產(chǎn)生不同輸出的數(shù)據(jù)點(diǎn),這就會使得算法訓(xùn)練起來十分困難。

    目前的算法流程是在算法初始化時就使用 iLQR 算法產(chǎn)生大量的指導(dǎo)樣本,之后就不再產(chǎn)生新的指導(dǎo)樣本了。為了解決以上問題,在策略不斷更新的過程中,重新根據(jù)以下這個新的回報(bào)函數(shù)來運(yùn)行 iLQR 算法產(chǎn)生新的指導(dǎo)樣本:

    通過以上回報(bào)函數(shù)產(chǎn)生的指導(dǎo)樣本會嘗試產(chǎn)生策略函數(shù)能夠產(chǎn)生的樣本分布。

    1.5 算法框架

    GPS-V1 的整體流程如下圖所示:

    這里有幾點(diǎn)細(xì)節(jié)需要說明。

    1. 算法第 6 行選取訓(xùn)練樣本,其實(shí)主要包括以下兩種樣本。第一種,全部的指導(dǎo)樣本;第二種,重要性權(quán)重較大的新樣本,權(quán)重較大代表與指導(dǎo)樣本更為相似。

    2. 第 7 行進(jìn)行參數(shù)更新時,是從上一步最優(yōu)的參數(shù)作為初始點(diǎn)進(jìn)行更新的。但是有時算法會陷入到局部最優(yōu)解中,使得在該局部最優(yōu)解下指導(dǎo)樣本的重要性權(quán)重較小,那么指導(dǎo)樣本就對梯度的估計(jì)無法產(chǎn)生影響,這樣就會使得算法進(jìn)一步往更差的方向更新。

    為了防止以上問題,這一步的參數(shù)更新從兩個不同的初始點(diǎn)開始:第一個初始點(diǎn)就是上一步更新的結(jié)果;而第二個則是求得一個使得當(dāng)前采集到的回報(bào)較高的樣本重要性權(quán)重最大的參數(shù)當(dāng)作初始化參數(shù)。

    3. 關(guān)于第 11-17 行,具體解釋以下為什么要采取這些操作。當(dāng)新搜索到的策略比原先的策略要好時,適當(dāng)減小約束項(xiàng)的權(quán)重,這樣可以增大下一步的策略搜索范圍,換句話說就是可以步子邁得大一些。

    反之,如果新搜索到的策略比上一步的要差,那么可能目前處于一個局部最優(yōu)解較多的區(qū)域內(nèi),或者搜索區(qū)域過大使得梯度估計(jì)得不準(zhǔn)確,這時候應(yīng)該適當(dāng)縮小搜索范圍,在更接近指導(dǎo)樣本的區(qū)域內(nèi)搜索。再者,如果這樣還是不能搜索到更好的策略,那么可能就是采樣出的訓(xùn)練樣本不好,這時候可以嘗試重新采樣。

    以上就是 GPS-V1 算法的全部內(nèi)容。其實(shí)在理解 GPS-V1 算法之后,后面兩個版本就很簡單了,因此我下面的內(nèi)容相對也會少很多。

    GPS-V2

    作者在 GPS-V1 算法里發(fā)現(xiàn)了一個問題,其實(shí) V1 算法也嘗試去解決這個問題但是效果不好,這個問題就是 1.4 節(jié)中所描述的問題。

    基于模型的路徑優(yōu)化算法產(chǎn)生的指導(dǎo)樣本,不基于模型的策略梯度方法有時候并不能擬合出來,就像在上一節(jié)中講到的那樣,策略梯度算法觀察不到一些通過模型才能反應(yīng)出來的因素。這樣會使得對于復(fù)雜問題學(xué)習(xí)出來的樣本分布并不能與指導(dǎo)樣本分布符合的很好。

    GPS-V2 從另外一個角度解決了上述問題,即完全拋棄了策略梯度步驟,直接讓策略通過對指導(dǎo)樣本進(jìn)行監(jiān)督學(xué)習(xí)得出,并且在路徑優(yōu)化算法更新時考慮到與當(dāng)前策略的距離并且嘗試使得這個距離盡可能小。通過這樣一種迭代更新的流程來使得兩者最終匹配。

    上述思想其實(shí) GPS-V1 部分的 1.4 節(jié)已經(jīng)考慮到了,但是是通過改變回報(bào)函數(shù)的方式達(dá)到的。GPS-V2 通過一種更直接的方式來建模,并拋棄了策略梯度部分,通過更加魯棒的監(jiān)督學(xué)習(xí)來學(xué)習(xí)策略,使得算法更新更為穩(wěn)定。

    具體來說,GPS-V2 求解以下優(yōu)化問題:


    其中第一個和第二個約束在路徑優(yōu)化算法運(yùn)行的過程中已經(jīng)默認(rèn)保證了,實(shí)際我們只需要考慮第三個約束。注意優(yōu)化目標(biāo)就是 GPS-V1 中提到的 I-projection,只不過這里沒有展開。我們采用拉格朗日乘子法(或者擴(kuò)展拉格朗日乘子法)將上述問題轉(zhuǎn)化為一個無約束優(yōu)化問題:


    而對于上述優(yōu)化問題,我們可以采用對偶梯度下降法(DGD,或者交替方向乘子法,ADMM)分別更新三部分的參數(shù)。而對偶變量通過以下公式更新:

    可以看出更新 其實(shí)就是在采用路徑優(yōu)化算法,更新 時就是在做監(jiān)督學(xué)習(xí)。最后給出算法流程:

    GPS-V3

    其實(shí)我覺得最實(shí)用的還是 V3 版本的 GPS 算法,因?yàn)閷τ诖蟛糠脂F(xiàn)實(shí)問題,環(huán)境模型對與算法設(shè)計(jì)者來說都是未知的。但是前兩個版本的 GPS 算法都假設(shè)環(huán)境模型是已知的(這樣才能運(yùn)行路徑優(yōu)化算法)。

    GPS-V3 算法嘗試解決事先未知環(huán)境模型場景下的相關(guān)問題,其實(shí)其基本思想也很直接,未知模型那我就估計(jì)模型,只不過全局模型肯定是很難估計(jì)準(zhǔn)確的,而且要采用類似 iLQR 這種路徑優(yōu)化算法要對模型進(jìn)行線性近似,因而更加不可能采用全局模型了。

    GPS-V3 通過估計(jì)局部模型來緩解上述問題,但是采用局部模型又會引入類似 GPS-V1 這樣的問題,在搜索區(qū)域距離當(dāng)前樣本過遠(yuǎn)時,算法誤差就會較大,因而 GPS-V3 在 GPS-V2 的基礎(chǔ)上再加了一個約束來解決這個問題。

    具體來說,GPS-V1 是解決如下優(yōu)化問題來產(chǎn)生指導(dǎo)樣本的:

    然后我們先轉(zhuǎn)回到最原始 iLQR 算法的優(yōu)化目標(biāo),不過因?yàn)檫@個時候我們是用估計(jì)的局部模型來運(yùn)行該算法的,我們加上如下KL散度的約束來使得搜索范圍不會離當(dāng)前樣本太遠(yuǎn):

    接下來同樣采用拉格朗日乘子法(或者擴(kuò)展拉格朗日乘子法)將其轉(zhuǎn)變?yōu)闊o約束問題:

    將上式中的 KL 散度展開:

    和 GPS-V1 的優(yōu)化問題對比,我們可以發(fā)現(xiàn)一個優(yōu)秀的巧合,我們只需要對上式兩邊除以 ,并將回報(bào)函數(shù)轉(zhuǎn)變一下:

    就可以直接采用 GPS-V1 一樣的方法產(chǎn)生指導(dǎo)樣本。再將 GPS-V2 算法引入進(jìn)來:

    對于上式同樣采用 GPS-V2 一樣的 DGD 方法(或者 ADMM 算法)求解即可。具體流程如下:

    這里需要再提一點(diǎn),關(guān)于估計(jì)局部模型采用的方法。由于局部模型是一個高斯分布,我們其實(shí)只要去估計(jì)其均值即可(方差設(shè)定為 )。而均值又是個線性函數(shù),其實(shí)只要估計(jì)兩個梯度即可:

    因而可以用簡單的線性回歸方法。當(dāng)然,對于較復(fù)雜的問題,一般會采用貝葉斯線性回歸,選用高斯過程、深度網(wǎng)絡(luò)或者高斯混合模型作為貝葉斯先驗(yàn)(這部分有機(jī)會我也會展開講一講)。

    總結(jié)

    最后,我引用 [1] 中的一段文字來總結(jié) GPS 算法的核心思想:

    Since each trajectory-centric teacher only needs to solve the task from a single initial state, it is faced with a much easier problem. The final policy is trained with supervised learning, which allows us to use a nonlinear, high-dimensional representation for this final policy, such as a multilayer neural network, in order to learn complex behaviors with good generalization.

    A key component in guided policy search is adaptation between the trajectories produced by the teacher and the final policy. This adaptation ensures that, at convergence, the teacher does not take actions that the final policy cannot reproduce.

    This is realized by an alternating optimization procedure, which iteratively optimizes the policy to match each teacher, while the teachers adapt to gradually match the behavior of the final policy.

    參考文獻(xiàn)

    [1] Zhang, Marvin, et al. "Learning deep neural network policies with continuous memory states." 2016 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2016.

    [2] Levine, Sergey, and Vladlen Koltun. "Guided policy search." International Conference on Machine Learning. 2013.

    [3] Levine, Sergey, and Vladlen Koltun. "Learning complex neural network policies with trajectory optimization." International Conference on Machine Learning. 2014.

    [4] Levine, Sergey, and Pieter Abbeel. "Learning neural network policies with guided policy search under unknown dynamics." Advances in Neural Information Processing Systems. 2014.

    [5] Dvijotham, Krishnamurthy, and Emanuel Todorov. "Inverse optimal control with linearly-solvable MDPs." Proceedings of the 27th International Conference on Machine Learning (ICML-10). 2010.

    [6] Jie, Tang, and Pieter Abbeel. "On a connection between importance sampling and the likelihood ratio policy gradient." Advances in Neural Information Processing Systems. 2010.

    ????

    現(xiàn)在,在「知乎」也能找到我們了

    進(jìn)入知乎首頁搜索「PaperWeekly」

    點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

    關(guān)于PaperWeekly

    PaperWeekly 是一個推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

    總結(jié)

    以上是生活随笔為你收集整理的漫谈强化学习中的引导搜索策略的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。