日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

强化学习笔记4:强化学习分类

發(fā)布時(shí)間:2025/4/5 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 强化学习笔记4:强化学习分类 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1 model-free & model-based

  • model-based(有模型)?RL agent,它通過(guò)學(xué)習(xí)環(huán)境的狀態(tài)轉(zhuǎn)移來(lái)采取動(dòng)作。
  • model-free(免模型)?RL agent,它沒(méi)有去直接估計(jì)環(huán)境狀態(tài)的轉(zhuǎn)移,也沒(méi)有得到環(huán)境的具體轉(zhuǎn)移變量。它通過(guò)學(xué)習(xí)價(jià)值函數(shù)和策略函數(shù)進(jìn)行決策。Model-free 的模型里面沒(méi)有一個(gè)環(huán)境轉(zhuǎn)移的模型。

1.1 有模型強(qiáng)化學(xué)習(xí)

????????我們可以用馬爾可夫決策過(guò)程來(lái)定義強(qiáng)化學(xué)習(xí)任務(wù),并表示為四元組 <S,A,P,R>,即狀態(tài)集合、動(dòng)作集合、狀態(tài)轉(zhuǎn)移函數(shù)和獎(jiǎng)勵(lì)函數(shù)。

????????如果這四元組中所有元素均已知,且狀態(tài)集合和動(dòng)作集合在有限步數(shù)內(nèi)是有限集,則機(jī)器可以對(duì)真實(shí)環(huán)境進(jìn)行建模,通過(guò)學(xué)習(xí)狀態(tài)轉(zhuǎn)移函數(shù)來(lái)構(gòu)建一個(gè)虛擬環(huán)境,以模擬真實(shí)環(huán)境的狀態(tài)和交互反應(yīng)。

????????具體來(lái)說(shuō),當(dāng)智能體知道狀態(tài)轉(zhuǎn)移函數(shù)?和獎(jiǎng)勵(lì)函數(shù)后,它就能知道在某一狀態(tài)下執(zhí)行某一動(dòng)作后能帶來(lái)的獎(jiǎng)勵(lì)和環(huán)境的下一狀態(tài),這樣智能體就不需要在真實(shí)環(huán)境中采取動(dòng)作,直接在虛擬環(huán)境中學(xué)習(xí)和規(guī)劃策略即可。這種學(xué)習(xí)方法稱為有模型學(xué)習(xí)。

1.2 無(wú)模型強(qiáng)化學(xué)習(xí)?

????????然而在實(shí)際應(yīng)用中,智能體并不是那么容易就能知曉馬爾可夫決策過(guò)程中的所有元素的。

????????通常情況下,狀態(tài)轉(zhuǎn)移函數(shù)和獎(jiǎng)勵(lì)函數(shù)很難估計(jì),甚至連環(huán)境中的狀態(tài)都可能是未知的,這時(shí)就需要采用免模型學(xué)習(xí)。

????????免模型學(xué)習(xí)沒(méi)有對(duì)真實(shí)環(huán)境進(jìn)行建模,智能體只能在真實(shí)環(huán)境中通過(guò)一定的策略來(lái)執(zhí)行動(dòng)作,等待獎(jiǎng)勵(lì)和狀態(tài)遷移,然后根據(jù)這些反饋信息來(lái)更新行為策略,這樣反復(fù)迭代直到學(xué)習(xí)到最優(yōu)策略。【讓 agent 跟環(huán)境進(jìn)行交互,采集到很多的軌跡數(shù)據(jù)】

1.3 有模型強(qiáng)化學(xué)習(xí)和無(wú)模型強(qiáng)化學(xué)習(xí)的區(qū)別

????????總的來(lái)說(shuō),有模型強(qiáng)化學(xué)習(xí)相比于無(wú)模型強(qiáng)化學(xué)習(xí)僅僅多出一個(gè)步驟,即對(duì)真實(shí)環(huán)境進(jìn)行建模。(計(jì)算?狀態(tài)轉(zhuǎn)換概率等environment的狀態(tài))?

????????因此,一些有模型的強(qiáng)化學(xué)習(xí)方法,也可以在免模型的強(qiáng)化學(xué)習(xí)方法中使用。

????????在實(shí)際應(yīng)用中,如果不清楚該用有模型強(qiáng)化學(xué)習(xí)還是無(wú)模型強(qiáng)化學(xué)習(xí),可以先思考一下,在智能體執(zhí)行動(dòng)作前,是否能對(duì)下一步的狀態(tài)和獎(jiǎng)勵(lì)進(jìn)行預(yù)測(cè),如果可以,就能夠?qū)Νh(huán)境進(jìn)行建模,從而采用有模型學(xué)習(xí)。

? ? ? ? 無(wú)模型強(qiáng)化學(xué)習(xí)通常屬于數(shù)據(jù)驅(qū)動(dòng)型方法,需要大量的采樣來(lái)估計(jì)狀態(tài)、動(dòng)作及獎(jiǎng)勵(lì)函數(shù),從而優(yōu)化動(dòng)作策略。例如,在 Atari 平臺(tái)上的 Space Invader 游戲中,無(wú)模型的深度強(qiáng)化學(xué)習(xí)需要大約 2 億幀游戲畫面才能學(xué)到比較理想的效果。

????????相比之下,有模型強(qiáng)化學(xué)習(xí)可以在一定程度上緩解訓(xùn)練數(shù)據(jù)匱乏的問(wèn)題,因?yàn)橹悄荏w可以在虛擬環(huán)境中進(jìn)行訓(xùn)練。(虛擬環(huán)境中知道狀態(tài)轉(zhuǎn)移函數(shù))

? ? ? ? ?無(wú)模型學(xué)習(xí)的泛化性要優(yōu)于有模型學(xué)習(xí),原因是有模型學(xué)習(xí)算需要對(duì)真實(shí)環(huán)境進(jìn)行建模,并且虛擬世界與真實(shí)環(huán)境之間可能還有差異,這限制了有模型學(xué)習(xí)算法的泛化性。

????????有模型的強(qiáng)化學(xué)習(xí)方法可以對(duì)環(huán)境建模,使得該類方法具有獨(dú)特魅力,即“想象能力”。

????????在無(wú)模型學(xué)習(xí)中,智能體只能根據(jù)數(shù)據(jù)一步一步地采取策略,等待真實(shí)環(huán)境的反饋;而有模型學(xué)習(xí)可以在虛擬世界中預(yù)測(cè)出所有將要發(fā)生的事,并采取對(duì)自己最有利的策略。(因?yàn)橛心P蛯W(xué)習(xí)知道狀態(tài)轉(zhuǎn)移函數(shù),就知道之后的狀態(tài))

?

2 基于概率(策略)和基于價(jià)值

?

????????基于概率(策略)是強(qiáng)化學(xué)習(xí)中最直接的一種, 他能通過(guò)分析所處的環(huán)境, 直接輸出下一步要采取的各種動(dòng)作的概率, 然后根據(jù)概率采取行動(dòng), 所以每種動(dòng)作都有可能被選中, 只是可能性不同.

  • 這一類 agent 直接去學(xué)習(xí) policy,就是說(shuō)你直接給它一個(gè)狀態(tài),它就會(huì)輸出這個(gè)動(dòng)作的概率。
  • 在基于策略的 agent 里面并沒(méi)有去學(xué)習(xí)它的價(jià)值函數(shù)。

????????在基于策略迭代的強(qiáng)化學(xué)習(xí)方法中,智能體會(huì)制定一套動(dòng)作策略(確定在給定狀態(tài)下需要采取何種動(dòng)作),并根據(jù)這個(gè)策略進(jìn)行操作。

????????強(qiáng)化學(xué)習(xí)算法直接對(duì)策略進(jìn)行優(yōu)化,使制定的策略能夠獲得最大的獎(jiǎng)勵(lì)。

????????基于價(jià)值的方法【agent(value-based agent)】輸出則是所有動(dòng)作的價(jià)值, 我們會(huì)根據(jù)最高價(jià)值來(lái)選擇動(dòng)作。

  • 這一類 agent 顯式地學(xué)習(xí)的是價(jià)值函數(shù),
  • 隱式地學(xué)習(xí)了它的策略。策略是從我們學(xué)到的價(jià)值函數(shù)里面推算出來(lái)的

????????在基于價(jià)值迭代的強(qiáng)化學(xué)習(xí)方法中,智能體不需要制定顯式的策略,它維護(hù)一個(gè)價(jià)值表格或價(jià)值函數(shù),并通過(guò)這個(gè)價(jià)值表格或價(jià)值函數(shù)來(lái)選取價(jià)值最大的動(dòng)作。

????????基于價(jià)值迭代的方法只能應(yīng)用在不連續(xù)的、離散的環(huán)境下(如圍棋或某些游戲領(lǐng)域),對(duì)于行為集合規(guī)模龐大、動(dòng)作連續(xù)的場(chǎng)景(如機(jī)器人控制領(lǐng)域),其很難學(xué)習(xí)到較好的結(jié)果(此時(shí)基于策略迭代的方法能夠根據(jù)設(shè)定的策略來(lái)選擇連續(xù)的動(dòng)作)。

????????相比基于概率的方法, 基于價(jià)值的決策部分更為鐵定, 毫不留情, 就選價(jià)值最高的, 而基于概率的, 即使某個(gè)動(dòng)作的概率最高, 但是還是不一定會(huì)選到他.

????????我們現(xiàn)在說(shuō)的動(dòng)作都是一個(gè)一個(gè)不連續(xù)的動(dòng)作,。而對(duì)于選取連續(xù)的動(dòng)作, 基于價(jià)值的方法是無(wú)能為力的。我們可以能用一個(gè)概率分布在連續(xù)動(dòng)作中選取特定動(dòng)作, 這也是基于概率的方法的優(yōu)點(diǎn)之一.?

????????把 value-based 和 policy-based 結(jié)合起來(lái)就有了?Actor-Critic agent。這一類 agent 把它的策略函數(shù)和價(jià)值函數(shù)都學(xué)習(xí)了,然后通過(guò)兩者的交互得到一個(gè)最佳的行為。(智能體會(huì)根據(jù)策略做出動(dòng)作,而價(jià)值函數(shù)會(huì)對(duì)做出的動(dòng)作給出價(jià)值,這樣可以在原有的策略梯度算法的基礎(chǔ)上加速學(xué)習(xí)過(guò)程,取得更好的效果。)

3 回合更新 和 單步更新

????????強(qiáng)化學(xué)習(xí)還能用另外一種方式分類, 回合更新和單步更新。

????????想象強(qiáng)化學(xué)習(xí)就是在玩游戲, 游戲回合有開(kāi)始和結(jié)束.。回合更新指的是游戲開(kāi)始后, 我們要等待游戲這一回合結(jié)束, 然后再總結(jié)這一回合中的所有轉(zhuǎn)折點(diǎn), 再更新我們的行為準(zhǔn)則。

????????而單步更新則是在游戲進(jìn)行中每一步都在更新, 不用等待游戲的結(jié)束, 這樣我們就能邊玩邊學(xué)習(xí)了。

4?在線學(xué)習(xí) 和 離線學(xué)習(xí)

????????在線學(xué)習(xí), 就是指我必須本人在場(chǎng), 并且一定是本人邊玩邊學(xué)習(xí)。

????????離線學(xué)習(xí)是你可以選擇自己玩, 也可以選擇看著別人玩, 通過(guò)看別人玩來(lái)學(xué)習(xí)別人的行為準(zhǔn)則。

????????離線學(xué)習(xí)同樣是從過(guò)往的經(jīng)驗(yàn)中學(xué)習(xí), 但是這些過(guò)往的經(jīng)歷沒(méi)必要是自己的經(jīng)歷, 任何人的經(jīng)歷都能被學(xué)習(xí)。(比如參數(shù)不同的network,類似于DQN的fixed network和回歸訓(xùn)練的network)

比如

強(qiáng)化學(xué)習(xí)筆記:PPO 【近端策略優(yōu)化(Proximal Policy Optimization)】_UQI-LIUWJ的博客-CSDN博客

中,policy gradient就是on-policy,我從θ中采樣τ,然后 梯度上升更新θ;PPO博客中3.4是off-policy,我在θ‘中采樣,然后 梯度上升更新θ。

參考資料:強(qiáng)化學(xué)習(xí)方法匯總 - 強(qiáng)化學(xué)習(xí) (Reinforcement Learning) | 莫煩Python (mofanpy.com)

總結(jié)

以上是生活随笔為你收集整理的强化学习笔记4:强化学习分类的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。