當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

强化学习笔记5：learningplanning， explorationexploitation

發(fā)布時(shí)間：2025/4/5 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了强化学习笔记5：learningplanning， explorationexploitation 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1 learning & planning

Learning 和 Planning 是序列決策的兩個(gè)基本問(wèn)題。

在強(qiáng)化學(xué)習(xí)中，環(huán)境初始時(shí)是未知的，agent 不知道環(huán)境如何工作，agent 通過(guò)不斷地與環(huán)境交互，逐漸改進(jìn)策略。（learning過(guò)程）

?在 plannning 中，環(huán)境是已知的，我們被告知了整個(gè)環(huán)境的運(yùn)作規(guī)則的詳細(xì)信息。

Agent 能夠計(jì)算出一個(gè)完美的模型，并且在不需要與環(huán)境進(jìn)行任何交互的時(shí)候進(jìn)行計(jì)算。

Agent 不需要實(shí)時(shí)地與環(huán)境交互就能知道未來(lái)環(huán)境，只需要知道當(dāng)前的狀態(tài)，就能夠開(kāi)始思考，來(lái)尋找最優(yōu)解。

?在上圖這個(gè)游戲中，規(guī)則是制定的，我們知道選擇 left或者right 之后環(huán)境將會(huì)產(chǎn)生什么變化。我們完全可以通過(guò)已知的變化規(guī)則，來(lái)在內(nèi)部進(jìn)行模擬整個(gè)決策過(guò)程，無(wú)需與環(huán)境交互。

一個(gè)常用的強(qiáng)化學(xué)習(xí)問(wèn)題解決思路是，先學(xué)習(xí)環(huán)境如何工作，也就是了解環(huán)境工作的方式，即學(xué)習(xí)得到一個(gè)模型，然后利用這個(gè)模型進(jìn)行規(guī)劃。

2 exploration& exploitation

在強(qiáng)化學(xué)習(xí)里面，探索exploration?和利用exploitation?也是兩個(gè)很核心的問(wèn)題。

探索exploration是說(shuō)我們怎么去探索這個(gè)環(huán)境，通過(guò)嘗試不同的行為來(lái)得到一個(gè)最佳的策略，得到最大獎(jiǎng)勵(lì)的策略。
利用exploitation是說(shuō)我們不去嘗試新的東西，就采取已知的可以得到很大獎(jiǎng)勵(lì)的行為。

因?yàn)樵趧傞_(kāi)始的時(shí)候強(qiáng)化學(xué)習(xí) agent 不知道它采取了某個(gè)行為會(huì)發(fā)生什么，所以它只能通過(guò)試錯(cuò)去探索。

所以探索exploration就是通過(guò)試錯(cuò)來(lái)理解采取的這個(gè)行為到底可不可以得到好的獎(jiǎng)勵(lì)。

利用exploitation是說(shuō)我們直接采取已知的可以得到很好獎(jiǎng)勵(lì)的行為。

這里就面臨一個(gè)權(quán)衡，怎么通過(guò)犧牲一些短期的獎(jiǎng)勵(lì)來(lái)獲得行為的理解，從而學(xué)習(xí)到更好的策略。

2.1 探索和利用的例子：

餐館	利用：我們直接去你最喜歡的餐館，因?yàn)槟闳ミ^(guò)這個(gè)餐館很多次了，所以你知道這里面的菜都非常可口。探索：你把手機(jī)拿出來(lái)，你直接搜索一個(gè)新的餐館，然后去嘗試它到底好不好吃。你有可能對(duì)這個(gè)新的餐館非常不滿意，錢就浪費(fèi)了。
做廣告	利用：我們直接采取最優(yōu)的這個(gè)廣告策略。探索：我們換一種廣告策略，看看這個(gè)新的廣告策略到底可不可以得到獎(jiǎng)勵(lì)。
挖油	利用：我們直接在已知的地方挖油，我們就可以確保挖到油。探索：我們?cè)谝粋€(gè)新的地方挖油，就有很大的概率，你可能不能發(fā)現(xiàn)任何油，但也可能有比較小的概率可以發(fā)現(xiàn)一個(gè)非常大的油田。
玩游戲	利用：你總是采取某一種策略。比如說(shuō)，王者榮耀對(duì)線中，你采取的策略可能是縮塔吃塔兵。這個(gè)策略很可能可以奏效，但可能遇到特定的對(duì)手就失效。探索：你可能嘗試一些新的對(duì)線的方法來(lái)，可能可以壓著對(duì)面打，也可能天崩開(kāi)局

3 K-armed Bandit

與監(jiān)督學(xué)習(xí)不同，強(qiáng)化學(xué)習(xí)任務(wù)的最終獎(jiǎng)賞是在多步動(dòng)作之后才能觀察到。

這里我們不妨先考慮比較簡(jiǎn)單的情形：最大化單步獎(jiǎng)賞，即僅考慮一步操作。

需注意的是，即便在這樣的簡(jiǎn)化情形下，強(qiáng)化學(xué)習(xí)仍與監(jiān)督學(xué)習(xí)有顯著不同，因?yàn)闄C(jī)器需通過(guò)嘗試來(lái)發(fā)現(xiàn)各個(gè)動(dòng)作產(chǎn)生的結(jié)果，而沒(méi)有訓(xùn)練數(shù)據(jù)告訴機(jī)器應(yīng)當(dāng)做哪個(gè)動(dòng)作。

想要最大化單步獎(jiǎng)賞需考慮兩個(gè)方面：一是需知道每個(gè)動(dòng)作帶來(lái)的獎(jiǎng)賞，二是要執(zhí)行獎(jiǎng)賞最大的動(dòng)作。

若每個(gè)動(dòng)作對(duì)應(yīng)的獎(jiǎng)賞是一個(gè)確定值，那么嘗試遍所有的動(dòng)作便能找出獎(jiǎng)賞最大的動(dòng)作。然而，更一般的情形是，一個(gè)動(dòng)作的獎(jiǎng)賞值是來(lái)自于一個(gè)概率分布，僅通過(guò)一次嘗試并不能確切地獲得平均獎(jiǎng)賞值。

實(shí)際上，單步強(qiáng)化學(xué)習(xí)任務(wù)對(duì)應(yīng)了一個(gè)理論模型，即 K-臂賭博機(jī)(K-armed bandit)。

K-臂賭博機(jī)也被稱為?多臂賭博機(jī)(Multi-armed bandit) 。如上圖所示，K-搖臂賭博機(jī)有 K 個(gè)搖臂，賭徒在投入一個(gè)硬幣后可選擇按下其中一個(gè)搖臂，每個(gè)搖臂以一定的概率吐出硬幣，但這個(gè)概率賭徒并不知道。賭徒的目標(biāo)是通過(guò)一定的策略最大化自己的獎(jiǎng)賞，即獲得最多的硬幣。

若賭徒僅為獲知每個(gè)搖臂的期望獎(jiǎng)賞，則可采用僅探索(exploration-only)法：將所有的嘗試機(jī)會(huì)平均分配給每個(gè)搖臂(即輪流按下每個(gè)搖臂)，最后以每個(gè)搖臂各自的平均吐幣概率作為其獎(jiǎng)賞期望的近似估計(jì)。
若賭徒僅為執(zhí)行獎(jiǎng)賞最大的動(dòng)作，則可采用僅利用(exploitation-only)法：按下目前最優(yōu)的(即到目前為止平均獎(jiǎng)賞最大的)搖臂，若有多個(gè)搖臂同為最優(yōu)，則從中隨機(jī)選取一個(gè)。

顯然，僅探索法能很好地估計(jì)每個(gè)搖臂的獎(jiǎng)賞，卻會(huì)失去很多選擇最優(yōu)搖臂的機(jī)會(huì)；僅利用法則相反，它沒(méi)有很好地估計(jì)搖臂期望獎(jiǎng)賞，很可能經(jīng)常選不到最優(yōu)搖臂。

因此，這兩種方法都難以使最終的累積獎(jiǎng)賞最大化。

事實(shí)上，探索(即估計(jì)搖臂的優(yōu)劣)和利用(即選擇當(dāng)前最優(yōu)搖臂)這兩者是矛盾的，因?yàn)閲L試次數(shù)(即總投幣數(shù))有限，加強(qiáng)了一方則會(huì)自然削弱另一方，這就是強(qiáng)化學(xué)習(xí)所面臨的探索-利用窘境(Exploration-Exploitation dilemma)。

顯然，想要累積獎(jiǎng)賞最大，則必須在探索與利用之間達(dá)成較好的折中。

參考文獻(xiàn)：第一章強(qiáng)化學(xué)習(xí)概述 (datawhalechina.github.io)

總結(jié)

以上是生活随笔為你收集整理的强化学习笔记5：learningplanning， explorationexploitation的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：强化学习笔记2：序列决策(Sequent
下一篇：强化学习目录