强化学习笔记5:learningplanning, explorationexploitation
1 learning & planning
Learning 和 Planning 是序列決策的兩個(gè)基本問(wèn)題。
在強(qiáng)化學(xué)習(xí)中,環(huán)境初始時(shí)是未知的,agent 不知道環(huán)境如何工作,agent 通過(guò)不斷地與環(huán)境交互,逐漸改進(jìn)策略。(learning過(guò)程)
?在 plannning 中,環(huán)境是已知的,我們被告知了整個(gè)環(huán)境的運(yùn)作規(guī)則的詳細(xì)信息。
Agent 能夠計(jì)算出一個(gè)完美的模型,并且在不需要與環(huán)境進(jìn)行任何交互的時(shí)候進(jìn)行計(jì)算。
Agent 不需要實(shí)時(shí)地與環(huán)境交互就能知道未來(lái)環(huán)境,只需要知道當(dāng)前的狀態(tài),就能夠開(kāi)始思考,來(lái)尋找最優(yōu)解。
?在上圖這個(gè)游戲中,規(guī)則是制定的,我們知道選擇 left或者right 之后環(huán)境將會(huì)產(chǎn)生什么變化。我們完全可以通過(guò)已知的變化規(guī)則,來(lái)在內(nèi)部進(jìn)行模擬整個(gè)決策過(guò)程,無(wú)需與環(huán)境交互。
一個(gè)常用的強(qiáng)化學(xué)習(xí)問(wèn)題解決思路是,先學(xué)習(xí)環(huán)境如何工作,也就是了解環(huán)境工作的方式,即學(xué)習(xí)得到一個(gè)模型,然后利用這個(gè)模型進(jìn)行規(guī)劃。
2 exploration& exploitation
在強(qiáng)化學(xué)習(xí)里面,探索exploration?和利用exploitation?也是兩個(gè)很核心的問(wèn)題。
-
探索exploration是說(shuō)我們怎么去探索這個(gè)環(huán)境,通過(guò)嘗試不同的行為來(lái)得到一個(gè)最佳的策略,得到最大獎(jiǎng)勵(lì)的策略。
-
利用exploitation是說(shuō)我們不去嘗試新的東西,就采取已知的可以得到很大獎(jiǎng)勵(lì)的行為。
因?yàn)樵趧傞_(kāi)始的時(shí)候強(qiáng)化學(xué)習(xí) agent 不知道它采取了某個(gè)行為會(huì)發(fā)生什么,所以它只能通過(guò)試錯(cuò)去探索。
所以探索exploration就是通過(guò)試錯(cuò)來(lái)理解采取的這個(gè)行為到底可不可以得到好的獎(jiǎng)勵(lì)。
利用exploitation是說(shuō)我們直接采取已知的可以得到很好獎(jiǎng)勵(lì)的行為。
這里就面臨一個(gè)權(quán)衡,怎么通過(guò)犧牲一些短期的獎(jiǎng)勵(lì)來(lái)獲得行為的理解,從而學(xué)習(xí)到更好的策略。
2.1 探索和利用的例子:
| 餐館 |
|
| 做廣告 |
|
| 挖油 |
|
| 玩游戲 |
|
3 K-armed Bandit
與監(jiān)督學(xué)習(xí)不同,強(qiáng)化學(xué)習(xí)任務(wù)的最終獎(jiǎng)賞是在多步動(dòng)作之后才能觀察到。
這里我們不妨先考慮比較簡(jiǎn)單的情形:最大化單步獎(jiǎng)賞,即僅考慮一步操作。
需注意的是,即便在這樣的簡(jiǎn)化情形下,強(qiáng)化學(xué)習(xí)仍與監(jiān)督學(xué)習(xí)有顯著不同,因?yàn)闄C(jī)器需通過(guò)嘗試來(lái)發(fā)現(xiàn)各個(gè)動(dòng)作產(chǎn)生的結(jié)果,而沒(méi)有訓(xùn)練數(shù)據(jù)告訴機(jī)器應(yīng)當(dāng)做哪個(gè)動(dòng)作。
想要最大化單步獎(jiǎng)賞需考慮兩個(gè)方面:一是需知道每個(gè)動(dòng)作帶來(lái)的獎(jiǎng)賞,二是要執(zhí)行獎(jiǎng)賞最大的動(dòng)作。
若每個(gè)動(dòng)作對(duì)應(yīng)的獎(jiǎng)賞是一個(gè)確定值,那么嘗試遍所有的動(dòng)作便能找出獎(jiǎng)賞最大的動(dòng)作。然而,更一般的情形是,一個(gè)動(dòng)作的獎(jiǎng)賞值是來(lái)自于一個(gè)概率分布,僅通過(guò)一次嘗試并不能確切地獲得平均獎(jiǎng)賞值。
實(shí)際上,單步強(qiáng)化學(xué)習(xí)任務(wù)對(duì)應(yīng)了一個(gè)理論模型,即 K-臂賭博機(jī)(K-armed bandit)。
K-臂賭博機(jī)也被稱為?多臂賭博機(jī)(Multi-armed bandit) 。如上圖所示,K-搖臂賭博機(jī)有 K 個(gè)搖臂,賭徒在投入一個(gè)硬幣后可選擇按下其中一個(gè)搖臂,每個(gè)搖臂以一定的概率吐出硬幣,但這個(gè)概率賭徒并不知道。賭徒的目標(biāo)是通過(guò)一定的策略最大化自己的獎(jiǎng)賞,即獲得最多的硬幣。
-
若賭徒僅為獲知每個(gè)搖臂的期望獎(jiǎng)賞,則可采用僅探索(exploration-only)法:將所有的嘗試機(jī)會(huì)平均分配給每個(gè)搖臂(即輪流按下每個(gè)搖臂),最后以每個(gè)搖臂各自的平均吐幣概率作為其獎(jiǎng)賞期望的近似估計(jì)。
-
若賭徒僅為執(zhí)行獎(jiǎng)賞最大的動(dòng)作,則可采用僅利用(exploitation-only)法:按下目前最優(yōu)的(即到目前為止平均獎(jiǎng)賞最大的)搖臂,若有多個(gè)搖臂同為最優(yōu),則從中隨機(jī)選取一個(gè)。
顯然,僅探索法能很好地估計(jì)每個(gè)搖臂的獎(jiǎng)賞,卻會(huì)失去很多選擇最優(yōu)搖臂的機(jī)會(huì);僅利用法則相反,它沒(méi)有很好地估計(jì)搖臂期望獎(jiǎng)賞,很可能經(jīng)常選不到最優(yōu)搖臂。
因此,這兩種方法都難以使最終的累積獎(jiǎng)賞最大化。
事實(shí)上,探索(即估計(jì)搖臂的優(yōu)劣)和利用(即選擇當(dāng)前最優(yōu)搖臂)這兩者是矛盾的,因?yàn)閲L試次數(shù)(即總投幣數(shù))有限,加強(qiáng)了一方則會(huì)自然削弱另一方,這就是強(qiáng)化學(xué)習(xí)所面臨的探索-利用窘境(Exploration-Exploitation dilemma)。
顯然,想要累積獎(jiǎng)賞最大,則必須在探索與利用之間達(dá)成較好的折中。
參考文獻(xiàn):第一章 強(qiáng)化學(xué)習(xí)概述 (datawhalechina.github.io)
總結(jié)
以上是生活随笔為你收集整理的强化学习笔记5:learningplanning, explorationexploitation的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 强化学习笔记2:序列决策(Sequent
- 下一篇: 强化学习目录