日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

强化学习笔记5:learningplanning, explorationexploitation

發(fā)布時(shí)間:2025/4/5 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 强化学习笔记5:learningplanning, explorationexploitation 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1 learning & planning

Learning 和 Planning 是序列決策的兩個(gè)基本問(wèn)題。

在強(qiáng)化學(xué)習(xí)中,環(huán)境初始時(shí)是未知的,agent 不知道環(huán)境如何工作,agent 通過(guò)不斷地與環(huán)境交互,逐漸改進(jìn)策略。(learning過(guò)程)

?在 plannning 中,環(huán)境是已知的,我們被告知了整個(gè)環(huán)境的運(yùn)作規(guī)則的詳細(xì)信息。

Agent 能夠計(jì)算出一個(gè)完美的模型,并且在不需要與環(huán)境進(jìn)行任何交互的時(shí)候進(jìn)行計(jì)算。

Agent 不需要實(shí)時(shí)地與環(huán)境交互就能知道未來(lái)環(huán)境,只需要知道當(dāng)前的狀態(tài),就能夠開(kāi)始思考,來(lái)尋找最優(yōu)解。

?在上圖這個(gè)游戲中,規(guī)則是制定的,我們知道選擇 left或者right 之后環(huán)境將會(huì)產(chǎn)生什么變化。我們完全可以通過(guò)已知的變化規(guī)則,來(lái)在內(nèi)部進(jìn)行模擬整個(gè)決策過(guò)程,無(wú)需與環(huán)境交互。

一個(gè)常用的強(qiáng)化學(xué)習(xí)問(wèn)題解決思路是,先學(xué)習(xí)環(huán)境如何工作,也就是了解環(huán)境工作的方式,即學(xué)習(xí)得到一個(gè)模型,然后利用這個(gè)模型進(jìn)行規(guī)劃。

2 exploration& exploitation

在強(qiáng)化學(xué)習(xí)里面,探索exploration?和利用exploitation?也是兩個(gè)很核心的問(wèn)題。

  • 探索exploration是說(shuō)我們怎么去探索這個(gè)環(huán)境,通過(guò)嘗試不同的行為來(lái)得到一個(gè)最佳的策略,得到最大獎(jiǎng)勵(lì)的策略。

  • 利用exploitation是說(shuō)我們不去嘗試新的東西,就采取已知的可以得到很大獎(jiǎng)勵(lì)的行為

因?yàn)樵趧傞_(kāi)始的時(shí)候強(qiáng)化學(xué)習(xí) agent 不知道它采取了某個(gè)行為會(huì)發(fā)生什么,所以它只能通過(guò)試錯(cuò)去探索。

所以探索exploration就是通過(guò)試錯(cuò)來(lái)理解采取的這個(gè)行為到底可不可以得到好的獎(jiǎng)勵(lì)。

利用exploitation是說(shuō)我們直接采取已知的可以得到很好獎(jiǎng)勵(lì)的行為。

這里就面臨一個(gè)權(quán)衡,怎么通過(guò)犧牲一些短期的獎(jiǎng)勵(lì)來(lái)獲得行為的理解,從而學(xué)習(xí)到更好的策略。

2.1 探索和利用的例子:

餐館
  • 利用:我們直接去你最喜歡的餐館,因?yàn)槟闳ミ^(guò)這個(gè)餐館很多次了,所以你知道這里面的菜都非常可口。
  • 探索:你把手機(jī)拿出來(lái),你直接搜索一個(gè)新的餐館,然后去嘗試它到底好不好吃。你有可能對(duì)這個(gè)新的餐館非常不滿意,錢就浪費(fèi)了。
做廣告
  • 利用:我們直接采取最優(yōu)的這個(gè)廣告策略。
  • 探索:我們換一種廣告策略,看看這個(gè)新的廣告策略到底可不可以得到獎(jiǎng)勵(lì)。
挖油
  • 利用:我們直接在已知的地方挖油,我們就可以確保挖到油。
  • 探索:我們?cè)谝粋€(gè)新的地方挖油,就有很大的概率,你可能不能發(fā)現(xiàn)任何油,但也可能有比較小的概率可以發(fā)現(xiàn)一個(gè)非常大的油田。
玩游戲
  • 利用:你總是采取某一種策略。比如說(shuō),王者榮耀對(duì)線中,你采取的策略可能是縮塔吃塔兵。這個(gè)策略很可能可以奏效,但可能遇到特定的對(duì)手就失效。
  • 探索:你可能嘗試一些新的對(duì)線的方法來(lái),可能可以壓著對(duì)面打,也可能天崩開(kāi)局

3 K-armed Bandit

與監(jiān)督學(xué)習(xí)不同,強(qiáng)化學(xué)習(xí)任務(wù)的最終獎(jiǎng)賞是在多步動(dòng)作之后才能觀察到。

這里我們不妨先考慮比較簡(jiǎn)單的情形:最大化單步獎(jiǎng)賞,即僅考慮一步操作。

需注意的是,即便在這樣的簡(jiǎn)化情形下,強(qiáng)化學(xué)習(xí)仍與監(jiān)督學(xué)習(xí)有顯著不同,因?yàn)闄C(jī)器需通過(guò)嘗試來(lái)發(fā)現(xiàn)各個(gè)動(dòng)作產(chǎn)生的結(jié)果,而沒(méi)有訓(xùn)練數(shù)據(jù)告訴機(jī)器應(yīng)當(dāng)做哪個(gè)動(dòng)作。

想要最大化單步獎(jiǎng)賞需考慮兩個(gè)方面:一是需知道每個(gè)動(dòng)作帶來(lái)的獎(jiǎng)賞,二是要執(zhí)行獎(jiǎng)賞最大的動(dòng)作。

若每個(gè)動(dòng)作對(duì)應(yīng)的獎(jiǎng)賞是一個(gè)確定值,那么嘗試遍所有的動(dòng)作便能找出獎(jiǎng)賞最大的動(dòng)作。然而,更一般的情形是,一個(gè)動(dòng)作的獎(jiǎng)賞值是來(lái)自于一個(gè)概率分布,僅通過(guò)一次嘗試并不能確切地獲得平均獎(jiǎng)賞值。

實(shí)際上,單步強(qiáng)化學(xué)習(xí)任務(wù)對(duì)應(yīng)了一個(gè)理論模型,即 K-臂賭博機(jī)(K-armed bandit)。

K-臂賭博機(jī)也被稱為?多臂賭博機(jī)(Multi-armed bandit) 。如上圖所示,K-搖臂賭博機(jī)有 K 個(gè)搖臂,賭徒在投入一個(gè)硬幣后可選擇按下其中一個(gè)搖臂,每個(gè)搖臂以一定的概率吐出硬幣,但這個(gè)概率賭徒并不知道。賭徒的目標(biāo)是通過(guò)一定的策略最大化自己的獎(jiǎng)賞,即獲得最多的硬幣。

  • 若賭徒僅為獲知每個(gè)搖臂的期望獎(jiǎng)賞,則可采用僅探索(exploration-only)法:將所有的嘗試機(jī)會(huì)平均分配給每個(gè)搖臂(即輪流按下每個(gè)搖臂),最后以每個(gè)搖臂各自的平均吐幣概率作為其獎(jiǎng)賞期望的近似估計(jì)。

  • 若賭徒僅為執(zhí)行獎(jiǎng)賞最大的動(dòng)作,則可采用僅利用(exploitation-only)法:按下目前最優(yōu)的(即到目前為止平均獎(jiǎng)賞最大的)搖臂,若有多個(gè)搖臂同為最優(yōu),則從中隨機(jī)選取一個(gè)。

顯然,僅探索法能很好地估計(jì)每個(gè)搖臂的獎(jiǎng)賞,卻會(huì)失去很多選擇最優(yōu)搖臂的機(jī)會(huì);僅利用法則相反,它沒(méi)有很好地估計(jì)搖臂期望獎(jiǎng)賞,很可能經(jīng)常選不到最優(yōu)搖臂。

因此,這兩種方法都難以使最終的累積獎(jiǎng)賞最大化。

事實(shí)上,探索(即估計(jì)搖臂的優(yōu)劣)和利用(即選擇當(dāng)前最優(yōu)搖臂)這兩者是矛盾的,因?yàn)閲L試次數(shù)(即總投幣數(shù))有限,加強(qiáng)了一方則會(huì)自然削弱另一方,這就是強(qiáng)化學(xué)習(xí)所面臨的探索-利用窘境(Exploration-Exploitation dilemma)。

顯然,想要累積獎(jiǎng)賞最大,則必須在探索與利用之間達(dá)成較好的折中。

參考文獻(xiàn):第一章 強(qiáng)化學(xué)習(xí)概述 (datawhalechina.github.io)

總結(jié)

以上是生活随笔為你收集整理的强化学习笔记5:learningplanning, explorationexploitation的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。