日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

模仿学习(第四周)

發(fā)布時(shí)間:2023/12/31 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 模仿学习(第四周) 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

在傳統(tǒng)的強(qiáng)化學(xué)習(xí)任務(wù)中,通常通過(guò)計(jì)算累積獎(jiǎng)賞來(lái)學(xué)習(xí)最優(yōu)策略(policy),這種方式簡(jiǎn)單直接,而且在可以獲得較多訓(xùn)練數(shù)據(jù)的情況下有較好的表現(xiàn)。然而在多步?jīng)Q策(sequential decision)中,學(xué)習(xí)器不能頻繁地得到獎(jiǎng)勵(lì),且這種基于累積獎(jiǎng)賞及學(xué)習(xí)方式存在非常巨大的搜索空間。而模仿學(xué)習(xí)(Imitation Learning)的方法經(jīng)過(guò)多年的發(fā)展,已經(jīng)能夠很好地解決多步?jīng)Q策問(wèn)題,在機(jī)器人、 NLP 等領(lǐng)域也有很多的應(yīng)用。
模仿學(xué)習(xí)概念
模仿學(xué)習(xí)是指從示教者提供的范例中學(xué)習(xí),一般提供人類(lèi)專(zhuān)家的決策數(shù)據(jù),每個(gè)決策包含狀態(tài)和動(dòng)作序列,將所有「狀態(tài)-動(dòng)作對(duì)」抽取出來(lái)構(gòu)造新的集合 。

之后就可以把狀態(tài)作為特征(feature),動(dòng)作作為標(biāo)記(label)進(jìn)行分類(lèi)(對(duì)于離散動(dòng)作)或回歸(對(duì)于連續(xù)動(dòng)作)的學(xué)習(xí)從而得到最優(yōu)策略模型。模型的訓(xùn)練目標(biāo)是使模型生成的狀態(tài)-動(dòng)作軌跡分布和輸入的軌跡分布相匹配。從某種角度說(shuō),有點(diǎn)像自動(dòng)編碼器(Autoencoder)也與目前大火的 GANs 很類(lèi)似。

關(guān)于模仿學(xué)習(xí)的相關(guān)資料目前能找到的比較少,暫且先看這些。

看論文:
(1)Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning

對(duì)于基于DRL的算法,確實(shí)存在論文指出的的缺點(diǎn):1、對(duì)目標(biāo)的泛化能力比較弱;2、數(shù)據(jù)的低效性,無(wú)法從模擬環(huán)境轉(zhuǎn)移到真實(shí)世界(deepmind在今年發(fā)表了一篇論文,用transfer learning的辦法實(shí)現(xiàn)從模擬環(huán)境到真實(shí)環(huán)境)。

為了解決第一個(gè)問(wèn)題,論文采用的辦法是把目標(biāo)作為輸入引人網(wǎng)絡(luò),而不是硬編碼到網(wǎng)絡(luò)參數(shù)中。所以,算法提出的網(wǎng)絡(luò)是把state和target goal都當(dāng)成輸入,這樣就泛化了目標(biāo),解決了更換目標(biāo)就要重新訓(xùn)練網(wǎng)絡(luò)的問(wèn)題。即使即使目標(biāo)沒(méi)有被訓(xùn)練過(guò),也能使用。為了解決第二個(gè)問(wèn)題,論文提出了AI2-THOR框架,它提供了一個(gè)具有高質(zhì)量3D場(chǎng)景和物理引擎的環(huán)境。AI2-THOR框架使代理能夠采取行動(dòng)并與對(duì)象進(jìn)行交互。
優(yōu)點(diǎn):
(1)比最先進(jìn)的深度強(qiáng)化學(xué)習(xí)方法收斂得更快,(2)跨目標(biāo)和跨場(chǎng)景推廣,(3)推廣到具有少量精細(xì)的真實(shí)機(jī)器人場(chǎng)景-tuning(盡管模型是在模擬中訓(xùn)練的),(4)是端到端可訓(xùn)練的,不需要特征工程,幀之間的特征匹配或環(huán)境的3D重建。

(2)Playing Atari with Deep Reinforcement Learning 2013
第一個(gè)將深度學(xué)習(xí)模型與增強(qiáng)學(xué)習(xí)結(jié)合在一起從而成功地直接從高維的輸入(比如視覺(jué)或聽(tīng)覺(jué))學(xué)習(xí)控制策略。把 Q Learning 中的價(jià)值函數(shù)用深度神經(jīng)網(wǎng)絡(luò)近似。

從RL看結(jié)合Deep Learning的困難之處:

  • 深度學(xué)習(xí)的成功依賴于大量的有標(biāo)簽的樣本,從而進(jìn)行有監(jiān)督學(xué)習(xí)。而增強(qiáng)學(xué)習(xí)只有一個(gè)reward返回值,并且這個(gè)值還常常帶有噪聲,延遲,并且是稀少的(sparse),理解是不可能每個(gè)state給個(gè)reward。特別是延遲Delay,常常是幾千毫秒之后再返回。
  • 深度學(xué)習(xí)的樣本都是獨(dú)立的,而RL中的state狀態(tài)卻是相關(guān)的,前后的狀態(tài)是有影響的,這顯而易見(jiàn)。

解決方法:
通過(guò)Q-Learning使用reward來(lái)構(gòu)造標(biāo)簽;
建立一個(gè)經(jīng)驗(yàn)池,把每次的經(jīng)驗(yàn)都存起來(lái),要訓(xùn)練的時(shí)候就 隨機(jī) 的拿出一個(gè)樣本來(lái)訓(xùn)練。這樣就可以解決狀態(tài)state相關(guān)的問(wèn)題;

算法:
1,初始化replay memory D 容量為N
2,用一個(gè)深度神經(jīng)網(wǎng)絡(luò)作為Q值網(wǎng)絡(luò),初始化參數(shù)weight
3,設(shè)定游戲片段總數(shù)M
4,初始化網(wǎng)絡(luò)輸入,大小為84*84*4,并且計(jì)算網(wǎng)絡(luò)輸出
5,隨機(jī)選擇action或者通過(guò)網(wǎng)絡(luò)輸出的Q(max)值選擇action–>a
6,得到執(zhí)行a后的下一個(gè)網(wǎng)絡(luò)輸入和操作a的reward–>r
7,計(jì)算下一時(shí)刻網(wǎng)絡(luò)的輸出
8,將四個(gè)參數(shù)作為此刻的狀態(tài)一起存入到D中(D中存放著N個(gè)時(shí)刻的狀態(tài))
9,隨機(jī)從D中取出minibatch個(gè)狀態(tài)
10,計(jì)算每一個(gè)狀態(tài)的目標(biāo)值(通過(guò)執(zhí)行a后的reward來(lái)更新Q值作為目標(biāo)值)
11,通過(guò)SGD更新weight
注釋:在Q值中使用均方差mean-square error 來(lái)定義目標(biāo)函數(shù)objective function也就是loss function??梢钥吹?#xff0c;這里就是使用了Q-Learning更新的Q值作為目標(biāo)值。有了目標(biāo)值,又有當(dāng)前值,那么偏差就能通過(guò)均方差來(lái)進(jìn)行計(jì)算。

(3)****Human-level control through deep reinforcement learning 2015
這篇論文是DQN原型的改進(jìn)和完善。增強(qiáng)學(xué)習(xí)的困難在其很容易不穩(wěn)定甚至發(fā)散。不穩(wěn)定的原因,主要是數(shù)據(jù)的相關(guān)性太強(qiáng)導(dǎo)致小的權(quán)值更新會(huì)導(dǎo)致策略大的變化。
采用迭代式更新(iterative update)解決,即Q函數(shù)的參數(shù)只在一定步數(shù)后才更新,相當(dāng)于延遲更新來(lái)減少Q(mào)函數(shù)和Q函數(shù)目標(biāo)間的相關(guān)性。(目標(biāo)Q值僅周期性更新,目的是減少目標(biāo)和q值的相關(guān)性)
雖然也存在其他算法,但是他們對(duì)于非常大的神經(jīng)網(wǎng)絡(luò)會(huì)非常低效。
算法流程:
1)初始化replay memory D,容量是N 用于存儲(chǔ) 訓(xùn)練的樣本
2)初始化action-value function 的Q 卷積神經(jīng)網(wǎng)絡(luò) ,初始的參數(shù)隨機(jī)
3)初始化 target action-value function的卷積神經(jīng)網(wǎng)絡(luò),結(jié)構(gòu)和Q的一樣,參數(shù)初始等于Q的參數(shù)

For episode = 1,M do
初始化狀態(tài)系列s1,并對(duì)其進(jìn)行預(yù)處理得到4 * 84 * 84的視頻幀
for t=1,T do // 每個(gè)episode篇章訓(xùn)練一定的時(shí)間
根據(jù)概率e(很小)選擇一個(gè)隨機(jī)的動(dòng)作
或者根據(jù)當(dāng)前的狀態(tài)輸入到當(dāng)前的網(wǎng)絡(luò)中 (用了一次CNN)計(jì)算出每個(gè)動(dòng)作的Q值,選擇Q值最大的一個(gè)動(dòng)作(最優(yōu)動(dòng)作)
執(zhí)行上面的動(dòng)作a就可以得到reward(得分)以及下一個(gè)圖像
那么下一個(gè)狀態(tài)就往前移動(dòng)一幀,依然是4幀的圖像,再次處理得到新的網(wǎng)絡(luò)輸入
存儲(chǔ)(上一個(gè)狀態(tài),使用的動(dòng)作,得到reward,下一個(gè)狀態(tài))數(shù)據(jù) 到replay memory來(lái)做訓(xùn)練
接下來(lái)從D中隨機(jī)選取一個(gè)存儲(chǔ)的數(shù)據(jù)來(lái)訓(xùn)練網(wǎng)絡(luò)
計(jì)算當(dāng)前狀態(tài)的目標(biāo)action-value,根據(jù)bellman公式得到:
如果episode結(jié)束,那么就是得到的reward,如果沒(méi)有結(jié)束,那么就將下一個(gè)處理好的狀態(tài)輸入到網(wǎng)絡(luò),使用target網(wǎng)絡(luò) 參數(shù)(上面的3)),得到最大的Q值,然后按下面公式計(jì)算: (用第二次CNN)

接下來(lái)就是計(jì)算當(dāng)前狀態(tài)和動(dòng)作下的Q值,將當(dāng)前處理好的狀態(tài)輸入到網(wǎng)絡(luò),選擇對(duì)應(yīng)的動(dòng)作的Q值。(用第三次CNN)
根據(jù)loss function通過(guò)SGD來(lái)更新參數(shù)
每C次迭代后更新target action-value 網(wǎng)絡(luò)的參數(shù)為當(dāng)前的參數(shù)
end
end

(4)Deep Reinforcement Learning with Double Q-learning 2016
主流的 Q-learning 算法過(guò)高的估計(jì)在特定條件下的動(dòng)作值。過(guò)優(yōu)化現(xiàn)象是由于 Q-Learning 算法中的 max 操作造成的

總結(jié)

以上是生活随笔為你收集整理的模仿学习(第四周)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 国产精品综合久久久久久 | 中文字幕中文在线 | 天天激情 | 日本人dh亚洲人ⅹxx | 色就是色欧美色图 | 豆花av| 中文在线a∨在线 | 91天堂在线视频 | 咪咪色在线视频 | 一个人免费在线观看视频 | а√天堂8资源中文在线 | 在线观看黄色动漫 | 亚洲精品欧美在线 | sese视频在线观看 | 国产成人精品免高潮在线观看 | 国产黄色视 | 亚洲精品国产91 | 欧美破处女 | 国产在线欧美日韩 | 国产综合内射日韩久 | 国产91丝袜在线播放 | 精品在线观看视频 | 91欧美在线视频 | 国产免费黄网站 | 无码国产色欲xxxxx视频 | 亚洲精选一区二区 | 亚洲女成人图区 | 久久综合五月婷婷 | 日本福利小视频 | 美女高潮视频在线观看 | 中国免费毛片 | 免费看裸体视频网站 | 五号特工组之偷天换月 | 无遮挡黄色 | 五色天婷婷| 中文字幕久久网 | 国产九九九精品 | 夜久久久 | 久久国产成人精品国产成人亚洲 | 在线高清av | 超碰福利在线观看 | 久久久久久久久久综合 | 久草观看视频 | 精品国产制服丝袜高跟 | 久久精品国产露脸对白 | 一级做a爱| 亚洲成人自拍视频 | 中文字av| 午夜免费网 | 黄色片网站在线播放 | 日韩大片在线观看 | 尤物视频在线观看国产 | 国产精品久久久一区 | 综合国产一区 | 女优视频在线观看 | 欧美精品在线观看 | 边啃奶头边躁狠狠躁 | 婷婷在线影院 | 79日本xxxxxxxxx18| 免费日韩视频 | 亚洲色偷偷综合亚洲av伊人 | 成人av18| 国产无码日韩精品 | av在线最新| 成人区人妻精品一区二区不卡视频 | 亚洲一区二区精品在线观看 | 国产欧美视频在线观看 | 中文字幕乱伦视频 | 日本老年老熟无码 | 日本极品喷水 | 啊v视频在线 | 午夜不卡在线观看 | 爱操影院 | 免费看黄色大片 | 自拍第一页 | 国产精品一区二区三区四区在线观看 | 亚洲最大网| 欧美整片sss | 爽爽影院免费观看 | 亚洲第一a | 国产美女无遮挡永久免费 | 日韩成人激情 | 久久亚洲精精品中文字幕早川悠里 | 极品色av影院 | 超碰av男人的天堂 | 亚洲情侣av | 色爱成人综合 | 国产丝袜在线视频 | 午夜影院在线观看 | 91网站免费在线观看 | 性开放网站| 亚洲一区二区色 | 哪里可以看免费毛片 | 欧美一区一区 | 韩国一级片在线观看 | 亚洲人成在线观看 | 久久亚洲一区二区三区四区五区 | 天天综合入口 | 少妇性l交大片免潘金莲 |