日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

NeurIPS 2018 | 腾讯AI Lab:可自适应于不同环境和任务的强化学习方法

發(fā)布時間:2024/10/8 ChatGpt 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 NeurIPS 2018 | 腾讯AI Lab:可自适应于不同环境和任务的强化学习方法 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.


本文是由南加州大學(xué)和騰訊 AI Lab 合作發(fā)表于 NeurIPS 2018 的 Spotlight 論文之一,這項(xiàng)工作研究了同時在不同環(huán)境(Env)和不同任務(wù)(Task)之間遷移的問題,目的是利用稀疏的(Env, Task)組合就能學(xué)到在所有可能組合中遷移的能力。




本文提出了一種新穎的部件神經(jīng)網(wǎng)絡(luò),它描述了如何從環(huán)境和任務(wù)來組成強(qiáng)化學(xué)習(xí)策略的元規(guī)則。值得注意的是,這里的主要挑戰(zhàn)之一是環(huán)境和任務(wù)的特征描述必須與元規(guī)則一起學(xué)習(xí)。為此,研究者又進(jìn)一步提出了新的訓(xùn)練方法來解鎖這兩種學(xué)習(xí)任務(wù),使得最終的特征描述不僅成為環(huán)境和任務(wù)的獨(dú)特簽名,更成為組建策略的有效模塊。


研究者在 GRIDWORLD 和 AI2-THOR 上進(jìn)行了大量實(shí)驗(yàn),結(jié)果表明新提出的模型可以有效地在 400 個(Env, Task)組合之間成功遷移,而模型的訓(xùn)練只需要這些組合的大概 40%。


方法簡介


傳統(tǒng)的強(qiáng)化學(xué)習(xí)在同一個環(huán)境下試圖解決同一個任務(wù)——比如 AlphaGo,我們希望把這種受限情況下的進(jìn)展推廣到更一般的情況:多個環(huán)境(比如不同的迷宮),多個任務(wù)(比如逃離迷宮、找到寶藏、收集金幣等不同任務(wù))。



如上圖所示,紅色代表訓(xùn)練階段見到的環(huán)境與任務(wù)組合,灰色代表只在測試階段才會見到的組合:


(a)是最簡單的情況,盡管有一些組合在訓(xùn)練階段沒見過,但是每個環(huán)境(同理,每個任務(wù))都在訓(xùn)練的時候出現(xiàn)過;


(b)相對復(fù)雜一些,在測試階段出現(xiàn)的新的組合里面,或者任務(wù)是新的——訓(xùn)練時候沒有見過,或者環(huán)境是新的;


(c)是最復(fù)雜的情況,在測試階段出現(xiàn)的新組合里面,任務(wù)和環(huán)境都是以前沒有見過的。


我們提出一個統(tǒng)一的框架來解決上述三個問題,這個框架的關(guān)鍵在于同時學(xué)習(xí)環(huán)境和任務(wù)的描述子以及如何從這些描述子構(gòu)建規(guī)則。


我們的基本假設(shè)是規(guī)則的構(gòu)建方式對于不同的(環(huán)境、任務(wù))組合是相通的:于是,當(dāng)智能體在測試階段給定了新的(環(huán)境、任務(wù))組合時,針對(a)它可以利用以前學(xué)習(xí)到的描述子構(gòu)建相應(yīng)的規(guī)則;針對(b)和(c),也就是存在新的以前沒見過的環(huán)境或/和任務(wù),我們允許智能體做少量的交互來快速學(xué)習(xí)描述子——一旦環(huán)境和任務(wù)描述子學(xué)習(xí)完成,它就可以構(gòu)建規(guī)則,不需要像傳統(tǒng)的強(qiáng)化學(xué)習(xí)那樣重新學(xué)習(xí)規(guī)則。


具體來說,我們提出的框架如下:



雖然上述框架具備了我們要求的同時學(xué)習(xí)規(guī)則以及環(huán)境與任務(wù)描述子的功能,但是在學(xué)習(xí)階段有一個陷阱:很可能,規(guī)則和描述子會耦合在一起,使得智能體在見到的(環(huán)境、任務(wù))組合上表現(xiàn)很好,但是沒辦法在測試階段處理新的組合。


為了解決這個問題,就需要把規(guī)則構(gòu)建方式和描述子解耦,使得描述子確實(shí)可以有效描述和區(qū)分不同的環(huán)境與任務(wù),同時又能幫助構(gòu)建有效的規(guī)則。相對應(yīng)的,在訓(xùn)練的時候,除去傳統(tǒng)的用于完成任務(wù)的獎勵函數(shù),我們還加上針對描述子特有的用于分類的獎勵函數(shù)——基于描述子的狀態(tài)描述應(yīng)該能成功區(qū)分不同環(huán)境和任務(wù)。


實(shí)驗(yàn)設(shè)定


我們分別在走迷宮和室內(nèi)導(dǎo)航上進(jìn)行了實(shí)驗(yàn)。以下主要描述走迷宮;關(guān)于室內(nèi)導(dǎo)航的實(shí)驗(yàn)請見論文。



上圖展示了 16 個不同的迷宮(環(huán)境),其中紅黃綠紫等顏色方塊代表不同寶藏——它們各自代表一個任務(wù),同時收集它們的不同順序又能定義新的任務(wù)。


如下圖所示,我們假定智能體在迷宮中行走的時候,視野范圍只有 3 x 3。



實(shí)驗(yàn)結(jié)果


如下圖所示,我們的方法(SynPo)成功的超過了最近提出的幾個方法,包括多任務(wù)神經(jīng)網(wǎng)絡(luò)(MTL),模塊化神經(jīng)網(wǎng)絡(luò)(ModuleNet),專門用于遷移學(xué)習(xí)的 SF,還有一個我們自己方法的簡化版(MLP)。



另外,我們也分別研究了智能體在見過和沒見過的(環(huán)境、任務(wù))組合上的表現(xiàn)。如下圖所示,對于智能體在訓(xùn)練階段見過的組合,它在測試階段始終表現(xiàn)不錯;對于沒見過的組合,它只需要在 40% 的組合上學(xué)習(xí),就能達(dá)到很好的效果。



最后,我們給出在 10 個環(huán)境和 10 個任務(wù)組合上訓(xùn)練,然后在 20 個環(huán)境和 20 個任務(wù)上做測試的結(jié)果。如下圖所示,每一行代表一個任務(wù),每一列代表一個環(huán)境,其中左上角的 10 個環(huán)境和任務(wù)是用于訓(xùn)練的。



測試階段,為了拓展到新的環(huán)境(右上角),我們允許智能體和環(huán)境做少量交互,用于得到環(huán)境的描述子,然后構(gòu)建規(guī)則;為了拓展到新的任務(wù)(左下角),我們?nèi)绶ㄅ谥?#xff0c;得到任務(wù)的描述子。


得到所有描述子以后,我們就可以構(gòu)建針對任意組合的規(guī)則了。在相應(yīng)規(guī)則指導(dǎo)下,智能體完成任務(wù)的表現(xiàn)如上圖,深色代表高成功率,淺色代表低成功率。我們可以看到向新的任務(wù)遷移比向新的環(huán)境遷移容易一些,而兩者都是以前未見的時候,遷移是最難的。




點(diǎn)擊以下標(biāo)題查看更多論文解讀:?


  • 自動機(jī)器學(xué)習(xí)(AutoML)最新綜述

  • 自然語言處理中的語言模型預(yù)訓(xùn)練方法

  • 從傅里葉分析角度解讀深度學(xué)習(xí)的泛化能力

  • 深度解讀DeepMind新作:史上最強(qiáng)GAN圖像生成器

  • 兩行代碼玩轉(zhuǎn)Google BERT句向量詞向量

  • 本周有哪些值得讀的AI論文?進(jìn)來告訴你答案

  • TensorSpace:超酷炫3D神經(jīng)網(wǎng)絡(luò)可視化框架

  • NIPS 2018:基于條件對抗網(wǎng)絡(luò)的領(lǐng)域自適應(yīng)方法




#投 稿 通 道#

?讓你的論文被更多人看到?



如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢? 答案就是:你不認(rèn)識的人。


總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?


PaperWeekly 鼓勵高校實(shí)驗(yàn)室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。


??來稿標(biāo)準(zhǔn):

? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?

? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會添加“原創(chuàng)”標(biāo)志


? 投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨(dú)在附件中發(fā)送?

? 請留下即時聯(lián)系方式(微信或手機(jī)),以便我們在編輯發(fā)布時和作者溝通




?


現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧



關(guān)于PaperWeekly


PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。


▽ 點(diǎn)擊 |?閱讀原文?| 下載論文

總結(jié)

以上是生活随笔為你收集整理的NeurIPS 2018 | 腾讯AI Lab:可自适应于不同环境和任务的强化学习方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。