日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

让AI学习如何玩游戏 OpenAI打造强化学习通用模型

發布時間:2023/12/20 ChatGpt 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 让AI学习如何玩游戏 OpenAI打造强化学习通用模型 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

過度學習是許多AI模型的問題,要開發出通用型AI,就必須解決這道難題,OpenAI近日釋出一個特別的訓練環境CoinRun,該平臺藉由游戲設計,能夠提供指針,讓程序將過去學習到的經驗,轉移到全新環境中。

OpenAI近日釋出一個特別的訓練環境CoinRun,該平臺藉由游戲設計,能夠提供關鍵的量化指針,讓程序將過去學習到的經驗,轉移到全新環境中,也解決了強化學習長久以來的難題,CoinRun的環境比起傳統的游戲平臺簡單許多,像是音速小子(Sonic the Hedgehog),但是卻保有豐富且廣泛的挑戰,提供給最新的算法程序來解決。

打造出適用于不同任務的通用模型,對現今的深度強化學習算法,還是一大難題,雖然受過訓練的程序可以解決復雜的任務,但是換到新的環境時,該程序就會面臨轉移經驗的挑戰,尤其強化學習程序常常會有過度學習(overfittng)的問題,模型學習成果貼近訓練數據,換成別的測試數據效果就會大打折扣,無法學習到通用的技能。

CoinRun模仿音速小子游戲平臺,設計成讓現有的算法容易被訓練的環境,提供可量化的大量訓練數據,CoinRun每個關卡的目標即是在有障礙物的環境中,收集硬幣,如果程序代理人撞到障礙物,在游戲中就會死亡,唯一的獎勵機制是收集硬幣,且這項獎勵機制是固定的,若程市代理人死亡、集滿硬幣,或是移動1,000步之后,該游戲關卡就會結束。

為了評估該模型的通用程度,OpenAI用常見的3層式卷積架構,OpenAI也稱之為Nature-CNN,訓練了9個程序代理人在CoinRun平臺玩游戲,其中8個程序代理人在第100~16,000關卡中訓練,另外一個程序代理人的訓練,則是不限制任何關卡,因此,該程序代理人便不會看見同一個關卡兩次,每個關卡對該代理人而言,都是全新的環境,程序代理人是透過近端策略優化(Proximal Policy Optimization,PPO)算法來訓練,在固定關卡學習的程序,每個關卡會玩成千上萬次,而不固定訓練關卡的程序,每個關卡只會玩一次。

OpenAI收集了單獨訓練的AI程序表現結果,在少于4,000個關卡的訓練配置中,該程序出現過度學習的問題,超過16,000個關卡,問題依舊存在,接著,OpenAI利用CoinRun固定的500個關卡來訓練AI程序,發現透過多項正規化技術,可以改善訓練結果,像是Dropout和L2正規化、數據擴增和環境隨機性。

除此之外,OpenAI也開發了另外2個環境來研究過度學習的問題,分別是CoinRun的變化版CoinRun-Platforms和簡單迷宮導航環境RandomMazes,在這些實驗中,研究人員采用原本的IMPALA-CNN架構,透過長短期記憶模型(long short-term memory,LSTM)來進行實驗,在CoinRun-Platforms的環境中,AI程序要在1,000步的時間限制內收集硬幣,硬幣隨機分散在不同的關卡中,因此,程序必須積積極探索。

OpenAI表示,該研究成果提供打造強化學習通用模型更多研究方向,透過CoinRun環境,精準地量化過度學習的問題,有了這項指標后,研究人員可以更準確地評估,要用哪個架構和算法,OpenAI也提出幾個建議的未來研究方向,像是研究環境復雜度和關卡數的關系、重復的架構對通用型AI是否合適、探索多種正規化組合最有效的方法。

文章轉自:勝博發有你

轉載于:https://juejin.im/post/5c0e10c7e51d4534655d928e

總結

以上是生活随笔為你收集整理的让AI学习如何玩游戏 OpenAI打造强化学习通用模型的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。