日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 综合教程 >内容正文

综合教程

强化学习常用平台(环境)

發(fā)布時(shí)間:2024/1/3 综合教程 37 生活家
生活随笔 收集整理的這篇文章主要介紹了 强化学习常用平台(环境) 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

轉(zhuǎn)自:https://www.cnblogs.com/devilmaycry812839668/p/10228987.html

本篇博客主要是講一下強(qiáng)化學(xué)習(xí)的一些常用平臺(tái), 強(qiáng)化學(xué)習(xí)的發(fā)展已經(jīng)好多年了,以前都是大家做什么實(shí)驗(yàn)然后都是自己編寫環(huán)境代碼,由于很多人的代碼都是不公開(kāi)的所以其他人要繼續(xù)做前人的工作就需要自己重新構(gòu)建環(huán)境代碼,這樣做一方面做了很多重復(fù)工作,浪費(fèi)了大量的時(shí)間,而且很沒(méi)有必要,另一方面每個(gè)人都重新編寫各自的環(huán)境代碼導(dǎo)致每個(gè)人的環(huán)境多少是有所不同的,在一個(gè)環(huán)境下運(yùn)行不是的算法代碼往往在另一個(gè)環(huán)境平臺(tái)上可能就難以達(dá)到之前的表現(xiàn),這種情況下使得大家的代碼不具備可復(fù)現(xiàn)性,而這本質(zhì)上違背了學(xué)科科研的要求。

具體平臺(tái)介紹如下:

1. Gym

gym 是 openAI 公司出品的強(qiáng)化學(xué)習(xí)常用環(huán)境平臺(tái), 該平臺(tái)應(yīng)該是強(qiáng)化學(xué)習(xí)被人所熟知最多的, 集成的環(huán)境非常多,同時(shí)也有多個(gè)第三方環(huán)境為期提供接口。

環(huán)境介紹頁(yè)面: http://gym.openai.com/envs/

文檔介紹頁(yè)面:

具體如何安裝 gym 前文已經(jīng)介紹,這里就不在多說(shuō)。 前文地址:https://www.cnblogs.com/devilmaycry812839668/p/10226829.html

附注:

這里唯一要多說(shuō)的是啥呢,就是Gym環(huán)境里面只提供了環(huán)境代碼,并沒(méi)有集成任何強(qiáng)化學(xué)習(xí)代碼,具體強(qiáng)化學(xué)習(xí)代碼需要自己按照其API接口來(lái)寫,其最大優(yōu)點(diǎn)就是接口比較好,眾多強(qiáng)化學(xué)習(xí)環(huán)境都為其提供接口。

2. baselines

第二個(gè)要說(shuō)的強(qiáng)化學(xué)習(xí)的環(huán)境還是 openAI 公司提供的, baselines 。

openAI 的 baseline主頁(yè)

由上圖可以看出, baselines 在openAI公司的地位和Gym是并駕齊驅(qū)的。

baselines 項(xiàng)目地址:(github) https://github.com/openai/baselines

進(jìn)入到 baselines項(xiàng)目的具體代碼中, 即baselines/baselines文件夾,如下:

可以看到 baselines 項(xiàng)目中提供的都是一些 性能表現(xiàn)非常好的代碼,這也正如其ReadMe中的介紹:

可以看出 baselines 項(xiàng)目就是為了給眾多的research人員提供一個(gè)方便、快捷的基準(zhǔn)(baselines) 測(cè)試對(duì)比環(huán)境。

附注:

某種意義上來(lái)說(shuō) baselines 并不是強(qiáng)化學(xué)習(xí)的環(huán)境平臺(tái), 而應(yīng)該算是強(qiáng)化學(xué)習(xí)的基準(zhǔn)算法庫(kù),更像是一個(gè)函數(shù)庫(kù),大家可以便捷的在其上面做實(shí)驗(yàn),又或者對(duì)其進(jìn)行修改,或者在其之上提出新的算法 等。

3. pysc2 (StarCraft II Learning Environment)

第三個(gè)要說(shuō)的平臺(tái)是比較特殊的他說(shuō)暴雪公司(游戲公司)和 DeepMind 公司合作出品的, 專門用于訓(xùn)練 星際爭(zhēng)霸 游戲的AI對(duì)戰(zhàn)的強(qiáng)化學(xué)習(xí)平臺(tái)。

DeepMind 的AlphaGo把圍棋搞定之后,業(yè)界開(kāi)始目光投向即時(shí)策略游戲如 StarCraft II(星際爭(zhēng)霸 II )。最近 DeepMind和Blizzard合作出了個(gè)StarCraft II的研究平臺(tái),稱為 PySC2。

下面看下這個(gè)平臺(tái)的效果圖:

pysc2 項(xiàng)目的網(wǎng)址: https://github.com/deepmind/pysc2

安裝:

顯而易見(jiàn)的 我們安裝成功了, 其實(shí) pysc2 平臺(tái)還是比較好安裝的,但是pysc2安裝好以后并沒(méi)有結(jié)束,我們剩下的工作是要安裝StarCraft II ,

因?yàn)?pysc2 其實(shí)是相當(dāng)于Python環(huán)境對(duì)StarCraft II 調(diào)用的一個(gè)接口封裝, 如果要真正意義的運(yùn)行起來(lái)我們還要安裝StarCraft II 游戲。

這里我們就不對(duì) StarCraft II 游戲的具體安裝進(jìn)行介紹, 未來(lái)我們會(huì)在以后的博客中對(duì)此再繼續(xù)介紹。

不得不說(shuō)的是 pysc2 的官方網(wǎng)址,如下:

https://deepmind.com/blog/deepmind-and-blizzard-open-starcraft-ii-ai-research-environment/

關(guān)于 pysc2 的具體內(nèi)容,能是agent在強(qiáng)化學(xué)習(xí)后取得什么樣的效果,多智能體的智能決策等,DeepMind寫一篇論文,如下:

http://deepmind.com/documents/110/sc2le.pdf

4. TORCS (The Open Racing Car Simulator)賽車游戲模擬器

TORCS (The Open Racing Car Simulator The Open Racing Car Simulator)是一個(gè)跨平臺(tái)的賽車游戲模擬器,也可作為強(qiáng)化學(xué)習(xí)的研究平臺(tái) 。

官方網(wǎng)站:

http://torcs.sourceforge.net/

gym_torcs 是一個(gè)TORCS的強(qiáng)化學(xué)習(xí)環(huán)境,提供類似前面 OpenAI Gym的接口。

gym_torcs 的官方網(wǎng)址為 :

https://github.com/ugo-nama-kun/gym_torcs

效果圖:

5. RLLAB

rllab 也是一個(gè)研究強(qiáng)化學(xué)習(xí)算法的框架。官方網(wǎng)站為https://github.com/openai/rllab

官方支持 python 3.5+,基于 Theano 。

與OpenAI Gym 的區(qū)別在于 OpenAI Gym 支持更廣泛的 環(huán)境,且提供在線支持更廣泛的 環(huán)境,且提供在線scoreboard 可以用于共享訓(xùn)練結(jié)果。 rllab 自己也提供一個(gè)基于pygame的可視環(huán)境, 同時(shí)它也可兼容OpenAI Gym 。

除此之外 ,它提供了一些強(qiáng)化學(xué)習(xí)算法的實(shí)現(xiàn), 這些參考實(shí)現(xiàn)和組件可以使得強(qiáng)化學(xué)習(xí)算法的開(kāi)發(fā)更快上手 。

? 安裝 步驟可按照官方網(wǎng)站:

https://rllab.readthedocs.io/en/latest/user/installation.html

6.DeepMind Lab

DeepMind Lab (原 Labyrinth)是由 DeepMind發(fā)布的 3D 迷宮場(chǎng)景強(qiáng)化學(xué)習(xí)平臺(tái)。 之前是 DeepMind內(nèi)部使用的,后來(lái)開(kāi)源了。

官方介紹:

https://deepmind.com/blog/open-sourcing-deepmind-lab/

論文地址:

https://arxiv.org/pdf/1612.03801.pdf

源碼位于:

https://github.com/deepmind/lab

7.MuJoCo

MuJoCo(Multi-Joint dynamics with Contact)是一個(gè)模擬的機(jī)器人,生物力學(xué),圖形和動(dòng)畫等領(lǐng)域的物理引擎。

官網(wǎng):http://www.mujoco.org/index.html

OpenAI對(duì)MuJoCo引擎做了Python 3的binding-mujoco-py ,

源碼位于:https://github.com/openai/mujoco-py

=========================================================

還有其它常用的強(qiáng)化學(xué)習(xí)平臺(tái),這里就不多介紹了,以下給出參考網(wǎng)址:

https://blog.csdn.net/weixin_41362649/article/details/84798175

總結(jié)

以上是生活随笔為你收集整理的强化学习常用平台(环境)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。