OpenAI智能体上演捉迷藏攻防大战,自创套路与反套路
機(jī)器之心報(bào)道
機(jī)器之心編輯部
經(jīng)歷了圍棋、星際爭霸、Dota、撲克、麻將……強(qiáng)化學(xué)習(xí)似乎正在挑戰(zhàn)難度越來越高的人類游戲。但 OpenAI 近日的一份研究似乎打破了這種刻板印象,讓 AI 玩起了捉迷藏。在訓(xùn)練了 3.8 億輪之后,AI 學(xué)會了各種圍追堵截和反圍追堵截的套路,而且有些套路還是研究者始料未及的操作。
為了進(jìn)行這個(gè)捉迷藏游戲,OpenAI 首先構(gòu)建了一個(gè)包含墻、盒子和斜坡的 3D 環(huán)境。在這個(gè)環(huán)境中,智能體以團(tuán)隊(duì)為單位進(jìn)行捉迷藏游戲。
隱藏方(藍(lán)色小人)的任務(wù)是躲避搜索方(紅色小人)的視線,而搜索方的任務(wù)是緊緊追逐隱藏方。
環(huán)境中不僅散布著隱藏方和搜索方可以適時(shí)抓取和鎖定的目標(biāo),而且還有智能體必須學(xué)習(xí)操控的隨機(jī)生成的固定房間和墻壁。
在捉迷藏游戲開始前,隱藏方(藍(lán))會進(jìn)入準(zhǔn)備階段,這時(shí)搜索方(紅)固定不動,給隱藏方逃跑或改變環(huán)境的機(jī)會。
在隱藏方藏好之前,搜索方處于鎖定狀態(tài)。
在這個(gè)游戲中,贏得游戲的隱藏方和搜索方都會獲得獎(jiǎng)勵(lì),因此他們要不斷更新自己的策略。
當(dāng)然,這種獎(jiǎng)勵(lì)是以團(tuán)隊(duì)為單位的。如果所有隱藏方成功隱藏,則獎(jiǎng)勵(lì)+1;相反,如果任何隱藏方被搜索方發(fā)現(xiàn),則獎(jiǎng)勵(lì)-1。搜索方的獎(jiǎng)勵(lì)方式恰恰相反,即如果所有隱藏方成功隱藏,則獎(jiǎng)勵(lì)-1;如果任何隱藏方被發(fā)現(xiàn),則獎(jiǎng)勵(lì)+1。
游戲中智能體的行為需要控制在合理的空間,如果超出游戲區(qū)域,則會受到懲罰。在準(zhǔn)備階段,所有智能體的獎(jiǎng)勵(lì)為零。
在經(jīng)過了多輪訓(xùn)練之后,智能體學(xué)會了 6 種策略:1)奔跑和追逐;2)隱藏方學(xué)會移動磚塊構(gòu)建堡壘;3)搜索方學(xué)會移動斜坡以跳進(jìn)隱藏方的堡壘;4)隱藏方學(xué)會將所有的斜坡搬進(jìn)自己的堡壘;5)搜索方學(xué)會跳到盒子上滑行,進(jìn)而跳到隱藏方的堡壘;6)隱藏方學(xué)會將所有的盒子鎖定在適當(dāng)?shù)奈恢?#xff0c;以防被搜索方利用。
其中,后兩種策略是研究者始料未及的操作。
搜索方學(xué)會移動斜坡以跳進(jìn)隱藏方的堡壘。
隱藏方學(xué)會將所有的斜坡搬進(jìn)自己的堡壘。
搜索方學(xué)會跳到盒子上滑行,進(jìn)而跳進(jìn)隱藏方的堡壘。
隱藏方學(xué)會將所有的盒子鎖定在適當(dāng)?shù)奈恢?#xff0c;以防被搜索方利用。
雖然游戲環(huán)境非常簡單,但這一過程中智能體以自監(jiān)督方式學(xué)到的策略復(fù)雜度逐漸升高,表明多智能體互適應(yīng)有朝一日可能會產(chǎn)生極其復(fù)雜和智能的行為。
為什么要用捉迷藏游戲訓(xùn)練智能體
為了進(jìn)一步了解 OpenAI 這一研究背后的意義及動機(jī),機(jī)器之心對研究者進(jìn)行了采訪。在談到為何選擇捉迷藏游戲訓(xùn)練智能體時(shí),OpenAI 的研究者表示,因?yàn)檫@個(gè)游戲規(guī)則比較簡單。
從生物進(jìn)化的角度來看,人類是一個(gè)可以不斷適應(yīng)新環(huán)境的物種,但人工智能卻沒有這種特性。近年來機(jī)器學(xué)習(xí)在圍棋以及 Dota 2 等復(fù)雜的游戲中取得了顯著進(jìn)步,但這些特定領(lǐng)域的技能并不一定適應(yīng)現(xiàn)實(shí)場景中的實(shí)際應(yīng)用。因此,越來越多的研究者希望構(gòu)建在行為、學(xué)習(xí)和進(jìn)化方面更類人的機(jī)器智能。
由于捉迷藏游戲中的目標(biāo)相對簡單,多個(gè)智能體通過競爭性的自我博弈進(jìn)行訓(xùn)練,學(xué)習(xí)如何使用工具并使用類人技能取得勝利。研究者觀察到,智能體在簡單的捉迷藏游戲中能夠?qū)崿F(xiàn)越來越復(fù)雜的工具使用。在這種簡單環(huán)境中以自監(jiān)督方式學(xué)到的復(fù)雜策略進(jìn)一步表明,多智能體協(xié)同適應(yīng)將來有一天可能生成極度復(fù)雜和智能的行為。OpenAI 相信,這一研究會成為一個(gè)智能體開發(fā)和部署的非常有前景的方向。
文章的作者之一、OpenAI 研究員 Yi Wu 告訴機(jī)器之心,「社區(qū)的研究真的需要優(yōu)質(zhì)和有趣的環(huán)境,這一環(huán)境比 2D 粒子世界復(fù)雜一點(diǎn),但又不至于像星際爭霸那么復(fù)雜。」
OpenAI 正在開源他們的代碼和環(huán)境,以鼓勵(lì)這一領(lǐng)域的進(jìn)一步研究。
論文鏈接:https://d4mucfpksywv.cloudfront.net/emergent-tool-use/paper/Multi_Agent_Emergence_2019.pdf
環(huán)境:https://github.com/openai/multi-agent-emergence-environments
如何訓(xùn)練捉迷藏智能體
在此研究中,研究者使用了和 OpenAI Five、Dactyl 相同的培訓(xùn)基礎(chǔ)架構(gòu)和算法。但是,在該環(huán)境中,每個(gè)智能體都使用自己觀察和隱藏的記憶狀態(tài)獨(dú)立行動。智能體使用以實(shí)體為中心的、基于狀態(tài)的世界表征,也就是對其他目標(biāo)和智能體是排列不變的。
在該研究中,嵌入的每個(gè)目標(biāo)被傳遞通過一個(gè) mask 殘差自注意塊,這類似于 Transformer,其中的注意力集中在目標(biāo)上而不是時(shí)間上。不在視線內(nèi)以及在智能體前面的目標(biāo)被 mask 掉,以使得智能體沒有它們的信息。
智能體策略架構(gòu)
然后,通過自我博弈和臨近策略優(yōu)化(Proximal Policy Optimization (https://openai.com/blog/openai-baselines-ppo/))訓(xùn)練智能體策略。在優(yōu)化期間,智能體可以在價(jià)值函數(shù)中使用有關(guān)被遮擋目標(biāo)和其他智能體的特權(quán)信息。
研究者發(fā)現(xiàn),大規(guī)模訓(xùn)練對于各個(gè)階段的智能體學(xué)到何種策略來說至關(guān)重要。下圖展示了智能體在各種 batch 大小情況下,學(xué)會第 4 種策略(將斜坡搬進(jìn)自己的堡壘)所需的 episode 和時(shí)間。他們發(fā)現(xiàn),增加 batch 大小可以大大提升收斂速度,然而當(dāng) batch 大小為 32k 或更高時(shí),采樣效率不會受到影響。但是,他們還發(fā)現(xiàn),在指定的 episode 數(shù)量下,batch 大小為 8k 和 16k 時(shí),智能體從未學(xué)會第 4 種策略。
增加 batch 大小加速收斂。注意:作者給出的是在反向傳播中使用轉(zhuǎn)換連續(xù)塊的數(shù)量的 batch 大小,每個(gè)包含 10 個(gè)轉(zhuǎn)換,也就是圖中 64k batch 實(shí)際上包含 640k 個(gè)轉(zhuǎn)換。
多智能體競爭 VS 內(nèi)在動機(jī)(intrinsic innovation)
在此項(xiàng)研究中,研究者證明了智能體可以在捉迷藏游戲中通過自監(jiān)督 autocurriculum 學(xué)習(xí)復(fù)雜的策略和反策略。另一種以無監(jiān)督方式學(xué)習(xí)技能的方法是內(nèi)在動機(jī),它激勵(lì)智能體通過模型誤差或狀態(tài)計(jì)數(shù)等各種度量進(jìn)行探索。研究者在構(gòu)建的環(huán)境中進(jìn)行了基于計(jì)數(shù)的探索,其中智能體對它們訪問的狀態(tài)進(jìn)行明確計(jì)數(shù),并在激勵(lì)下前往很少訪問的狀態(tài)。
在當(dāng)前設(shè)置下進(jìn)行調(diào)整的主要建模選擇是狀態(tài)表征,比如在首個(gè)基線中,狀態(tài)中只包含 2D 盒子位置,這樣智能體在激勵(lì)下與盒子進(jìn)行交互并且將盒子推到新的位置。然后,研究者與基于計(jì)數(shù)的策略進(jìn)行比較,這種基于計(jì)數(shù)的策略獲取捉迷藏游戲中智能體獲得的完整狀態(tài)。
可以看出,在捉迷藏游戲中進(jìn)行訓(xùn)練的智能體本質(zhì)上是圍繞人類可解釋性更強(qiáng)的行為,如搭建堡壘等。但是,接受內(nèi)在激勵(lì)訓(xùn)練的智能體卻似乎以一種無明確方向的方式移動物體。此外,隨著狀態(tài)空間復(fù)雜度的增加,研究者發(fā)現(xiàn)內(nèi)在獎(jiǎng)勵(lì)方法與環(huán)境中物體的有意義交互越來越少。因此,研究者相信,隨著環(huán)境大小和復(fù)雜度的增加,多智能體競爭將會是一種更加可擴(kuò)展的類人技能無監(jiān)督生成方法。
在評估中加入遷移和微調(diào)
在上文中,研究者對捉迷藏游戲中學(xué)習(xí)的行為與利用內(nèi)在動機(jī)學(xué)習(xí)的行為進(jìn)行了定性對比。但是,隨著環(huán)境規(guī)模的擴(kuò)大,對游戲進(jìn)程展開定性衡量也變得越來越困難。在多智能體設(shè)置中追蹤獎(jiǎng)勵(lì)作為評價(jià)指標(biāo)是不夠的,因?yàn)檫@項(xiàng)指標(biāo)無法確切地說明智能體在均衡改進(jìn)還是陷入了停滯。
ELO 或 Tureskill 等度量指標(biāo)能夠更可靠地衡量性能相較于之前的策略版本或其他策略是否實(shí)現(xiàn)了提升。但是,這些度量指標(biāo)依然無法揭示性能的提升是得益于新的適應(yīng)性還是之前學(xué)到的技能。最后,使用目標(biāo)運(yùn)動等特定環(huán)境下的統(tǒng)計(jì)數(shù)據(jù)也具有不確定性(比如,追蹤絕對運(yùn)動并不能明確指出智能體的運(yùn)動方向),并且設(shè)計(jì)充分的度量指標(biāo)將隨著環(huán)境的擴(kuò)大而變得更加困難,花費(fèi)也更大。
研究者建議使用一套特定領(lǐng)域的智能測試,其目的在于衡量智能體最終可能獲得的能力。遷移性能在這些設(shè)置中充當(dāng)質(zhì)量或技能表征的定量度量,并且研究者將遷移性能與基于計(jì)數(shù)探索的預(yù)訓(xùn)練和從頭訓(xùn)練的基線進(jìn)行比較。
盡管捉迷藏智能體在很多遷移任務(wù)上表現(xiàn)的更好,但性能或收斂時(shí)間并沒有顯著提升。通過觀察智能體在捉迷藏游戲中的表現(xiàn),研究者知道它們具有準(zhǔn)確移動物體和搭建堡壘的潛能。但在接受少樣本訓(xùn)練時(shí),智能體并不能在其他場景中利用這種能力。
研究者認(rèn)為,混合遷移結(jié)果的原因在于智能體學(xué)習(xí)的技能表征是混亂且難以微調(diào)的。隨著未來環(huán)境變得更加多樣化以及智能體必須在更多場景下使用技能,他們相信將來會基于這種評價(jià)方法出現(xiàn)更泛化的技能表征和更有效的信號。此外,研究者還開源了評估任務(wù),用來評估捉迷藏環(huán)境中的學(xué)習(xí)進(jìn)程。
出乎意料的行為
研究者已經(jīng)證明,智能體能夠在高保真物理模擬器中學(xué)習(xí)使用復(fù)雜工具,但在這一過程中,它們也吸取了一些教訓(xùn)。構(gòu)建環(huán)境非常不容易,而且智能體經(jīng)常以一種人類始料未及的方式探索環(huán)境:
借助盒子滑行:由于智能體可以通過自己施力來移動,他們可以抓住一個(gè)盒子并站在盒子上滑行至隱藏者的位置;
不停地奔跑:在不給離開游戲區(qū)域的智能體添加任何額外獎(jiǎng)勵(lì)的情況下,在極少數(shù)情況下,隱藏著會學(xué)習(xí)待著一個(gè)盒子不停地奔跑;
利用斜坡(隱藏方):強(qiáng)化學(xué)習(xí)非常擅長利用一些小的技巧。隱藏方發(fā)現(xiàn),如果它們把坡道推到墻腳處,坡道會莫名穿過墻壁然后消失;
利用斜坡(搜索方):搜索方發(fā)現(xiàn),如果它們在有斜坡的墻上以正確的角度奔跑,則能飛起來。
研究者表示,這些「作弊行為」揭示了算法安全性在機(jī)器學(xué)習(xí)中的重要作用。「在問題出現(xiàn)之前你是預(yù)料不到的。這類系統(tǒng)總是存在缺陷?!埂肝覀兡茏龅幕揪褪怯^察,并將策略可視化,這樣我們就會看到奇怪的事情發(fā)生。然后我們再嘗試修復(fù)這些物理問題?!?/p>
當(dāng)然,這些意料之外的策略也讓我們看到了解決問題的其他思路。「如果你將這些智能體放進(jìn)一個(gè)足夠豐富的環(huán)境中,而它們又表現(xiàn)出了人類未知的策略,也許它們能為我們提供新的解決方案,」論文作者說道。
微軟 AI 研究員 Katja Hofman 表示,「我發(fā)現(xiàn)游戲或類似游戲中的這種設(shè)置是探索一個(gè)安全環(huán)境中現(xiàn)有方法能力和局限性的一種極好方式。這些結(jié)果可以幫助我們更好地理解如何驗(yàn)證和調(diào)試機(jī)器學(xué)習(xí)系統(tǒng),這是通往現(xiàn)實(shí)世界應(yīng)用的關(guān)鍵一步?!?/p>
參考鏈接:
https://openai.com/blog/emergent-tool-use/
https://spectrum.ieee.org/tech-talk/robotics/artificial-intelligence/ai-agents-startle-researchers-with-unexpected-strategies-in-hideandseek
https://syncedreview.com/2019/09/17/why-playing-hide-and-seek-could-lead-ai-to-humanlike-intelligence/
本文為機(jī)器之心報(bào)道,轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)。
總結(jié)
以上是生活随笔為你收集整理的OpenAI智能体上演捉迷藏攻防大战,自创套路与反套路的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 人工智能和神经科学之间有什么关系?诺奖得
- 下一篇: AI医疗领域人才需求与培养趋势分析