當(dāng)前位置：首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

OpenAI智能体上演捉迷藏攻防大战，自创套路与反套路

發(fā)布時(shí)間：2025/5/22 ChatGpt 55 豆豆

生活随笔收集整理的這篇文章主要介紹了 OpenAI智能体上演捉迷藏攻防大战，自创套路与反套路小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

機(jī)器之心報(bào)道

機(jī)器之心編輯部

經(jīng)歷了圍棋、星際爭霸、Dota、撲克、麻將……強(qiáng)化學(xué)習(xí)似乎正在挑戰(zhàn)難度越來越高的人類游戲。但 OpenAI 近日的一份研究似乎打破了這種刻板印象，讓 AI 玩起了捉迷藏。在訓(xùn)練了 3.8 億輪之后，AI 學(xué)會了各種圍追堵截和反圍追堵截的套路，而且有些套路還是研究者始料未及的操作。

為了進(jìn)行這個(gè)捉迷藏游戲，OpenAI 首先構(gòu)建了一個(gè)包含墻、盒子和斜坡的 3D 環(huán)境。在這個(gè)環(huán)境中，智能體以團(tuán)隊(duì)為單位進(jìn)行捉迷藏游戲。

隱藏方（藍(lán)色小人）的任務(wù)是躲避搜索方（紅色小人）的視線，而搜索方的任務(wù)是緊緊追逐隱藏方。

環(huán)境中不僅散布著隱藏方和搜索方可以適時(shí)抓取和鎖定的目標(biāo)，而且還有智能體必須學(xué)習(xí)操控的隨機(jī)生成的固定房間和墻壁。

在捉迷藏游戲開始前，隱藏方（藍(lán)）會進(jìn)入準(zhǔn)備階段，這時(shí)搜索方（紅）固定不動，給隱藏方逃跑或改變環(huán)境的機(jī)會。

在隱藏方藏好之前，搜索方處于鎖定狀態(tài)。

在這個(gè)游戲中，贏得游戲的隱藏方和搜索方都會獲得獎(jiǎng)勵(lì)，因此他們要不斷更新自己的策略。

當(dāng)然，這種獎(jiǎng)勵(lì)是以團(tuán)隊(duì)為單位的。如果所有隱藏方成功隱藏，則獎(jiǎng)勵(lì)+1；相反，如果任何隱藏方被搜索方發(fā)現(xiàn)，則獎(jiǎng)勵(lì)-1。搜索方的獎(jiǎng)勵(lì)方式恰恰相反，即如果所有隱藏方成功隱藏，則獎(jiǎng)勵(lì)-1；如果任何隱藏方被發(fā)現(xiàn)，則獎(jiǎng)勵(lì)+1。

游戲中智能體的行為需要控制在合理的空間，如果超出游戲區(qū)域，則會受到懲罰。在準(zhǔn)備階段，所有智能體的獎(jiǎng)勵(lì)為零。

在經(jīng)過了多輪訓(xùn)練之后，智能體學(xué)會了 6 種策略：1）奔跑和追逐；2）隱藏方學(xué)會移動磚塊構(gòu)建堡壘；3）搜索方學(xué)會移動斜坡以跳進(jìn)隱藏方的堡壘；4）隱藏方學(xué)會將所有的斜坡搬進(jìn)自己的堡壘；5）搜索方學(xué)會跳到盒子上滑行，進(jìn)而跳到隱藏方的堡壘；6）隱藏方學(xué)會將所有的盒子鎖定在適當(dāng)?shù)奈恢?#xff0c;以防被搜索方利用。

其中，后兩種策略是研究者始料未及的操作。

搜索方學(xué)會移動斜坡以跳進(jìn)隱藏方的堡壘。

隱藏方學(xué)會將所有的斜坡搬進(jìn)自己的堡壘。

搜索方學(xué)會跳到盒子上滑行，進(jìn)而跳進(jìn)隱藏方的堡壘。

隱藏方學(xué)會將所有的盒子鎖定在適當(dāng)?shù)奈恢?#xff0c;以防被搜索方利用。

雖然游戲環(huán)境非常簡單，但這一過程中智能體以自監(jiān)督方式學(xué)到的策略復(fù)雜度逐漸升高，表明多智能體互適應(yīng)有朝一日可能會產(chǎn)生極其復(fù)雜和智能的行為。

為什么要用捉迷藏游戲訓(xùn)練智能體

為了進(jìn)一步了解 OpenAI 這一研究背后的意義及動機(jī)，機(jī)器之心對研究者進(jìn)行了采訪。在談到為何選擇捉迷藏游戲訓(xùn)練智能體時(shí)，OpenAI 的研究者表示，因?yàn)檫@個(gè)游戲規(guī)則比較簡單。

從生物進(jìn)化的角度來看，人類是一個(gè)可以不斷適應(yīng)新環(huán)境的物種，但人工智能卻沒有這種特性。近年來機(jī)器學(xué)習(xí)在圍棋以及 Dota 2 等復(fù)雜的游戲中取得了顯著進(jìn)步，但這些特定領(lǐng)域的技能并不一定適應(yīng)現(xiàn)實(shí)場景中的實(shí)際應(yīng)用。因此，越來越多的研究者希望構(gòu)建在行為、學(xué)習(xí)和進(jìn)化方面更類人的機(jī)器智能。

由于捉迷藏游戲中的目標(biāo)相對簡單，多個(gè)智能體通過競爭性的自我博弈進(jìn)行訓(xùn)練，學(xué)習(xí)如何使用工具并使用類人技能取得勝利。研究者觀察到，智能體在簡單的捉迷藏游戲中能夠?qū)崿F(xiàn)越來越復(fù)雜的工具使用。在這種簡單環(huán)境中以自監(jiān)督方式學(xué)到的復(fù)雜策略進(jìn)一步表明，多智能體協(xié)同適應(yīng)將來有一天可能生成極度復(fù)雜和智能的行為。OpenAI 相信，這一研究會成為一個(gè)智能體開發(fā)和部署的非常有前景的方向。

文章的作者之一、OpenAI 研究員 Yi Wu 告訴機(jī)器之心，「社區(qū)的研究真的需要優(yōu)質(zhì)和有趣的環(huán)境，這一環(huán)境比 2D 粒子世界復(fù)雜一點(diǎn)，但又不至于像星際爭霸那么復(fù)雜。」

OpenAI 正在開源他們的代碼和環(huán)境，以鼓勵(lì)這一領(lǐng)域的進(jìn)一步研究。

論文鏈接：https://d4mucfpksywv.cloudfront.net/emergent-tool-use/paper/Multi_Agent_Emergence_2019.pdf

環(huán)境：https://github.com/openai/multi-agent-emergence-environments

如何訓(xùn)練捉迷藏智能體

在此研究中，研究者使用了和 OpenAI Five、Dactyl 相同的培訓(xùn)基礎(chǔ)架構(gòu)和算法。但是，在該環(huán)境中，每個(gè)智能體都使用自己觀察和隱藏的記憶狀態(tài)獨(dú)立行動。智能體使用以實(shí)體為中心的、基于狀態(tài)的世界表征，也就是對其他目標(biāo)和智能體是排列不變的。

在該研究中，嵌入的每個(gè)目標(biāo)被傳遞通過一個(gè) mask 殘差自注意塊，這類似于 Transformer，其中的注意力集中在目標(biāo)上而不是時(shí)間上。不在視線內(nèi)以及在智能體前面的目標(biāo)被 mask 掉，以使得智能體沒有它們的信息。

智能體策略架構(gòu)

然后，通過自我博弈和臨近策略優(yōu)化（Proximal Policy Optimization (https://openai.com/blog/openai-baselines-ppo/)）訓(xùn)練智能體策略。在優(yōu)化期間，智能體可以在價(jià)值函數(shù)中使用有關(guān)被遮擋目標(biāo)和其他智能體的特權(quán)信息。

研究者發(fā)現(xiàn)，大規(guī)模訓(xùn)練對于各個(gè)階段的智能體學(xué)到何種策略來說至關(guān)重要。下圖展示了智能體在各種 batch 大小情況下，學(xué)會第 4 種策略（將斜坡搬進(jìn)自己的堡壘）所需的 episode 和時(shí)間。他們發(fā)現(xiàn)，增加 batch 大小可以大大提升收斂速度，然而當(dāng) batch 大小為 32k 或更高時(shí)，采樣效率不會受到影響。但是，他們還發(fā)現(xiàn)，在指定的 episode 數(shù)量下，batch 大小為 8k 和 16k 時(shí)，智能體從未學(xué)會第 4 種策略。

增加 batch 大小加速收斂。注意：作者給出的是在反向傳播中使用轉(zhuǎn)換連續(xù)塊的數(shù)量的 batch 大小，每個(gè)包含 10 個(gè)轉(zhuǎn)換，也就是圖中 64k batch 實(shí)際上包含 640k 個(gè)轉(zhuǎn)換。

多智能體競爭 VS 內(nèi)在動機(jī)（intrinsic innovation）

在此項(xiàng)研究中，研究者證明了智能體可以在捉迷藏游戲中通過自監(jiān)督 autocurriculum 學(xué)習(xí)復(fù)雜的策略和反策略。另一種以無監(jiān)督方式學(xué)習(xí)技能的方法是內(nèi)在動機(jī)，它激勵(lì)智能體通過模型誤差或狀態(tài)計(jì)數(shù)等各種度量進(jìn)行探索。研究者在構(gòu)建的環(huán)境中進(jìn)行了基于計(jì)數(shù)的探索，其中智能體對它們訪問的狀態(tài)進(jìn)行明確計(jì)數(shù)，并在激勵(lì)下前往很少訪問的狀態(tài)。

在當(dāng)前設(shè)置下進(jìn)行調(diào)整的主要建模選擇是狀態(tài)表征，比如在首個(gè)基線中，狀態(tài)中只包含 2D 盒子位置，這樣智能體在激勵(lì)下與盒子進(jìn)行交互并且將盒子推到新的位置。然后，研究者與基于計(jì)數(shù)的策略進(jìn)行比較，這種基于計(jì)數(shù)的策略獲取捉迷藏游戲中智能體獲得的完整狀態(tài)。

可以看出，在捉迷藏游戲中進(jìn)行訓(xùn)練的智能體本質(zhì)上是圍繞人類可解釋性更強(qiáng)的行為，如搭建堡壘等。但是，接受內(nèi)在激勵(lì)訓(xùn)練的智能體卻似乎以一種無明確方向的方式移動物體。此外，隨著狀態(tài)空間復(fù)雜度的增加，研究者發(fā)現(xiàn)內(nèi)在獎(jiǎng)勵(lì)方法與環(huán)境中物體的有意義交互越來越少。因此，研究者相信，隨著環(huán)境大小和復(fù)雜度的增加，多智能體競爭將會是一種更加可擴(kuò)展的類人技能無監(jiān)督生成方法。

在評估中加入遷移和微調(diào)

在上文中，研究者對捉迷藏游戲中學(xué)習(xí)的行為與利用內(nèi)在動機(jī)學(xué)習(xí)的行為進(jìn)行了定性對比。但是，隨著環(huán)境規(guī)模的擴(kuò)大，對游戲進(jìn)程展開定性衡量也變得越來越困難。在多智能體設(shè)置中追蹤獎(jiǎng)勵(lì)作為評價(jià)指標(biāo)是不夠的，因?yàn)檫@項(xiàng)指標(biāo)無法確切地說明智能體在均衡改進(jìn)還是陷入了停滯。

ELO 或 Tureskill 等度量指標(biāo)能夠更可靠地衡量性能相較于之前的策略版本或其他策略是否實(shí)現(xiàn)了提升。但是，這些度量指標(biāo)依然無法揭示性能的提升是得益于新的適應(yīng)性還是之前學(xué)到的技能。最后，使用目標(biāo)運(yùn)動等特定環(huán)境下的統(tǒng)計(jì)數(shù)據(jù)也具有不確定性（比如，追蹤絕對運(yùn)動并不能明確指出智能體的運(yùn)動方向），并且設(shè)計(jì)充分的度量指標(biāo)將隨著環(huán)境的擴(kuò)大而變得更加困難，花費(fèi)也更大。

研究者建議使用一套特定領(lǐng)域的智能測試，其目的在于衡量智能體最終可能獲得的能力。遷移性能在這些設(shè)置中充當(dāng)質(zhì)量或技能表征的定量度量，并且研究者將遷移性能與基于計(jì)數(shù)探索的預(yù)訓(xùn)練和從頭訓(xùn)練的基線進(jìn)行比較。

盡管捉迷藏智能體在很多遷移任務(wù)上表現(xiàn)的更好，但性能或收斂時(shí)間并沒有顯著提升。通過觀察智能體在捉迷藏游戲中的表現(xiàn)，研究者知道它們具有準(zhǔn)確移動物體和搭建堡壘的潛能。但在接受少樣本訓(xùn)練時(shí)，智能體并不能在其他場景中利用這種能力。

研究者認(rèn)為，混合遷移結(jié)果的原因在于智能體學(xué)習(xí)的技能表征是混亂且難以微調(diào)的。隨著未來環(huán)境變得更加多樣化以及智能體必須在更多場景下使用技能，他們相信將來會基于這種評價(jià)方法出現(xiàn)更泛化的技能表征和更有效的信號。此外，研究者還開源了評估任務(wù)，用來評估捉迷藏環(huán)境中的學(xué)習(xí)進(jìn)程。

出乎意料的行為

研究者已經(jīng)證明，智能體能夠在高保真物理模擬器中學(xué)習(xí)使用復(fù)雜工具，但在這一過程中，它們也吸取了一些教訓(xùn)。構(gòu)建環(huán)境非常不容易，而且智能體經(jīng)常以一種人類始料未及的方式探索環(huán)境：

借助盒子滑行：由于智能體可以通過自己施力來移動，他們可以抓住一個(gè)盒子并站在盒子上滑行至隱藏者的位置；

不停地奔跑：在不給離開游戲區(qū)域的智能體添加任何額外獎(jiǎng)勵(lì)的情況下，在極少數(shù)情況下，隱藏著會學(xué)習(xí)待著一個(gè)盒子不停地奔跑；

利用斜坡（隱藏方）：強(qiáng)化學(xué)習(xí)非常擅長利用一些小的技巧。隱藏方發(fā)現(xiàn)，如果它們把坡道推到墻腳處，坡道會莫名穿過墻壁然后消失；

利用斜坡（搜索方）：搜索方發(fā)現(xiàn)，如果它們在有斜坡的墻上以正確的角度奔跑，則能飛起來。

研究者表示，這些「作弊行為」揭示了算法安全性在機(jī)器學(xué)習(xí)中的重要作用。「在問題出現(xiàn)之前你是預(yù)料不到的。這類系統(tǒng)總是存在缺陷?！埂肝覀兡茏龅幕揪褪怯^察，并將策略可視化，這樣我們就會看到奇怪的事情發(fā)生。然后我們再嘗試修復(fù)這些物理問題?！?/p>

當(dāng)然，這些意料之外的策略也讓我們看到了解決問題的其他思路。「如果你將這些智能體放進(jìn)一個(gè)足夠豐富的環(huán)境中，而它們又表現(xiàn)出了人類未知的策略，也許它們能為我們提供新的解決方案，」論文作者說道。

微軟 AI 研究員 Katja Hofman 表示，「我發(fā)現(xiàn)游戲或類似游戲中的這種設(shè)置是探索一個(gè)安全環(huán)境中現(xiàn)有方法能力和局限性的一種極好方式。這些結(jié)果可以幫助我們更好地理解如何驗(yàn)證和調(diào)試機(jī)器學(xué)習(xí)系統(tǒng)，這是通往現(xiàn)實(shí)世界應(yīng)用的關(guān)鍵一步?！?/p>

參考鏈接：

https://openai.com/blog/emergent-tool-use/

https://spectrum.ieee.org/tech-talk/robotics/artificial-intelligence/ai-agents-startle-researchers-with-unexpected-strategies-in-hideandseek

https://syncedreview.com/2019/09/17/why-playing-hide-and-seek-could-lead-ai-to-humanlike-intelligence/

本文為機(jī)器之心報(bào)道，轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)。

總結(jié)

以上是生活随笔為你收集整理的OpenAI智能体上演捉迷藏攻防大战，自创套路与反套路的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：人工智能和神经科学之间有什么关系？诺奖得
下一篇： AI医疗领域人才需求与培养趋势分析