當(dāng)前位置：首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

腾讯绝悟AI完全体限时开放体验，研究登上国际顶会与顶刊

發(fā)布時(shí)間：2024/2/28 ChatGpt 42 豆豆

生活随笔收集整理的這篇文章主要介紹了腾讯绝悟AI完全体限时开放体验，研究登上国际顶会与顶刊小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

感謝閱讀騰訊AI Lab微信號第112篇文章。本文將介紹絕悟 AI 完全體升級版本的技術(shù)方法，也歡迎讀者到王者榮耀 app 親身體驗(yàn)其技術(shù)實(shí)力。

騰訊 AI Lab 宣布與王者榮耀聯(lián)合研發(fā)的策略協(xié)作型 AI“絕悟”推出升級版本。

創(chuàng)新算法突破了可用英雄限制（英雄池?cái)?shù)量從40增為100+），讓 AI 完全掌握所有英雄的所有技能，能應(yīng)對高達(dá)10的15次方的英雄組合數(shù)變化；

優(yōu)化了禁選英雄（BanPick，簡稱BP）博弈策略，能綜合自身技能與對手情況等多重因素派出最優(yōu)英雄組合。

相關(guān)研究已被 AI 頂級會議 NeurIPS 2020 與頂級期刊 TNNLS 收錄，展現(xiàn)出騰訊國際一流的 AI 研究與應(yīng)用能力。

強(qiáng)化學(xué)習(xí)相關(guān)研究被 AI 頂級會議 NeurIPS 2020 收錄

論文地址：https://arxiv.org/abs/2011.12692

絕悟「完全體」版本會在王者榮耀 app 限時(shí)開放，讓公眾親身體驗(yàn) AI 在復(fù)雜策略、團(tuán)隊(duì)協(xié)作與微觀操作方面的強(qiáng)大能力。活動時(shí)間為 11 月 14 日至 30 日，絕悟在 20 個(gè)關(guān)卡的能力會不斷提升，最強(qiáng)的 20 級于 11 月 28 日開放，接受 5v5 組隊(duì)挑戰(zhàn)。

AI 策略：紅方 AI 鎧大局觀出色，繞后蹲草叢扭轉(zhuǎn)戰(zhàn)局

AI微操：藍(lán)方 AI 小規(guī)模交鋒精細(xì)操作化解攻勢

AI協(xié)作：藍(lán)方AI團(tuán)戰(zhàn)完美配合以少勝多

Ai微操：AI公孫離完美連招一秀三反殺

40個(gè)到100+，英雄池完全解禁

少林有七十二藝，功夫既有不同，練習(xí)之法，亦必各異。學(xué)者茍能盡之，則無敵于世矣。

在王者榮耀中，若每個(gè)職業(yè)都有4個(gè)紫色熟練度英雄，你就能解鎖“全能高手”稱號。但因?yàn)榫毩?xí)時(shí)間與精力限制，很少有人能精通所有英雄。

但絕悟 AI 做到了。技術(shù)團(tuán)隊(duì)一年內(nèi)讓它掌握的英雄數(shù)從1個(gè)增加到100+個(gè)，完全解禁英雄池，此版本因此得名“絕悟完全體”。

絕悟AI能力演進(jìn)路線，從MOBA 新手玩家到職業(yè)水平

絕悟 AI 的不同英雄會共享一個(gè)模型參數(shù)，從零學(xué)會單個(gè)陣容易如反掌，但面對多英雄組合時(shí)就難如登天。在對戰(zhàn)中，因?yàn)榈貓D龐大且信息不完備，不同的10個(gè)英雄組合應(yīng)該有不同的策略規(guī)劃、技能應(yīng)用、路徑探索及團(tuán)隊(duì)協(xié)作方式，這將使決策難度幾何級增加并且，多英雄組合也帶來了“災(zāi)難性遺忘”問題，模型容易邊學(xué)邊忘，這成了長期困擾開發(fā)者的大難題。

為了應(yīng)對多英雄組合問題，技術(shù)團(tuán)隊(duì)先采用引入“老師分身”模型，每個(gè)AI老師在單個(gè)陣容上訓(xùn)練至精通，再引入一個(gè) AI 學(xué)生模仿學(xué)習(xí)所有的AI老師，最終讓“絕悟”掌握了所有英雄的所有技能，成為一代宗師。

團(tuán)隊(duì)的長期目標(biāo)，就是要讓“絕悟”手握強(qiáng)兵，學(xué)會所有英雄的技能，且每個(gè)英雄都能達(dá)到頂尖水平，因此在技術(shù)上做了三項(xiàng)重點(diǎn)突破：

團(tuán)隊(duì)首先構(gòu)建了一個(gè)最佳神經(jīng)網(wǎng)絡(luò)模型，讓模型適配MOBA類任務(wù)、表達(dá)能力強(qiáng)、還能對英雄操作精細(xì)建模。模型綜合了大量AI方法的優(yōu)勢，具體而言，在時(shí)序信息上引入長短時(shí)記憶網(wǎng)絡(luò)（LSTM）優(yōu)化部分可觀測問題，在圖像信息上選擇卷積神經(jīng)網(wǎng)絡(luò)（CNN）編碼空間特征，用注意力（Attention）方法強(qiáng)化目標(biāo)選擇，用動作過濾（Action Mask）方法提升探索效率，用分層動作設(shè)計(jì)加快訓(xùn)練速度，用多頭值估計(jì)（Multi-Head Value）方法降低估計(jì)方差等。

網(wǎng)絡(luò)架構(gòu)

其次，團(tuán)隊(duì)研究出了拓寬英雄池，讓“絕悟“掌握所有英雄技能的訓(xùn)練方法——CSPL（Curriculum Self-Play Learning，課程自對弈學(xué)習(xí)）。這是一種讓 AI 從易到難的漸進(jìn)式學(xué)習(xí)方法：

第一步是挑選多組覆蓋全部英雄池的陣容，在小模型下用強(qiáng)化學(xué)習(xí)訓(xùn)練，得到多組“教師分身”模型。

第二步是蒸餾，把第一步得到的多個(gè)模型的能力遷移到同一個(gè)大模型中。

第三步是隨機(jī)陣容的強(qiáng)化訓(xùn)練，在蒸餾后的大模型里，隨機(jī)挑選陣容繼續(xù)強(qiáng)化訓(xùn)練和微調(diào)。通過多種傳統(tǒng)和新穎技術(shù)方法的結(jié)合，實(shí)現(xiàn)了在大的英雄池訓(xùn)練，同時(shí)還能不斷擴(kuò)展的目標(biāo)。

CSPL流程圖。設(shè)計(jì)思想：任務(wù)由易到難，模型從簡單到復(fù)雜，知識逐層深入。

使用CSPL方法擴(kuò)展英雄池有明顯優(yōu)勢

第三，團(tuán)隊(duì)還搭建了大規(guī)模訓(xùn)練平臺——騰訊開悟（aiarena.tencent.com），依托項(xiàng)目積累的算法經(jīng)驗(yàn)、脫敏數(shù)據(jù)及騰訊云的算力資源，為訓(xùn)練所需的大規(guī)模運(yùn)算保駕護(hù)航。開悟平臺于今年 8 月對 18 所高校開放，未來希望為更多科研人員提供技術(shù)與資源支持，深化課題研究。

排兵布陣靠“AI教練”智用田忌賽馬術(shù)

一場比賽中，勝負(fù)的關(guān)鍵不僅在于擁有“絕悟”這樣的頂尖選手，排兵布陣的教練也非常重要。從古時(shí)的田忌賽馬，到足球場上的攻防策略，莫不是一個(gè)博弈的過程。團(tuán)隊(duì)的第二個(gè)目標(biāo)，就是為“絕悟”找到一個(gè)能排兵布陣的AI教練，也就是在游戲BP環(huán)節(jié)（禁選英雄）的最優(yōu)策略。

絕悟 vs 人類BP測試

簡單的做法是選擇貪心策略，即選擇當(dāng)前勝率最高的英雄。但王者榮耀有上百個(gè)英雄，任意英雄間都有或促進(jìn)或克制的關(guān)系，只按勝率選擇很容易被對手針對，更需要綜合考慮敵我雙方、已選和未選英雄的相關(guān)信息，最大化己方優(yōu)勢，最小化敵方優(yōu)勢。

受到圍棋 AI 算法的啟發(fā)，團(tuán)隊(duì)使用蒙特卡洛樹搜索（MCTS）和神經(jīng)網(wǎng)絡(luò)結(jié)合的自動 BP 模型。MCTS 方法包括了選擇、擴(kuò)張、模擬和反向傳播四個(gè)步驟，會不斷迭代搜索，估算出可選英雄的長期價(jià)值。因?yàn)槠渲心M部分最耗時(shí)，團(tuán)隊(duì)用估值神經(jīng)網(wǎng)絡(luò)替代該環(huán)節(jié)，加快了搜索速度，就能又快又準(zhǔn)地選出具備最大長期價(jià)值的英雄。要提到的是，圍棋等棋牌類游戲結(jié)束就能確定勝負(fù)，但 BP 結(jié)束只到確定陣容，還未對戰(zhàn)，所以勝負(fù)未分。因此團(tuán)隊(duì)利用絕悟自對弈產(chǎn)生的超過3000萬條對局?jǐn)?shù)據(jù)訓(xùn)練出一個(gè)陣容勝率預(yù)測器，用來預(yù)測陣容的勝率。進(jìn)一步的，勝率預(yù)測器得到的陣容勝率被用來監(jiān)督訓(xùn)練估值網(wǎng)絡(luò)。

除了常見的單輪 BP ，AI 教練還學(xué)會了王者榮耀 KPL 賽場上常見的多輪 BP 賽制，該模式下不能選重復(fù)英雄，對選人策略要求更高。團(tuán)隊(duì)因此引入多輪長周期判定機(jī)制，在BO3/BO5賽制中可以全局統(tǒng)籌、綜合判斷，做出最優(yōu) BP 選擇。訓(xùn)練后的 BP 模型在對陣基于貪心策略的基準(zhǔn)方法時(shí)，能達(dá)到近70%勝率，對陣按位置隨機(jī)陣容的勝率更接近90%。

至此，絕悟前有多個(gè)強(qiáng)兵，后有軍師輔佐，不折不扣的一代宗師終于練成了。

研發(fā)拓展，從監(jiān)督學(xué)習(xí)到強(qiáng)化學(xué)習(xí)，再回到監(jiān)督學(xué)習(xí)

團(tuán)隊(duì)同時(shí)研發(fā)了監(jiān)督學(xué)習(xí)（SL）方法，針對大局觀和微操策略同時(shí)建模，讓絕悟同時(shí)擁有優(yōu)秀的長期規(guī)劃和即時(shí)操作，達(dá)到了非職業(yè)玩家的頂尖水平。相關(guān)技術(shù)成果曾在2018年12月公開亮相對戰(zhàn)人類玩家。其實(shí)，團(tuán)隊(duì)對于監(jiān)督學(xué)習(xí)的研發(fā)一直在持續(xù)進(jìn)行中。今年11月14日起開放的絕悟第1到19級，就有多個(gè)關(guān)卡由監(jiān)督學(xué)習(xí)訓(xùn)練而成。

監(jiān)督學(xué)習(xí)方法論文地址：https://arxiv.org/abs/2011.12582

雖然在理論上，監(jiān)督學(xué)習(xí)訓(xùn)練出的 AI 表現(xiàn)會遜于強(qiáng)化學(xué)習(xí)的結(jié)果，但此類研究極具研究與應(yīng)用價(jià)值，相關(guān)技術(shù)成果還入選了頂級期刊 TNNLS 。

研究方法論上看，監(jiān)督學(xué)習(xí)對于AI智能體的研發(fā)有很高的價(jià)值。首先，通過挖掘人類數(shù)據(jù)預(yù)測未來的監(jiān)督學(xué)習(xí)是通常是研發(fā)游戲 AI 的第一步，并在眾多視頻游戲上取得良好效果。比如在明星大亂斗等復(fù)雜電子游戲中，純監(jiān)督學(xué)習(xí)能也學(xué)到達(dá)到人類高手玩家水平的AI智能體。第二，它能復(fù)用為強(qiáng)化學(xué)習(xí)的策略網(wǎng)絡(luò)，如 AlphaGo 就是監(jiān)督學(xué)習(xí)結(jié)合強(qiáng)化學(xué)習(xí)。第三，它還能縮短強(qiáng)化學(xué)習(xí)探索時(shí)間，比如 DeepMind的星際爭霸AI AlphaStar 就用監(jiān)督學(xué)習(xí)做強(qiáng)化訓(xùn)練的隱含狀態(tài)。

應(yīng)用上它更是具有諸多優(yōu)點(diǎn)，比如訓(xùn)練快，在16張 GPU 卡上只需幾天，而強(qiáng)化學(xué)習(xí)則需幾個(gè)月。其次，拓展能力強(qiáng)，能完成全英雄池訓(xùn)練。最后，其使用真實(shí)玩家的脫敏數(shù)據(jù)，配合有效采樣，產(chǎn)出的 AI 行為上會更接近人類。

網(wǎng)絡(luò)架構(gòu)

技術(shù)應(yīng)用

絕悟一方面將發(fā)力電子競技領(lǐng)域。作為數(shù)字時(shí)代最受年輕人歡迎的運(yùn)動，電競已于2018年成為亞運(yùn)會表演項(xiàng)目，中國隊(duì)參賽獲兩金一銀的佳績。與傳統(tǒng)體育項(xiàng)目一樣，電競職業(yè)選手也需要手眼腦協(xié)調(diào)、策略和操作快速反應(yīng)、團(tuán)隊(duì)協(xié)作精神及大量刻苦訓(xùn)練。借助在算法和數(shù)據(jù)方面的優(yōu)勢，絕悟可為職業(yè)選手提供數(shù)據(jù)、戰(zhàn)略與協(xié)作類實(shí)時(shí)分析與建議，及不同強(qiáng)度與級別的專業(yè)陪練。以前沿科技推動電競專業(yè)化發(fā)展，AI 將繼續(xù)推動中國電競在全球范圍內(nèi)保持領(lǐng)先。另一方面，絕悟能夠參與游戲設(shè)計(jì)，比如英雄角色的平衡性測試與參數(shù)調(diào)整，提高測試效率，優(yōu)化角色平衡性，還可參與MOBA新地圖研發(fā)等。

生態(tài)建設(shè)

騰訊 AI Lab 還與王者榮耀聯(lián)合推出了AI+游戲開放平臺「開悟」，打造產(chǎn)學(xué)研生態(tài)。王者榮耀開放脫敏數(shù)據(jù)、游戲核心集群（Game Core）和工具，騰訊AI Lab開放強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)的計(jì)算平臺和算力，邀請高校與研究機(jī)構(gòu)共同推進(jìn)AI前沿研究，讓開悟成為展示多智能體領(lǐng)先研究的舞臺。開悟?qū)⒃?020年12月舉辦第一屆水平測試。

長遠(yuǎn)目標(biāo)

騰訊 AI Lab 不僅研究王者榮耀為代表的MOBA類游戲，還同步推進(jìn)了多類AI+游戲研究。在棋牌類，研發(fā)了三年內(nèi)奪得四次世界冠軍、擔(dān)任中國國家圍棋隊(duì)陪練的AI「絕藝」；在RTS類游戲代表星際爭霸2里，在一個(gè)不完全信息博弈場景，需在復(fù)雜連續(xù)的決策空間下進(jìn)行面向長期決策的決策的游戲中，研發(fā)出首個(gè)能在「星際爭霸 II」全場游戲中打敗「開掛」內(nèi)置 AI 的智能體；在FPS射擊類游戲中，我們著力解決3D環(huán)境建模、感知實(shí)現(xiàn)視角的轉(zhuǎn)換和移動尋人等難題，先是奪得了VizDoom AI競賽歷史上首個(gè)中國區(qū)冠軍，然后FPS AI上線手游《穿越火線-槍戰(zhàn)王者（CFM）》廣獲好評。

長遠(yuǎn)來看，AI+游戲研究將是騰訊攻克 AI 終極研究難題——通用人工智能（AGI）的關(guān)鍵一步。AGI 代表研發(fā)能在通用系統(tǒng)中執(zhí)行多種復(fù)雜命令，達(dá)到或超越人類水平的 AI ，從絕藝到絕悟，不斷讓 AI 從0到1去學(xué)習(xí)進(jìn)化，并發(fā)展出一套合理的行為模式，這中間的經(jīng)驗(yàn)、方法與結(jié)論，長期來看，有望在大范圍內(nèi)，如醫(yī)療、制造、無人駕駛、農(nóng)業(yè)到智慧城市管理等領(lǐng)域帶來更深遠(yuǎn)影響。

?了解更多：

AI超會團(tuán)！策略協(xié)作型AI“絕悟”首次露面KPL總決賽驚艷全場！

騰訊策略協(xié)作型 AI「絕悟」升級至王者榮耀電競職業(yè)水平

騰訊AI Lab x 王者榮耀：開放讓「AI+游戲」想象力落地

騰訊「絕悟」AI 1v1版論文入選 AAAI，啟動AI+游戲開放平臺「開悟」內(nèi)測

策略協(xié)作型AI“絕悟”限時(shí)挑戰(zhàn)活動，等你來戰(zhàn)！

* 歡迎轉(zhuǎn)載，請注明來自騰訊AI Lab微信（tencent_ailab）

總結(jié)

以上是生活随笔為你收集整理的腾讯绝悟AI完全体限时开放体验，研究登上国际顶会与顶刊的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：腾讯与中国人民大学开源最新研究成果：3T
下一篇：微信AI从识物到通用图像搜索的探索揭秘