日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

腾讯绝悟AI完全体限时开放体验,研究登上国际顶会与顶刊

發(fā)布時(shí)間:2024/2/28 ChatGpt 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 腾讯绝悟AI完全体限时开放体验,研究登上国际顶会与顶刊 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

感謝閱讀騰訊AI Lab微信號第112篇文章。本文將介紹絕悟 AI 完全體升級版本的技術(shù)方法,也歡迎讀者到王者榮耀 app 親身體驗(yàn)其技術(shù)實(shí)力。

騰訊 AI Lab 宣布與王者榮耀聯(lián)合研發(fā)的策略協(xié)作型 AI“絕悟”推出升級版本。

創(chuàng)新算法突破了可用英雄限制(英雄池?cái)?shù)量從40增為100+),讓 AI 完全掌握所有英雄的所有技能,能應(yīng)對高達(dá)10的15次方的英雄組合數(shù)變化;

優(yōu)化了禁選英雄(BanPick,簡稱BP)博弈策略,能綜合自身技能與對手情況等多重因素派出最優(yōu)英雄組合。

相關(guān)研究已被 AI 頂級會議 NeurIPS 2020 與頂級期刊 TNNLS 收錄,展現(xiàn)出騰訊國際一流的 AI 研究與應(yīng)用能力。

強(qiáng)化學(xué)習(xí)相關(guān)研究被 AI 頂級會議 NeurIPS 2020 收錄

論文地址:https://arxiv.org/abs/2011.12692

絕悟「完全體」版本會在王者榮耀 app 限時(shí)開放,讓公眾親身體驗(yàn) AI 在復(fù)雜策略、團(tuán)隊(duì)協(xié)作與微觀操作方面的強(qiáng)大能力。活動時(shí)間為 11 月 14 日至 30 日,絕悟在 20 個(gè)關(guān)卡的能力會不斷提升,最強(qiáng)的 20 級于 11 月 28 日開放,接受 5v5 組隊(duì)挑戰(zhàn)。

AI 策略:紅方 AI 鎧大局觀出色,繞后蹲草叢扭轉(zhuǎn)戰(zhàn)局

AI微操:藍(lán)方 AI 小規(guī)模交鋒精細(xì)操作化解攻勢

AI協(xié)作:藍(lán)方AI團(tuán)戰(zhàn)完美配合以少勝多

Ai微操:AI公孫離完美連招一秀三反殺

40個(gè)到100+,英雄池完全解禁

少林有七十二藝,功夫既有不同,練習(xí)之法,亦必各異。學(xué)者茍能盡之,則無敵于世矣。

在王者榮耀中,若每個(gè)職業(yè)都有4個(gè)紫色熟練度英雄,你就能解鎖“全能高手”稱號。但因?yàn)榫毩?xí)時(shí)間與精力限制,很少有人能精通所有英雄。

但絕悟 AI 做到了。技術(shù)團(tuán)隊(duì)一年內(nèi)讓它掌握的英雄數(shù)從1個(gè)增加到100+個(gè),完全解禁英雄池,此版本因此得名“絕悟完全體”。

絕悟AI能力演進(jìn)路線,從MOBA 新手玩家到職業(yè)水平

絕悟 AI 的不同英雄會共享一個(gè)模型參數(shù),從零學(xué)會單個(gè)陣容易如反掌,但面對多英雄組合時(shí)就難如登天。在對戰(zhàn)中,因?yàn)榈貓D龐大且信息不完備,不同的10個(gè)英雄組合應(yīng)該有不同的策略規(guī)劃、技能應(yīng)用、路徑探索及團(tuán)隊(duì)協(xié)作方式,這將使決策難度幾何級增加并且,多英雄組合也帶來了“災(zāi)難性遺忘”問題,模型容易邊學(xué)邊忘,這成了長期困擾開發(fā)者的大難題。

為了應(yīng)對多英雄組合問題,技術(shù)團(tuán)隊(duì)先采用引入“老師分身”模型,每個(gè)AI老師在單個(gè)陣容上訓(xùn)練至精通,再引入一個(gè) AI 學(xué)生模仿學(xué)習(xí)所有的AI老師,最終讓“絕悟”掌握了所有英雄的所有技能,成為一代宗師。

團(tuán)隊(duì)的長期目標(biāo),就是要讓“絕悟”手握強(qiáng)兵,學(xué)會所有英雄的技能,且每個(gè)英雄都能達(dá)到頂尖水平,因此在技術(shù)上做了三項(xiàng)重點(diǎn)突破:

團(tuán)隊(duì)首先構(gòu)建了一個(gè)最佳神經(jīng)網(wǎng)絡(luò)模型,讓模型適配MOBA類任務(wù)、表達(dá)能力強(qiáng)、還能對英雄操作精細(xì)建模。模型綜合了大量AI方法的優(yōu)勢,具體而言,在時(shí)序信息上引入長短時(shí)記憶網(wǎng)絡(luò)(LSTM)優(yōu)化部分可觀測問題,在圖像信息上選擇卷積神經(jīng)網(wǎng)絡(luò)(CNN)編碼空間特征,用注意力(Attention)方法強(qiáng)化目標(biāo)選擇,用動作過濾(Action Mask)方法提升探索效率,用分層動作設(shè)計(jì)加快訓(xùn)練速度,用多頭值估計(jì)(Multi-Head Value)方法降低估計(jì)方差等。

網(wǎng)絡(luò)架構(gòu)

其次,團(tuán)隊(duì)研究出了拓寬英雄池,讓“絕悟“掌握所有英雄技能的訓(xùn)練方法——CSPL(Curriculum Self-Play Learning,課程自對弈學(xué)習(xí))。這是一種讓 AI 從易到難的漸進(jìn)式學(xué)習(xí)方法:

第一步是挑選多組覆蓋全部英雄池的陣容,在小模型下用強(qiáng)化學(xué)習(xí)訓(xùn)練,得到多組“教師分身”模型。

第二步是蒸餾,把第一步得到的多個(gè)模型的能力遷移到同一個(gè)大模型中。

第三步是隨機(jī)陣容的強(qiáng)化訓(xùn)練,在蒸餾后的大模型里,隨機(jī)挑選陣容繼續(xù)強(qiáng)化訓(xùn)練和微調(diào)。通過多種傳統(tǒng)和新穎技術(shù)方法的結(jié)合,實(shí)現(xiàn)了在大的英雄池訓(xùn)練,同時(shí)還能不斷擴(kuò)展的目標(biāo)。

CSPL流程圖。設(shè)計(jì)思想:任務(wù)由易到難,模型從簡單到復(fù)雜,知識逐層深入。

使用CSPL方法擴(kuò)展英雄池有明顯優(yōu)勢

第三,團(tuán)隊(duì)還搭建了大規(guī)模訓(xùn)練平臺——騰訊開悟(aiarena.tencent.com),依托項(xiàng)目積累的算法經(jīng)驗(yàn)、脫敏數(shù)據(jù)及騰訊云的算力資源,為訓(xùn)練所需的大規(guī)模運(yùn)算保駕護(hù)航。開悟平臺于今年 8 月對 18 所高校開放,未來希望為更多科研人員提供技術(shù)與資源支持,深化課題研究。

排兵布陣靠“AI教練”智用田忌賽馬術(shù)

一場比賽中,勝負(fù)的關(guān)鍵不僅在于擁有“絕悟”這樣的頂尖選手,排兵布陣的教練也非常重要。從古時(shí)的田忌賽馬,到足球場上的攻防策略,莫不是一個(gè)博弈的過程。團(tuán)隊(duì)的第二個(gè)目標(biāo),就是為“絕悟”找到一個(gè)能排兵布陣的AI教練,也就是在游戲BP環(huán)節(jié)(禁選英雄)的最優(yōu)策略。

絕悟 vs 人類BP測試

簡單的做法是選擇貪心策略,即選擇當(dāng)前勝率最高的英雄。但王者榮耀有上百個(gè)英雄,任意英雄間都有或促進(jìn)或克制的關(guān)系,只按勝率選擇很容易被對手針對,更需要綜合考慮敵我雙方、已選和未選英雄的相關(guān)信息,最大化己方優(yōu)勢,最小化敵方優(yōu)勢。

受到圍棋 AI 算法的啟發(fā),團(tuán)隊(duì)使用蒙特卡洛樹搜索(MCTS)和神經(jīng)網(wǎng)絡(luò)結(jié)合的 自動 BP 模型。MCTS 方法包括了選擇、擴(kuò)張、模擬和反向傳播四個(gè)步驟,會不斷迭代搜索,估算出可選英雄的長期價(jià)值。因?yàn)槠渲心M部分最耗時(shí),團(tuán)隊(duì)用估值神經(jīng)網(wǎng)絡(luò)替代該環(huán)節(jié),加快了搜索速度,就能又快又準(zhǔn)地選出具備最大長期價(jià)值的英雄。要提到的是,圍棋等棋牌類游戲結(jié)束就能確定勝負(fù),但 BP 結(jié)束只到確定陣容,還未對戰(zhàn),所以勝負(fù)未分。因此團(tuán)隊(duì)利用絕悟自對弈產(chǎn)生的超過3000萬條對局?jǐn)?shù)據(jù)訓(xùn)練出一個(gè)陣容勝率預(yù)測器,用來預(yù)測陣容的勝率。進(jìn)一步的,勝率預(yù)測器得到的陣容勝率被用來監(jiān)督訓(xùn)練估值網(wǎng)絡(luò)。

除了常見的單輪 BP ,AI 教練還學(xué)會了王者榮耀 KPL 賽場上常見的多輪 BP 賽制,該模式下不能選重復(fù)英雄,對選人策略要求更高。團(tuán)隊(duì)因此引入多輪長周期判定機(jī)制,在BO3/BO5賽制中可以全局統(tǒng)籌、綜合判斷,做出最優(yōu) BP 選擇。訓(xùn)練后的 BP 模型在對陣基于貪心策略的基準(zhǔn)方法時(shí),能達(dá)到近70%勝率,對陣按位置隨機(jī)陣容的勝率更接近90%。

至此,絕悟前有多個(gè)強(qiáng)兵,后有軍師輔佐,不折不扣的一代宗師終于練成了。

研發(fā)拓展,從監(jiān)督學(xué)習(xí)到強(qiáng)化學(xué)習(xí),再回到監(jiān)督學(xué)習(xí)

團(tuán)隊(duì)同時(shí)研發(fā)了監(jiān)督學(xué)習(xí)(SL)方法,針對大局觀和微操策略同時(shí)建模,讓絕悟同時(shí)擁有優(yōu)秀的長期規(guī)劃和即時(shí)操作,達(dá)到了非職業(yè)玩家的頂尖水平。相關(guān)技術(shù)成果曾在2018年12月公開亮相對戰(zhàn)人類玩家。其實(shí),團(tuán)隊(duì)對于監(jiān)督學(xué)習(xí)的研發(fā)一直在持續(xù)進(jìn)行中。今年11月14日起開放的絕悟第1到19級,就有多個(gè)關(guān)卡由監(jiān)督學(xué)習(xí)訓(xùn)練而成。

監(jiān)督學(xué)習(xí)方法論文地址:https://arxiv.org/abs/2011.12582

雖然在理論上,監(jiān)督學(xué)習(xí)訓(xùn)練出的 AI 表現(xiàn)會遜于強(qiáng)化學(xué)習(xí)的結(jié)果,但此類研究極具研究與應(yīng)用價(jià)值,相關(guān)技術(shù)成果還入選了頂級期刊 TNNLS 。

研究方法論上看,監(jiān)督學(xué)習(xí)對于AI智能體的研發(fā)有很高的價(jià)值。首先,通過挖掘人類數(shù)據(jù)預(yù)測未來的監(jiān)督學(xué)習(xí)是通常是研發(fā)游戲 AI 的第一步,并在眾多視頻游戲上取得良好效果。比如在明星大亂斗等復(fù)雜電子游戲中,純監(jiān)督學(xué)習(xí)能也學(xué)到達(dá)到人類高手玩家水平的AI智能體。第二,它能復(fù)用為強(qiáng)化學(xué)習(xí)的策略網(wǎng)絡(luò),如 AlphaGo 就是監(jiān)督學(xué)習(xí)結(jié)合強(qiáng)化學(xué)習(xí)。第三,它還能縮短強(qiáng)化學(xué)習(xí)探索時(shí)間,比如 DeepMind的星際爭霸AI AlphaStar 就用監(jiān)督學(xué)習(xí)做強(qiáng)化訓(xùn)練的隱含狀態(tài)。

應(yīng)用上它更是具有諸多優(yōu)點(diǎn),比如訓(xùn)練快,在16張 GPU 卡上只需幾天,而強(qiáng)化學(xué)習(xí)則需幾個(gè)月。其次,拓展能力強(qiáng),能完成全英雄池訓(xùn)練。最后,其使用真實(shí)玩家的脫敏數(shù)據(jù),配合有效采樣,產(chǎn)出的 AI 行為上會更接近人類。

網(wǎng)絡(luò)架構(gòu)

技術(shù)應(yīng)用

絕悟一方面將發(fā)力電子競技領(lǐng)域。作為數(shù)字時(shí)代最受年輕人歡迎的運(yùn)動,電競已于2018年成為亞運(yùn)會表演項(xiàng)目,中國隊(duì)參賽獲兩金一銀的佳績。與傳統(tǒng)體育項(xiàng)目一樣,電競職業(yè)選手也需要手眼腦協(xié)調(diào)、策略和操作快速反應(yīng)、團(tuán)隊(duì)協(xié)作精神及大量刻苦訓(xùn)練。借助在算法和數(shù)據(jù)方面的優(yōu)勢,絕悟可為職業(yè)選手提供數(shù)據(jù)、戰(zhàn)略與協(xié)作類實(shí)時(shí)分析與建議,及不同強(qiáng)度與級別的專業(yè)陪練。以前沿科技推動電競專業(yè)化發(fā)展,AI 將繼續(xù)推動中國電競在全球范圍內(nèi)保持領(lǐng)先。另一方面,絕悟能夠參與游戲設(shè)計(jì),比如英雄角色的平衡性測試與參數(shù)調(diào)整,提高測試效率,優(yōu)化角色平衡性,還可參與MOBA新地圖研發(fā)等。

生態(tài)建設(shè)

騰訊 AI Lab 還與王者榮耀聯(lián)合推出了AI+游戲開放平臺「開悟」,打造產(chǎn)學(xué)研生態(tài)。王者榮耀開放脫敏數(shù)據(jù)、游戲核心集群(Game Core)和工具,騰訊AI Lab開放強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)的計(jì)算平臺和算力,邀請高校與研究機(jī)構(gòu)共同推進(jìn)AI前沿研究,讓開悟成為展示多智能體領(lǐng)先研究的舞臺。開悟?qū)⒃?020年12月舉辦第一屆水平測試。

長遠(yuǎn)目標(biāo)

騰訊 AI Lab 不僅研究王者榮耀為代表的MOBA類游戲,還同步推進(jìn)了多類AI+游戲研究。在棋牌類,研發(fā)了三年內(nèi)奪得四次世界冠軍、擔(dān)任中國國家圍棋隊(duì)陪練的AI「絕藝」;在RTS類游戲代表星際爭霸2里,在一個(gè)不完全信息博弈場景,需在復(fù)雜連續(xù)的決策空間下進(jìn)行面向長期決策的決策的游戲中,研發(fā)出首個(gè)能在「星際爭霸 II」全場游戲中打敗「開掛」內(nèi)置 AI 的智能體;在FPS射擊類游戲中,我們著力解決3D環(huán)境建模、感知實(shí)現(xiàn)視角的轉(zhuǎn)換和移動尋人等難題,先是奪得了VizDoom AI競賽歷史上首個(gè)中國區(qū)冠軍,然后FPS AI上線手游《穿越火線-槍戰(zhàn)王者(CFM)》廣獲好評。

長遠(yuǎn)來看,AI+游戲研究將是騰訊攻克 AI 終極研究難題——通用人工智能(AGI)的關(guān)鍵一步。AGI 代表研發(fā)能在通用系統(tǒng)中執(zhí)行多種復(fù)雜命令,達(dá)到或超越人類水平的 AI ,從絕藝到絕悟,不斷讓 AI 從0到1去學(xué)習(xí)進(jìn)化,并發(fā)展出一套合理的行為模式,這中間的經(jīng)驗(yàn)、方法與結(jié)論,長期來看,有望在大范圍內(nèi),如醫(yī)療、制造、無人駕駛、農(nóng)業(yè)到智慧城市管理等領(lǐng)域帶來更深遠(yuǎn)影響。

?了解更多:

AI超會團(tuán)!策略協(xié)作型AI“絕悟”首次露面KPL總決賽驚艷全場!

騰訊策略協(xié)作型 AI「絕悟」升級至王者榮耀電競職業(yè)水平

騰訊AI Lab x 王者榮耀:開放讓「AI+游戲」想象力落地

騰訊「絕悟」AI 1v1版論文入選 AAAI,啟動AI+游戲開放平臺「開悟」內(nèi)測

策略協(xié)作型AI“絕悟”限時(shí)挑戰(zhàn)活動,等你來戰(zhàn)!

* 歡迎轉(zhuǎn)載,請注明來自騰訊AI Lab微信(tencent_ailab)

總結(jié)

以上是生活随笔為你收集整理的腾讯绝悟AI完全体限时开放体验,研究登上国际顶会与顶刊的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。