當前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

从麻将到“农药”，细数 AI 攻占的游戏领域

發布時間：2023/11/21 综合教程 43 生活家

生活随笔收集整理的這篇文章主要介紹了从麻将到“农药”，细数 AI 攻占的游戏领域小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

　　作者：蔣寶尚

　　（雷鋒網出品）按照傳統，過年需要走親訪友給長輩拜年的。但是今年情況特殊，全國人民正在備戰“新疫情”，相信大家已經不會走街串巷，舉行大型聚會了。

　　但親朋好友聚仍然可以“云聚會”聊家常、催你結婚。當然線上搓兩把麻將也是不錯的娛樂方式，畢竟這在促進相互交流的同時，還可以發揮你的聰明才智和運氣。

　　但是要記住，你線上隨機匹配對戰的話，很容易被 AI 給“伏擊”了。因為這兩年除了圍棋、DOTA 之外，AI 已經悄無聲息的攻占了些許游戲領域。下面就讓雷鋒網(公眾號：雷鋒網)給大家梳理一下已經被 AI 攻占的娛樂領域，也歡迎讀者文末留言補充。

　　AI 麻將獲人類頂級水平

　　2019 年 8 月份微軟發布了他們在麻將游戲中取得的重大突破：麻將 AI “Suphx”在國際知名專業麻將平臺“天鳳”上榮升十段。

　　“天鳳”是日本的一個在線麻將競技平臺，創立于 2006 年。天鳳平臺的“十段”水平意味著 Suphx 在麻將界擁有了等同于 AlphaGo 在圍棋界的地位。

　　Suphx 在 2019 年 3 月份開始登錄天鳳平臺，經過近三個多月、與人類玩家展開了 5000 余場四麻對局后，6 月份 Suphx 成功晉級天鳳十段，也是首個晉級十段的 AI 系統。

　　技術簡介以及策略：

　　136 張麻將牌的排列組合可能性非常多，再加上打牌過程中 4 位玩家出牌的順序并不是固定的（例如碰杠等），導致游戲樹不僅不規則而且還是動態變化。

　　這些特點使得麻將 AI 很難使用 AlphaGo 那樣的蒙特卡洛樹搜索算法。麻將中每個玩家除了手中的 13 張牌和已經打出的牌外，其他玩家手中的牌和剩余的底牌都是未知的（最多可以有超過 120 張未知的牌），由于隱藏信息過多導致游戲樹的寬度非常大，樹搜索算法基本不可行。

　　對于日本麻將而言，一輪游戲共包含 8 局，最后根據 8 局得分總和進行排名，來形成最終影響段位的點數獎懲。所以 AI 需要審時度勢，把握進攻與防守的時機。

　　對麻將的這些特點，研究者將整個訓練過程分為三個階段。首先是“初始化”階段，本質上就是用專家數據（天鳳平臺提供的一些公開數據）做有監督學習，得到一個初始模型。隨后在這個初始模型基礎上用自我博弈的方式進行強化學習。

　　在這個階段，為了克服非完美信息博弈的問題，研究者在訓練階段利用不可見的一些隱藏信息來引導 AI 模型的訓練方向。此外還利用“全盤預測”技術搭建起每輪比賽和 8 輪過后的終盤結果之間的橋梁。第三個階段則是在線比賽，通過不斷參與到與人類玩家的對局中，從而不斷得到自我更新和提高。

　　AI 賭神升級 6 人局德撲完勝世界冠軍

　　2017 年年初，在卡耐基梅隆大學(CMU)舉行了德州撲克人機大戰，在比賽中 4 名人類職業玩家組成的人類大腦敗給了人工智能程序 Libratus。

　　如果說當時 Libratus 擅長的是 1V1 領域，那么 2019 年 7 月份的 Pluribus 在無限制德州撲克 6 人局里，戰勝了人類頂尖選手。

　　Pluribus 由 Facebook 與 CMU 合作開發，相關論文發表在了《Sicence》上面。據《Superhuman AI for multiplayer poker》這篇論文介紹，Pluribus，每小時能贏 1 千刀

　　且只用了 8 天的訓練時間。

　　技術簡介以及策略

　　根據論文介紹，整個 AI 的設計分為兩個階段，第一階段為藍圖策略，這一階段是為了降低游戲的復雜性，進行游戲抽象。抽象分為兩個部分動作抽象和信息抽象：動作抽象減少了 AI 需要考慮的不同動作的數量；信息抽象則是把策略上相似的牌局放在一起，并對其進行相同處理。

　　當然除了抽象之外，這部分所采用的算法是迭代的蒙特卡洛反事實遺憾最小化算法（MCCFR）。在算法的每次迭代中，MCCFR 對玩家的某些行為或機會結果進行采樣。在迭代結束時，玩家策略會更新，然后對每個可能發生的情況進行概率統計，通過搜索決策樹來決定下一步的行為。

　　第二階段是深度限制搜索，這一階段 Pluribus 會進行實時搜索，制定更精細的策略。

　　算法假設每個玩家在到達葉子結點時，可以選擇四種不同的策略來進行下面的游戲，其中包括預先計算的藍圖策略，修改后偏向于棄牌的藍圖策略，修改后偏向于跟注的藍圖策略，以及修改后偏向于加注的藍圖策略。這樣的搜索方法能找到一種更平衡的策略，從而產生更強的整體表現。

　　總的來說，Pluribus 通過將類似的情況打包在一起，減少了關于是否跟注(call)、加注(raise)或棄牌(fold)的決策點的數量。使用蒙特卡羅虛擬遺憾最小化(MCCFR)，將撲克游戲中樹搜索的復雜性從一個棘手的問題降低到一個可解決的問題。

　　AI “絕悟”已達到王者榮耀職業水平

　　2019 年 8 月 2 日，在吉隆坡舉辦的《王者榮耀》世界冠軍杯（該游戲最高規格的賽事）半決賽的特設環節中，騰訊 AI Lab 策略協作型 AI “絕悟”在與職業選手賽區聯隊的 5v5 競技中獲勝。這表明絕悟 AI 已經達到了《王者榮耀》電競職業水平。

　　“絕悟”名字寓意絕佳領悟力，其技術研發始于 2017 年 12 月，并在 2018 年 12 月通過了頂尖業余水平測試（前職業選手與主播聯隊帶來）。

　　技術簡介以及策略：

　　“絕悟”版本建立了基于“觀察-行動-獎勵”的深度強化學習模型，無需人類數據，從白板學習（Tabula Rasa）開始，讓 AI 自己與自己對戰，一天的訓練強度高達人類 440 年。

　　AI 從 0 到 1 摸索成功經驗，勤學苦練，既學會了如何站位、打野、輔助保護和躲避傷害等游戲常識。更驚喜的是，AI 也探索出了不同于人類常規做法的全新策略。

　　游戲中的難點，是 AI 要在不完全信息、高度復雜度的情況作出復雜快速的決策。在龐大且信息不完備的地圖上，10 位參與者要在策略規劃、英雄選擇、技能應用、路徑探索及團隊協作上面臨大量、不間斷、即時的選擇，這帶來了極為復雜的局面，預計有高達 10 的 20000 次方種操作可能性，而整個宇宙原子總數也只是 10 的 80 次方。

　　另外，版本相關的技術論文被頂級學術會議 AAAI 2020 接收。

arxiv 鏈接：https://arxiv.org/abs/1912.09729

　　寫作 AI 跨界下象棋

　　OpenAI 的 GPT-2 在文本生成上有著驚艷的表現，其生成的文本在上下文連貫性和情感表達上都超過了人們對目前階段語言模型的預期。

　　具體而言這種機器學習算法可以在很多任務上達到了業內最佳水平，還可以根據一小段話自動腦補出大段連貫的文本，如有需要，人們可以通過一些調整讓計算機模擬不同的寫作風格。

　　然而這個 NLP 除了做閱讀理解、問答、生成文章摘要、翻譯之外，還能用來干嘛？好奇心很強的網友便拿 OpenAI 的 GPT-2 做了個實驗。它除了能生成文本，竟然還能下象棋、做音樂！

　　僅僅經過一個小時的訓練，GPT-2 1.5B 模型就表現出了國際象棋“天賦”。雖然在下了幾步棋之后，就會出現無效移動，但這次實驗還是證明了制造 GPT-2 國際象棋引擎并非不可能。

　　GPT-2 介紹：

　　2018 年 6 月，OpenAI 發表論文介紹了自己的語言模型 GPT，它基于 Transformer 架構，用先在大規模語料上進行無監督預訓練、再在小得多的有監督數據集上為具體任務進行精細調節（fine-tune）的方式，不依賴針對單獨任務的模型設計技巧就一次性在多個任務中取得了很好的表現。

　　這也是 2018 年中自然語言處理領域的研究趨勢，就像計算機視覺領域流行 ImageNet 預訓練模型一樣。這次的 GPT-2 是 GPT 的直接技術升級版本，有多 10 倍的模型參數，多達 15 億個，并在多 10 倍的數據上進行訓練。

　　訓練數據是來自互聯網的 40GB 高質量語料，具體來說這些語料來自 Reddit 論壇中出現的高評分外鏈頁面；高評分表示這些頁面中的內容有較高的質量。這樣篩選出的語料內容多達 800 萬個頁面。模型在無監督訓練階段的目標是，給定一組單詞組成的句子之后預測下文的下一個詞。

　　由于數據庫有足夠高的文本質量和足夠高的多樣性，模型也有很高的容量，即便這樣簡單的訓練目標也得出了驚人的結果：模型不僅可以根據給定的文本流暢地續寫句子，甚至可以形成成篇的文章，就像人類的續寫文章一樣。

　　模型生成文本有時會出現失敗的現象，比如文字重復、錯誤的世界常識（比如有時候模型會寫到在水下燃燒的火）、不自然地切換話題，但在成功的例子中，模型生成的文本有多樣、全面的敘述，對事件的介紹煞有介事，接近人類的表達質量，而且在段落之間甚至全篇文章之中保持連續一致。

　　雷鋒網參考文獻：

　　https://mp.weixin.qq.com/s/vYl0RYagZLN0h5SGZlQ69Q

　　https://mp.weixin.qq.com/s/QrZwGj7LcxJs5BPowW8lwA

　　https://tech.sina.com.cn/roll/2019-12-29/doc-iihnzahk0806635.shtml

總結

以上是生活随笔為你收集整理的从麻将到“农药”，细数 AI 攻占的游戏领域的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：企业远程办公遭遇XRed病毒攻击：200
下一篇：丰田和松下成立电动汽车电池合资企业 4月