當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

人工智能再下一城，在多人扑克中大胜人类

發(fā)布時間：2025/5/22 编程问答 18 豆豆

生活随笔收集整理的這篇文章主要介紹了人工智能再下一城，在多人扑克中大胜人类小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

過去二十年來，有許多人工智能被設計出來玩各種類型的撲克牌游戲，但所有這些人工智能都只能玩一對一的游戲，如 Libratus 就是二人德州撲克的高手。由此多人撲克游戲，毫無懸念地成為了下一個里程碑式的目標。

最近，美國卡內基梅隆大學 Noam Brown 和 Tuomas Sandholm 設計出了新的智能系統(tǒng) Pluribus，它能在六人無限注德州撲克中擊敗人類專業(yè)選手，相關研究發(fā)表在7月12日的Science 雜志上。

目前，很多超越人類的人工智能都是關于兩人零和游戲，如圍棋，游戲中只能有一方可以獲勝，用博弈論的術語來講，這些人工智能所做的都是在找到一個接近納什均衡的策略。所謂納什均衡策略就是指一系列能夠使自己預期收益最大化的策略，無論對手做什么行動，至少自己不會輸，另一個博弈者也會采取同樣的策略。

納什均衡由諾獎得主約翰·納什1951年提出，圖源 l.yimg.com

納什均衡已經(jīng)被證明存在于所有有限次博弈中以及大部分無限次博弈中。只不過，納什均衡策略并不是隨隨便便就能找到。第一，納什均衡策略可通過不斷觀察和利用對手的弱點來獲得，就好比見到一直出剪刀的對手，人工智能就一直出石頭。但對手也可根據(jù)你的策略來做調整，而且這種方法需要很多訓練樣本；第二，目前還沒有足夠快的算法可以找到納什平衡；第三，在多人游戲中，就算每個玩家都獨自找到了納什均衡策略，這個總的策略集合也不一定是納什均衡策略。

上圖為四人檸檬水果攤游戲。玩家需要在圓環(huán)中找到一個位置，使自己與其他所有人的距離總和最遠（左）。納什均衡策略是每個人都均勻分布在圓環(huán)上。但如果每個人都有自己的納什均衡策略，那么最終可能不會有納什均衡出現(xiàn)（右）。而如果是兩人游戲就不會有這樣的問題。

但 Pluribus 系統(tǒng)并不打算找到這個博弈論意義上的最優(yōu)策略，而是采用一種能夠經(jīng)常打敗人類選手的策略。首先，Pluribus 通過自我博弈計算出自己的策略。換句話說，Pluribus 不斷跟自己的分身玩德州撲克，期間沒有任何人類或其他人工智能的參與。最初，Pluribus 作為新手，行動完全隨機，但它會不斷改進自己的策略，逐漸提高自己的水平。自我訓練得出的策略被稱為“藍圖”。然后，Pluribus 就和真實玩家對戰(zhàn)，積累實戰(zhàn)經(jīng)驗，期間不斷改進自己的策略。

這其中涉及到哪些技術細節(jié)呢？在德州撲克中，由于每一回合可以采取的行動實在太多，為了減少問題的復雜度，研究者采用了行動抽象（Action abstraction）和信息抽象（Information abstraction）的簡化技術。所謂成敗在于細節(jié)，Pluribus 因此只會將信息抽象用于對未來幾個回合的預想中，而不會用在當前回合的決策上。

為了計算出“藍圖”策略，Pluribus 采用了蒙特卡洛虛擬遺憾最小化算法（MCCFR）。MCCFR 會隨機考慮一部分行動，而不是所有可選行動，來選擇應該采取的決定。在MCCFR的每一次迭代中，人工智能會根據(jù)在場玩家的策略模擬一盤游戲，然后找出自己在模擬游戲中的最優(yōu)策略。每一回合，人工智能都會被加入一個虛擬遺憾值，使它會后悔上次沒有用其他更好的策略，那么下一輪人工智能就會有傾向選擇上次后悔沒選的策略。就這樣，Pluribus每局都在學習如何擊敗以前的自己，從而不斷提高自己的水平。

“藍圖”策略只是一個粗略的策略。基于“藍圖”，Pluribus 在跟真正對手博弈的時候，用實時搜索（real-time search）技術尋找更好的策略。不同于圍棋等完全信息博弈（perfect-information games），六人德州撲克是不完全信息博弈（imperfect-information games）。人工智能對其他玩家的特征、策略和對應收益都沒有完整的了解。所以，研究者獨創(chuàng)了一種新的方法，他們假設每個玩家會有自己的4種策略，包括“藍圖”策略和它的三個變種，并且會在游戲中選擇其中一種。由于對手會變換策略，Pluribus 就會計算出比較平衡的策略，而不會偏向于只采取某些決定。另外，為了防止被對手看穿自己的策略，Pluribus 會先計算如果手上的牌跟現(xiàn)在不一樣時，會采取什么行動。Pluribus 得出一個可以平衡各種情況的策略后才開始該回合的行動。

訓練完成后，就到測試階段了。實際運行中，Pluribus 平均每回合只需要20秒思考時間，足足比專業(yè)選手快一倍。如此快的速度，那實力如何呢？研究者設計了兩個比賽，分別是5H+1AI（H代表人類），以及1H+5AI，并且邀請世界各地的高手參加。結果發(fā)現(xiàn)，在5H+1AI中，Pluribus 平均每局能贏 48mbb（milli big blinds），在六人德州撲克中是極好的成績；在1H+5AI中，Pluribus 以平均每局32mbb 的成績擊敗人類。

Pluribus 擊敗人類，說明人類的經(jīng)驗性策略并不是最優(yōu)，或許人類可以從中學習到新的技巧。另外，從人工智能的研究來講，Pluribus 的成功表明即使理論上沒法保證人工智能在多人游戲上的表現(xiàn)，我們也可以通過精巧的算法設計來訓練出超越人類的人工智能。

總結

以上是生活随笔為你收集整理的人工智能再下一城，在多人扑克中大胜人类的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：深度学习输入模式与适当的网络架构之间的对
下一篇：美创企推出仅90斤的物流无人车，成本低至