日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

人工智能再下一城,在多人扑克中大胜人类

發(fā)布時間:2025/5/22 编程问答 18 豆豆
生活随笔 收集整理的這篇文章主要介紹了 人工智能再下一城,在多人扑克中大胜人类 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?

過去二十年來,有許多人工智能被設計出來玩各種類型的撲克牌游戲,但所有這些人工智能都只能玩一對一的游戲,如 Libratus 就是二人德州撲克的高手。由此多人撲克游戲,毫無懸念地成為了下一個里程碑式的目標。

最近,美國卡內基梅隆大學 Noam Brown 和 Tuomas Sandholm 設計出了新的智能系統(tǒng) Pluribus,它能在六人無限注德州撲克中擊敗人類專業(yè)選手,相關研究發(fā)表在7月12日的Science 雜志上。

目前,很多超越人類的人工智能都是關于兩人零和游戲,如圍棋,游戲中只能有一方可以獲勝,用博弈論的術語來講,這些人工智能所做的都是在找到一個接近納什均衡的策略。所謂納什均衡策略就是指一系列能夠使自己預期收益最大化的策略,無論對手做什么行動,至少自己不會輸,另一個博弈者也會采取同樣的策略。

納什均衡由諾獎得主約翰·納什1951年提出,圖源 l.yimg.com

納什均衡已經(jīng)被證明存在于所有有限次博弈中以及大部分無限次博弈中。只不過,納什均衡策略并不是隨隨便便就能找到。第一,納什均衡策略可通過不斷觀察和利用對手的弱點來獲得,就好比見到一直出剪刀的對手,人工智能就一直出石頭。但對手也可根據(jù)你的策略來做調整,而且這種方法需要很多訓練樣本;第二,目前還沒有足夠快的算法可以找到納什平衡;第三,在多人游戲中,就算每個玩家都獨自找到了納什均衡策略,這個總的策略集合也不一定是納什均衡策略。

上圖為四人檸檬水果攤游戲。玩家需要在圓環(huán)中找到一個位置,使自己與其他所有人的距離總和最遠(左)。納什均衡策略是每個人都均勻分布在圓環(huán)上。但如果每個人都有自己的納什均衡策略,那么最終可能不會有納什均衡出現(xiàn)(右)。而如果是兩人游戲就不會有這樣的問題。

但 Pluribus 系統(tǒng)并不打算找到這個博弈論意義上的最優(yōu)策略,而是采用一種能夠經(jīng)常打敗人類選手的策略。首先,Pluribus 通過自我博弈計算出自己的策略。換句話說,Pluribus 不斷跟自己的分身玩德州撲克,期間沒有任何人類或其他人工智能的參與。最初,Pluribus 作為新手,行動完全隨機,但它會不斷改進自己的策略,逐漸提高自己的水平。自我訓練得出的策略被稱為“藍圖”。然后,Pluribus 就和真實玩家對戰(zhàn),積累實戰(zhàn)經(jīng)驗,期間不斷改進自己的策略。

這其中涉及到哪些技術細節(jié)呢?在德州撲克中,由于每一回合可以采取的行動實在太多,為了減少問題的復雜度,研究者采用了行動抽象(Action abstraction)和信息抽象(Information abstraction)的簡化技術。所謂成敗在于細節(jié),Pluribus 因此只會將信息抽象用于對未來幾個回合的預想中,而不會用在當前回合的決策上。

為了計算出“藍圖”策略,Pluribus 采用了蒙特卡洛虛擬遺憾最小化算法(MCCFR)。MCCFR 會隨機考慮一部分行動,而不是所有可選行動,來選擇應該采取的決定。在MCCFR的每一次迭代中,人工智能會根據(jù)在場玩家的策略模擬一盤游戲,然后找出自己在模擬游戲中的最優(yōu)策略。每一回合,人工智能都會被加入一個虛擬遺憾值,使它會后悔上次沒有用其他更好的策略,那么下一輪人工智能就會有傾向選擇上次后悔沒選的策略。就這樣,Pluribus每局都在學習如何擊敗以前的自己,從而不斷提高自己的水平。

“藍圖”策略只是一個粗略的策略。基于“藍圖”,Pluribus 在跟真正對手博弈的時候,用實時搜索(real-time search)技術尋找更好的策略。不同于圍棋等完全信息博弈(perfect-information games),六人德州撲克是不完全信息博弈(imperfect-information games)。人工智能對其他玩家的特征、策略和對應收益都沒有完整的了解。所以,研究者獨創(chuàng)了一種新的方法,他們假設每個玩家會有自己的4種策略,包括“藍圖”策略和它的三個變種,并且會在游戲中選擇其中一種。由于對手會變換策略,Pluribus 就會計算出比較平衡的策略,而不會偏向于只采取某些決定。另外,為了防止被對手看穿自己的策略,Pluribus 會先計算如果手上的牌跟現(xiàn)在不一樣時,會采取什么行動。Pluribus 得出一個可以平衡各種情況的策略后才開始該回合的行動。

訓練完成后,就到測試階段了。實際運行中,Pluribus 平均每回合只需要20秒思考時間,足足比專業(yè)選手快一倍。如此快的速度,那實力如何呢?研究者設計了兩個比賽,分別是5H+1AI(H代表人類),以及1H+5AI,并且邀請世界各地的高手參加。結果發(fā)現(xiàn),在5H+1AI中,Pluribus 平均每局能贏 48mbb(milli big blinds),在六人德州撲克中是極好的成績;在1H+5AI中,Pluribus 以平均每局32mbb 的成績擊敗人類。

Pluribus 擊敗人類,說明人類的經(jīng)驗性策略并不是最優(yōu),或許人類可以從中學習到新的技巧。另外,從人工智能的研究來講,Pluribus 的成功表明即使理論上沒法保證人工智能在多人游戲上的表現(xiàn),我們也可以通過精巧的算法設計來訓練出超越人類的人工智能。

總結

以上是生活随笔為你收集整理的人工智能再下一城,在多人扑克中大胜人类的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 国产色片在线观看 | 久久a毛片 | 国产精品福利在线观看 | 日韩av午夜 | 你懂的在线观看视频 | 亚洲av永久中文无码精品综合 | 超碰碰97| 91精产国品一二三区在线观看 | 91黄在线看 | 日本伦理片在线看 | 国产综合影院 | 最新日韩中文字幕 | 中国黄色录像 | 免费欧美一级片 | 国内精品少妇 | 亚洲色图40p | 美女视频一区二区 | 激情超碰在线 | 色鬼综合 | 黄色精品 | 体内精69xxxxx | 国产在线1| 国产91热爆ts人妖在线 | 黄色片链接 | 国产一区不卡 | 黄色免费网站在线 | 国产美女特级嫩嫩嫩bbb | 女人高潮被爽到呻吟在线观看 | 成人免费影院 | 久久一本综合 | 久久久一区二区 | 亚洲精品国产精 | 青青视频一区二区 | 优优色综合 | 亚洲欧美日韩一区 | 欧美一区二区成人 | 亚洲综合网在线观看 | 国产精品久久久久久久久久妞妞 | 九九在线观看高清免费 | 欧美激情国产日韩精品一区18 | 国产日韩欧美一区二区 | www.男女| 日本免费一区二区三区四区五六区 | 久久久久久免费毛片精品 | 精品无码人妻一区二区三 | 天堂中文在线网 | 国产精品99久久久久 | 娇妻被老王脔到高潮失禁视频 | 成人午夜黄色 | 欧美浪妇xxxx高跟鞋交 | 毛片资源 | 成人欧美一区二区三区黑人冫 | 久草影视网 | 上原亚衣av一区二区三区 | 鲁鲁久久| 中文字幕一区二区三区免费看 | 国产一区二区三区久久久 | 欧美最猛黑人xxxx黑人猛交 | 朝桐光av在线 | 亚洲第一综合网 | 成人深夜福利视频 | 337p日本欧洲亚洲大胆精筑 | 国产网站在线免费观看 | 国产女人18水真多18精品一级做 | 超碰国产人人 | 色女人av | 日韩免费观看一区二区三区 | 美足av | 熟妇人妻av无码一区二区三区 | 苍井空亚洲精品aa片在线播放 | 丰满少妇高潮久久三区 | 最新av网址在线观看 | 欧美性猛交bbbbb精品 | 一级黄色在线播放 | 欧美精品videosex极品 | 激情777| 中文字幕一区二区三区人妻不卡 | 国外成人性视频免费 | 亚洲日本色| 性v天堂 | 天天操好逼 | 九色影院 | 国模私拍大尺度裸体av | 波多野结衣一二区 | 牲欲强的熟妇农村老妇女视频 | 中文在线亚洲 | 成人免费视频国产免费网站 | 国产午夜在线一区二区三区 | 日本特级黄色大片 | 中文字幕免费av | 久草毛片 | 日本理论中文字幕 | 日本 奴役 捆绑 受虐狂xxxx | 中文字幕日韩精品亚洲一区小树林 | 国产97视频 | 亚洲在线不卡 | 熟女人妇 成熟妇女系列视频 | 二区视频在线观看 | 青青成人 |