當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

博弈论笔记

發(fā)布時(shí)間：2023/12/9 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了博弈论笔记小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

前言
一、博弈模型
囚徒問(wèn)題
二，基于囚徒問(wèn)題的博弈策略1
三，基于囚徒問(wèn)題的博弈策略2
四，混合策略的納什平衡
五，Stackelberg平衡
六，協(xié)同問(wèn)題
七，特殊博弈
八，馬爾科夫博弈
九，強(qiáng)化學(xué)習(xí)
總結(jié)

前言

博弈模型，占優(yōu)策略，純納什平衡，混合策略的納什平衡，斯塔克伯格平衡，協(xié)同問(wèn)題，特殊博弈，馬爾科夫博弈，強(qiáng)化學(xué)習(xí)

一、博弈模型

一個(gè)博弈模型包括：
玩家集合
策略收益
效用函數(shù)

效用函數(shù)的目的是用來(lái)更準(zhǔn)確的描述模型，將玩家的偏好關(guān)系（大于小于等于）用具體是實(shí)數(shù)體現(xiàn)，方便之后的運(yùn)算。（感興趣的同學(xué)了解一下圣彼得堡悖論）效用函數(shù)如何更準(zhǔn)確的描述模型呢？例如，同樣是100萬(wàn)，在窮人眼里很重要，即期望效用很高；但是在億萬(wàn)富翁眼中，可能就沒(méi)那么重要。這時(shí)候，就需要用一個(gè)凹函數(shù)來(lái)描述效用函數(shù)。

下圖是效用函數(shù)與偏好關(guān)系的聯(lián)系：

囚徒問(wèn)題

玩家集合{P1，P2}
策略集合{C（合作：cooperation），B（背叛：btray）}
收益函數(shù)：{0y，1y，2y，3y}（被判處0年，1年，3年，6年）

基于囚徒問(wèn)題的基本假設(shè)：
1.囚徒們同時(shí)決策
2.囚徒們已知策略集合和收益函數(shù)
3.囚徒們都是，理性的

注意：這里對(duì)理性的解釋：理性是指玩家要符合完備性和傳遞性
completeness：任何兩個(gè)選擇擺在玩家面前，玩家總能作出一個(gè)選擇。
transitivety：如果玩家喜歡a比喜歡b多，喜歡b比喜歡c多；那么玩家一點(diǎn)喜歡a比喜歡c多。

二，基于囚徒問(wèn)題的博弈策略1

占優(yōu)策略（Dominate Strategy）
（分為強(qiáng)占優(yōu)策略和弱占優(yōu)策略）
解釋：不管對(duì)方的決策是什么，我的決策都是最好的。
例如囚徒們的效用矩陣如下：

不管P1選擇C還是B，P2選B都是占優(yōu)策略。因?yàn)楫?dāng)P1=C，對(duì)于P2的效用10>8；當(dāng)P1=B，對(duì)于P2的效用5>0。
同理，P1選B也是占優(yōu)策略。
所以，如果雙方都是理性的，那么最后結(jié)果會(huì)收斂到（5,5）

而且！對(duì)于P1，因?yàn)樾в?0>8,5>0。所以稱(chēng)B是強(qiáng)占優(yōu)策略。
同理，對(duì)于P2的效用：10>8,5>0。所以B也是P2的強(qiáng)占優(yōu)策略。

其他情況則為弱占優(yōu)策略

對(duì)于嚴(yán)格劣策略（強(qiáng)不占優(yōu)策略）：代表其他所有策略總是比這個(gè)策略更優(yōu)秀，它永遠(yuǎn)不會(huì)成為最優(yōu)回應(yīng)best reply
在任何情況下總有別的策略更好，因此，我們把嚴(yán)格劣策略從博弈中剔除
重復(fù)迭代的意思是：我們剔除它們，得到了一個(gè)更簡(jiǎn)單的博弈，然后再做同樣的事情。現(xiàn)在可能又有了一些策略是嚴(yán)格劣勢(shì)的，在這個(gè)簡(jiǎn)化的博弈中博弈者永遠(yuǎn)不會(huì)采取它們，因此我們?cè)侔阉鼈兲蕹?#xff0c;循環(huán)反復(fù)，最后給我們了一些預(yù)測(cè)。當(dāng)博弈者理性他們也認(rèn)識(shí)到其他博弈者理性時(shí)是合乎邏輯的結(jié)果，這些策略就會(huì)在這個(gè)子博弈中。
進(jìn)行這個(gè)過(guò)程的術(shù)語(yǔ)稱(chēng)作嚴(yán)格劣策略重復(fù)剔除（Iterated elimination）

三，基于囚徒問(wèn)題的博弈策略2

納什均衡（Nash Equibrium）
解釋：雙方都處于最佳應(yīng)對(duì)策略。
如圖，（5,5）是一個(gè)納什平衡

注意：不是所以的博弈都存在納什平衡；有的博弈存在多個(gè)納什平衡。

而如下圖所示，在這個(gè)效用矩陣中，沒(méi)有納什平衡

而在，如下圖所示的效用矩陣中，則有多個(gè)納什平衡

另外，用Iterated elimination反復(fù)消除強(qiáng)占優(yōu)策略時(shí)，不會(huì)消除納什平衡；但反復(fù)消除弱占優(yōu)策略時(shí)，有可能刪除納什平衡。

四，混合策略的納什平衡

混合策略可以看成一種隨機(jī)選擇，例如，如果你重復(fù)囚徒問(wèn)題，并且每次都用相同的方法去玩，那么結(jié)果就會(huì)變得可預(yù)測(cè)。
混合策略的每一個(gè)小單位就是一個(gè)符合彩票。而二，三節(jié)中的策略單位成為簡(jiǎn)單彩票。
對(duì)于符合彩票的期望效用來(lái)說(shuō)，它有三個(gè)公理：單調(diào)性，連續(xù)性，獨(dú)立性。

對(duì)于任意一個(gè)博弈，必定存在一個(gè)混合策略的納什平衡
案例和解法詳見(jiàn)博客鏈接
要看，是重點(diǎn)！

（以下為拓展內(nèi)容）

五，Stackelberg平衡

如果改變囚徒問(wèn)題的假設(shè)1：囚徒們同時(shí)做出決定。
變成囚徒們作出決定時(shí)存在先后順序。
在這種情況下的納什平衡稱(chēng)為Stackelberg平衡

六，協(xié)同問(wèn)題

存在多個(gè)納什平衡的情況下，如何選擇的問(wèn)題稱(chēng)為協(xié)同問(wèn)題。
協(xié)同問(wèn)題的解決方法一般是人為的制定規(guī)則：比如制定通訊機(jī)制或者社會(huì)規(guī)則等等

七，特殊博弈

特殊博弈分為合作博弈和競(jìng)爭(zhēng)博弈
合作博弈（cooperation Game）追求所以玩家收益均等
競(jìng)爭(zhēng)博弈（competitive Game）要求玩家收益之和固定，例如經(jīng)典的零和博弈

八，馬爾科夫博弈

增加了狀態(tài)集合和轉(zhuǎn)移函數(shù)，即相對(duì)于之前的博弈，增加了環(huán)境因素，玩家的決策要考慮實(shí)時(shí)的環(huán)境因素，而且對(duì)于對(duì)手和自己的效用函數(shù)可能也是未知的。在這種情況下，優(yōu)化博弈的算法稱(chēng)為強(qiáng)化學(xué)習(xí)

九，強(qiáng)化學(xué)習(xí)

解釋：在一定環(huán)境下，做收益最大化的學(xué)習(xí)。
學(xué)習(xí)目標(biāo)一般有以下幾個(gè)：
1.追求納什平衡
2.最求

總結(jié)

提示：這里對(duì)文章進(jìn)行總結(jié)：
例如：以上就是今天要講的內(nèi)容，本文僅僅簡(jiǎn)單介紹了pandas的使用，而pandas提供了大量能使我們快速便捷地處理數(shù)據(jù)的函數(shù)和方法。

總結(jié)

以上是生活随笔為你收集整理的博弈论笔记的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Taro+react开发（88):大写p
下一篇：写单元测试的好处(转)

编程问答

博弈论笔记

文章目錄

前言

一、博弈模型

囚徒問(wèn)題

二，基于囚徒問(wèn)題的博弈策略1

三， 基于囚徒問(wèn)題的博弈策略2

四，混合策略的納什平衡

五，Stackelberg平衡

六，協(xié)同問(wèn)題

七，特殊博弈

八，馬爾科夫博弈

九，強(qiáng)化學(xué)習(xí)

總結(jié)

總結(jié)

三，基于囚徒問(wèn)題的博弈策略2