博弈论笔记
文章目錄
- 前言
- 一、博弈模型
- 囚徒問(wèn)題
- 二,基于囚徒問(wèn)題的博弈策略1
- 三, 基于囚徒問(wèn)題的博弈策略2
- 四,混合策略的納什平衡
- 五,Stackelberg平衡
- 六,協(xié)同問(wèn)題
- 七,特殊博弈
- 八,馬爾科夫博弈
- 九,強(qiáng)化學(xué)習(xí)
- 總結(jié)
前言
博弈模型,占優(yōu)策略,純納什平衡,混合策略的納什平衡,斯塔克伯格平衡,協(xié)同問(wèn)題,特殊博弈,馬爾科夫博弈,強(qiáng)化學(xué)習(xí)
一、博弈模型
一個(gè)博弈模型包括:
玩家集合
策略收益
效用函數(shù)
效用函數(shù)的目的是用來(lái)更準(zhǔn)確的描述模型,將玩家的偏好關(guān)系(大于小于等于)用具體是實(shí)數(shù)體現(xiàn),方便之后的運(yùn)算。(感興趣的同學(xué)了解一下圣彼得堡悖論)效用函數(shù)如何更準(zhǔn)確的描述模型呢?例如,同樣是100萬(wàn),在窮人眼里很重要,即期望效用很高;但是在億萬(wàn)富翁眼中,可能就沒(méi)那么重要。這時(shí)候,就需要用一個(gè)凹函數(shù)來(lái)描述效用函數(shù)。
下圖是效用函數(shù)與偏好關(guān)系的聯(lián)系:
囚徒問(wèn)題
玩家集合{P1,P2}
策略集合{C(合作:cooperation),B(背叛:btray)}
收益函數(shù):{0y,1y,2y,3y}(被判處0年,1年,3年,6年)
基于囚徒問(wèn)題的基本假設(shè):
1.囚徒們同時(shí)決策
2.囚徒們已知策略集合和收益函數(shù)
3.囚徒們都是,理性的
注意:這里對(duì)理性的解釋:理性是指玩家要符合完備性和傳遞性
completeness:任何兩個(gè)選擇擺在玩家面前,玩家總能作出一個(gè)選擇。
transitivety:如果玩家喜歡a比喜歡b多,喜歡b比喜歡c多;那么玩家一點(diǎn)喜歡a比喜歡c多。
二,基于囚徒問(wèn)題的博弈策略1
占優(yōu)策略(Dominate Strategy)
(分為強(qiáng)占優(yōu)策略和弱占優(yōu)策略)
解釋:不管對(duì)方的決策是什么,我的決策都是最好的。
例如囚徒們的效用矩陣如下:
不管P1選擇C還是B,P2選B都是占優(yōu)策略。因?yàn)楫?dāng)P1=C,對(duì)于P2的效用10>8;當(dāng)P1=B,對(duì)于P2的效用5>0。
同理,P1選B也是占優(yōu)策略。
所以,如果雙方都是理性的,那么最后結(jié)果會(huì)收斂到(5,5)
而且!對(duì)于P1,因?yàn)樾в?0>8,5>0。所以稱(chēng)B是強(qiáng)占優(yōu)策略。
同理,對(duì)于P2的效用:10>8,5>0。所以B也是P2的強(qiáng)占優(yōu)策略。
其他情況則為弱占優(yōu)策略
對(duì)于嚴(yán)格劣策略(強(qiáng)不占優(yōu)策略):代表其他所有策略總是比這個(gè)策略更優(yōu)秀,它永遠(yuǎn)不會(huì)成為最優(yōu)回應(yīng)best reply
在任何情況下總有別的策略更好,因此,我們把嚴(yán)格劣策略從博弈中剔除
重復(fù)迭代的意思是:我們剔除它們,得到了一個(gè)更簡(jiǎn)單的博弈,然后再做同樣的事情。現(xiàn)在可能又有了一些策略是嚴(yán)格劣勢(shì)的,在這個(gè)簡(jiǎn)化的博弈中博弈者永遠(yuǎn)不會(huì)采取它們,因此我們?cè)侔阉鼈兲蕹?#xff0c;循環(huán)反復(fù),最后給我們了一些預(yù)測(cè)。當(dāng)博弈者理性 他們也認(rèn)識(shí)到其他博弈者理性時(shí)是合乎邏輯的結(jié)果 ,這些策略就會(huì)在這個(gè)子博弈中。
進(jìn)行這個(gè)過(guò)程的術(shù)語(yǔ)稱(chēng)作嚴(yán)格劣策略重復(fù)剔除(Iterated elimination)
三, 基于囚徒問(wèn)題的博弈策略2
納什均衡(Nash Equibrium)
解釋:雙方都處于最佳應(yīng)對(duì)策略。
如圖,(5,5)是一個(gè)納什平衡
注意:不是所以的博弈都存在納什平衡;有的博弈存在多個(gè)納什平衡。
而如下圖所示,在這個(gè)效用矩陣中,沒(méi)有納什平衡
而在,如下圖所示的效用矩陣中,則有多個(gè)納什平衡
另外,用Iterated elimination反復(fù)消除強(qiáng)占優(yōu)策略時(shí),不會(huì)消除納什平衡;但反復(fù)消除弱占優(yōu)策略時(shí),有可能刪除納什平衡。
四,混合策略的納什平衡
混合策略可以看成一種隨機(jī)選擇,例如,如果你重復(fù)囚徒問(wèn)題,并且每次都用相同的方法去玩,那么結(jié)果就會(huì)變得可預(yù)測(cè)。
混合策略的每一個(gè)小單位就是一個(gè)符合彩票。而二,三節(jié)中的策略單位成為簡(jiǎn)單彩票。
對(duì)于符合彩票的期望效用來(lái)說(shuō),它有三個(gè)公理:單調(diào)性,連續(xù)性,獨(dú)立性。
對(duì)于任意一個(gè)博弈,必定存在一個(gè)混合策略的納什平衡
案例和解法詳見(jiàn)博客鏈接
要看,是重點(diǎn)!
(以下為拓展內(nèi)容)
五,Stackelberg平衡
如果改變囚徒問(wèn)題的假設(shè)1:囚徒們同時(shí)做出決定。
變成囚徒們作出決定時(shí)存在先后順序。
在這種情況下的納什平衡稱(chēng)為Stackelberg平衡
六,協(xié)同問(wèn)題
存在多個(gè)納什平衡的情況下,如何選擇的問(wèn)題稱(chēng)為協(xié)同問(wèn)題。
協(xié)同問(wèn)題的解決方法一般是人為的制定規(guī)則:比如制定通訊機(jī)制或者社會(huì)規(guī)則等等
七,特殊博弈
特殊博弈分為合作博弈和競(jìng)爭(zhēng)博弈
合作博弈(cooperation Game)追求所以玩家收益均等
競(jìng)爭(zhēng)博弈(competitive Game)要求玩家收益之和固定,例如經(jīng)典的零和博弈
八,馬爾科夫博弈
增加了狀態(tài)集合和轉(zhuǎn)移函數(shù),即相對(duì)于之前的博弈,增加了環(huán)境因素,玩家的決策要考慮實(shí)時(shí)的環(huán)境因素,而且對(duì)于對(duì)手和自己的效用函數(shù)可能也是未知的。在這種情況下,優(yōu)化博弈的算法稱(chēng)為強(qiáng)化學(xué)習(xí)
九,強(qiáng)化學(xué)習(xí)
解釋:在一定環(huán)境下,做收益最大化的學(xué)習(xí)。
學(xué)習(xí)目標(biāo)一般有以下幾個(gè):
1.追求納什平衡
2.最求
總結(jié)
提示:這里對(duì)文章進(jìn)行總結(jié):
例如:以上就是今天要講的內(nèi)容,本文僅僅簡(jiǎn)單介紹了pandas的使用,而pandas提供了大量能使我們快速便捷地處理數(shù)據(jù)的函數(shù)和方法。
總結(jié)
- 上一篇: Taro+react开发(88):大写p
- 下一篇: 写单元测试的好处(转)