日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

博弈论笔记

發(fā)布時(shí)間:2023/12/9 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 博弈论笔记 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

  • 前言
  • 一、博弈模型
  • 囚徒問(wèn)題
  • 二,基于囚徒問(wèn)題的博弈策略1
  • 三, 基于囚徒問(wèn)題的博弈策略2
  • 四,混合策略的納什平衡
  • 五,Stackelberg平衡
  • 六,協(xié)同問(wèn)題
  • 七,特殊博弈
  • 八,馬爾科夫博弈
  • 九,強(qiáng)化學(xué)習(xí)
  • 總結(jié)


前言

博弈模型,占優(yōu)策略,純納什平衡,混合策略的納什平衡,斯塔克伯格平衡,協(xié)同問(wèn)題,特殊博弈,馬爾科夫博弈,強(qiáng)化學(xué)習(xí)

一、博弈模型

一個(gè)博弈模型包括:
玩家集合
策略收益
效用函數(shù)

效用函數(shù)的目的是用來(lái)更準(zhǔn)確的描述模型,將玩家的偏好關(guān)系(大于小于等于)用具體是實(shí)數(shù)體現(xiàn),方便之后的運(yùn)算。(感興趣的同學(xué)了解一下圣彼得堡悖論)效用函數(shù)如何更準(zhǔn)確的描述模型呢?例如,同樣是100萬(wàn),在窮人眼里很重要,即期望效用很高;但是在億萬(wàn)富翁眼中,可能就沒(méi)那么重要。這時(shí)候,就需要用一個(gè)凹函數(shù)來(lái)描述效用函數(shù)。

下圖是效用函數(shù)與偏好關(guān)系的聯(lián)系:

囚徒問(wèn)題


玩家集合{P1,P2}
策略集合{C(合作:cooperation),B(背叛:btray)}
收益函數(shù):{0y,1y,2y,3y}(被判處0年,1年,3年,6年)

基于囚徒問(wèn)題的基本假設(shè):
1.囚徒們同時(shí)決策
2.囚徒們已知策略集合和收益函數(shù)
3.囚徒們都是,理性的

注意:這里對(duì)理性的解釋:理性是指玩家要符合完備性和傳遞性
completeness:任何兩個(gè)選擇擺在玩家面前,玩家總能作出一個(gè)選擇。
transitivety:如果玩家喜歡a比喜歡b多,喜歡b比喜歡c多;那么玩家一點(diǎn)喜歡a比喜歡c多。

二,基于囚徒問(wèn)題的博弈策略1

占優(yōu)策略(Dominate Strategy)
(分為強(qiáng)占優(yōu)策略和弱占優(yōu)策略)

解釋:不管對(duì)方的決策是什么,我的決策都是最好的。
例如囚徒們的效用矩陣如下:

不管P1選擇C還是B,P2選B都是占優(yōu)策略。因?yàn)楫?dāng)P1=C,對(duì)于P2的效用10>8;當(dāng)P1=B,對(duì)于P2的效用5>0。
同理,P1選B也是占優(yōu)策略。
所以,如果雙方都是理性的,那么最后結(jié)果會(huì)收斂到(5,5)

而且!對(duì)于P1,因?yàn)樾в?0>8,5>0。所以稱(chēng)B是強(qiáng)占優(yōu)策略。
同理,對(duì)于P2的效用:10>8,5>0。所以B也是P2的強(qiáng)占優(yōu)策略。

其他情況則為弱占優(yōu)策略

對(duì)于嚴(yán)格劣策略(強(qiáng)占優(yōu)策略):代表其他所有策略總是比這個(gè)策略更優(yōu)秀,它永遠(yuǎn)不會(huì)成為最優(yōu)回應(yīng)best reply
在任何情況下總有別的策略更好,因此,我們把嚴(yán)格劣策略從博弈中剔除
重復(fù)迭代的意思是:我們剔除它們,得到了一個(gè)更簡(jiǎn)單的博弈,然后再做同樣的事情。現(xiàn)在可能又有了一些策略是嚴(yán)格劣勢(shì)的,在這個(gè)簡(jiǎn)化的博弈中博弈者永遠(yuǎn)不會(huì)采取它們,因此我們?cè)侔阉鼈兲蕹?#xff0c;循環(huán)反復(fù),最后給我們了一些預(yù)測(cè)。當(dāng)博弈者理性 他們也認(rèn)識(shí)到其他博弈者理性時(shí)是合乎邏輯的結(jié)果 ,這些策略就會(huì)在這個(gè)子博弈中。
進(jìn)行這個(gè)過(guò)程的術(shù)語(yǔ)稱(chēng)作嚴(yán)格劣策略重復(fù)剔除(Iterated elimination)

三, 基于囚徒問(wèn)題的博弈策略2

納什均衡(Nash Equibrium)
解釋:雙方都處于最佳應(yīng)對(duì)策略。
如圖,(5,5)是一個(gè)納什平衡

注意:不是所以的博弈都存在納什平衡;有的博弈存在多個(gè)納什平衡。

而如下圖所示,在這個(gè)效用矩陣中,沒(méi)有納什平衡

而在,如下圖所示的效用矩陣中,則有多個(gè)納什平衡

另外,用Iterated elimination反復(fù)消除強(qiáng)占優(yōu)策略時(shí),不會(huì)消除納什平衡;但反復(fù)消除弱占優(yōu)策略時(shí),有可能刪除納什平衡。

四,混合策略的納什平衡

混合策略可以看成一種隨機(jī)選擇,例如,如果你重復(fù)囚徒問(wèn)題,并且每次都用相同的方法去玩,那么結(jié)果就會(huì)變得可預(yù)測(cè)。
混合策略的每一個(gè)小單位就是一個(gè)符合彩票。而二,三節(jié)中的策略單位成為簡(jiǎn)單彩票
對(duì)于符合彩票的期望效用來(lái)說(shuō),它有三個(gè)公理:單調(diào)性,連續(xù)性,獨(dú)立性。

對(duì)于任意一個(gè)博弈,必定存在一個(gè)混合策略的納什平衡
案例和解法詳見(jiàn)博客鏈接
要看,是重點(diǎn)!

(以下為拓展內(nèi)容)

五,Stackelberg平衡

如果改變囚徒問(wèn)題的假設(shè)1:囚徒們同時(shí)做出決定。
變成囚徒們作出決定時(shí)存在先后順序。
在這種情況下的納什平衡稱(chēng)為Stackelberg平衡

六,協(xié)同問(wèn)題

存在多個(gè)納什平衡的情況下,如何選擇的問(wèn)題稱(chēng)為協(xié)同問(wèn)題。
協(xié)同問(wèn)題的解決方法一般是人為的制定規(guī)則:比如制定通訊機(jī)制或者社會(huì)規(guī)則等等

七,特殊博弈

特殊博弈分為合作博弈和競(jìng)爭(zhēng)博弈
合作博弈(cooperation Game)追求所以玩家收益均等
競(jìng)爭(zhēng)博弈(competitive Game)要求玩家收益之和固定,例如經(jīng)典的零和博弈

八,馬爾科夫博弈


增加了狀態(tài)集合和轉(zhuǎn)移函數(shù),即相對(duì)于之前的博弈,增加了環(huán)境因素,玩家的決策要考慮實(shí)時(shí)的環(huán)境因素,而且對(duì)于對(duì)手和自己的效用函數(shù)可能也是未知的。在這種情況下,優(yōu)化博弈的算法稱(chēng)為強(qiáng)化學(xué)習(xí)

九,強(qiáng)化學(xué)習(xí)

解釋:在一定環(huán)境下,做收益最大化的學(xué)習(xí)。
學(xué)習(xí)目標(biāo)一般有以下幾個(gè):
1.追求納什平衡
2.最求


總結(jié)

提示:這里對(duì)文章進(jìn)行總結(jié):
例如:以上就是今天要講的內(nèi)容,本文僅僅簡(jiǎn)單介紹了pandas的使用,而pandas提供了大量能使我們快速便捷地處理數(shù)據(jù)的函數(shù)和方法。

總結(jié)

以上是生活随笔為你收集整理的博弈论笔记的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。