日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

博弈论笔记:重复博弈

發(fā)布時(shí)間:2023/12/10 编程问答 74 豆豆
生活随笔 收集整理的這篇文章主要介紹了 博弈论笔记:重复博弈 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1 序貫博弈與重復(fù)博弈

1.1 序貫博弈(sequential game)

參與人在前一個(gè)決策點(diǎn)的選擇決定隨后的子博弈的結(jié)構(gòu)。因此, 從后一個(gè)決策點(diǎn)開始的子博弈不同于從前一個(gè)決策點(diǎn)開始的子博弈?;蛘?/span>說,同樣結(jié)構(gòu)的子博弈只出現(xiàn)一次。

1.2 重復(fù)博弈(repeated game)

同樣結(jié)構(gòu)的博弈重復(fù)多次,其中的每次博弈被稱為“階段博弈” (stage game)。(重復(fù)博弈中的每一個(gè)子博弈:階段博弈)

1.2.1 重復(fù)博弈的特點(diǎn)

->階段博弈之間沒有物理上的聯(lián)系(前一段博弈的結(jié)果不影響后一階段博弈的結(jié)構(gòu))

->每一個(gè)參與人都可以觀察到博弈過去的歷史

->每個(gè)參與者最后得到的報(bào)酬=各個(gè)階段博弈支付的貼現(xiàn)值之和

?

如果博弈不是一次的,而是重復(fù)進(jìn)行的,參與人過去行動(dòng)的歷史是可以觀察到的,參與人就可以將自己的選擇依賴于其他人之前的行動(dòng)。--->因而有了更多的戰(zhàn)略可以選擇,均衡結(jié)果可能與一次博弈大不相同。

重復(fù)博弈理論的最大貢獻(xiàn)是對(duì)人們之間的合作行為提供了理性解釋。在囚徒困境中,一次博弈的唯一均衡是不合作(即坦白)。但如果博弈無限重復(fù),合作就可能出現(xiàn)。

2 戰(zhàn)略空間

2.1?不依賴于過去行動(dòng)歷史的戰(zhàn)略

?

·永遠(yuǎn)背叛戰(zhàn)略:All-D——永遠(yuǎn)不合作

·永遠(yuǎn)合作戰(zhàn)略:All-C——永遠(yuǎn)合作

2.2?依賴于過去行動(dòng)歷史的戰(zhàn)略

?

2.2.1 針鋒相對(duì)戰(zhàn)略(tit-for-tat)

第一次采取合作,之后每一次的行動(dòng)都建立在對(duì)手前一次行動(dòng)的基礎(chǔ)上。

如果你今天不和我合作,我明天也不和你合作;如果你今天和我合作了,那我明天也和你合作。

?

2.2.2 觸發(fā)戰(zhàn)略/冷酷戰(zhàn)略(trigger strategies)

第一次采取合作

之后只要沒有不合作,就一直合作下去;一旦有一次不合作,之后就都不合作。

3 合作的假值和耐心

本節(jié)需要用到的囚徒困境模型

同時(shí)就像 博弈論筆記1:囚徒困境與納什均衡_劉文巾的博客-CSDN博客_博弈說的那樣,R>T>P>S; (S+R)<T+T

我們引入貼現(xiàn)因子β(明天的一塊錢=今天的β塊錢)【β越大——越耐心,越重視未來】

維持長(zhǎng)期合作的話,每個(gè)人的收益為, 從這里也能看出,β越大,也就是越耐心,長(zhǎng)期合作的收益越大,也就越會(huì)合作。

當(dāng)然,未來利益對(duì)人的重要程度還和很多因素有關(guān):

->年齡:“59歲現(xiàn)象”(60歲退休的人,在他59歲的時(shí)候,可能會(huì)選擇更加重視眼前利益的策略)

->家庭:有家庭的人更重視未來的收益

->宗教:因果輪回

4?無名氏定理

在一個(gè)無限期的重復(fù)博弈中,如果每個(gè)參與人對(duì)未來都足夠重視(β足夠大),那么任何程度的合作都可以作為一種精煉納什均衡來出現(xiàn)(任何程度——整個(gè)博弈中合作的概率)。

5 合作與懲罰

5.1 針鋒相對(duì)

如果雙方都堅(jiān)持針鋒相對(duì)戰(zhàn)略:

1)首次都選擇合作,之后也都合作,雙方的收益都是

?

2)如果對(duì)方針鋒相對(duì),一方總不合作

那么只有第一輪合作,第二輪開始都不合作。

?

雙方的收益為:

只合作一次的那一方:S+Pβ/(1-β)

一直不合作的那一方R+Pβ/(1-β)

?

什么時(shí)候會(huì)合作呢?

合作的收益大于不合作的收益?,即?

合作的好處越大(T越大)/不合作和好處越小(P越小)/單方不合作的收益越小(R越小)

——β的范圍越大,合作的可能性越大

5.2 行為的信息傳遞

假如我不合作兩次,才會(huì)被發(fā)現(xiàn)我的行為。此時(shí)的收益為:

此時(shí)的合作條件:

經(jīng)過化簡(jiǎn),得到:

通過這個(gè),我們可以得到結(jié)論:欺騙行為越晚被發(fā)現(xiàn)(越難被發(fā)現(xiàn)),欺騙發(fā)生的可能性就越大。合作就越困難。

5.3? 針鋒相對(duì)戰(zhàn)略是一種納什均衡,但不是一種精煉納什均衡

t+1時(shí)刻,A知道B會(huì)合作,所以自己就不會(huì)不合作,反而會(huì)合作

——所以針鋒相對(duì)就不是一個(gè)精煉納什均衡

6?多重關(guān)系對(duì)于合作的影響

多重交易關(guān)系會(huì)對(duì)人們博弈中的行為產(chǎn)生 重要影響,使得人們之間更容易達(dá)成合作。

建立更多關(guān)系以達(dá)成合作

多重交易問題產(chǎn)生的懲罰的不可信問題:由于懲罰方和被懲罰方有關(guān)系,所以懲罰不僅懲罰了被懲罰者,懲罰者本人也在一定程度上被懲罰了

假設(shè)兩人使用針鋒相對(duì)戰(zhàn)略,那么:

在交易關(guān)系1中,合作條件是?

在交易關(guān)系2中,合作條件是

如果這種交易在同樣的兩個(gè)人之間進(jìn)行,即這兩個(gè)人同時(shí)進(jìn)行這兩種交易,那么此時(shí)的交易關(guān)系矩陣變?yōu)?#xff1a;

?合作不合作
合作(3+5,3+5)=(8,8)(-1+0,4+9)=(-1,13)
不合作(4+9,-1+0)=(13,-1)(0+4,0+4)=(4,4)

?

此時(shí)的合作關(guān)系為

如果本來的β為0.6 那么如果兩個(gè)交易分開進(jìn)行的話,只會(huì)進(jìn)行交易1。如果交易1和交易2同時(shí)進(jìn)行,那么此時(shí)在這個(gè)β的條件下,交易和交易2 都可以進(jìn)行。

?

市場(chǎng)交易常常鑲嵌在復(fù)雜的社會(huì)關(guān)系中。這種關(guān)系可以提高交易的合作程度。這也是人們?cè)敢獍l(fā)展社會(huì)關(guān)系的原因。(家庭血緣關(guān)系、朋友關(guān)系、同學(xué)關(guān)系、老鄉(xiāng)關(guān)系。。。)

6.1 殺熟困境

?

? ? ? ?如果懲罰對(duì)懲罰者本身的損害太大,懲罰就是不可信的。 ? ? ? ?這與投鼠忌器是一個(gè)道理,你討厭老鼠,但是你沒有辦法,因?yàn)槟阈奶勰莻€(gè)盤子,那個(gè)器皿。投鼠忌器在企業(yè)內(nèi)部很多環(huán)節(jié)都會(huì)發(fā)生,導(dǎo)致懲罰不可信,所以對(duì)方就不會(huì)太注重信譽(yù)。家族成員有時(shí)候比非家族成員更不可信任,更不守規(guī)矩,就是這個(gè)道理。 ? ? ? ??朋友專門騙朋友,是“殺熟”。問題也與懲罰的不可信有關(guān)。

6.2 第三方實(shí)施懲罰

? ? ? ?前面假定了固定的一對(duì)參與人進(jìn)行重復(fù)博弈, 對(duì)不合作的懲罰是由“受害人”本人實(shí)施的, 稱為“second-party enforcement”,或者 “personal enforcement”。 ? ? ? ? 但更經(jīng)常的情況是參與人不固定的情況。此時(shí), 懲罰要由第三方實(shí)施(third-party enforcement)。

6.2.1 集體抵制

?

? ? ? 規(guī)則:?每個(gè)人都應(yīng)該誠(chéng)實(shí),都有責(zé)任懲罰騙過人的人;不參與懲罰的人應(yīng)該受 到懲罰。 ? ? ? 如:假定B在t期欺騙了A C在t+1期就不應(yīng)該與B合作。否則,Dt+2 期就不應(yīng)該與C合作;? ? ? ? ? ? ? ?如果Ct+1期與B合作,而Dt+2期又與C合作,Et+3期就不應(yīng)該與D合作,如此等等; 敵友規(guī)則:開始把所有的人當(dāng)朋友;t期的朋友關(guān)系繼續(xù)保持到t+1期,當(dāng)只當(dāng)他在t期不曾騙過任何人并不曾與你的敵人合作,t+1期才繼續(xù)是朋友。

總結(jié)

以上是生活随笔為你收集整理的博弈论笔记:重复博弈的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。