如何從博弈樹中劃分出各個子博弈?貝葉斯法則如何使用?

時間 2021-05-30 00:38:21

1樓:

先補充一點背景。

上圖摘自張維迎的《博弈論與資訊經濟學》(P 7)

在此圖中,我們可以看出博弈論大概分為四類,每種類別都有固定的納什均衡。

這道題中所問的「如何分辨子博弈」,是求解子博弈精煉納什均衡的基礎。而「貝葉斯法則」是求解精煉貝葉斯均衡的基礎。

一、完全資訊動態的子博弈精煉納什均衡

完全資訊動態一般用擴充套件式表述。

子博弈精煉納什均衡要求(1)它在原博弈上是納什均衡(2)它在每乙個子博弈上都是納什均衡。

所以,如何分辨乙個擴充套件式有幾個子博弈,關鍵在於看乙個擴充套件式表述的博弈中有幾個單節資訊集。同時,子博弈不能切割原博弈的資訊集。

通過下面幾個圖來解釋:

圖 1

在此博弈中,有三個參與者,分別是A、N(自然)、B。

共有七個決策點,A有乙個。N有兩個,B有四個。這七個決策點分割成七個資訊集,每個資訊集都只包括乙個決策點。(表示,所有參與者在參與時準確知道自己處於哪個決策結。)

子博弈由每個決策結及其後續結構成,所以在圖一中,共有七個子博弈。

(注意:任何博弈本身成為其自身的乙個子博弈。)

圖 2

圖2與圖1相同,也有三個參與者,A、N(自然)、B。

不同的是,B在選擇時並不知道N的選擇,也就是說B知道A選擇了開發或者不開發,但是不知道N選擇了大還是小。因為B不知道自己處在N選擇了大還是小的決策結上,用虛線表示。此時,B有兩個資訊集,但是每個資訊集有兩個決策點。

總結來說,在圖2中,A有乙個資訊集,只包含乙個決策結;N有兩個資訊集,各包含乙個決策結;B有兩個資訊集,各包含兩個決策結。所以,圖2共有三個單節資訊集,那麼也就可以判斷圖2有三個子博弈。

圖 3

在同樣三個參與者的圖中,圖3代表A決策時不知道N決策的結果;B知道自然的選擇,但是不知道A的選擇。在圖3中,根據「子博弈不能切割原博弈資訊集」的規則,圖3只有乙個子博弈就是原博弈本身。

圖3的博弈還可以用另外的方式來表達,可能更容易理解。

圖 4

圖4和圖3代表的完全是同乙個博弈。A決策時不知道N決策的結果;B知道自然的選擇,但是不知道A的選擇。在這個圖中,根據之前的「有幾個單節資訊集就有幾個子博弈」的判斷方法,可以知道只有乙個子博弈就是原博弈本身。

或者說,只有乙個子博弈,即N有乙個資訊集只包含乙個決策點。

二、貝葉斯法則的應用

如何理解貝葉斯法則在博弈論中的應用,我覺得張維迎《博弈論與資訊經濟學》中舉的乙個例子很好,我先把這部分截圖放在下面。

摘自張維迎《博弈論與資訊經濟學》 P182~P183

用貝葉斯法則求解精煉貝葉斯納什均衡最典型的例子應該是用在訊號博弈上。

可以參考羅雲峰主編的《博弈論教程》,第十三章1、2小節。我覺得這本書相對講的清楚些。

這是之前上課用到的乙個例子,把它放在下面。

首先,在這個博弈中,有三個參與者,分別是N、S、R。Sender有兩種型別,他是哪種型別是其私有資訊。也就是說,receiver不知道sender是哪種型別,知道的是1/2的可能性是t1,另外1/2的可能性是t2,同時Receiver可以根據Sender的行動來修正自己的判斷。

Sender有兩個行動的可能性,L或者R;Receiver有兩個行動的可能性,u或者d。

1.假設無論是Sender t1,還是Sender t2,都會選擇L。

這一假設條件可以表示為 p(L︱ t1)= p(L︱t2)= 1。又知Sender 1/2的可能性是t1,另外1/2的可能性是t2,即p( t1)= p(t2)= 0.5 那麼這個時候,根據貝葉斯法則。

他選擇U,受益是1/2*3+1/2*4=3.5。如果他選擇d,收益是1/2*0+1/2*1=0.

5。所以,在Sender選L的情況下,Receiver會選u。

在Receiver選U的情況下,Sender t1 選L的收益是1,Sender t2選L的收益是2.

以上結論,建立在「無論是Sender t1,還是Sender t2,都會選擇L,這一假設上,那麼要使上述結論成立,首先這個假設要成立。如何讓這個假設成立呢?就需要保證,如果Receiver選擇u,那麼無論對哪種型別的Sender來說,選L一定比選R好。

因此,當Sender選擇R時,Receiver做出的反應使得任何型別Sender得到的收益,都小於其選擇L得到的收益。當Sender選擇R時,只有Receiver選擇d 才能保證任何型別的Sender收益都小於其選擇L的收益。

所以,必須保證當Sender選擇R時,Receiver一定選擇d。要想保證Receiver一定選擇d呢,則一定要使Sender選R時,Receiver選u的預期收益小於其選d的預期收益。即q+(1-q)*0 < 0*q + 2(1- q), 即q < 2/3.

所以,這種情況下的精煉貝葉斯均衡是無論是Sender t1,還是Sender t2,都會選擇L;當Sender選擇L時,Receiver 選u,當Sender選R時,Receiver選d;p=0.5;q ≤2/3

2. 假設無論是Sender t1,還是Sender t2,都會選擇R

這一假設條件可以表示為 p(R︱ t1)= p(R︱t2)= 1。又知Sender 1/2的可能性是 t1,另外1/2的可能性是t2,即p( t1)= p(t2)= 0.5 那麼這個時候,根據貝葉斯法則。

他選擇u,受益是1/2*1+1/2*0=0.5。如果他選擇d,收益是1/2*0+1/2*2=1。

所以,在sender選L的情況下,Receiver會選d。

在Receiver選d 的情況下,sender t1 選R的收益是0,sender t2選R的收益是1。

如果Sender選擇L,那麼Receiver選擇u總是優於其選擇d,所以Receiver一定會選擇u。而當Receiver選擇u是,sender t1 收益是1,sender t2的收益是2。

所以這種情況,Sender選L總是優於其選R。

與假設相悖,不存在均衡。

3.如果是Sender t1,會選擇L:如果是Sender t2,會選擇R。

在這種情況下,根據貝葉斯法則,p=1 q=0(如果Receiver發現Sender的選擇是L,就會知道是Sender t1,如果發現選擇的是R就能判斷出是R)

在Sender t1選擇L時,Receiver會選擇u,Sender獲得收益1;當Sender t2選擇R時,Receiver會選擇d,Sender獲得收益1。

需要檢驗,當確定Receiver選擇u、d時, Sender做出與假設不一樣的選擇是否會得到更高的收益。

當Receiver會選擇u,Sender t1選擇R收益少於選L(可以);當Receiver會選擇d,Sender t2選擇L收益大於R。因此,Sender t2會選擇L,與假設相悖。

所以,這種均衡不存在

4.如果是Sender t1,會選擇R:如果是Sender t2,會選擇L。

在這種情況下,根據貝葉斯法則,p=0 q=1

在Sender t1選擇R時,Receiver會選擇u,Sender獲得收益2;當Sender t2選擇L時,Receiver會選擇u,Sender獲得收益2。

再次檢驗,當確定Receiver選擇(u︱L,u︱R)時, 兩型別Sender做出與假設不一樣的選擇是否會得到更高的收益。

當Receiver會選擇u,Sender t1選擇L收益少於選R(可以);當Receiver會選擇u,Sender t2選擇R收益小於L(可以)。

所以,這種均衡存在:

{(R︱t1, L︱t2),(u︱L, u︱R),p=0, q=1}

如何從博弈論的角度理解 黑暗森林法則 ?

Dawn Lee 我們來建構乙個簡單的博弈論模型簡單分析一下,假定文明 A B 在宇宙相遇,我們無法第一時間了解對方的具體情況 進化水平,科技水平等 我們需要採取的策略為攻擊 不攻擊 如果一方發動攻擊而另一方不發動攻擊,則不發動攻擊的一方由於被毀滅得0分,而發動攻擊的一方因為消除了潛在威脅且有可能佔...

如何從博弈論或者概率角度為 換牌喝酒 遊戲設計最佳策略?

鍵山怜奈 挖個墳,這個遊戲規則相當複雜啊 顯然 別人是否換牌 屬於決策函式的乙個引數,所以遊戲每走過乙個人局面的總可能性就要翻一倍,這問題都不知道該怎麼解了。如果把題目條件化簡一下,遊戲中的某個玩家並沒有能力知道其他人是否換牌,也就是把局面總可能性強制限制在十四種情況之間,那麼還是可以解的。即便如此...

如何從自種菩提樹到製成菩提子?

石渠寶笈 菩提本身是一種比較簡單的概念廣義來說只要是種子都可以作為菩提子的原料。廣東地區可以種植星月金剛作為原料吧這是用的最多的兩種門類 王閒人 自己種的話,我沒有嘗試過,但是我把自己在當地採摘過的一些菩提子和對應的樹貼圖下,供您參考吧。首先 座標泉州。其次 因為我個人很少拍照,所以資料方面會大量的...