博弈論教學(xué)講解課件

上傳人：h*** IP屬地：貴州上傳時(shí)間：2023-07-28 格式：PPT 頁數(shù)：160 大?。?.71MB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩155頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

博弈論

theTheoryofGames

1主要內(nèi)容一、博弈現(xiàn)象及基本概念二、完全信息靜態(tài)博弈三、完全信息動態(tài)博弈四、不完全信息靜態(tài)博弈五、不完全信息動態(tài)博弈六、不完全信息專題2主要參考書姚國慶：《博弈論》，高等教育出版社，2007.羅云峰：《博弈論教程》，清華大學(xué)出版社、北京交通大學(xué)出版社。張維迎：《博弈論與信息經(jīng)濟(jì)學(xué)》，上海三聯(lián)書店，上海人民出版社，2004。施錫銓，《博弈論》，上海財(cái)經(jīng)大學(xué)出版社，2002。3張守一，《現(xiàn)代經(jīng)濟(jì)對策論》，高等教育出版社，1998。錢頌迪，《運(yùn)籌學(xué)》，清華大學(xué)出版社，1996。[美]艾里克.拉斯繆森：《博弈與信息》，北京大學(xué)出版社，2003。[美]弗登博格：《博弈論》，中國人民大學(xué)出版社，2002。4第一講博弈現(xiàn)象與基本概念1．博弈現(xiàn)象2.博弈概念3.博弈描述4.博弈練習(xí)5.關(guān)于博弈論51．博弈現(xiàn)象

田忌賽馬：正確的策略可以反敗為勝。囚徒困境：認(rèn)罪不認(rèn)罪認(rèn)罪（-5,-5）（0,-10）不認(rèn)罪（-10,0）（-1,-1）甲乙理性的人是自私自利的；理性選擇不是全局最優(yōu)。6經(jīng)濟(jì)合作：

合作欺騙合作（2,2）（-2,4）欺騙（4,-2）（0,0）甲乙誠信的價(jià)值；一報(bào)還一報(bào)策略；人類生存環(huán)境啟示。7長街上的超市（海灘占位模型）

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊01/23/411/4A’O’資源浪費(fèi)還是理性的必然？其它相似情形：旅行社的熱門路線；黃金時(shí)間的電視節(jié)目；總統(tǒng)競選。8狩獵與投資狩獵：

兩個(gè)獵人圍住一頭鹿，各卡住兩個(gè)關(guān)口中的一個(gè)，齊心協(xié)力即可成功獲得并平分獵物。此時(shí)有一群兔子跑過，任何一人去抓兔子必可成功，但鹿會跑掉。他們會堅(jiān)持獵鹿還是去抓兔子？9共同投資：

雙方共同投資一個(gè)大項(xiàng)目，可期望有較大收益。此時(shí)如某方抽出資金去進(jìn)行小項(xiàng)目投資，必可成功獲小利，但會使共同項(xiàng)目陷入困境，使對方蒙受損失。

投資者會如何選擇？10旅行者困境

兩個(gè)旅行者花瓶被摔壞，向航空公司索賠。航空公司知道價(jià)格約為八九十元，但不知道確切價(jià)格。于是請兩位旅客在100元以內(nèi)自己寫下花瓶的價(jià)格。

如兩人寫的一樣，就認(rèn)為他們講真話，并按所寫數(shù)額賠償；如果兩人寫的不一樣，就認(rèn)定低者講真話，并照此價(jià)格賠償。同時(shí)，對講真話的旅客獎勵2元錢，對講假話的旅客罰款2元。

理性原則下，他們會寫多少價(jià)格呢？11什么是博弈：

個(gè)人或團(tuán)體間在依存和對抗、合作和沖突中的決策問題。

博弈論研究博弈過程中的理性行為。2.博弈概念12如何理解理性行為：

自身利益最大；

持續(xù)地有意圖的行動；不對動機(jī)妄加猜測；不考慮道德問題；只研究合法問題；盈利函數(shù)有多重標(biāo)準(zhǔn)。13博弈三要素

局中人(參與人）players：決策主體；自然人、團(tuán)體或“虛擬局中人”；有可供選擇的策略和明確定義的利益函數(shù)；分為兩人和多人14策略（戰(zhàn)略）strategies：采取行動的規(guī)則；可以是一次行動也可以是一個(gè)行動序列；可以是純策略也可以是混合策略；分為有限和無限。支付（盈利函數(shù)）payoff：對應(yīng)于某策略組合的局中人利益或損失；確定的或是期望的；分為零和和非零和。15擴(kuò)展術(shù)語：信息：信息集；

完全信息（complete）；完美信息（perfect）。共同知識：雙方可能獲取的相同信息；彼此都能算清楚。博弈結(jié)果：均衡策略組合；均衡行動組合。均衡：所有局中人最優(yōu)策略的組合。16博弈的策略型（標(biāo)準(zhǔn)型、正則型）表述：指定n個(gè)局中人，以及他們各自的純策略空間和這些局中人各自的支付（盈利）函數(shù)我們將該博弈表示為：3.博弈描述17例：寡頭競爭問題策略型表述多適用于靜態(tài)博弈。另一種表述方式是擴(kuò)展式表述，兩種表述形式幾乎是完全等價(jià)的，但是擴(kuò)展式表述更適合于討論動態(tài)博弈。18房地產(chǎn)開發(fā)實(shí)例

雙方：A，B策略：開發(fā)投資1億元；不開發(fā)，投資0售價(jià)：高需：1.4億元(兩棟)，1.8億元(一棟)；低需：0.7億元(兩棟)，1.1億元(一棟)。19結(jié)果：高需，(開，不開)，(0.8，0)高需，(不開，開)，(0，0.8)高需，(開，開)，(0.4，0.4)高需，(不開，不開)，(0，0)低需，(開，不開)，(0.1，0)低需，(不開，開)，(0，0.1)低需，(開，開)，(-0.3，-0.3)低需，(不開，不開)，(0，0)20策略型表述：（兩人有限博弈；矩陣形式）開發(fā)不開發(fā)開發(fā)（0.4,0.4）（0.8,0）不開發(fā)（0,0.8）（0,0）AB高需求情況低需求情況？21房地產(chǎn)博弈分析

假設(shè)：同時(shí)決策；市場需求雙方已知若市場需求大，雙方開發(fā)，各得0.4萬元。若市場需求小，依賴于對方行動。若市場不確定，依賴對市場的判斷及對方行動。例：P＝0.5,最壞情況期望盈利500萬元，開發(fā)。

P＝0.3,對方開發(fā)概率＜31/40時(shí)，開發(fā)；否則，不開發(fā)。（？）22關(guān)鍵問題：

對自然狀態(tài)的概率估計(jì)；

不同時(shí)間決策（決策順序）；

對對方先驗(yàn)信息的估計(jì)（即估計(jì)對方對信息的掌握程度）。現(xiàn)實(shí)困難：對市場了解程度不同；對對方了解程度不同；如何向?qū)Ψ桨凳咀约旱男袆印?34.博弈練習(xí)游戲一：心靈感應(yīng)兩個(gè)人一組，獨(dú)立寫出1至10之間的任意5個(gè)數(shù)。如果不重復(fù)則得獎；否則受罰。

獲勝的秘訣是什么？24游戲二：海盜逃生

有5個(gè)海盜，即將被處死刑。法官愿意給他們一個(gè)機(jī)會。從100個(gè)黃豆中隨意抓取，最多可以全抓，最少可以不抓，可以和別人抓的一樣多。抓得最多的和最少的要被處死。

如果你第一個(gè)抓，你抓幾個(gè)？25游戲三：100元怎么分？

你看見兩個(gè)小孩在玩耍，出于好奇，你給他們100元，讓他們猜拳。猜贏者決定怎么分這100元，而輸者如果同意贏者的分配比例，那么他們將各有所得，如果不同意，那么這100元，你將收回。

請你替贏者考慮一下，怎樣分配，贏者既得到最大利益，又能讓輸者也同意呢？26游戲四：一元錢競拍

給一元錢鈔票開出你的價(jià)錢，使自己獲益最大或損失最少；每次叫價(jià)以5分錢為單位；開價(jià)最高者得到這一元錢；出價(jià)最高和次高者一并按所開的價(jià)錢支付。

斜坡上的均衡；

“騎虎難下”的博弈；

“協(xié)和謬誤”27游戲五：強(qiáng)盜分贓

有五個(gè)強(qiáng)盜搶得100枚金幣，在如何分贓問題上爭吵不休。于是他們決定：

（1）抽簽決定自己的號碼（1，2，3，4，5）；

（2）由1號提出分配方案，然后5人表決，如果方案超過半數(shù)同意就通過，否則他將被仍進(jìn)大海喂鯊魚；28

（3）1號死后，由2號提方案，4人表決，當(dāng)且僅當(dāng)超過半數(shù)同意方案通過，否則2號同樣被仍進(jìn)大；

（4）依次類推，直到找到一個(gè)每個(gè)人都接受的方案（當(dāng)然，如果只剩下5號，他當(dāng)然接受一個(gè)人獨(dú)吞的結(jié)果）。

如果你是第一個(gè)強(qiáng)盜，你該如何提出分配方案才能使自己的收益最大化呢？

295.關(guān)于博弈論博弈分類:合作、非合作：是否存在一個(gè)具有約束力的協(xié)議（bindingagreement）前者強(qiáng)調(diào)團(tuán)體理性（效率、公正、公平）后者強(qiáng)調(diào)個(gè)人理性（最優(yōu)決策，不保證效率）30完全信息與不完全信息：每一個(gè)局中人對自己及其它局中人是否有完全的了解；包括局中人特征、策略空間、盈利函數(shù)等知識。動態(tài)與靜態(tài)：行動的先后順序;是否同時(shí)（或不同時(shí)但對方不知）。31發(fā)展歷史：

1944

VonNeumann&Morgenstern“Thetheoryofgamesandeconomicbehavior”

1950

Nash&1953

Shapley“討價(jià)還價(jià)”模型

1950、1951

Nash非合作博弈

1950

TuckerPrisoners’dilemma

1953

Gillies&Shapley合作博弈

1965Selton動態(tài)分析；“精煉納什均衡”

1967、1968

Harsanyi

“不完全信息”

1994

Nash、Selton、Harsanyi

諾貝爾經(jīng)濟(jì)學(xué)獎32納什的傳奇人生

1928年出生于一個(gè)電子工程師家庭。17歲進(jìn)入今卡耐基梅隆大學(xué)，專攻數(shù)學(xué)。20歲時(shí)進(jìn)入普林斯頓大學(xué)攻讀博士學(xué)位。1949年，21歲的納什寫下論文《多人博弈的均衡點(diǎn)》。1950年以論文《非合作型博弈》獲得數(shù)學(xué)博士學(xué)位。3334

畢業(yè)后先后在蘭德研究所、普林斯頓大學(xué)、MIT工作。1957年他與MIT學(xué)生愛莉西婭結(jié)婚。

在而立之年患上了妄想型精神分裂癥，九十年代逐漸恢復(fù)了正常。1994年納什博士獲諾貝爾經(jīng)濟(jì)學(xué)獎。

2002年來北京參加

“國際數(shù)學(xué)家大會”

3536電影“美麗心靈”37

靜態(tài)

動態(tài)

完全信息

完全信息靜態(tài)博弈納什均衡納什（1950，1951）

完全信息動態(tài)博弈子博弈精煉納什均衡澤爾滕（1965）

不完全信息

不完全信息靜態(tài)博弈貝葉斯納什均衡海薩尼（1967－1968）

不完全信息動態(tài)博弈精煉貝葉斯納什均衡澤爾滕（1975）博弈論體系38第二講完全信息靜態(tài)博弈1.矩陣博弈2.累次嚴(yán)優(yōu)均衡3.納什均衡4.混合策略納什均衡5.納什均衡的存在性與多重性391.矩陣博弈什么是矩陣博弈：

兩人零和有限策略博弈；

可用矩陣形式表述。

矩陣元素為局中人A的贏得，亦即B的損失。

例：用矩陣形式表述田忌賽馬博弈（？）40有鞍點(diǎn)情形：存在最優(yōu)純策略例：表中數(shù)據(jù)為I的贏得

III

β1β2β3minα1－61－8－8α23242α39－1－10－10α4

－306－3max9262博弈哲學(xué)：從最壞處考慮，爭取最好結(jié)果41無鞍點(diǎn)情形：最優(yōu)混合策略

例：III

β1β2minα11155α2797max119?設(shè)最優(yōu)混合策略：42對局中人I：43∴I的最優(yōu)混合策略為

同理，II的最優(yōu)混合策略為G＝8同理可求局中人II的最優(yōu)混合策略（？）442.累次嚴(yán)優(yōu)均衡占優(yōu)策略均衡(嚴(yán)格)劣策略：無論對方如何選擇都更差。占優(yōu)策略：無論對方如何選擇存在唯一最優(yōu)。占優(yōu)策略均衡：所有局中人占優(yōu)策略的組合。特點(diǎn)：只要求每個(gè)人理性，并不要求知道其它人是不是理性。45例：裁軍問題

以巴

武裝裁軍武裝（－3000,－3000）（10000，－∞）裁軍（－∞

,10000）（0,0）例：囚徒困境中的（認(rèn)罪，認(rèn)罪）例：房地產(chǎn)投資市場大情況下（開發(fā)，開發(fā)）46重復(fù)剔除的占優(yōu)均衡

（iteratedelimination）

也稱為累次嚴(yán)優(yōu)均衡。通過重復(fù)剔除劣戰(zhàn)略剩下唯一的戰(zhàn)略組合。如果存在則稱為重復(fù)剔除占優(yōu)可解的。

（dominancesolvable）

特點(diǎn)：不僅要求每個(gè)人理性，還要求知道其它人理性。理性是共同知識。47例：智豬博弈按鈕喂食：一次供應(yīng)量為8，代價(jià)為2。大豬先到7:1;同時(shí)到5:3;小豬先到4:4

小豬大豬

按等按（3,1）（2,4）等（7,－1）（0,0）48分析：小豬有占優(yōu)策略，大豬沒有，所以不存在占優(yōu)均衡；在“理性”為共同知識的情況下，存在重復(fù)剔除的占優(yōu)均衡，即（大豬按，小豬等）。應(yīng)用：

此為“多勞不多得，少勞不少得”的奇怪情形，是一種有趣的社會現(xiàn)象。經(jīng)濟(jì)學(xué)中稱為“搭便車現(xiàn)象”49IIILMRU（4,3）（5,1）（6,2）M（2,1）（8,4）（3,6）D（3,0）（9,6）（2,8）無論局中人I怎樣決策，局中人II與其選取策略M還不如選取策略R。對于局中人II來說，M是個(gè)劣策略?？梢匀サ鬒I的“M”列。

例：50假定II不選M，對于I來說M和D是劣策略。III

LRU（4,3）（6,2）M（2,1）（3,6）D（3,0）（2,8）51故I選擇U。這時(shí)，II選擇L而不選R?？梢灶A(yù)測博弈的合理結(jié)局可能是（U，L）即（4，3）。IIILRU（4,3）（6,2）IIILU（4,3）52嚴(yán)優(yōu)均衡的局限

有時(shí)無法開始累次嚴(yán)優(yōu)的剔除；例：房地產(chǎn)投資中市場小的情況

反?，F(xiàn)象：盈利函數(shù)取極端值時(shí)；

如果雙方都存在嚴(yán)劣策略，從不同人開始的結(jié)果一致；與混合策略的優(yōu)劣比較。53

III

LRU（7,9）（－1000,8.5）D（6,5）（5,4.5）分析：

累次嚴(yán)優(yōu)過程產(chǎn)生了唯一解（U，L）。然而，不管局中人I如何行動，局中人II取R僅比取L在盈利上差0.5。I選策略U要冒極大的風(fēng)險(xiǎn)，策略D比U更加穩(wěn)健。

所以，局中人I不會選U，而是選擇D。穩(wěn)健性。例：543.納什均衡定義：

有n個(gè)局中人的策略式表述博弈G={S1,…,Sn;u1,…,un}，

策略組合s*=(s1*,…,si*,…,sn*)是一個(gè)納什均衡，如果對于每一個(gè)i，si*是給定其它局中人選擇s-i*=(s1*,…,si-1*,si+1*,…,sn*)

的情況下第i個(gè)局中人的最優(yōu)策略，即ui(si*,s-i*)ui(si,s-i*),siSi,i

55或者用另一種表述方式：si*是下述最大化問題的解：si*

argmaxui(s1*,…,si-1*,si,si+1*,…,sn*),i=1,2,…n。siSi結(jié)論：

最優(yōu)對任一參與者的任一策略成立；

是一種可以自動實(shí)施的協(xié)議(self-enforcing)56兩人有限博弈納什均衡的確定

例：用表上作業(yè)法尋找nash均衡BALCRU（0,4）（4,0）（5,3）M（4,0）（0,4）（5,3）D（3,5）（3,5）（6,6）57對納什均衡的理解“一致性”特征：局中人預(yù)測到均衡；局中人也預(yù)測到其它人預(yù)測到均衡；沒有局中人有興趣作不同的選擇。是局中人的一致性預(yù)測；但不一定最好。58與嚴(yán)優(yōu)均衡的關(guān)系：（1）每個(gè)占優(yōu)均衡、重復(fù)剔除的占優(yōu)均衡一定是納什均衡，反之則不然。（2）納什均衡一定是在重復(fù)剔除嚴(yán)劣策略過程中沒有剔除的策略組合，反之則不然。（3）納什均衡有強(qiáng)弱之分。強(qiáng)納什均衡＞；弱納什均衡≥。允許弱劣策略存在。59例：市場進(jìn)入博弈參與人：在位者；進(jìn)入者策略：在位者：默許、斗爭；

進(jìn)入者：進(jìn)入、不進(jìn)入。假定：進(jìn)入之前的壟斷利潤為300，進(jìn)入之后寡頭利潤為100，進(jìn)入成本為10。60

在位者進(jìn)入者

默許斗爭進(jìn)入（40,50）（－10,0）不進(jìn)入（0,300）（0,300）納什均衡分析：（進(jìn)入，默許）是強(qiáng)納什均衡，（不進(jìn)入，斗爭）是弱納什均衡。61重復(fù)剔除弱劣策略方法：“斗爭”是在位者的弱劣戰(zhàn)略被剔除，（進(jìn)入，默許）是唯一重復(fù)剔除的占優(yōu)均衡；納什均衡（不進(jìn)入，斗爭）將被剔除掉。說明（弱）納什均衡允許弱劣戰(zhàn)略存在。624.納什均衡應(yīng)用舉例（1）

消耗戰(zhàn)（鷹鴿博弈）

兩只老虎為爭奪獵物對峙。都堅(jiān)持則獵物腐爛；一方放棄則歸另一方；都放棄則都得不到獵物。獵物價(jià)值f，僵持成本為c。

（對稱博弈與對稱均衡）63（2）性別戰(zhàn)（協(xié)調(diào)博弈）

一對情侶周末安排，女方喜歡音樂會，男方喜歡足球賽。情侶陪伴看喜歡的為最好，陪情侶看自己不喜歡的為次之，各自看自己喜歡的又次之，各自看不喜歡的最糟糕。64（3）協(xié)同作業(yè)1兩人合作，報(bào)酬相同為v。兩人同時(shí)用力，代價(jià)為cl；只有一人用力，代價(jià)為ch。cl<V<ch65（4）協(xié)同作業(yè)2兩人合作，給定一人的努力水平，另一人的收益隨自己努力水平先增后減。收益函數(shù)：

ui(ai)=ai(c+aj-ai),c>0,ai>=0（圖？）最優(yōu)反應(yīng)函數(shù)：ai*(aj)=(c+aj)/2聯(lián)立求Nash均衡得：a1=a2=c66（5）Cournot寡頭競爭模型

Cournot，1838，完全信息靜態(tài)博弈。

參與人：企業(yè)1和企業(yè)2；企業(yè)策略：選擇產(chǎn)量；支付：利潤，是兩個(gè)企業(yè)產(chǎn)量的函數(shù)。

67第i個(gè)企業(yè)的產(chǎn)量：成本函數(shù)：價(jià)格函數(shù)：第i個(gè)企業(yè)的利潤函數(shù)：68對每個(gè)企業(yè)的利潤函數(shù)求導(dǎo)并令其等于零：分別定義了兩個(gè)反應(yīng)函數(shù)：結(jié)論：每個(gè)企業(yè)的最優(yōu)戰(zhàn)略（產(chǎn)量）是另一個(gè)企業(yè)產(chǎn)量的函數(shù)。69兩個(gè)反應(yīng)函數(shù)的交叉點(diǎn)就是納什均衡：

70考慮上述模型的簡單情況：設(shè)，價(jià)格函數(shù)取線性形式：最優(yōu)化的一階條件分別為：71反應(yīng)函數(shù)為：解兩個(gè)反應(yīng)函數(shù)，得納什均衡為：每個(gè)企業(yè)的納什均衡利潤分別為：72與壟斷情況作比較：壟斷企業(yè)的問題：壟斷企業(yè)的最優(yōu)產(chǎn)量：壟斷利潤：73結(jié)論：（1）寡頭競爭的總產(chǎn)量大于壟斷產(chǎn)量的原因，在于每個(gè)企業(yè)在選擇自己的最優(yōu)產(chǎn)量時(shí)，只考慮對本企業(yè)利潤的影響，而忽視對另一個(gè)企業(yè)的外部負(fù)效應(yīng)。（2）易證明，雙方串謀成立卡特爾是不穩(wěn)定的，雙方都有欺騙的動機(jī)。（？）74（6）自學(xué)伯川德模型多黨競選；事故賠償法；公共地悲??；爭議仲裁；

合作性談判；報(bào)案；專家診斷；755.混合策略納什均衡例：社會福利博弈（父母與懶惰兒子）參與人：政府；一個(gè)流浪漢政府策略：救濟(jì)、不救濟(jì)；

流浪漢策略：找工作、流浪76支付矩陣：

流浪漢政府找工作游蕩救濟(jì)（3，2）（－1，3）不救濟(jì)（－1，1）（0，0）77假定：政府的混合策略

流浪漢的混合策略則政府的期望效用函數(shù)為：

78對上述效用函數(shù)求微分，得到政府最優(yōu)化的一階條件為：

即，流浪漢以0.2的概率選擇尋找工作，0.8的概率選擇流浪。所以，如果，政府將選擇不救濟(jì)；如果，政府將選擇救濟(jì)；只有當(dāng)時(shí)，政府才會選擇混合策略（）或任何純策略。79同理，求解流浪漢的最優(yōu)化問題，即可找出政府的均衡混合戰(zhàn)略。易知（？）納什均衡要求，每個(gè)參與人的混合策略是給定對方的混合策略下的最優(yōu)選擇。因此，在社會福利博弈中，是唯一的納什均衡。80例：監(jiān)督博弈參與人：稅收機(jī)關(guān)；納稅人稅收機(jī)關(guān)策略：檢查、不檢查；

納稅人策略：逃稅、不逃稅

81支付矩陣：a是應(yīng)納稅款，C是檢查成本，F(xiàn)是罰款;C<a+F。

納稅人稅收機(jī)關(guān)逃稅不逃稅檢查（a-C+F,-a-F）（a-C,-a）不檢查（0,0）（a,-a）82用θ代表稅收機(jī)關(guān)檢查的概率，γ代表納稅人逃稅的概率。給定γ，稅收機(jī)關(guān)檢查（θ=1）和不檢查（θ=0）的期望收益分別為：

練習(xí)：本例與前例解法互換（？）83令，得：，即最優(yōu)的逃稅概率。

同理得。因此混合策略納什均衡是：84討論：應(yīng)納稅款越多逃稅概率越??；與逃稅技術(shù)及檢查成本有關(guān)；賄賂的積極性；提高逃稅懲罰可降低逃稅積極性，減少檢查必要性。練習(xí)：解析法求前面圖解法例子的最優(yōu)混合策略(？)856.納什均衡的存在性與多重性納什均衡的存在性定理（納什1950）

每一個(gè)有限博弈至少存在一個(gè)納什均衡（純的或混合的）。各均衡間的關(guān)系（下圖）8687納什均衡的多重性：導(dǎo)致局中人一致預(yù)測困難；例：分蛋糕利用其它信息達(dá)到聚點(diǎn)均衡；例：性別戰(zhàn)；賭徒分錢廉價(jià)磋商cheaptalk；協(xié)調(diào)博弈coordinationgame；局中人學(xué)習(xí)，重復(fù)博弈中“平均”表現(xiàn)。88

III

LRU（9,9）（0,0）D（0,0）（1,1）

III

LRU（9,9）（0,8）D（8,0）（7,7）89第三講完全信息動態(tài)博弈

1.博弈的擴(kuò)展型表述2.擴(kuò)展型博弈的納什均衡3.子博弈精煉納什均衡(完美均衡）4.寡頭競爭模型5.工會與雇主間的博弈6.討價(jià)還價(jià)模型7.重復(fù)博弈901.博弈的擴(kuò)展型表述extensiveformrepresentation要素：

局中人：誰參加

行動順序：什么時(shí)候行動

行動空間：有什么選擇

信息集：知道些什么

支付函數(shù)：能得到什么

自然選擇概率：外生事件如何91博弈樹：n人有限博弈的擴(kuò)展型表述可用博弈樹表示。

例：房地產(chǎn)開發(fā)92博弈樹一般構(gòu)造：

結(jié)－決策結(jié)、終點(diǎn)結(jié)；

枝－局中人的行動選擇。

信息集－決策時(shí)面臨的可能信息狀態(tài)；

由單個(gè)或多個(gè)決策結(jié)組成的集合；用虛線連接同一信息集的結(jié)。

注：應(yīng)用信息集概念，可將博弈樹用來表示靜態(tài)博弈（囚徒困境？）93949596信息類型完美perfect：每個(gè)信息集都是單結(jié)的。確定certain：自然不在任何一個(gè)參與人行動之后行動。對稱symmetric：沒有人在行動時(shí)或終點(diǎn)結(jié)處擁有與其它人不同的信息。完全complete：自然不首先行動或它的最初行動被所有人觀察到。博弈論

97例：撲克牌游戲下注前行為規(guī)則。（1）所有牌洗成面朝上；(完美，確定）（2）所有牌洗成面朝下且不能看自己的牌；

(不完全，對稱，確定)（3）所有牌洗成面朝下且參與人只能看自己的牌；(不完全，不對稱，確定)（4）所有牌洗成面朝上，但每個(gè)參與人隨后都可以用手護(hù)住并悄悄丟掉一張牌；

(完全，不對稱，確定)

博弈論

98（5）所有牌洗成面朝上，然后參與人下注，然后每個(gè)人再得到一張面朝上的牌。

(完美，不確定)（6）所有牌洗成面朝下，然后參與人抓起自己的牌但不看牌，然后把牌舉過頭頂讓其它人看清他的牌。

(不完全，不對稱，確定)博弈論

99完美信息博弈特征：

沒有同時(shí)行動；所有后行動者確切知道前行動者的行動；所有人觀測到自然的行動。博弈的完美回憶要求perfectrecall

所有人都不忘記以前知道的事情；所有人都不會忘記自己的選擇。

例：撲克游戲忘記前面所出牌的情形1002.擴(kuò)展型博弈的納什均衡

純策略納什均衡

例：市場小情況下的房地產(chǎn)開發(fā)101A\B開，開開，不開不開，開不開，不開開(-3,-3)(-3,-3)(1,0)(1,0)不開(0,1)(0,0)(0,1)(0,0)囚徒困境動態(tài)情況下的策略型？102分析：A的純策略：開發(fā)、不開發(fā)；2個(gè)B的純策略：共4個(gè)所有局中人的一個(gè)純策略組合決定了博弈樹的一個(gè)路徑。（開發(fā)，｛不開發(fā)，開發(fā)｝）：

A－開發(fā)－B－不開發(fā)－（1,0）（不開發(fā)，｛開發(fā)，開發(fā)｝）：

A－不開發(fā)－B－開發(fā)－（0,1）103存在三個(gè)純策略納什均衡：

（開發(fā)，｛不開發(fā)，開發(fā)｝）

（開發(fā)，｛不開發(fā)，不開發(fā)｝）

（不開發(fā)，｛開發(fā)，開發(fā)｝）定理：一個(gè)有限完美信息博弈有一個(gè)純策略納什均衡。104混合策略納什均衡**：行為策略：信息集上行動集合的概率分布

例：105參與人2純策略：

｛L,L｝,｛L,R｝,｛R,L｝,｛R,R｝行為策略：

b2=｛（1/2,1/2）,（1/2,1/2）｝（在信息集每一個(gè)結(jié)點(diǎn)，局中人2以1/2的概率選擇一種行動）混合策略：σ2＝（σ21，σ22，σ23，σ24）106在信息集h：選擇L－｛L,L｝,｛L,R｝選擇R－｛R,L｝,｛R,R｝在信息集h″：選擇L－｛L,L｝,｛R,L｝選擇R－｛L,R｝,｛R，R｝所以有107解之得：σ2＝（1/4，1/4，1/4，1/4）σ2＝（1/2，0，0，1/2）σ2＝（0，1/2，1/2，0）結(jié)論：一個(gè)行為策略可能對應(yīng)多個(gè)混合策略；但一個(gè)混合策略只對應(yīng)一個(gè)行為策略?？勺C明：在完美信息博弈中，兩者是等價(jià)的。1083.子博弈精煉納什均衡(完美均衡）基本思想：

靜態(tài)中假設(shè)其它人策略是給定的動態(tài)中前行動者要考慮對后行動者的影響區(qū)分納什均衡的合理性

精煉refining

不可置信威脅109萊茵哈德·澤爾騰ReinhardSelten

1930年出生于德國1961年獲得法蘭克福大學(xué)數(shù)學(xué)博士學(xué)位1984年后任教于波恩大學(xué)子博弈精煉納什均衡創(chuàng)立者1994年因在“非合作博弈理論中開創(chuàng)性的均衡分析”獲諾貝爾經(jīng)濟(jì)學(xué)獎110例：(U,R)與（D，L）的區(qū)別？1\2

LRU（2,2）（2,2）D（3,1）（0,0）111例：房地產(chǎn)開發(fā)，唯一合理均衡：A：開發(fā)，B：｛不開發(fā)，開發(fā)｝112子博弈：從一個(gè)單結(jié)信息集開始；信息集和支付向量都直接繼承自原博弈；

（不可分割原博弈的信息集）任何博弈本身稱為自身的一個(gè)子博弈。113前例：包括原博弈，共有三個(gè)子博弈。114無法再分割，子博弈只有本身一個(gè)。115在第2局中人處不可分割（會切割原來的信息集），故此圖只有兩個(gè)子博弈。116子博弈精煉納什均衡

擴(kuò)展型博弈的策略組合s*=(s1*,...,si*,...,sn*)是一個(gè)子博弈精煉納什均衡，如果：

(1)它是原博弈的納什均衡；

(2)它在每一個(gè)子博弈上給出納什均衡。117說明：

每一個(gè)子博弈（包括原博弈）都構(gòu)成一個(gè)納什均衡；

如果有唯一子博弈，則等同于納什均衡；

如果存在其它子博弈，則有些納什均衡將不是。前例：兩個(gè)子博弈；（D，L）是精煉均衡，（U，R）不是。前例：房地產(chǎn)投資118與納什均衡的本質(zhì)區(qū)別：

納什均衡只要求均衡策略在均衡路徑（歷史）上的決策結(jié)上是最優(yōu)的；

子博弈精煉納什均衡要求在非均衡路徑的決策結(jié)上也是最優(yōu)的。

1194.逆向歸納法

基本思想

重復(fù)剔除劣策略方法的推廣。在均衡路徑，每一個(gè)局中人在每一個(gè)信息集上的選擇都是占優(yōu)選擇。適用于有限完美信息博弈不適用于無限博弈和不完美信息博弈。120例：（｛U，U’｝，L）121逆向歸納法的缺陷

在階段多時(shí)失去可靠性。例如：傳口令游戲

對意外事件的預(yù)測。Rosenthal19811

A5D1D2D3D4D5(1,0)

(0,1)

(3,0)

(2,4)

(6,3)(5,5)122分析：

逆向歸納法Di為最優(yōu)選擇；

如果1非理性地選擇A1，則2如何選擇？大家均非理性會有雙贏結(jié)果，是否應(yīng)該冒險(xiǎn)？1235.承諾行動

commitment通過減少自己的選擇機(jī)會使自己受益。完全承諾與不完全承諾。例：破釜沉舟例：房地產(chǎn)案例

若B與某客戶已簽合同，如不能履約賠償3500萬，則B的｛開發(fā)，開發(fā)｝成為可置信的威脅。子博弈精煉納什均衡為（不開發(fā)，｛開發(fā)，開發(fā)｝）

124例：要脅訴訟:原告P，被告D(1)原告決定是否對被告提出控告，成本為c>0;(2)如果決定控告，原告要求被告支付s>0私了;(3)被告決定是否接受原告的要求;(4)如果被告拒絕，原告決定放棄或是向法庭起訴，原告的起訴成本為p，被告的辯護(hù)成本為d;(5)如果案子到了法庭，原告以概率贏得x單位的支付.125提出s126分析：原告指控條件：x-p<0，即x<p原告選擇：{不指控，要求，放棄}被告選擇：{拒絕}均衡：原告不指控127原告承諾行動：指控前支付律師費(fèi)，則x－c－p＞－c－p。最后選擇：起訴。私了賠償：私了賠償區(qū)域?yàn)閟∈[x，x+d]。若討價(jià)還價(jià)能力相同，則賠償為s=x+d/2。128原告指控條件：原告總成本為c+p，指控條件為x+d/2＞c+p。被告越大，d越大，被指控可能性就越大。

被告承諾行動：指控前支付律師費(fèi)y。被告節(jié)省成本x+d/2－y，律師費(fèi)y＜x+d/2“積淀成本”：局中人為承諾行動支付的成本。1296.應(yīng)用實(shí)例（1）Stackelberg產(chǎn)量競爭模型

Stackelberg，1934,完美信息動態(tài)博弈。

Leader：q1≥0，

follower：觀測到q1，選擇q2≥0

130給定q1，企業(yè)2的問題是：

最優(yōu)化：企業(yè)1預(yù)測到S2(q1)，企業(yè)1的問題是：

解：均衡：；均衡結(jié)果：131比較分析：總產(chǎn)量：各企業(yè)產(chǎn)量及利潤：132結(jié)論：先動優(yōu)勢—

擁有信息優(yōu)勢使人處于劣勢（可以證明：價(jià)格競爭有后動優(yōu)勢）原因：q1先生產(chǎn)積淀成本若q1只是宣布，未真正實(shí)現(xiàn)，則不構(gòu)成威脅，即是cournot模型。133（2）工會與雇主間的博弈*

列昂惕夫模型Leontief1946博弈的順序：

工會首先選擇工資w；企業(yè)觀測到w后選擇就業(yè)水平L。（工會決定工資，企業(yè)決定就業(yè)水平。）

因此，這是個(gè)完美信息動態(tài)博弈。134

設(shè)工會的效用函數(shù)為：U（w，L）,

w－工資水平，L－就業(yè)水平，

Uw＞0，UL＞0

設(shè)企業(yè)的利潤函數(shù)為：

假定R（L）是嚴(yán)格遞增的上凸函數(shù)，即R’＞0，R”＜0

135首先求解給定w的情況下，企業(yè)的就業(yè)需求。企業(yè)問題：最優(yōu)化的一階條件是：即邊際收益等于邊際成本。

∵邊際收益是遞減的，∴上述一階條件意味著企業(yè)對勞動的需求是工資的遞減函數(shù)（w↑，L↓）。136工會預(yù)測到上述結(jié)果，工會在第一階段的問題是：最優(yōu)化的一階條件是：其中，是工會的邊際替代率；是企業(yè)勞動需求曲線的斜率。137合同曲線工會的無差異曲線企業(yè)的等利潤曲線138均衡：工會選擇工資水平使得自己的無差異曲線與企業(yè)的勞動需求曲線相切。子博弈精煉納什均衡結(jié)果是非帕累托最優(yōu)。帕累托最優(yōu)合同曲線：即企業(yè)等利潤曲線的斜率等于工會無差異曲線的斜率（相切）。139模型改進(jìn)：納什討價(jià)還價(jià)模型假定工會和企業(yè)之間就工資和就業(yè)水平同時(shí)進(jìn)行磋商，如果雙方不能達(dá)成協(xié)議，工會的效用水平和企業(yè)的利潤水平都為零；如果雙方達(dá)成協(xié)議，工會的效用水平為U（w，L），企業(yè)的利潤為π（w，L)。納什討價(jià)還價(jià)問題：

140最優(yōu)解的一階條件是：

整理得：

顯然，這個(gè)解是一個(gè)帕累托最優(yōu)合同。141(3)討價(jià)還價(jià)模型

不存在耐心問題

例：兩人為買賣一物談判一個(gè)價(jià)格。買者B最高出價(jià)300元，賣者S不接受低于200元的開價(jià)。不存在耐心問題：輪次少，時(shí)間短，不存在時(shí)間價(jià)值。142B143特點(diǎn)：“后動優(yōu)勢”；

“幾乎吃掉整個(gè)蛋糕”另：若由B開價(jià)，只進(jìn)行一次，則（200＋ε）元成交。決定因素：誰最后開價(jià)；開價(jià)輪次數(shù)。144不耐心的情形輪次開價(jià)者S,B均3%S6%,B3%S盈余B盈余S盈余B盈余100S1000100099B97394698S97.092.9194.185.8297B94.185.8288.5311.47例：100輪次。每輪要支付成本。145輪次開價(jià)者S,B均3%S6%,B3%S盈余B盈余S盈余B盈余............5B32.7867.224S34.8065.203B51.8048.2032.7167.292S53.2546.7534.7365.271B51.6548.3532.6567.35耐心相同：50－50；耐心之比：利益之比146

一般模型

Rubinstein-Stahl討價(jià)還價(jià)模型

定理：給定S、B雙方，B第一次開價(jià)，次數(shù)無限，貼現(xiàn)因子0＜δB＜1，0＜δS＜1，當(dāng)拒絕與接受無所謂，認(rèn)為接受，則存在唯一子博弈完美均衡。（貼現(xiàn)因子＝1－耐心成本因子）B首輪開價(jià)147注：若

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

博弈論教學(xué)講解課件

文檔簡介

溫馨提示

最新文檔

評論

博弈論教學(xué)講解課件

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔