研究生教學講稿博弈論與信息經(jīng)濟學3年9月0日ppt2市公開課獲獎?wù)n件省名師優(yōu)質(zhì)課賽課一等獎?wù)n件

上傳人：1*** IP屬地：江西上傳時間：2023-09-17 格式：PPT 頁數(shù)：329 大?。?.75MB 積分：29.9 舉報 版權(quán)申訴

研究生教學講稿博弈論與信息經(jīng)濟學3年9月0日ppt2市公開課獲獎?wù)n件省名師優(yōu)質(zhì)課賽課一等獎?wù)n件_第2頁

研究生教學講稿博弈論與信息經(jīng)濟學3年9月0日ppt2市公開課獲獎?wù)n件省名師優(yōu)質(zhì)課賽課一等獎?wù)n件_第3頁

研究生教學講稿博弈論與信息經(jīng)濟學3年9月0日ppt2市公開課獲獎?wù)n件省名師優(yōu)質(zhì)課賽課一等獎?wù)n件_第4頁

研究生教學講稿博弈論與信息經(jīng)濟學3年9月0日ppt2市公開課獲獎?wù)n件省名師優(yōu)質(zhì)課賽課一等獎?wù)n件_第5頁

已閱讀5頁，還剩324頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

博弈論1/3292智豬博弈

假設(shè)豬圈里有一大一小兩只豬，豬圈一頭有一個豬食槽，另一頭有一個控制豬食供給按鈕，按一下按鈕會有10個單位豬食進槽。若小豬去按，大豬先吃，大豬可吃到9個單位，小豬吃到1個單位；若大豬去按，小豬先吃，小豬可吃到4個單位，大豬吃到6個單位；若同時去按，大豬可吃到7個單位，小豬吃到3個單位。

2/3293小豬策略按等大豬策略按7，36，4等9，10，0策略均衡（按，等）在這種情況下，不論大豬采取何種策略，小豬最正確策略是等候，即在食槽邊等候大豬去按鈕，然后坐享其成。而因為小豬總是會選擇等候，大豬無奈之下只好去按鈕,這就是社會中搭便車現(xiàn)象。3/3294智豬博弈現(xiàn)象（搭便車現(xiàn)象）在日常生活中也是司空見慣。愛清潔人經(jīng)常清掃公共樓道，其它人搭便車；山村中出外跑運輸、做生意人掏錢修路，其它村民走修好路；等等。4/3295甲前進后退前進(-2，-2)(1，-1)

后退(-1，1)(-1，-1)乙斗雞博弈兩只雞面對面爭斗，繼續(xù)斗下去，兩敗俱傷，一方退卻便意味著認輸。在這么博弈中，要想取勝，就要在氣勢上壓倒對方，最少要顯示出破釜沉舟、背水一戰(zhàn)決心來，以迫使對方退卻。但到最終關(guān)鍵時刻，必有一方要退下來，除非真正抱定魚死網(wǎng)破決心。

該種博弈中，堅定不可與退卻往往是一個可選擇策略利用。如在企業(yè)經(jīng)營方面，在市場容量有限條件下，一家企業(yè)投資了某一項目，另一家企業(yè)便會放棄該項目。

5/3296第一章、博弈論基本概念與發(fā)展歷史1博弈論定義博

弈下棋商家與商家，商家與消費者，上級和下級，討價還價本義：對弈經(jīng)濟學中含義：全部互動情形6/3297博弈：一些個人、團體或其它組織，依據(jù)所掌握信息，在一定規(guī)則約束下，同時或先后，一次或?qū)掖螐母髯栽试S選擇行為或戰(zhàn)略進行選擇并加以實施，并從中各自取得對應(yīng)結(jié)果或收益過程。博弈論：研究決議主體行為及其相互決議和均衡問題學科。博弈是一個極為普通現(xiàn)象。在經(jīng)濟學中，博弈論是研究經(jīng)濟主體決議相互影響。7/3298●博弈六大要素規(guī)則：要求博弈各方行動次序、方式、以及最終結(jié)果等。局中人（Player,選手，玩家）:博弈參加人戰(zhàn)略：一整套行動方案，要求了各種情況下行動。人不犯我，我不犯人；人若犯我，我必犯人。行動：局中人行為信息：在行動時所掌握信息。酬勞（payoffs,支付）：博弈結(jié)束時，各方得到收益。8/3299一個例子兩個OPEC組員國：沙特與科威特每個國家都有兩種行動：增產(chǎn)或保持產(chǎn)量參加人（局中人）行動結(jié)果和酬勞增產(chǎn)保持增產(chǎn)保持科威特(6,6)(7,4)(4,7)(5,5)兩國怎樣決議呢？結(jié)果：雙方都增產(chǎn)……9/32910合作博弈與非合作博弈之間區(qū)分主要在于人們行為相互作用時，當事人能達成—個含有約束力協(xié)議。假如有，就是合作博弈；反之．則是非合作博弈。比如兩個寡頭企業(yè)，假如它們之間達成一個協(xié)議，聯(lián)合最大化壟斷利潤．并按這個協(xié)議生產(chǎn)，就是合作博弈。協(xié)議沒有約束力，兩個寡頭企業(yè)各自優(yōu)化其最優(yōu)產(chǎn)量（或價格），則成為非合作博弈。用非合作博弈研究問題較多、近幾年合作博弈研究展現(xiàn)上升態(tài)勢。1）非合作博弈和合作博弈。２博弈分類10/32911２）雙人博弈和多人博弈3）零和博弈、常和博弈與變和博弈零和博弈：是指在博弈中，一方得益就是另一方損失，全部博弈方得益總和為零。（賭博）常和博弈：是指全部博弈方得益總和為非零常數(shù)。（分蛋糕，體育比賽等）變和博弈：也稱非常和博弈,它意味著不一樣策略組合或結(jié)果下各博弈方得益之和普通是不相同。11/329124）靜態(tài)博弈和動態(tài)博弈靜態(tài)博弈：是指全部博弈方同時或可看作同時選擇策略、采取行動博弈。動態(tài)博弈：是指博弈方選擇、行動有先有后，而且后選擇、后行動博弈方在自己進行選擇、行動之前能夠看到在他之前選擇、行動博弈方選擇、行動博弈。12/32913６）完全信息博弈和不完全信息博弈完全信息博弈：是指每一參加者都擁有全部其它參與者特征、策略集及得益函數(shù)等方面準確信息博弈。不完全信息博弈：是指參加者只了解上述信息中一部分博弈。13/32914將博弈信息特征和行為時間特征結(jié)合起來，能夠把博弈細分為下面四種類型非合作博弈：行動次序信息靜態(tài)

動態(tài)

完全信息不完全信息完全信息博弈，納什均衡納什（1950，1951）完全信息動態(tài)博弈，子博弈精練納什均衡澤爾騰（1965)不完全信息靜態(tài)博弈，貝葉斯納什均衡海薩尼（1967-1968）不完全信息動態(tài)博弈；精練貝葉斯納什均衡海薩尼（1975)14/32915萌芽階段1944年以前產(chǎn)生階段1944年-1959年發(fā)展階段1960年-1979年繁榮階段1980年以后古諾(Cournot，1838,法國經(jīng)濟學家）模型（同時決議產(chǎn)量博弈）斯坦克爾伯格（1934,Stackelberg,德國經(jīng)濟學家)（不一樣時決議產(chǎn)量博弈）馮·諾依曼和摩根斯特恩合著《博弈論與經(jīng)濟行為》（1944年）納什均衡(完全信息靜態(tài))（1950，1951）精練納什均衡(完全信息動態(tài))（澤爾騰，1965）貝葉斯納什均衡（不完全信息靜態(tài),海薩尼，1967）與貝葉斯精練納什均衡(不完全信息動態(tài),海薩尼，1975）納什，澤爾騰和海薩尼共同取得諾貝爾經(jīng)濟學獎（1994）維克里和莫里斯獲諾貝爾經(jīng)濟學獎（1996）博弈模型解概念和分析方法，理論基礎(chǔ)，主要合作博弈，非合作零和博弈論文“N人博弈中均衡”點(50年)，“非合作博弈”(51年)，提出了非合作博弈均衡解，并證實了均衡解存在納什均衡基本思想：在解集中全部博弈者策略都是對其它博弈者所用策賂最正確對策1965年論文《一個含有需求慣性寡頭博弈模型》，德國波恩大學教授，數(shù)學家、經(jīng)濟學家

美國加州大學教授，經(jīng)濟學家

不對稱信息下激勵理論３、博弈論產(chǎn)生與發(fā)展1994年到先后13位博弈論和信息經(jīng)濟學教授取得了諾貝爾經(jīng)濟學獎15/329164博弈論在經(jīng)濟學中主要地位1）博弈論在經(jīng)濟學中應(yīng)用越來越廣泛.博弈論許多結(jié)果也是借助于經(jīng)濟學例子來發(fā)展,相比其它領(lǐng)域來說,在經(jīng)濟領(lǐng)域應(yīng)用最為成功,已經(jīng)形成了一套完整經(jīng)濟博弈理論,而且發(fā)揮了巨大經(jīng)濟效益。2）經(jīng)濟學和博弈論研究模式是一樣，這就是強調(diào)個人理性．也就是在給定約束條件追求效用最大化。在這一點上，博弈論與經(jīng)濟學是完全一樣,使得博弈論分析方法在經(jīng)濟分析中發(fā)揮著主要作用。3）當代經(jīng)濟學越來越轉(zhuǎn)向人與人關(guān)系研究，尤其是人與人之間行為相互影響和作用，這與博弈論研究內(nèi)容相一致,所以,伴隨當代經(jīng)濟學發(fā)展,博弈論顯得愈加主要。16/329174）經(jīng)濟學越來越重視對信息研究，尤其是信息不對稱對個人選擇及制度安排影響。而博弈論不完全信息博弈模型正是處理這類問題有效工具。如信息經(jīng)濟學是博弈論應(yīng)用非對稱信息經(jīng)濟領(lǐng)域結(jié)果，所以信息經(jīng)濟學也被稱為非對稱信息博弈論。9.9，管科17/329185)博弈論和信息經(jīng)濟學教授取得了諾貝爾經(jīng)濟學獎,凸現(xiàn)了“博弈論”在主流經(jīng)濟學中日益主要地位。

1994年,諾貝爾經(jīng)濟學獎由納什、澤爾滕、海薩尼取得,1996年,諾貝爾經(jīng)濟學獎由莫里斯和維克瑞取得(不對稱信息下激勵理論),,阿克洛夫,斯賓塞和斯蒂格利茨取得諾貝爾經(jīng)濟學獎(不對稱信息下市場交易理論).年,諾貝爾經(jīng)濟學獎由羅伯特·奧曼和托馬斯·謝林取得(經(jīng)過博弈論分析沖突和合作)”.表彰他們“因經(jīng)過博弈論分析加強了我們對沖突和合作了解”所作出貢獻，20,諾貝爾經(jīng)濟學獎由赫維茨,馬斯金,邁爾森取得(機制理論設(shè)計).從1994年到20先后有13位博弈論和信息經(jīng)濟學教授取得了諾貝爾經(jīng)濟學獎，在諾貝爾經(jīng)濟學獎歷史上，在這么短時期把這一科學研究最高榮譽授予同一領(lǐng)域，研屬罕見.18/32919囚徒困境是兩個嫌疑犯作案后被警察抓住，分別被關(guān)在不一樣房間審訊。警察告訴他們：假如兩人都坦白，各判刑8年；假如兩個都抵賴，各判1年(因證據(jù)不足)；假如其中一人坦白另—人抵賴，坦白者放出去，不坦白判刑(這有點“坦白從寬、抗拒從嚴”味道)。博弈支付見表：（1）囚徒困境5.博弈論幾個經(jīng)典實例囚徒A囚徒B-1，-1-10，0

0，-10

-8，-8坦白抵賴坦白抵賴19/32920

在這個例子里，戰(zhàn)略組合有四個：(坦白，坦白），（坦白，抵賴），（抵賴，坦白），（抵賴，抵賴）。給定B坦白情況下，A最優(yōu)戰(zhàn)略是坦白；一樣，給定A坦白情況下，B最優(yōu)戰(zhàn)略也是坦白。各方最優(yōu)戰(zhàn)略組合是(坦白、坦白)。囚徒A囚徒B-1，-1-10，0

0，-10

-8，-8坦白抵賴坦白抵賴

從博弈中兩個利益主體出發(fā)選擇行為，結(jié)果是既沒有實現(xiàn)兩人總體最大利益，也沒有真正實現(xiàn)本身個體最大利益，這就是所謂囚徒困境。在經(jīng)濟領(lǐng)域中經(jīng)常出現(xiàn)類似問題，如寡頭競爭、公共產(chǎn)品供給等等。20/32921微觀經(jīng)濟學基本觀點之一．是在人人追求本身利益最大化基礎(chǔ)上,市場機制這只“看不見手”，能夠使得全社會資源到達最優(yōu)配置。囚徒困境對此提出了新挑戰(zhàn)。囚徒困境揭示了個體理性與集體理性之間矛盾(從個體利益出發(fā)行為最終也不一定能真正實現(xiàn)個體最大利益，甚至會得到相當差結(jié)果)。21/32922（2）寡頭競價模型在市場競爭中寡頭之間經(jīng)過競價，尤其是經(jīng)過降價爭奪市場是市場競爭中十分普通行為。但削價競爭并不一定是成功策略，因為一個寡頭降價往往會引發(fā)競爭對手報復(fù)，此時降價不但不能擴大銷量，而且還可能會降低利潤。下面我們用一個雙寡頭兩種價格價格競爭模型來說明上述現(xiàn)象。22/32923假設(shè)兩寡頭采取原來“高價”策略,各可取得80萬元利潤；假如某個寡頭單獨降價，它可取得130萬元利潤，另一寡頭因為市場份額縮小，利潤下降到20萬元；假如另一寡頭也跟著降價，則兩寡頭都只能得到60萬元利潤。設(shè)寡頭1和寡頭2是雙寡頭市場上兩個寡頭，它們共同用相同價格銷售相同產(chǎn)品?，F(xiàn)在假設(shè)這兩個寡頭不滿足它們各自市場份額和利潤，都想經(jīng)過降價來爭奪更大市場份額和更多利潤。23/32924博弈結(jié)果是雙方都會堅持采取“低價”策略，各自得到60萬元利潤。各得80萬元利潤結(jié)果是無法實現(xiàn)。所以這種雙寡頭競價博弈也是一個囚徒困境式博弈關(guān)系。24/32925（3）田忌賽馬“田忌賽馬“是我國古代一個非常有名故事，講是發(fā)生在齊威王與大將田忌之間賽馬故事。這個故事講其實是一個很經(jīng)典博弈問題。雙方各出上，中，下等三匹馬，一對一比賽三場，每一場輸方要賠一百匹馬給贏方。齊威王上、中、下三匹馬分別比田忌上、中、下三匹馬略勝一籌，假如同等次馬進行比賽，田忌輸三場，輸三百匹馬。25/329261)不能讓對方知道或猜中自己策略，從而造成自己輸?shù)舯荣?。這也意味著任何一方策略選擇不能一成不變．或者不能有規(guī)律性地變動，即必須以隨機方式選其策略，不然一旦對方捕捉到這種規(guī)律性變動，就能夠針對性地采取應(yīng)對策略。該博弈特點26/329272)

六種策略之間沒有優(yōu)劣之分,只能隨機選擇。對齊威王來說，每一個策略都可能有六種不一樣結(jié)果，究競最終得哪種結(jié)果，主要看對方策略與自己策略對應(yīng)情況，而不是己方策略本身。一樣，對田忌來講六種策略本身也無好壞之分。所以，兩博弈方在決議時對己方可選策略并無偏好，應(yīng)以相同概率選取。1-123427/32928囚徒A囚徒B-1，-1-10，0

0，-10

-8，-8坦白抵賴坦白抵賴

各方最優(yōu)戰(zhàn)略組合是(坦白、坦白)，這就是一個均衡。第二章完全信息靜態(tài)博弈完全信息靜態(tài)博弈:各博弈方同時決議，且博弈要素為共同知識.均衡：由最優(yōu)戰(zhàn)略組成戰(zhàn)略組合，即相對穩(wěn)定狀態(tài),

記為1.基本概念：28/32929

均衡結(jié)果：在均衡戰(zhàn)略下參加人博弈后行動組合。記為囚徒A囚徒B囚徒B坦白抵賴坦白抵賴抵賴坦白（-8，-8）（0，-10）（-10，0）（-1，-1）囚徒B最優(yōu)戰(zhàn)略是：{坦白坦白，抵賴坦白}囚徒A最優(yōu)戰(zhàn)略是：坦白均衡結(jié)果是：戰(zhàn)略均衡是：（坦白，{坦白坦白，抵賴坦白}）（坦白坦白）29/329302.完全信息靜態(tài)博弈分析基礎(chǔ)●參加人理性：參加人選擇最大化本身支付戰(zhàn)略?！裢耆畔㈧o態(tài)博弈分析基礎(chǔ)

(1)參加人是理性:與傳統(tǒng)決議理論是一致,但也有一些不一樣,

博弈論中全部決議變量相互依賴，而其它理論決議變量是單向依賴

(2)博弈結(jié)構(gòu),支付和參加人理性是共同知識囚徒A囚徒B-1，-1-10，0

0，-10

-8，-8坦白抵賴坦白抵賴如囚徒困境,一旦違反如上假定,均衡結(jié)果無法確定30/329312占優(yōu)均衡●占優(yōu)戰(zhàn)略：不論其它參加人選擇什么戰(zhàn)略，參加人某一戰(zhàn)略均是最優(yōu)，該戰(zhàn)略稱占優(yōu)戰(zhàn)略。數(shù)學表示以下：為占優(yōu)戰(zhàn)略，對應(yīng)稱為劣戰(zhàn)略?！裾純?yōu)戰(zhàn)略均衡：由占優(yōu)戰(zhàn)略組成戰(zhàn)略組合。囚徒困境中(坦白、坦白)就是占優(yōu)戰(zhàn)略均衡囚徒A囚徒B-1，-1-10，0

0，-10

-8，-8坦白抵賴坦白抵賴9.1131/32932說明:1)穩(wěn)定性非常高,2)無須知道其它人支付信息.3)占優(yōu)均衡不一定到達帕累托最優(yōu).現(xiàn)實中可能不存在這種均衡,是否存在其它均衡呢?囚徒A囚徒B-1，-1-10，0

0，-10

-8，-8坦白抵賴坦白抵賴32/32933●例3博弈支付以下：

1)不存在占優(yōu)均衡:上述博弈中K是參加人2占優(yōu)戰(zhàn)略，但參加人1不存在占優(yōu)戰(zhàn)略。2)但存在另外一個合理均衡(R，K）:能夠經(jīng)過重復(fù)剔除劣戰(zhàn)略得到。首先，對于參加人1，M是劣戰(zhàn)略，將其剔除。在剔除后戰(zhàn)略中，L是參加1劣戰(zhàn)略，又將其剔除，最終剩下戰(zhàn)略組合（R，K）是重復(fù)剔除劣戰(zhàn)略占優(yōu)均衡，R和K分別是參加人1和參加人2重復(fù)剔除劣戰(zhàn)略占優(yōu)戰(zhàn)略。參加人2（1，1）（8，0）（3，5）（4，2）參加人1

MLRK3重復(fù)剔除占優(yōu)均衡33/32934思緒：首先找到某個參加人劣戰(zhàn)略（假定存在），把這個劣戰(zhàn)略剔除掉，重新結(jié)構(gòu)一個不包含已剔除戰(zhàn)略新博弈，然后再剔除這個新博弈中某個參加人劣戰(zhàn)略，一直重復(fù)這個過程，直到只剩下唯一戰(zhàn)略組合為止。這個唯一剩下戰(zhàn)略組合就是這個博弈均衡解，稱為“重復(fù)剔除劣戰(zhàn)略占優(yōu)均衡”。說明:1)需知道其它人支付信息.2)假如重復(fù)剔除后戰(zhàn)略組合不唯一，該博弈就不是重復(fù)剔除占優(yōu)可解。34/32935例4支付以下（5，5）（6，7）（2，4）（1，2）（1，5）（4，1）（4，2）（5，3）（1，2）參加人1參加人2LKRHNU經(jīng)過重復(fù)剔除劣戰(zhàn)略后得到（R，N）。35/32936例4支付以下（5，5）（6，7）（2，4）（1，2）（1，5）（4，1）（4，4）（5，3）（1，2）參加人1參加人2LKRHNU經(jīng)過重復(fù)剔除劣戰(zhàn)略后剩下戰(zhàn)略組合不唯一,所以不存在重復(fù)剔除劣戰(zhàn)略占優(yōu)均衡.36/32937因為占優(yōu)均衡一定是重復(fù)剔除劣戰(zhàn)略后唯一組合,所以占優(yōu)均衡一定是重復(fù)剔除劣戰(zhàn)略占優(yōu)均衡,但反之不成立.囚徒A囚徒B-1，-1-10，0

0，-10

-8，-8坦白抵賴坦白抵賴占優(yōu)均衡與重復(fù)剔除劣戰(zhàn)略占優(yōu)均衡有何關(guān)系?所以重復(fù)剔除劣戰(zhàn)略占優(yōu)均衡比占優(yōu)均衡要求低,穩(wěn)定性更弱.但現(xiàn)實中重復(fù)剔除劣戰(zhàn)略占優(yōu)均衡也可能不存在,是否還可能有其它均衡呢?37/32938參加人2（4，1）（2，0）（3，5）（4，8）參加人1

MLRK上述博弈不存在占優(yōu)均衡和重復(fù)剔除劣戰(zhàn)略占優(yōu)均衡。下面考查戰(zhàn)略組合（L，K）。給定參加人2選擇K，L是參加人1最優(yōu)戰(zhàn)略。反個來，給定參加人1選擇L，K是參加人選擇最優(yōu)戰(zhàn)略。（L，K）是博弈雙方不愿意偏離戰(zhàn)略，即到達相對穩(wěn)定。該戰(zhàn)略組合也是一個合理均衡。這正是后面所要講納什均衡.38/329394納什均衡參加人2（4，1）（2，0）（3，5）（4，8）參加人1

MLRK（L，K）是納什均衡.納什均衡含義就是：給定你策略，我策略是最好策略；給定我策略，你策略也是你最好策略。即雙方在給定策略下不愿意調(diào)整自己策略。39/32940●納什均衡數(shù)學表述：任何參加人都不愿意偏離戰(zhàn)略組合，即對于一個戰(zhàn)略組合，若，稱戰(zhàn)略組合為納什均衡。納什均衡是各博弈方都不愿意單獨改變戰(zhàn)略組合。40/32941囚徒A囚徒B-1，-1-10，0

0，-10

-8，-8坦白抵賴坦白抵賴參加人1參加人2ABCD

1，50，2-5，0

2，5納什均衡有兩個41/32942因為重復(fù)剔除劣戰(zhàn)略均衡將劣戰(zhàn)略都刪除了,剩下戰(zhàn)略不可能是劣戰(zhàn)略(相對于對方剩下戰(zhàn)略),最終相對于剩下戰(zhàn)略都是最優(yōu),所以重復(fù)剔除劣戰(zhàn)略均衡一定是納什均衡.重復(fù)剔除劣戰(zhàn)略占優(yōu)均衡與納什均衡有何關(guān)系?42/32943●納什均衡求解方法：劃線法劃線法基本思緒是：（1）針對對方（參加人B）所給戰(zhàn)略，找出一個參加人A最優(yōu)戰(zhàn)略，并在對應(yīng)支付上劃一橫線，（2）針對參加人A所給戰(zhàn)略，找出一個參加人B最優(yōu)戰(zhàn)略，并在對應(yīng)支付上劃一橫線，（3）支付均劃有橫線所對應(yīng)戰(zhàn)略組合即為納什均衡。43/32944例市場進入博弈

有一個壟斷者巳在市場上（稱為在位者）；另—個企業(yè)想進入(稱為進入者）。進入者有兩個戰(zhàn)略能夠選擇：進入和不進入；在位者也有兩個可選擇戰(zhàn)略：默許（共享寡頭利潤）和斗爭（假設(shè)采取成本價銷售，即低價戰(zhàn)略）。假定進入之前壟斷利潤為300，進入之后寡頭利潤為100（各得50），進入成本為10。各種戰(zhàn)略組合支付矩陣以下：進入者在位者進入不進入默許斗爭

0，3000，300-10，0

40，50由劃線法可得兩個納什均衡：（進入，默許)和(不進入，斗爭）。44/329456納什均衡應(yīng)用例1古諾寡頭競爭模型（Cournot，1838)有兩個參加人，分別稱為企業(yè)1和企業(yè)2，每個企業(yè)戰(zhàn)略是選擇產(chǎn)量；支付是利潤，是兩個企業(yè)產(chǎn)量函數(shù)。45/32946找出納什均衡—個方法是對每個企業(yè)利潤函數(shù)求一階導數(shù)并令其等于零：46/32947上述兩個方程分別定義了兩個反應(yīng)函數(shù)：q2NE47/32948

為了得到更詳細結(jié)果，我們來考慮上述模型簡單情況。假設(shè)成本函數(shù)為需求函數(shù)為兩個一階條件方程為48/32949反應(yīng)函數(shù)為：聯(lián)立解兩個反應(yīng)函數(shù)得納什均衡為：49/32950每個企業(yè)納什均衡利潤為為了與壟斷情況作比較，讓我們計算一下壟斷企業(yè)最優(yōu)產(chǎn)量和均衡利潤。壟斷企業(yè)問題是：50/32951由一階條件得企業(yè)最優(yōu)產(chǎn)量為企業(yè)壟斷利潤為寡頭競爭總產(chǎn)量大于壟斷產(chǎn)量原因是在于每個企業(yè)在選擇自己最優(yōu)產(chǎn)量時，只考慮對本企業(yè)利潤影響，而忽略對另一個企業(yè)外部負效應(yīng)。這是經(jīng)典囚徒困境。51/32952①假定企業(yè)沒有生產(chǎn)能力限制。假如企業(yè)生產(chǎn)能力是有限，它就無法供給整個市場，價格也不會降到邊際成本水平上。②假定企業(yè)生產(chǎn)產(chǎn)品是完全替換品。假如企業(yè)生產(chǎn)產(chǎn)品不完全相同，就能夠防止直接價格競爭。例2豪泰林(Hotelling)價格競爭模型“伯川蘭德悖論”(BertrandParedox):對于完全能夠替換產(chǎn)品，即使只有兩個企業(yè)，在均衡情況下，價格等于邊際成本，企業(yè)利潤為零，與完全競爭市場均衡一樣。伯川德模型存在以下兩方面問題：52/32953空間上差異,即經(jīng)典豪泰林（hotelling）模型.產(chǎn)品在物質(zhì)性能上是相同，但在空間位置上有差異。因為不一樣位置上消費者要支付不一樣運輸成本。處理方法之一是引入產(chǎn)品差異性。53/32954

假定:1.有一個長度為1線性城市，消費者均勻地分布在[0，1]區(qū)間里，分布密度為1。2.有兩個商店分別位于城市兩端，商店在x=0，商店2住x＝l，出售物質(zhì)性能相同產(chǎn)品。3.每個商店提供單位產(chǎn)品成本為c，4.消費者購置商品旅行成本與離商店距離成百分比，單位距離成本為t。這么，住在x消費者假如在商店1采購，要花費tx旅行成本；假如在商店2采購，要花費t(1一x)。假定消費者含有單位需求，即消費1個單位。54/32955令為商店i價格，為需求函數(shù)。假如住在x消費者在兩個商店之間是無差異．那么，全部住在x左邊將都在商店1購置，而住在x右邊將在商店2購置，需求分別為滿足55/32956利潤函數(shù)為：56/32957解上述方程組得（納什么均衡）：各企業(yè)利潤為（均衡利潤）：57/32958結(jié)論1:因為兩個企業(yè)產(chǎn)品在空間位置存在差異，即旅行成本差異。旅行成本越大，產(chǎn)品差異就越大，均衡利潤也就越高。結(jié)論2:當旅行成本為零時，不一樣商店產(chǎn)品之間含有完全替換性，沒有任何一個商店能夠把價格定得高于成本，我們得到伯川德均衡結(jié)果。58/32959需求函數(shù)分別為：更為普通地，我們能夠討論商店位于任何位置情況。假定商店1位于a,商店2位于b納什均衡為：59/32960當即為第一個情況：當兩個商店位于同一個位置x。此時，伯川蘭德均衡是唯一均衡：60/32961例3公共地悲劇這個例子證實，假如一個資源沒有排他性全部權(quán)，就會造成對這種資源過分使用考慮一個有n個農(nóng)民村莊共同擁有一片草地，每個農(nóng)民都有在草地上放牧自由。每年春天，每個農(nóng)民要決定自己養(yǎng)多少只羊。代表n個農(nóng)民喂養(yǎng)總數(shù)量；１.用,代表第i個農(nóng)民喂養(yǎng)數(shù)量，61/329623.v代表每只羊平均價值。當v是G函數(shù)，假設(shè)：最大可存活數(shù)量:當假定：每只羊價值隨喂養(yǎng)總數(shù)量增加而下降62/32963在這個博弈里，每個農(nóng)民問題是選擇以最大化自己利潤。假定購置一只小羊羔價格為c,那么，利潤函數(shù)為：

最優(yōu)化一階條件是：63/32964因為所以

即第i個農(nóng)民最優(yōu)喂養(yǎng)量隨其它農(nóng)民喂養(yǎng)量增加遞減64/32965N個反應(yīng)函數(shù)交叉點就納什均衡：納什均衡總喂養(yǎng)量為將n個一階條件相加，得到：-9.2365/32966社會最優(yōu)目標是最大化以下定義社會總剩下價值：最優(yōu)化一階條件為：66/329比較社會最優(yōu)一階條件與個人最優(yōu)一階條件能夠看到：這就是公共地悲劇。67/32968不合作情形合作情形68/32969

例1每一參加人拿有一枚硬幣．并必須選擇是出正面向上還是反面向上。若兩枚硬幣是一致(即全部正面向上或全部反面向上)，則參加人2贏走參加人1硬幣；假如兩枚硬幣不一致(一正一反)，參加人1贏得參加人2硬幣。支付以下：在許多博弈模型中可能不存在納什均衡，以下例。參加人1參加人2-1，1

1，-1

1，-1-1，1正面反面正面反面7混合戰(zhàn)略納什均衡由劃線法可知，該博弈不存在納什均衡。所以采取純戰(zhàn)略（即確定性選擇戰(zhàn)略）不存在穩(wěn)定納什均衡解。69/32970

在足球比賽中罰點球時候，守門員和罰球者也組成一個博弈。假設(shè)罰球者罰球時能夠選擇三個方向；左中右；守門員也可選擇左中右三個方向撲球。罰球者守門員1，-1

1，-1

1，-1-1，1左中右左中右1，-1-1，1-1，11，-11，-170/32971上述博弈特征是：１）不存在純戰(zhàn)略納什均衡。

2）每個參加者都試圖想猜中對方戰(zhàn)略，同時讓自己戰(zhàn)略不被人猜測到，所以各方將隨機選擇其戰(zhàn)略（正面或反面）。即戰(zhàn)略選擇包含一定不確定性。71/32972參加人1參加人2-1，1

1，-1

1，-1-1，1正面反面正面反面沒有前面所說納什均衡，是否就沒有均衡狀態(tài)呢？上述例子能夠看出，雙方能夠采取1/2概率和1/2概率出正反面戰(zhàn)略，這種戰(zhàn)略組合組成一個均衡。72/32973下面引入混合戰(zhàn)略概念。純戰(zhàn)略是混合戰(zhàn)略特殊情況，如混合戰(zhàn)略（1，0）就是純戰(zhàn)略——正面。由猜硬幣博弈，每個參加人有兩個純戰(zhàn)略（正面與反面）。為了防止對方猜中自己戰(zhàn)略，參加人1采取以下隨機選擇戰(zhàn)略：以

概率和概率分別選擇正面和反面；參加人2以概率和

概率分別選擇正面和反面。純戰(zhàn)略概率分布就是各方混合戰(zhàn)略，參加人1與參加人2混合戰(zhàn)略分別為73/32974混合戰(zhàn)略定義：假設(shè)參加人i

有純戰(zhàn)略Si1，Si2，……SiK

，其對應(yīng)概率為，則稱為參加人i

混合戰(zhàn)略，記為混合戰(zhàn)略納什均衡：由最優(yōu)混合戰(zhàn)略組成混合戰(zhàn)略組合：

.即假如對于如上例，參加人1混合戰(zhàn)略為=（q，1-q）（分別以概率q和1-q選擇正面和反面），參加人2混合戰(zhàn)略為

=（r，1-r）（分別以概率r和1-r選擇正面和反面）。74/32975參加人1參加人2-1，1

1，-1

1，-1-1，1r正面1-r

反面q

正面1-q

反面E1（正面）=（-1）*r+1*（1-r）=1-2r參加人1選取反面期望效用為E1（反面）=1*r+（-1）*（1-r）=2r-1參加人1期望效用為E1=E1（正面）*q+E1（反面）*（1-q

）

=（1-2r）(2q-1)當給定參加人2選擇混合戰(zhàn)略

=（r，1-r）時，參加人1選取正面期望效用為75/32976類似地，得到參加人2期望效用為E2=（1-2q）(2r-1)參加人1和參加人2期望效用分別為E1=（1-2r）(2q-1)E2=（1-2q）(2r-1)

由一階條件：

76/32977由分析結(jié)果能夠看出，參加人選擇混合戰(zhàn)略均使對方選擇純戰(zhàn)略期望效用相等，促使各方均采取嚴格混合戰(zhàn)略。所以求解混合戰(zhàn)略納什均衡也能夠采取以下方法：求出參與人每個純戰(zhàn)略期望效用，令其相等即可得到混合戰(zhàn)略納什均衡。如上例，參加人1選取正面期望效用為E1（正面）=（-1）*r+1*（1-r）=1-2r參加人1選取反面期望效用為E1（反面）=1*r+（-1）*（1-r）=2r-1令純戰(zhàn)略期望效用相等：得類似地，令參加人2純戰(zhàn)略期望效用相等得：77/32978求混合戰(zhàn)略納什均衡方法：1）反應(yīng)函數(shù)聯(lián)立求解法：求出每1個參加人反應(yīng)函數(shù)，然后聯(lián)立求解2）期望效用等值法：令選擇純戰(zhàn)略期望效用相等，然后聯(lián)立求解78/32979

女足球芭蕾男足球2，10，0芭蕾0，01，2

下面我們用反應(yīng)函數(shù)聯(lián)立求解法求“性別之爭”納什均衡。設(shè)妻子混合戰(zhàn)略為(r，1—r)，丈夫混合戰(zhàn)略為(q，1—q).妻子選擇芭蕾收益：2-2q妻子選擇足球收益：q妻子反應(yīng)函數(shù)為：79/32980丈夫反應(yīng)函數(shù)為：女足球芭蕾男足球2，10，0芭蕾0，01，2丈夫選擇足球收益：2r丈夫選擇芭蕾收益：1-r80/32981妻子反應(yīng)函數(shù)為：丈夫反應(yīng)函數(shù)為：81/32982交點為兩個純戰(zhàn)略納什均衡：（足球，足球），（芭蕾，芭蕾）和一個混合戰(zhàn)略納什均衡：男以2/3概率選擇足球賽，1/3概率選擇芭蕾舞；女以1/3概率選擇足球賽，2/3概率選擇芭蕾舞。82/32983下面用期望效用等值法求求“性別之爭”納什均衡

女足球芭蕾男足球2，10，0芭蕾0，01，2設(shè)妻子混合戰(zhàn)略為(r，1-r)，丈夫混合戰(zhàn)略為(q，1-q).男選取正面期望效用為E1（正面）=2*r+0*（1-r）=2r男選取反面期望效用為E1（反面）=0*r+1*（1-r）=1-r令純戰(zhàn)略期望效用相等：類似得：混合戰(zhàn)略納什均衡：男以2/3概率選擇足球賽，1/3概率選擇芭蕾舞；女以1/3概率選擇足球賽，2/3概率選擇芭蕾舞。83/329841）反應(yīng)函數(shù)聯(lián)立求解法：優(yōu)點：能夠求出全部納什均衡，缺點：計算相對復(fù)雜一些2）期望效用等值法：優(yōu)點：只能求混合戰(zhàn)略納什均衡，缺點：計算相對簡單84/32985

例1監(jiān)督博弈，它概括了諸如稅收檢驗、質(zhì)量檢驗、懲治犯罪、雇主監(jiān)督雇員等這么一些情況。這里，我們以稅收檢驗為例。這個博弈參加人包含稅收機關(guān)和納稅人。稅收機關(guān)純戰(zhàn)略選擇是檢驗或不檢驗，納稅人純戰(zhàn)略選擇是逃稅或不逃稅。對應(yīng)支付以下：稅收機關(guān)納稅人檢驗不檢驗不逃稅逃稅其中，a是應(yīng)納稅款，C是檢驗成本，F(xiàn)是罰款。假定是C＜a十F。在這個假設(shè)下，不存在純戰(zhàn)略納什均衡。讓我們來求解混合戰(zhàn)略納什均衡。85/32986給定，納稅人選擇逃稅和和不逃稅期望收益分別為：令得給定，稅收機關(guān)選擇檢驗和不檢驗期望收益分別為：令得檢驗不檢驗不逃稅逃稅86/32987

所以，混合戰(zhàn)略納什均衡是：，稅收機關(guān)以概率檢驗，納稅人以概率選擇逃稅。1)對逃稅處罰越重，應(yīng)納稅款越多，納稅人逃稅概率就越?。粰z驗成本越高，納稅人逃稅概率就越大。2)應(yīng)納稅款越多，納稅人逃稅概率反而越小.這是因為，應(yīng)納稅款越多，稅收機關(guān)檢驗概率越高，逃稅被抓住可能性越大，因而納稅人反而不敢逃稅了。這一點或許能夠解釋為何逃稅現(xiàn)象在小企業(yè)中比在大企業(yè)中更為普遍，在低收入階層比在高收入階層更普遍。87/32988設(shè)有一個企業(yè)和一個環(huán)境保護部門。企業(yè)生產(chǎn)經(jīng)營收入為R，污染治理前利潤率為，污染治理費用率為，治理費用為R。環(huán)境保護部門進行一次檢測成本為C。假如在檢測中發(fā)覺企業(yè)超標排污，則對企業(yè)實施罰款、一次罰款金額為K。同時，環(huán)境保護部門必須對已經(jīng)受到嚴重污染環(huán)境投資治理，設(shè)進行一次環(huán)境治理所需費用為A，若不進行治理，污染物造成損失為B(此處將B也看成環(huán)境保護部門日后治理費用)．且B>A。在這里，生產(chǎn)廠家追求利潤最大化，環(huán)境保護部門在確保污染指數(shù)不超標前提下力爭費用最小，二者形成博弈關(guān)系。例2“環(huán)境保護”博弈治理不治理不檢測檢測88/32989治理不治理不檢測檢測博弈純戰(zhàn)略納什均衡為：

(不治理，不檢測)博弈純戰(zhàn)略納什均衡為：

(不治理，檢測)不存在純戰(zhàn)略納什均衡89/32990治理不治理不檢測檢測從上式能夠看出，企業(yè)進行污染治理概率與環(huán)境保護部門對企業(yè)不治理處罰力度、環(huán)境保護部門檢測成本相關(guān)。處罰力度越大、檢測成本越低，企業(yè)進行治理可能性越大。90/32991例3廣告博弈P：廣告，NP：不廣告納什均衡：（P，NP），（NP，P），{（1/2，1/2），（1/2，1/2）}91/32992納什均衡：（P，NP），（NP，P），{（1/2，1/2），（1/2，1/2）}從公平性來說，混合策略合理{（1/2，1/2），（1/2，1/2）}比較合理9.301-123492/32993

第三章、完全信息動態(tài)博弈靜態(tài)博弈只是博弈問題中一個類型，現(xiàn)實中許多決議活動是有先后次序，往往是依次選擇行為而不是同時選擇行為，而且后選擇行為博弈方能夠看到先選擇行為博弈方選擇內(nèi)容因為博弈方依先后次序行動，后選擇行動博弈方能夠看到先行動博弈方?jīng)Q議行為，所以后面博弈方?jīng)Q議要受到以前博弈方?jīng)Q議行為影響。同時先行動者要考慮采取策略將怎樣影響對手在未來策略選擇．如拍賣活動中輪番競價。93/32994一、博弈擴展式表示

前面所介紹納什均衡是基于博弈雙方同時行動這一假設(shè)。當博弈雙方不一樣時行動，即一方能夠觀察到另一方行動，博弈均衡結(jié)果又怎樣？擴展型經(jīng)過“博弈樹“結(jié)構(gòu)表述博弈過程,包含幾大要素:(1)參加人集合：(2)參加人行動次序,即每個局中人什么時候行動；(3)參加人行動,，即每次行動時，參加人有些什么選擇：(4)參加人“信息集”，在每次行動時知道些什么。(5)參加人支付函數(shù)，即參加人可能選擇每一行動.94/32995例1房地產(chǎn)開發(fā)博弈：我們假定博弈次序以下：(1)開發(fā)商A首先行動．選開發(fā)或不開發(fā)；(2)在A決議后，自然選擇市場需求大?。?3)開發(fā)商B在觀察A決議和市場需求后，決定開發(fā)或不開發(fā)。博弈見圖95/32996ANN大小BBBB小大開發(fā)不開發(fā)開發(fā)開發(fā)開發(fā)開發(fā)不開發(fā)不開發(fā)不開發(fā)不開發(fā)（4，4）（8，0）（-3，-3）（1，0）（0，8）（0，0）（0，1）（0，0）博弈擴展式表示：依據(jù)參加人行動次序，經(jīng)過博弈樹表示參加人博弈關(guān)系。96/329971．參加人集合：另外，將用N代表虛擬參加人“自然”；

2．參加人行動次序：誰在什么時候行動；行動時點用決議結(jié)點表示；

3．參加人行動空間：在每次行動時，參加人有些什么選擇；4．參加人信息集：每次行動時，參加人知道什么；信息集是參加人在決議結(jié)點所擁有信息集合。擁有一樣信息決議結(jié)屬于同一個信息集，即信息集包含決議結(jié)擁有一樣信息。97/32998如圖中，每個信息集包含一個決議結(jié)。假如參加人B不知道需求是大還是小，只知道需求大概率為，參加人有兩個信息集，每個信息集包含兩個決議結(jié)。博弈樹上全部決議結(jié)分割成不一樣信息集。每一個信息集是決議結(jié)集合一個子集，該子集包含全部滿足以下決議結(jié)：(1)每一個決議結(jié)都是同一參加人決議結(jié)(2)該參加人知道博弈進入該集合某個決議結(jié)，但不知道自己終究處于哪一個決議結(jié)。98/32999（4，4）（0，0）ANA大BBBB小開發(fā)不開發(fā)開發(fā)開發(fā)開發(fā)開發(fā)不開發(fā)不開發(fā)不開發(fā)不開發(fā)（8，0）（0，8）（0，0）（-3，-3）（1，0）（0，1）不開發(fā)開發(fā)參加人A有一個信息集，包含兩個決議結(jié)；參加人B有兩個信息集，各自包含兩個決議結(jié)。99/329100只包含一個決議結(jié)信息集稱為單結(jié)信息集博弈樹全部信息都是單結(jié)，該博弈稱為完美信息博弈A開發(fā)不開發(fā)NNBBBB開發(fā)開發(fā)開發(fā)開發(fā)開發(fā)不開發(fā)不開發(fā)不開發(fā)大大小?。?/2）（1/2）（1/2）(0，0)(0，1)(0，0)(4，4)(8，0)(-3，-3)(1，0)(0，8)A開發(fā)不開發(fā)NNBBBB開發(fā)開發(fā)開發(fā)開發(fā)開發(fā)不開發(fā)不開發(fā)不開發(fā)大大小?。?/2）（1/2）（1/2）(0，0)(0，1)(0，0)(4，4)(8，0)(-3，-3)(1，0)(0，8)完美信息博弈不完美信息博弈100/3291015．參加人支付函數(shù)；在行動結(jié)束之后．每個參加人得到些什么博弈戰(zhàn)略式表示(1)博弈中參加人;(2)每個參加人可供選擇戰(zhàn)略；(3)給參加人戰(zhàn)略組合，每個參加人支付.同一個博弈問題既可用戰(zhàn)略式表示,也可用擴展式表示.但普通來說,靜態(tài)博弈更多采取戰(zhàn)略式表示,動態(tài)博弈更多采取擴展式表示.101/329102博弈戰(zhàn)略式表示能夠轉(zhuǎn)化為擴展式表述AB囚徒A囚徒B-1，-1-10，0

0，-10

-8，-8坦白抵賴坦白抵賴戰(zhàn)略式(-8，-8)(0，-10)(-10，0)(-1，-1)坦白抵賴坦白抵賴坦白抵賴B(-8，-8)(0，-10)(-10，0)(-1，-1)坦白抵賴坦白抵賴坦白抵賴A擴展式102/329103ABB開發(fā)開發(fā)開發(fā)不開發(fā)不開發(fā)（-3，-3）（1，0）（0，1）（0，0）不開發(fā)x1x2擴展式（0，0）（0，1）（0，0）（0，1）（1，0）（1，0）（-3，-3）（-3，-3）開發(fā)不開發(fā){開發(fā)，開發(fā)}{開發(fā)，不開發(fā)}{不開發(fā)，開發(fā)}{不開發(fā)，不開發(fā)}AB戰(zhàn)略式博弈擴展式表示能夠轉(zhuǎn)化為戰(zhàn)略式表述103/329104二、子博弈精煉納什均衡澤爾騰(Selten)“子博弈精煉納什均衡”是納什均衡概念第一個最主要改進子博弈精煉納什均衡是完全信息動態(tài)博弈解在動態(tài)博弈中存在不可置信承諾或威脅104/329105ABB開發(fā)開發(fā)開發(fā)不開發(fā)不開發(fā)（-3，-3）（1，0）（0，1）（0，0）不開發(fā)x1x2例“開發(fā)博弈”105/329106首先分析該博弈納什均衡。參加人A有兩個戰(zhàn)略：開發(fā)，不開發(fā)。參加人B有四個戰(zhàn)略：{開發(fā)，開發(fā)}，{開發(fā)，不開發(fā)}，{不開發(fā)，開發(fā)}，{不開發(fā)，不開發(fā)}。上述戰(zhàn)略組合支付矩陣以下：ABB開發(fā)開發(fā)開發(fā)不開發(fā)不開發(fā)（-3，-3）（1，0）（0，1）（0，0）不開發(fā)x1x2106/329107納什均衡為：（開發(fā)，{不開發(fā)，開發(fā)}），（開發(fā)，{不開發(fā)，不開發(fā)}），（不開發(fā)，{開發(fā)，開發(fā)}）。納什均衡結(jié)果為（開發(fā)，不開發(fā)），（不開發(fā)，開發(fā)）。（0，0）（0，1）（0，0）（0，1）（1，0）（1，0）（-3，-3）（-3，-3）開發(fā)不開發(fā){開發(fā)，開發(fā)}{開發(fā)，不開發(fā)}{不開發(fā)，開發(fā)}{不開發(fā)，不開發(fā)}AB107/329108下面考查納什均衡：（不開發(fā)，{開發(fā)，開發(fā)}）。這個戰(zhàn)略組合之所以組成個納什均衡，是因為B威脅A不論A選擇開發(fā)還是不開發(fā)，自己將選擇開發(fā)，A相信B這個威脅，不開發(fā)是A最優(yōu)選擇。類似地．假定A將選擇不開發(fā)；給定這個假設(shè)，{開發(fā)，開發(fā)}是B最優(yōu)戰(zhàn)略。不過，A為何要相信B威脅呢?ABB開發(fā)開發(fā)開發(fā)不開發(fā)不開發(fā)（-3，-3）（1，0）（0，1）（0，0）不開發(fā)x1x2108/329109假如A真選揮開發(fā)，B信息集是x1；此時，B選擇開發(fā)得到-3支付，選擇不開發(fā)得到0支付，顯然B最優(yōu)選擇是不開發(fā)。假如A知道B是理性．A將選擇開發(fā)，逼使B選擇不開發(fā)，自己得到1支付，而不是選擇不開發(fā)，讓B開發(fā)．自己得到0支付。納什均衡(不開發(fā)，{開發(fā)，開發(fā)}是不可置信，因為{開發(fā)，開發(fā)}是不可置信威脅戰(zhàn)略。類似地得到納什均衡(開發(fā)，{不開發(fā)，不開發(fā)}也存在不可置信承諾。ABB開發(fā)開發(fā)開發(fā)不開發(fā)不開發(fā)（-3，-3）（1，0）（0，1）（0，0）不開發(fā)x1x2109/329110ABB開發(fā)開發(fā)開發(fā)不開發(fā)不開發(fā)（-3，-3）（1，0）（0，1）（0，0）不開發(fā)x1x2只有納什均衡(開發(fā)，{不開發(fā)，開發(fā)}是可置信，即合理均衡。110/329111●子博弈：從單結(jié)信息集開始至博弈結(jié)束過程。由一個決議結(jié)x和全部后續(xù)決議結(jié)T(x)組成,滿足以下條件：（1）決議結(jié)x是單結(jié)信息集；（2）在一個信息集決議結(jié)必須是必須是同一個決議結(jié)后續(xù)結(jié)。

111/329112ANA大BBBB小開發(fā)不開發(fā)開發(fā)開發(fā)開發(fā)開發(fā)不開發(fā)不開發(fā)不開發(fā)不開發(fā)（8，0）（0，8）（0，0）（-3，-3）（1，0）（0，1）不開發(fā)開發(fā)上圖中只有一個子博弈即原博弈。所以任何博弈最少有一個子博弈（原博弈）112/329113上圖中存在五個子博弈，5個圓圈代表5個子博弈113/329114子博弈精練納什均衡：假如一個納什均衡中各博弈方戰(zhàn)略在每一個子博弈中均是最優(yōu)，即組成納什均衡，則稱該納什均衡為子博弈精練納什均衡。ABB開發(fā)開發(fā)開發(fā)不開發(fā)不開發(fā)（-3，-3）（1，0）（0，1）（0，0）不開發(fā)x1x2114/329115依據(jù)定義，（開發(fā)，{不開發(fā)，開發(fā)}是子博弈納什均衡納什均衡為：（開發(fā)，{不開發(fā)，開發(fā)}），（開發(fā)，{不開發(fā)，不開發(fā)}），（不開發(fā)，{開發(fā)，開發(fā)}）。ABB開發(fā)開發(fā)開發(fā)不開發(fā)不開發(fā)（-3，-3）（1，0）（0，1）（0，0）不開發(fā)x1x2115/329116子博弈精煉納什均衡與納什均衡根本不一樣之處，就是子博弈精煉納什均衡能夠排除納什均衡不可信威脅或承諾，排除“不合理”、不穩(wěn)定納什均衡，只留下真正穩(wěn)定納什均衡，即子博弈精煉納什均衡。這正是我們引進子博弈精煉納什均衡概念原因。子博弈精煉納什均衡之所以能排除動態(tài)博弈相機選擇策略組合中不可信行為．是因為它要求選擇戰(zhàn)略所形成均衡必須在全部子博弈中都是納什均衡。116/329117ABB開發(fā)開發(fā)開發(fā)不開發(fā)不開發(fā)（-3，-3）（1，0）（0，1）（0，0）不開發(fā)x1x2納什均衡(不開發(fā)，{開發(fā)，開發(fā)}均衡路徑是A—x2—（0，1）納什均衡戰(zhàn)略在均衡路徑上是最優(yōu)，但在非均衡路徑上并不最優(yōu)。子博弈納什均衡(開發(fā)，{不開發(fā)，開發(fā)}均衡路徑是A—X2—（1，0），子博弈納什均衡在均衡路徑和非均衡路徑上都是最優(yōu)均衡路徑：一個納什均衡結(jié)果在博弈樹中所形成路徑117/329118

例市場進入博弈例子，假設(shè)進入者先行動即首先選擇戰(zhàn)略(進入或不進入)，在位者后行動即選擇默許還是斗爭。其博弈過程以下：進入者進入不進入在位者默許斗爭0，30040，50-10，0子博弈精練納什均衡:（進入，{默許,斗爭})（進入，{默許,默許})子博弈精練納什均衡結(jié)果：（進入，默許）

118/329119現(xiàn)改變該例中博弈雙方行動次序，均衡結(jié)果又怎樣呢？假設(shè)在位者先行動，進入者后行動，博弈過程以下：在位者進入不進入進入者默許斗爭50，40300，0進入不進入進入者0，-10300，0119/329120由逆向法推出子博弈精練納什均衡：（斗爭，{進入，不進入})（進入，默許)兩種行動次序博弈結(jié)果比較進入者先動在位者后動在位者先動進入者后動精練納什均衡結(jié)果進入者利潤在位者利潤精練納什均衡結(jié)果進入者利潤在位者利潤（斗爭，不進入)40500300比較發(fā)覺，先動對博弈方有利，即先動優(yōu)勢。子博弈精練納什均衡結(jié)果：（斗爭，不進入)120/329121求解子博弈納什均衡方法——逆向歸納法：從博弈樹行動相反次序從后往前依次求得各自博弈納什均衡。其實質(zhì)就是首先找到低一級子博弈納什均衡，然后在找到上一級子博弈納什均衡，直到找到最高一級子博弈納什均衡，即整個博弈子博弈精練納什均衡。逆向歸納法過程數(shù)學表示為簡單起見，假定博弈有兩個階段，第一階段參加人1行動．第二階段參加人2行動，并旦2在行動前觀察到1選揮。令A(yù)1是參加人1行動字間，A2是參加人2行動空間。當博弈進入第二階段，給定參加人1在第一階段選擇參加人2面臨問題是：

121/329122上述問題求解得這是第二階段子博弈納什均衡戰(zhàn)略。然后基于該均衡戰(zhàn)略，找到第一階段納什均衡戰(zhàn)略。參加人1在第一階段面臨問題是：上述問題求解得：子博弈精練納什均衡為122/329123考查最終一個子博弈，當參加人2選擇R參加人1選擇基于參加人2上述戰(zhàn)略，參加人2選擇L，基于上述兩個戰(zhàn)略參加人選擇子博弈精練納什均衡為子博弈精練納什均衡結(jié)果為：123/329124ABB開發(fā)開發(fā)開發(fā)不開發(fā)不開發(fā)（-3，-3）（1，0）（0，1）（0，0）不開發(fā)x1x2考查最終兩個子博弈：對于，當參加人A選擇開發(fā)時，參加人B選擇不開發(fā)；對于，當參加人A選擇不開發(fā)，參加人B選擇開發(fā)，將兩個子博弈納什均衡組合得參加人子博弈精練納什均衡戰(zhàn)略，基于上述戰(zhàn)略，參加人A選擇開發(fā)，這是參加人A子博弈精練均衡戰(zhàn)略，故該博弈子博弈精練納什均衡為（開發(fā)，{不開發(fā)，開發(fā)}）124/329125三子博弈精練納什均衡存在性與理性要求逆向歸納法理論要求“全部參加入是理性,而且要求參加人知道其后續(xù)參加人是理性;參加人知道其后續(xù)參加人知道其后續(xù)人是理性,等等.上述理性要求大大高于靜態(tài)博弈中理性要求.在動態(tài)博弈中有時不能滿足理性要求造成子博弈精練均衡不存在.以下例:125/3291263AA12(1/2,1/2,1/2)(1,1,1)(1/3,1/3,1/3)DDDA(2,2,2)126/329127參加人2到參加人n理性概率為P,參加人知道其它參加人都是理性,參加人才選擇A,而其它參加人都是理性概率為Pn-1.當n很大時,Pn-1很小.促使參加人選擇D.子博弈精練納什均衡極難實現(xiàn),比較滿意支付極難取得.iAAAA12(2,…2)(1/n,…,1/n)(1/2,…,1/2)(1,…,1)(1/i,…,1/i)DDDDn1.有利理性127/329128在理性要求滿足條件下,上述子博弈精練均衡結(jié)果為參加人1一開始就選擇D.但這個支付對博弈雙方都不利.假如雙方非理性都選擇A,則各得100.2.不利理性1AAAA12(100,100)(98,101)(0,3)(1,1)(98,98)DDDD12A2A(99,99)(97,100)DD128/329129四子博弈精練均衡應(yīng)用實例例1斯坦克爾伯格(Stackelberg)寡頭競爭模型

正如庫諾特(Cournot)均衡能夠看作納什均衡第一個版本一樣，斯坦克爾伯格(Stackelberg，1934)均衡能夠看作是澤爾騰(Selten，1965)子博弈精煉納什均衡最早版本。如同在庫諾持模型中一樣，在斯坦克爾伯格模型中，企業(yè)行動也是選擇產(chǎn)量。不一樣是，斯坦克爾伯格模型中，企業(yè)1(稱為領(lǐng)頭企業(yè))首先選擇產(chǎn)量q1，企業(yè)2(稱為尾隨企業(yè))觀察到q1

，然后選擇自己產(chǎn)量q2

。所以，這是一個完全信息動態(tài)博弈。見以下示意圖：129/329130假定需求函數(shù)為，兩個企業(yè)有相同不變單位成本c，那么，支付(利潤)函數(shù)為

我們能夠使用逆向歸納法求解這個博弈子博弈精煉納什均衡。首先考慮給定情況下，企業(yè)2最優(yōu)選擇。

由一階條件：企業(yè)1企業(yè)2q1q2130/329131

（企業(yè)2對企業(yè)1反應(yīng)函數(shù)，記為S2（q1），即企業(yè)2最優(yōu)戰(zhàn)略）因為企業(yè)l預(yù)測到企業(yè)2將依據(jù)其反應(yīng)函數(shù)S2（q1）選擇q2

，企業(yè)1利潤是：由一階條件：解得：131/329132將代入得子博弈精練納什均衡結(jié)果為：庫諾特模型與斯坦克爾伯格模型結(jié)果比較以下：132/329133比較發(fā)覺，（1）產(chǎn)量決議博弈中，先動者更有利，即先動優(yōu)勢（2）擁有信息優(yōu)勢可能使參加人處于劣勢，這在單人決議中是不可能。（3）從總體效益來看，同時行動優(yōu)于先后行動。庫諾特模型斯坦克爾伯格模型均衡結(jié)果（納什均衡結(jié)果）（子博弈精練納什均衡結(jié)果）企業(yè)1產(chǎn)量企業(yè)2產(chǎn)量總產(chǎn)量先動企業(yè)產(chǎn)量增加后動企業(yè)產(chǎn)量降低總產(chǎn)量增加最優(yōu)總產(chǎn)量（使總利潤最大產(chǎn)量）133/329134庫諾特均衡點斯坦克爾伯格均衡點R1R2q2q1(a-c)/4(a-c)/2(a-c)/3(a-c)/3134/329135例2工會與雇主之間博弈假設(shè)工會決定工資，企業(yè)決定就業(yè)水平。設(shè)工會效用函數(shù)為設(shè)企業(yè)利潤由數(shù)是博弈次序：(1)工會首先選擇工資,(2)企業(yè)觀察到工資選擇就業(yè)水平。工會企業(yè)首先在工資給定求解最優(yōu)就業(yè)水平.企業(yè)面臨問題是:由一階條件得:135/329136由上公式能夠得就業(yè)水平對工資反應(yīng)函數(shù):注意到:反應(yīng)函數(shù)是單調(diào)遞減.工會在第一階段問題是：求解得子博弈精練納什均衡為子博弈精練納什均衡結(jié)果為136/329137工會無差異曲線協(xié)議曲線企業(yè)等利潤曲線圖工會與企業(yè)博弈由上述圖形可看出,子博弈納什均衡并未到達帕累托最優(yōu).帕累托最優(yōu)線是博弈雙方效用無差異曲線相切點聯(lián)線.137/329138假如合作,企業(yè)與工會追求總體效用最大化.假設(shè)總體效用經(jīng)過雙方效用之積來評價.問題變?yōu)橛梢浑A條件得工會無差異效用曲線與企業(yè)等利潤曲線相切,即合作后工資與就業(yè)水平到達帕累托最優(yōu).138/329139六、重復(fù)博弈前面所談到動態(tài)博弈有一個顯著特點是各階段博弈結(jié)構(gòu)不一樣,且前一階段博弈影響后一階段博弈結(jié)構(gòu),這種博弈稱為序貫博弈下面介紹一個動態(tài)博弈------重復(fù)博弈.重復(fù)博弈特征:(1)前一階段博弈不影響后一階段博弈結(jié)構(gòu),即各階段博弈結(jié)構(gòu)相同(2)全部參加人都知曉過去歷史1.重復(fù)博弈概念139/329140

重復(fù)博弈定義：給定一個標準博弈G(能夠是靜態(tài)博弈，也能夠是動態(tài)博弈)，重復(fù)進行T次G，而且每次重復(fù)G之前，以前博弈結(jié)果各博弈方都能現(xiàn)察到，這么博弈過程稱為“GT次重復(fù)博弈”，記為G(T)*G稱為G(T)博弈階段”。在重復(fù)博弈中各個階段博弈方和博弈內(nèi)容都必須相同，在動態(tài)博弈中則沒有這么要求。進行重復(fù)博弈則能夠降低坑騙．增加相互信任，因為上當受騙人能夠采取“一報還一報”策賂進行報復(fù)．博弈中長久結(jié)果是：理性博弈人會認識到，坑騙對大家都沒有好處，于是經(jīng)過報復(fù)、制裁威脅等相互約束行為，來尋求合作，追求共同利益機會。140/329141

在重復(fù)博弈中，對于重復(fù)次數(shù)較多，每次重復(fù)間隔時間又較長重復(fù)博弈，因為心理作用和資金有時間價值原因．不一樣時間取得單位得益對人價值是不相等，也就是說，時間原因不能被忽略。處理這個問題方法是引進將后一階段得益折算成當前階段支付貼現(xiàn)系數(shù)。重復(fù)博弈中支付（1）有限次重復(fù)博弈總支付總支付平均支付10.18141/329142（2）無限次重復(fù)博弈總支付平均支付142/3291432.有限次重復(fù)博弈（1）有惟一納什均衡有限次重復(fù)博弈又如有限次重復(fù)囚徒博弈，而囚徒博弈有唯一納什均衡，由逆向歸納法，“總是坦白”是唯一子博弈精煉納什均衡戰(zhàn)略。均衡結(jié)果為每一階段都是（坦白，坦白），即{（坦白，坦白），…，（坦白，坦白）}且均衡結(jié)果是唯一。

囚徒A囚徒B-1，-1-10，0

0，-10

-8，-8坦白抵賴坦白抵賴143/329144與一次博弈區(qū)分：（1）“總是坦白”不是占優(yōu)戰(zhàn)略，如當對方采取戰(zhàn)略“首先抵賴，假如你坦白，則一直坦白”，“總是坦白”不是最優(yōu)。（2）“總是坦白”不是唯一最優(yōu)戰(zhàn)略。如當對方采取“總是坦白”，“坦白直到對方選擇抵賴，然后總是抵賴”也是最優(yōu)戰(zhàn)略，囚徒A囚徒B-1，-1-10，0

0，-10

-8，-8坦白抵賴坦白抵賴144/329145定理：令G是階段博弈．G(T)是G重復(fù)T次重復(fù)博弈（T為有限）。那么，假如G有唯一納什均衡，重復(fù)博弈G(T)唯一子博弈精練納什均衡結(jié)果是階段博弈G納什均衡結(jié)果重復(fù)T次(即每個階段博弈出現(xiàn)都是一次性博弈均衡結(jié)果)。納什均衡不唯一時，這個結(jié)論不一定成立。145/329146有三個納什均衡：(M，L），〔U，M)和混合戰(zhàn)略((3／7U，4／7M)，(3／7L，4／7M))．博弈兩次，能夠證實，當貼現(xiàn)因子以下戰(zhàn)略組成子博弈精練納什均衡。“在第一階段選擇(D，R)；假如第一階段結(jié)果是(D，R)．在第二階段選擇(M，L)；假如第一階段結(jié)果不是(D，R)、第二階段選擇混合戰(zhàn)略（(3／7U，4／7M)，(3／7L，4／7M))”（2）有多個納什均衡有限次重復(fù)博弈146/329147“在第一階段選擇(D，R)；假如第一階段結(jié)果是(D，R)．在第二階段選擇(M，L)；假如第一階段結(jié)果不是(D，R)、第二階段選擇混合戰(zhàn)略（(3／7U，4／7M)，(3／7L，4／7M))”給定參加人２采取該戰(zhàn)略，參加人１，如第一階段選Ｄ第一階段選Ｕ147/329148給定參加人１采取該戰(zhàn)略，參加人２，如第一階段選Ｒ第一階段選Ｌ“在第一階段選擇(D，R)；假如第一階段結(jié)果是(D，R)．在第二階段選擇(M，L)；假如第一階段結(jié)果不是(D，R)、第二階段選擇混合戰(zhàn)略（(3／7U，4／7M)，(3／7L，4／7M))”148/3291493無限次重復(fù)博弈當重復(fù)博弈無窮屢次而不是有限次時，精煉均衡結(jié)果完全不一樣于一次博弈精煉均衡結(jié)果。注意有限次博弈最少在最終階段均衡結(jié)果與單次博弈相同。假如階段博弈存在唯一納什均衡，有限次博弈均衡結(jié)果與單階段博弈均衡結(jié)果相同考慮以下所謂“冷酷戰(zhàn)略（觸發(fā)戰(zhàn)略）”：(1)首先選擇抵賴；(2)選擇抵賴到有一方選擇了坦白，然后永遠選擇坦白。能夠證實“冷酷戰(zhàn)略”組合也是子博弈精練均衡?？疾闊o限次囚徒博弈囚徒A囚徒B-1，-1-10，0

0，-10

-8，-8坦白抵賴坦白抵賴149/329150首先證實冷酷戰(zhàn)略中（1）部分是最優(yōu)（給定對方采取冷酷戰(zhàn)略)。囚徒A囚徒B-1，-1-10，0

0，-10

-8，-8坦白抵賴坦白抵賴假定囚徒2選擇上述冷酷戰(zhàn)略。假設(shè)貼現(xiàn)因子為。假如囚徒1在博弈某個階段首先選擇了坦白，他在該階段得到0單位支付，隨即觸發(fā)對方選擇坦白，囚徒1隨即均選擇坦白，每個階段支付都是一8。而囚徒1不首先坦白，則各階段得到支付-1，只要前者支付小于后者支付，囚徒1不會首先坦白。150/329151當，囚徒2不會首先坦白，即首先選擇抵賴。囚徒A囚徒B-1，-1-10，0

0，-10

-8，-8坦白抵賴坦白抵賴151/329152囚徒A囚徒B-1，-1-10，0

0，-10

-8，-8坦白抵賴坦白抵賴下面證實冷酷戰(zhàn)略第二部分（2）是最優(yōu)。給定囚徒2堅持冷酷戰(zhàn)略，一旦坦白將永遠坦白；假如囚徒1堅持冷酷戰(zhàn)略，假如囚徒2坦白，囚徒1一直坦白，他隨即每階段支付是一8，但假如他選擇任何其它戰(zhàn)略，他在任何單階段支付不會大于一8，所以，囚徒1有主動性堅持冷酷戰(zhàn)略，即你坦白，我將坦白。152/329153總而言之，當囚徒2采取冷酷戰(zhàn)略時，囚徒1冷酷戰(zhàn)略是最優(yōu)戰(zhàn)略，類似地，能夠推得：當囚徒1采取冷酷戰(zhàn)略時，囚徒2冷酷戰(zhàn)略是最優(yōu)戰(zhàn)略，所以冷酷戰(zhàn)略組成組成納什均衡。153/329154冷酷戰(zhàn)略是否組成子博弈精練納什均衡。子博弈有兩類：雙方均抵賴開始子博弈和最少有一方抵賴開始子博弈。第一類子博弈與原博弈相同，由前面結(jié)論，冷酷戰(zhàn)略在第一類子博弈組成納什均衡對于第二類子博弈，有三種情形，即（坦白，抵賴），（抵賴，坦白），（坦白，坦白）開始子博弈。在囚徒2采取冷酷戰(zhàn)略時，出現(xiàn)上述三種情況都會是囚徒2一直坦白。所以囚徒1也會選擇坦白。所以一旦有一方坦白，則選擇坦白是最優(yōu)，即冷酷戰(zhàn)略在三種子博弈組成納什均衡。154/329155故冷酷戰(zhàn)略組成子博弈精練納什均衡。由此不難看出，子博弈精練均衡結(jié)果為：各階段選擇為（抵賴，抵賴）。在無限次博弈中，博弈結(jié)果到達帕累托最優(yōu)。155/3291564.無名氏定理在囚徒困境博弈中，納什均衡是(坦白，坦白)，支付為（-8，-8）；因為害怕觸發(fā)階段博弈納什均衡，參加人有主動性保持合作。坦白，坦白坦白，抵賴抵賴，坦白抵賴，抵賴156/329157令G為一

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

研究生教學講稿博弈論與信息經(jīng)濟學3年9月0日ppt2市公開課獲獎?wù)n件省名師優(yōu)質(zhì)課賽課一等獎?wù)n件

文檔簡介

溫馨提示

最新文檔

評論

研究生教學講稿博弈論與信息經(jīng)濟學3年9月0日ppt2市公開課獲獎?wù)n件省名師優(yōu)質(zhì)課賽課一等獎?wù)n件

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔