




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
博弈論和信息經(jīng)濟學以色列希伯萊大學教授羅伯特·奧曼恩(RobertJ.Aumann)和美國馬里蘭大學經(jīng)濟學系和公共政策學院教授托馬斯·斯基林(ThomasC.Schelling)。
一、博弈論的研究對象與內(nèi)容
Gametheory:對策論游戲理論博弈論
1.社會行為主體(individualorgroupofpeople)相互關聯(lián),相互依存和相互作用的普遍性。(1)相互關聯(lián)(2)相互依存(3)相互作用(2)既定約束假定:偏好既定,能力與資源稟賦既定;(3)完全信息假定:信息是充分的、對稱的、完全的,該知道的都知道;(4)零交易成本假定;
它主要關心的問題:(1)在矛盾對抗人們的行為決策是否有規(guī)律,規(guī)律如何達到?(2)人們的行為是不斷相對變化還是會趨于穩(wěn)定和收斂?(3)穩(wěn)定和收斂的條件是什么?假設有x,y兩個人,且他們的行為選擇為Bx,By,有Bx=Fx(By),By=Fy(Bx).①是否存在(Bx*,By*)使y選擇By*時,x選Bx*,并且同時當x選擇Bx*時y選擇By*?②在什么條件下存在(Bx*,By*)?
如:以色列與巴勒斯坦人的博弈,印度與巴基斯坦關于克什米爾的爭端與博弈。以色列:當巴勒斯坦選擇人體炸彈爆炸時,選擇侵略與占領。巴勒斯坦:當以色列選擇侵略時,選擇人體炸彈。
關于耶魯撒冷的地位?阿拉法特是否會作錯誤的選擇?哈馬斯與以色列該如何選擇?在什么條件下,以色列和巴勒斯坦都會選擇和平?大陸和臺灣的對局博弈:統(tǒng)一還是分裂?臺灣檢方與陳水扁的博弈納什的貢獻2、1951年Nash提出了Nash均衡的概念,并證明了Nash均衡的存在——真正奠定了博弈論作為一門學科的基礎。之前,雖然有很多人致力于研究博弈對策的規(guī)律,但總沒有得出有意義的成果,直到Nash。那什①阿以博弈②印巴博弈是為了克什米爾博弈③大陸與臺灣④中日博弈a.石油資源b.日本加入常任理事國c.東海資源d.釣魚島e.靖國神社因此x,y都會變換策略,這種情況稱為非策略均衡。(2)上策均衡
對x來說,存在一個策略Bxn*Bx(Bx1,Bx2,……,BxN),對于y的任意策略Bym
By(By1,By2,……,ByN),Bxn*都是一個最優(yōu)策略,則Bxn*稱為上策。同時對y來說,存在一個策Bym*
By(By1,By2,……,ByN),對于BxnBx(Bx1,Bx2,……,BxN),Bym*都是y的最優(yōu)策略,Bym*亦稱為y的上策(或超優(yōu)策略)。(3)Nash均衡
設存在一個策略組合Bx’和By’,且Bx’Bx(Bx1,Bx2,……,BxN),By’
By(By1,By2,……,ByN),當x選擇Bx’時,y的最優(yōu)策略選擇是By’,同時,當y選擇By’時,x的最優(yōu)選擇是Bx’,因此,x和y選擇了Bx’和By’時,誰都不會再改變策略。這種局面稱為Nash均衡,是Nash最早提出并證明了它的存在。例①囚徒困境(prisonersdilemma)坦白B不坦白A坦白A不坦白例②中美南海飛機撞擊事件的博弈美道歉美不道歉中方退還中方不退還-8-80-10-100-1-1
5
5-244-2
0
0例(3):智豬博弈-搭便車問題
小豬按小豬等
大豬按大豬等大豬先吃9,小豬剩1,按的成本為2,總食量10小豬先吃4,大豬剩6,同時吃,大豬7、小豬3
問題:大豬還是小豬該按按鈕?51449-100例(4)斗雞博弈
1962年,蘇美古巴導彈危機,兩國面臨的局面與選擇Nash均衡與環(huán)保問題:污染問題個體理性與整體理性進退進進退退-2;-2
2;00;2
0;0美蘇問題:(5)試用囚徒困境說明市場可能失效的原因,以及政府對經(jīng)濟管理調(diào)控的作用?你主張一個完全自由的市場和一個完全無為而治的政府嗎?(6)美國金融危機的原因是什么?最發(fā)達最有效率的美國金融市場為什么出錯?最聰明的美國金融家如何共同做了一件大傻事?(7)如何可能擺脫和防止囚徒困境——可能的途徑與方法?交流交往協(xié)商達成共識或者通過外部控制干預.3.1965年,澤爾騰將動態(tài)分析引入Nash均衡,提出了子博弈精練Nash均衡的概念。(1)靜態(tài)博弈與動態(tài)博弈靜態(tài)博弈:一次性,同時決策動態(tài)博弈:重復性,可以有先后決策(2)多重Nash均衡的存在的可能性
如:戀愛博弈愛男不愛女愛女不愛在此有兩個Nash均衡:(愛,愛),(不愛,不愛)55-233-200(3)精練Nash均衡——排除不可信的Nash均衡有些Nash均衡的可信度(可能性)較低,因此可以予以排除,主要考慮那個可性最大(最可信)的Nash均衡。如上例:如果我知道女朋友非常愛我那么就不需要考慮(不愛,不愛)的均衡。如果認為女朋友一點也不愛我,就不需要考慮(愛,愛)的Nash均衡。4.1968年,海薩尼研究了不完全信息條件下的靜態(tài)博弈,提出了貝葉斯Nash均衡概念。(1)不完全信息——不知道雙方支付矩陣,偏好結(jié)構(gòu)。(2)高成本在位者和低成本在位者(見書28頁)(3)貝葉斯Nash均衡。在僅有對手的概率性知識的條件下,尋求期望效用最大化5.1975年,澤爾騰等人,又進一步把貝葉斯Nash均衡從靜態(tài)博弈擴展到動態(tài)博弈,提出了精煉貝葉斯Nash均衡的概念。(1)條件概率和貝葉斯公式
(2)通過對方的行為選擇使關于對方的概率性知識不斷精練(3)例子:黔驢和老虎博弈論的最新發(fā)展6二十世紀八十年代,史密斯把生物演化方程引入博弈論,提出了演化穩(wěn)定戰(zhàn)略的概念,使演化博弈論獲得了快速發(fā)展.7幾乎與此同時,合作博弈理論研究也取得了突破性進展.三、博弈論與現(xiàn)代經(jīng)濟學1.經(jīng)濟學的源流與發(fā)展
亞當斯密李嘉圖薩伊邊際學派數(shù)理學派馬克思列寧凱恩斯弗里德曼??怂顾_繆爾森馬歇爾新古典經(jīng)濟學凱恩斯的心理動機儲蓄偏好流動性偏好2.新古典經(jīng)濟學的理論特征:(1)完全信息(2)完全理性(自利最大化計算智能)(3)交易成本為零(4)既定制度、技術(shù),市場分工水平(5)最優(yōu)均衡(局部均衡與一般均衡)3.主流經(jīng)濟學面臨的各種理論挑戰(zhàn)(1)福利經(jīng)濟學家庇古對傳統(tǒng)經(jīng)濟學的質(zhì)疑外部性與市場失靈公共產(chǎn)品供給的市場失靈自然壟斷產(chǎn)業(yè)與政府管制政府管制(2)信息經(jīng)濟學對經(jīng)濟學的質(zhì)疑:信息不對稱與“檸檬市場”問題(3)制度經(jīng)濟學對經(jīng)濟學的影響交易成本與產(chǎn)權(quán)制度對市場效率的影響。經(jīng)濟學的最新發(fā)展(4)演化經(jīng)濟學對主流經(jīng)濟學的質(zhì)疑(5)實驗經(jīng)濟學對主流經(jīng)濟學的修正(6)行為經(jīng)濟學對主流經(jīng)濟學的挑戰(zhàn)(7)博弈論方法對經(jīng)濟學研究方法和理論視野的變革
研究方法影響:從局部和一般均衡轉(zhuǎn)向納什均衡
研究視野的影響:囚徒困境與理性最優(yōu)囚徒困境:個人理性與公共理性的沖突與悖論公地悲劇過度獵捕環(huán)境污染核武器擴散金融危機價格大戰(zhàn)完全信息靜態(tài)博弈
一、 基本概念(1)參與人——行為主體(2)行為或戰(zhàn)略選擇(3)完全信息(4)信息信念信仰與共同知識完美信息和完全信息共同信息:你知道我所知道的,我亦知道你所知道的知識(5)效用支付(6)均衡每個人的戰(zhàn)略選擇都是給定其他人戰(zhàn)略選擇下的最優(yōu)戰(zhàn)略當n個人博弈時,給定x的選擇Bx*,By*是y的最優(yōu)選擇,給定y的選擇By*,Bx*是x的最優(yōu)選擇。N人博弈的Nash均衡定義G={A1,A2,A3,…….,AN;U1,U2,U3,…………,UN}
如果存在一個策略組合{a1*,a2*,……,aN*},其中a1*A1,a2*A2,…….,aN*AN,使Ui*=Ui{a1*,a2*,…,aN*}Ui{a1*,…,ai-1*,aij*,ai+1*…,aN*}對iN都成立,則{a1*,a2*,……,aN*}為Nash均衡。2.完全信息靜態(tài)博弈的特征(1)完全信息:信息無遮蔽,透明第一,你知道,我也知道第二,你知道我知道,我也知道你知道博弈者(雙方)對博弈規(guī)則,雙方偏好與效用支付函數(shù)有完全的并且相同的了解。如:囚徒困境中,A、B都知道雙方選擇可能的后果(2)同時性一次性決策博弈者同時一次性選擇策略(雙方都不知道對方選擇情況下的選擇)3.上策均衡的類型及上策均衡的確定(1)雙方上策均衡如:囚徒困境(2)單方上策均衡如:智豬博弈(P18)(3)下策循環(huán)排除法如:囚徒困境(P64)4.強Nash均衡與弱Nash均衡5.Nash均衡的求解法①離散有限策略博弈:劃線法嚴格下策消去法②連續(xù)無限策略博弈:反映函數(shù)法設:Ux=Ux(x,y)Uy=Uy(x,y)x,y,Ux,Uy連續(xù),Ux,Uy二階可微并且<0,<0,則求解反映函數(shù):=0=0其解即為Nash均衡(3)零和博弈的Nash均衡
a.零和博弈Ux+Uy=0(損人才能利己)b.負和博弈Ux+Uy<0(可能損人而不利己)c.正和博弈Ux+Uy>0(利己又不損人,或利己又利人)問題:以下博弈屬于哪類博弈?a.生產(chǎn)產(chǎn)量博弈無市場、資源約束下(正和博弈)有市場、資源約束下(零和博弈)b.財富分配博弈(財政預算,獎金分配,單位分房)c.兩男爭一女或兩女爭一男的博弈d.權(quán)利博弈(強權(quán)意志,權(quán)利社會)(零和)(強權(quán)與服從的對稱性)e.寫詩比賽博弈(正和博弈)畫畫比賽博弈(正和博弈)學習競賽博弈(正和博弈)運動競技博弈第一,有限離散策略零和博弈
最大最小值方法:X給出一個策略ax’,則y會給出一個行動ay’,使Ux(ax’,ay’)=minUx(ax,ay),而x要選擇一個ax*,使Ux最大,Ux(ax*,ay*)=maxminUx(ax,ay)=minmaxUx(ax*,ay*).y的一個策略ay,x卻會選一個ax’使Ux最大,即Ux(ax’,ay)=maxUx(ax,ay),則y會選一個ay*使Ux(ax*,ay*)=minmaxUx(ax,ay)第二,無限連續(xù)策略零和博弈的Nash均衡解Ux=Ux(Xa,Ya)Uy=Uy(Xa,Ya)Xa,Ya是連續(xù)可微的行為變量Ux,Uy是Xa,Ya的效用函數(shù)如果:Ux,,連續(xù)并且=0,>0(極小值條件)=0,<0(極大值條件)則求解反映函數(shù)方程對X而言:=0=0極大極小對Y而言:=0=0極小極大則解x*,y*是滿足最大最小條件的Nash均衡解。由于Ux=-Uy,所以對x而言求得的解與對y而言求得的解是等價的,可以相互推出。四、循環(huán)相克博弈的Nash均衡解法(1)什么是循環(huán)相克博弈博弈者的任何一項戰(zhàn)略行為都受到對方某種戰(zhàn)略的完全克制,對手之間的各個戰(zhàn)略,形成相互克制的封閉環(huán).(2)循環(huán)相克博弈的純戰(zhàn)略Nash均衡不存在——“石頭、剪子、布”游戲(3)循環(huán)相克博弈只存在混合戰(zhàn)略Nash均衡游戲:剪刀-斧頭-錘甲乙剪刀石頭布剪刀0;00;11;0石頭1;00;01;0布0;11;00;0何謂混合戰(zhàn)略——搗漿糊戰(zhàn)略?設:,Ax={ax1,ax2,……,axn},Ay={ay1,ay2,……,aym}設x在Ax中隨機選擇戰(zhàn)略,且某種戰(zhàn)略被選擇概率是,=1,則={(ax1),(ax2),……,(axN)}是x的混合戰(zhàn)略。同理,y的混合戰(zhàn)略={(ay1),(ay2),……,(aym)}(4)混合戰(zhàn)略Nash均衡的確定原則——無差異原則即給定我的混合戰(zhàn)略,你的任何戰(zhàn)略都是無差異的。同時,給定你的混合戰(zhàn)略,我的任何戰(zhàn)略也都是無差異的。在循環(huán)相克博弈中,均衡的狀態(tài)就是從彼此克制中擺脫,使彼此相克轉(zhuǎn)為彼此都不能相克——彼此不被對方克制的狀態(tài)就是一種雙方同時實現(xiàn)最優(yōu)的狀態(tài)。因為,任何一種純戰(zhàn)略都會陷入被對方克制的局面,只有采取一種混合戰(zhàn)略,才能擺脫相互克制的局面。同時,這種混合戰(zhàn)略還必須使對方的戰(zhàn)略都無差異。(5)例:政府與流浪漢的博弈找工作流浪救濟不救濟通過劃線法可知,上述的博弈的純戰(zhàn)略Nash均衡不存在,但是存在混合戰(zhàn)略Nash均衡。
3,2-1,3-1,1
0,0Nash均衡引起的問題一、個人理性與整體理性的沖突個人最優(yōu)與整體最優(yōu)卡特爾、環(huán)保、地球路、中美飛機對撞二、 搭便車問題三、 多重Nash均衡選擇和甄別的存在性、不確定性第一個問題通過重復博弈解決——重復性博弈均衡制成制度坦白從寬牢底坐穿抗拒從嚴回家過年第二個問題通過博弈解決——子博弈精煉Nash均衡(動態(tài)博弈)智豬博弈——搭便車例:①大戶做莊,小戶跟風②大戶鋪路、修橋,小戶跟風③大企業(yè)創(chuàng)新,小企業(yè)模仿④大股東監(jiān)督,小股東不管性別戰(zhàn)博弈俄羅斯與車臣綁匪的博弈一、靜態(tài)
1.戰(zhàn)略均衡:上策均衡:,Y*使UA(X,Y*)>UA(X,Y*),同時Y,X*,使UB(X*,Y)>UB(X,Y)Nash均衡:給定X*,Y*,使UA(X*,Y*)>UA(X*,Y),并且UB(X*,Y*)>UB(X,Y*)2.博弈種類及均衡解法①離散、有限策略博弈:劃線法②連續(xù)、無限策略博弈:反映函數(shù)法③零和博弈:最大最小法④循環(huán)相克博弈:混合戰(zhàn)略當代人類面臨的危機及其根源所在一、核戰(zhàn)危險核擴散:印、巴、以、伊朗、朝鮮中、蘇、法、英、美(日本)二、恐怖主義(生物恐怖,電腦病毒,核恐怖,化武恐怖)三、水資源危機(中國北方)四、荒漠化五、大氣圈異變(臭氧空洞,溫室效應,北極冰融)六、病毒侵襲(SARS,AIDS,尼羅河)
當代人類面臨的危機及其根源所在問題的原因:人類的自利行為(根源于自利理性)
a.人口的繁殖過量b.對大自然的過渡侵奪c.有污物質(zhì)的過度排放d.國家主義、民族主義已經(jīng)走到了盡頭,個人主義也已經(jīng)走到了盡頭。地球是我們共同的家園,人類是一個生存共同體。人和命運環(huán)境的博弈人的知識甚少,而不確定性太多,所以完全憑信仰來決定。搗漿糊策略,萬精細策略,西瓜皮策略追求信仰——以不變應萬變?nèi)松鷳?zhàn)略:a.以不變應萬變,信仰堅定b.隨遇而安戰(zhàn)略,腳踹西瓜皮c.糊涂戰(zhàn)略,難得糊涂戀愛博弈:
你愛我,我愛你。你不愛我,我不愛你。機會主義戰(zhàn)略無論你是否愛我,我要追求你。信仰戰(zhàn)略知識與博弈均衡(1)知識可以擴展博弈的策略集合
戰(zhàn)爭博弈:古代矛——盾近代槍炮——坦克現(xiàn)代導彈——反導彈
人與自然的博弈(2)共同知識有利于達成博弈的Nash均衡制度與博弈均衡(1)制度提供了一種關于行為策略的共同信息,即什么是可能的什么是不可能的。制度是博弈均衡。原始狀態(tài):一些人與一些人的戰(zhàn)爭,掠殺、搶奪、偷盜。社會契約——制度——博弈均衡如環(huán)保制度的形成,也是在保護環(huán)境和破壞環(huán)境的博弈中形成的。(2)制度是一種信息的濃縮,關于策略集合的信息。但反過來,制度又為博弈提供了行為預期。如:市場競爭受法規(guī)制度的規(guī)范
信仰與博弈均衡(一)不同的信仰有不同的效用函數(shù)(二)不同的信仰有不同的策略集合伊斯蘭原教義主義者:a.伊斯蘭教義b.古蘭經(jīng)(婦女蒙面,不工作)例一:基督教文明:a.b.現(xiàn)代,大眾傳媒,女性優(yōu)先文明的沖突獨裁與自由的博弈王權(quán)天授真命天子普天之下天生平等盧梭天賦人權(quán)自由平等上帝面前人人平等真理面前人人平等獨裁——憲政與自由終身制普選制應用:一、產(chǎn)量競爭模型(庫洛特博弈)
N個企業(yè),P=a-Q,Q=
i=qi(a-Q-c)=qi(a-c)-qi2-q-iqi
=-qi2+(a-c-q-i)qi=-2qi+(a-c-q-i)=0a-c-q-i=2qia-c=(n-1)qi+2qiqi=雙寡頭模型1=q1(a-q1-q2-c)2=q2(a-q1-q2-c)P=a-Q
成本=c
=-2q1+(a-q2-c)=0q1==-2q2+(a-q1-c)=0-2q2+(a--c)=0-2q2++a-+-c=0 q2==q1應用二、價格競爭模型(豪泰林Hotelling)
①消費者在0和1之間均勻分布,密度為1,距離成本系數(shù)為t,設住在x的人在shop1與shop2無差異。D1=xD2=1-xP1+xt=P2+(1-x)tD1=x=D2=1-x=1=(P1-c)D1=(P1-c)(P2-P1+t)2=(P2-c)D2=(P2-c)(P1-P2+t)②設a0,1-a-b0,距離成本為td2設x到①與②無差異則P1+t(x-a)2=P2+t(1-b-x)2t(x-a+1-b-x)(x-a-1+b+x)=P2-P1(2x-a-1+b)=x=三、公共草場模型設有一種公共草場,n個農(nóng)民,各養(yǎng)羊gi,共,羊的平均價值為V。當C<Cmax時,V(C)>0C>Cmax時,V(C)=0社會最優(yōu)為maxCV(C)-Cc一階條件為V(C**)+C**V’(C**)=c顯然C*>C**V(C**)-V(C*)=[C*V’(C*)-C**V’(C**)]四、公共物品的私人供給模型
設n個居民,公共物品為C=居民i的效用函數(shù)為ui(xi,C)預算約束為Mi=pxxi+pCgi
混合戰(zhàn)略Nash均衡1.純戰(zhàn)略Nash均衡的非存在性案例社會福利博弈找工作流浪救濟不救濟
對一種循環(huán)相克的博弈和剪子,包袱,錘博弈,就沒有Nash均衡,任何純戰(zhàn)略都不可能實現(xiàn)均衡。
3,2-1,3-1,1
0,0
2.混合戰(zhàn)略Nash均衡對純戰(zhàn)略Nash均衡的補充但是,如果政府和流浪漢各自選擇一種混合戰(zhàn)略都可以實現(xiàn)一種Nash均衡,如政府以(0.5,0.5)的概率選擇救濟和不救濟,流浪漢以(0.2,0.8)的概率來選擇工作和流浪,卻是一種相互耦合的最優(yōu)決策。給定我的混合戰(zhàn)略,你的任何選擇的期望效用無差異,同時給定你的混合策略,我的任何期望效用無差異。如何擺脫循環(huán)相克?只有選擇一種混合策略
3,2
-1,3
-1,1
0,0不救濟救濟找工作流浪政府流浪漢0.20.80.50.5
-0.2,1.5-0.2,1.5
-0.2,1.5-0.2,1.5政府流浪漢
-0.2,1.5-0.2,1.5
-0.2,1.5-0.2,1.5政府流浪漢3.混合戰(zhàn)略的定義N個競爭者,其每人的策略集為Si={Si1(Si1),Si2(Si2),………,Sik(Sik)}i在Si集中隨機選擇策略,每種策略選擇的概率是:則叫混合戰(zhàn)略組合。
4.混合策略的Nash均衡:給定對手的混合策略,我的策略是無差異的。給定我的混合策略,對手的策略是無差異的——無差異均衡.在這里,使對手無差異就是最優(yōu),因為可以避免被對手相克,使你無法克我。使純戰(zhàn)略下的循環(huán)相克博弈,變成混合戰(zhàn)略下的無差異均衡博弈。譬如,在政府和流浪者博弈中,流浪漢應該選一種混合戰(zhàn)略,不被政府相克,使政府在選擇救濟或是不救濟間無差異。設流浪者混合策略為(r,1-r),在此策略下,政府選擇救濟的期望效用是:VG(1,r)=3r+(-1)(1-r)=4r-1應該等于選擇不救濟的期望效應:VG(0,r)=(-1)r+0(1-r)=-r所以4r-1=-r,r=0.2,1-r=0.8同樣,設政府的混合策略是(,1-),則此策略亦應該使流浪者在選擇工作或不工作之間無差異。VL(,1)=2+1-=1+VL(,0)=3θ+0(1-)=3θ=1+即政府選擇=0.5時,流浪者在工作與不工作之間無差異??梢宰C明這種無差異及是最優(yōu)的。
如果,政府將選擇單方相克的純策略如果,流浪漢將選擇單方相克的純策略如果,則雙方處于混合戰(zhàn)略均衡狀態(tài)。(相互策略無差異狀態(tài))10.20.5圖視如下:5.稅收監(jiān)管博弈——混合戰(zhàn)略博弈選擇的又一個案例。參與人、納稅人、稅務機關。設a——應納稅,c——監(jiān)督成本,F(xiàn)——罰款。
a-c+F,-a-F
a-c,-a
0,0
a,-a監(jiān)督不監(jiān)督逃稅不逃稅稅局納稅人6.混合戰(zhàn)略與不完全信息的區(qū)別.不完全信息:
對奸猾納稅人的監(jiān)督成本很高(CH)對普通納稅人的監(jiān)督成本較低(CL)。但稅局對納稅人的類型不確知,但有一個概率性的知識,如:是第一類型,是第二類型,這屬于不完全信息博弈。這是概然性信息,而混合策略是概然策略。
a-cH+F,-a-F
a-cH,-a
0,0
a,-a逃稅不逃稅監(jiān)督不監(jiān)督
Nash均衡的多重性及對多重Nash均衡的選擇與甄別.一、Nash均衡的多重性例一:性別戰(zhàn)博弈
2,1
0,0
0,2
1,2足球芭蕾足球芭蕾女男有兩個Nash均衡:(足球,足球),(芭蕾,芭蕾)。例二:斗雞博弈
-3,-3
2,0
0,2
0,0進B退進退A如1962年的古巴導彈危機:美國出動軍艦攔截蘇聯(lián)載導彈核武的戰(zhàn)船。例三:分贓博弈二、對不同Nash均衡的選擇與甄別1.帕累托最優(yōu)型Nash均衡設x,y是兩個player,(ax1,ay1)和(ax2,ay2)是兩組Nash均衡策略,(ux1,uy1)和(ux2,uy2)是x和y在兩種Nash均衡策略下的效用()如果滿足ux1>ux2,并且uy1>uy2,則稱,(ax1,ay1)是帕累托最優(yōu)的Nash均衡。例一:戰(zhàn)爭與和平的博弈
-5,-5
8,-10
-10,8
10,10戰(zhàn)爭和平戰(zhàn)爭和平X園Y園
這里有兩組Nash均衡:(戰(zhàn)爭,戰(zhàn)爭),(和平,和平)。但ux和平>ux戰(zhàn)爭,并且uy和平>uy戰(zhàn)爭,因此,(ax和平,ay戰(zhàn)爭)是比(ax和平,ay戰(zhàn)爭)帕累托占優(yōu)的Nash均衡。2.風險穩(wěn)定(浮動)型Nash均衡
設(ax1,ay1),(ax2,ay2)是兩組Nash均衡,(ux1,uy1),(ux2,uy2)是x和y的Nash均衡效用()如果ax1出現(xiàn)一個微量浮動,則ay1就不再是y的最優(yōu)策略,uy(ax1+,ay1)<uy(ax1+,ay2).則稱(ax1,ay1)是風險浮動型Nash均衡,是針尖上的均衡。(針尖上的舞蹈)如果對于ax2的一個浮動,ay2仍是y的最優(yōu)策略.即uy(ax2+,ay2)>uy(ax2+,ay1)。則稱(ax2,ay2)是風險穩(wěn)定型Nash均衡。例一、兩個企業(yè)的合作博弈
9,9
0,8
8,0
6,6真心合作假意合作真心合作假意合作企業(yè)B企業(yè)A
該博弈有兩個Nash均衡(真,真),(假,假),而(真,真)是較(假,假)帕累托占優(yōu)的Nash均衡。但實際上真心合作總是比較困難的,這是因為(真,真)的風險穩(wěn)定性差,是風險浮動型均衡,而(假,假)是風險穩(wěn)定型的Nash均衡。只要企業(yè)A真心合作的可能<,即只要aA真的浮動aA真>aA真,則B的最優(yōu)策略就不是aB真,而是aB假。證明如下:uB真(aA真-aA真,aB真)=9(1-)uB假(aA真-aA真,aB假)=8-2當>時,uB真<uB假,
證畢。下面再分析(aA假,aB假)給定aA假一個浮動aA假,則有:uB假(aA假-aA假,aB假)=8+6(1-)=6+2uB真(aA假-aA假,aB真)=9uB假-uB真=6+2-9=6-7當時,6-7>0即uB假(aA假-aA假,aB假)>uB真(aA假-aA假,aB真)。也就是說只要aA假的浮動程度小于,就不會改變均衡策略,因此(aA假,aB假)是一對風險穩(wěn)定性的Nash均衡策略。這兩個分析說明了人與人之間以及企業(yè)與企業(yè)之間的真誠的信任與合作難以建立的原因。許多人往往會取曹孟德的策略“寧我負天下人,莫讓天下人負我”。真誠的合作與真心的友誼往往是非常脆弱的,經(jīng)不起挫折,因此是非常不穩(wěn)定的。因為好朋友如果稍有不忠不慎得罪怠慢之處,你就會有被欺騙,吃蒼蠅的感覺。行為偏離發(fā)生的原因通常有三種:(1)蓄意偏離——機會主義傾向?qū)е滦钜馄x,以謀求單方面的好處。(2)行為的誤差——任何行為都可能產(chǎn)生誤差。(3)由于偶發(fā)因素導致的行為偏離,并沒有主觀故意。(4)誤解——行為并沒有偏離,但是其中的某一方誤判了對方的行為,認為對方行為偏出正軌。例二:狩獵博弈
兩個獵人獵捕鹿、兔
5,5
0,3
3,0
3,3獵鹿獵兔獵人A獵鹿獵兔獵人B該博弈有兩組Nash均衡(獵鹿,獵鹿)、(獵兔,獵兔),但第一組Nash均衡不穩(wěn)定。任何一方的策略略有偏離浮動,均衡就會失陷,就不成立。而第二組均衡是穩(wěn)定性均衡,對方的策略浮動和偏離,對他的效用不發(fā)生負面改變。3.聚點均衡在多重Nash均衡中,如果存在某種因素使其中的一種均衡成為更可能繁盛的聚焦點,則這一Nash均衡稱為聚占均衡。(這種因素可能使文化、歷史、信息等)例一:選食物博弈
11
00
00001100000011海鮮牛肉豬肉A海鮮牛肉豬肉B如果A,B是廣東、寧波人,則聚點均衡是(海鮮,海鮮)。如果A,B是伊斯蘭人,則聚點均衡是(牛肉,牛肉)。如果A,B是內(nèi)地人,則聚點均衡是(豬肉,豬肉)。例二:性別博弈
如果是男生,則(足球,足球)是聚點均衡。如果是女生,則(芭蕾,芭蕾)是聚點均衡。例三:報時博弈(12,12)最可能是聚點均衡。例四:城市分組博弈(杭州寧波,長春沈陽)是聚點均衡。例五:分贓博弈4.相關均衡多重博弈均衡的實現(xiàn)與博弈的解的某種事件相關。例一:男女性別博弈男女在公交車站等車,既可以乘車去看足球,也可以乘車去看芭蕾。如果來的車是去足球場,則(足球,足球)是相關均衡。如果來的車是芭蕾舞院,則(芭蕾,芭蕾)是相關均衡。例二:巴以博弈
(戰(zhàn),戰(zhàn))、(和,和)是兩種均衡,最終均衡的實現(xiàn)取決于外部的相關因素。如果國際社會加以干預,則(和,和)均衡會實現(xiàn),如果國際社會不加以干預,則(戰(zhàn),戰(zhàn))均衡會實現(xiàn)。上述是四種對多重均衡的選擇甄別法則。四、Nash均衡的存在性四種類型的靜態(tài)均衡(1)上策均衡(2)重復剔除的上策均衡(3)純策略Nash均衡(4)混合策略Nash均衡(循環(huán)相克博弈)每一種都是后者的特例只要證明了最后一種Nash均衡的存在,就同時證明了前三種Nash均衡的存在。
完全信息動態(tài)博弈一、什么是動態(tài)博弈1.博弈選擇有先后順序(對比靜態(tài)博弈)2.行為者可觀察到對手的策略選擇(對比靜態(tài)博弈)3.博弈過程要你來我往的多個回合如:巴以博弈
二、動態(tài)博弈的兩種基本類型1、重復性動態(tài)博弈相同結(jié)構(gòu)的博弈多次輪回重復2、序貫動態(tài)博弈每一階段博弈的結(jié)構(gòu)(信息、策略、資源、稟賦)都不相同,博弈路徑具有依賴、繼承與擴展性。三、動態(tài)序貫博弈的擴展式表達
(一)基本要素(1)參與人(2)行為順序(3)策略空間(4)信息集(5)支付函數(shù)(6)自然選擇(二)動態(tài)序貫博弈擴展式表述的樹狀結(jié)構(gòu)
(1)結(jié)
參與人采取行動的時點,在不同的決策結(jié)參與人擁有不同的信息,同時面臨不同的選擇。a.決策結(jié)的傳遞性:a<b,b<c,則a<c。b.決策結(jié)的反對稱性:若a<b,則不可能有b<a。c.全排序性:若a<c,b<c,則要么a<b要么b<a。
d.初始結(jié)和終點結(jié):定義:P(X)為x之前的所有結(jié)的集合(前列集)T(X)為x之后的所有結(jié)的集合(后續(xù)集)當P(x)=時,稱為初始結(jié)。當T(x)=時,稱為初始結(jié)。(2)枝枝是決策結(jié)與直接后續(xù)結(jié)之間的連線,表示一種策略選擇。對于一個給定的決策結(jié)x,存在一個給定的行為結(jié)合A(x),與x的直接后續(xù)結(jié)集合一一對應。如果那么必然有,即行為選擇不同,則后續(xù)結(jié)不同。(3)信息集——反映了不同決策結(jié)點的參與人的信息狀況(三)樹狀博弈表達的結(jié)構(gòu)原則(1)一個決策結(jié)不能是同一信息集其他決策結(jié)的前列結(jié)或后續(xù)結(jié)。設x,x’屬于同一個信息集H(x),則x不屬于P(x’),且x’不屬于P(x)。(2)同一個信息集的所有結(jié)都是同一個參與人的決策結(jié)。第一,一個信息集可能包含確定信息,也可能包含不確定信息。一個信息集如只包含一個決策結(jié),稱為單結(jié)信息集,它包含的是確定信息,說明參與人對相關信息有完全確定的知識。如果博弈的所有信息集都是單結(jié)的,稱其為完美信息博弈。確定信息——單結(jié)信息集不確定信息——多結(jié)信息集(P145)第二,單結(jié)信息集——意味確定信息多結(jié)信息集——意味著不確定信息(用虛線連接)第三,一個不確定信息的解屬于一個信息集,而不能被兩個信息集所分割。完全完美信息與完全不完美信息(1)完全完美信息動態(tài)博弈(知道而且看到)如房地產(chǎn)企業(yè)A,B博弈,A是先在企業(yè),有成本大和成本小兩種概型,A的類型是自然(N)的選擇。在此N選擇的A的類型,A選擇開發(fā)或不開發(fā),B亦選擇開發(fā)或不開發(fā),B不僅知道N,A可能的選擇,而且看到了N、A的實際選擇,這就屬于完全完美信息動態(tài)博弈完全完美信息搏弈的樹狀結(jié)構(gòu)圖式伊拉克美美不研核研核核查不核查核查不核查伊拉克配合不配合美罷休軍事威脅伊拉克退讓不退讓美進攻不進攻完全不完美信息搏弈的樹狀結(jié)構(gòu)圖式伊拉克美美不研核研核核查不核查核查不核查伊拉克配合不配合美罷休軍事威脅伊拉克退讓不退讓美進攻不進攻(2)完全不完美信息動態(tài)博弈在此B知道A有高成本與低成本兩種類型,但沒有到N到底選擇了A的哪種類型,在此屬于完全但不完美信息動態(tài)博弈。(博弈歷史信息的丟失或遺忘,對自然選擇的遺忘)動態(tài)博弈的兩種基本類型1.重復博弈——相同結(jié)構(gòu)的博弈重復多次。如:囚徒困境2.序慣博弈——子博弈的博弈結(jié)構(gòu)都不相同,博弈路徑繼承性。三、序慣博弈的戰(zhàn)略式表述方式(1)戰(zhàn)略式表述與擴展式的表述的區(qū)別第一,戰(zhàn)略式表述式運籌帷幄法——制定一個全面的戰(zhàn)略計劃。擴展式表述是相機抉擇法——走一步看一步,相機而動。第二,戰(zhàn)略式表述運用支付矩陣。擴展式表述運用樹狀路徑圖。房地產(chǎn)企業(yè)之間的博弈擴展式表達如下:戰(zhàn)略式表達如下:綠城開發(fā)不開發(fā)萬科萬科(-3;-3)(1;0)(0;1)(0;0)-3;-3-3;-31;01;00;10;00;10;0綠城萬科開發(fā)不開發(fā)(開發(fā),開發(fā))(開發(fā),不開發(fā))(不開發(fā),開發(fā))不(不開發(fā),不開發(fā)美伊博弈擴展式表達如下:戰(zhàn)略式表達:美伊伊美美服從不服從動武不動武動武不動武(-10;2)(-2,8)(-8,2)(0,5)-10,2-10,2-2,8-2,8-8,20,-5-8,20,-5服從不服從(動,動)(動,不動)(不動,動)(不動,不動)
天人博弈擴展式表達如下:戰(zhàn)略式表達如下:人天天人人下雨不下雨帶傘不帶傘帶傘不帶傘(1,0)(-1,0)(-1,0)(1,0)0,10,10,-10,-10,-10,10,-10,1(帶傘,帶傘)(帶傘,不帶傘)(不帶傘,帶傘)(不帶傘,不帶傘)下雨不下雨有備無患相機而定精神失常好漢戰(zhàn)略(2)序量博弈戰(zhàn)略的空間結(jié)構(gòu)序量博弈戰(zhàn)略是一個完備的戰(zhàn)略計劃,是一個多維戰(zhàn)略空間的元素,這個戰(zhàn)略空間的結(jié)構(gòu)是:第一,空間的緯度——取決于信息集的數(shù)量設H為信息集的集合,h為信息集,A為行動集合,即博弈者根據(jù)掌握的信息所可能采取的行動。以美伊博弈為例:美國的信息集有兩個,即伊拉克服從與不服從。即H={h1,h2},h1服從,h2不服從,對于每一個信息集h1和h2,美國都有一個行動集A(h1)和A(h2)。A(h1)={a1動武,a2不動武}A(h2)={a1動武,a2不動武}美國的
純策略S是從信息集H到A的一個映射。即S:。對于每一個信息集,美國都有一個相應的戰(zhàn)略。
因此,美國的純戰(zhàn)略空間是由信息集決定的行動集合的笛卡爾積。即
這是一個純戰(zhàn)略空間第二,戰(zhàn)略空間的總戰(zhàn)略元素等于每個空間的戰(zhàn)略元素的乘積。即?!笐?zhàn)略元素在上例中,#A(h1)=2#A(h2)=2#S=#A(h1)×#A(h2)=2×2=4即『(動武,動武),(動武,不動武),(不動武,動武),(不動武,不動武)』四、序慣博弈的純戰(zhàn)略Nash均衡Si*∈argmaxU(si,s-i*)
如:房地產(chǎn)博弈就有三個Nash均衡。{開發(fā),(不開發(fā),開發(fā))}{開發(fā),(不開發(fā),不開發(fā))}{不開發(fā),(開發(fā),開發(fā))}五、序慣博弈的混合戰(zhàn)略Nash均衡
(1)序量博弈的混合戰(zhàn)略在剛才的房地產(chǎn)博弈中,開發(fā)商A有四個純戰(zhàn)略選擇,他可選擇其中任意一個純戰(zhàn)略,他也可以選擇一個混合戰(zhàn)略,即四個戰(zhàn)略的概率組合:以的概率選擇(開發(fā),開發(fā)),(開發(fā),不開發(fā)),(不開發(fā),開發(fā)),(不開發(fā),不開發(fā)),這種戰(zhàn)略稱為混合戰(zhàn)略。(2)序慣博弈的“行為戰(zhàn)略”這種全面謀劃進程的混合戰(zhàn)略,又等價于在相機抉擇過程中的“行為戰(zhàn)略,即參與人在每個信息集上,以一定的概率選擇行為。以房地產(chǎn)開發(fā)為例。設行為人的行為戰(zhàn)略為,即相對于第一個信息集H1:A開發(fā),B的行動選擇集合A(H1)是一個概率集合。設他最終選擇的概率開發(fā),概率不開發(fā)。對于第二個信息集H2:A不開發(fā),B的行動選擇集合也是一個無序的行動概率組合,設他選擇其中的概率開發(fā),概率不開發(fā)。這樣一個行為戰(zhàn)略等價于一個混合戰(zhàn)略。在信息集H1(A開發(fā))的情況下,B選擇開發(fā)的行動戰(zhàn)略,只有當B選擇純戰(zhàn)略(開發(fā),開發(fā)),(開發(fā),不開發(fā))時才有可能。即有。在H1(A開發(fā))的信息下,B選擇不開發(fā)的行為戰(zhàn)略,只有當B選擇純戰(zhàn)略(不開發(fā),開發(fā)),(不開發(fā),不開發(fā))才有可能,即。由此推出。即行為戰(zhàn)略等價于純戰(zhàn)略。六、子博弈精練Nash均衡1.序量博弈Nash均衡的多重性如房地產(chǎn)博弈就有三個Nash均衡:{A開發(fā),B(不開發(fā),開發(fā))},{A開發(fā),B(不開發(fā),不開發(fā))},{A不開發(fā),(開發(fā),開發(fā))}。
①不可信均衡。在這三個均衡中,有些均衡是不可信的,是一種“顫抖”的均衡,針尖上的均衡。因為:第一,包含有不可置信的威信。如:B的戰(zhàn)略(開發(fā),開發(fā)),對A來說就是不可置信的。第二,包含有偶然性因素。如:B的戰(zhàn)略(不開發(fā),不開發(fā)),只有當A選擇開發(fā)時,才是最優(yōu)的。當A選擇不開發(fā)時,就不是最優(yōu)的,也就是說只有在特定的博弈路徑上才是均衡。②可信的均衡。有些均衡是可信的、合理的。因為它在所有的博弈路徑都是均衡策略。3.子博弈精練Nash均衡子博弈精練Nash均衡就是要剔除掉那些不可信的、只在特定的博弈路徑(子博弈)上成立的均衡,尋找到可信的、在所有博弈路徑上成立的均衡。①什么是子博弈?由博弈路徑上一個單結(jié)信息集開始的,并且它的后續(xù)結(jié)不與其它信息集粘連的博弈過程。特點:a.信息確定b.信息不丟失,過去知道的現(xiàn)在亦知道。②子博弈精練Nash均衡博弈戰(zhàn)略組合S*=(Si*,S-i*)是一個子博弈精練Nash均衡,如果:第一,S是原博弈的納什均衡。第二,S在每一個子博弈上給出納什均衡。也就是說均衡戰(zhàn)略不能是“碰巧”均衡的,而必須是完全均衡的,即在每一種可能的情況下都必須均衡的。如在房地產(chǎn)開發(fā)中,B的戰(zhàn)略可能只在A選擇開發(fā)、或者不開發(fā)時時最優(yōu)的,而必須在A無論選擇開發(fā)還是不開發(fā)時都是最優(yōu)的。子博弈精煉納什均衡的解法
----------逆向歸納法1、逆向歸納法的圖形解借錢博弈(一)法律完備環(huán)境下的均衡{甲:分;乙:(借,打)}乙借不借甲(1,0)分(2,2)不分乙打不打(1,0)(0,4)借錢博弈(二)如果法律不健全,情況又如何呢?法律不健全環(huán)境下的均衡:{甲:不分;乙(不借;不打)}乙借甲不借(1,0)(2,2)分不分乙打(-1,0)不打(0,4)2、逆向歸納法的函數(shù)解設一個二人參加的二階段博弈,第一人的行為空間是A1,第二人的行為空間是A2。第一人首先選擇a1∈A1,第二行為人觀察到a1后,再選擇a2∈A2,a2的選擇滿足:a2=argmaxU2(a1;a2)然而,a2的選擇取決于a1,因此有:a2=R(a1)第一行為人知道a2=R(a1),因此,他要選擇a1使?jié)M足:
a1=argmaxU1(a1;R2(a1))蜈蚣博弈與合作理性問題n人接力博弈按逆向歸納法,n個行為人應該選擇行為路徑A,而不是D,但前提是每個行為人都具有完全理性和對他人完全行為理性的信念既必須相信后來行為人都會選擇行為A。1A2AD(1….1)(1/2…1/2)D3AD(1/3…1/3)-----ND(1/n….1/n)(2…..2)A機會主義是怎樣產(chǎn)生的呢?
如果行為人對其余行為人的行為理性存有懷疑,既認為其余行為人選擇行為A的概率P<1,那么n個合作行為人共同選擇A的概率就是Pn,當n擴大時,Pn就會越小。這樣,就會導致行為人萌發(fā)選擇機會主義行為D的動機。(2)兩人合作循環(huán)博弈如下圖所示:按逆向歸納法,只要任何一方具有機會主義傾向,合作就無法達成。12AD(1,1)(0;3)AA1ADD(2;2)----2AD(97;100)1AD(99;99)2DA(98;101)(100;100)子博弈精煉納什均衡的應用1、斯坦克爾伯格寡頭競爭模型首先回顧一下完全信息靜態(tài)博弈的庫諾特模型:兩個企業(yè)A、B,選擇產(chǎn)量QA、QB,使ЛA、ЛB最大化,()P=a-(QA-QB)
ЛA=QA(P-C)
ЛB=QB(P-C)根據(jù)問題的一階條件可以推出:QA=QB=?(a-C)動態(tài)博弈結(jié)果又會如何呢?以上是靜態(tài)博弈下A、B同時選擇產(chǎn)量的結(jié)果。但是在動態(tài)博弈下,A首先選擇產(chǎn)量,然后B選擇產(chǎn)量。我們用逆向歸納法求解。從B開始倒推:QB=argmaxЛB(QA,QB)即QB滿足:?ЛB?QB=0A將如何選擇呢?A知道B將選擇A現(xiàn)在要選擇下面請看結(jié)果:如果代入上面式子又可得:在動態(tài)博弈中,出現(xiàn)了明顯的先發(fā)優(yōu)勢,首先行動者占有更大的份額委托代理模型(一)企業(yè)主與經(jīng)理人之間的委托——代理博弈參與約束:W(e)-e>0,W(s)-s>0;激勵兼容:W(e)-e>W(s)-sR(e)-W(e)>R(s)-W(s)委托人委托不委托代理人接受拒絕代理人努力偷懶[R(0);0][R(0);0][R(e)-W(e);W(e)-e][R(s)-W(s);W(s)-s]給相關函數(shù)賦值后可以得出什么結(jié)果呢?設R(e)=10e-e2,e=2,s=1則R(0)=0,R(e)=16,R(s)=9再設W(e)=4,W(s)=2,則有:由逆向歸納推出均衡為:[委托人:委托;代理人:接受,努力]委托人委托不委托代理人代理人接受拒絕(0;0)(0;0)[12;2][7;1]努力偷懶委托代理模型(二)設e為連續(xù)變量,R是e的隨機函數(shù),R=R(e);C是努力的辛苦成本;W=W[R(e)];代理人機會成本為U委托人收益:R(e)-W[R(e)]代理人收益:W[R(e)]-C(e)委托人委托不委托代理人接受拒絕[R(0);U][R(0);U]代理人努力偷懶[R(e)-W(R(e));W(R(e))-C(e)]注意以下區(qū)別參與約束:W[R(e)]-C(e)>U委托人意圖:W[R(e)]=U+C(e)委托人得益:R(e)-W[R(e)]=R(e)-U-C(e)委托人得益最大化條件:激勵相容條件:上面關系可見下圖:R(e)W(e)C(e)eC(e)W(e)R(e)e*設R(e)、W(e)為凹函數(shù),C(e)為凸函數(shù)我們可以給各函數(shù)賦型設R(e)=4e+η,其中η是隨機擾動項,C(e)=e2,U=1,W=A+B[R(e)]=A+B[4e+η]委托人收益為:R-W=4e+η-{A+B(4e+η)}=4(1-B)e+(1-B)η-A因為η是均值為0的隨機變量,所以委托人期望收益為:E(R-W)=4(1-B)e-A代理人收益為:W-C=A+B(4e+η)-e2E(W-C)=A+B4e-e2當e*=2B時,E(W-C)達到最大值。代入?yún)⑴c約束條件:E(W-C)>U=1最低參與約束:A+B4e=1+e2滿足參與人約束的委托人收益:4e-1-e2當e=2時,4e-1-e2達到最大值。令e=2,代入e*=2B,可以推出:B=1,再代入A+B4e=1+e2A,推出:A=-3則有:W=A+B[R(e)]=-3+R由此可以看出,最有效率的工資制度是一種固定上交利潤的承包制。國際關稅動態(tài)博弈模型設:I、J兩國,Qi、Qj為產(chǎn)量,Pi、Pj為價格,C為生產(chǎn)成本,Ti、Tj為兩國關稅,Hi、Ei、Hj、Ej為兩國企業(yè)的國內(nèi)和國際生產(chǎn)份額,Qi=Hi+
EJ,QJ=HJ+
Ej市場需求函數(shù)為:Pi=a-QiPJ=a-QJ
國家首先決定關稅T,以最大化國家利益;企業(yè)根據(jù)國家關稅決定國內(nèi)與國際貿(mào)易出口份額,同樣為了最大化企業(yè)收益。Ui=PiHi+PJEi-C(Hi+
Ei)-TJEi根據(jù)逆向歸納法,首先推導企業(yè)的策略選擇I國企業(yè)目標:maxUi國際={Ei[a-(Ei+Hj)-C]-TjEi}maxUi國內(nèi)={Hi[a-(Hi+Ej)-C]}J國企業(yè)目標:maxUj國內(nèi)={Hj[a-(Hj+Ei)-C]}maxUj國際={Ej[a-(Ej+Hi)-C]-TiEj}以上四式分別對Hi、Ei、Hj、Ej求導,并令其導數(shù)為零,可得:Hi=Ei=
Hj=Ej=現(xiàn)在再推演國家策略T。國家目標為:Wi=Ui+TiEj+1/2(Hi+Ej)2其中Ui:企業(yè)收益,TiEj:國家稅收,1/2(Hi+Ej)2:消費者剩余P0QaPia-PiPi=a-Qia-Pi=Hi+Ej將Hi、Ei、Hj、Ej代入Wi、Wj得出:令輪流出價的討價還價模型A、B兩人分一塊蛋糕,輪流討價還價。X表示A得到的份額,(1-X)表示剩余給B的份額。XA是A給自己的出價,XB是B給A的出價,(1-XA)是A給B的出價,(1-XB)是B給自己的出價。設每輪討價還價花費一個時間單位,T輪討價還價共花費T個時間單位,每個時間單位對A、B的貼現(xiàn)因子是δA、δB。下面應用逆向歸納法求解動態(tài)討價還價博弈的子博弈納什均衡。
首先設T=2,A先開價,B再還價。
B還價時可以提出XB=0,(1-XB)=1,因為A沒有再還價的機會,所以只能接受B的出價。B在T=2時,得到1個單位的蛋糕,相當于在T=1時得到1×δB個單位的蛋糕。如果A在第一輪出價時提出給B蛋糕1×δB個單位,B將會同意A的出價。所以子博弈精煉納什均衡的策略是{A:(1-δB);B:δB}。
再看T=3時的情況。最后由A出價,由于B已經(jīng)沒有還價的機會,因此A會提出XA=1,B只能同意。A在T=3時得到1單位的蛋糕,相當于T=2時得到δA單位的蛋糕。因此,如果在T=2時,B提出XB=δA,A當會同意這時B得到(1-δA)的份額,這相當于B在T=1時得到δB(1-δA)。所以,如果A在第一輪時提出給B:δB(1-δA),A:1-δB(1-δA),B當會同意A的出價。因此,三回合動態(tài)博弈的子博弈納什均衡是:{A:1-δB(1-δA);B:δB(1-δA)}再看T=4的情況:
第一輪第二輪第三輪第四輪A:
1-δB[1-δA(1-δB)];δA(1-δB);1-δB0B:δB[1-δA(1-δB)];1-δA(1-δB);δB1
當T為任意大于等于三的整數(shù)時,情形又如何呢?
設當T輪時,A所得份額是M,這相當與在T-1輪時A得到δAM,此時B所得應該為1-δAM,B在T-1輪時得到1-δAM,相當于在T-2輪時得到δB(1-δAM),此時A所得應該為1-
δB(1-δAM),就是說,A在T輪所得應該相當于在T-2輪時得到的。即有:M=1-
δB(1-δAM)。由此可以推出:
M=什么是決定博弈最終得失與輸贏的重要因素呢?從以上動態(tài)博弈中可以發(fā)現(xiàn),如果是一個多輪回的長時間博弈,其博弈結(jié)果在很大程度上取決于雙方的耐心較量,即A、B時間貼現(xiàn)率δA、δB之間的比較。如果A很有耐心,而B很沒有耐心,即當δA→1,同時δB→0時,則A可以憑借耐心幾乎全部獲得整個博弈利益。反之反是。世間許多政治、經(jīng)濟、社會方面的博弈都是如此。中東地區(qū)巴勒斯坦與以色列的沖突與爭奪,實際上就是一場比誰更有耐心的博弈。最終的勝者是更堅韌、更有耐心的民族。重復性動態(tài)博弈的納什均衡解定義:由一個基本元博弈多次重復構(gòu)成的多輪回動態(tài)博弈叫重復性動態(tài)博弈。特點:(1)不同階段博弈之間沒有繼承、擴展、延續(xù)的必然聯(lián)系;(2)博弈歷史被博弈人完美記憶;(3)博弈人的得益是所有階段性得益的貼現(xiàn)值或加權(quán)平均值(4)在動態(tài)博弈中,時間影響并且進入價值。問題:今年的100元錢與明年的100元錢是否具有相同價值?明年100元錢在今年相當于多少?什么貼現(xiàn)率?貼現(xiàn)率公式:有限次重復性博弈的納什均衡解1、循環(huán)相克博弈的有限重復博弈例如:二人石頭、剪刀、布的多輪博弈游戲,其元博弈的納什均衡解是:各人以三分之一的相同概率選擇石頭、剪刀、布。如果是一個多輪重復博弈,通過逆向歸納法可以證明:其子博弈納什均衡與原來博弈相同,仍然是每次都以三分之一的概率選擇石頭、剪刀、布。2、具有唯一純戰(zhàn)略納什均衡博弈的有限重復博弈例如:囚徒困境博弈的有限重復博弈。通過逆向歸納法可以推出,其子博弈納什均衡與原來博弈相同,即雙方每次都選擇坦白。
理論結(jié)論:循環(huán)相克博弈和具有唯一純戰(zhàn)略納什均衡博弈的有限重復博弈的納什均衡解是:每一論都選擇與元博弈納什均衡戰(zhàn)略相同的戰(zhàn)略。
如何解釋:連鎖店悖論?3、多個純戰(zhàn)略納什均衡博弈的有限重復博弈觸發(fā)戰(zhàn)略和子博弈精煉納什均衡的多重性。這一類博弈的子博弈精煉納什均衡結(jié)果非常復雜與多樣,不僅存在由元博弈納什均衡組合構(gòu)成的重復性動態(tài)博弈納什均衡,而且存在由“觸發(fā)戰(zhàn)略”構(gòu)成的子博弈精煉納什衡。例如,兩個廠商之間的定價博弈,它們各有高、中、底三種價格策略。這個元博弈有兩個純戰(zhàn)略納什均衡:(M,M)和(L,L)。但是該博弈的兩次重復博弈卻有多個子博弈精煉納什均衡。廠商二廠商一HMLHMLL5;50;60;26;02;03;32;00;21;1均衡一:(M,M);(L,L)均衡二:(M,M);(M,M)均衡三:(L,L);(L,L)均衡四:(L,L);(M,M)另外,還有一個觸發(fā)戰(zhàn)略:廠商1:第一次選擇H,如果第一次結(jié)果為(H,H),則第二次選擇M,如果第一次結(jié)果為其它,則第二次選擇L。廠商2:同廠商1。兩次重復博弈的均衡路徑為:第一次(H;H);第二次(M;M)。這是一個子博弈完美納什均衡。這種戰(zhàn)略被稱為存在“報復機制”的觸發(fā)戰(zhàn)略,即雙方首先試探合作,如果對方采取不合作的機會主義策略,則下一輪采取“報復”策略。有限次重復博弈的民間定理先看一個兩廠商市場選擇策略博弈。在這個博弈中,雙方只要采取策略A,則最差均衡得益都是1,這種最底限度保證得益稱為“個體理性得益”,由雙方的“個體理性得益”構(gòu)成得益數(shù)組W,在此,均衡得益數(shù)組W=(1;1)。則有以下民間定理成立:設元博弈有多個純戰(zhàn)略納什均衡,并且有均衡得益數(shù)組W,那么,在該博弈的多次重復中,所有不小于個體理性得益的可實現(xiàn)得益,都至少有一個子博弈精煉納什均衡的極限的平均得益來實現(xiàn)它們。就是說,在左圖中由(1;1)、(1;4)、(3;3)、(4;1)四點連成邊界線所圍陰影部分中間沒一點所對應的雙方得益,都有子博弈精煉納什均衡或者這種均衡的極限來實現(xiàn)它。廠商2廠商1ABAB3;34;11;40;0廠商一廠商二(3;3)(1;4)(4;1)W=(1;1)無限次重復博弈的納什均衡(1)循環(huán)相克博弈無限次重復的納什均衡。例如:無限次重復進行剪刀、石頭、布的博弈游戲,其納什均衡與有限次重復博弈和元博弈相同,都是每次采用各子策略三分之一的混合戰(zhàn)略。(2)具有唯一純戰(zhàn)略納什均衡博弈無限次重復的納什均衡。類型一:元博弈納什均衡是帕累托意義上的最優(yōu)戰(zhàn)略組合,則其元博弈無限次重復的納什均衡與有限次重復相同。類型二:元博弈納什均衡不是帕累托意義上的最優(yōu)戰(zhàn)略組合,博弈雙方存在通過合作使自身利益獲得帕累托改進的可能,則存在觸發(fā)戰(zhàn)略納什均衡的可能。例如;無限次寡頭企業(yè)市場價格競爭博弈在這個博弈的無限次重復中,如果雙方采取如下觸發(fā)戰(zhàn)略:第一階段選擇H,在第t階段,如果前t-1階段的結(jié)果都是(H;H),則繼續(xù)采用H,否則采用L。就是說,雙方首先都試圖合作,選擇H,如果對方合作則一直選擇H,如果對方不合作,則一直選擇L作為報復。企業(yè)一企業(yè)二HLHL4;40;55;0111;;;;11;1可以證明,如果貼現(xiàn)因子δ足夠大,上述觸發(fā)戰(zhàn)略構(gòu)成無限次重復博弈的一個子博弈精煉納什均衡。證明如下:設企業(yè)一已經(jīng)采用上面觸發(fā)策略,只要證明δ足夠大時,觸發(fā)策略同樣是企業(yè)二的最佳策略,由于兩企業(yè)是對稱的,所以也就證明了上面策略是雙方的納什均衡策略。當企業(yè)一采用策略H時,如果企業(yè)二采用非合作的機會主義策略L,那么,雖然第一階段能得到5,但是,由于從此企業(yè)一會采用報復策略L,因此,以后每一輪博弈的最好得益是1,全部博弈的現(xiàn)值為:π=5+1δ+2δ2+···=5+δ/(1-δ)
如果企業(yè)二采用合作策略H,則第一階段得
益為4,并且以后每階段的得益都是4,設總得益為V,由于是無限次重復博弈,可以把第一階段以后的得益也看成V,則有:V=4+δ·VV=4/(1-δ)如果;4/(1-δ)>5+δ/(1-δ),即δ>1/4時,企業(yè)二就會采用策略H,否則采用策略L。依此可推出以后每一輪博弈的均衡策略都是H。這樣,我們就證明了,只要博弈人足夠重視遠期收益,觸發(fā)策略就是無限重復博弈的納什均衡。無限次重復博弈民間定理設G是一個完全信息靜態(tài)博弈,用(e1‘‘‘en)記G的納什均衡得益,用(x1‘‘‘xn)表示G的任意可實現(xiàn)得益,如果xi>ei對任意博弈方都成立,而δ足夠大,那么無限次重復博弈G(∞,δ)中一定存在一個子博弈完美納什均衡,使得各博弈方的平均得益就是(x1‘‘‘xn)無限次重復博弈民間定理意味著,上面圖形中陰影部分所對應的數(shù)組,在該
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年計算機基礎知識的內(nèi)容劃分研究試題及答案
- 2024年食品質(zhì)檢員考試的心理準備試題及答案
- 解析2024年統(tǒng)計學考試重點試題及答案
- 新進護士崗前培訓
- 美容師當下市場競爭態(tài)勢與分析試題及答案
- 2024年藥理學考試設計題及答案
- 2024年汽車維修工考試對行業(yè)影響
- 面向?qū)櫸镏鞯臓I養(yǎng)傳播方式試題及答案
- 寵物營養(yǎng)學新技術(shù)對考試的影響與試題及答案
- 2024年寵物營養(yǎng)師考試復習經(jīng)驗與試題及答案
- DB45T 1056-2014 土地整治工程 第3部分:驗收技術(shù)規(guī)程
- 特種設備重大事故隱患判定準則
- 信息技術(shù)行業(yè)安全保障措施及系統(tǒng)穩(wěn)定性維護
- 電力安全一把手講安全課
- (2025)駕照C1證考試科目一必考題庫及參考答案(包過版)
- 2025年泰興經(jīng)濟開發(fā)區(qū)國有企業(yè)招聘筆試參考題庫含答案解析
- 2025年人民法院信息技術(shù)服務中心招聘應屆高校畢業(yè)生高頻重點提升(共500題)附帶答案詳解
- 無線通信射頻收發(fā)系統(tǒng)設計研究
- 造紙廠管理規(guī)章制度
- 護理授權(quán)管理制度內(nèi)容
- 斷層封閉性定量研究現(xiàn)狀
評論
0/150
提交評論