網(wǎng)絡(luò)結(jié)構(gòu)與效應(yīng)原理:第6章 博弈論基本概念_第1頁(yè)
網(wǎng)絡(luò)結(jié)構(gòu)與效應(yīng)原理:第6章 博弈論基本概念_第2頁(yè)
網(wǎng)絡(luò)結(jié)構(gòu)與效應(yīng)原理:第6章 博弈論基本概念_第3頁(yè)
網(wǎng)絡(luò)結(jié)構(gòu)與效應(yīng)原理:第6章 博弈論基本概念_第4頁(yè)
網(wǎng)絡(luò)結(jié)構(gòu)與效應(yīng)原理:第6章 博弈論基本概念_第5頁(yè)
已閱讀5頁(yè),還剩54頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

博弈論基本概念(對(duì)應(yīng)教材第6章)[現(xiàn)代博弈論開(kāi)始于1928年馮諾伊曼的工作]本章學(xué)習(xí)要點(diǎn)通過(guò)幾種典型博弈的類(lèi)型囚徒困境,鷹鴿博弈,獵鹿博弈理解博弈論的基本概念(及其引入的過(guò)程)參與人,策略,收益(收益矩陣)最佳應(yīng)對(duì),占優(yōu)策略納什均衡混合策略,混合策略均衡社會(huì)最優(yōu)體會(huì)“情景

博弈

求解”過(guò)程中的思想博弈-從一個(gè)例子開(kāi)始“復(fù)習(xí)考試”還是“準(zhǔn)備報(bào)告”?假設(shè)在截止日期前一天,你有兩件要做的事情:一是復(fù)習(xí)(為了參加考試),二是準(zhǔn)備(給一個(gè)報(bào)告)。你只能選擇做一項(xiàng)??荚嚦煽?jī)可以預(yù)計(jì)如果復(fù)習(xí),則考試成績(jī)92分,沒(méi)復(fù)習(xí),則80分報(bào)告需要你和你的拍檔合作完成如果你和拍檔都準(zhǔn)備報(bào)告,則每人都是100分如果只有一人準(zhǔn)備報(bào)告,則每人都是92分如果兩人都沒(méi)準(zhǔn)備報(bào)告,則每人都是84分那么你該選擇做什么呢?(假設(shè)你和拍檔各自獨(dú)立考慮這個(gè)問(wèn)題)例子:“考試-報(bào)告”博弈設(shè)你們都追求平均成績(jī)的最大化:你和搭檔都準(zhǔn)備報(bào)告,則平均成績(jī)均為(80+100)/2=90分你和搭檔都準(zhǔn)備考試,則平均成績(jī)均為: (92+84)/2=88分考試成績(jī)可以預(yù)期:如果復(fù)習(xí),則考試成績(jī)92分如果沒(méi)復(fù)習(xí),則考試成績(jī)80分報(bào)告是你和你的拍檔合作完成的:如果你和拍檔都準(zhǔn)備報(bào)告,則每人100分如果只有一人準(zhǔn)備報(bào)告,則每人92分如果兩人都沒(méi)準(zhǔn)備報(bào)告,則每人84分若一方復(fù)習(xí)考試,另一方準(zhǔn)備報(bào)告:準(zhǔn)備報(bào)告的得:(80+92)/2=86分復(fù)習(xí)的得:(92+92)/2=92分收益矩陣(表達(dá)博弈的一種直觀方式)你的拍檔準(zhǔn)備報(bào)告復(fù)習(xí)考試你準(zhǔn)備報(bào)告90,9086,92復(fù)習(xí)考試92,8688,88其中第一個(gè)數(shù)字是“你”的收益,第二個(gè)是“拍檔”的收益(也稱(chēng)“回報(bào)”,payoff)博弈的基本要素一般情況下,博弈具有三個(gè)要素:(1)

參與者(至少兩個(gè));(2)

策略集:每個(gè)參與者都有一組關(guān)于如何行為的備選項(xiàng),此處備選項(xiàng)指參與者的可能策略。(3)收益(回報(bào)):每個(gè)策略行為的選擇,都會(huì)使參與人得到一個(gè)收益。這個(gè)收益結(jié)果還受互動(dòng)中他人策略選擇的影響。策略組:由每個(gè)參與者出一個(gè)策略構(gòu)成的組合。給定策略組,每個(gè)參與人對(duì)應(yīng)有一個(gè)收益(可能不同的)通常,收益的記號(hào):P1(S,T),P2(S,T)博弈行為推理的幾點(diǎn)基本假設(shè)每個(gè)參與人對(duì)博弈結(jié)構(gòu)(收益矩陣)有充分了解。參與人都是理性的(rational)追求自己的收益最大化(盡量大)給定其他人的策略,若自己能通過(guò)改變當(dāng)前策略獲得更大收益,則會(huì)放棄當(dāng)前策略,換個(gè)更好的知道其他參與人也是如此決策的獨(dú)立性不商量,沒(méi)有“協(xié)議聯(lián)盟”之類(lèi)“考試-報(bào)告”博弈中的行為推理嚴(yán)格占優(yōu)策略:對(duì)一個(gè)參與人(A)來(lái)說(shuō),若存在一個(gè)策略,無(wú)論另一個(gè)參與人(B)選擇何種行為策略,該策略都是最佳選擇,則這個(gè)策略就稱(chēng)為是A的嚴(yán)格占優(yōu)策略。按照前面的假設(shè),參與人將選擇嚴(yán)格占優(yōu)策略。這個(gè)例子中,“復(fù)習(xí)考試”對(duì)雙方都是嚴(yán)格占優(yōu)策略。你的拍檔準(zhǔn)備報(bào)告復(fù)習(xí)考試你準(zhǔn)備報(bào)告90,9086,92復(fù)習(xí)考試92,8688,88“囚徒困境”假設(shè)有兩個(gè)疑犯被警察抓住。并且被分開(kāi)關(guān)押在不同的囚室。警察強(qiáng)烈懷疑他們和一場(chǎng)搶劫案有關(guān)。但是,沒(méi)有充足的證據(jù)。然而,他們都拒捕的事實(shí)也是可判刑的。兩個(gè)疑犯都被告知以下結(jié)果:“如果你坦白,而另外一人抵賴,則你馬上釋放;另外一人將承擔(dān)全部罪行,將會(huì)被

判刑10年如果你們都坦白,你們的罪行將被證實(shí)。但由于你們有認(rèn)罪的表現(xiàn)——判刑4年。如果你們都不坦白,那么沒(méi)有證據(jù)證明你們的搶劫罪,我們將以拒捕罪控告你們——判刑1年。另外一方也正在接受這樣的審訊。你是坦白還是抵賴?”“囚徒困境”的收益矩陣疑犯1和疑犯2的嚴(yán)格占優(yōu)策略都是“坦白”盡管如果兩人都抵賴會(huì)都判得少些刻畫(huà)了“有關(guān)個(gè)體私利前,建立合作是十分困難的”模型。

疑犯2抵賴坦白疑犯1抵賴-1,-1-10,0坦白0,-10-4,-4“興奮劑”博弈這種類(lèi)型通常稱(chēng)為軍備競(jìng)賽。競(jìng)爭(zhēng)雙方為保持彼此實(shí)力相當(dāng),都會(huì)選擇生產(chǎn)更具危險(xiǎn)性的武器,盡管對(duì)自己內(nèi)部會(huì)有傷害運(yùn)動(dòng)員傷害身體,國(guó)家影響民生。運(yùn)動(dòng)員2沒(méi)服用服用運(yùn)動(dòng)員1沒(méi)服用3,31,4服用4,12,2并不是每人總有嚴(yán)格占優(yōu)策略例子:“營(yíng)銷(xiāo)戰(zhàn)略”博弈假設(shè)有兩家公司,分別要規(guī)劃生產(chǎn)并銷(xiāo)售同一種新產(chǎn)品。該產(chǎn)品有兩款可能的規(guī)格:廉價(jià)(低檔)或高檔。如何決策?設(shè)顧客總體被分成兩個(gè)市場(chǎng):一部分消費(fèi)群體(60%)只購(gòu)買(mǎi)廉價(jià)商品,另一部分消費(fèi)群體(40%)只購(gòu)買(mǎi)高檔次商品。假設(shè)每家公司從廉價(jià)或高檔次商品所得利潤(rùn)是等同的(因此利潤(rùn)僅取決于市場(chǎng)占有率)。每家公司都追求利潤(rùn)最大化。“營(yíng)銷(xiāo)戰(zhàn)略”博弈假設(shè)若兩家公司分別定位生產(chǎn)不同類(lèi)型的產(chǎn)品,則每家公司都會(huì)得到該商品市場(chǎng)的全部份額。公司1品牌形象更佳。因此,若這兩家公司在同一市場(chǎng)(廉價(jià)或高檔次)中競(jìng)爭(zhēng),則公司1可以得到80%的市場(chǎng),公司2只能得到20%。公司2廉價(jià)高檔公司1廉價(jià)0.48,0.120.6,0.4高檔0.4,0.60.32,0.08公司1有嚴(yán)格占優(yōu)策略(廉價(jià)),但公司2沒(méi)有。高檔市場(chǎng)40%廉價(jià)市場(chǎng)60%最佳應(yīng)對(duì)設(shè)S是參與人甲的一個(gè)策略,T是參與人乙的一個(gè)策略。在收益矩陣中的某個(gè)單元格對(duì)應(yīng)這一對(duì)策略(S,T)。P1(S,T):表示參與人甲從這組決策獲得的收益P2(S,T):表示參與人乙從這組決策獲得的收益最佳應(yīng)對(duì):針對(duì)參與人乙的策略T,若參與人甲采用策略S產(chǎn)生的收益大于或等于自己的任何其他策略,則稱(chēng)參與人甲的策略S是參與人乙的策略T的最佳應(yīng)對(duì)。

P1(S,T)≥P1(S’,T)

其中,

S’是參與人甲除S外的任何其他策略。

存在性?

唯一性?嚴(yán)格最佳應(yīng)對(duì)嚴(yán)格最佳應(yīng)對(duì):若S會(huì)產(chǎn)生比任何應(yīng)對(duì)策略T的其他策略都更高的收益,則稱(chēng)參與人甲的策略S是對(duì)于參與人乙的策略T的嚴(yán)格最佳應(yīng)對(duì)。

P1(S,T)>P1(S’,T)

其中,S’是參與人甲的所有其他策略。注:最佳應(yīng)對(duì)的概念是針對(duì)對(duì)方的某一個(gè)策略(T),相對(duì)于自己的所有策略而言的對(duì)于同一個(gè)T,最多只可能有一個(gè)嚴(yán)格最佳應(yīng)對(duì)對(duì)于不同的T,最佳應(yīng)對(duì)可能相同,也可能不同

不一定存在,但存在則唯一占優(yōu)策略與嚴(yán)格占優(yōu)策略定義:(從最佳應(yīng)對(duì)角度給出)參與人甲的占優(yōu)策略S,是指該策略對(duì)于參與人乙的每一策略都是最佳應(yīng)對(duì)。參與人甲的嚴(yán)格占優(yōu)策略S,是指該占優(yōu)策略對(duì)于參與人乙的每一策略都是嚴(yán)格最佳應(yīng)對(duì)。注:占優(yōu)策略的概念是相對(duì)于對(duì)方所有策略而言的,而最佳應(yīng)對(duì)是針對(duì)單個(gè)策略而言。如果參與人有嚴(yán)格占優(yōu)策略,則可預(yù)期他會(huì)采取該策略(與基本假設(shè)的一致性)?!盃I(yíng)銷(xiāo)戰(zhàn)略”博弈假設(shè)若兩家公司分別定位生產(chǎn)不同類(lèi)型的產(chǎn)品,則每家公司都會(huì)得到該商品市場(chǎng)的全部份額。公司1品牌形象更佳。因此,若這兩家公司在同一市場(chǎng)(廉價(jià)或高檔次)中競(jìng)爭(zhēng),則公司1可以得到80%的市場(chǎng),公司2只能得到20%。公司2廉價(jià)高檔公司1廉價(jià)0.48,0.120.6,0.4高檔0.4,0.60.32,0.08

可以預(yù)測(cè)此博弈的結(jié)果是即公司1采取廉價(jià)策略,公司2將會(huì)采取高檔次策略。高檔市場(chǎng)40%廉價(jià)市場(chǎng)60%簡(jiǎn)單博弈的行為推理如果兩個(gè)人都有嚴(yán)格占優(yōu)策略,則可以預(yù)計(jì)他們均會(huì)采取嚴(yán)格占優(yōu)策略;如果只有一個(gè)人有嚴(yán)格占優(yōu)策略,則這個(gè)人會(huì)采取嚴(yán)格占優(yōu)策略,而另一方會(huì)采取此策略的最佳應(yīng)對(duì)(一定會(huì)有?。┤绻麅蓚€(gè)人都沒(méi)有嚴(yán)格占優(yōu)策略呢?(從哪開(kāi)始推理?)無(wú)占優(yōu)策略例子(三客戶博弈)假設(shè)有兩家公司,都希望和A、B、C三個(gè)大客戶之一洽談生意。每家公司都有三種可能的策略:是否找客戶A、B或C。它們決策的考量如下:若兩家公司都找同一個(gè)客戶,則該客戶會(huì)給每個(gè)公司一半的業(yè)務(wù)。公司1規(guī)模太小,以至于不能靠自身找到客戶源。所以,只要它和公司2分別尋找不同的客戶洽談生意,則公司1獲得的收益將會(huì)是0(生意做不成)。假設(shè)公司2單獨(dú)尋找客戶B或C洽談生意,則會(huì)得到客戶B或C的全部業(yè)務(wù)。但是A是一個(gè)大客戶。尋找客戶A洽談生意時(shí),必須和公司1合作才能接下業(yè)務(wù)。因?yàn)锳是一個(gè)大客戶,和它做生意的收益是8(假設(shè)兩家公司合作,則每家公司會(huì)得到收益4)。但是,和B或C做生意的收益價(jià)值是2(合作的話,每個(gè)公司收益是1)“三客戶”博弈的推理收益矩陣公司2ABC公司1A4,40,20,2B0,01,10,2C0,00,21,1兩家公司都沒(méi)有嚴(yán)格占優(yōu)策略如何討論博弈的走向(結(jié)果)?納什均衡假定參與人甲選擇策略S,參與人乙選擇策略T。若S是T的最佳應(yīng)對(duì),且T也是S的最佳應(yīng)對(duì),則稱(chēng)策略組(S,T)是一個(gè)納什均衡。在均衡狀態(tài),任何參與人都沒(méi)有動(dòng)機(jī)(理性的理由)去換一種策略。納什均衡:互為最佳應(yīng)對(duì)的策略組,誰(shuí)也不可能通過(guò)單方面改變策略而得到額外好處,盡管如果兩人都改變可能都會(huì)更好(相比都不改變而言)“三客戶”博弈的納什均衡存在納什均衡:(A,A)尋找納什均衡的兩種途徑:一是,檢查每一個(gè)策略組,看它們中的每一項(xiàng)是否是彼此間策略的最佳應(yīng)對(duì)策略。二是,找出每個(gè)參與人對(duì)于對(duì)方每個(gè)策略的最佳應(yīng)對(duì),然后發(fā)現(xiàn)互為最佳應(yīng)對(duì)的策略組。公司2ABC公司1A4,40,20,2B0,01,10,2C0,00,21,1多重均衡:協(xié)調(diào)博弈

多重均衡--存在多個(gè)均衡例子:協(xié)調(diào)博弈假設(shè)你和你拍檔都為一個(gè)合作項(xiàng)目準(zhǔn)備幻燈片簡(jiǎn)報(bào)(雙方不能通過(guò)電話等方式聯(lián)系商量)。你必須決定是用微軟的PPT或是用蘋(píng)果的Keynote軟件來(lái)制作你負(fù)責(zé)的半份幻燈片。假設(shè)你們使用同樣的軟件來(lái)設(shè)計(jì),那就比較容易合并你們的幻燈片。協(xié)調(diào)博弈的推理存在兩個(gè)納什均衡:(PPT,PPT),(Keynote,Keynote)。如何預(yù)測(cè)協(xié)調(diào)博弈中參與人的行為?一般來(lái)說(shuō),從博弈結(jié)構(gòu)本身已經(jīng)不能預(yù)測(cè)參與者行為的趨向,需要利用一些外部因素,例如社會(huì)習(xí)俗。你的拍檔PPTKeynote你PPT1,10,0Keynote0,01,1不對(duì)等協(xié)調(diào)博弈假設(shè)你和項(xiàng)目拍檔都更喜歡使用蘋(píng)果軟件。謝林的聚點(diǎn)理論表明,可以預(yù)測(cè)參與人會(huì)傾向于收益情況更好的均衡(2,2)。你的拍檔PPTKeynote你PPT1,10,0Keynote0,02,2兩人的喜好不同呢假設(shè)你和你的拍檔喜歡的軟件不同。此時(shí)僅從博弈結(jié)構(gòu)很難預(yù)測(cè)具體哪種均衡會(huì)被達(dá)到。可以通過(guò)了解他們之間平常發(fā)生沖突時(shí)解決的慣例來(lái)預(yù)測(cè)。你的拍檔PPTKeynote你PPT1,20,0Keynote0,02,1獵鹿博弈假設(shè)兩獵人外出獵物。若他們合作,則可以獵到鹿(這可以給獵者帶來(lái)最高的收益)。獵人若分開(kāi)單干,都能獵到兔。若一方想單獨(dú)獵鹿,則收益是0。另一方依然能獵到兔。選擇何種均衡?要在高收益和由于另一方不合作而造成損失之間進(jìn)行權(quán)衡。

獵人2獵鹿獵兔獵人1獵鹿4,40,3獵兔3,03,3多重均衡:鷹鴿博弈假設(shè)兩只動(dòng)物要決定一塊食物的分配。每只動(dòng)物都可以選擇爭(zhēng)奪行為(鷹派策略)或分享行為(鴿派策略)。若兩種動(dòng)物都選擇分享行為,它們將會(huì)均勻的分配食物,各自的收益是3。若一方行為表現(xiàn)為爭(zhēng)奪,另一方行為表現(xiàn)是分享,則爭(zhēng)奪方會(huì)得到大多數(shù)食物,獲得收益是5,分享方只能得到收益為1。當(dāng)兩只動(dòng)物都表現(xiàn)為爭(zhēng)奪行為,由于在爭(zhēng)奪中踐踏了食物,則它們得到的收益將為0。鷹鴿博弈的推理很難預(yù)測(cè)參與者的行為一般來(lái)說(shuō),納什均衡概念能有助于縮小預(yù)測(cè)范圍,但它并不一定能給出唯一的預(yù)測(cè)。動(dòng)物2鴿派鷹派動(dòng)物1鴿派3,31,5鷹派5,10,0幾種典型多重均衡博弈類(lèi)型對(duì)比動(dòng)物2鴿派鷹派鴿派3,31,5鷹派5,10,0你的拍檔PPTKeynotePPT1,10,0Keynote0,02,2你的拍檔PPTKeynotePPT1,20,0Keynote0,02,1獵人2獵鹿獵兔獵鹿4,40,3獵兔3,03,3簡(jiǎn)單博弈的推理(進(jìn)一步)如果雙方都有嚴(yán)格占優(yōu)策略,則都會(huì)采用如果只有一方有嚴(yán)格占優(yōu)策略,則可以預(yù)測(cè)另一方會(huì)采用此策略的最佳應(yīng)對(duì)如果不存在嚴(yán)格占優(yōu)策略,則尋找納什均衡存在一個(gè)納什均衡,該均衡對(duì)應(yīng)合理結(jié)果存在多個(gè)納什均衡(需要額外信息輔助推斷)協(xié)調(diào)博弈,鷹鴿博弈均衡有助于縮小考慮范圍,但不保證有效預(yù)測(cè)如果不存在納什均衡,該怎么辦?一個(gè)不存在納什均衡的例子硬幣配對(duì)-“零和博弈”(zerosumgame)甲乙各持一枚硬幣,同時(shí)選擇手中硬幣的正反面。若他們硬幣的朝向相同,乙將贏得甲的硬幣。反之,甲將贏得乙的硬幣。參與人乙正面H反面T參與人甲正面H-1,+1+1,-1反面T+1,-1-1,+1此時(shí),不存在一組互為最佳應(yīng)對(duì)策略(純策略意義下的納什均衡)如果這樣的博弈重復(fù)進(jìn)行若干次,你會(huì)如何考慮自己的策略?預(yù)測(cè)對(duì)方采用不同策略的概率,據(jù)此確定自己的策略(概率)不要讓對(duì)方了解自己采用不同策略的概率此時(shí),你的“策略”可以看成是在兩種固定策略(純策略)之間選擇的概率?;旌喜呗缘囊胍腚S機(jī)性,考慮參與人將以一定的概率分布在不同策略間進(jìn)行選擇,一種分布對(duì)應(yīng)一個(gè)“策略”(稱(chēng)為混合策略,此時(shí),選擇策略就是選擇分布)對(duì)于雙策略(H和T)博弈,混合策略則可簡(jiǎn)略表示為一個(gè)概率。通常,我們說(shuō)參與人1的策略是概率p,是指他以概率p執(zhí)行H;以概率1-p執(zhí)行T參與人2的策略是概率q,是指他以概率q執(zhí)行H,以概率1-q執(zhí)行T 作為博弈,三要素齊了沒(méi)有?參與人策略(概率)收益???此時(shí)的策略是在兩種固定(純)策略上選擇的概率,每一組純策略是對(duì)應(yīng)有固定收益的。因而,從概率意義出發(fā),此時(shí)的收益應(yīng)該體現(xiàn)一種在兩種純策略上的“平均”(期望)。討論混合策略的框架(雙人雙策略)從一個(gè)純策略博弈出發(fā),如下定義混合策略參與人:同基礎(chǔ)純策略參與人的策略:在各自純策略集合上的一個(gè)概率分布于是,存在有無(wú)窮多個(gè)策略某參與人在策略組(p,q)上的回報(bào):基于在純策略上的收益,按照自己和他人的策略概率p,q算得的收益期望不同的(p,q)導(dǎo)致不同的回報(bào)立刻可能想到的(例)p\q0.10.20.30.4…0.12.74,??,??,??,?0.2?,??,??,??,?0.3?,??,??,??,?0.4?,??,??,??,?乙L(q)R(1-q)甲U(p)4,40,3D(1-p)3,03,3P1(p,q)=?P2(p,q)=?但是,在研究一個(gè)混合策略博弈的時(shí)候,我們一般并不關(guān)心在每個(gè)策略下的具體回報(bào)情況,而是關(guān)心是否能達(dá)到均衡?在什么混合策略組下達(dá)到均衡?哪兩個(gè)概率是互為最佳應(yīng)對(duì)?混合策略的均衡:互為最佳應(yīng)對(duì)在各自概率策略的選擇下,雙方的收益期望互為最大(任何單方面改變不會(huì)增加其收益)納什的奠基性貢獻(xiàn):證明了具有有限參與者和有限純策略集的博弈一定存在納什均衡(包括混合策略均衡)一般來(lái)說(shuō),找到混合策略的納什均衡是很困難的,但在某些特定條件下能有系統(tǒng)的方法。雙人雙策略、不含純策略均衡的博弈中的混合策略納什均衡求解你若不知道對(duì)方的策略,你會(huì)以什么概率出H?他正面H反面T你H-1,+1+1,-1T+1,-1-1,+1考慮硬幣面向的博弈你若知道對(duì)方的策略是以0.5的概率出H,你會(huì)采取什么策略?你若知道對(duì)方的策略是以0.7的概率出H,你會(huì)采取什么策略?如果他的概率是0.2呢?“0.5”策略在此有什么特別?如果對(duì)方用0.5,我出什么都無(wú)所謂即:我的任何策略都是它的“最佳應(yīng)對(duì)”他正面H反面T你H-1,+1+1,-1T+1,-1-1,+1反過(guò)來(lái)也一樣,如果我用0.5,對(duì)方出什么(對(duì)他來(lái)說(shuō))都是一樣的回報(bào)即:(0.5,0.5)是“互為最佳應(yīng)對(duì)”由此我們可以體會(huì)到一對(duì)混合策略互為最佳應(yīng)對(duì)的必要條件是它們分別使得對(duì)方在兩個(gè)純策略選擇上得到的回報(bào)無(wú)差異。這就是我們借以求解混合策略均衡的原理--無(wú)差異原理做法思路是:設(shè)一方的混合策略概率為p,寫(xiě)出另一方在兩個(gè)純策略上分別的收益期望,令它們相等,方程的解即為均衡策略好的概率策略就是使對(duì)方不知道用哪個(gè)純策略更好的策略混合策略的收益設(shè)參與人1采用概率p執(zhí)行H,1-p執(zhí)行T,則:若參與人2采用H,則他的收益期望是若參與人2采用T,則他的收益期望是這是兩個(gè)關(guān)于p的線性表達(dá)式,令它們相等,若唯一解存在且在(0,1)中,則求得了參與人1的均衡策略p混合策略的收益計(jì)算例子用收益期望來(lái)表達(dá)回報(bào)當(dāng)參與人2采用策略q時(shí),參與人1使用不同純策略的回報(bào)分別為:純策略H的期望收益=(-1)(q)+(+1)(1-q)=1-2q純策略T的期望收益=(1)(q)+(-1)(1-q)=2q-1參與人2正面H(q)反面T(1-q)參與人1正面H-1,+1+1,-1反面T+1,-1-1,+1按照無(wú)差異原則,均衡中的q應(yīng)使這兩個(gè)表達(dá)式相等。硬幣配對(duì)博弈的混合策略均衡也就是:1-2q=2q-1,即q=0.5對(duì)稱(chēng)地,可以得到參與人1的最佳應(yīng)對(duì)p=0.5因此,(0.5,0.5)是這個(gè)硬幣配對(duì)博弈的混合策略納什均衡(符合直覺(jué))參與人2正面H(q)反面T(1-q)參與人1正面H-1,+1+1,-1反面T+1,-1-1,+1混合策略:進(jìn)一步的例子持球-拋球博弈橄欖球賽:進(jìn)攻方可以選擇持球或者是拋球。防御方可以選擇攔斷持球或者選擇防守拋球。若正確阻止了進(jìn)攻方的行為,則進(jìn)攻方的收益為0。假設(shè)進(jìn)攻方選擇持球而防守方卻選擇防守拋球行為,則進(jìn)攻方的收益為5(防守方相應(yīng)損失)。假設(shè)進(jìn)攻方選擇拋球,同時(shí)防守方卻選擇攔斷持球,則進(jìn)攻方的收益是10(防守方相應(yīng)損失)。防守方防守拋球攔斷持球進(jìn)攻方拋球0,010,-10持球5,-50,0持球拋球博弈的混合策略均衡這是一個(gè)沒(méi)有純策略納什均衡的博弈(檢查)設(shè)防守方選擇防守拋球的概率為q進(jìn)攻方選擇拋球的期望收益:0*q+10(1-q)進(jìn)攻方選擇持球的期望收益:5q+0*q依無(wú)差異原理,令10-10q=5q,解得q=2/3防守方防守拋球(q)攔斷持球(1-q)進(jìn)攻方拋球0,010,-10持球5,-50,0持球拋球混合策略均衡(續(xù))設(shè)進(jìn)攻方選擇拋球的概率為p防守方選擇防守拋球的期望收益:-5(1-p)防守方選擇攔斷持球的期望收益:-10p令-10p=-5(1-p),解得p=1/3于是,這個(gè)博弈的混合策略均衡為(1/3,2/3)防守方防守拋球攔斷持球進(jìn)攻方拋球(p)0,010,-10持球(1-p)5,-50,0討論為什么拋球有可能收益更大,而均衡中進(jìn)攻方選擇拋球的概率只有1/3?由于防守方高概率防守拋球,若拋球概率p>1/3,則損失會(huì)比較大為什么進(jìn)攻方的拋球概率只有p=1/3,但防守方還要更多的防守拋球?由于拋球?qū)M(jìn)攻方更有利,需要加大防守力度防守方防守拋球(2/3)攔斷持球(1/3)進(jìn)攻方拋球(1/3)0,010,-10持球(2/3)5,-50,0假設(shè)你得到了1000次點(diǎn)球的如下數(shù)據(jù)射手是射向左還是右守門(mén)員是撲向左還是右每次點(diǎn)球得分與否你可做什么研究(從數(shù)據(jù)中得到結(jié)論)?(忽略中間的情況)進(jìn)球%,射向左邊(右邊)進(jìn)球%,射門(mén)方向與撲球方向一致(不一致)的%,在射門(mén)與撲球方向一致(不一致)情況下進(jìn)球%,…這數(shù)據(jù)中是否隱含更加深刻的信息--博弈均衡?例子:罰點(diǎn)球博弈2002年,有人做了一項(xiàng)有關(guān)罰點(diǎn)球研究射手要決定從球門(mén)的左側(cè)或是右側(cè)進(jìn)球。守門(mén)員則要決定是撲向左側(cè)或是右側(cè)攔斷進(jìn)球。兩人需要同時(shí)做選擇。

守門(mén)員LR射球方L0.58,-0.580.95,-0.95R0.93,-0.930.70,-0.70得到如上統(tǒng)計(jì)數(shù)據(jù)。可見(jiàn),射球方總是有贏頭(符合實(shí)際)。發(fā)點(diǎn)球博弈的混合策略均衡計(jì)算得到的均衡:0.58q+0.95(1-q)=0.93q+0.70(1-q),q=0.42-0.58p-0.93(1-p)=-0.95p-0.70(1-p),p=0.39實(shí)戰(zhàn)統(tǒng)計(jì)得到的數(shù)據(jù):q=0.42,p=0.40對(duì)應(yīng)前面的示意數(shù)據(jù)表中的什么數(shù)據(jù)?守門(mén)員L(q)R射球方L(p)0.58,-0.580.95,-0.95R0.93,-

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論