混合策略課件_第1頁
混合策略課件_第2頁
混合策略課件_第3頁
混合策略課件_第4頁
混合策略課件_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

混合策略課件定義在一個n人博弈的標準式表述中,參與人的策略,收益函數為,我們用表示此博弈。2024/1/162納什均衡博弈的標準式和納什均衡2024/1/163舉例:猜硬幣模型兩個參與人{1,2}每個參與人的策略空間為{H,T}收益零和試著找到納什均衡

參與人2參與人1正面背面正面-1,11,-1背面1,-1-1,1兩個男孩各自有一個硬幣并且他們必須選擇將硬幣的正面朝上還是背面朝上。如果兩個硬幣朝上的面相同(即都是正面或都是背面),則參與人2將贏得參與人1的硬幣;否則,參與人1將贏得參與人2的硬幣。猜硬幣如果參與人的策略一致——(正面,正面)或(反面,反面)—則參與人1會偏向于改變策略;但是如果兩者策略不一致—(正面,反面)或(反面,正面)—則參與人2偏向于改變策略。

參與人2正面背面正面-1,11,-1參與人1背面1,-1-1,1沒有一組策略滿足(NE)2024/1/165石頭-剪刀-布博弈此博弈也不存在納什均衡無論參與人1選擇哪個純策略,參與人都可以打敗他。參與人2石頭剪刀布石頭0,01,00,1參與人1剪刀0,10,01,0布1,00,10,02024/1/166猜對方策略猜硬幣博弈一個非常突出的特點是每個參與人都試圖猜中對方的策略。任何這一類都沒有納什均衡至少不存在節(jié)所定義的納什均衡因為這一類博弈的解包含了一個參與人對其他參與人行為的不確定。

現在我們介紹混合策略2024/1/167純策略,混合策略考慮標準式博弈G={S1,····,Sn;u1,····,un}此后我們定義Si中的策略為參與人

i的純策略

在本節(jié)的完全信息同時行動博弈中,一個參與人的純策略就是他可以選擇的不同行動;

例如,在猜硬幣的博弈中,Si

包含兩個純策略:正面和背面。參與人i的一個混合策略是在其策略空間Si中的(一些或全部)策略的概率分布。2024/1/168概率和信念隨機事件事件有明確定義.我們可以區(qū)分不同的事件.在進行觀察或試驗前,我們不能肯定的說一個具體的事件會出現.我們可以判斷哪些事件有可能出現,并且能判斷每一個事件出現的可能性大小.概率事件的概率是對一次隨機試驗中該事件出現的可能性的度量如果對可能性的度量以某種客觀規(guī)律或物質屬性為基礎,我們就用“概率”一詞如果對可能性的度量以個人經驗、主觀判斷為基礎,就用“主觀概率”、“信念”、“置信度”等術語2024/1/169概率分布樣本空間:Ω={ω1,

ω2,

…,ωn,…}試驗中可能出現的所有基本結果ωi的集合事件由基本結果組成,是樣本空間的子集。如果在試驗中事件A中的一個結果出現了,就說事件A發(fā)生。概率分布就是將總概率P(Ω)=1分解到所有可能的樣本點或事件上的一種方式.2024/1/1610概率的公理化定義概率測度

樣本空間Ω上的一個概率測度是Ω的子集的一個函數P(·),它滿足三條公理:公理(1)0≤P(E)≤1,對任一事件E公理(2)P(Ω)=1公理(3)對任何一列互不相容的事件E1,E2,….,即Ei∩Ej=Ф(空集),i≠j,有

我們稱P(E)為事件E的概率。2024/1/1611混合粗略:猜硬幣參與人i的一個混合策略是在其策略空間Si中的策略的概率分布舉例:猜硬幣S2

包含兩個純策略即正面和反面,因此參與人2的一個混合策略為概率分布(q,1-

q),其中q

為正面朝上的概率,1-

q

是背面朝上的概率,并且0<q<1.

參與人2參與人1正面

q背面1-q正面-1,11,-1背面1,-1-1,1混合策略(0,1)是背面朝上的純策略;類似地,混合策略(1,0)是正面朝上的純策略。2024/1/1612混合策略:舉例參與人2的一個混合策略為概率分布(q,r,1-q-r),其中q表示出左的概率,

r表示出中的概率,

1-q–r表示出右的概率。和前面一樣,

0<q<1,并且還應滿足0<r<1

和0<q+r<1?;旌喜呗?1/3,1/3,1/3)表示參與人出左、中、右的概率相同,而

(1/2,1/2,0)表示出左、中的概率相同,但不可能出右。參與人2左中右上1,01,20,1參與人1下0,30,12,0

圖1.1.1atPager6參與人的一個純策略只是其混合策略的一個特例,例如參與人2出左的純策略可表示為混合策略(1,0.0)。2024/1/1613混合策略:定義更為一般地,假定參與人i有K個純策略:Si={si1,…,siK}.參與人i的一個混合策略是一個概率分布(pi1,…,piK),其中piK表示對所有k=1,…,K,參與人i選擇策略sik的概率,由于pik是一個概率,對所有k=1,…,K,有0≤pik≤1且pi1+···+piK=1。我們用pi表示基于Si的任意一個混合策略,其中包含了選擇每一個純策略的概率,正如我們用si表示Si內任意一個純策略。定義對標準式博弈,假設Si

={si1,…,siK}。那么,參與人i的一個混合策略為概率分布pi=(pi1,…,piK

),其中對所有

k=1,…,K,0≤pik≤1,且pi1+···+piK=1。2024/1/1614參與人j的混合策略解釋當參與人i不確定參與人j會如何行動時,他可以把參與人j的混合策略作為參與人j行動的一個解釋。

參與人2參與人1正面

q背面1-q正面-1,11,-1背面1,-1-1,1例如:猜硬幣

假設參與人1相信參與人會以q的概率出正面,以1-q的概率出背面;也就是說,1相信2的混合策略是(q,1-q)。2024/1/1615猜猜硬幣另一面的顏色這里有三枚硬幣,每一面被貼上紅色或白色紙片(如下圖).為了方便從左向右編號1、2、3.123現在從中任取一枚放在桌面,結果你看到白色。請猜一下,這枚硬幣的背面是什么顏色?統(tǒng)計頻數紅色人白色人共人計算頻率紅色%白色%2024/1/1616猜猜哪個硬幣被標記了1/21/31/31/21/21/21/21/21/3NC2C1C3這里有三枚硬幣,每一面被貼上紅色或白色紙片(如下圖).為了方便從左向右編號1、2、3號硬幣123現在從中任取一枚放在桌面,結果你看到白色。請猜一下,這是幾號硬幣?2024/1/1617猜猜哪個硬幣被標記了提示:根據條件“看到一面白色”,只考慮前兩枚硬幣(拿走兩面全是紅色的第三枚硬幣).區(qū)分第一枚硬幣的兩個面,盡管它們同色同質。你可以設想給第一枚的兩面分別標記11與12?,F在知道,從前兩枚硬幣中任取一個并讓白色朝上,共三種可能。由于硬幣質地均勻,隨機抽取,隨機擱置,我們認為這三種情形等可能。三枚硬幣,任取一枚平放在桌面上,共有3×2=6種等可能的情形。滿足條件“白色在上”的只有這三種。1-21-1211121112上下2024/1/1618期望收益Student=?白紅2/31-11/3-11試驗有兩種可能結果,你的信念是硬幣以2:1的比例出現白色與紅色.猜對得1分,猜錯扣1分.請估計你的策略“猜白色出現”與“猜紅色出現”的預期支付各為多少?預期支付就是概率加權支付—將你在所有可能結果上的支付按這些結果出現的概率加權求和2024/1/1619對參與人j的混合策略,參與人i的最優(yōu)純策略給定以下信念如果參與人1的反應是出正面,則他的期望收益是

q·(-1)+(1-q)·1=1-2q如果參與人1的反應是出正面,則他的期望收益是q·1+(1-q)·(-1)=2q-1.

參與人2參與人1正面

q背面1-q正面-1,11,-1背面1,-1-1,1因為當且僅當q<?時,1-2q>2q-1成立,則如果q

<1/2,參與人1的最優(yōu)純策略為出正面;如果q>1/2,參與人1的最優(yōu)純策略為出背面;如果q=?,參與人1出正面與出背面沒有差別。2024/1/1620嚴格劣于一個混合策略的策略針對參與人1對參與人2的可能行動作出的任何推斷(q,1-q),1的最優(yōu)反應是要么是T(當q>1/2),要么是M(當q<1/2),但不會是B,雖然T或M并不嚴格優(yōu)于B關鍵:存在一個混合策略嚴格優(yōu)于B如果參與人1以1/2的概率出T,以1/2的概率出M,則1的期望收益是3/2–無論參與人2采取哪種策略(純的或混合的),參與人1的收益3/2都大于其出B時所獲得的收益。參與人2LqR1-qT3,—0,—

參與人1M0,—3,—B1,—1,—圖這個例子說明了在“尋找另外一個嚴格優(yōu)于si的策略”時,混合策略所起的作用。2024/1/1621給定的純策略可以是混合策略的最優(yōu)反應圖表明,一個給定的純策略可以是一個混合策略的最優(yōu)反應,即使這一純策略并不是其他純策略的最優(yōu)反應。在這個博弈中,B不是參與人1對參與人2的純策略L或R的最優(yōu)反應;但B是參與人1對參與人2的混合策略(q,1-q)的最優(yōu)反應,假定1/3<q<2/3;這個例子說明了混合策略在“參與人i可能持有的推斷”中的作用參與人2LqR1-qT3,—0,—參與人1M0,—3,—B2,—2,—2024/1/1622對參與人j的混合策略,參與人i的最優(yōu)混合策略給定以下信念如果參與人1出正面,他的期望收益是1-2q;如果參與人1出背面,他的期望收益是2q-1.考慮參與人1可能的混合策略

參與人2參與人1正面

q背面1-q正面

r-1,11,-1背面1-r1,-1-1,1令(r,1-r)為參與人1混合策略(以概率r出正面,以概率1-r出背面);對任意[0,1]上的q,計算r的值,用

r*(q)表示。因此,

參與人2選擇混合策略(q,1-q)時,參與人1的最優(yōu)反應是(r,1-r)。2024/1/1623對參與人j的混合策略,參與人i的最優(yōu)混合策略參與人2:(q,1-q)參與人1:(r,1-r)求解r*(q)當參與人2的混合策略為(q,1-q)時,參與人選擇

(r,1-r)

的期望收益如下:

參與人2參與人1正面

q背面1-q正面

r-1,11,-1背面1-r1,-1-1,1rq?(-1)+r(1-q)

?1+(1-r)q?1+(1-r)(l-q)?(-1)=(2q-1)+r(2-4q),(1.3.1)r*(q)=argmax2(q-1/2)+4r(1/2-q)2024/1/1624對參與人j的混合策略,參與人i的最優(yōu)混合策略參與人2:(q,1-q)q∈[0,1]參與人1:(r,1-r)r*(q)=argmax2(q-1/2)+4r(1/2-q)圖當q=1/2時,參與人1的期望收益2(q-1/2)+4r(1/2-q)與r無關,且參與人1的所有混合策略(r,1-r)都是無差異的。也就是說,當q=1/2時,對于0到1之間的任何r,(r,1-r)都是(q,1-q)的最優(yōu)反應。2024/1/1625最優(yōu)反應對應古諾模型的最優(yōu)反應函數這里,因為存在一個q,使得r*(q)有不止一個解,我們稱r*(q)

為參與人1的最優(yōu)反應對應。最優(yōu)反應對應和我們之前討論的相關概念相比(我們只考慮了參與人1的純策略),這是一個更強的概念。2024/1/1626對參與人1的混合策略,參與人2的最優(yōu)反應完全信息靜態(tài)博弈中,參與人同時行動,并且參與人2和參與人1會以相同的方式考慮此博弈。對參與人1的策略(r,1-r),參與人2的最優(yōu)反應是(q*(r),1-q*(r)),其中q*(r)=argmax(1-2r)+q(4r-2)2024/1/1627最優(yōu)反應對應的解釋最優(yōu)反應r*(q)和q*(r)的交點確定了猜硬幣博弈的納什均衡:如果參與人i的策略是(1/2,1/2),則參與人j的最優(yōu)反應是(1/2,1/2),滿足納什均衡的要求。圖2024/1/1628混合策略納什均衡的說明一個混合策略納什均衡不依賴任何參與人扔硬幣、擲骰子或其他隨機選擇策略的行為。更確切地,我們可以把參與人j的混合策略解釋為參與人i對參與人j選擇哪一個純策略的不確定性。每一個參與人確定性的選擇一個純策略.但對方不具備關于這一策略的充分信息,這時就要作相應的預測,將對方的行為理解為一個混合策略,并作出相應的對策(choseabestresponsetoamixedstrategy)每一個參與人選擇一個純戰(zhàn)略,正是利用了對手關于自已行為的不確定性。2024/1/1629混合策略納什均衡

:兩人博弈定義在兩個參與人標準式博弈G={S1,S2;u1,u2}中,混合策略(p*1,p*2)是納什均衡

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論