版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第八章 博弈論前面章節(jié)對經濟人最優(yōu)決策的討論,是在簡單環(huán)境下進行的,沒有考慮經濟人之間決策相互影響的問題。本章討論這個問題,建立復雜環(huán)境下的決策理論。開展這種研究的的理論叫做博弈論,也稱為對策論(Game Theory)。最近十幾年來,博弈論在經濟學中得到了廣泛應用,在揭示經濟行為相互制約性質方面取得了重大進展。大部分經濟行為都可視作博弈的特殊情況,比如把經濟系統(tǒng)看成是一種博弈,把競爭均衡看成是該博弈的古諾-納什均衡。博弈論的思想精髓與方法,已成為經濟分析基礎的必要組成部分。第一節(jié) 博弈事例博弈是一種日?,F(xiàn)象,例如棋手下棋,雙方都要根據(jù)對方的行動來決定自己的行動,雙方的目的都是要戰(zhàn)勝對方,互不
2、相容,互相影響,互相制約。一般來講,博弈現(xiàn)象的特征表現(xiàn)為兩個或兩個以上具有利害沖突的當事人處于一種不相容的狀態(tài)中,一方的行動取決于對方的行動,每個當事人的收益都取決于所有當事人的行動。當所有當事人都拿定主意作出決策時,博弈的局勢就暫時確定下來。博弈論就是研究這種不相容現(xiàn)象的一種理論,并把當事人叫做局中人(player)。博弈論推廣了標準的一人決策理論。在每個局中人的收益都依賴于其他局中人的選擇的情況下,追求收益最大化的局中人應該如何采取行動?顯然,為了確定出可行的策略,每個局中人都必須考慮其他局中人面臨的問題。下面來舉例說明。例1便士匹配(Matching Pennies)(二人零和博弈)設博
3、弈中有兩個局中人甲和乙,每個局中人都有一塊硬幣,并且各自獨立安排硬幣是否正面朝上。局中人的收益情況是這樣的:如果兩個局中人同時出示硬幣正面或反面,那么甲贏得元,乙輸?shù)粼蝗绻粋€局中人出示硬幣正面,另一個局中人出示硬幣反面,那么甲輸?shù)粼?,乙贏得元。表1: 便士匹配博弈局勢表 乙甲正面反面正面(正,正)(正,反)反面(反,正)(反,反)對于這個博弈,每個局中人可選擇的策略都有兩種:正面朝上和反面朝上,即甲和乙的策略集合都是正面,反面。當甲和乙都作出選擇時,博弈的局勢就確定了。顯然,該博弈的局勢集合是(正面,正面),(正面,反面),(反面,正面),(反面,反面),即各種可能的局勢的全體,也稱為局勢
4、表,即表1。表2: 甲和乙的收益表 乙甲正面反面正面,反面,每個局中人的收益都取決于所有局中人的決策,也就是說,局中人的收益是博弈局勢的函數(shù)。本例中,甲的收益函數(shù)為:,;乙的收益函數(shù)為:,。局中人的收益函數(shù)也可用表格或矩陣加以表示,并稱其為收益表或收益矩陣。表2中,甲的收益列在左邊,乙的收益列在右邊。該博弈的特點在于每個局中人的收益都是另一個局中人的付出,即甲和乙的收益之和為零,收支發(fā)生在局內,不涉及任何局外人。這種博弈就是所謂的二人零和博弈。習慣上,人們喜歡把二人博弈的第一個局中人甲叫做“列”,第二個局中人乙叫做“行”,而且總是把列的收益寫在前面(即左邊),行的收益寫在后面(即右邊)。例2囚
5、徒難題(Prisoners Delimma)(二人變和博弈)表3: 囚徒博弈局勢表乙甲合作背叛合作(合作,合作)(合作,背叛)背叛(背叛,合作)(背叛,背叛)有兩個狂徒甲和乙因共同參與了一起犯罪活動而被囚禁收審。他們可以選擇合作,拒絕供出任何犯罪事實;也可以選擇背叛,供出對方的犯罪行徑。這就是所謂的囚徒博弈,也叫做囚徒難題。博弈的局中人甲和乙都有兩種可選擇的策略:合作與背叛。囚徒博弈的意義在于它可以解釋寡頭壟斷廠商的行為,關鍵是賦予合作與背叛具體的經濟含義。比如在雙頭壟斷的情況下,合作可以解釋為“保持索要一個高價”,背叛可解釋為“降價以爭奪對手的市場”。右表給出了囚徒博弈的局勢表。局中人可以事
6、先討論這局博弈,但實際決策必須獨立地做出。如果甲采取合作策略,不供出乙的犯罪事實,那么乙就能得到3000元的收益。同樣,如果乙采取合作策略,那么甲就能得到3000元的收益。可見,如果甲乙雙方都采取合作策略,雙方各得3000元收益。但是,審訊者用1000元獎賞來鼓勵局中人采取背叛策略。這樣,只要局中人選擇背叛,他就會得到1000元鼓勵,而不管另一個局中人會采取什么策略。需要注意的是,囚徒博弈中的貨幣支付來自第三方局外人,這正是囚徒博弈同便士匹配博弈的不同之處。奧曼(Aumann)1987年對囚徒博弈給出了一個特別簡單的描述:每個局中人都可以對仲裁人簡單地宣告“給我1000元”或“給對方3000元
7、”。表4: 甲和乙的收益表乙甲合作背叛合作3000, 3000 0, 4000背叛4000, 01000, 1000簡單分析一下就會發(fā)現(xiàn),如果一個局中人采取合作策略,而另一個局中人采取背叛策略,那么采取合作策略的局中人的收益為零,而采取背叛策略的局中人的收益為4000元(3000元收益再加上1000元的背叛鼓勵)。如果雙方都采取背叛策略,則雙方的收益各為1000元。表4列出了甲乙雙方的收益情況。從收益表可以看出,甲乙雙方的收益之和不為零,而且收益和是變化的。因此,囚徒博弈是一種變和博弈。直覺上看,甲和乙都應采取合作策略(互不供出對方的犯罪事實),各得3000元收益。但從收益表可以得出這樣的結論
8、:如果一個局中人認為另一個局中人將合作,從而他將得到3000元收益,那么他若采取背叛策略,就將總共能獲得4000元的收益;如果他認為另一個局中人為了得到1000元鼓勵而將背叛,那么他也就只好為了自己也取得1000元鼓勵而采取背叛策略(否則,他將一無所獲)??傊?,在收益最大化動機的驅使下,局中人的最優(yōu)選擇是背叛。這樣一來,甲乙雙方都采取背叛策略,各得1000元收益;而不是都采取合作策略,各得3000元。這是一個典型的博弈悖論,問題的關鍵在于每個局中人都有背叛的鼓勵,而不管其他局中人將做什么。例3古諾博弈(雙頭壟斷:產量較量)法國經濟學家古諾(Cournot)于1838年以天然礦泉井為例,首次建立
9、了簡單的雙頭壟斷博弈模型,其特點是,壟斷廠商雙方都天真地以為對方不會改變原有產量水平,雙方都追求各自利潤最大化。古諾假定:有兩個天然礦泉在一起,分別為廠商甲和乙占有;兩個礦泉都為自流井,生產成本為零,邊際成本也為零;甲和乙面對相同的需求曲線,采用相同的價格;雙方都以為對方的產量水平不會改變。在這些假設前提下,甲和乙各自獨立決定自己的產量水平,以求利潤最大化。設是甲乙雙方共同面臨的反需求函數(shù)。當甲的礦泉水產量為,乙的產量為時,礦泉水的市場價格為,甲的利潤, 乙的利潤為。在這個博弈中,甲乙雙方的策略都表現(xiàn)為選擇產量水平,局中人的收益即為廠商的利潤。當甲的產量為時,乙以為甲不會改變這一產量,而選擇一
10、個合適的產量水平以使自己的利潤達到最大。同樣,當乙的產量水平為時,甲以為乙不會改變這一產量,而選擇一個合適的產量水平以使自己的利潤達到最大。為了說明這個博弈的結果,假設甲乙雙方面臨的反需求函數(shù)。用表示這局博弈中甲選擇的最優(yōu)產量,表示乙選擇的最優(yōu)產量水平,則甲乙各自的收益分別為和。由于實現(xiàn)了利潤最大化,因此解之得:當乙的產量水平為時,甲決定的產量水平為(這是甲對乙的反應函數(shù));當甲的產量水平為時,乙決定的產量水平為(這是乙對甲的反應函數(shù))。其中,表示礦泉水市場容量(即價格為零時的礦泉水需求量)。進一步求解可得:, 即博弈的結果是雙方最終各占據(jù)礦泉市場的三分之一。反應函數(shù)說明,古諾博弈中每個局中人
11、的決策(選定的產量水平)不但依賴于其他局中人的決策,而且與市場的容量有關。例4貝特蘭博弈(雙頭壟斷:價格較量)古諾博弈模型描述了雙頭壟斷廠商之間展開的產量較量。實際上廠商之間的產量較量并不如價格較量那么普遍,寡頭之間應該有激烈的價格競爭。不論市場價格如何,只要某一廠商降低價格,而其他競爭對手保持原價格不變,那么降價廠商就能占有全部市場。這就是說,我們假定消費者只從最低價格廠商那里購買產品。為此,法國經濟學家貝特蘭(Bertrand)于1883年提出了以價格為選擇策略的貝特蘭博弈模型,反對古諾關于產量的博弈模型。還以礦泉水為例,在貝特蘭博弈模型中各廠商都預期對手不會改變價格,從而將自己的價格確定
12、在利潤最大化的水平之上。這就是說,貝特蘭博弈的構建同古諾博弈相似,所不同的是貝特蘭博弈中局中人的策略是選擇價格,而古諾博弈局中人的策略是選擇產量水平。貝特蘭博弈中兩個局中人甲和乙也是面臨相同的市場需求函數(shù),不過現(xiàn)在價格是自變量,產量為因變量(古諾模型正好相反)。設市場需求函數(shù)為, 為了分析上簡單起見,進一步設(這里,,,即與古諾模型中的市場需求相同)。局中人的收益仍是他所獲得的利潤。如果甲和乙不相互勾結串通,當乙采取了價格水平時,甲認為乙不會改變這一價格水平,從而為了占領市場而要采取低于乙的價格水平的價格,于是甲的利潤為,乙的利潤為零;同樣,當甲采取了價格水平時,乙認為甲不會改變這一價格水平,
13、從而為了占領市場而要采取低于甲的價格水平的價格,于是乙的利潤為, 甲的利潤為零。如果甲和乙相互勾結串通起來,采取相同的價格策略,即,那么甲和乙就能索要一個壟斷價格,并且每人可收取一半的壟斷利潤。由此可見,甲和乙的利潤函數(shù)分別為: , 如果甲和乙勾結串通,合作起來,那么雙方就能按照最大利潤價格獲得壟斷價格,并且各得最大利潤的一半。這里,利潤最大化價格是按照確定的。但是,占領市場的誘惑對每個局中人都存在,只要他稍微降價,他就能獲得全部市場。假如甲先進入該礦泉市場,那么甲就按照利潤最大化價格$P_1=Q_o/(2b)$獲取最大利潤。 繼而乙進入這個市場,且乙認為甲不會改變他的價格$P_1$,于是乙為
14、了奪取市場而采取低于甲的價格水平的一個價格(。由于乙奪走了市場,甲同樣又會采取低于乙的價格水平的價格,以奪回市場。這樣不斷往復下去,直至最后甲乙雙方都把價格水平定為零時才可達到均衡,此時雙方的收益為零,市場各占一半(即甲的銷售量和乙的銷售量相等,且)。這就是甲乙雙方不合作的結果,雙方都變得更差。以上分析表明:把貝特蘭博弈與古諾博弈作比較,對同一市場來說,由于選擇了不同的策略集合(一個以產量作為策略,另一個以定價作為策略),得出了不同的博弈結果,貝特蘭博弈的均衡價格、均衡產量和均衡利潤都呈完全競爭狀態(tài)(超額利潤為零),而古諾博弈的結果不是這樣;再把貝特蘭博弈同囚徒難題博弈作比較,二者具有相似的結
15、構,即局中人合作會取得最好的結果,但利益的誘惑促使他們采取不合作的行動,致使雙方博弈的結局都變得更差。貝特蘭博弈也可用囚徒博以來解釋:合作是指兩個廠商的勾結,背叛是指兩個廠商獨立行動,沒有勾結。合作,可以索要一個高的壟斷價格;背叛,則導致市場價格為零,雙方利潤為零??梢姡p方合作起來,對兩個廠商都有利,似乎應該合作。但博弈的最終結果是雙方都采取背叛策略,導致誰也得不到利潤。本節(jié)所舉的這些事例說明,寡頭壟斷廠商之間展開的競爭與較量完全可以用博弈加以描述和研究。實際上,經濟學中大部分經濟現(xiàn)象都可以作為博弈的特殊情形進行研究,比如歷史上解決競爭均衡的存在性這一經濟學基本問題時,就把經濟系統(tǒng)看成為一局
16、博弈。為了研究博弈,必須抓住博弈現(xiàn)象的基本要素,這些要素是:局中人、策略、收益。也就是說,博弈可以用局中人集合、策略集合和收益函數(shù)加以描述。局中人從策略集合中選擇一種策略后所獲得的效用或利益,就是局中人的收益(payoffs),也叫做得失。我們假定每一個局中人都知道他自己和別人的策略集合與收益函數(shù),這就是說,每個局中人的策略集合與收益函數(shù)為所有局中人所共知。當然,每個局中人都知道其他局中人掌握著這些信息和知識。局中人的收益不但依賴于他自己的策略選擇,而且依賴于其他局中人的策略選擇。我們再假定每個局中人在給定的主觀信念下會選擇收益最大化的行動,并且當新的信息根據(jù)貝葉斯規(guī)則到來時,這些信息會得到修
17、正(即根據(jù)貝葉斯全概率公式從先驗概率計算后驗概率)。第二節(jié) 策略博弈為了能夠正確地應用博弈論研究經濟問題,需要對博弈加以準確地描述和定義。要定義一個博弈,需要確定三件事情:一是局中人集合(set of players),一是局中人的策略集合(set of strategies),一是局中人的收益函數(shù)(payoff function)。這三件事情中,確定策略集合是至關重要的。局中人以策略決定勝負,目標是使他的收益最大化。這種以策略定勝負的博弈,稱為策略博弈(game of strategy)。正象比較古諾博弈和貝特蘭博弈時說明的問題一樣,用博弈論研究經濟問題時,對于同一經濟現(xiàn)象,由于選擇了不同的
18、策略集合,得到的博弈結果截然不同。用表示博弈的局中人集合,表示局中人的策略集合,表示的收益函數(shù),則就表示了一個博弈。根據(jù)局中人的多少,博弈可分為二人博弈和多人博弈。根據(jù)博弈的策略集合是否有限,博弈還又可分為有限博弈和無限博弈。例如,便士匹配和囚徒難題都是有限博弈,而古諾博弈和貝特蘭博弈都是無限博弈。還可根據(jù)所有局中人的收益總和是否固定,把博弈分為常和博弈和變和博弈。常和博弈分為零和博弈(即收益總和為零的博弈)和非零和博弈。二人零和有限博弈是所有博弈中最簡單、最重要的一類,通常稱為矩陣博弈。本節(jié)以二人博弈為重點,介紹有關策略博弈的概念與理論。一策略表與收益矩陣設二人博弈的局中人是甲和乙。甲有種可
19、選策略,策略表為;乙有種可選策略,策略表為。當甲采取策略,乙采取策略時,稱為博弈的局勢,集合就是局勢集合(局勢表、局勢矩陣),即每個局中人選擇自己的策略時,都要考慮對手的行動。這樣每個局中人的收益不但與自己的選擇有關,而且與對手的選擇有關,收益函數(shù)是定義在局勢集合上的函數(shù),這里假定了局中人的收益是可以用實數(shù)來都來計量的。用表示局中人甲的收益函數(shù),用表示局中人乙的收益函數(shù)。由于局勢集合是有限集合,收益函數(shù)和都可用矩陣加以表示,這些矩陣就稱為收益矩陣。記,,則甲和乙的收益矩陣分別為:,當(常數(shù))時,該博弈就是常和博弈。否則,就是變和博弈。局中人的策略與收益也可用收益表加以表達:表1: 博弈的收益表
20、乙的策略甲的策略,一般情況下,二人博弈可表示成。但對于二人常和博弈,則可簡單地表示成,其中為收益的常數(shù)和。而矩陣博弈則可更簡單地表示成,或者直接用甲的收益矩陣來表示矩陣博弈。二最小最大原理局中人的目標是選擇使自己收益最大化的策略,我們來分析局中人如何決策。假定甲乙雙方彼此了解對方的收益表。如果甲通過間諜獲悉乙采取某種策略時,甲必然會采取相應的某種策略,以求自己的收益最大,即選擇使下式成立:但是,當甲不知道乙會采取什么策略時,如果甲是一個避險者,那么他必將作最壞的打算,以求取得較好的效果。首先,甲要從收益表中找出自己的每一種策略下至少可獲得的收益(即所能獲得的最小收益),即先求解,然后從這些最小
21、收益策略中選擇出收益最大的策略,即“從最小收益中選擇最大收益”。從收益矩陣來看這個決策過程,即甲首先選出自己的收益矩陣的各行的最小值,然后從這些最小值中再選出最大值:這就是求解策略博弈的最小最大原理,其合理性表現(xiàn)為:如果甲采取按照最小最大原理確定的策略,那么不論乙采取什么策略,甲都可至少得到這個最小最大收益。由此可見,最小最大原理是能夠確保局中人收益的一種原理。今后,我們把局中人甲按照最小最大原理所確定的策略,叫做甲的穩(wěn)妥策略。對于局中人乙來說,他的決策行為和決策過程同甲是一樣的,只不過乙要依賴于收益矩陣。乙決策的最小最大原理是:乙先選出收益矩陣的各列的最小值,然后從這些最小值中選出最大值:局
22、中人乙按照最小最大原理確定的策略,稱為乙的穩(wěn)妥策略。讀者可能會問:甲先找出他的收益矩陣各列的最大值,然后再從這些最大值中選出最小值,不也是一種很好的決策辦法嗎?其實,這種決策辦法叫做最大最小法,照此辦法做出的決策,在甲不知道乙會采取什么策略的情況下不能保證甲的最大最小收益能夠達到。原因在于最大最小法需要確定出乙的每種策略下甲的最大可能的收益。假如甲按照最大最小法選出了策略, 那么當乙采用策略時,甲可得到最大最小收益。但是,若乙采用的不是策略, 而是策略,那么甲如不重新選擇他的收益矩陣第列的最大值的話,他的最大最小收益就不一定能夠達到,這正是最大最小法同最小最大原理的區(qū)別。實際中,在甲不知道乙會
23、采取什么策略的情況下選定了自己的策略以后,乙的策略才出臺,為甲也獲悉了乙的這一行動時,甲很有可能來不及調整自己原定的策略,從而給甲帶來一定的損失。因此,最大最小法在保證局中人收益方面不如最小最大原理那么保險。當甲和乙的穩(wěn)妥策略都已選定時,二者結合起來能否成為博弈的結果呢?答案是未必。請看下面二人零和博弈的事例。例1.高度不確定的博弈考慮二人博弈,甲的策略集合,乙的策略集合,甲和乙的收益矩陣和通過博弈的收益表給出(見表2)。表2: 甲和乙的收益表乙甲4,1,2,3,對于甲來說,;對于乙來說,。這說明甲的穩(wěn)妥策略是,乙的穩(wěn)妥策略是。但是,當甲采取時,乙采取的收益小于采取的收益,因而乙要改用策略。在
24、乙改用后,甲采取策略的收益小于采取的收益,因而甲也要改用策略。而當甲改用后,乙采用的收益小于采用的收益,于是乙又要改回到;在乙改回到后,甲也要改回到收益最大的策略。這就讓我們看到:當甲采取時,乙要采用;然后甲改用,乙隨之改用;甲再改用,乙又改用,如此不斷往復下去,博弈的結局是高度不確定的。一般來講,要想一個二人博弈具有確定的結局,必須存在這樣的局勢:滿足這個條件的的局勢,叫做博弈的均衡或最優(yōu)解或最優(yōu)局勢,其中的和分別叫做局中人甲和乙的最優(yōu)策略或均衡策略。這個條件也就叫做博弈的均衡條件。對于二人常和博弈來說,是博弈的最優(yōu)解當且僅當數(shù)學中,滿足這個條件的點叫做函數(shù)的鞍點。因此,是博弈的最優(yōu)解當且僅
25、當是收益函數(shù)的鞍點。下面的定理給出了鞍點的判別條件。鞍點定理是收益函數(shù)的鞍點的充要條件是:證明:必要性. 設是的鞍點,即。從可知,對一切成立,這就蘊含著,即。注意,。這就證明了。充分性設滿足。從可知;從可知。所以,即是函數(shù)的鞍點。既然二人常和博弈的最優(yōu)解恰好就是收益函數(shù)的鞍點,鞍點定理告訴我們,當收益函數(shù)的鞍點存在時,利用最小最大原理確定的博弈局勢就是二人常和博弈的最優(yōu)解。但是,當收益矩陣不存在鞍點時,常和博弈就沒有最優(yōu)解,博弈的結局就是高度不確定的。鑒于此,我們將有鞍點的常和博弈稱為嚴格確定的博弈。三反應函數(shù)博弈的局中人總是要考慮對手的行動,然后確定自己的對策。當乙采取了某種策略,而且被甲所
26、覺察時,甲必然有所反應,要確定出相應的對策以使自己的收益在乙選擇的情況下達到最大,即要使。甲對乙的行動的這種反應,確定了一個從乙的策略集合到甲的策略集合的映射,即對任何,甲的反應策略是按照來確定的。這個映射就叫做甲對乙的反應函數(shù)。同樣的道理,可以確定出乙對甲的反應函數(shù),即對任何,是按照來確定的。利用反應函數(shù),我們也可以解釋博弈的結局。就象古諾博弈一樣,假如甲先采取某種策略,乙通過某種途徑獲悉了甲的這一行動,并認為甲不會改變他的策略,于是作出反應,決定采取策略,以使自己的收益最大化。當乙采取策略時,甲掌握了這一信息,并認為乙不會改變他的策略,于是作出反應,改變原來的策略,決定采用,以求收益最大化
27、。這時,乙再次對甲的行為作出反應,采取新策略。甲也再次對乙的行動作出反應,采取新策略。這樣的反應不斷下去,直到最后達到且時博弈實現(xiàn)了均衡,此時的局勢就是博弈的最優(yōu)解(均衡、最優(yōu)局勢)。綜上所述,博弈的結局是實現(xiàn)均衡,并且均衡由甲乙雙方的反應函數(shù)確定,即由方程組決定。事實上,是該方程組的解當且僅當,而這正是博弈實現(xiàn)均衡的含義。注意,以上關于反應函數(shù)的討論,沒有要求策略集合的有限性,即集合和可以是任何集合。下面考慮二人無限博弈的一種特殊情況:策略集合和都是實數(shù)區(qū)間。比如,本章第一節(jié)例3中古諾博弈的局中人策略集合就是區(qū)間(半直線),例4中貝特蘭博弈的局中人策略集合也是半直線。假設局中人甲和乙的收益函
28、數(shù)和可微,則甲對乙的反應函數(shù)由方程(一階條件)決定,乙對甲的反應函數(shù)由方程(一階條件)決定,從而博弈的最優(yōu)解就是如下方程組的解:例2二人博弈的反應函數(shù)及最優(yōu)解設二人博弈中,甲和乙的策略集合和為,收益函數(shù)和分別如下:求偏導數(shù)得方程組。由此可知局中人甲和乙的反應函數(shù)分別為,博弈的最優(yōu)解為。四策略選擇的經濟模擬第一節(jié)中曾經指出,描述一個博弈時策略集合的選擇至關重要。比較古諾博弈和貝特蘭博弈,雖然二者的目的都是要模擬同一經濟現(xiàn)象雙頭壟斷,但二者的結構卻很不同。古諾博弈中廠商的策略是選擇產量,廠商的收益是策略變量的連續(xù)函數(shù);而貝特蘭博弈中廠商的策略是選擇價格,廠商的收益是策略變量的非連續(xù)函數(shù)。這導致了相
29、當不同的均衡,究竟哪一種是正確的呢?如果抽象地看待這個問題,那么“哪一種模型正確”這樣的提問并無什么意義。要回答這個問題,就必須看模型試圖模擬什么。不要問哪一種模型是正確的,而去問策略選擇中什么樣的考慮是切入主題的,這樣的提問可能會更加有益一些。比如,如果我們觀察OPEC公司的公告,就會發(fā)現(xiàn)OPEC企圖為每一個員工決定產量配額,并且允許按照世界石油市場價格定價,這樣按照產量水平而不是按價格水平來模擬博弈策略,就可能更加合理。在策略選擇的經濟模擬中還有另一方面的考慮,乃就是一旦對手的行為被觀察到,那么對手的策略應該是被承諾的或者是難以改變的。然而到目前為止,所描述的博弈是“一次性”(one-sh
30、ot)博弈,其特點是一旦知道對手的行動,策略變量可以很快地進行調整。例如,假設我為我的產品選擇一個價格,然后發(fā)現(xiàn)我的對手制定了一個略低一些的價格,在這種情況下我可以很快地調整我的價格。因此,盡管“一次性”博弈所描述的現(xiàn)象應該是發(fā)生在實際生活中的現(xiàn)實,但在“一次性”博弈中模擬這種能夠很快調整的策略反應并不具有多大的意義。似乎應該使用多階段博弈,這樣才能捕獲到策略選擇行為的所有可能的內容。另一方面,如果我們把古諾博弈中的產量水平解釋成為廠商的生產能力,那么一定產量的產品生產就可能是不可撤消或不可改變的資本投資。這種情況下,廠商一旦發(fā)現(xiàn)對手的產量水平,而要改變廠商自己的產量水平,則可能是難以辦到或非
31、常昂貴的。生產能力或產量水平似乎是廠商策略的天然選擇,即使一次性博弈中也是這樣。同大部分經濟模擬一樣,在策略選擇的經濟模擬中,如果既要讓博弈簡單明了以便分析,又要能夠說明實際策略的迭接要素,那么如何表示博弈的策略選擇,就是一項藝術。第三節(jié) 重復博弈到目前為止,所談論的博弈是一次性的。其實,任何博弈都可以一次一次地重復進行,且每一次重復都不是簡單地重復前一次的著法,而會考慮得比前一次更全面些,技法也會更高些。就好像棋手下棋一樣,一局結束了再開一局,前一局在某些著法上吃了虧,這一局中就會吸取教訓而加以注意,正所謂“吃一暫,長一智”。反反復復地開局,給棋手不斷積累經驗,讓棋手的技藝越來越高。通過博弈
32、的重復進行,局中人的經驗越來越豐富,這種經驗源于博弈歷史。實際上,重復博弈中的每一點處,局中人決定自己的選擇時會考慮到達該點之前的全部博弈歷史,比如象棋棋手在上一局中因出車慢而吃了虧,那么這一局中就會吸取前一局的教訓而趕快把車開出來。這樣一來,重復博弈中局中人的策略空間隨著博弈被重復的次數(shù)的增加而變得越來越大,也就是說,博弈歷史越長,局中人的策略空間越大,可以選擇的著法越多。由于“我的對手會基于我的選擇歷史而修正他的行為,我必須在做出自己的選擇時考慮到這種影響”,所以,重復博弈的結果不絕不是一次性博弈的簡單重復。例1.囚徒博弈的重復我們以囚徒博弈為例,來分析重復博弈問題。囚徒博弈中,企圖獲得“
33、(合作,合作)”解是兩個局中人的長期利益所在。對于每個局中人來說,可行的做法是試著給另一個局中人發(fā)出“信號”以表明他的“善意”,并且在博弈一開始移動就進行合作。當然,背叛是另一個局中人的短期利益所在。如果他不合作而采取背叛策略,那么對方就可能失去耐心而從此以后永遠只實行背叛。這樣一來,背叛者就會因只看到眼前利益而喪失合作的長期利益。基于這種推理可以得到的事實是,一個局中人目前的做法將在未來將得到回應其他局中人的未來選擇可能依賴于這個局中人當前的選擇?,F(xiàn)在來分析一下“(合作,合作)”局勢能否成為重復囚徒博弈的一個均衡。我們分兩種情況進行討論,一種情況是有限次重復博弈,另一種情況是無限次重復博弈。
34、先討論有限次重復博弈,為此假定每個局中人都知道博弈將重復一個固定的次數(shù)(比如重復次)??紤]最后一輪博弈實施之前局中人給予的推理,此時每個人都認為他們在進行一次性博弈。由于這是最后一次移動,將來不會再有,因此均衡的標準邏輯推理便得以應用,其結果是局中人雙方都選擇“背叛”策略。再考慮最后一次移動之前的移動,這里似乎每個局中人都重視合作,以向對方發(fā)出他是“好人”的信號,以便能在下一次以及最后一次移動中合作。但是,我們已經看到,最后一次移動中雙方都將采取背叛,因此在倒數(shù)第二次的移動中合作就沒有什么優(yōu)勢可言。采取合作是為了得到長期利益,為了在將來最后一次移動中得到回應。然而,將來最后一次移動中并不能得到
35、合作,雙方都背叛了,結果倒數(shù)第二次移動中雙方也只有采取背叛。同理不斷向后歸納(backwardsinduction),結果最后一次移動之前的所有移動中,合作并不能帶來什么長期利益,沒有什么優(yōu)點,局中人惟有相信其他局中人將在最后一次移動中背叛,用現(xiàn)在的善意企圖去影響未來下一次的移動是無利可圖的。因此,在重復某一固定次數(shù)的囚徒難題重復博弈中,每一局博弈的均衡局勢都是“(背叛,背叛)”,而不是“(合作,合作)”。再來考慮博弈可無限次重復的情況。當博弈的重復次數(shù)為無限時,情況就大不相同了。此時,局中人在每一個階段都知道博弈至少還要重復一次以上,因而合作大有前景,長期利益在望。在這種無限次重復的囚徒博弈
36、中,每個人的策略都是一個函數(shù)序列,它表明每個局中人在每個階段是選擇合作還是選擇背叛,都是作為此階段之前博弈歷史的函數(shù)。重復博弈中,局中人的收益是各階段收益的貼現(xiàn)值之總和貼現(xiàn)和(向時刻0貼現(xiàn))。具體地說,設局中人在時刻的收益(即第局重復中的收益)為,他在重復博弈中的收益就是貼現(xiàn)和,其中為貼現(xiàn)率。只要貼現(xiàn)率不很高,囚徒博弈每一局重復的均衡局勢便都是“(合作,合作)”,每個人在各個階段都會看到合作的利益。為了說明這個事實,我們采用第一節(jié)例2提供的數(shù)據(jù)。假設兩個局中人一直合作,移動到了時刻。如果本次移動中一個人決定背叛,那么另一個人會因本次移動中采取合作而未得收益,從而從下次以后永遠采取背叛策略,給對
37、方以懲罰。第一個背叛者從本次開始,以后只能繼續(xù)背叛(因為合作的收益為零),結果他雖然在本次移動中立即得到了4000元的收益,但也以以后無限次的1000元收益這個低收益流來毀滅自己,他從背叛中得到的收益貼現(xiàn)和為元。另一方面,如果他持續(xù)合作下去,永不背叛,那么對方也不會背叛,于是他從合作中得到的收益貼現(xiàn)和為元。比較和可知,只要貼現(xiàn)率,就有。這就說明,只要貼現(xiàn)率不很高,當一方背叛時,另一方也采取背叛給其以懲罰,就能使背叛者償其苦果。由此看來,只有雙方互相合作下去。如有一方背叛,另一方就要執(zhí)行懲罰策略來使背叛者飽償苦果,因而沒有一方能夠從背叛中會有收獲。所以,在貼現(xiàn)率不很高的情況下,囚徒博弈重復的均衡
38、是局中人雙方在各階段都采取合作策略。以上論述實際上是很有力的,有一個稱為弗爾克(Folk)的著名定理支持了這一論述。該定理斷言:在重復的囚徒博弈中,任何收益如果高于局中人雙方一致背叛所能得到的收益,那么都將被作為重復博弈均衡而得到支持。上面我們還提到了懲罰策略,實際上這個策略可明確敘述成:“在當前移動中合作,除非其他局中人在最后移動中背叛”。采取這個策略的理由是,如果一個局中人背叛,那么他將在收益上得到永久性懲罰。另外,上面論述中還涉及到了貼現(xiàn)率,并要求貼現(xiàn)率不很高。實際上,當貼現(xiàn)率很高時,當前收益就是特別重要的,因為將來的貨幣貶值太大了,現(xiàn)在的收益要抵得上將來收益的好幾倍,因而當事人只好顧及
39、當前收益,力求當前收益越多越好,而把未來長遠利益放在次要位置上。下面再看一個雙頭壟斷的重復博弈事例。例2維持卡特爾考慮一個簡單的重復雙頭壟斷,如果兩個廠商都執(zhí)行古諾博弈均衡策略,則得到利潤;如果以共同利潤最大化決定產量水平,即執(zhí)行卡特爾行動,則得到利潤。我們知道,一次性博弈中共同利潤最大化的產量不是博弈均衡,每個廠商都有激勵去傾銷額外數(shù)量的產品,如果他認為其他廠商將保持產量不變的話。但是在重復博弈中,只要貼現(xiàn)率不太高,合作起來以使共同利潤最大化之策略,將是重復博弈的最優(yōu)解??梢宰C明,如果這種簡單的雙頭壟斷博弈是一次性的,那么每個廠商以古諾產量生產將是博弈的最優(yōu)解。但是,如果這個博弈是不斷重復的
40、,那么每個廠商都采取按照卡特爾產量生產的策略,即都選擇合作,將是雙頭壟斷重復博弈的最優(yōu)解。對不合作的適當懲罰,是采取生產古諾產量水平這一策略??梢?,在不斷重復的雙頭壟斷博弈中,由于一次性博弈均衡這種懲罰策略的存在,局中人都將以長遠利益為重,來維持卡特爾。第四節(jié) 混合策略并非所有博弈都有嚴格確定的結局。進一步,實際中博弈局中人常常希望自己的行動隱秘不被暴露,不被對手覺察。對于這兩個問題,目前意義上的策略博弈是解決不了的。在博弈非嚴格確定或者局中人希望保守秘密的情況下,局中人的最好做法是采取混合策略,即以一定的概率采取某種策略。這樣做,甚至連局中人自己也不知道每一次行動中究竟采取什么策略,競爭對手
41、就更不得而知了。而且對于非嚴格確定的博弈來說,采用混合策略就可求得最優(yōu)解。當一種混合策略以概率1選擇某種策略時,這種策略就是前三節(jié)所談論的“純”策略,可見混合策略擴展了策略概念。一混合策略的概念我們以兩人博弈為例,來對混合策略的概念以及采取混合策略時局中人的行動目標進行解釋。至于更一般的多人博弈,將在下一節(jié)中討論。設為有限二人策略博弈,其中為局中人甲的策略集合,為乙的策略集合,和分別為甲和乙的收益函數(shù)。局中人為了保持自己決策的秘密性,不再象以前那樣選擇純策略,而決定采用隨機辦法來選擇策略。也就是說,局中人對純策略的選擇由某種隨機裝置來決定,對每個純策略來說,采用它只有可能性的大小,也就是用多大
42、的概率來選擇各個純策略。這樣,對方就不可能事先知道究竟選擇哪個純策略,甚至連局中人自己也不可能事先知道,而純策略是在最后時刻借助隨機裝置選擇出來的。通過借助隨機裝置,局中人原來對純策略的選擇變成為現(xiàn)在對各個純策略的概率大小的選擇。如果還嫌借助隨機裝置給出的選擇各個純策略的概率大小具有一定的客觀性,怕被對方估計出來,局中人還可進一步采取主觀概率分布,以使對純策略的選擇帶有真正的不確定性(參見第六章關于主觀概率的介紹)。這種以某種概率選擇的策略就是混合策略,更準確地說,選擇混合策略就是選擇一個概率分布,然后按照這個分布給出的概率來選擇各個純策略。假如甲選擇策略的概率為,則向量代表著甲選擇各種純策略
43、的概率分布,實際上就表示了甲的一種混合策略。這就是說,混合策略是用概率分布來表示的,混合策略的變化完全反映為概率分布的變化。今后,我們把概率分布就稱為局中人甲的混合策略。原來的純策略可看成是這樣的一種混合策略:以概率1選擇策略,以概率0選擇其他策略。如此一來,甲的策略集合由原來的純策略集合擴張成為混合策略集合。同樣,局中人乙的選擇集合也由原來的純策略集合擴張成為混合策略集合。當甲采取混合策略,乙采取混合策略時,就稱為博弈的混合局勢。在采取混合策略的情況下,局中人的目標是要使預期收益最大化。當甲采取混合策略,乙采取混合策略時,甲和乙的預期收益分別為和:這里,和都寫成行向量形式,“”為轉置運算。甲
44、的收益函數(shù)由原來的擴充成為,乙的收益函數(shù)由原來的擴充成為。在策略集合和收益函數(shù)都得到擴充以后,原來的純策略博弈就擴充成為混合策略博弈,而且可看成是一般的二人博弈,不過這個博弈的收益函數(shù)具有雙線性性,即對于任何,及任何實數(shù),都成立:的混合局勢就是的局勢。博弈叫做純策略博弈的混合擴充。關于混合擴充,下述兩個事實是明顯的:(1) 博弈是常和博弈當且僅當混合擴充是常和博弈。(2) 如果是常和博弈,則混合擴充保持了原來博弈的收益和?;旌蠑U充的最優(yōu)解(均衡),叫做原博弈的最優(yōu)混合解(混合均衡)。也即是的最優(yōu)混合解,是指且。當是的最優(yōu)混合解時,和分別叫做甲和乙的最優(yōu)混合策略??梢宰C明:(3) 純策略博弈的最
45、優(yōu)解必然是混合擴充的最優(yōu)解。(4) 當是常和博弈時,是的最優(yōu)混合解當且僅當。從(4)可知,是常和博弈的最優(yōu)混合解當切僅當是預期收益函數(shù)的鞍點。應用第二節(jié)的鞍點定理,我們得到常和博弈的最優(yōu)混合解的又一判別條件:(5) 設是二人常和博弈,則是的最優(yōu)混合解的充分必要條件是。二混合策略的意義有時,給予混合策略一個有意義的解釋是困難的。第一節(jié)例1所述的便士匹配博弈,由于收益矩陣沒有鞍點,因而沒有純策略意義下的最優(yōu)解。但由于硬幣出現(xiàn)正面或反面,總有一個概率分布情況,因此采取混合策略來把便士匹配博弈加以擴充,然后尋找混合策略意義下的最優(yōu)解,這顯然是我們大家都能夠感覺得到的應該采取的做法。然而對于象雙頭壟斷這
46、樣的一些其他經濟利益博弈來說,采取混合策略似乎是不現(xiàn)實的。除了混合策略在一定范圍內缺乏現(xiàn)實意義外,還有一些邏輯上的原因導致對混合策略難以解釋。我們用一個例子來說明這一點。例1性別博弈(Battle of the Sexes)性別博弈收益表卡夫茹達話劇足球話劇2,10,0足球0,01,2這里介紹的博弈背后隱藏的故事是一場“性別之戰(zhàn)”。茹達(Rhonda,女)和卡夫(Calvin,男)本周末一起歡度良宵,但他們二人的娛樂愛好不同。茹達喜歡看話劇,而卡夫喜歡看足球比賽。如果他們同時選擇看話劇,則茹達可得2個單位的效用,卡夫可得1個單位的效用;如果同時選擇看足球比賽,則他們得到的效用正好與此相反;如果
47、他們選擇不同的娛樂,則得不到任何效用。右表給出了茹達和卡夫的收益情況。我們來看一看茹達和卡夫之間這場“性別之戰(zhàn)”博弈的結局究竟如何。首先,讓我們尋找該博弈的所有純策略意義下的最優(yōu)解。通過對各種策略進行逐一相互比較,不難看出“(話劇,話劇)”和“(足球,足球)”都是純策略最優(yōu)解,即茹達和卡夫選擇相同的娛樂,才是最好的做法。然后,我們來尋找混合策略意義下的最優(yōu)解。茹達的收益矩陣和卡夫的收益矩陣為:,茹達的預期收益為,卡夫的預期收益為。因此,最優(yōu)混合策略問題可歸結為如下的約束極值問題:應用Kuhn-Tucker條件(參見第七章第八節(jié)),上述極值問題的解為,,,。這就是說,茹達以概率選擇看話劇,以概率
48、選擇看足球比賽;卡夫以概率選擇看話劇、以概率選擇看足球比賽,是性別博弈的最優(yōu)混合局勢。這個最優(yōu)解有這樣幾個特點:第一,茹達和卡夫采取最優(yōu)混合策略的預期收益都等于2/3;第二,如果茹達采取最優(yōu)混合策略,那么不論卡夫采取什么純策略,卡夫的預期收益也都是2/3;第三,如果卡夫采取最優(yōu)混合策略,那么不論茹達采取什么純策略,她的預期收益也都是2/3。這樣一來,還有什么理由要求茹達和卡夫雙方都采取最優(yōu)混合策略呢?看來,要想人們采取混合策略,必須有一些更加令人興奮的理由。本例說明,從邏輯上講,采用混合策略沒有多少道理。盡管如此,在某些情況下這種邏輯上的毛病不會帶來嚴重問題。例如,假定有一大群人在隨機碰面并玩
49、便士匹配游戲,甲是其中一員。設最初每個人都按概率分布(1/2,1/2)執(zhí)行唯一的最優(yōu)混合策略,到最后有些人便厭倦于執(zhí)行此混合策略,而決定總是玩正面游戲或總是玩反面游戲。如果決定總出正面的人數(shù)等于決定總出反面的人數(shù),那么各個局中人的選擇問題不會有明顯變化:每個人仍然理性地以為他的對手以50的可能性出正面或反面。也就是說,雖然每個人都決定采取純策略而總是出正面或反面,但當甲隨機碰到一個局中人時,該人是出正面還是反面,甲不得而知,只能作出這樣的判斷:該人出正面的可能性為50。這等同于該人采取混合策略。對混合策略的另一種解釋是:考慮某人在一次性博弈中出正面還是反面的選擇,這個選擇被看作是依賴于一些為對
50、手所不能確定的特殊因素。比如,該人心想“正面”時就出正面,心想“反面”時就出反面。這種“心想”因素是很難為對手所把握的,一個人可以自我覺察到自己的心情,但其他人(對手) 卻難以覺察這個人的心情。因此,每個局中人都會認為其他人對策略的選擇是隨機的。這樣,采取混合策略就是一件有意義的事情。第五節(jié) 矩陣博弈的古諾均衡前面介紹的博弈最優(yōu)解(均衡)概念,假定了局中人各自獨立行動,沒有合作。這種非合作二人博弈均衡概念,最早是由古諾提出來的,稱為古諾均衡。無合作意味著局中人之間存在著利害沖突,互相對抗,互為對手。矩陣博弈(即二人零和博弈)是對這種或對抗狀態(tài)的簡明刻畫,本節(jié)就下面就矩陣博弈均衡的存在性與算法問
51、題及其均衡的性質進行討論。一均衡的存在性收益矩陣的鞍點未必存在,這使得矩陣博弈的均衡未必存在。但當采用混合策略時,情況就不同了:矩陣博弈的最優(yōu)混合解總是存在的。下面用von Neumann(1937)的構造性方法來證明這一事實,構造性方法本身蘊含著古諾均衡的一種計算方法。矩陣博弈均衡的存在性任何矩陣博弈都有混合均衡。具體來說,設為矩陣博弈,,為的混合擴充,則必存在滿足。本定理的證明較長,會令讀者感到枯燥。但證明過程給出了古諾均衡的計算方法,學習掌握這一計算方法是重要的,讀者有必要靜下心來琢磨一下。首先注意,令,則是的均衡當且僅當。本定理的證明將基于這一事實。另外,可以看出和具有下面三條性質:對
52、任何,都有;對任何,都有;對任何,都有。進一步,假定收益矩陣的各行已經過調整,使得。這個假定并不是說增加了額外的條件,而是說在安排策略集中諸策略的編號時,可以讓編號滿足這個要求。以下的證明分三步走。第一步:定義基和最優(yōu)基;第二步:構造最優(yōu)基;第三步:從最優(yōu)基得出混合擴充的均衡。第一步:定義基和最優(yōu)基首先定義收益矩陣的增廣矩陣如下:的首行、首列叫做第0行、第0列,即首行行標為0,首列列標為0。用表示的第列,并令。從增廣矩陣的列中選出列,構成一個階方陣:。如果滿足下面三個條件:(b1) 是的首列,即;(b2) 是非奇異的矩陣,即行列式;(b3) 的逆矩陣中除首行外,其余各行的第一個非零元素皆為正數(shù)
53、。則稱是一個基(base)。如此定義的基必然存在。例如,矩陣就是一個基。事實上,符合條件(b1)和(b2)是明顯的。對于條件(b3),注意的逆矩陣如下:而,故符合條件(b3)。這就證明了是基?,F(xiàn)在對于任何一個基來說,用表示的第行。則從(其中為階單位陣)知,這里當時,而當時。這說明,可見在個內積中,至少有個為零。如果其余個內積均非正,那么就稱是一個最優(yōu)基(optimal base)。換句話說,基是最優(yōu)基,是指,即的首行向量與的后個列向量的內積全非正。第二步:用迭代法構造最優(yōu)基任意指定一個基(比如上面的基),從出發(fā)來構造最優(yōu)基。用表示的第行,表示的第列,并檢查是否為最優(yōu)基,即檢查不等式是否對一切都
54、成立。如果是最優(yōu)基,則目的已達到。如果不是最優(yōu)基,則,此時需做下面的工作:(1) 找出一個使。若的諸列中符合這個條件的列不止一個,那么就取列標最小者。(2) 從方程解出列向量。這樣得到的列向量必然滿足且中必有正數(shù)。事實上,。假如中沒有正數(shù),那么給出,從而增廣矩陣的首列是的個列的正線性組合;然而根據(jù)的定義,不能表示成的個列的正線性組合,出現(xiàn)矛盾。矛盾的結論說明中必有正數(shù)。(3) 找出符合條件的列,這里的是指在向量之間的字典序下求最小元,字典序是從向量的第一個分量開始比較的。如此找到的列必然是唯一的,即滿足該條件的是唯一的。的唯一性保證了只要且,那么的第一個非零分量必為正數(shù)。事實上,假如符合條件的
55、不唯一,比如說和都滿足該條件且,那么根據(jù)字典序的定義可知必有,從而的行向量組線性相關,這是不可能的。(4) 用替換的第列,并保持的其他列不變,得到一個階方陣。這個矩陣必然也是基。我們來證明是基,即證明滿足基的三個條件(b1)、(b2)和(b3)。首先,根據(jù)的定義,。這說明的首列未被替換,即和具有相同的首列。所以,滿足條件(b1)。其次,既然且,從行列式的性質便可知。所以,也滿足條件(b2),即是可逆矩陣。最后檢查條件(b3),即檢查的逆矩陣各行(首行除外)的第一個非零元素是否為正數(shù)。為此,令,其中 。首先來驗證,這里為階單位矩陣。注意,告訴我們,對一切成立。下面的驗證過程中,這一事實將被多次應
56、用。再注意,和僅僅在第列上有區(qū)別:;而當時,??疾斓牡谛?、第列的元素:當時,;當時,;當時,;當時,;當時,。總之,當時,;當時,。這就證明了,即是的逆矩陣:?,F(xiàn)在來從的第1行到第行,考察各行第一個非零元素是否為正數(shù)。首先看的第行:由于,且的第一個非零元素為正數(shù),因此的第一個非零元素也為正數(shù)。再看第行:。當時,的第一個非零元素確實為正數(shù);當時,(3)已經說明了的第一個非零元素為正數(shù)??傊?,除了的首行外,其余各行的第一個非零元素都為正數(shù)。到此,條件(b3)得到驗證。(5) 如果不是最優(yōu)基,那么對進行類似的修正,即對重復以上步驟(1)至(4),得到一個基;如果還不是最優(yōu)基,就對重復以上步驟,得到又
57、一個基;這樣不斷做下去,必然到某一步,比如第步時,得到的基就是最優(yōu)基。為什么不斷重復修正下去就能得到最優(yōu)基呢?為了說明這個問題,我們來看一下從基到基有什么改進。注意,被吸收進來的列滿足條件:且。被排除出去的列滿足條件:且。是因為是矩陣的第0行、第列的元素;是因為。如果不是最優(yōu)基,那么對進行類似于那樣的修正,得到另一個基。被排除出去,就不會把它重新吸收進來,因為被新吸收進來的列滿足,而不滿足這個條件,事實上。如果還不是最優(yōu)基,那么再次重復以上過程,得到又一個基??梢宰C明,不會把以前從基中排除出去的列重新吸收進來。這樣不斷進行下去,各次得到的基是互不相同的,而且每次更換基中的某列時,都不會把以前各
58、次中被排除出基的列重新吸收進來,可見迭代至多進行次。最后一次構造出來的基必然是最優(yōu)基。第三步:從最優(yōu)基得出混合擴充的均衡。設為一最優(yōu)基,不妨假定。用表示的首行,表示的首列。令,并定義如下:對任何,當時,;而當時,。我們斷定:是混合擴充的均衡。其實這一斷言基于這樣兩個事實:(I)且;(II)且。實際上,和都是的首行、首列元素,因而。這樣,事實(I)和(II)就說明了是的均衡??梢姡覀冎恍枳C明事實(I)和事實(II)。事實(I)的證明:從可知。是最優(yōu)基又說明,尤其是對于,有。這就證明了。說明不會全為零。結合,我們便知不會全為零。當時,。這說明。再注意,中至少有個為零,但現(xiàn)在已知后面?zhèn)€不會全為零,
59、因而前面?zhèn)€中至少有一個為零,即必有某個滿足:且。所以,。事實(II)的證明:首先,是的第行的首元素,而第0行才是的首行。根據(jù)基的性質(b3)可知,對一切成立,這就保證了。再注意,說明了的首行向量與的首列向量的內積為1, 而根據(jù)增廣矩陣首行的特點,這個內積等于。因此,從而。的第行與的第0列的內積為零,這個內積等于因此。再注意,不會全是增廣矩陣的后個列向量(因為假如這樣的話,就不可逆了)。這說明的后列中必有一列不在中出現(xiàn),比方說不在中出現(xiàn),即且?,F(xiàn)在考慮的第行與的內積,這個內積當然要等于零,同時按照定義又要等于:因而。結合,我們得到。到此,矩陣博弈古諾均衡的存在性得到證明。矩陣博弈均衡的簡化設為矩
60、陣博弈,,為的混合擴充,為一實數(shù)。則下面兩個條件等價:(1) 是的均衡且;(2) 對一切和成立。證明:(1)(2)是顯然的。下面來證明(2)(1)。為此,假定(2)成立。注意,且。因此對任何及,都有,。對和也不例外:,從而。這說明是的均衡。(1)得證。二最優(yōu)解的性質矩陣博弈混合均衡的存在性,保證了等式成立。今后,我們把數(shù)值叫做矩陣博弈的博弈值(value of the game),簡稱的值。顯然,矩陣博弈的值是局中人甲在博弈達到均衡時的預期收益。即,若是的最優(yōu)混合解,那么。為了研究博弈值的性質,也為了計算博弈之解,需要對構成最優(yōu)解的混合策略的性質進行研究。首先,如果我們能夠通過某種方法知道矩陣
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 消防器材采購合同
- 房屋買賣居間合同書范本
- 校園社團合作合同
- 充電設備出租合同范例
- 買賣車輛范例合同范例
- 定銅帶合同范例
- 凱悅酒店投資合同范例
- 小區(qū)花草維修合同范例
- 工程貨物訂購合同范例
- 校園方面買賣合同范例
- 被動用法學習課件 高中日語人教版第三冊
- 檔案袋密封條模板
- 最新版護理常規(guī)
- 德能勤績廉量化考核表格范例
- 互聯(lián)網+大賽創(chuàng)新創(chuàng)業(yè)路演PPT課件(帶內容)
- 綠色雅致清明節(jié)模板
- 普速鐵路行車組織規(guī)則(電子版)
- 部編版五年級上冊第一單元集體備課
- nasa緊固件設計手冊-達文中翻譯版
- DB33_T 2288-2020淡水池塘養(yǎng)殖尾水處理技術規(guī)范(高清正版)
- 渡槽工程施工組織設計及對策
評論
0/150
提交評論