版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、博弈論最優(yōu)策略的產(chǎn)生一、博弈中最優(yōu)策略的產(chǎn)生艾克斯羅德(Robert Axelrod)在開始研究合作之前,設(shè)定了兩個前提:一、每個人都是自 私的;二、沒有權(quán)威干預(yù)個人決策。也就是說,個人可以完全按照自己利益最大化的企圖進 行決策。在此前提下,合作要研究的問題是:第一、人為什么要合作;第二、人什么時候是 合作的,什么時候又是不合作的;第三、如何使別人與你合作。社會實踐中有很多合作的問題。比如國家之間的關(guān)稅報復(fù),對他國產(chǎn)品提高關(guān)稅有利于保護 本國的經(jīng)濟,但是國家之間互提關(guān)稅,產(chǎn)品價格就提高了,喪失了競爭力,損害了國際貿(mào)易 的互補優(yōu)勢。在對策中,由于雙方各自追求自己利益的最大化,導(dǎo)致了群體利益的損害
2、。對 策論以著名的囚犯困境來描述這個問題。A和B各表示一個人,他們的選擇是完全無差異的。選擇C代表合作,選擇D代表不合作。 如果AB都選擇C合作,則兩人各得3分;如果一方選C,一方選D,則選C的得零分, 選D的得5分;如果AB都選。,雙方各得1分。顯然,對群體來說最好的結(jié)果是雙方都選C,各得3分,共得6分。如果一方選C,一方選 D,總體得5分。如果兩人都選D,總體得2分。對策學(xué)界用這個矩陣來描述個體理性與群體理性的沖突:每個人在追求個體利益最大化時, 就使群體利益受損,這就是囚徒困境。在矩陣中,對于A來說,當(dāng)對方選C,他選D得5 分,選C只得3分;當(dāng)對方選D,他選D得1分,選C得零分。因此,無
3、論對方選C或D, 對A來說,選D都得分最多。這是A單方面的優(yōu)超策略。而當(dāng)兩個優(yōu)超策略相遇,即A, B都選D時,結(jié)果是各得1分。這個結(jié)果在矩陣中并非最優(yōu)。困境就在于,每個人采取各 自的優(yōu)超策略時,得出的解是穩(wěn)定的,但不是帕累托最優(yōu)的,這個結(jié)果體現(xiàn)了個體理性與群 體理性的矛盾。在數(shù)學(xué)上,這個一次性決策的矩陣沒有最優(yōu)解。如果博弈進行多次,只要對策者知道博弈次數(shù),他們在最后一次肯定采取互相背叛的策略。 既然如此,前面的每一次也就沒有合作的必要,因此,在次數(shù)已知的多次博弈中,對策者沒 有一次會合作。如果博弈在多人間進行,而且次數(shù)未知,對策者就會意識到,當(dāng)持續(xù)地采取合作并達成默契 時,對策者就能持續(xù)地各得
4、3分,但如果持續(xù)地不合作的話,每個人就永遠得1分。這樣, 合作的動機就顯現(xiàn)出來。多次對局下,未來的收益應(yīng)比現(xiàn)在的收益多一個折現(xiàn)率W,W越 大,表示未來的收益越重要。在多人對策持續(xù)進行下去,且W比較大,即未來充分重要時, 最優(yōu)的策略是與別人采取的策略有關(guān)的。假設(shè)某人的策略是,第一次合作,以后只要對方不 合作一次,他就永不合作。對這種對策者,當(dāng)然合作下去是上策。假如有的人不管對方采取 什么策略,他總是合作,那么總是對他采取不合作的策略得分最多。對于總是不合作的人, 也只能采取不合作的策略。艾克斯羅德做了一個實驗,邀請多人來參加游戲,得分規(guī)則與前面的矩陣相同,什么時候結(jié) 束游戲是未知的。他要求每個參
5、賽者把追求得分最多的策略寫成計算機程序,然后用單循環(huán) 賽的方式將參賽程序兩兩博弈,以找出什么樣的策略得分最高。第一輪游戲有14個程序參加,再加上艾克斯羅德自己的一個隨機程序(即以50%的概率選取 合作或不合作),運轉(zhuǎn)了 300次。結(jié)果得分最高的程序是加拿大學(xué)者羅伯布寫的一報還一報 (tit for tat)o這個程序的特點是,第一次對局采用合作的策略,以后每一步都跟隨對方上一 步的策略,你上一次合作,我這一次就合作,你上一次不合作,我這一次就不合作。艾克斯 羅德還發(fā)現(xiàn),得分排在前面的程序有三個特點:第一,從不首先背叛,即善良的”;第二, 對于對方的背叛行為一定要報復(fù),不能總是合作,即”可激怒的
6、”;第三,不能人家一次背 叛,你就沒完沒了的報復(fù),以后人家只要改為合作,你也要合作,即”寬容性”。為了進一步驗證上述結(jié)論,艾氏決定邀請更多的人再做一次游戲,并把第一次的結(jié)果公開發(fā) 表。第二次征集到了 62個程序,加上他自己的隨機程序,又進行了一次競賽。結(jié)果,第一 名的仍是一報還一報”。艾氏總結(jié)這次游戲的結(jié)論是:第一,”一報還一報”仍是最優(yōu)策略。 第二,前面提到的三個特點仍然有效,因為63人中的前15名里,只有第8名的哈靈頓程序 是”不善良的”,后15名中,只有1個總是合作的是善良的”。可激怒性和寬容性也得到了 證明。此外,好的策略還必須具有的一個特點是%清晰性”,能讓對方在三、五步對局內(nèi)辨識
7、出來,太復(fù)雜的對策不見得好?!币粓筮€一報”就有很好的清晰性,讓對方很快發(fā)現(xiàn)規(guī)律,從 而不得不采取合作的態(tài)度。二、合作的進行過程及規(guī)律”一報還一報”的策略在靜態(tài)的群體中得到了很好的分數(shù),那么,在一個動態(tài)的進化的群體中, 這種合作者能否產(chǎn)生、發(fā)展、生存下去呢?群體是會向合作的方向進化,還是向不合作的方 向進化?如果大家開始都不合作,能否在進化過程中產(chǎn)生合作?為了回答這些疑問,艾氏用 生態(tài)學(xué)的原理來分析合作的進化過程。假設(shè)對策者所組成的策略群體是一代一代進化下去的,進化的規(guī)則包括:一,試錯。人們在 對待周圍環(huán)境時,起初不知道該怎么做,于是就試試這個,試試那個,哪個結(jié)果好就照哪個 去做。第二,遺傳。一
8、個人如果合作性好,他的后代的合作基因就多。第三,學(xué)習(xí)。比賽過 程就是對策者相互學(xué)習(xí)的過程,”一報還一報”的策略好,有的人就愿意學(xué)。按這樣的思路, 艾氏設(shè)計了一個實驗,假設(shè)63個對策者中,誰在第一輪中的得分高,他在第二輪的群體中 所占比例就越高,而且是他的得分的正函數(shù)。這樣,群體的結(jié)構(gòu)就會在進化過程中改變,由 此可以看出群體是向什么方向進化的。實驗結(jié)果很有趣?!币粓筮€一報”原來在群體中占1/63,經(jīng)過1000代的進化,結(jié)構(gòu)穩(wěn)定下來 時,它占了 24%。另外,有一些程序在進化過程中消失了。其中有一個值得研究的程序, 即原來前15名中唯一的那個”不善良的”哈靈頓程序,它的對策方案是,首先合作,當(dāng)發(fā)現(xiàn)
9、 對方一直在合作,它就突然來個不合作,如果對方立刻報復(fù)它,它就恢復(fù)合作,如果對方仍 然合作,它就繼續(xù)背叛。這個程序一開始發(fā)展很快,但等到除了一報還一報”之外的其它程 序開始消失時,它就開始下降了。因此,以合作系數(shù)來測量,群體是越來越合作的。進化實驗揭示了一個哲理:一個策略的成功應(yīng)該以對方的成功為基礎(chǔ)?!币粓筮€一報”在兩個 人對策時,得分不可能超過對方,最多打個平手,但它的總分最高。它賴以生存的基礎(chǔ)是很 牢固的,因為它讓對方得到了高分。哈靈頓程序就不是這樣,它得到高分時,對方必然得到 低分。它的成功是建立在別人失敗的基礎(chǔ)上的,而失敗者總是要被淘汰的,當(dāng)失敗者被淘汰之后,這個好占別人便宜的成功者也
10、要被淘汰。那么,在一個極端自私者所組成的不合作者的群體中,”一報還一報”能否生存呢?艾氏發(fā)現(xiàn), 在得分矩陣和未來的折現(xiàn)系數(shù)一定的情況下,可以算出,只要群體的5%或更多成員是”一 報還一報”的,這些合作者就能生存,而且,只要他們的得分超過群體的總平均分,這個合 作的群體就會越來越大,最后蔓延到整個群體。反之,無論不合作者在一個合作者占多數(shù)的 群體中有多大比例,不合作者都是不可能自下而上的。這就說明,社會向合作進化的棘輪是 不可逆轉(zhuǎn)的,群體的合作性越來越大。艾克斯羅德正是以這樣一個鼓舞人心的結(jié)論,突破了 ”囚犯困境”的研究困境。在研究中發(fā)現(xiàn),合作的必要條件是:第一、關(guān)系要持續(xù),一次性的或有限次的博
11、弈中,對策 者是沒有合作動機的;第二、對對方的行為要做出回報,一個永遠合作的對策者是不會有人 跟他合作的。那么,如何提高合作性呢?首先,要建立持久的關(guān)系,即使是愛情也需要建立婚姻契約以維 持雙方的合作。(火車站的小販為什么要騙人?為什么工作中要形成小組制度?換防的時候 一方總是要小小地進攻一下的,在中越前線就是這樣)第二、要增強識別對方行動的能力, 如果不清楚對方是合作還是不合作,就沒法回報他了。第三、要維持聲譽,說要報復(fù)就一定 要做到,人家才知道你是不好欺負的,才不敢不與你合作。第四、能夠分步完成的對局不要 一次完成,以維持長久關(guān)系,比如,貿(mào)易、談判都要分步進行,以促使對方采取合作態(tài)度。 第
12、五、不要嫉妒人家的成功,”一報還一報”正是這樣的典范。第六、不要首先背叛,以免擔(dān) 上罪魁禍首的道德壓力。第七、不僅對背叛要回報,對合作也要作出回報。第八、不要耍小 聰明,占人家便宜。(打橋牌和打麻將的區(qū)別)艾克斯羅德在合作的進化一書結(jié)尾提出幾個結(jié)論。第一、友誼不是合作的必要條件,即 使是敵人,只要滿足了關(guān)系持續(xù),互相回報的條件,也有可能合作。比如,第一次世界大戰(zhàn) 期間,德英兩軍在戰(zhàn)壕戰(zhàn)中遇上了三個月的雨季,雙方在這三個月中達成了默契,互相不攻 擊對方的糧車給養(yǎng),到大反攻時再你死我活地打。這個例子說明,友誼不是合作的前提。第二、預(yù)見性也不是合作的前提,艾氏舉出生物界低等動物、植物之間合作的例子來
13、說明這一 點。但是,當(dāng)有預(yù)見性的人類了解了合作的規(guī)律之后,合作進化的過程就會加快。這時,預(yù) 見性是有用的,學(xué)習(xí)也是有用的。當(dāng)游戲中考慮到隨機干擾,即對策者由于誤會而開始互相背叛的情形時,吳堅忠博士經(jīng)研究 發(fā)現(xiàn),以修正的”一報還一報”,即以一定的概率不報復(fù)對方的背叛,和”悔過的一報還一報 ”,即以一定的概率主動停止背叛。群體所有成員處理隨機環(huán)境的能力越強,”悔過的一報還 一報”效果越好,”寬大的一報還一報”效果越差。三、艾克斯羅德的貢獻與局限性 艾克斯羅德通過數(shù)學(xué)化和計算機化的方法研究如何突破囚徒困境,達成合作,將這項研究帶 到了一個全新境界,他在數(shù)學(xué)上的證明無疑是十分雄辯和令人信服的,而且,他
14、在計算機模 擬中得出的一些結(jié)論是非常驚人的發(fā)現(xiàn),比如,總分最高的人在每次博弈中都沒有拿到最高分。(劉邦和項羽的戰(zhàn)爭) 艾氏所發(fā)現(xiàn)的”一報還一報”策略,從社會學(xué)的角度可以看作是一種互惠式利他”,這種行為 的動機是個人私利,但它的結(jié)果是雙方獲利,并通過互惠式利他有可能覆蓋了范圍最廣的社 會生活,人們通過送禮及回報,形成了一種社會生活的秩序,這種秩序即使在多年隔絕,語 言不通的人群之間也是最易理解的東西。比如,哥倫布登上美洲大陸時,與印地安人最初的 交往就開始于互贈禮物。有些看似純粹的利他行為,比如無償損贈,也通過某些間接方式, 比如社會聲譽的獲得,得到了回報。研究這種行為,將對我們理解社會生活有很
15、重要的意義。囚徒困境擴展為多人博弈時,就體現(xiàn)了一個更廣泛的問題一社會悖論”,或”資源悖論”。 人類共有的資源是有限的,當(dāng)每個人都試圖從有限的資源中多拿一點兒時,就產(chǎn)生了局部利 益與整體利益的沖突。人口問題、資源危機、交通阻塞,都可以在社會悖論中得以解釋,在 這些問題中,關(guān)鍵是通過研究,制定游戲規(guī)則來控制每個人的行為。艾克斯羅德的一些結(jié)論在中國古典文化道德傳統(tǒng)中可以很容易地找到對應(yīng),”投桃報李”、” 人不犯我,我不犯人”都體現(xiàn)了”鈕for tat的思想。但這些東西并不是最優(yōu)的,因為”一報還 一報”在充滿了隨機性的現(xiàn)實社會生活里是有缺陷的。對此,孔子在幾千年前就說出了”以德 報德,以直報怨”這樣精
16、彩的修正策略,所謂直”,就是公正,以公正來回報對方的背叛, 是一種修正了的”一報還一報”,修正的是報復(fù)的程度,本來會讓你損失5分,現(xiàn)在只讓你損 失3分,從而以一種公正審判來結(jié)束代代相續(xù)的報復(fù),形成文明。但是,艾氏對博弈者的一些假設(shè)和結(jié)論使其研究不可避免地與現(xiàn)實脫節(jié)。首先,合作的進 化一書暗含著一個重要的假定,即,個體之間的博弈是完全無差異的。現(xiàn)實的博弈中,對 策者之間絕對的平等是不可能達到的。一方面,對策者在實際的實力上有差異,雙方互相背 叛時,可能不是各得1分,而是強者得5分,弱者得0分,這樣,弱者的報復(fù)就毫無意義。 另一方面,即使對局雙方確實旗鼓相當(dāng),但某一方可能懷有賭徒心理,認定自己更強
17、大,采 取背叛的策略能占便宜。艾氏的得分矩陣忽視了這種情形,而這種賭徒心理恰恰在社會上大 量引發(fā)了零和博弈。因此,程序還可以在此基礎(chǔ)上進一步改進。其次,艾氏認為合作不需預(yù)期和信任。這是他受到質(zhì)疑頗多之處。對策者根據(jù)對方前面的戰(zhàn) 術(shù)來制定自己下面的戰(zhàn)術(shù),合作要求個體能夠識別那些曾經(jīng)相遇過的個體并且記得與其相互 作用的歷史,以便作出反應(yīng),這些都暗含著預(yù)期”行為。在應(yīng)付復(fù)雜的對策環(huán)境時,信任可 能是對局雙方達成合作的必不可少的環(huán)節(jié)。但是,預(yù)期與信任如何在計算機的程序中體現(xiàn)出 來,仍是需要研究的。最后,重復(fù)博弈在現(xiàn)實中是很難完全實現(xiàn)的。一次性博弈的大量存在,引發(fā)了很多不合作的 行為,而且,對策的一方在
18、遭到對方背叛之后,往往沒有機會也沒有還手之力去進行報復(fù)。 比如,資本積累階段的違約行為,國家之間的核威懾。在這些情況下,社會要使交易能夠進 行,并且防止不合作行為,必須通過法制手段,以法律的懲罰代替?zhèn)€人之間的”一報還一報”, 規(guī)范社會行為。這是艾克斯羅德的研究對制度學(xué)派的一個重要啟發(fā)。書目:1、羅伯特艾克斯羅德1984 / 1996:對策中的致勝之道一合作的進化the Evolution of Cooperation 上海人民出版社2、奧爾森美1995年版集體行動的邏輯上海三聯(lián)書店3、Martin A. Nowak、Robert M. May、Karl Sigmund互助的算術(shù)科學(xué)1995 年
19、第 10 期4、謝林沖突戰(zhàn)略武器與影響微觀動機和宏觀行為奧曼 博弈論的定義應(yīng)為“交互的決策論”博弈論是交互式條件下的“最優(yōu)理性決策”,即每個參 與者都希望能以其偏好獲得最大的滿足。如果一個參與者在既定的信息下最大化其效用,他 就是理性的?!盁o投機定理”:如果人們能夠充分交流,而且都是理性的,那么人們之間不可能對給定事 件的判斷存在不一致。根據(jù)這個結(jié)論可以進一步證明的是,在人們都是風(fēng)險規(guī)避的前提下, 不可能在有共同的事先概率的情況下做相反方向的投機,因而只有在交流不夠、信息不充分, 或者人們并不理性的情況下才可能存在投機,否則投機是不可能發(fā)生的。研究“無限重復(fù)博弈”:在現(xiàn)實世界,長期關(guān)系比短期關(guān)
20、系更加容易合作,并且具有效 率更高的博弈結(jié)果,因此一次性博弈往往有失偏頗,奧曼通過對重復(fù)博弈原創(chuàng)性的全面研究, 很好地詮釋了長期中的合作行為。重復(fù)博弈加強了我們對合作條件的理解:為什么在參與者 越多、互動越不頻繁、關(guān)系越不牢固、時間越短、信息越不透明的背景下合作越難維持?這 些問題都能從重復(fù)博弈中得到啟發(fā),并進而理解貿(mào)易戰(zhàn)、價格戰(zhàn)、公共產(chǎn)品管理效率等現(xiàn)實 問題?!盁o名氏定理”(the folk theorem):重復(fù)博弈最早討論的是完全信息的情形。在一個無限重 復(fù)博弈中,如果參與者有足夠的耐心的話,許多原本不是靜態(tài)納什均衡的行動都將可能成為 均衡的結(jié)果。該定理把多階段博弈的非合作行為與一次性博
21、弈的合作行為聯(lián)系了起來。完全 信息的重復(fù)博弈論與人們之間相互作用的基本形式的演化相關(guān)。不完全信息的重復(fù)博弈論:不完全信息下,行為人可能不會擁有被重復(fù)著的一次性博弈所具 有的一些相關(guān)信息。在這種情況下,重復(fù)博弈的重要性在于能使行為人從其他行為人的行為 中獲取并了解到信息。不完全信息博弈的觀點被應(yīng)用于寡頭壟斷、委托人與代理人、保險中。謝林博弈論之沖突經(jīng)濟學(xué),沖突戰(zhàn)略、武器與影響、微觀動機和宏觀行為主要的觀點是:主動約束自己隨意性和自主性反而會增強自我主動性。這一看似矛盾的結(jié)論成立的奧妙在于,有些策略行為會像項羽破釜沉舟一樣,通過自斷后 路從而使自己的承諾足以令對手相信,這正好與“欲將取之,必先與之”、“置之死地而后生” 的中國智慧不謀而
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度智慧旅游平臺設(shè)計與開發(fā)承包協(xié)議4篇
- 2025年中國縣域特色旅游行業(yè)市場調(diào)研分析及投資前景預(yù)測報告
- 2024-2025年中國IT容量管理軟件行業(yè)發(fā)展趨勢及投資前景預(yù)測報告
- 美容院美容產(chǎn)品進出口貿(mào)易合同(2025年度版)4篇
- 二零二五年度體育賽事承包經(jīng)營合同樣本3篇
- 2025年度大學(xué)生實習(xí)就業(yè)實習(xí)補貼合同范本3篇
- 二零二五年度橋梁隧道工程承包商工程款擔(dān)保協(xié)議4篇
- 2024-2025年中國開源軟件市場運營態(tài)勢分析及投資前景預(yù)測報告
- 2025年度大棚種植與農(nóng)產(chǎn)品電商平臺合作合同4篇
- 2025年城市共享出行車牌租賃管理與運營協(xié)議4篇
- 2025年河南鶴壁市政務(wù)服務(wù)和大數(shù)據(jù)管理局招聘12345市長熱線人員10人高頻重點提升(共500題)附帶答案詳解
- 建設(shè)項目安全設(shè)施施工監(jiān)理情況報告
- 春節(jié)期間安全施工措施
- 2025年大唐集團招聘筆試參考題庫含答案解析
- 建筑工地春節(jié)期間安全保障措施
- 2025山東水發(fā)集團限公司招聘管理單位筆試遴選500模擬題附帶答案詳解
- 2024-2030年中國建筑玻璃行業(yè)市場深度調(diào)研及競爭格局與投資價值預(yù)測研究報告
- 泌尿:膀胱腫瘤病人的護理查房王雪-課件
- 企業(yè)短期中期長期規(guī)劃
- 中華民族共同體概論講稿專家版《中華民族共同體概論》大講堂之第一講:中華民族共同體基礎(chǔ)理論
- 《商務(wù)溝通-策略、方法與案例》課件 第一章 商務(wù)溝通概論
評論
0/150
提交評論