陸天然:博弈的最佳策略是“一報還一報”_第1頁
陸天然:博弈的最佳策略是“一報還一報”_第2頁
陸天然:博弈的最佳策略是“一報還一報”_第3頁
陸天然:博弈的最佳策略是“一報還一報”_第4頁
陸天然:博弈的最佳策略是“一報還一報”_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、陸天然:博弈的最佳策略是“一報還一報”互聯(lián)網(wǎng)時代的世界觀關(guān)系宇宙導讀之七十九由陸天然、葉舟、胡均亮合著、國務(wù)院研究室中國言實出版社出版發(fā)行的互 聯(lián)網(wǎng)時代方法論叢書第一卷互聯(lián)網(wǎng)時代的世界觀關(guān)系宇宙一書科學地論 證了博弈的最佳策略是“一報還一報”。生活中的“一報還一報”合作策略什么是“一報還一報”策略?即“人不犯我,我不犯人,人若犯我,我必犯人”。為了進一步理解“一報還一報”策略,在此不妨首先看看三個小故事:故事一:一次,張作霖逛街正自得其樂,突然聽到一聲吆喝,嚇得他打了個哆嗦,回頭一看,原來是個賣豆腐腦的,挑著擔子正從小巷里走出來。張大帥大怒:“給 我抓起來! ”賣豆腐腦的莫名其妙地被一直拉進大

2、帥府?!拔乙獦寯浪?! ”張作霖說著,把小販一直拖到操場上。只聽“砰”的一聲槍響,小販即癱軟在地。不 一會兒,只見小販蠕動著身子,爬了起來。奇怪,身體絲毫無傷。這時,張作霖 得意地說:“剛才你嚇我一跳,現(xiàn)在我嚇你一死?!惫适露荷鲜兰o初,張作霖所屬的東北軍有兩名士兵無故被日本查道兵打死了,事后日方賠給士兵家屬每戶120元。張作霖對此十分憤怒,下令東北軍:“碰到日本 查道兵就打,我也有錢?!睎|北軍得令后,很快打死了12個日兵,惹得日本駐沈陽領(lǐng)事跑去找張作霖,提出抗議,要求:一、懲兇;二、道歉;三、賠償;四、 保證不再有類似事件發(fā)生。結(jié)果,張作霖這樣回復:一、“胡子”殺了人跑了,既捉不到,自難嚴懲;

3、二、不是東北軍干的事,為什么要我道歉;三、東北“胡子”很多,無法保證以后不再發(fā)生,四、賠償可辦到,依日本兵打死東北軍一人賠120元賠償。日本領(lǐng)事聞言無可奈何,此事只好不了了之。故事三:一個面包師每天從他一位農(nóng)民鄰居那兒購買黃油。有一天,他覺得本應(yīng)該是3磅重一包的黃油似乎太輕了點。于是他開始定期地稱一稱黃油,發(fā)現(xiàn)每回都是分量不足,這等于他每次都多付了錢。他特別生氣,便開始提起訴訟。這一來事情就鬧到了法官面前?!澳鷽]有天平嗎?”法官問農(nóng)民?!坝型郏ü傧壬?,我有一架天平?!鞭r(nóng)民回答道?!坝泻軠实捻来a嗎?”“沒有,法官先生,我不需要砝碼。”“沒有砝碼,那你怎么稱黃油呢?”“這好辦,”農(nóng)民回答說,“你

4、瞧,就在面包師從我這兒買黃油的那段時間,我也一直買他的面包。我總是要同樣重的面包。每次這些面包就作為稱黃油的砝 碼。如果砝碼不準,那就不是我的過錯,而是他的過錯了。于是,法官判定農(nóng)民無罪,而面包師不得不承擔訴訟的費用。很顯然,誰都不是傻瓜。我們怎樣對待世界,世界就會同樣對待我們;我們 怎樣對待周圍的人,周圍的人也會同樣對待我們。把自己最好的東西給別人,就 會從別人那里獲得最好的東西。幫助別人越多,得到也會越多;愈吝嗇就愈會一 無所有再接著講上文圖書訂貨商的故事分析:劉收到了訂貨商的錢而未發(fā)貨,是劉首先選擇了背叛,那么,別人很快便不 敢再交錢給劉了,不敢再跟劉往下合作下去了。劉因為第一輪先采取背

5、叛,很快 被首先淘汰出局了。這就是最典型的一一一報還一報合作策略。劉如果選擇合作對方也會選擇繼續(xù)合作。劉如果選擇背叛對方也會選擇直接背叛。其實,“一報還一報策略”在社會生活中最為常見:我贊美你,你立即報以笑臉;我過年送了一筐蘋果給你,你“五一”送一箱“王老吉”給我;我給你撓背,你也給我洗頭,等等,諸如此類的事都是最常見 的一報還一報。那么,“一報還一報”合作策略究竟是聰明的策略還是愚蠢的策略?究竟會 給自己帶來什么呢?“一報還一報”為什么會勝利?合作是人類最有利的生存方式,多數(shù)人都相信這一結(jié)論。但多數(shù)人是否選擇 合作,卻不一定,因為人們對他人是否合作心存疑慮。有一個著名的假設(shè):囚徒困境?!扒敉?/p>

6、困境”是1950年美國蘭德公司提出的博弈論模型。兩個共謀犯罪的 人被關(guān)入監(jiān)獄,不能互相溝通情況。如果兩個人都不揭發(fā)對方,則由于證據(jù)不確 定,每個人都坐牢一年;若一人揭發(fā),而另一人沉默,則揭發(fā)者因為立功而立即 獲釋,沉默者因不合作而入獄 5年;若互相揭發(fā),則因證據(jù)確實,二者都判刑 3 年。由于囚徒無法信任對方,因此傾向于互相揭發(fā),而不是同守沉默囚徒困境講述的就是在信息不對稱的前提下, 人與人合作與背叛選擇中利益 最大化的思維模擬。C (合作)D (背叛)C (合作)甲=3,乙=3甲=0,乙=5D (背叛)甲=5,乙=0甲=1,乙=1從上圖可知,甲乙雙方都選擇合作,收益為 6,任何一方背叛,總收益

7、為5, 雙方都選擇背叛,總收益為2。以此來看,合作會比背叛有利多了。問題在于,兩個囚徒真的會作出對雙方 有利的選擇而不是只顧自己嗎?現(xiàn)實中的囚徒,常常彼此揭發(fā),愿意選擇合作、 共守秘密的反倒是極少數(shù)。因此,有人認為,雖然合作與信任是人類社會得以存在和發(fā)展的基礎(chǔ),但它 們總會被自私所侵蝕。霍布斯甚至得出一個極悲觀的結(jié)論: 無論人與人還是國與 國的關(guān)系,隨著資源稀缺的加劇,都會變得更接近狼與狼的關(guān)系。但我們看到,現(xiàn)代社會雖說資源危機深重,終究沒有淪為原始叢林,有合作 善意的人群還沒有滅絕,人與人之間的溫情和信任也沒有消失一一自私和克制自 私,似乎同樣屬于人類本能。人類之所以不會墮落為狼群,可能是因

8、為,人類掌握了一個簡單的“法寶”: 一 報還一報。為了驗證這一推測,同時也是為了探索合作中不同策略的規(guī)律,美國密歇根 大學政治學家羅伯特阿克塞爾羅德想出了一個聰明的辦法。他向當時博弈論專 家們發(fā)出了廣告邀請,讓有興趣參賽的博弈論專家和一些社會學家, 各自設(shè)計一 種自認為最好的博弈策略,來參加他的“博弈策略”比賽第一次實驗中,他收到14個“策略參賽者”比賽。加上自己的第 15個策略 程度“隨機策略”,也就是沒有策略的策略,隨機地出“合作”或“背叛”牌。 如果前面14個策略在比賽中比隨機策略得分還低,那就證明那個策略設(shè)計十分 可悲和難堪。15個策略,共進行了 225輪相互“比賽”,每場“比賽”都玩

9、到了 200個回 合。由于參賽者都是當世博弈論專家,故有些參賽程序看起來設(shè)計得非常聰明, 但比 賽結(jié)果卻令人出乎預料。冠軍策略居然是一一一報還一報。此策略是加拿大多倫多大學著名博弈論心理學家拉波波特教授提供。一報還一報策略非常簡單:第一回合采取合作,然后再一回合都重復對手上一回合的策 略。令人跌破眼鏡的是,在15個參賽策略中,最失敗的居然是那個設(shè)計最復雜 的策略。“一報還一報”為什么會贏?因為當遇到合作者時,他永遠采取合作,故針對合作者來說,其得分也最高。 當遇到狡詐者背叛者時,你怎么來,我也怎么對付你,因此,也差不到哪里去。 由此“一此還一報”得出:一是一一一開始采取合作姿態(tài)一一善良;二是不

10、首先背叛講原則;三是一一對背叛者予以背叛懲罰一一正義;四是一一當背叛者改正后我也不再背叛一一寬??;五是一一對合作者的高分不嫉妒一一平衡由“一報還一報”的勝利,同樣也可推導出是人性的光輝的勝利,如善良、光明正大、講原則、講誠信,能理解別人的成功,能分享別人的成功,能包容寬恕別人等,這都是人性中最美好的部分。阿克塞爾多德組織了第一屆博弈策略競賽之后不久,又召開了第二屆比賽。這次,阿克塞爾羅德共收到62套策略程度,加上他“沒有策略的策略”即“隨機策略”,共63套策略參賽。而且,主辦者還將第一屆的勝利者及原因分析都告知了參與第二次比賽策略設(shè)計的所有人。比賽結(jié)果很快又出來了,依然還是拉波波特的“一報還一

11、報”策略再度獲勝。 而且,善良策略普遍表現(xiàn)得比狡詐的策略好。在前 15名中,只有一個不是善良策 略,在后15名中只有一個不是“狡詐”策略。不過,著名生物學家演化博弈論的奠基人之一史密斯設(shè)計“兩怨還一報”的“超級寬恕一一好好先生”策略居然被狡詐的策略“群狼”所“擊敗”。正因為如此,阿克塞爾羅德又進行了一輪比賽。他沒有征集新的策略,而是 在改變電腦程序后,讓第二屆所有參賽策略再進行比寒。他想找出史密斯的“演 化穩(wěn)定策略”。第三屆比賽結(jié)果表明:幾乎所有”詭詐型“策略都在200代左右完全消失了?!耙粓筮€一報”仍表現(xiàn)得很出色。其他五種“善良而勇敢”、“善良而精明”、“善良聰明堅定”等策略也獲得了同樣的成

12、功。對于這一演化博弈結(jié)果,生物學家道金斯(名著自私基因的作者)不無 感慨地歸納道:即使有自私的基因掌權(quán)控制,好人仍能得到好報!三次比賽總結(jié)出“一報還一報”勝利原因如下:勝利原因之一本性善良(第一步合作);勝利原因之二一一正義(對丑惡立即反擊);勝利原因之三一一寬?。愀恼笪胰院献鳎粍倮蛑囊灰徽\信(我自己不首先背叛);勝利原因之五一一平衡(不嫉妒強者);勝利總原因是一一大愛是唯一的指引。從以上三次比賽中,我們還可以得出:關(guān)系穩(wěn)定進化,是每個人都希望追求的結(jié)果。因為每個人的財富名譽地位, 都得建立在穩(wěn)定的關(guān)系進化上;因為每個人的快樂幸福自由,都得依靠穩(wěn)定的關(guān) 系進化。人與人之間有了許多相

13、處策略,唯有采取合作,采取大愛才是最佳的選擇, 才會使彼此共生共享共贏。否則,就會存在潛在的風險,相互在背叛中折磨?!耙粓筮€一報”的六種優(yōu)良特征如何運用“一報還一報”策略?其特征是什么?下文引用一位專家的文章:“一報還一報”策略,在國內(nèi)大部分人都理解為“以其人之道,還治其人之 身”、“以牙還牙”等,但這些詞語都是貶義詞,就有誤解“一報還一報”策略 的意義。因此,有必要說明“一報還一報”策略的真正含義。 “一報還一報”的 策略很簡單,就是首先第一步選擇合作,其后的每一步都選擇跟對方上一步相同 的策略。但是“一報還一報”策略卻具有一般策略所不具有的優(yōu)點。阿克塞爾羅德給出了 “一報還一報”策略 6種

14、優(yōu)良特征:是具有善良性,它不首先背叛。在計算機競賽中,凡是善良的規(guī)則之間相處得很好,也就是能得到較高收益。只要對方不背叛,每個善良的規(guī)則一定是持 續(xù)合作直到最后一步。二是具有寬容性。就是別人只背叛一次,“一報還一報”只報復別人的一次。 而那些不太寬容的規(guī)則有可能會在報復別人的同時, 也是在自我報復,故而在計 算機競賽中這些不太寬容的規(guī)則收益也較低。 因為,“一旦一方的背叛誘發(fā)一長 串的報復和反報復,雙方都要吃虧。”這是人們考慮“反射效應(yīng)”不深入的緣故。 一般的人都會想第一層次,“即選擇的直接效果,那就是背叛比合作來得收益高。 第二層次是選擇的間接效果,即考慮對方是否會出發(fā)自己的背叛。 但是第三

15、層次 就很少有人考慮了,即為了反應(yīng)對方的背叛行為,有人就會重復甚至擴大自己以 前的挑釁性選擇。一個孤立的背叛變成了一連串無休止的報復?!比蔷哂许g性。就是“一報還一報”策略不僅能夠跟那些不太善良的策略相處而得到較高的收益,而且也能夠跟那些善良的策略相處而得到較高的收益,這就表明它在很大的環(huán)境中表現(xiàn)極佳。四是策略具有明晰性,在使用“一報還一報”策略時,別人能夠很快識別出 你的策略。五是不占他人便宜。從兩次競賽的結(jié)果,“一報還一報”策略并不比其他的 策略的收益高多少。因為,試圖占便宜可以引起如下的風險:一種是如果一個策 略用背叛試探是否可以占便宜,它就得冒被那些可激怒的規(guī)則報復的風險; 另一 種是雙方反擊一旦開始,就難以擺脫僵局;第三種是放棄了其他的一些合作機會。六是報復性,而且

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論