陸天然：博弈的最佳策略是“一報(bào)還一報(bào)”

上傳人：隕*** IP屬地：天津上傳時(shí)間：2022-02-27 格式：DOC 頁(yè)數(shù)：9 大?。?1KB 積分：19 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩4頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、陸天然：博弈的最佳策略是“一報(bào)還一報(bào)”互聯(lián)網(wǎng)時(shí)代的世界觀關(guān)系宇宙導(dǎo)讀之七十九由陸天然、葉舟、胡均亮合著、國(guó)務(wù)院研究室中國(guó)言實(shí)出版社出版發(fā)行的互聯(lián)網(wǎng)時(shí)代方法論叢書(shū)第一卷互聯(lián)網(wǎng)時(shí)代的世界觀關(guān)系宇宙一書(shū)科學(xué)地論證了博弈的最佳策略是“一報(bào)還一報(bào)”。生活中的“一報(bào)還一報(bào)”合作策略什么是“一報(bào)還一報(bào)”策略？即“人不犯我，我不犯人，人若犯我，我必犯人”。為了進(jìn)一步理解“一報(bào)還一報(bào)”策略，在此不妨首先看看三個(gè)小故事：故事一：一次，張作霖逛街正自得其樂(lè)，突然聽(tīng)到一聲吆喝，嚇得他打了個(gè)哆嗦，回頭一看，原來(lái)是個(gè)賣(mài)豆腐腦的，挑著擔(dān)子正從小巷里走出來(lái)。張大帥大怒：“給我抓起來(lái)！ ”賣(mài)豆腐腦的莫名其妙地被一直拉進(jìn)大

2、帥府?！拔乙獦寯浪?！ ”張作霖說(shuō)著，把小販一直拖到操場(chǎng)上。只聽(tīng)“砰”的一聲槍響，小販即癱軟在地。不一會(huì)兒，只見(jiàn)小販蠕動(dòng)著身子，爬了起來(lái)。奇怪，身體絲毫無(wú)傷。這時(shí)，張作霖得意地說(shuō)：“剛才你嚇我一跳，現(xiàn)在我嚇你一死?！惫适露荷鲜兰o(jì)初，張作霖所屬的東北軍有兩名士兵無(wú)故被日本查道兵打死了，事后日方賠給士兵家屬每戶120元。張作霖對(duì)此十分憤怒，下令東北軍：“碰到日本查道兵就打，我也有錢(qián)。”東北軍得令后，很快打死了12個(gè)日兵，惹得日本駐沈陽(yáng)領(lǐng)事跑去找張作霖，提出抗議，要求：一、懲兇；二、道歉；三、賠償；四、保證不再有類(lèi)似事件發(fā)生。結(jié)果，張作霖這樣回復(fù)：一、“胡子”殺了人跑了，既捉不到，自難嚴(yán)懲；

3、二、不是東北軍干的事，為什么要我道歉；三、東北“胡子”很多，無(wú)法保證以后不再發(fā)生，四、賠償可辦到，依日本兵打死東北軍一人賠120元賠償。日本領(lǐng)事聞言無(wú)可奈何，此事只好不了了之。故事三：一個(gè)面包師每天從他一位農(nóng)民鄰居那兒購(gòu)買(mǎi)黃油。有一天，他覺(jué)得本應(yīng)該是3磅重一包的黃油似乎太輕了點(diǎn)。于是他開(kāi)始定期地稱(chēng)一稱(chēng)黃油，發(fā)現(xiàn)每回都是分量不足，這等于他每次都多付了錢(qián)。他特別生氣，便開(kāi)始提起訴訟。這一來(lái)事情就鬧到了法官面前。“您沒(méi)有天平嗎？”法官問(wèn)農(nóng)民?！坝型?，法官先生，我有一架天平?！鞭r(nóng)民回答道?！坝泻軠?zhǔn)的砝碼嗎？”“沒(méi)有，法官先生，我不需要砝碼?！薄皼](méi)有砝碼，那你怎么稱(chēng)黃油呢？”“這好辦，”農(nóng)民回答說(shuō)，“你

4、瞧，就在面包師從我這兒買(mǎi)黃油的那段時(shí)間，我也一直買(mǎi)他的面包。我總是要同樣重的面包。每次這些面包就作為稱(chēng)黃油的砝碼。如果砝碼不準(zhǔn)，那就不是我的過(guò)錯(cuò)，而是他的過(guò)錯(cuò)了。于是，法官判定農(nóng)民無(wú)罪，而面包師不得不承擔(dān)訴訟的費(fèi)用。很顯然，誰(shuí)都不是傻瓜。我們?cè)鯓訉?duì)待世界，世界就會(huì)同樣對(duì)待我們；我們怎樣對(duì)待周?chē)娜耍車(chē)娜艘矔?huì)同樣對(duì)待我們。把自己最好的東西給別人，就會(huì)從別人那里獲得最好的東西。幫助別人越多，得到也會(huì)越多；愈吝嗇就愈會(huì)一無(wú)所有再接著講上文圖書(shū)訂貨商的故事分析:劉收到了訂貨商的錢(qián)而未發(fā)貨，是劉首先選擇了背叛，那么，別人很快便不敢再交錢(qián)給劉了，不敢再跟劉往下合作下去了。劉因?yàn)榈谝惠喯炔扇”?/p>

5、叛，很快被首先淘汰出局了。這就是最典型的一一一報(bào)還一報(bào)合作策略。劉如果選擇合作對(duì)方也會(huì)選擇繼續(xù)合作。劉如果選擇背叛對(duì)方也會(huì)選擇直接背叛。其實(shí)，“一報(bào)還一報(bào)策略”在社會(huì)生活中最為常見(jiàn)：我贊美你，你立即報(bào)以笑臉；我過(guò)年送了一筐蘋(píng)果給你，你“五一”送一箱“王老吉”給我；我給你撓背，你也給我洗頭，等等，諸如此類(lèi)的事都是最常見(jiàn) 的一報(bào)還一報(bào)。那么，“一報(bào)還一報(bào)”合作策略究竟是聰明的策略還是愚蠢的策略？究竟會(huì) 給自己帶來(lái)什么呢？“一報(bào)還一報(bào)”為什么會(huì)勝利？合作是人類(lèi)最有利的生存方式，多數(shù)人都相信這一結(jié)論。但多數(shù)人是否選擇合作，卻不一定，因?yàn)槿藗儗?duì)他人是否合作心存疑慮。有一個(gè)著名的假設(shè)：囚徒困境。“囚徒

6、困境”是1950年美國(guó)蘭德公司提出的博弈論模型。兩個(gè)共謀犯罪的人被關(guān)入監(jiān)獄，不能互相溝通情況。如果兩個(gè)人都不揭發(fā)對(duì)方，則由于證據(jù)不確定，每個(gè)人都坐牢一年；若一人揭發(fā)，而另一人沉默，則揭發(fā)者因?yàn)榱⒐Χ⒓?獲釋?zhuān)聊咭虿缓献鞫氇z 5年；若互相揭發(fā)，則因證據(jù)確實(shí)，二者都判刑 3 年。由于囚徒無(wú)法信任對(duì)方，因此傾向于互相揭發(fā)，而不是同守沉默囚徒困境講述的就是在信息不對(duì)稱(chēng)的前提下，人與人合作與背叛選擇中利益最大化的思維模擬。C （合作）D （背叛）C （合作）甲=3，乙=3甲=0，乙=5D （背叛）甲=5，乙=0甲=1，乙=1從上圖可知，甲乙雙方都選擇合作，收益為 6,任何一方背叛，總收益

7、為5, 雙方都選擇背叛，總收益為2。以此來(lái)看，合作會(huì)比背叛有利多了。問(wèn)題在于，兩個(gè)囚徒真的會(huì)作出對(duì)雙方有利的選擇而不是只顧自己?jiǎn)?？現(xiàn)實(shí)中的囚徒，常常彼此揭發(fā)，愿意選擇合作、共守秘密的反倒是極少數(shù)。因此，有人認(rèn)為，雖然合作與信任是人類(lèi)社會(huì)得以存在和發(fā)展的基礎(chǔ)，但它們總會(huì)被自私所侵蝕?；舨妓股踔恋贸鲆粋€(gè)極悲觀的結(jié)論：無(wú)論人與人還是國(guó)與國(guó)的關(guān)系，隨著資源稀缺的加劇，都會(huì)變得更接近狼與狼的關(guān)系。但我們看到，現(xiàn)代社會(huì)雖說(shuō)資源危機(jī)深重，終究沒(méi)有淪為原始叢林，有合作善意的人群還沒(méi)有滅絕，人與人之間的溫情和信任也沒(méi)有消失一一自私和克制自私，似乎同樣屬于人類(lèi)本能。人類(lèi)之所以不會(huì)墮落為狼群，可能是因

8、為，人類(lèi)掌握了一個(gè)簡(jiǎn)單的“法寶”：一報(bào)還一報(bào)。為了驗(yàn)證這一推測(cè)，同時(shí)也是為了探索合作中不同策略的規(guī)律，美國(guó)密歇根大學(xué)政治學(xué)家羅伯特阿克塞爾羅德想出了一個(gè)聰明的辦法。他向當(dāng)時(shí)博弈論專(zhuān) 家們發(fā)出了廣告邀請(qǐng)，讓有興趣參賽的博弈論專(zhuān)家和一些社會(huì)學(xué)家，各自設(shè)計(jì)一種自認(rèn)為最好的博弈策略，來(lái)參加他的“博弈策略”比賽第一次實(shí)驗(yàn)中，他收到14個(gè)“策略參賽者”比賽。加上自己的第 15個(gè)策略程度“隨機(jī)策略”，也就是沒(méi)有策略的策略，隨機(jī)地出“合作”或“背叛”牌。如果前面14個(gè)策略在比賽中比隨機(jī)策略得分還低，那就證明那個(gè)策略設(shè)計(jì)十分可悲和難堪。15個(gè)策略，共進(jìn)行了 225輪相互“比賽”，每場(chǎng)“比賽”都玩

9、到了 200個(gè)回合。由于參賽者都是當(dāng)世博弈論專(zhuān)家，故有些參賽程序看起來(lái)設(shè)計(jì)得非常聰明，但比賽結(jié)果卻令人出乎預(yù)料。冠軍策略居然是一一一報(bào)還一報(bào)。此策略是加拿大多倫多大學(xué)著名博弈論心理學(xué)家拉波波特教授提供。一報(bào)還一報(bào)策略非常簡(jiǎn)單：第一回合采取合作，然后再一回合都重復(fù)對(duì)手上一回合的策略。令人跌破眼鏡的是，在15個(gè)參賽策略中，最失敗的居然是那個(gè)設(shè)計(jì)最復(fù)雜的策略?！耙粓?bào)還一報(bào)”為什么會(huì)贏？因?yàn)楫?dāng)遇到合作者時(shí)，他永遠(yuǎn)采取合作，故針對(duì)合作者來(lái)說(shuō)，其得分也最高。當(dāng)遇到狡詐者背叛者時(shí)，你怎么來(lái)，我也怎么對(duì)付你，因此，也差不到哪里去。由此“一此還一報(bào)”得出：一是一一一開(kāi)始采取合作姿態(tài)一一善良；二是不

10、首先背叛講原則；三是一一對(duì)背叛者予以背叛懲罰一一正義；四是一一當(dāng)背叛者改正后我也不再背叛一一寬??；五是一一對(duì)合作者的高分不嫉妒一一平衡由“一報(bào)還一報(bào)”的勝利，同樣也可推導(dǎo)出是人性的光輝的勝利，如善良、光明正大、講原則、講誠(chéng)信，能理解別人的成功，能分享別人的成功，能包容寬恕別人等，這都是人性中最美好的部分。阿克塞爾多德組織了第一屆博弈策略競(jìng)賽之后不久，又召開(kāi)了第二屆比賽。這次，阿克塞爾羅德共收到62套策略程度，加上他“沒(méi)有策略的策略”即“隨機(jī)策略”，共63套策略參賽。而且，主辦者還將第一屆的勝利者及原因分析都告知了參與第二次比賽策略設(shè)計(jì)的所有人。比賽結(jié)果很快又出來(lái)了，依然還是拉波波特的“一報(bào)還一

11、報(bào)”策略再度獲勝。而且，善良策略普遍表現(xiàn)得比狡詐的策略好。在前 15名中，只有一個(gè)不是善良策略，在后15名中只有一個(gè)不是“狡詐”策略。不過(guò)，著名生物學(xué)家演化博弈論的奠基人之一史密斯設(shè)計(jì)“兩怨還一報(bào)”的“超級(jí)寬恕一一好好先生”策略居然被狡詐的策略“群狼”所“擊敗”。正因?yàn)槿绱耍⒖巳麪柫_德又進(jìn)行了一輪比賽。他沒(méi)有征集新的策略，而是在改變電腦程序后，讓第二屆所有參賽策略再進(jìn)行比寒。他想找出史密斯的“演化穩(wěn)定策略”。第三屆比賽結(jié)果表明：幾乎所有”詭詐型“策略都在200代左右完全消失了。“一報(bào)還一報(bào)”仍表現(xiàn)得很出色。其他五種“善良而勇敢”、“善良而精明”、“善良聰明堅(jiān)定”等策略也獲得了同樣的成

12、功。對(duì)于這一演化博弈結(jié)果，生物學(xué)家道金斯（名著自私基因的作者）不無(wú) 感慨地歸納道：即使有自私的基因掌權(quán)控制，好人仍能得到好報(bào)!三次比賽總結(jié)出“一報(bào)還一報(bào)”勝利原因如下:勝利原因之一本性善良（第一步合作）；勝利原因之二一一正義（對(duì)丑惡立即反擊）；勝利原因之三一一寬?。愀恼笪胰院献鳎粍倮蛑囊灰徽\(chéng)信（我自己不首先背叛）；勝利原因之五一一平衡（不嫉妒強(qiáng)者）；勝利總原因是一一大愛(ài)是唯一的指引。從以上三次比賽中，我們還可以得出：關(guān)系穩(wěn)定進(jìn)化，是每個(gè)人都希望追求的結(jié)果。因?yàn)槊總€(gè)人的財(cái)富名譽(yù)地位，都得建立在穩(wěn)定的關(guān)系進(jìn)化上；因?yàn)槊總€(gè)人的快樂(lè)幸福自由，都得依靠穩(wěn)定的關(guān) 系進(jìn)化。人與人之間有了許多相

13、處策略，唯有采取合作，采取大愛(ài)才是最佳的選擇，才會(huì)使彼此共生共享共贏。否則，就會(huì)存在潛在的風(fēng)險(xiǎn)，相互在背叛中折磨?！耙粓?bào)還一報(bào)”的六種優(yōu)良特征如何運(yùn)用“一報(bào)還一報(bào)”策略？其特征是什么？下文引用一位專(zhuān)家的文章：“一報(bào)還一報(bào)”策略，在國(guó)內(nèi)大部分人都理解為“以其人之道，還治其人之身”、“以牙還牙”等，但這些詞語(yǔ)都是貶義詞，就有誤解“一報(bào)還一報(bào)”策略的意義。因此，有必要說(shuō)明“一報(bào)還一報(bào)”策略的真正含義。 “一報(bào)還一報(bào)”的策略很簡(jiǎn)單，就是首先第一步選擇合作，其后的每一步都選擇跟對(duì)方上一步相同的策略。但是“一報(bào)還一報(bào)”策略卻具有一般策略所不具有的優(yōu)點(diǎn)。阿克塞爾羅德給出了 “一報(bào)還一報(bào)”策略 6種

14、優(yōu)良特征:是具有善良性，它不首先背叛。在計(jì)算機(jī)競(jìng)賽中，凡是善良的規(guī)則之間相處得很好，也就是能得到較高收益。只要對(duì)方不背叛，每個(gè)善良的規(guī)則一定是持續(xù)合作直到最后一步。二是具有寬容性。就是別人只背叛一次，“一報(bào)還一報(bào)”只報(bào)復(fù)別人的一次。而那些不太寬容的規(guī)則有可能會(huì)在報(bào)復(fù)別人的同時(shí)，也是在自我報(bào)復(fù)，故而在計(jì) 算機(jī)競(jìng)賽中這些不太寬容的規(guī)則收益也較低。因?yàn)?，“一旦一方的背叛誘發(fā)一長(zhǎng) 串的報(bào)復(fù)和反報(bào)復(fù)，雙方都要吃虧?！边@是人們考慮“反射效應(yīng)”不深入的緣故。一般的人都會(huì)想第一層次，“即選擇的直接效果，那就是背叛比合作來(lái)得收益高。第二層次是選擇的間接效果，即考慮對(duì)方是否會(huì)出發(fā)自己的背叛。但是第三

15、層次就很少有人考慮了，即為了反應(yīng)對(duì)方的背叛行為，有人就會(huì)重復(fù)甚至擴(kuò)大自己以前的挑釁性選擇。一個(gè)孤立的背叛變成了一連串無(wú)休止的報(bào)復(fù)?！比蔷哂许g性。就是“一報(bào)還一報(bào)”策略不僅能夠跟那些不太善良的策略相處而得到較高的收益，而且也能夠跟那些善良的策略相處而得到較高的收益，這就表明它在很大的環(huán)境中表現(xiàn)極佳。四是策略具有明晰性，在使用“一報(bào)還一報(bào)”策略時(shí)，別人能夠很快識(shí)別出你的策略。五是不占他人便宜。從兩次競(jìng)賽的結(jié)果，“一報(bào)還一報(bào)”策略并不比其他的策略的收益高多少。因?yàn)?，試圖占便宜可以引起如下的風(fēng)險(xiǎn)：一種是如果一個(gè)策略用背叛試探是否可以占便宜，它就得冒被那些可激怒的規(guī)則報(bào)復(fù)的風(fēng)險(xiǎn)；另一種是雙方反擊一旦開(kāi)始，就難以擺脫僵局；第三種是放棄了其他的一些合作機(jī)會(huì)。六是報(bào)復(fù)性，而且

人人文庫(kù)> 全部分類(lèi)> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

陸天然：博弈的最佳策略是“一報(bào)還一報(bào)”

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

陸天然：博弈的最佳策略是“一報(bào)還一報(bào)”

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔