囚徒困境教你應(yīng)對生活的決擇_第1頁
囚徒困境教你應(yīng)對生活的決擇_第2頁
囚徒困境教你應(yīng)對生活的決擇_第3頁
已閱讀5頁,還剩10頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

囚徒困境教你應(yīng)對生活的決擇目錄囚徒困境教你怎樣得到最佳策略 2囚徒困境簡介 2經(jīng)典的囚徒困境 4用囚徒困境解析類似的員工困境 6囚徒困境的應(yīng)用 6關(guān)稅戰(zhàn) 7商業(yè)廣告戰(zhàn) 8重復(fù)的囚徒困境 8策略獲得成功的幾個必要條件 10一般有兩種方法得到最佳策略 11“囚徒困境”啟示 12設(shè)局者是如何讓囚徒做出有利于社會的選擇的? 14囚徒困境教你怎樣得到最佳策略囚徒困境(prisoner'sdilemma):兩個被捕的囚徒之間的一種特殊博弈,說明為什么甚至在合作對雙方都有利時,保持合作也是困難的。囚徒困境是博弈論的非零和博弈中具代表性的例子,反映個人最佳選擇并非團體最佳選擇。雖然困境本身只屬模型性質(zhì),但現(xiàn)實中的價格競爭、環(huán)境保護等方面,也會頻繁出現(xiàn)類似情況。囚徒困境簡介囚徒困境是博弈論的非零和博弈中具代表性的例子,反映個人最佳選擇并非團體最佳選擇。雖然困境本身只屬模型性質(zhì),但現(xiàn)實中的價格競爭、環(huán)境保護等方面,也會頻繁出現(xiàn)類似情況。囚徒困境最早是由美國普林斯頓大學(xué)數(shù)學(xué)家阿爾伯特?塔克(Alberttucker)1950年提出來的。他當(dāng)時編了一個故事向斯坦福大學(xué)的一群心理學(xué)家們解釋什么是博弈論,這個故事后來成為博弈論中最著名的案例。故事內(nèi)容是:兩個嫌疑犯(A和B)作案后被警察抓住,隔離審訊;警方的政策是“坦白從寬,抗拒從嚴(yán)”,如果兩人都坦白則各判8年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年;如果都不坦白則因證據(jù)不足各判1年。單次發(fā)生的囚徒困境,和多次重復(fù)的囚徒困境結(jié)果不會一樣。在重復(fù)的囚徒困境中,博弈被反復(fù)地進行。因而每個參與者都有機會去“懲罰”另一個參與者前一回合的不合作行為。這時,合作可能會作為均衡的結(jié)果出現(xiàn)。欺騙的動機這時可能被受到懲罰的威脅所克服,從而可能導(dǎo)向一個較好的、合作的結(jié)果。作為反復(fù)接近無限的數(shù)量,納什均衡趨向于帕累托最優(yōu)。囚徒困境的主旨為,囚徒們雖然彼此合作,堅不吐實,可為全體帶來最佳利益(無罪開釋),但在資訊不明的情況下,因為出賣同伙可為自己帶來利益(縮短刑期),也因為同伙把自己招出來可為他帶來利益,因此彼此出賣雖違反最佳共同利益,反而是自己最大利益所在。但實際上,執(zhí)法機構(gòu)不可能設(shè)立如此情境來誘使所有囚徒招供,因為囚徒們必須考慮刑期以外之因素(出賣同伙會受到報復(fù)等),而無法完全以執(zhí)法者所設(shè)立之利益(刑期)作考量。經(jīng)典的囚徒困境1950年,由就職于蘭德公司的梅里爾?弗拉德(MerrillFlood)和梅爾文?德雷希爾(MelvinDresher)擬定出相關(guān)困境的理論,后來由顧問阿爾伯特?塔克(AlbertTucker)以囚徒方式闡述,并命名為“囚徒困境”。經(jīng)典的囚徒困境如下:警方逮捕甲、乙兩名嫌疑犯,但沒有足夠證據(jù)指控二人入罪。于是警方分開囚禁嫌疑犯,分別和二人見面,并向雙方提供以下相同的選擇:1、若一人認罪并作證檢舉對方(相關(guān)術(shù)語稱“背叛”對方),而對方保持沉默,此人將即時獲釋,沉默者將判監(jiān)10年。2、若二人都保持沉默(相關(guān)術(shù)語稱互相“合作”),則二人同樣判監(jiān)半年。3、若二人都互相檢舉(互相“背叛”),則二人同樣判監(jiān)2年。如同博弈論的其他例證,囚徒困境假定每個參與者(即“囚徒”)都是利己的,即都尋求最大自身利益,而不關(guān)心另一參與者的利益。參與者某一策略所得利益,如果在任何情況下都比其他策略要低的話,此策略稱為“嚴(yán)格劣勢策略”,理性的參與者絕不會選擇。另外,沒有任何其他力量干預(yù)個人決策,參與者可完全按照自己意愿選擇策略。囚徒到底應(yīng)該選擇哪一項策略,才能將自己個人的刑期縮至最短?兩名囚徒由于隔絕監(jiān)禁,并不知道對方選擇;而即使他們能交談,還是未必能夠盡信對方不會反口。就個人的理性選擇而言,檢舉背叛對方所得刑期,總比沉默要來得低。試設(shè)想困境中兩名理性囚徒會如何作出選擇:1、若對方沉默、背叛會讓我獲釋,所以會選擇背叛。2、若對方背叛指控我,我也要指控對方才能得到較低的刑期,所以也是會選擇背叛。二人面對的情況一樣,所以二人的理性思考都會得出相同的結(jié)論——選擇背叛。背叛是兩種策略之中的支配性策略。因此,這場博弈中唯一可能達到的納什均衡,就是雙方參與者都背叛對方,結(jié)果二人同樣服刑2年。這場博弈的納什均衡,顯然不是顧及團體利益的帕累托最優(yōu)解決方案。以全體利益而言,如果兩個參與者都合作保持沉默,兩人都只會被判刑半年,總體利益更高,結(jié)果也比兩人背叛對方、判刑2年的情況較佳。但根據(jù)以上假設(shè),二人均為理性的個人,且只追求自己個人利益。均衡狀況會是兩個囚徒都選擇背叛,結(jié)果二人判決均比合作為高,總體利益較合作為低。這就是“困境”所在。例子漂亮地證明了:非零和博弈中,帕累托最優(yōu)和納什均衡是相沖突的。用囚徒困境解析類似的員工困境一名經(jīng)理,數(shù)名員工;前提,經(jīng)理比較苛刻;如果所有員工都聽從經(jīng)理吩咐,則獎金等待遇一樣,不過所有人都超負荷工作;如果某人不聽從吩咐,其他人聽從吩咐,則此人下崗,其他人繼續(xù)工作;如果所有人都不聽從經(jīng)理吩咐,則經(jīng)理下崗;但是,由于員工之間信息是不透明的,而且,都擔(dān)心別人聽話自己不聽話而下崗,所以,大家只能繼續(xù)繁重的工作。囚徒困境的應(yīng)用許多行業(yè)的價格競爭都是典型的囚徒困境現(xiàn)象,每家企業(yè)都以對方為敵手,只關(guān)心自己的利益。在價格博弈中,只要以對方為敵手,那么不管對方的決策怎樣,自己總是以為采取低價策略會占便宜,這就促使雙方都采取低價策略。如可口可樂公司和百事可樂公司之間的競爭、各大航空公司之間的價格競爭等等。在國內(nèi)的家電大戰(zhàn)中,雖然不是兩個對手之間的博弈,但由于在眾多對手當(dāng)中每一方的市場份額都很大,每一個主體人的行為后果受對手行為的影響都很大,因此,其情景大概也是如此。如果清楚這種前景,雙方勾結(jié)或合作起來,都制定比較高的價格,那么雙方都可以因為避免價格大戰(zhàn)而獲得較高的利潤。但是往往這些聯(lián)盟處于利益驅(qū)動的“囚徒困境”,雙贏也就成泡影。五花八門的價格聯(lián)盟總是非常短命,道理就在這里。并不是每次個人的“理性選擇”都能讓自我利益最大化,也許會讓你陷入一個“囚徒困境”。大量例子說明,在“囚徒困境”中,常常是先動手的一方會占一些優(yōu)勢。那么,“先下手為強”吧。關(guān)稅戰(zhàn)兩個國家,在關(guān)稅上可以有以兩個選擇:1、提高關(guān)稅,以保護自己的商品。(背叛)2、與對方達成關(guān)稅協(xié)定,降低關(guān)稅以利各自商品流通。(合作)當(dāng)一國因某些因素不遵守關(guān)稅協(xié)定,而獨自提高關(guān)稅(背叛)時,另一國也會作出同樣反應(yīng)(亦背叛),這就引發(fā)了關(guān)稅戰(zhàn),兩國的商品失去了對方的市場,對本身經(jīng)濟也造成損害(共同背叛的結(jié)果)。然后二國又重新達成關(guān)稅協(xié)定。(重復(fù)博弈的結(jié)果是將發(fā)現(xiàn)共同合作利益最大。)商業(yè)廣告戰(zhàn)商業(yè)活動中亦會出現(xiàn)各種囚徒困境例子。以廣告競爭為例。兩個公司互相競爭,二公司的廣告互相影響,即一公司的廣告較被顧客接受則會奪取對方的部分收入。但若二者同時期發(fā)出質(zhì)量類似的廣告,收入增加很少但成本增加。但若不提高廣告質(zhì)量,生意又會被對方奪走。此二公司可以有二選擇:1、互相達成協(xié)議,減少廣告的開支。(合作)2、增加廣告開支,設(shè)法提升廣告的質(zhì)量,壓倒對方。(背叛)若二公司不信任對方,無法合作,背叛成為支配性策略時,二公司將陷入廣告戰(zhàn),而廣告成本的增加損害了二公司的收益,這就是陷入囚徒困境。在現(xiàn)實中,要二互相競爭的公司達成合作協(xié)議是較為困難的,多數(shù)都會陷入囚徒困境中。重復(fù)的囚徒困境羅伯特?阿克塞爾羅德在其著作《合作的進化》中,探索了經(jīng)典囚徒困境情景的一個擴展,并把它稱作“重復(fù)的囚徒困境”(IPD)。在這個博弈中,參與者必須反復(fù)地選擇他們彼此相關(guān)的策略,并且記住他們以前的對抗。阿克塞爾羅德邀請全世界的學(xué)術(shù)同行來設(shè)計計算機策略,并在一個重復(fù)囚徒困境競賽中互相競爭。參賽的程序的差異廣泛地存在于這些方面:算法的復(fù)雜性、最初的對抗、寬恕的能力等等。阿克塞爾羅德發(fā)現(xiàn),當(dāng)這些對抗被每個選擇不同策略的參與者一再重復(fù)了很長時間之后,從利己的角度來判斷,最終“貪婪”策略趨向于減少,而比較“利他主義”策略更多地被采用。他用這個博弈來說明,通過自然選擇,一種利他行為的機制可能從最初純粹的自私機制進化而來。最佳確定性策略被認為是“以牙還牙”,這是阿納托爾?拉波波特(AnatolRapoport)開發(fā)并運用到錦標(biāo)賽中的方法。它是所有參賽程序中最簡單的,只包含了四行BASIC語言,并且贏得了比賽。這個策略只不過是在重復(fù)博弈的開頭合作,然后,采取你的對手前一回合的策略。更好些的策略是“寬恕地以牙還牙”。當(dāng)你的對手背叛,在下一回合中你無論如何要以小概率(大約是1%-5%)時而合作一下。這是考慮到偶爾要從循環(huán)背叛的受騙中復(fù)原。當(dāng)錯誤傳達被引入博弈時,“寬恕地以牙還牙”是最佳的。這意味著有時你的動作被錯誤地傳達給你的對手:你合作但是你的對手聽說你背叛了。策略獲得成功的幾個必要條件通過分析高分策略,阿克塞爾羅德指定了策略獲得成功的幾個必要條件。友善:最重要的條件是策略必須“友善”,這就是說,不要在對手背叛之前先背叛。幾乎所有的高分策略都是友善的。因此,完全自私的策略僅僅出于自私的原因,也永遠不會首先打擊其對手。報復(fù):但是,阿克斯洛德主張,成功的策略必須不是一個盲目樂觀者。要始終報復(fù)。一個非報復(fù)策略的例子是始終合作。這是一個非常糟糕的選擇,因為“下流”策略將殘酷地剝削這樣的傻瓜。寬恕:成功策略的另一個品質(zhì)是必須要寬恕。雖然它們不報復(fù),但是如果對手不繼續(xù)背叛,它們會一再退卻到合作。這停止了報復(fù)和反報復(fù)的長期進行,最大化了得分點數(shù)。不嫉妒:最后一個品質(zhì)是不嫉妒,就是說不去爭取得到高于對手的分?jǐn)?shù)(對于“友善”的策略來說這也是不可能的,也就是說“友善”的策略永遠無法得到高于對手的分?jǐn)?shù))。因此,阿克塞爾羅德得到一種給人以烏托邦印象的結(jié)論,認為自私的個人為了其自私的利益會趨向友善、寬恕和不嫉妒。阿克塞爾羅德關(guān)于重復(fù)囚徒困境的研究的重要結(jié)論之一,是友善的家伙能先完成交易。對一次性囚徒困境博弈來說,最佳(點數(shù)最大化的)策略是簡單地背叛;正如前面解釋的,無論對手的行動可能是什么,這都是真實的。但是,在重復(fù)的囚徒困境博弈中,最佳策略依賴于可能的對手的策略,和他們怎樣對背叛和合作作出反應(yīng)。例如,考慮這樣一個人群,那里每個人每次都背叛,除了一個人是遵循以牙還牙策略。這個人處于一種輕微的不利地位,因為第一回合的損失。在這樣的人群中,對這個人來說最佳策略就是每次都背叛。在一個有一定的百分比的總背叛者而剩下的則是以牙還牙者的人群中,對個人來說的最佳策略依賴于這個百分比和博弈的長度。一般有兩種方法得到最佳策略1、貝葉斯納什均衡:如果對抗策略的統(tǒng)計分布能被確定(例如,50%以牙還牙,50%一直合作),就能從數(shù)學(xué)上獲得最佳的相對策略。2、已經(jīng)有了人群的蒙特卡羅模擬,在這里低分個人消失了,高分個人一再被生產(chǎn)出來(一種獲得最佳策略的天才算法)。決賽人群中的算法合成通常依賴于初賽人群中的算法合成?!扒敉嚼Ь场眴⑹尽扒敉嚼Ь场笔遣┺恼撝械慕?jīng)典對局,在經(jīng)濟學(xué)、政治學(xué)和道德哲學(xué)中得到廣泛討論和運用。其大意是:兩個被指控共同參與了某種罪行的囚徒被檢察官分隔開來提審。兩人都知道如下選擇:1、如果他們都不坦白,根據(jù)已有證據(jù),兩人都將判1年的監(jiān)禁;2、如果兩人都坦白,每人都將判8年監(jiān)禁;3、如果一人坦白,另一個不坦白,坦白的人將被釋放,而另一人將被判10年的監(jiān)禁。誰都不知道對方的選擇。對每個人來說,合理的選擇是什么?如果每個囚徒要求得到他的最大效益,經(jīng)過縝密推理,合理的選擇應(yīng)是坦白,但這樣每個人都不能得到最好的結(jié)果?!扒敉嚼Ь场蓖ǔ1挥靡哉f明這樣的道理:一個人自私地尋求最大效益并不意味著就能得到最好的結(jié)果,也不意味著由此可以促進公共的善。相反,只有合作才能獲得最好的結(jié)果。這一道理被許多事實印證。如我國家電銷售商為使消費者多買自己產(chǎn)品,時常競相降價、引發(fā)“價格大戰(zhàn)”,其結(jié)果是“各敗俱傷”,不僅誰也得不到最大利益。而且利潤日益走低甚至賠本。可是如果他們在較高價格上形成某種默契,就都會得到不錯的利潤。又如冷戰(zhàn)時期超級大國起先不合作,都想憑軍事實力壓倒對方,結(jié)果被拖入昂貴的軍備競賽并面臨核屠殺的危險,后來有了一些合作,這種惡性競爭的“囚徒困境”才有所緩解?!扒敉嚼Ь场苯沂镜牡览盹@然是從對局者即“囚徒”的立場說的,所以所謂沒有促進“公共的善”,其實是指沒有促進兩個“囚徒”的共同利益。但是如果我們換個角度,從設(shè)局者,即檢察官、法官、警察等社會管理者出發(fā),結(jié)論則恰恰相反,“囚徒困境”的結(jié)局不是沒有促進,而是促進了真正的“公共的善”,即社會利益。這樣說的依據(jù)之一是罪犯受到了應(yīng)有的懲罰,社會正義得以維護和伸張;依據(jù)之二是罪犯坦白意味自新的開始,這就有利于罪犯的改造,減少其以后再次犯罪或危害社會的可能。設(shè)局者是如何讓囚徒做出有利于社會的選擇的?簡單說來,這里靠的是兩個制度安排。其一是阻止囚徒合作的制度安排。其二是制訂了一套“坦白從寬,抗拒從嚴(yán)”的賞

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論