信念與行動單次選型決策行為邏輯的困境與消解

上傳人：1*** IP屬地：廣東上傳時間：2023-08-24 格式：DOCX 頁數(shù)：8 大?。?4.75KB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩3頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領

文檔簡介

信念與行動單次選型決策行為邏輯的困境與消解

單次囚犯困難是囚犯困難的最初形式，研究文獻極其豐富。著名的“對稱性論證”由勞倫斯(DavisH.Lawrence)給出。所謂對稱，簡而言之，意味著囚徒雙方是同等理性的，因而會采取同樣的行動。勞倫斯認為，在囚徒困境中，如果囚徒是理性的，并且都知道雙方是理性的，那么兩人的選擇就會是要么都招認，要么都不招認。根據(jù)帕累托(VillefredoPareto)最優(yōu)理論，雙方都知道“不招認”的結(jié)果是最好的，因此最終會傾向于合作，從而選擇“不招認”的行動。高德(DavidGauthier)也認為，通過合作，選擇“不招認”的行動帶來的收益會更高一些。如果一個囚徒傾向于采取合作的策略，而另一個囚徒不合作，且這種傾向是兩個囚徒之間的公共知識，那么出于自私的考慮，兩個人都會傾向于采取同樣的行動，也就是合作而“不招認”。無獨有偶，在麥克林(EdwardMcClennen)看來，作為理性人，如果看到通過合作選擇“不招認”帶來的收益會更好，就會抵制住“招認”所帶來的眼前收益的誘惑，而采取“不招認”的理性行動。劉易斯(DavidLewis)則給出了“占優(yōu)論證”，論證招認才是合理的行動假如單次的囚徒困境博弈重復多次，就構(gòu)成了一個新的動態(tài)序列博弈，被稱為“有限次重復的序列博弈”。根據(jù)逆向歸納法，兩個囚徒在每一輪都應當選擇“不招認”才是最理性的結(jié)果。而事實上，在序列博弈中，合理的策略應當是條件化策略，而不是一直“拒不招認”。因此，對囚徒而言，這又是一個新的困境。一、囚犯困難的出現(xiàn)和影響(一)單次囚徒困境博弈囚徒困境和博弈論幾乎同時出現(xiàn)，最早由梅里爾·弗勒德(MerrillFlood)和梅爾文·德雷希爾(MelvinDresher)于1950年以相關(guān)困境理論提出，艾伯特·塔克(AlbertTucker)其后以“囚徒”的方式對其進行重新闡述并命名為“囚徒困境”。根據(jù)決策情形不同，“囚徒困境”可以分為單次囚徒困境博弈和有限次重復的囚徒困境博弈，本文主要研究單次囚徒困境博弈。單次囚徒困境博弈的提出從表中可以看出，囚徒的“收益”不僅取決于自己的選擇還取決于對方的選擇。他們可能會這樣推理:“他招我不招”會獲刑10年，“他招我也招”則獲刑9年，因此“我招”的結(jié)果要好于“我不招”?！八徽形也徽小睍@刑1年，而“他不招我招”的結(jié)果是當場釋放，因此，“我招”的結(jié)果還是要好于“我不招”。也就是無論對方“招”還是“不招”，我都要“招認”。于是，如果囚徒雙方是理性的，他們都會毫不猶豫地選擇“招認”。然而根據(jù)上面的收益表，可以看出雙方都不招認才能形成一個納什均衡，(-1,-1)才是最合理的結(jié)果。對囚徒而言，根據(jù)“占優(yōu)原則”所選擇的行動應該是“招認”，可是根據(jù)“效用最大化原則”，所選擇的行動應該是“不招認”。對囚徒而言，這兩個同等有力的論證，卻推薦了完全相反的行動選擇，這的確是一個困境。(二)．政府哲學對“囚徒困境”的建構(gòu)囚徒困境得到人們熱烈的討論，這是因為，在人類生活中存在著許多極為重要的類似困境。正如龐德斯通(WilliamPoundstone)在《囚徒的困境》中指出:“囚徒困境已成為我們當前時代最基本的哲學和科學課題之一，同我們的生存緊密聯(lián)系在一起。”在《悖論:根源、范圍及解決》一書中，作者萊切爾(NicholasRescher)把“囚徒困境”稱為“選擇和決策悖論”，認為對它的研究極其重要。他指出，“決策悖論在21世紀哲學中極為重要，它承載了‘合理性’這一中心課題。在各種問題或條件下，決定什么是‘合理’的行動是合理性課題的最佳呈現(xiàn)方式”二、描述性研究方法博弈論及一般決策理論研究方法分兩種:標準化方法和描述性方法。標準化方法研究的代表人物有杰弗里(RichardJeffery)、萊法(HowardRaiffa)、斯基姆斯(BrianSkyrms)。這種方法探討理性主體的理想化行為，是關(guān)于“如何行動才是理性”的描述。描述性研究方法與此不同，關(guān)注的不是理想的理性主體做什么，而是實際的理性主體在做什么，他們假定的是部分人在部分時候是理性的，卡夫曼(DanielKaheneman)、尼伯(RichardE.Nisbett)、羅斯(StephenRoss)和斯帝奇(StephenStich)是這一研究方法的代表人物。本文關(guān)注的重點是標準化研究進路，這一進路下的決策理論認為決定決策的因素有兩個:目標(一)．條件一:博弈雙方,選擇合適的收益通過上文對囚徒困境產(chǎn)生過程的回顧，我們可以得出，兩個囚徒“都招認”結(jié)果的出現(xiàn)必須滿足三個條件:(1)博弈是基于對方“行動”的策略博弈，遵循“占優(yōu)原則”;(2)雙方做出的選擇是獨立、自主、不受脅迫的;(3)不同的路徑選擇必須對應不同的收益，也就是囚徒收益矩陣中的四種收益兩兩之間必須存在差異。下面分別展開討論。1．條件一:理性該情形下，博弈雙方做出選擇依據(jù)的是對方的“行動”，或者說是對方的“目標”，而并不考慮或者無法把握對方的信念。因此囚徒A在做出選擇前，會認為囚徒B已經(jīng)做出了選擇(行動)，既然對方做出了選擇，那么必定只存在招認和不招認兩種情況，而不管對方是否招認，自己選擇招認都是更優(yōu)的結(jié)果，同樣，B也會做此推理，最終，雙方都選擇招認。所以說，博弈雙方由于無法把握對方的想法，而只能基于對方的“行動”的判斷直接導致了“都招認”結(jié)果的產(chǎn)生。另外，基于“行動”的策略博弈要做出“招認”的選擇，還須依據(jù)“占優(yōu)原則”。占優(yōu)原則基于理性經(jīng)濟人假設，考慮的是理性主體的決策，而非部分理性或者有限理性主體的選擇。劉易斯(DavidLewis)指出，囚徒本人的行動收益，和另一個囚徒采取何種策略，都不取決于這個囚徒。在任一可能世界狀態(tài)中，如果有策略能獲得較好的收益，理性要求選擇這個策略。在無法確定對方會得到什么收益的情況下，選擇“招認”的期望策略顯然比其他策略好。而且，這種決策方式，保證了囚徒在非困境的決策情形下，可以做得更好。因此，在囚徒困境中，囚徒最合理的策略應當是選擇招認，因為不管他是否招認，他都會被別人招認。劉易斯用以下論證來清晰揭示這一點(1)你的同伴要么選A，要么選非A。(2)如果他選A，那么你選A，也會有更好的收益。(3)如果他選非A，你選A是最好的，因為你偏好A，而不是B。因此，你應當選A。這個論證的有效性很明顯，它的結(jié)構(gòu)如下:(1)P或者Q。(2)如果P，那么R。前提(1)是自明的，(2)和(3)是從對博弈的描述中推導出的。(如果(2)和(3)不真，就不存在囚徒困境)(4)應當是看做和決策論相關(guān)的最大化理性概念。支持占優(yōu)論證的學者認為，理性主體應當選擇能帶來好的收益的行動，如果收益與行動(自身的行動)無關(guān)，此時就應當選擇占優(yōu)策略。根據(jù)占優(yōu)策略所做出的行動，無論在哪種可能世界狀態(tài)下，都比其他的選擇好。根據(jù)因果決策理論，每個囚徒行動的期望效用取決于某種反事實為真的概率。但是，在囚徒困境中，收益與主體自身的行動是沒有關(guān)系的，反事實的概率就降到了各人收益的先驗概率。無論這些先驗概率是多少，“招認”都會給囚徒帶來更好的收益。因此，支持占優(yōu)推理論證的人認為在囚徒困境中，理性還是要求兩人采取“招認”的策略。于是，兩個囚徒都選擇“招認”是這個博弈的均衡點，也是這個博弈中存在的唯一的納什均衡點。2有限次重復囚徒困境選擇的獨立性即博弈雙方不會因為自身做出的選擇受到對方的懲罰。這一條件是顯而易見的，如果招認會被對方報復，那么自然不會形成雙方都招認的結(jié)果。需要注意的是，選擇的獨立性并不意味著要杜絕對方的干擾或者隔絕對方的信息。比如說，博弈雙方在做出選擇之前可以被告知對方的選擇，或者囚徒雙方可以進行有限次重復博弈，這樣每次做出的博弈選擇都會在下一次對方做選擇時形成干擾，在此情況下，囚徒困境依然可能發(fā)生。有限次重復囚徒困境是經(jīng)典囚徒困境的一個擴展，簡稱IPD。魯斯和萊法(R.D.Luce&H.Raiffa)是這樣描述IPD的:假定兩個囚徒知道單次囚徒困境博弈將被重復100次，那么在第100次博弈中，兩個囚徒都明白之后不會再有博弈，而自己的選擇也不會被對方報復，那么作為理性人，他們在這一局中的選擇與單次囚徒困境博弈情形一樣，都會選擇“招認”。既然第100次博弈的結(jié)果已定，那么第99次博弈實際就變成了最后一次博弈，因此也會得到都“招認”的結(jié)果。依次類推，第98次事實上就成了最后一次，也得到都“招認”的結(jié)果……這樣，按照“逆向歸納”推理倒推回去，囚徒在每一輪都會選擇招認，這與單次囚徒博弈的結(jié)果一致雖然在有限次重復博弈中，囚徒會在博弈的過程中通過決策行動來進行交流，除去最后一局不考慮，在其他每一局，都要考慮他的選擇將給他對手的下一步產(chǎn)生什么樣的影響，但由于雙方做出的選擇都是獨立的，沒有額外的手段脅迫對方做出選擇或者遵守諾言，最終依然有可能形成從邏輯上來看無懈可擊，但同時直覺上又是不合理的“囚徒困境”。3．條件二:博弈雙方是隨機的條件博弈在遇到不同的路徑具有相同收益的情況時，即使博弈雙方是理性的也會發(fā)生選擇困難，因為此時遇到了無差異行為。比如警官給予囚徒A、B的條件有一條更改為“如果只有一方招認，那么招認的人無罪釋放;如果雙方都不招任，那么兩人都無罪釋放”，其他條件不變。那么，二者博弈的收益矩陣會如下圖所示:囚徒A的推理會是:假如對方招認，那么我也應當招認;假如對方?jīng)]招認，我既可以招認也可以不招認，但是不招認對于雙方都更好。囚徒B同樣也會做出這樣的推理。這樣，雙方博弈的結(jié)果將會變得隨機，他們既可能都招認，也可能都不招認，也可能一個招認一個不招認，關(guān)鍵就在于他們對對方選擇的判斷以及在做出“利己”行為的同時是否也愿意兼顧“利他”。同樣道理，將條件改為“如果雙方都招認，兩人都會被判十年”也會造成上述隨機情況的發(fā)生。這樣囚徒困境就不復存在了。當然，改變囚徒困境的條件只是一種極端的情況，對它的強調(diào)主要是為了剔除囚徒個體差異對博弈結(jié)果的影響。因為人們可以反駁說，囚徒困境的收益矩陣(-1,-1)(0,-10)(-10,0)(-9,-9)中，對于有的囚徒而言判刑1年跟無罪釋放沒有本質(zhì)的差別，判刑9年跟10年也沒有本質(zhì)的差別，因此他們不必然都選擇招認。這一爭論看似勉強，但卻間接說明了囚徒博弈矩陣中四個收益兩兩之間必須存在差異的重要性(而且必須是顯著差異)。為了規(guī)避這種情況，我們可以用a通過上述的梳理，我們很容易產(chǎn)生一種錯覺，理性博弈主體似乎只會基于對方的“行動”依據(jù)“占優(yōu)原則”選擇“雙輸”的結(jié)果，“效用最大化”只是“局內(nèi)人”無法企及的“局外人”視角。如果囚徒困境僅是“局內(nèi)人”與“局外人”選擇間的沖突，那我們就不能稱之為“困境”，而只能稱為不可避免的囚徒“悲劇”了。困境必須是“局內(nèi)人”的困境，同時困境還必須存在沖突的選項。那么，“效用最大化”選項能否成為囚徒共同的選擇呢?(二)“所有未調(diào)用”的可能性1過比較的收益為了更加直觀，我們通過笛卡爾坐標系(圖1)來重新審視兩個“局內(nèi)人”基于對方“行動”的推理過程?？v軸和橫軸分別代表囚徒A和囚徒B招認與否的選擇，所劃分的四個區(qū)域(即四個象限)分別代表該選擇獲得的收益。囚徒A推理如下:如果B沒有招認，那么我通過比較(2)、(3)象限的收益(a囚徒A、B都是基于“對方已經(jīng)做出選擇，并且這種選擇存在兩種情形”的假定下進行的推理，從而他們進行橫向或者豎向兩兩收益間的比較時，實質(zhì)都是拿兩個人“做出相同選擇時的收益”與兩個人“做出不同選擇時的收益”進行對比。博弈雙方都忽略了一個事實:在智力水平、推理能力、生活背景、行為偏好(理性經(jīng)濟人假設來保證)都相似的情況下，博弈雙方的選擇幾乎是一致的，做出不同選擇的可能性基本不存在。因此，在進行橫向或豎向的收益對比時，實際上是與一個不存在的收益進行對比，結(jié)果自然是沒有說服力的。而一旦A、B都意識到“對方的選擇與自己一致”的情形，他們就會剔除象限(1)和象限(3)的收益，而只會在象限(2)與象限(4)間進行對比，從而最終博弈的結(jié)果將是(不招認，不招認)這一更優(yōu)結(jié)局。其博弈過程詳見圖2。2保持沉默c關(guān)于“博弈雙方關(guān)于對方理性程度、行為模式與己一致”的假定，西方學界已經(jīng)做過相關(guān)的理論研究，我們可以稱之為“對稱論證”。對稱論證認為(自身的)行動和收益之間是有關(guān)系的，因此應當使用以行動為條件的收益的概率，來最大化期望效用。根據(jù)對稱論證，囚徒困境的重要特點是參與人具有同等的理性(這個事實暗示收益和行動之間是有概率關(guān)系的)。因為囚徒之間的相似性，他們的行動接近相同。如果每一個囚徒都期望另一個人的行動和自己一樣，那么保持沉默，也就是“不招認”，能夠使每個人都獲利。高德認為，囚徒間通過合作選擇“不招認”的行動帶來的收益會更高一些。如果一個囚徒傾向于采取合作的策略，而另一囚徒不合作，這種傾向是兩個囚徒之間的公共知識，那么出于自私的考慮，兩個人都會傾向于采取同樣的行動，也就是合作而“不招認”(1)對主體Y而言，X是理性的，如果Y知道只有兩個可能的結(jié)果M和N，使得如果Y選擇X，收益是M，如果Y不選擇X，那么收益是N,M比N更好。(2)每個囚徒都知道每個人知道每個人都會做出理性的選擇。(4)每個人都知道他會保持沉默，因為另一個人會這么做，他會招認，因為另一個人會這么做。(5)每個人知道如果沉默是理性的，并且他保持沉默，那么收益就是(C,C)，并且如果招認是理性的，而他招認了，那么收益就是(B,B)。(6)每個人都知道(C,C)和(B,B)是唯一的收益。(8)因此，對每個人而言，保持沉默都是理性的。前提(1)是決策論的直接原則。前提(2)—(5)是從理性的常識中推出來的，指出主體是理性的。(6)是(2)到(5)的結(jié)論，(7)是囚徒困境的結(jié)論。對稱論證取決于囚徒困境顯示出的強的概率聯(lián)系:對理想理性主體而言，每個人和另一個人采取相同的行為的概率都是極高的(接近1)。給定這個事實，保持沉默的期望效用高于招認的期望效用。因此，對稱論證通過對“參與人具有同等的理性”的假定最終會得出“都不招認”這一帕累托最優(yōu)(效用最大化)方案。3．信念是導致合理決策由此我們得出囚徒困境出現(xiàn)“都不招認”情形的第一個條件:雙方都是基于“對方與自己具有同等理性”信念基礎上的策略博弈，也遵循“占優(yōu)原則”。另外兩個條件分別是“雙方做出的選擇是獨立、自主、不受脅迫的”以及“不同的路徑選擇對應的收益必須存在顯著差異”，與出現(xiàn)“都招認”結(jié)果所需的條件一致。囚徒困境并非“局內(nèi)人”與“局外人”視角間的沖突，而就是“局內(nèi)人”即博弈雙方在行動過程中，在合理性指導下得出的完全矛盾的結(jié)論。而這種行動的矛盾，是與信念密切相關(guān)的。甚至可以說，信念是導致合理決策行動矛盾的根源。通過對囚徒困境進行塑述，將它構(gòu)造成一個嚴格的邏輯悖論，我們可以更為清晰地看到這一點。三、不招認行為的選擇困境一個真正嚴格的邏輯悖論，必須要滿足三個條件———“公認正確的背景知識”、“經(jīng)過嚴密無誤的邏輯推導”、“建立矛盾等價式”。這個定義曾經(jīng)引起了很多爭論令Jip表示:參與人i(i是指兩個囚徒，分別命名為囚徒A、囚徒B)對命題p的信念。令K表示主觀命題:由于囚徒間的理性程度是相近的，因此行為選擇也基本相同。只有K命題為真，囚徒A、B才只會在(招認，招認)和(不招認，不招認)的收益間進行對比，從而得出都不招認才是更優(yōu)的選擇，從而囚徒困境才真正成為一個“兩難”選擇困境。當囚徒A相信K，并且選擇了“不招認”行為時，B如何選擇，不僅取決于B是否相信K，還取決于他對囚徒A的信念。假如B不相信K(﹁JbK)，或者B不認為A相信K(﹁JbJaK)，他就無法確定A只在(不招認，不招認)與(招認，招認)間進行收益對比;作為理性的囚徒B就會根據(jù)對方可能采取的不同“行動”來進行“豎向”收益對比，而最終選擇“招認”(與A行為相反)。因此，如果B不相信K，或者B不認為A相信K,K為假，即﹁JbK∨﹁JbJaK→﹁K。相反，如果B認為A相信K(JbJaK)，并且他本人也堅信K(JbK)，那么他就會與A一樣，只在(不招認，不招認)與(招認，招認)間進行收益對比，最終共同選擇“不招認”。因此，如果B相信K，并且B也認為A相信K，則K為真，即JbK∧JbJaK→K。由此，我們可以得到等值條件命題:JbK∧JbJaK!K。同理，當囚徒B相信K，并且選擇了“不招認”行為時，要使K成立，不僅A要相信K，同時A也要相信B相信K。我們同樣可以得到等值條件命題:JaK∧JaJbK!K。由此，我們通過引入K命題，從博弈雙方關(guān)于對方信念假設的角度將對囚徒困境的分析轉(zhuǎn)化成了一個真正的狹義邏輯悖論，這也為囚徒困境的邏輯消解提供了可能。四、囚徒困境的消解：情境與情境我們可以參考孔斯關(guān)于“連鎖店悖論”的“情境敏感方案”來構(gòu)建囚徒困境的信念殊型網(wǎng)絡，將“有限情境”引入到解決方案中其實，對于囚徒困境的形成與解決方案，我們可以用圖來解讀將會更加明晰。如圖3所示，上邊的h、h在上述囚徒困境的消解中，我們遵循了孔斯的“情境”進路:即信念殊型的內(nèi)容不僅取決于主體思維中的其他殊型，還取決于主體實際所處的環(huán)境;而這一環(huán)境很有可能是悖論性的，這也正是悖論可能產(chǎn)生的真正原因所在。但是主體本身實際上無法了解自己所處的環(huán)境，

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

信念與行動單次選型決策行為邏輯的困境與消解

文檔簡介

溫馨提示

最新文檔

評論

信念與行動單次選型決策行為邏輯的困境與消解

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔