運籌學之決策論_第1頁
運籌學之決策論_第2頁
運籌學之決策論_第3頁
運籌學之決策論_第4頁
運籌學之決策論_第5頁
已閱讀5頁,還剩89頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第第11章章 決策論決策論 Theory of Decision11.1 決策分析的基本問題決策分析的基本問題11.2 確定型和非確定型決策確定型和非確定型決策11.3 風險型決策風險型決策 11.4 效用理論效用理論11.5馬爾可夫決策馬爾可夫決策 運運 籌籌 學學 Operations Research 11.1 決策分析的基本問題決策分析的基本問題決策決策(Decision Making)是一種對已知目標和方案的選擇過程,是一種對已知目標和方案的選擇過程,當人們已知確定需實現(xiàn)的目標是什么,根據(jù)一定的決策準則,當人們已知確定需實現(xiàn)的目標是什么,根據(jù)一定的決策準則,在供選方案中做出決策的過程

2、。諾貝爾獎獲得者西蒙認為,管在供選方案中做出決策的過程。諾貝爾獎獲得者西蒙認為,管理就是決策,他認為決策是對稀有資源備選分配方案進行選擇理就是決策,他認為決策是對稀有資源備選分配方案進行選擇排序的過程。學者排序的過程。學者Gregory在在決策分析決策分析中提及,決策是對決中提及,決策是對決策者將采取的行動方案的選擇過程。策者將采取的行動方案的選擇過程。 決策科學包括決策心理學、決策的數(shù)量化方法、決策評價以決策科學包括決策心理學、決策的數(shù)量化方法、決策評價以及決策支持系統(tǒng)、決策自動化等。及決策支持系統(tǒng)、決策自動化等。 隨著計算機和信息通信技術(shù)的發(fā)展,決策分析的研究也得到隨著計算機和信息通信技術(shù)

3、的發(fā)展,決策分析的研究也得到極大的促進,隨之產(chǎn)生了計算機輔助決策支持系統(tǒng)(極大的促進,隨之產(chǎn)生了計算機輔助決策支持系統(tǒng)(Decision Support System),許多問題在計算機的幫助下得以解決,在),許多問題在計算機的幫助下得以解決,在一定程度上代替了人們對一些常見問題的決策分析過程。一定程度上代替了人們對一些常見問題的決策分析過程。11.1 決策分析的基本問題決策分析的基本問題11.1.1 決策分析基本概念決策分析基本概念決策決策 狹義決策認為決策就是作決定,單純強調(diào)最終結(jié)果;廣義狹義決策認為決策就是作決定,單純強調(diào)最終結(jié)果;廣義決策認為將管理過程的行為都納入決策范疇,決策貫穿于整

4、個決策認為將管理過程的行為都納入決策范疇,決策貫穿于整個管理過程中。管理過程中。決策目標決策目標 決策者希望達到的狀態(tài),工作努力的目的。一般而言,決策者希望達到的狀態(tài),工作努力的目的。一般而言,在管理決策中決策者追求的當然是利益最大化。在管理決策中決策者追求的當然是利益最大化。決策準則決策準則 決策判斷的標準,備選方案的有效性度量。決策判斷的標準,備選方案的有效性度量。決策屬性決策屬性 決策方案的性能、質(zhì)量參數(shù)、特征和約束,如技術(shù)指決策方案的性能、質(zhì)量參數(shù)、特征和約束,如技術(shù)指標、重量、年齡、聲譽等,用于評價它達到目標的程度和水平。標、重量、年齡、聲譽等,用于評價它達到目標的程度和水平。科學決

5、策過程科學決策過程 任何科學決策的形成都必須執(zhí)行科學的決策程序,任何科學決策的形成都必須執(zhí)行科學的決策程序,如圖如圖11-1所示。決策最忌諱的就是決策者拍腦袋決策,只有經(jīng)歷所示。決策最忌諱的就是決策者拍腦袋決策,只有經(jīng)歷過圖過圖11-1所示的所示的“預決策預決策決策決策決策后決策后”三個階段,才有可能三個階段,才有可能產(chǎn)生科學的決策產(chǎn)生科學的決策 11.1 決策分析的基本問題決策分析的基本問題11.1 決策分析的基本問題決策分析的基本問題調(diào)查研究調(diào)查研究 確定決策目標確定決策目標搜集有關(guān)的信息資料搜集有關(guān)的信息資料預測技術(shù)預測技術(shù)預測未來的可能情況預測未來的可能情況擬訂各種可行方案擬訂各種可行

6、方案可行性研究可行性研究方案評估方案評估決策準則決策準則方案選擇方案選擇方案實施方案實施預預決決策策決決策策實實施施情情況況反反饋饋意意見見決策后決策后圖圖11-1 科學決策過程科學決策過程11.1 決策分析的基本問題決策分析的基本問題決策系統(tǒng)決策系統(tǒng) 狀態(tài)空間、策略空間、損益函數(shù)構(gòu)成了決策系統(tǒng)。狀態(tài)空間、策略空間、損益函數(shù)構(gòu)成了決策系統(tǒng)。狀態(tài)空間狀態(tài)空間 不以人的意志為轉(zhuǎn)移的客觀因素,設(shè)一個狀態(tài)為不以人的意志為轉(zhuǎn)移的客觀因素,設(shè)一個狀態(tài)為Si,有有m種不同狀態(tài),其集合記為:種不同狀態(tài),其集合記為:miSSSSSSim, 1,321S稱狀態(tài)空間,稱狀態(tài)空間,S的元素的元素Si稱為狀態(tài)變量。稱為

7、狀態(tài)變量。策略空間策略空間 人們根據(jù)不同的客觀情況,可能做出主觀的選擇,人們根據(jù)不同的客觀情況,可能做出主觀的選擇,記一種策略方案為記一種策略方案為Ui,有,有n種不同的策略,其集合為:種不同的策略,其集合為: njuuuuUjn, 1,21U稱為策略空間;稱為策略空間;U的元素的元素Uj稱為決策變量。稱為決策變量。損益函數(shù)損益函數(shù) 當狀態(tài)處在當狀態(tài)處在Si情況下,人們做出情況下,人們做出Uj決策,從而產(chǎn)生決策,從而產(chǎn)生的損益值的損益值Vij,顯然,顯然Vij是是Si,Uj的函數(shù),即:的函數(shù),即:njmiuSvVjiij, 2 , 1;, 2 , 1),(11.1 決策分析的基本問題決策分析的

8、基本問題當狀態(tài)變量是離散型變量時,損益值構(gòu)成的矩陣叫損益矩陣當狀態(tài)變量是離散型變量時,損益值構(gòu)成的矩陣叫損益矩陣 111212122212(,)(,)(,)(,)(,)(,)()(,)(,)(,)nnijm nmmmnv S Uv S Uv S Uv S Uv S Uv S UVVv SUv SUv SU上述三個主要素組成了決策系統(tǒng),決策系統(tǒng)可以表示為三個主上述三個主要素組成了決策系統(tǒng),決策系統(tǒng)可以表示為三個主要素的函數(shù):要素的函數(shù):DD(S, U, V)人們將根據(jù)不同的判斷標準原則,求得實現(xiàn)系統(tǒng)目標的最優(yōu)人們將根據(jù)不同的判斷標準原則,求得實現(xiàn)系統(tǒng)目標的最優(yōu)(或滿意)決策方案。(或滿意)決策方

9、案。11.1 決策分析的基本問題決策分析的基本問題11.1.2 決策分析基本原則決策分析基本原則1. 最優(yōu)化(滿意)原則最優(yōu)化(滿意)原則2. 系統(tǒng)原則系統(tǒng)原則3.可行性原則可行性原則4.信息對稱、準全原則信息對稱、準全原則11.1.3 決策分析基本分類決策分析基本分類表表111按影響范圍按影響范圍戰(zhàn)略決策、戰(zhàn)役決策、戰(zhàn)術(shù)決策戰(zhàn)略決策、戰(zhàn)役決策、戰(zhàn)術(shù)決策按狀態(tài)空間按狀態(tài)空間確定型決策、非確定型決策、風險型決策確定型決策、非確定型決策、風險型決策按決策時間按決策時間程序化決策、半程序化決策、非程序化決策程序化決策、半程序化決策、非程序化決策按描述方法按描述方法定性化決策、定量化決策定性化決策、定

10、量化決策按目標數(shù)量按目標數(shù)量單目標決策、多目標決策單目標決策、多目標決策按連續(xù)性按連續(xù)性單級決策、序貫決策單級決策、序貫決策按決策者數(shù)量按決策者數(shù)量個人決策、群決策個人決策、群決策按問題大小按問題大小宏觀決策、微觀決策宏觀決策、微觀決策表表112 程序化、非程序化、半程序化決策程序化、非程序化、半程序化決策決策類型決策類型傳統(tǒng)方法傳統(tǒng)方法現(xiàn)代方法現(xiàn)代方法程序化程序化現(xiàn)有的規(guī)章制度現(xiàn)有的規(guī)章制度運籌學、管理信息系統(tǒng)(運籌學、管理信息系統(tǒng)(MIS)半程序化半程序化經(jīng)驗、直覺經(jīng)驗、直覺灰色系統(tǒng)、模糊數(shù)學等方法灰色系統(tǒng)、模糊數(shù)學等方法非程序化非程序化經(jīng)驗、應(yīng)急創(chuàng)新能力經(jīng)驗、應(yīng)急創(chuàng)新能力人工智能、風險應(yīng)

11、變能力培訓人工智能、風險應(yīng)變能力培訓11.1 決策分析的基本問題決策分析的基本問題下一節(jié):確定型和非確定型決策下一節(jié):確定型和非確定型決策11.1 決策分析的基本問題決策分析的基本問題11.2 確定型和非確定型決策確定型和非確定型決策11.2 確定型和非確定型決策確定型和非確定型決策11.2.1 確定型決策確定型決策確定型決策確定型決策是指決策的未來狀態(tài)是已知的,只需從備選的決策方是指決策的未來狀態(tài)是已知的,只需從備選的決策方案中,挑選出最優(yōu)方案。案中,挑選出最優(yōu)方案。 【例【例11.1】某企業(yè)根據(jù)市場需要,需添置一臺數(shù)控機床,可采】某企業(yè)根據(jù)市場需要,需添置一臺數(shù)控機床,可采用的方式有三種:

12、用的方式有三種: 甲方案:引進外國進口設(shè)備,固定成本甲方案:引進外國進口設(shè)備,固定成本1000萬元,產(chǎn)品每件萬元,產(chǎn)品每件可變成本為可變成本為12元;元; 乙方案:用較高級的國產(chǎn)設(shè)備,固定成本乙方案:用較高級的國產(chǎn)設(shè)備,固定成本800萬元,產(chǎn)品每件萬元,產(chǎn)品每件可變成本為可變成本為15元;元; 丙方案:用一般國產(chǎn)設(shè)備,固定成本丙方案:用一般國產(chǎn)設(shè)備,固定成本600萬元,產(chǎn)品每件可變?nèi)f元,產(chǎn)品每件可變成本為成本為20元;元; 試確定在不同生產(chǎn)規(guī)模情況下的購置機床的最優(yōu)方案。試確定在不同生產(chǎn)規(guī)模情況下的購置機床的最優(yōu)方案?!窘狻俊窘狻?此題為確定型決策利用經(jīng)濟學知識,選取最優(yōu)決此題為確定型決策利用

13、經(jīng)濟學知識,選取最優(yōu)決策最優(yōu)決策也就是在不同生產(chǎn)規(guī)模條件下,選擇總成本較低策最優(yōu)決策也就是在不同生產(chǎn)規(guī)模條件下,選擇總成本較低的方案各方案的總成本線如圖的方案各方案的總成本線如圖11.2 圖圖11.2TC甲甲F甲甲Cv甲甲Q100012QTC乙乙F乙乙Cv乙乙Q80015QTC丙丙F丙丙Cv丙丙Q60020Q 圖中出現(xiàn)了圖中出現(xiàn)了A、B、C三個交點,三個交點,其中其中A點經(jīng)濟意義:在點經(jīng)濟意義:在A點采用甲點采用甲方案與丙方案成本相同方案與丙方案成本相同TC甲甲TC丙丙,F(xiàn)甲甲Cv甲甲QAF丙丙Cv丙丙QA )(5012206001000萬件甲丙丙甲CvCvFFQAQ5011.2 確定型和非確

14、定型決策確定型和非確定型決策同理:同理:B點點TC乙乙TC丙丙,F(xiàn)乙乙Cv乙乙QBF丙丙Cv丙丙QB )(401520600800萬件乙丙丙乙CvCvFFQBC點:點:TCL甲甲TC乙乙,F(xiàn)甲甲Cv甲甲QCF乙乙Cv乙乙QC B點經(jīng)濟意義為:當生產(chǎn)點經(jīng)濟意義為:當生產(chǎn)40萬件時,采用乙方案和采用丙方案成萬件時,采用乙方案和采用丙方案成本相同均為本相同均為1400萬元萬元 (萬件)甲乙乙甲320012158001000CvCvFFQC圖圖11.211.2 確定型和非確定型決策確定型和非確定型決策得到生產(chǎn)規(guī)模最優(yōu)方案為:當?shù)玫缴a(chǎn)規(guī)模最優(yōu)方案為:當生產(chǎn)規(guī)模產(chǎn)量小于生產(chǎn)規(guī)模產(chǎn)量小于40萬件時,萬件時

15、,采用丙方案;當生產(chǎn)規(guī)模產(chǎn)量采用丙方案;當生產(chǎn)規(guī)模產(chǎn)量大于大于40萬件,小于萬件,小于200/3萬件萬件時,采用乙方案;當生產(chǎn)規(guī)模時,采用乙方案;當生產(chǎn)規(guī)模產(chǎn)量大于產(chǎn)量大于200/3萬件時,采用萬件時,采用甲方案甲方案 其經(jīng)濟意義為:當生產(chǎn)規(guī)模為萬件時,采用甲、乙方案成本相其經(jīng)濟意義為:當生產(chǎn)規(guī)模為萬件時,采用甲、乙方案成本相同從圖中可知:當生產(chǎn)規(guī)模同從圖中可知:當生產(chǎn)規(guī)模QB時,采用丙方案;當時,采用丙方案;當QB 生生產(chǎn)規(guī)模產(chǎn)規(guī)模 QC時,采用乙方案;當時,采用乙方案;當QC 0,則對任何概率不則對任何概率不為零的事件為零的事件B,有,有, 2 , 1)|()()|()()|(mABPAP

16、ABPAPBAPiiimmm11.3 風險型決策風險型決策 niiikjjkkjNPNZPNPNZPZNP1)()()()()(njlk, 2 , 1;, 2 , 1更一般地更一般地此公式為后驗概率此公式為后驗概率11.3 風險型決策風險型決策 產(chǎn)品需求量產(chǎn)品需求量x0100200300400先驗概率先驗概率p(xi)0.050.150.30.250.25例如,根據(jù)以往的經(jīng)驗,產(chǎn)品需求量的概率為例如,根據(jù)以往的經(jīng)驗,產(chǎn)品需求量的概率為產(chǎn)品進入市場產(chǎn)品進入市場2個月的試銷后,需求量的樣本信息個月的試銷后,需求量的樣本信息(比例比例)為為產(chǎn)品需求量產(chǎn)品需求量0100200300400需求量比例需求

17、量比例0.050.150.350.250.20貝葉斯公式:貝葉斯公式:若若A1、A2、構(gòu)成一個完備事件,構(gòu)成一個完備事件,P(Ai)0,則對任何概率不則對任何概率不為零的事件為零的事件B,有,有, 2 , 1)|()()|()()|(mABPAPABPAPBAPiiimmm11.3 風險型決策風險型決策 【例】盒子里有【例】盒子里有100枚均勻的硬幣,有枚均勻的硬幣,有60枚是正常的,枚是正常的,40枚兩面枚兩面都是徽。從盒子中任取一枚讓你猜是哪一類硬幣。猜中得都是徽。從盒子中任取一枚讓你猜是哪一類硬幣。猜中得5元,元,猜不中不得錢。你猜是哪一類?猜不中不得錢。你猜是哪一類?B1(正常正常)B

18、1(雙徽雙徽)3/52/5A1(猜正常猜正常)50A2(猜雙徽猜雙徽)05獲利的期望值獲利的期望值V(A1)=53/5+02/5=3V(A2)=03/5+52/5=2正確的決策是:應(yīng)該選擇猜正常正確的決策是:應(yīng)該選擇猜正常11.3 風險型決策風險型決策 如果現(xiàn)在拋擲如果現(xiàn)在拋擲3次,次,3次都出現(xiàn)徽,你又如何猜?該硬幣是正常次都出現(xiàn)徽,你又如何猜?該硬幣是正常的概率為多少,是雙徽的概率為多少。的概率為多少,是雙徽的概率為多少。設(shè)設(shè)H為為3次出現(xiàn)反面這一隨機事件,次出現(xiàn)反面這一隨機事件,B1為硬幣是正常,為硬幣是正常,B2為硬幣為硬幣是雙徽,則是雙徽,則1)|(,8121)|(231BHpBHp

19、3次都出現(xiàn)雙徽的概率為:次都出現(xiàn)雙徽的概率為:40195215381)()|()()|()(2211BpBHpBpBHpHp19340195381)()()|()|(111HpBpBHpHBp19164019521)()()|()|(222HpBpBHpHBp11.3 風險型決策風險型決策 B1(正常正常)B1(雙徽雙徽)3/1916/19A1(猜正常猜正常)50A2(猜雙徽猜雙徽)05用后驗概率代替原來的概率,決策矩陣為:用后驗概率代替原來的概率,決策矩陣為:獲利的期望值獲利的期望值V(A1)=53/19+02/5=15/19V(A2)=03/5+516/19=80/19正確的決策是:應(yīng)該選

20、擇猜雙徽正確的決策是:應(yīng)該選擇猜雙徽11.3 風險型決策風險型決策 根據(jù)過去經(jīng)驗可知當自然狀態(tài)為根據(jù)過去經(jīng)驗可知當自然狀態(tài)為Nj條件下調(diào)查結(jié)果為條件下調(diào)查結(jié)果為Zk的條件概的條件概率率njlkNZPjk, 2 , 1;, 2 , 1)(再利用貝葉斯公式和全概率公式,求當結(jié)果為再利用貝葉斯公式和全概率公式,求當結(jié)果為ZK的條件下自然的條件下自然狀態(tài)為狀態(tài)為Nj的條件概率的條件概率 niiikjjkkjNPNZPNPNZPZNP1)()()()()(njlk, 2 , 1;, 2 , 111.3 風險型決策風險型決策 在后驗分析中用在后驗分析中用)(kjZNP代替先驗分析中的代替先驗分析中的P(N

21、j),利用期望值準則計算出),利用期望值準則計算出Ek再根據(jù)全概率公式,可知結(jié)果為再根據(jù)全概率公式,可知結(jié)果為Zk的概率為的概率為miiikkNPNZPZP1)()()(因此,后驗分析的效益期望值為因此,后驗分析的效益期望值為 lkkkZPEEMV12)(lkmiZNPNSfEnjkjjiik, 1;, 1)(),(1, miEEijjk, 1,max11.3 風險型決策風險型決策 當狀態(tài)只有兩個時,后驗概率及期望收益可用快捷公式計算。當狀態(tài)只有兩個時,后驗概率及期望收益可用快捷公式計算。記先驗概率向量為記先驗概率向量為P,條件概率矩陣為,條件概率矩陣為A,后驗概率矩陣為,后驗概率矩陣為B,收

22、益矩陣為收益矩陣為V,有,有 2221212122221211112121112122121111112221121121,apapapapapapapapapapapapBaaaaAppP,則先驗收益期望值向量為則先驗收益期望值向量為EMV1PTV后驗收益期望值矩陣為后驗收益期望值矩陣為EkBV11.3 風險型決策風險型決策 【例【例11.6】 某廠對一臺機器的換代問題做決策,有三種方案:某廠對一臺機器的換代問題做決策,有三種方案:A1為買另為買另一臺新機器;一臺新機器;A2為對老機器進行改建;為對老機器進行改建;A3是維護加強輸入不同質(zhì)量的是維護加強輸入不同質(zhì)量的原料,三種方案的收益見表原

23、料,三種方案的收益見表11.8約有約有30%的原料是質(zhì)量好的,還可以的原料是質(zhì)量好的,還可以花花600元對原料的質(zhì)量進行測試,這種測試可靠性見表元對原料的質(zhì)量進行測試,這種測試可靠性見表11.9求最優(yōu)方求最優(yōu)方案案11.3 風險型決策風險型決策 原料的實際質(zhì)量原料的實際質(zhì)量N1好好N2差差測試結(jié)果測試結(jié)果Z1好好0.80.3Z2差差0.20.7原料質(zhì)量原料質(zhì)量Ni購新機器購新機器A1改建老機器改建老機器A2維護老機器維護老機器A3N1好(好(0.3)31.00.8N2差(差(0.7)-1.50.50.6表表11.9 測試可靠性測試可靠性 表表11.8 收益表收益表(單位:萬元單位:萬元)()k

24、iP Z N11.3 風險型決策風險型決策 【解】【解】 (1)若不做測試,各方案的先驗收益 -0.150.7(-1.5)0.331EMV65. 07 . 05 . 03 . 00 . 12EMV66. 07 . 06 . 03 . 08 . 03EMV30.66lEMVEMV萬元應(yīng)選方案應(yīng)選方案3,維護老機器。,維護老機器。 24. 03 . 08 . 0)()()(11111NPNZPZNP06. 03 . 02 . 0)()()(11221NPNZPZNP(2)計算后驗概率計算后驗概率()kjP ZN已知已知聯(lián)合概率為:聯(lián)合概率為: 11.3 風險型決策風險型決策 21122()() (

25、)0.3 0.70.21P N ZP Z NP N22222()() ()0.70.70.49P N ZP ZNP N邊際概率為邊際概率為 45. 021. 024. 0)()()(12111ZNPZNPZP55. 049. 006. 0)()()(22212ZNPZNPZP代入(代入(11.2)從而可得后驗概率)從而可得后驗概率533. 045. 0/24. 0)()()(11111ZPZNPZNP109. 055. 0/06. 0)()()(22121ZPZNPZNP467. 045. 0/21. 0)()()(11212ZPZNPZNP891. 055. 0/49. 0)()()(222

26、22ZPZNPZNP11.3 風險型決策風險型決策 則有則有0.5330.46731.00.80.1090.8911.500.8985.50.60.76650.60.70661.00950.5545218kE6218. 08985. 0kE即當測試結(jié)果為原料的質(zhì)量好,則購買新機器;若測試結(jié)果為即當測試結(jié)果為原料的質(zhì)量好,則購買新機器;若測試結(jié)果為原材料的質(zhì)量差,則維護老機器。原材料的質(zhì)量差,則維護老機器。747. 06218. 08985. 055. 045. 02kEPEMV687. 006. 0747. 022CEMVEMV決策為:應(yīng)花決策為:應(yīng)花600元進行測試,測試后若質(zhì)量好,購入新機

27、器生元進行測試,測試后若質(zhì)量好,購入新機器生產(chǎn);若質(zhì)量差,維護老機器生產(chǎn)產(chǎn);若質(zhì)量差,維護老機器生產(chǎn) 【例】石油開發(fā)決策問題【例】石油開發(fā)決策問題收益收益勘探勘探250鉆探鉆探150賣出收益賣出收益90有油時收益有油時收益800干涸時收益干涸時收益0自然自然狀態(tài)狀態(tài)先驗概率先驗概率好好不好不好有油有油干涸干涸勘探結(jié)果勘探結(jié)果自然狀態(tài)自然狀態(tài)11.3 風險型決策風險型決策 11.3 風險型決策風險型決策 自然狀態(tài)自然狀態(tài)先驗概率先驗概率好好(FSS)不好不好(USS)有油有油(Oil)P(O)= 0.6P(F|O)=0.8P(U|O)= 0.2干涸干涸(Dry)P(D)= 0.4P(F|D)=0

28、P(U|D)= 1P(Finding 勘探結(jié)果勘探結(jié)果| State自然狀態(tài)自然狀態(tài))后驗概率后驗概率P(自然狀態(tài)自然狀態(tài)|勘探結(jié)果勘探結(jié)果)勘探結(jié)果勘探結(jié)果邊際概率邊際概率有油有油(Oil)干涸干涸(Dry)好好(F)不好不好(U)勘探好的概率:勘探好的概率:P(F)=P(O)*P(F|O)+P(D)*P(F|D) =0.60.8+0.40=0.48勘探好的概率:勘探好的概率:P(U)=P(O)*P(U|O)+P(D)*P(U|D) =0.60.2+0.41=0.52勘探好時有油的概率勘探好時有油的概率P(O|F)= P(O)*P(F|O) /P(O)*P(F|O)+P(D)*P(F|D)

29、=0.60.8/0.48=1勘探好時干涸的概率勘探好時干涸的概率P(D|F)= P(D)*P(F|D) /P(O)*P(F|O)+P(D)*P(F|D) =0.40/0.48=0勘探不好時有油的概率勘探不好時有油的概率P(O|U)= P(O)*P(U|O) /P(O)*P(U|O)+P(D)*P(U|D) =0.60.2/0.52=0.2037勘探不好時干涸的概率勘探不好時干涸的概率P(D|U)= P(D)*P(U|D) /P(O)*P(U|O)+P(D)*P(U|D) =0.41/0.52=0.76920.480.5210.23076900.769231決策樹參看文件:決策樹參看文件:DAT

30、Achpt11ch11.xls下一節(jié):效用理論下一節(jié):效用理論作業(yè):教材作業(yè):教材P269 T3711.3 風險型決策風險型決策 11.4 效用理論效用理論Utility Theory11.4.1 效用效用貝努利貝努利(D.Berneulli)首次提出效用概念,他用圖首次提出效用概念,他用圖11.7表示出人表示出人們對錢財?shù)恼鎸崈r值的考慮與其錢財擁有量之間有對數(shù)關(guān)們對錢財?shù)恼鎸崈r值的考慮與其錢財擁有量之間有對數(shù)關(guān)系系效用是一種相對的指標值,它的大小表示決策者對于風險的效用是一種相對的指標值,它的大小表示決策者對于風險的態(tài)度,對某事物的傾向、偏差等主觀因素的強弱程度用于量態(tài)度,對某事物的傾向、偏

31、差等主觀因素的強弱程度用于量度決策者對于風險的態(tài)度度決策者對于風險的態(tài)度. 效用效用U貨幣貨幣M圖圖117 貝努利效用曲線貝努利效用曲線11.4 效用理論效用理論Utility Theory【例】【例】(1)方案)方案A1;穩(wěn)獲穩(wěn)獲100元。方案元。方案B1:用拋擲硬幣的方法,猜對得:用拋擲硬幣的方法,猜對得250元,猜錯不得錢。元,猜錯不得錢。(2)方案)方案A2;穩(wěn)獲穩(wěn)獲100元。方案元。方案B2:用拋擲硬幣的方法,直到出:用拋擲硬幣的方法,直到出現(xiàn)正面為止,第現(xiàn)正面為止,第n 次出現(xiàn)正面得到次出現(xiàn)正面得到2n元。元。大多數(shù)選擇大多數(shù)選擇A1、A2.通過計算有通過計算有E(B1)E(A1)

32、, E(B2)E(A2)一般來說效用值在一般來說效用值在0,1之間取值之間取值.凡是決策者最看好、最傾凡是決策者最看好、最傾向、最愿意的事物(事件)的效用值可取向、最愿意的事物(事件)的效用值可取1;反之,效用;反之,效用值取值取0當各方案期望值相同時,一般用最大效用值決策當各方案期望值相同時,一般用最大效用值決策準則,選擇效用值最大的方案準則,選擇效用值最大的方案 11.4 效用理論效用理論Utility Theory通過效用指標將某些難于量化、有質(zhì)的區(qū)別的事件給予量化,通過效用指標將某些難于量化、有質(zhì)的區(qū)別的事件給予量化,得到各方案的綜合效用值,選擇效用值最大的方案作為決策準得到各方案的綜

33、合效用值,選擇效用值最大的方案作為決策準則。則。11.4.2 效用曲線效用曲線確定效用曲線的基本方法有兩種:一種是直接確定效用曲線的基本方法有兩種:一種是直接提問法提問法,需要決,需要決策者回答提問,主觀衡量應(yīng)用較少;第二種是策者回答提問,主觀衡量應(yīng)用較少;第二種是對比提問法對比提問法,此法使用較多此法使用較多 設(shè)現(xiàn)有設(shè)現(xiàn)有A0,A1兩種方案供選兩種方案供選A0表示決策者不需要花費任何風表示決策者不需要花費任何風險可獲益險可獲益x0;而;而A1有兩種自然狀態(tài),可以概率有兩種自然狀態(tài),可以概率P獲得收益獲得收益x1,以,以概率(概率(1P)獲得收益)獲得收益x2;且;且x1x0 x2 令令yi表

34、示效益表示效益xi的效用值則的效用值則x0,x1,x2的效用值分別表示為的效用值分別表示為y0,y1,y2 若在某條件下,決策者認為若在某條件下,決策者認為A0 , A1兩方案等價,則有:兩方案等價,則有: 021)1 (yyPPy11.4 效用理論效用理論Utility Theory4個數(shù)個數(shù)p,x0,x1,x2中給定中給定3個,提問第個,提問第4個變量由決策者確定,個變量由決策者確定,求出效用值。求出效用值。一般采用改進一般采用改進VM(Von NeumannMorgenstern)方法,固定方法,固定P0.5,x1,x2改變改變x0三次,得出相應(yīng)的三次,得出相應(yīng)的y的值,確定三點,作出效

35、用的值,確定三點,作出效用曲線曲線 )()(5 . 0)(5 . 0021xyxyxy11.4 效用理論效用理論Utility Theory)()(5 . 0)(5 . 0021xyxyxy【例【例11.7】x1=100,x2=400,取取y(x1)=0, y(x2)=1-100400第一次提問:第一次提問:x0為何值時,上式成立?答:為何值時,上式成立?答:“ 0”y(0)=0.50+0.510.51(0,0.5)第二次提問:第二次提問:x0為何值時,上式成立?答:為何值時,上式成立?答:“ 200”y(200)=0.5y(0)+0.51 = 0.50.5+0.510.75第三次提問:第三次

36、提問:x0為何值時,為何值時,上式成立?答:上式成立?答:“ 100”y(100)=0.5y(0)+0.5y(200)= 0.50.5+0.50.750.625(200,0.75)(100,0.625)100200 300011.4 效用理論效用理論Utility Theory不同決策者對待風險態(tài)度不同,因而會得到不同形狀的效用曲不同決策者對待風險態(tài)度不同,因而會得到不同形狀的效用曲線一般可分為保守型線一般可分為保守型、中間型、中間型、風險型、風險型,如下圖,如下圖 y1IIIx(Xmax,1)(Xmin,0)XmaxXmin011.4.3 效用曲線類型效用曲線類型圖中圖中I為保守型,其特點為

37、:當收益為保守型,其特點為:當收益值較小時,效用值增加較快;隨收值較小時,效用值增加較快;隨收益值增大時,效用值增加速度變慢,益值增大時,效用值增加速度變慢,表明決策者不求大利,謹慎小心,表明決策者不求大利,謹慎小心,保守保守圖中圖中II為中間型,其特點為:收為中間型,其特點為:收益值和效用值成正比,表明決策益值和效用值成正比,表明決策者完全按機遇辦事,心平氣和者完全按機遇辦事,心平氣和圖中圖中III為風險型,其特點為與為風險型,其特點為與I保守型恰好相反,當收益值較小保守型恰好相反,當收益值較小時,效用值增加較慢;隨收益值時,效用值增加較慢;隨收益值增大時,效用值增加速度變快,增大時,效用值

38、增加速度變快,表明決策者對增加收益反應(yīng)敏感,表明決策者對增加收益反應(yīng)敏感,愿冒較大風險,謀求大利,不怕愿冒較大風險,謀求大利,不怕冒險冒險 III11.4 效用理論效用理論Utility Theory常用的效用函數(shù):常用的效用函數(shù):11.4 效用理論效用理論Utility Theory11.4.4 效用值的應(yīng)用效用值的應(yīng)用【例【例11.8】 若某決策若某決策問題的決策樹如下圖所問題的決策樹如下圖所示,其決策者的效用期示,其決策者的效用期望值同時附在效益期望望值同時附在效益期望值后,請做出決策值后,請做出決策 E(2)=0.53000.5(200)=50 E(3)0.52000.5(100)=5

39、0 根據(jù)最大效益期望值準則,無法判斷優(yōu)劣根據(jù)最大效益期望值準則,無法判斷優(yōu)劣 y2=0.510.500.5, y3=0.50.9+0.50.3=0.6 解:解:(1)計算效益期望值分別為)計算效益期望值分別為11.4 效用理論效用理論Utility TheoryA2方案效用值方案效用值A(chǔ)1方案效用值,因此取方案效用值,因此取A2方案為決策方案方案為決策方案繪制效用曲線圖見下圖,可知,該決策者偏向于保守型,不求大繪制效用曲線圖見下圖,可知,該決策者偏向于保守型,不求大利,謹慎小心利,謹慎小心 11.4 效用理論效用理論Utility Theory-20030010100200-100yx11.5

40、 馬爾可夫決策馬爾可夫決策 Markov Decision11.5馬爾可夫決策馬爾可夫決策 Markov Decision11.5.1 馬爾可夫鏈馬爾可夫鏈 用用X(t)表示隨機系統(tǒng)在時刻表示隨機系統(tǒng)在時刻t 的狀態(tài),狀態(tài)序列的狀態(tài),狀態(tài)序列TttX);(為一隨機過程,如果系統(tǒng)當前的轉(zhuǎn)移概率只與當前的運行狀為一隨機過程,如果系統(tǒng)當前的轉(zhuǎn)移概率只與當前的運行狀態(tài)有關(guān),而與以前的狀態(tài)無關(guān),即:對隨機過程態(tài)有關(guān),而與以前的狀態(tài)無關(guān),即:對隨機過程 TttX);(若對任意的若對任意的0t1t2tntn+1及及tiT,X(tn+1)關(guān)于)關(guān)于X(t1), X(tn)的條件概率恰好等于)的條件概率恰好等于

41、X(tn+1)關(guān)于)關(guān)于X(tn)的條件概率,)的條件概率,用數(shù)學符號表示為:用數(shù)學符號表示為:,)()(;,)()()(1)(1ninnnnninnnUitXjtXPtUitXjtXP策以前各時期的狀態(tài)和決則稱則稱 具有馬爾可夫性隨機過程稱為馬爾可夫過程。具有馬爾可夫性隨機過程稱為馬爾可夫過程。 TttX);(所有可能的全體取值稱為過程的狀態(tài)空間。所有可能的全體取值稱為過程的狀態(tài)空間。 TttX);(若馬氏過程的狀態(tài)空間為非負整數(shù)集若馬氏過程的狀態(tài)空間為非負整數(shù)集E0,1,2,稱為馬,稱為馬氏鏈。例如,今天下雨這一狀態(tài)用氏鏈。例如,今天下雨這一狀態(tài)用“ 0”表示,不下雨用表示,不下雨用“ 1

42、”表表示,則狀態(tài)空間為示,則狀態(tài)空間為 E0,1。天氣變化過程符合馬。天氣變化過程符合馬Markov性。性。11.5.2 轉(zhuǎn)移概率轉(zhuǎn)移概率 記記Pij為從狀態(tài)為從狀態(tài)X(n)=i轉(zhuǎn)移到下一個狀態(tài)轉(zhuǎn)移到下一個狀態(tài)X(n+1)=j 的概率,一的概率,一步轉(zhuǎn)移概率矩陣為步轉(zhuǎn)移概率矩陣為mmmmmmPPPPPPPPPP21222211121111.5馬爾可夫決策馬爾可夫決策 Markov Decision【例【例11.9】有】有3家電器公司分別生產(chǎn)三種不同牌子的空調(diào)。各自家電器公司分別生產(chǎn)三種不同牌子的空調(diào)。各自開展廣告攻勢促銷本公司產(chǎn)品。各公司所占的市場比例是隨時開展廣告攻勢促銷本公司產(chǎn)品。各公司所

43、占的市場比例是隨時間變化的。間變化的。 XXn,n0構(gòu)成一個以構(gòu)成一個以E1,2,3為為 狀態(tài)空間的狀態(tài)空間的Markov鏈。假設(shè)在任一時刻,公司鏈。假設(shè)在任一時刻,公司1能留住它的能留住它的1/2的老顧客,其余的則的老顧客,其余的則對半購買另兩個公司的產(chǎn)品;公司對半購買另兩個公司的產(chǎn)品;公司2的一半顧客能留下,其余轉(zhuǎn)的一半顧客能留下,其余轉(zhuǎn)向公司向公司1;公司;公司3有有3/4能留下,其余流向公司能留下,其余流向公司2。Markov鏈的轉(zhuǎn)鏈的轉(zhuǎn)移概率矩陣和轉(zhuǎn)移圖:移概率矩陣和轉(zhuǎn)移圖:4341002121414121P1/21/41/41/21/21/43/411.5馬爾可夫決策馬爾可夫決策

44、Markov Decision求求n期后公司期后公司i的市場占有率,的市場占有率,n時的市場占有率。時的市場占有率。記記Pj(n)=P(Xn=j)為為Markov鏈鏈X時刻時刻n處于狀態(tài)處于狀態(tài)j的概率,的概率,P為初為初始分布。始分布。【定理】【定理】 XXn,n0為一個為一個Markov鏈,則有鏈,則有112111220,12(1) (,|)(2) (1)( )(3) ( )(0),(0)(,)nnnni ii iiinmP Xi XiXiXipppP nP n PG nGP Gg gg為初始狀態(tài),是行向量對任意對任意m,n0,有,有)()()(nPmPnmP對任意對任意i,jE,有,有E

45、kkjikijnpmpnmp)()()(此方程稱為此方程稱為Champan-Kolmogorov方程,簡稱方程,簡稱CK方程方程11.5.3 轉(zhuǎn)移狀態(tài)轉(zhuǎn)移狀態(tài) 11.5馬爾可夫決策馬爾可夫決策 Markov Decision【例【例11.10】假設(shè)】假設(shè)3個公司開始的市場占有率為個公司開始的市場占有率為(0.3,0.35,0.35),求求5個月后的市場占有率個月后的市場占有率(狀態(tài)狀態(tài))?!窘狻俊窘狻縋0 (0.3,0.35,0.35)5()0()5(PGG)3375. 0 ,3375. 0 ,325. 0(75. 025. 0005 . 05 . 025. 025. 05 . 0)35. 0

46、 ,35. 0 , 3 . 0()0() 1 (PGG)33408. 0 ,33262. 0 ,3333. 0(75. 025. 0005 . 05 . 025. 025. 05 . 0)35. 0 ,35. 0 , 3 . 0()0()5(55PGG11.5馬爾可夫決策馬爾可夫決策 Markov Decision遍歷性:如果一個齊次的馬爾可夫鏈遍歷性:如果一個齊次的馬爾可夫鏈X(n), n=1,2,的的n步轉(zhuǎn)移步轉(zhuǎn)移概率為概率為Pij(n),對于一切狀態(tài),對于一切狀態(tài)i,j,存在著不依賴于初始狀態(tài),存在著不依賴于初始狀態(tài)i的常的常數(shù)數(shù)Pj,使得,使得 jijnpnp)(lim成立,則稱此馬爾

47、可夫鏈具有遍歷性也就是說,一個具有遍成立,則稱此馬爾可夫鏈具有遍歷性也就是說,一個具有遍歷性的馬爾可夫鏈,當轉(zhuǎn)移的次數(shù)歷性的馬爾可夫鏈,當轉(zhuǎn)移的次數(shù)n極大時,此系統(tǒng)轉(zhuǎn)移到狀極大時,此系統(tǒng)轉(zhuǎn)移到狀態(tài)態(tài)j的概率為一個常數(shù)的概率為一個常數(shù)Pj,而與初始狀態(tài)無關(guān),而與初始狀態(tài)無關(guān) nnPlim求求【引理】設(shè)【引理】設(shè)m 階矩陣階矩陣P具有具有m個線性無關(guān)的特征向量個線性無關(guān)的特征向量 B(b1,b2, ,bm)對應(yīng)的特征值為對應(yīng)的特征值為1, 2,m,則,則B可逆且有可逆且有PBB1,Pn= BnB1.其中其中diag(1, 2,m)11.5馬爾可夫決策馬爾可夫決策 Markov Decision上例

48、中,求上例中,求Pn及及nnPlim求轉(zhuǎn)移概率矩陣求轉(zhuǎn)移概率矩陣P的特征值及特征向量。由的特征值及特征向量。由|IP|=0得得0)25. 0)(5 . 0)(1(75. 025. 0005 . 05 . 025. 025. 05 . 0特征值及特征向量矩陣為特征值及特征向量矩陣為313132101313131,111211101412111BB,11.5馬爾可夫決策馬爾可夫決策 Markov Decision1141211BBBBPnnnnnnnnnnnnnnnnn)41(31)21(31)41(3131)41(32)21(31)41(32)21(31)41(3231)41(34)21(31)

49、41(3131)41(3131)41(3231則有則有11.5馬爾可夫決策馬爾可夫決策 Markov Decision313131313131313131limnnP31,31,31lim)35. 0 ,35. 0 , 3 . 0(lim)0()(limnnnnnPPGnGG長期后市場占有率各占長期后市場占有率各占1/3PnGnG)() 1(GPGPnGnGnn,)(lim) 1(lim由由得得解方程得到穩(wěn)定狀態(tài)的概率解方程得到穩(wěn)定狀態(tài)的概率G11.5馬爾可夫決策馬爾可夫決策 Markov Decision【例【例11.10】 設(shè)某公司有兩種狀態(tài):設(shè)某公司有兩種狀態(tài):1和和2,1為盈利,為盈利

50、,2為虧為虧損當其處于損當其處于1時,下一年仍為時,下一年仍為1的概率是的概率是1/2,因此下一年轉(zhuǎn)為,因此下一年轉(zhuǎn)為2的概率也是的概率也是1/2當公司處于狀態(tài)當公司處于狀態(tài)2時,下一年經(jīng)過努力回到狀態(tài)時,下一年經(jīng)過努力回到狀態(tài)1的概率為的概率為2/5,仍處于虧損狀態(tài)的概率為,仍處于虧損狀態(tài)的概率為3/5若公司現(xiàn)處于狀若公司現(xiàn)處于狀態(tài)態(tài)1,問經(jīng)過,問經(jīng)過n年后該公司處于狀態(tài)年后該公司處于狀態(tài)1和和2的概率各是多少?的概率各是多少? 解解: 顯然,系統(tǒng)有兩個狀態(tài),設(shè)顯然,系統(tǒng)有兩個狀態(tài),設(shè)S為狀態(tài)空間,則:為狀態(tài)空間,則:S=i, j=1, 2此處,此處,p11=1/2, p12=1/2, p2

51、1=2/5, p22=3/5因此因此 5352212122211211ppppP設(shè)設(shè)G(g1,g2),由,由GGP11.5馬爾可夫決策馬爾可夫決策 Markov Decision設(shè)設(shè)G(g1,g2),由,由GGP5352212122211211ppppP53522121),(),(2121gggg1,5321,522121212211gggggggg95,9421gg11.5馬爾可夫決策馬爾可夫決策 Markov Decision11.5.4 收益預測模型收益預測模型 ),(nnif 設(shè)系統(tǒng)在第設(shè)系統(tǒng)在第n個時期處于狀態(tài)個時期處于狀態(tài)X(n)=i,轉(zhuǎn)移到過程終結(jié)時的總期,轉(zhuǎn)移到過程終結(jié)時的總期

52、望收益為望收益為 , 2 , 1;, 2 , 1),(),(111nmijfrPifnjnnijijnnrij 表示從狀態(tài)表示從狀態(tài)X(n)=i 轉(zhuǎn)移到下一個狀態(tài)轉(zhuǎn)移到下一個狀態(tài)X(n+1)=j 相應(yīng)的收益,相應(yīng)的收益,則有:則有: n表示從第表示從第n個時期到過程終結(jié)的決策規(guī)則個時期到過程終結(jié)的決策規(guī)則的序列的序列 ,1nn),(1nnn其中其中n為第為第n個時期的決策規(guī)則,個時期的決策規(guī)則, 11.5馬爾可夫決策馬爾可夫決策 Markov Decisionq(i)表示由狀態(tài)表示由狀態(tài)i 作一次轉(zhuǎn)移的期望報酬,即狀態(tài)的即時期望報作一次轉(zhuǎn)移的期望報酬,即狀態(tài)的即時期望報酬則酬則 ), 2 ,

53、1()(1mjijijmirPiq),()(),(111mjnnijnnjfPiqif令令或或) 1()(1mjjijiinfPqnf11.5馬爾可夫決策馬爾可夫決策 Markov Decision若記數(shù)從末端開始,上式的逆序?qū)懛椋喝粲洈?shù)從末端開始,上式的逆序?qū)懛椋?)()()()(21nfnfnfnFmmqqqQ21mmmmmmPPPPPPPPPP212222111211則則 , 2 , 1) 1()(nnFPQnFQF) 1 (, 2 , 1;, 2 , 1) 1()(1nminfPqnfmjjijii11.7馬爾可夫決策馬爾可夫決策 Markov Decision11.7馬爾可夫決策

54、馬爾可夫決策 Markov Decision【例】商品的轉(zhuǎn)移概率矩陣和利潤表如下【例】商品的轉(zhuǎn)移概率矩陣和利潤表如下暢銷暢銷滯銷滯銷暢銷暢銷0.50.5滯銷滯銷0.40.6暢銷暢銷滯銷滯銷暢銷暢銷5010滯銷滯銷2020轉(zhuǎn)移概率表轉(zhuǎn)移概率表利潤表利潤表(萬元萬元)q1=0.550+0.51030, q2=0.420+0.6(20)4), 2 , 1()(1mjijijmirPiq, 2 , 1) 1()(nnFPQnF300.50.53043(2)40.40.645.6300.50.54354.3(3)40.40.65.616.56FFn123456f1(n)304454.365.4376.5

55、4387.6543f2(n)45.616.5627.65638.765649.87656期利潤預測期利潤預測11.5.5 最優(yōu)策略模型最優(yōu)策略模型 Markov決策由五重組來描述:決策由五重組來描述: 1. 狀態(tài)狀態(tài) i 2. 策略集策略集 ,狀態(tài),狀態(tài)i 的策略規(guī)則為的策略規(guī)則為 3. 轉(zhuǎn)移概率矩陣轉(zhuǎn)移概率矩陣P 4. 報酬,狀態(tài)報酬,狀態(tài)i 的策略規(guī)則為的策略規(guī)則為 轉(zhuǎn)移到狀態(tài)轉(zhuǎn)移到狀態(tài)j 的報酬為的報酬為 期望即時報酬為期望即時報酬為 5. 目標函數(shù)目標函數(shù)V(n),1nn)(i)(i)(iijr)(iiq11.5馬爾可夫決策馬爾可夫決策 Markov Decision Markov決策

56、(決策(MD)描述)描述 在某一時刻(階段)隨機變量在某一時刻(階段)隨機變量X處于狀態(tài)處于狀態(tài)i ,決策者選擇某個,決策者選擇某個策略使目標最優(yōu)。策略使目標最優(yōu)。MD常用的目標有常用的目標有3種:種: 1.有限階段目標;有限階段目標;2. 折扣目標;折扣目標;3.平均目標平均目標有限階段目標最大。通過有限階段目標最大。通過Z變換:變換:mifnPqnfPqnfmjjijimjjijii, 2 , 1) 1() 1()(1111.5馬爾可夫決策馬爾可夫決策 Markov DecisionMjjijiqsv1(1)(0)FTQSF( )iif nnvf記記11miijjijvnfpnvqf1mi

57、ijjijvfp fqi=1,2, ,m (11.18)解方程組求出變量解方程組求出變量 fi 與與 v 采用迭代計算:采用迭代計算:(1)選擇一個初始策)選擇一個初始策 ,每一個狀態(tài),每一個狀態(tài)i(i=1,2,m)選擇)選擇一個決策規(guī)則一個決策規(guī)則 使其決策使其決策 ,令,令n=0; n0)(nmf)()(iunkin(2) 對已知策略,令對已知策略,令 ,求解方程組,求解方程組(11.18),得相應(yīng)的,得相應(yīng)的策略獲利策略獲利v(n)和相對值和相對值 f(n),(,(i=1,2,m;n=0,1,2);); 11.5馬爾可夫決策馬爾可夫決策 Markov Decision(3)應(yīng)用上一策略已

58、求得的)應(yīng)用上一策略已求得的 ,尋求一個新的策略規(guī)則,尋求一個新的策略規(guī)則 n+1,對每一個狀態(tài),對每一個狀態(tài)i,使,使 )(nmf11( )( )( )1maxnnmiiniijjijvqpff由此得新的策略由此得新的策略 1n(4)若所得策略)若所得策略 與前次迭代所得策略與前次迭代所得策略 完全相等,則完全相等,則停止迭代,已得到了最優(yōu)策略;否則回到步驟停止迭代,已得到了最優(yōu)策略;否則回到步驟2,令,令n=n+1 1nn11.5馬爾可夫決策馬爾可夫決策 Markov Decision【例【例11.12】某水泥廠有一臺窯爐處于兩種運行狀態(tài),即運轉(zhuǎn)和】某水泥廠有一臺窯爐處于兩種運行狀態(tài),即運轉(zhuǎn)和故障,窯爐工人每年定期檢查設(shè)備一次若窯爐正常則選擇維故障,窯爐工人每年定期檢查設(shè)備一次若窯爐正常則選擇維護或不維護;若窯爐故障則選擇大修或常規(guī)維修,其轉(zhuǎn)移概率護或不維護;若窯爐故障則選擇大修或常規(guī)維修,其轉(zhuǎn)移概率與相應(yīng)的報酬如下表,試求該廠應(yīng)采取的最佳策略使在無限期與相應(yīng)的報酬如下表,試求該廠應(yīng)采取的最佳策略使在無限期的未來每年所獲平均收入最大的未來每年所獲平均收入最大 表表11 .12 轉(zhuǎn)移概率和報酬轉(zhuǎn)移概率和報酬)()(ivKi iip1 iip2 2iir 1iir)(iiq狀態(tài)狀態(tài)I決決 策策轉(zhuǎn)移概率轉(zhuǎn)移概率報報 酬酬期望期望即時報酬即時報酬1運轉(zhuǎn)運轉(zhuǎn)1.(不維護不維護)2.(維

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論