![人工智能 16章制定簡單決策_第1頁](http://file4.renrendoc.com/view/2b2e2a7b254a9d43e2707a15fdf738bd/2b2e2a7b254a9d43e2707a15fdf738bd1.gif)
![人工智能 16章制定簡單決策_第2頁](http://file4.renrendoc.com/view/2b2e2a7b254a9d43e2707a15fdf738bd/2b2e2a7b254a9d43e2707a15fdf738bd2.gif)
![人工智能 16章制定簡單決策_第3頁](http://file4.renrendoc.com/view/2b2e2a7b254a9d43e2707a15fdf738bd/2b2e2a7b254a9d43e2707a15fdf738bd3.gif)
![人工智能 16章制定簡單決策_第4頁](http://file4.renrendoc.com/view/2b2e2a7b254a9d43e2707a15fdf738bd/2b2e2a7b254a9d43e2707a15fdf738bd4.gif)
![人工智能 16章制定簡單決策_第5頁](http://file4.renrendoc.com/view/2b2e2a7b254a9d43e2707a15fdf738bd/2b2e2a7b254a9d43e2707a15fdf738bd5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
在不確定環(huán)境下結(jié)合信念與愿望Result(a):表示動作a被執(zhí)行的輸出結(jié)果。P(Result(a)=s'/a,e)表示給定狀態(tài)e,輸出s'的概率。效用函數(shù)U(s)是一個數(shù)值,表達對某個狀態(tài)的滿意度。期望效用函數(shù)是輸出結(jié)果的加權(quán)平均效用值,其中權(quán)值是輸出結(jié)果的發(fā)生概率最大化期望效用原則認為,理性的智能體Agent應(yīng)該能選擇能夠最大化Agent期望效用行為:
效用理論基礎(chǔ)直觀上,最大效用原則(MEU)看起來是制定決策的合理方法,但不能說它明顯是唯一的理性方法。畢竟,為什么應(yīng)該最大化平均效用?為什么不最大化所以可能效用的加權(quán)立方和?或者為什么不嘗試最少化最壞的可能損失?為什么效用函數(shù)一定存在?
效用函數(shù)效用是從一個抽獎映射到實數(shù)的函數(shù)。所有理性的Agent必須遵守關(guān)于效用的公理,也可以說一個Agent可以擁有它喜歡的任何偏好。例如:一個Agent可能偏好在其銀行賬戶上的存款的美元數(shù)位質(zhì)數(shù),這種情況下,如果它有16美元,它將送出3美元,這肯定是不正常的,但不能說它不理性。一個Agent可能偏好一輛有凹陷的1973福特汽車甚于一輛嶄新的奔馳汽車。效用尺度效用沒有絕對的尺度,但建立某種尺度,用這個尺度記錄和比較任何特定問題的效用是有幫助的。我們固定“最好的可能獎勵”的效用為和“最壞的可能災(zāi)難”的效用為歸一化效用使其具有和的尺度。如何根據(jù)效用尺度來確定所有抽獎的效用給定一個和之間的效用尺度,通過讓Agent在S和標(biāo)準抽獎之間選擇,我們可以評估任何特定獎勵S的效用。通過調(diào)節(jié)概率p直到Agent對S和這個標(biāo)準抽獎沒有偏向性。假設(shè)在歸一化效用下,S的效用是p,一旦每個獎勵的效用確定了,涉及這些獎勵的所有抽獎的效用也確定了。QALY(質(zhì)量調(diào)整壽命年)效用的另一個尺度QALY,等價于身體健康不衰減的一年。有殘疾的病人愿意恢復(fù)到完全健康而愿意縮短預(yù)期壽命。例如:患腎病的病人對“在透析機上生活兩年”于“完全健康地生活一年”之間沒有偏向性。金錢的效用經(jīng)濟學(xué)位效用度量提供了一個明顯的候選:金錢。假設(shè)你在一個電視游戲節(jié)目中擊敗了其余競爭者。主持人現(xiàn)在給你一個選擇:你可以拿走1000000美元的獎金,或者你可以扔硬幣賭一次,如果硬幣正面朝上,你的結(jié)局一無所獲,但是如果硬幣正面朝下,你最終得到2500000美元。如果你像大多數(shù)人一樣,你會拒絕賭博而拿走這一百萬。你這是不理性的嗎?假設(shè)硬幣是公正的,該賭博的期望貨幣價值(EMV)是(0.5(£0)+0.5(£2500000))=£1250000,這比原始獎金一百萬多,但并不意味著接受這一賭博是一個更好的決策,假設(shè)我們用Sn表示擁有總共n美元的財富狀態(tài),而你當(dāng)前的財富是K美元,那么,接受和拒絕賭博的兩個行動的期望效用是:為了決定該做什么,我們需要改結(jié)果狀態(tài)分配效用。假設(shè)你給當(dāng)前的財富狀況分配一個效用值5,給定狀態(tài)分配效用值9,給狀態(tài)分配效用值8.那么,理性的行動是拒絕賭博,但可能一個千萬富翁可能接受此次賭博。曲線的正值部分的斜率是遞減的,那么對于任意抽獎L,“面對這次抽獎”的效用少于“把這次抽獎的期望貨幣價值當(dāng)做確定的東西給你”的效用:有此形狀的智能體是規(guī)避風(fēng)險的:它們偏好比賭博的期望貨幣價值小的確定收益。另一方面,在大多數(shù)額負財產(chǎn)的“絕望”區(qū)間,Agent的行為追求風(fēng)險。一個Agent能接收的代替某次抽獎的價值被稱為這次抽獎的確定性等價物。研究表明大部分人會接受用40美元代替一次有一半的機會贏得100美元的賭博。期望效用與后決策失望選擇最佳行為a的理性方式是最大化期望效用:實際的期望效用:真實期望效用的估計值
假設(shè)這個估計值是無偏估計,也就是說誤差的期望值是0.樂觀者報應(yīng)
人類評價和非理性決策理論是一種規(guī)劃性理論:它描述了一個理性的Agent應(yīng)該如何行動。另一方面,一種描述性理論,描述了實際的Agent——例如人類——真正會如何行動。兩者是不一致的。實際表明人類“有先兆地非理性”。最有名的問題是Allais悖論。人們在兩次抽獎A和B之間選擇,然后在C和D之間選擇,它們的獎勵是:A:80%的機會獲得400美元B:100%的機會獲得300美元C:20%的機會獲得4000美元D:25%的機會獲得3000美元確定性效應(yīng)Ellsberg悖論,這里,獎勵是固定的,但概率是無限定的。你的工資降依賴從缸里選擇的球的顏色。有人告訴你缸里有1/3的球是紅色,剩下的2/3的球是黑色或黃色,但你不知道有多少黑球和多少黃球。你愿意選A還是B,愿意選C還是D。A:取到紅球得100美元B:取到黑球得100美元C:取到紅球或者黃球得100美元D:取到黑球或者黃球得100美元多屬性效用函數(shù)確定一座新機場的位置需要考慮到施工造成的破壞,土地價格,離人口中心的距離,飛機操作的噪音等等。決定允許發(fā)電廠排放什么級別的有害物時,制定者必須在預(yù)防死亡和殘疾與電力帶來的好處以及減少排放帶來的經(jīng)濟負擔(dān)之間進行權(quán)衡。類似這類問題——其結(jié)果由兩個或者更多屬性來刻畫——是用多屬性效應(yīng)理論處理優(yōu)勢假設(shè)機場位置S1費用較少,產(chǎn)生較少的噪音污染,并且比位置S2安全。那么稱S1比S2有嚴格優(yōu)勢。隨機優(yōu)勢假設(shè)我們將機場選址定在S1的費用均勻分布在28億美元到48億美元之間,而選址定在S2的費用均勻分布在30億美元到52億美元之間。圖a中畫出S1,S2分布,給定效用隨費用減少而減少的信息。S1比S2具有隨機優(yōu)勢。累計分布:度量的是費用少于或者等于任何給定量的概率。
也就是對原始分布進行積分,如圖b,S1和S2的累計分布。隨機優(yōu)勢的定義:如果兩個行動A1和A2在屬性X上導(dǎo)致概率分布p1(x)和p2(x),當(dāng)下式成立時,在X上A1比A2有隨機優(yōu)勢。偏好結(jié)構(gòu)和多屬性效用Agent的效用方程:希望其中f是一個像加法這樣的簡單函數(shù)。確定性的偏好偏好獨立:如果結(jié)果和之間的偏好不依賴于屬性X3的特殊值x3,則稱屬性X1和X2偏好獨立于第三個屬性X3。例如:機場選址,考慮三個屬性Noise,Cost和Deaths,有人可能提出Noise和Cost偏好獨立于Deaths。當(dāng)安全級別是每百萬乘客英里死亡0.06人時,我們偏好一個有20000人居住在航線上,機場建筑費位40億美元的狀態(tài),甚于另一個有70000人居住在航線上,機場建設(shè)費位37億美元的狀態(tài),那么當(dāng)安全級別是0.12和0.01時,我們將有相同的偏好。如果屬性X1,...Xn偏好相互獨立,那么該Agent的偏好行為可以被描述為最大化函數(shù)不確定性偏好效用獨立:如果對屬性集X中的屬性的抽獎之間的偏好獨立于Y中的屬性的具體指,成屬性集X效用獨立于屬性集Y。相互效用獨立:如果每個子集都效用獨立于其余的屬性。如果一個Agent的屬性滿足相互效用獨立,那么效用函數(shù)可以表示為:決策網(wǎng)絡(luò)機會節(jié)點:(橢圓)代表隨機變量。決策節(jié)點:(矩形)代表在節(jié)點上決策制定者有一個對行動的選擇。效用節(jié)點:(菱形)代表Agent的效用函數(shù)。信息價值假設(shè)一個石油公司想要購買不可區(qū)分的n塊海洋開采權(quán)中的一塊,我們假設(shè)僅有一塊含有價值C美元的石油,其他塊是沒有價值的,每塊的標(biāo)價是C/n美元?,F(xiàn)假設(shè)一個地震學(xué)家為該公司提供對第三塊的調(diào)查結(jié)果,結(jié)果明確指出這塊海洋是否含有石油。該公司愿意為這個信息支付多少費用?調(diào)查結(jié)果以1/n的概率指出第三塊海洋中含有石油,在含石油的情況下,該公司將會以C/n美元買下第三塊海洋開采權(quán),獲利C-C/n=(n-1)C/n美元。調(diào)查結(jié)果以(n-1)/n的概率指出第三塊海洋不含石油,在不含石油的情況下,該公司將買不同的另一塊,在其余中的另一塊內(nèi)發(fā)現(xiàn)石油的概率從1/n變成1/(n-1),所以該公司的期望獲利是C/(n-1)-C/n=C/n(n-1)美元。期望利潤:因此,該公司愿意為這個信息支付最多C/n美元給地震學(xué)家。一條給定信息的價值:獲得該信息之前和之后的最佳行動的期望價值之間的差。通用公式完全信息價值(VPI)考慮只有兩個行動a1和a2可供選擇的簡單情況,兩個行動的當(dāng)前期望效用U1和U2,信息將為行為產(chǎn)生新的期望效用和。假設(shè)a1和a2代表在冬天里穿過山區(qū)的兩條不同路徑,a1是一條路況較好的筆直的高速公路,a2是一條翻越山頂?shù)膹澢哪喟吐?,只給定這個信息,期望效用U1明顯高于U2,獲取關(guān)于每條道路真是狀態(tài)的衛(wèi)星報告Ej是可能,這將提供關(guān)于兩條穿越途徑的新期望和。如果a1和a2的效用函數(shù)的分布情況如圖(a)。信息收集Agent的實現(xiàn)一個明智的Agent應(yīng)該按照合理的次序問問題,應(yīng)該避免問無關(guān)問題。假設(shè)對于每個可觀察到的證據(jù)變量,有一個相關(guān)的代價,基于單位價值的效用,Agent請求得到那條最有價值的信息。決策
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- DB6528T 205-2024棉花輕簡化栽培技術(shù)規(guī)程
- 臨時用地開發(fā)合同范本
- 三人合伙經(jīng)營投資合同:簡化版
- 中外合作勞動合同模板
- 個人品牌店鋪租賃合同標(biāo)準范本
- 個人創(chuàng)業(yè)貸款合同細則
- 中外原材料供應(yīng)合同范本示例
- 臨時場地租賃合同范例集錦
- 臨時工勞動合同范文及合同條款
- 個人與個人借款合同示范文本
- 醫(yī)務(wù)科運用PDCA循環(huán)提高門診醫(yī)生準時出診率PDCA成果匯報
- 年產(chǎn)10噸功能益生菌凍干粉的工廠設(shè)計改
- 模具生產(chǎn)車間員工績效考核表模板
- WORD2010第三講:文檔的格式化
- GB/T 17387-1998潛油電泵裝置的操作、維護和故障檢查
- GB∕T 41461-2022 自助銀行網(wǎng)點服務(wù)要求
- 學(xué)校委托管理協(xié)議書范本
- 重醫(yī)大《護理學(xué)導(dǎo)論》期末試卷(兩套)及答案
- 部編新教材人教版七年級上冊歷史重要知識點歸納
- 重點時段及節(jié)假日前安全檢查表
- 建筑樁基技術(shù)規(guī)范2018年
評論
0/150
提交評論