版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1第二章
貝葉斯決策理論
§2.1基于最小錯誤率的貝葉斯判別法§2.2基于貝葉斯公式的幾種判別規(guī)則§2.3正態(tài)分布模式的統(tǒng)計決策§2.4概率密度函數(shù)的估計§2.5貝葉斯分類器的錯誤概率2§2.3正態(tài)分布模式的統(tǒng)計決策
一、正態(tài)分布判別函數(shù)
1、為什么采用正態(tài)分布:
a、正態(tài)分布在物理上是合理的、廣泛的。
b、正態(tài)分布數(shù)學(xué)上簡單,N(μ,σ2)只有均值和方差兩個參數(shù)。
2、單變量正態(tài)分布:
33、(多變量)多維正態(tài)分布(1)函數(shù)形式:456(2)、性質(zhì):
①、μ與∑對分布起決定作用P(χ)=N(μ,∑),μ由n個分量組成,∑由n(n+1)/2元素組成(對稱獨立元素)?!喽嗑S正態(tài)分布由n+n(n+1)/2個參數(shù)組成。
②、等密度點的軌跡是一個超橢球面。區(qū)域中心由μ決定,區(qū)域形狀由∑決定。③、不相關(guān)性等價于獨立性。若xi與xj互不相關(guān),則xi與xj一定獨立。④、線性變換的正態(tài)性Y=AX,A為線性變換矩陣。若X為正態(tài)分布,則Y也是正態(tài)分布。⑤、線性組合的正態(tài)性。74、判別函數(shù):類條件概率密度用正態(tài)來表示:5、決策面方程:8二、最小錯誤率(Bayes)分類器:從最小錯誤率這個角度來分析Bayes分類器1.第一種情況:各個特征統(tǒng)計獨立,且同方差情況。(最簡單情況)判別函數(shù):9
最小距離分類器:未知x與μi相減,找最近的μi把x歸類如果M類先驗概率相等:1011討論:二類情況下i=1,212未知x,把x與各類均值相減,把x歸于最近一類。最小距離分類器。2、第二種情況:Σi=
Σ相等,即各類協(xié)方差相等。1314討論:針對ω1,ω2二類情況,如圖:153、第三種情況(一般情況):Σ?為任意,各類協(xié)方差矩陣不等,二次項xT
Σ?x與i有關(guān)。所以判別函數(shù)為二次型函數(shù)。1617第四節(jié)概率密度函數(shù)的估計
意義:
貝葉斯決策分類器大都涉及類概率密度函數(shù),對于正態(tài)分布模式,其概率密度函數(shù)可通過均值向量和協(xié)方差矩陣的估算而確定。在無法用參數(shù)表征概率密度函數(shù)時,則可以通過某些函數(shù)來近似地表示。
概率密度函數(shù)估計是為貝葉斯決策分類器確定條件.18貝葉斯分類器中只要知道先驗概率,條件概率或后驗概概率P(ωi),P(x/ωi),P(ωi/x)就可以設(shè)計分類器了?,F(xiàn)在來研究如何用已知訓(xùn)練樣本的信息去估計P(ωi),P(x/ωi),P(ωi/x)
參數(shù)估計與非參數(shù)估計參數(shù)估計:先假定研究的問題具有某種數(shù)學(xué)模型,如正態(tài)分布,二項分布,再用已知類別的學(xué)習(xí)樣本估計里面的參數(shù)。非參數(shù)估計:不假定數(shù)學(xué)模型,直接用已知類別的學(xué)習(xí)樣本的先驗知識直接估計數(shù)學(xué)模型。方法:19
監(jiān)督學(xué)習(xí)與非監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí):在已知類別樣本指導(dǎo)下的學(xué)習(xí)和訓(xùn)練,參數(shù)估計和非參數(shù)估計都屬于監(jiān)督學(xué)習(xí)。非監(jiān)督學(xué)習(xí):不知道樣本類別,只知道樣本的某些信息去估計,如:聚類分析。20一、均值向量和協(xié)方差矩陣的參數(shù)估計
將參數(shù)作為隨機參數(shù)看待時的估計量算法一般以模式樣本的平均作為均值向量的近似值。設(shè)某類的模式樣本數(shù)為N,其均值向量估計量為協(xié)方差矩陣C寫成向量形式為
21其無偏估計量為
而有偏估計量為22二、概率密度函數(shù)的函數(shù)近似
當(dāng)無法用參數(shù)表征概率密度函數(shù)時,則需要選取某種基函數(shù)作近似估計。以P(X)表示以作為的估計,采取最小二乘估計方法,使估計函數(shù)與的均方誤差函數(shù)R最小。將寫成m項展開式則:23選擇使誤差函數(shù)R最小,即取偏微分式中右邊為的數(shù)學(xué)期望,可用N個樣本的均值來近似故:一般選擇正交函數(shù)集作為基函數(shù),故有:24∴系數(shù):當(dāng)基函數(shù)正交歸一時,則對所有k,有。由于與k無關(guān),且可以認(rèn)為對所有,,則:求得所有系數(shù)后,根據(jù)得到概率密度函數(shù),作為對的估計。25例:如圖所示為兩個類別的模式分布,現(xiàn)通過這些訓(xùn)練樣本估計兩類概率密度函數(shù),借以得到貝葉斯分類器。
解:類概率密度函數(shù)以m項基函數(shù)的多項式來近似:
由于基函數(shù)必須在模式定義域內(nèi)正交,故選擇埃爾米特函數(shù),因為其正交域在內(nèi),該函數(shù)一維形式的前幾項為:26對于類:
27
為類的模式樣本數(shù)目,m=4,K=1時系數(shù)為:用同樣的方法計算類概率密度函數(shù)近似展開式系數(shù),有:
28所以:
貝葉斯分類器設(shè)計:判別界面為:
29三、后驗概率的函數(shù)估計
利用后驗概率的貝葉斯判別函數(shù):關(guān)鍵是估計后驗概率密度函數(shù):
按照選取基函數(shù)的方法來逼近,則可以建立如下形式的判別函數(shù):目的:用來近似。30采取線性逼近方法,將式簡化為:定義一個隨機變量使其取值作為的帶噪聲的觀察值,即為噪聲因子,其數(shù)學(xué)期望值為零。有用來近似未知的。把它代入準(zhǔn)則函數(shù),即可采取梯度法求解權(quán)向量。31取準(zhǔn)則函數(shù)為:32此方法迭代的每一步都必須校正權(quán)向量,每一步的校正值正比于增量因子故稱為增量校正算法。當(dāng)全部訓(xùn)練模式通過迭代都能被正確分類時,就可以認(rèn)為權(quán)向量收斂于正確的解。M個類別有M個權(quán)向量,須分別迭代求解。解算出權(quán)向量之后,就可以將x作為的近似函數(shù),即有:33例:取下圖中的模式樣本,用增量校正算法來迭代求解近似判別函數(shù)中的權(quán)向量,以確定基于后驗概率的判別函數(shù)。
解:首先寫出訓(xùn)練樣本的增廣向量:令:于是:3435如此迭代下去,當(dāng)K=15時,利用已能對全部樣本正確地進(jìn)行分類,說明權(quán)向量的解為:按理,還須對類判別函數(shù)的權(quán)向量迭代求解,由于是兩類問題,當(dāng)已經(jīng)有了近似函數(shù)式,即的近似函數(shù)式已經(jīng)求得時,即可根據(jù)以下判別規(guī)則對兩類模式進(jìn)行分類36四、均值向量和協(xié)方差矩陣的貝葉斯估計將概率密度函數(shù)的參數(shù)估計量看成是隨機量,根據(jù)這些估計量統(tǒng)計特性的先驗知識,先粗略地給出這些估計量的密度函數(shù),再通過訓(xùn)練模式樣本集,利用貝葉斯公式通過迭代運算過程求出參數(shù)的后驗概率密度。37設(shè)為N個用于估計未知參數(shù)的密度函數(shù)的樣本,利用貝葉斯定理,可以得到在逐一給定了之后的條件密度函數(shù)的迭代公式:對于,是它的先驗概率密度。加入新的樣本后,得到新的概率密度。
應(yīng)是最早的先驗概率密度。當(dāng)給出第一個樣本,按貝葉斯定理計算,就得到后驗率密度。將作為下一步計算的先驗概率密度,讀入樣本,又得到后驗概率密度,……依此可以算出最后的值。38單變量正態(tài)密度函數(shù)的均值估計法若一模式樣本集的類概率密度函數(shù)為單變量正態(tài)分布,其中已知,均值待求,即:給定N個訓(xùn)練樣本,最初的先驗概率密度為,是根據(jù)先驗知識對的推測,其不確定性由表示。由于均值的估計量是樣本的線性函數(shù),而樣本是正態(tài)分布,所以應(yīng)為正態(tài)。39由初始條件:根據(jù)貝葉斯法則:40每一次迭代運算從樣本子集中逐一給出一個樣本,N次運算獨立地給出N個樣本,因此:式中與無關(guān)的因子和均并入常數(shù)項。
41
是平方函數(shù)的指數(shù)函數(shù),仍為正態(tài)密度函數(shù),可將它寫成,即:
42由訓(xùn)練樣本集,求得均值的后驗概率密度為。
:根據(jù)N個樣本對均值的估計,是先驗信息()與訓(xùn)練樣本的信息(上式中的)相結(jié)合的結(jié)果,是利用N個訓(xùn)練樣本信息對均值先驗估計的補充。是對這個估計的不確定性的度量。時→0。是和的線性組合,兩者的系數(shù)非負(fù),其和為1,故值在和之間。只要,當(dāng)時,趨于樣本均值的估計量。圖2-4-3是一正態(tài)密度的均值學(xué)習(xí)過程,每增加一次樣本,都減小對的估計的不確定性,隨著樣本的增加其曲線愈顯“尖銳”,均值與估計量之間的偏差的絕對值亦愈來愈小。43上述方法的目的,是為了通過N個訓(xùn)練樣本來估計模式樣本的類概率密度函數(shù)。由于上述兩個正態(tài)密度函數(shù)之積對的積分結(jié)果也是正態(tài)密度函數(shù),即:在采用訓(xùn)練樣本之前,均值未知,經(jīng)過采用N個樣本進(jìn)行估計之后,概率密度函數(shù)為,獲得了均值值的估計,同時原來的方差也作了修正;成為
44§2.5
貝葉斯分類器的錯誤概率
一般來說,任何判別規(guī)則都不能得到完全正確的分類,為了評價一種判別規(guī)則,需要計算將屬于某一類的模式錯分到另一類去的概率。
451、一般錯誤率分析:46472、正態(tài)分布最小錯誤率(在正態(tài)分布情況下求最小錯誤率)4849在實際工作中如果使用數(shù)量有限的訓(xùn)練樣本集,既作為設(shè)計分類器的訓(xùn)練樣本,又用它來檢驗分類器的錯誤概率,通常采用兩種方式:一種方式稱為樣本劃分法。將訓(xùn)練樣本分成兩組,用其中一組來設(shè)計分類器,用另一組檢驗分類器,求其錯誤概率。再采用不同的樣本分法,可得不同的錯誤概率,取其平均值作為錯誤概率的估計。另一種方式是留一個出來法。每次留下N個樣本中的一個,用其余N-1個樣本來設(shè)計分類器,用留下的那個樣本進(jìn)行檢驗,這樣重復(fù)進(jìn)行N次。每次留下的應(yīng)是不同的一個樣本。根據(jù)N次檢驗中判別錯誤的樣本數(shù)目,就能得出錯誤概率的估計值。50附:Bayes分類的算法(假定各類樣本服從正態(tài)分布)1.輸入類數(shù)M;特征數(shù)n,待分樣本數(shù)m.2.輸入訓(xùn)練樣本數(shù)N和訓(xùn)練集資料矩陣X(N×n)。并計算有關(guān)參數(shù)。3.計算矩陣y中各類的后驗概率。4.若按最小錯誤率原則分類,則可根據(jù)3的結(jié)果判定y中各類樣本的類別。5.若按最小風(fēng)險原則分類,則輸入各值,并計算y中各樣本屬于各類時的風(fēng)險并判定各樣本類別。51例1、有訓(xùn)練集資料矩陣如下表所示,現(xiàn)已知,N=9、N1=5、N2=4、n=2、M=2,試問,X=(0,0)T應(yīng)屬于哪一類?訓(xùn)練樣本號k123451234特征x1特征x2110-1-1
010-1
01110-1-2-2-2類別ω1
ω
252解1、假定二類協(xié)方差矩陣不等(∑1≠∑2)則均值:535455解2、假定兩類協(xié)方差矩陣相等∑=∑1+∑256訓(xùn)練樣本號k123123123特征x1012-2-1-201-1特征x210-110-1-1-2-2類別ω1ω2ω3解1、假定三類協(xié)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度程海保護(hù)區(qū)域生物多樣性保護(hù)合同
- 2024上海市環(huán)保工程項目合同
- 2024年數(shù)據(jù)中心機柜分租合同
- 2024年建筑聯(lián)盟:合作伙伴合同書
- 2024年影視制作拍攝合同
- 2024年房屋買賣合同延期規(guī)定
- 2024年搬家貨運服務(wù)協(xié)議
- 2024年新型基礎(chǔ)設(shè)施建設(shè)合同
- DB4117T 219-2019 鳊魚養(yǎng)殖技術(shù)規(guī)程
- DB4106T 103-2023 麥套辣椒生產(chǎn)技術(shù)規(guī)程
- 某集團(tuán)公司戰(zhàn)略地圖
- 《線性代數(shù)》教案完整版教案整本書全書電子教案
- 旅游管理信息系統(tǒng)教材課件匯總完整版ppt全套課件最全教學(xué)教程整本書電子教案全書教案合集最新課件匯編
- 三年級下冊美術(shù)課件-第4課 瓜果飄香丨贛美版
- 綠電制綠氫及其綜合利用技術(shù)PPT
- JJG646-2006移液器檢定規(guī)程-(高清現(xiàn)行)
- 【課題研究】-《普通高中英語閱讀課文教學(xué)研究》結(jié)題報告
- 嚴(yán)重精神障礙管理工作規(guī)范課件(PPT 39頁)
- 羊常見普通病類型和防治
- 梁板柱同時澆筑及方案
- 溝槽開挖支護(hù)專項施工方案(46頁)
評論
0/150
提交評論