![模式識別第六講-概率密度估計_第1頁](http://file4.renrendoc.com/view/8dae22b7d5356975b0f61cb47d519ad1/8dae22b7d5356975b0f61cb47d519ad11.gif)
![模式識別第六講-概率密度估計_第2頁](http://file4.renrendoc.com/view/8dae22b7d5356975b0f61cb47d519ad1/8dae22b7d5356975b0f61cb47d519ad12.gif)
![模式識別第六講-概率密度估計_第3頁](http://file4.renrendoc.com/view/8dae22b7d5356975b0f61cb47d519ad1/8dae22b7d5356975b0f61cb47d519ad13.gif)
![模式識別第六講-概率密度估計_第4頁](http://file4.renrendoc.com/view/8dae22b7d5356975b0f61cb47d519ad1/8dae22b7d5356975b0f61cb47d519ad14.gif)
![模式識別第六講-概率密度估計_第5頁](http://file4.renrendoc.com/view/8dae22b7d5356975b0f61cb47d519ad1/8dae22b7d5356975b0f61cb47d519ad15.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第三章概率密度函數(shù)的估計
1前一章我們討論了各種決策規(guī)則,在設(shè)計分類器時,總是假定先驗概率和類條件密度函數(shù)是已知的。在實際工作中,先驗概率和類條件密度函數(shù)都可能未知。2利用樣本設(shè)計分類器的方法有兩種:從樣本中估計先驗概率和類條件密度函數(shù),然后設(shè)計Bayes分類器2)不作估計,直接利用樣本設(shè)計分類器
在用第一種方法時,需要從收集的樣本中去估計先驗概率和類條件密度函數(shù)。這就要用到估計理論。討論如何估計(估計的方法),估計的好壞。3從樣本中估計概率密度函數(shù)時,有以下一些情況:概率密度估計參數(shù)估計(分布形式已知,但參數(shù)要估計)非參數(shù)估計(分布形式未知,直接估計密度函數(shù))最大似然估計(把待估參數(shù)看作是確定的)貝葉斯估計(把待估參數(shù)看作是隨機(jī)的)43.1常數(shù)參數(shù)的估計
一般要估計的參數(shù)可能是標(biāo)量、向量、矩陣。不失一般性,假定待估參數(shù)是向量。在最大似然估計中,把待估參數(shù)看作是確定的常數(shù)。而貝葉斯估計則把看作是隨機(jī)變量,它的先驗密度是已知的。5一.最大似然估計
令是隨機(jī)向量x的密度函數(shù)中的向量參數(shù)(其分量是標(biāo)量)。記x的密度函數(shù)為,令是觀測x所得到的N個樣本。在估計問題中,這些樣本本身也是隨機(jī)變量,可以用一個聯(lián)合密度函數(shù)表示。假定這些樣本是獨(dú)立的。是的函數(shù)。它是的似然函數(shù)。6只要導(dǎo)數(shù)存在,使似然函數(shù)最大的可以通過解下面的似然方程或?qū)?shù)似然方程得到:的最大似然估計是,在N個觀測樣本的基礎(chǔ)上,選擇這樣的,它使似然函數(shù)最大。換句話說,選擇的應(yīng)使落在(樣本)的附近小區(qū)域內(nèi)的概率最大。N個觀測樣本7由于對數(shù)函數(shù)是單調(diào)增的,所以這兩個方程完全是等價的。哪個用時方便,就用哪個。例1:計算機(jī)通道輸出請求出現(xiàn)率的估計假定計算機(jī)的某一通道輸出請求的時間間隔T按如下的指數(shù)函數(shù)分布:假定觀察了N個請求,間隔時間為,希望估計參數(shù)的大小(稱為到達(dá)率、出現(xiàn)率)8解:輸出請求間的間隔假定為獨(dú)立的。似然函數(shù)(聯(lián)合密度函數(shù))為而(對數(shù)似然方程)
∴9例2:多元正態(tài)密度函數(shù)均值的估計。(上面的例子估計了一個標(biāo)量參數(shù),本例估計一個向量參數(shù)。)已知隨機(jī)向量x是正態(tài)分布的,協(xié)方差矩陣K已知,均值m未知。給出N個樣本x(1)
,x(2)
,…,x(N)
,求均值的最大似然估計。解:似然函數(shù)是樣本的聯(lián)合密度函數(shù)10對數(shù)似然函數(shù)為樣本聯(lián)合密度函數(shù)的對數(shù):將上式對m求導(dǎo)并令它等于0,有∵K是一個常數(shù)矩陣,∴即均值的最大似然估計等于樣本均值。113.2貝葉斯估計
最大似然估計把待估參數(shù)看作確定的量。貝葉斯估計和貝葉斯決策是一樣的思路。一.貝葉斯估計
如果對待估參數(shù)有一些先驗知識,這時可以把待估參數(shù)看作一個隨機(jī)向量,用一個密度函數(shù)來刻畫,那么這時可以使用貝葉斯估計。12引入一個連續(xù)的損失函數(shù),定義條件風(fēng)險為:而13使最小的估計稱貝葉斯估計。是一樣的。用符號“”是為了表示是一個隨機(jī)向量。14二.常用的損失函數(shù),均方估計和最大后驗估計
為了求貝葉斯估計,我們需要先定義(先給出)損失函數(shù)的形式。不同的損失函數(shù)會帶來不同的貝葉斯估計值。下面分析兩種常用的損失函數(shù)的形式。平方誤差損失函數(shù)和均方估計
,誤差的二次函數(shù)15而為了得到使最小的,只要∴即估計是的后驗密度的均值。這個估計稱為均方估計,因為它使均方誤差最小。16求解均方估計的步驟可以歸納如下:確定的先驗分布;求而利用貝葉斯公式,求的后驗分布由樣本集,求聯(lián)合分布;17均勻損失函數(shù)和最大后驗估計
損失函數(shù)為當(dāng)時,當(dāng)時,這時18區(qū)域是,任意小,這樣,為使最小,積分項應(yīng)最大。而積分項,所以應(yīng)使最大,稱為最大后驗估計。由貝葉斯公式如果先驗概率是均勻的(在感興趣區(qū)),這時最大等價于最大。這時最大后驗估計即最大似然估計。19例5:正態(tài)分布均值的貝葉斯估計令x(1)
,x(2)
,…,x(N)是從已知協(xié)方差矩陣Kx和未知均值m的正態(tài)分布中抽取的。假定均值本身的分布為正態(tài)N(m0,Km)分布(先驗密度)利用貝葉斯公式,可得后驗密度,是正態(tài)的,其均值為20當(dāng)都是一維時有:由于既是后驗密度的均值,也是后驗密度的最大值,所以既是均方估計也是最大后驗估計2122樣本均值和先驗均值的線性組合,系數(shù)和為1,且都是正的。23當(dāng)N=0時,全部由先驗均值定當(dāng)時,由樣本均值定當(dāng)樣本足夠多時,對、m0
的假設(shè)就不重要了,當(dāng)時,先驗信息非??煽?,由先驗均值定當(dāng)時,先驗的推測不可靠,由樣本均值定24這節(jié)討論直接從樣本中估計密度函數(shù)的方法。主要介紹兩種方法:3.3概率密度函數(shù)估計的非參數(shù)方法(非參數(shù)估計)前兩節(jié)講的參數(shù)估計方法要求(假定)密度函數(shù)的形式是已知的。但實際工作中往往是:密度函數(shù)的形式不知道;密度函數(shù)的形式不是典型的常見分布,不能寫成某些參數(shù)的函數(shù)。25一.Parzen窗估計Parzen窗法KN近鄰法基本思路(以一維隨機(jī)變量的密度函數(shù)的估計為例)對隨機(jī)變量x,假定得到了N個獨(dú)立的樣本,x(1),x(2),…,x(N),它的密度函數(shù)p(x)可以用一個直方圖近似,每一小區(qū)間的寬度為,中點為。26樣本落在小區(qū)間內(nèi)的概率可以近似為如果樣本數(shù)足夠多,則概率(上述事件)可以用頻率()近似。所以密度可以用近似。27把上述的思路一般化,定義如下的窗函數(shù):
則是以為中心的x的函數(shù)。對落在內(nèi)的樣本,其函數(shù)值均為,對落在方窗外的樣本,函數(shù)值為0。28這時一個樣本貢獻(xiàn),共有K個,換個角度,即是N個窗的迭加。函數(shù)r稱為核函數(shù),勢函數(shù)或者Parzen窗函數(shù)。核函數(shù)(窗函數(shù))也可以是其它的形狀,常用的有2930矩形窗估計出的容易產(chǎn)生不連續(xù),而高斯窗估計出的要平滑些。為了滿足使估計出的是正的,而且積分為1(是密度函數(shù)),窗函數(shù)要滿足:31下面對上述方法作些分析。如果把區(qū)間2h(在多維時是體積V)固定,當(dāng)樣本數(shù)越來越多時,概率,但得到的密度卻是區(qū)間的平均值,而非某一點的;要得到,而不是的平均值,則體積V(2h)
0,但當(dāng)V
0時,若樣本數(shù)有限,則32實際上樣本數(shù)總是有限的,因此,不能使體積V(2h)無限小。
應(yīng)該讓體積V
隨著可用樣本數(shù)N而改變。如何變呢?假定有N個樣本可以利用。這時有,下標(biāo)N表示總樣本數(shù)。(一維時即)33若滿足以下三個條件:使空間平均密度點的頻率收斂于概率落在小區(qū)域內(nèi)的樣本同總數(shù)相比是低階無窮大則收斂于
34滿足上述三個條件的區(qū)域序列的選擇:
Parzen窗方法選擇使以變化。
是窗函數(shù),它隨著可用樣本數(shù)N的增多而變窄變高(按)。35可以證明在某些限制條件下,上述估計量是漸進(jìn)無偏和均方一致的。KN近鄰估計方法的公式仍為KN近鄰估計選擇使KN
為N的某個函數(shù)(例如),而的選取是使它剛好包括的KN個近鄰。36Parzen窗法應(yīng)用舉例假定待估計的未知概率密度函數(shù)是兩個均勻分布密度函數(shù)的混合,即:37如果采用正態(tài)窗函數(shù)并設(shè)那么就是一個以個樣本為中心的正態(tài)密度窗函數(shù)的一個平均,即:38參數(shù)h1影響窗寬??紤]h1取0.25,1和4三個不同的數(shù)值,用隨機(jī)數(shù)發(fā)生器按給定的概率密度函數(shù)產(chǎn)生隨機(jī)樣本,然后用上式估計
,計算結(jié)果如下:3910.01.00.10.010.001n=1h1=0.25h1
=1h1
=4-202-202-2024010.01.00.10.010.001n=16-202-202-202h1=0.25h1=1h1=44110.01.00.10.010.001n=256h1=0.25h1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2031年中國鏈條式燃煤氣化鍋爐行業(yè)投資前景及策略咨詢研究報告
- 平頂山2024年河南平頂山市農(nóng)業(yè)科學(xué)院招聘7人筆試歷年參考題庫附帶答案詳解
- 2025年鹽漬裙帶葉項目可行性研究報告
- 2025年桑拿服項目可行性研究報告
- 2025至2031年中國異型軋輥行業(yè)投資前景及策略咨詢研究報告
- 2025至2031年中國套裝風(fēng)炮行業(yè)投資前景及策略咨詢研究報告
- 廣西2025年廣西生態(tài)工程職業(yè)技術(shù)學(xué)院招聘筆試歷年參考題庫附帶答案詳解
- 2025年劍桿綜框項目可行性研究報告
- 2025年中央供氧系統(tǒng)項目可行性研究報告
- 2025至2030年高錳鐵項目投資價值分析報告
- 2023年湖北成人學(xué)位英語考試真題及答案
- 走好群眾路線-做好群眾工作(黃相懷)課件
- NY∕T 4001-2021 高效氯氟氰菊酯微囊懸浮劑
- 《社會主義市場經(jīng)濟(jì)理論(第三版)》第七章社會主義市場經(jīng)濟(jì)規(guī)則論
- 漢聲數(shù)學(xué)圖畫電子版4冊含媽媽手冊文本不加密可版本-29.統(tǒng)計2500g早教
- 企業(yè)組織架構(gòu)表
- 中國監(jiān)察制度史
- 搬家公司簡介(15個范本)
- 典范英語-2備課材料2a課件
- 抽水蓄能輔助洞室施工方案
- 數(shù)據(jù)結(jié)構(gòu)英文教學(xué)課件:chapter7 Searching
評論
0/150
提交評論