![非參數(shù)估計(完整)_第1頁](http://file4.renrendoc.com/view14/M07/07/31/wKhkGWZLmi6AM5p6AAHDhJnEqDc758.jpg)
![非參數(shù)估計(完整)_第2頁](http://file4.renrendoc.com/view14/M07/07/31/wKhkGWZLmi6AM5p6AAHDhJnEqDc7582.jpg)
![非參數(shù)估計(完整)_第3頁](http://file4.renrendoc.com/view14/M07/07/31/wKhkGWZLmi6AM5p6AAHDhJnEqDc7583.jpg)
![非參數(shù)估計(完整)_第4頁](http://file4.renrendoc.com/view14/M07/07/31/wKhkGWZLmi6AM5p6AAHDhJnEqDc7584.jpg)
![非參數(shù)估計(完整)_第5頁](http://file4.renrendoc.com/view14/M07/07/31/wKhkGWZLmi6AM5p6AAHDhJnEqDc7585.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
非參數(shù)估計劉芳,戚玉濤qi_yutao@163.com12021/5/9引言參數(shù)化估計:ML方法和Bayesian估計。假設(shè)概率密度形式已知。實際中概率密度形式往往未知。實際中概率密度往往是多模的,即有多個局部極大值。實際中樣本維數(shù)較高,且關(guān)于高維密度函數(shù)可以表示成一些低維密度函數(shù)乘積的假設(shè)通常也不成立。本章介紹非參數(shù)密度估計方法:能處理任意的概率分布,而不必假設(shè)密度函數(shù)的形式已知。22021/5/9主要內(nèi)容概率密度估計Parzen窗估計k-NN估計最近鄰分類器(NN)k-近鄰分類器(k-NN)32021/5/9概率密度估計概率密度估計問題:給定i.i.d.樣本集:估計概率分布:42021/5/9概率密度估計直方圖方法:非參數(shù)概率密度估計的最簡單方法
1.把x的每個分量分成k個等間隔小窗,(x∈Ed
,則形成kd
個小艙)
2.統(tǒng)計落入各個小艙內(nèi)的樣本數(shù)qi3.相應(yīng)小艙的概率密度為:qi/(NV)
(N:樣本總數(shù),V:小艙體積)52021/5/9概率密度估計直方圖的例子62021/5/9概率密度估計非參數(shù)概率密度估計的核心思路:一個向量x落在區(qū)域R中的概率P為:因此,可以通過統(tǒng)計概率P來估計概率密度函數(shù)p(x)72021/5/9概率密度估計假設(shè)N個樣本的集合是根據(jù)概率密度函數(shù)為p(x)的分布獨立抽取得到的。那么,有k個樣本落在區(qū)域R中的概率服從二項式定理:k的期望值為:對P的估計:當(dāng)時,估計是非常精確的82021/5/9概率密度估計假設(shè)p(x)是連續(xù)的,且R足夠小使得p(x)在R內(nèi)幾乎沒有變化。令R是包含樣本點x的一個區(qū)域,其體積為V,設(shè)有N個訓(xùn)練樣本,其中有k落在區(qū)域R中,則可對概率密度作出一個估計:對p(x)在小區(qū)域內(nèi)的平均值的估計92021/5/9概率密度估計當(dāng)樣本數(shù)量N固定時,體積V的大小對估計的效果影響很大。過大則平滑過多,不夠精確;過小則可能導(dǎo)致在此區(qū)域內(nèi)無樣本點,k=0。此方法的有效性取決于樣本數(shù)量的多少,以及區(qū)域體積選擇的合適。102021/5/9概率密度估計收斂性問題:樣本數(shù)量N無窮大是,估計的概率函數(shù)是否收斂到真實值?實際中,越精確,要求:實際中,N是有限的:當(dāng)時,絕大部分區(qū)間沒有樣本:如果僥幸存在一個樣本,則:112021/5/9概率密度估計理論結(jié)果:設(shè)有一系列包含x的區(qū)域R1,R2,…,Rn,…,對R1采用1個樣本進(jìn)行估計,對R2用2個,…,Rn包含kn個樣本。Vn為Rn的體積。為p(x)的第n次估計122021/5/9概率密度估計如果要求能夠收斂到p(x),那么必須滿足:選擇Vn選擇kn132021/5/9概率密度估計兩種選擇方法:142021/5/9主要內(nèi)容概率密度估計Parzen窗估計k-NN估計最近鄰分類器(NN)k-近鄰分類器(k-NN)152021/5/9Parzen窗估計定義窗函數(shù):假設(shè)Rn是一個d維的超立方體。令hn為超立方體一條邊的長度,則體積:立方體窗函數(shù)為:中心在原點的單位超立方體162021/5/9Parzen窗估計X處的密度估計為:落入以X為中心的立方體區(qū)域的樣本數(shù)為:可以驗證:172021/5/9窗函數(shù)的要求Parzen窗估計過程是一個內(nèi)插過程,樣本xi距離x越近,對概率密度估計的貢獻(xiàn)越大,越遠(yuǎn)貢獻(xiàn)越小。只要滿足如下條件,就可以作為窗函數(shù):182021/5/9窗函數(shù)的形式
方窗函數(shù)指數(shù)窗函數(shù)正態(tài)窗函數(shù)其中:192021/5/9窗口寬度的影響Parzen估計的性能與窗寬參數(shù)hn緊密相關(guān)當(dāng)hn較大時,x和中心xi距離大小的影響程度變?nèi)酰烙嫷膒(x)較為平滑,分辨率較差。當(dāng)hn較小時,x和中心xi距離大小的影響程度變強,估計的p(x)較為尖銳,分辨率較好。202021/5/9窗口寬度的影響212021/5/9窗函數(shù)密度估計值5個樣本的Parzen窗估計:222021/5/9漸近收斂性Parzen窗密度估計的漸近收斂性:無偏性:一致性:當(dāng)時,232021/5/90123456x6x5x3x1x2x4x
例:對于一個二類(ω1
,ω2
)識別問題,隨機(jī)抽取ω1類的6個樣本X=(x1,x2,….x6)ω1=(x1,x2,….x6)=(x1=3.2,x2=3.6,x3=3,x4=6,x5=2.5,x6=1.1)
估計P(x|ω1)即PN(x)
解:選正態(tài)窗函數(shù)242021/5/9∵x是一維的上式用圖形表示是6個分別以3.2,3.6,3,6,2.5,1.1為中心的正態(tài)曲線,而PN(x)則是這些曲線之和。代入:由圖看出,每個樣本對估計的貢獻(xiàn)與樣本間的距離有關(guān),樣本越多,PN(x)越準(zhǔn)確。252021/5/9例:設(shè)待估計的P(x)是個均值為0,方差為1的正態(tài)密度函數(shù)。若隨機(jī)地抽取X樣本中的1個、16個、256個作為學(xué)習(xí)樣本xi,試用窗口法估計PN(x)。解:設(shè)窗口函數(shù)為正態(tài)的,σ=1,μ=0hN:窗長度,N為樣本數(shù),h1為選定可調(diào)節(jié)的參數(shù)。262021/5/9用窗法估計單一正態(tài)分布的實驗N=∞N=256N=16N=1272021/5/9由圖看出,PN(x)隨N,h1的變化情況①當(dāng)N=1時,PN(x)是一個以第一個樣本為中心的正態(tài)曲線,與窗函數(shù)差不多。②當(dāng)N=16及N=256時
h1=0.25曲線起伏很大,噪聲大
h1=1起伏減小
h1=4曲線平坦
③當(dāng)N→∞時,PN(x)收斂于一平滑的正態(tài)曲線,估計曲線較好。282021/5/9例:待估的密度函數(shù)為二項分布解:此為多峰情況的估計設(shè)窗函數(shù)為正態(tài)解:此為多峰情況的估計設(shè)窗函數(shù)為正態(tài)x-2.5-210.2502P(x)-2.5<x<-20<x<2x為其它292021/5/9N=∞N=256N=16N=1用窗法估計兩個均勻分布的實驗302021/5/9當(dāng)N=1、16、256、∞時的PN(x)估計如圖所示①當(dāng)N=1時,PN(x)實際是窗函數(shù)。②當(dāng)N=16及N=256時
h1=0.25曲線起伏大
h1=1曲線起伏減小
h1=4曲線平坦
③當(dāng)N→∞時,曲線較好。312021/5/9Parzen窗估計優(yōu)點由前面的例子可以看出,Parzen窗估計的優(yōu)點是應(yīng)用的普遍性。對規(guī)則分布,非規(guī)則分布,單鋒或多峰分布都可用此法進(jìn)行密度估計??梢垣@得較為光滑且分辨率較高的密度估計,實現(xiàn)了光滑性和分辨率之間的一個較好平衡。缺點要求樣本足夠多,才能有較好的估計。因此使計算量,存儲量增大。窗寬在整個樣本空間固定不變,難以獲得區(qū)域自適應(yīng)的密度估計。322021/5/9識別方法保存每個類別所有的訓(xùn)練樣本;選擇窗函數(shù)的形式,根據(jù)訓(xùn)練樣本數(shù)n選擇窗函數(shù)的h寬度;識別時,利用每個類別的訓(xùn)練樣本計算待識別樣本x的類條件概率密度:采用Bayes判別準(zhǔn)則進(jìn)行分類。332021/5/9例子:基于Parzen估計的Bayesian分類器較小較大342021/5/9主要內(nèi)容概率密度估計Parzen窗估計Kn近鄰估計最近鄰分類器(NN)k-近鄰分類器(k-NN)352021/5/9Kn近鄰估計在Parzen窗估計中,存在一個問題:對hn的選擇。若hn選太小,則大部分體積將是空的(即不包含樣本),從而使Pn(x)估計不穩(wěn)定。若hn選太大,則Pn(x)估計較平坦,反映不出總體分布的變化Kn近鄰法的思想:固定樣本數(shù)量Kn
,調(diào)整區(qū)域體積大小Vn,直至有Kn個樣本落入?yún)^(qū)域中362021/5/9Kn近鄰估計Kn近鄰密度估計:固定樣本數(shù)為,在附近選取與之最近的個樣本,計算該個樣本分布的最小體積在X處的概率密度估計值為:372021/5/9漸近收斂的條件漸近收斂的充要條件為:通常選擇:382021/5/9Kn近鄰估計例子:392021/5/9例子:
Parzenwindowskn-nearest-neighbor斜率不連續(xù)當(dāng)n值為有限值時Kn近鄰估計十分粗糙402021/5/9例子:Parzenwindowskn-nearest-neighbor412021/5/9Kn近鄰估計Kn近鄰后驗概率估計:
給定i.i.d.樣本集,共類。把一個體積V放在x周圍,能夠包含進(jìn)k個樣本,其中有ki個樣本屬于第i類。那么聯(lián)合概率密度的估計為:后驗概率:
422021/5/9Kn近鄰估計例子X屬于第i類的后驗概率就是體積中標(biāo)記為第i類的樣本個數(shù)與體積中全部樣本點個數(shù)的比值。為了達(dá)到最小誤差率,選擇比值最大的那個類別作為判決結(jié)果。如果樣本足夠多、體積足夠小,這樣的方法得到的結(jié)果是比較準(zhǔn)確的!432021/5/9主要內(nèi)容概率密度估計Parzen窗估計k-NN估計最近鄰分類器(NN)
k-近鄰分類器(k-NN)442021/5/9最近鄰分類器(NN)假設(shè)i.i.d.樣本集對于樣本,NN采用如下的決策:相當(dāng)于采用近鄰方法估計后驗概率,然后采用最大后驗概率決策。分類一個樣本的計算復(fù)雜度:(采用歐氏距離)452021/5/9最近鄰分類器樣本x=(0.10,0.25)的類別?TrainingExamplesLabelsDistance(0.15,0.35)(0.10,0.28)(0.09,0.30)(0.12,0.20)
1
2
5
20.1180.0300.0510.054462021/5/9最近鄰分類器決策邊界:Voronoi網(wǎng)格NN分類規(guī)則將特征空間分成許多Voronoi網(wǎng)格(Voronoi網(wǎng)格:由一組由連接兩鄰點直線的垂直平分線組成的連續(xù)多邊形組成)472021/5/9最近鄰分類器決策邊界在一個Voronoi網(wǎng)格中,每一個點到該Voronoi網(wǎng)格原型的距離小于到其它所有訓(xùn)練樣本點的距離。
NN分類器將該Voronoi網(wǎng)格中的點標(biāo)識為與該原型同類。482021/5/9最近鄰分類器決策邊界:在NN分類器中,分類邊界對于分類新樣本是足夠的。但是計算或者存儲分類邊界是非常困難的目前已經(jīng)提出許多算法來存儲簡化后的樣本集,而不是整個樣本集,使得分類邊界不變。492021/5/9NN分類器的漸近誤差界若是n個樣本時的誤差率,并且:為最小Bayesian錯誤率,c為類別數(shù)??梢宰C明:502021/5/9NN分類器的漸近誤差界假設(shè)能夠得到無限多的訓(xùn)練樣本和使用任意復(fù)雜的分量規(guī)則,我們至多只能使誤差率降低一半。也就是說,分類信息中的一半信息是由最鄰近點提供的!512021/5/9最近鄰分類器當(dāng)樣本有限的情況下,最近鄰分類器的分類效果如何?不理想!隨著樣本數(shù)量的增加,分類器收斂到漸近值的速度如何?可能會任意慢,而且誤差未必會隨著n的增加單調(diào)遞減!522021/5/9k-近鄰分類器(k-NN)假設(shè)i.i.d.樣本集對于樣本,k-NN采用如下的決策:搜索與最近的個近鄰,如果個近鄰中屬于類的樣本最多,則判決屬于原理:相當(dāng)于采用近鄰方法估計后驗概率,然后采用最大后驗概率決策。分類一個樣本的計算復(fù)雜度:(采用歐氏距離)532021/5/9k-近鄰分類器從測試樣本x開始生長,不斷擴(kuò)大區(qū)域,直至包含進(jìn)k個訓(xùn)練樣本;把測試樣本x的類別歸為與之最近的k個訓(xùn)練樣本中出現(xiàn)頻率最大的類別。542021/5/9例:k=3
(oddvalue)
andx=(0.10,0.25)t選擇k-NNtox
{(0.10,0.28,
2);(0.12,0.20,2);
(0.09,0.30,5)}X屬于
2。PrototypesLabels(0.15,0.35)(0.10,0.28)(0.09,0.30)(0.12,0.20)
1
2
5
2552021/5/9k-近鄰分類器決策面:
分段線性超平面每一個超平面對應(yīng)著最近兩點的中垂面。562021/5/9k-近鄰分類器k-NN分類器的誤差率在樣本數(shù)無窮大時趨向于Bayesian最小錯誤率!572021/5/9k-NN分類器
近鄰分類器
假設(shè)i.i.d.樣本集對于樣本,-NN采用如下的決策:搜索與最近的個近鄰,如果個近鄰中屬于類的樣本最多,為個,則判決屬于,否則拒識。582021/5/9k-NN分類器k-NN分類器的優(yōu)點:原理和實現(xiàn)簡單,特別適用于大類別問題。當(dāng)訓(xùn)練樣本數(shù)較多時,誤差界小于2倍的Bayesian最小錯誤率。592021/5/9k-NN分類器k-NN分類器的缺點:由于訓(xùn)練樣本數(shù)有限,k-NN估計的后驗概率往往并不精確,從而導(dǎo)致分類錯誤率遠(yuǎn)遠(yuǎn)大于Bayesian最小錯誤率。搜索近鄰需要遍歷每一個樣本,計算復(fù)雜度較大。需要存儲所有樣本。受噪聲和距離測度的選擇影響較大。602021/5/9距離度量距離度量應(yīng)滿足如下三個性質(zhì):非負(fù)性:自反性:當(dāng)且僅當(dāng)對稱性:三角不等式:距離測度的選取原則:需要精心選擇類內(nèi)變化平緩,類間變化劇烈的距離測度!612021/5/9常用的距離函數(shù)歐幾里德距離:(EucideanDistance)
曼哈頓距離:(ManhattanDistance)622021/5/9常用的距離函數(shù)明氏距離:(MinkowskiDistance)馬氏距離:(MahalanobisDistance)632021/5/9常用的距離函數(shù)角度相似函數(shù):(AngleDistance)
海明距離:(HammingDistance)
x和y為2值特征矢量:D(x,y)定義為x,y中使得不等式
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2025學(xué)年高中政治課時分層作業(yè)9訂立合同有學(xué)問含解析新人教版選修5
- 2024-2025學(xué)年高中數(shù)學(xué)課時分層作業(yè)4平面的基本性質(zhì)含解析蘇教版必修2
- 2024年高中政治第一單元生活與消費第1課第1框揭開貨幣的神秘面紗作業(yè)含解析新人教版必修1
- 2024年高考化學(xué)精準(zhǔn)押題練第13題化學(xué)實驗基礎(chǔ)含解析
- 2024-2025學(xué)年高中物理第五章6向心力練習(xí)含解析新人教版必修2
- 檢驗工作人員年終總結(jié)
- 大學(xué)暑期社會實踐個人總結(jié)
- 外科護(hù)士工作計劃報告
- 魯人版道德與法治七年級下冊15.2《生命最寶貴》聽課評課記錄
- 東入合作協(xié)議書
- 教師師德專題培訓(xùn)
- 2024年中儲糧油脂有限公司招聘考試真題
- 新版人教版七年級下冊數(shù)學(xué)全冊教案教學(xué)設(shè)計含教學(xué)反思
- 教科版四年級下冊科學(xué)科學(xué)教案+教材分析
- 廣東2024年廣東金融學(xué)院招聘工作人員10人筆試歷年典型考點(頻考版試卷)附帶答案詳解
- T-WSJD 18.22-2024 工作場所空氣中化學(xué)因素測定 雙氯甲醚的便攜式氣相色譜-質(zhì)譜法
- 北京市東城區(qū)2023-2024學(xué)年高二下學(xué)期期末英語試題 含解析
- 中國食物成分表2020年權(quán)威完整改進(jìn)版
- 各施工階段安全管理的重點及安全保證措施
- 2024年金屬非金屬礦山(地下礦山)安全管理人員考試練習(xí)題(100題)附答案
- 泌外品管圈提高口服藥物使用管理的正確率
評論
0/150
提交評論