非參數(shù)估計(完整)_第1頁
非參數(shù)估計(完整)_第2頁
非參數(shù)估計(完整)_第3頁
非參數(shù)估計(完整)_第4頁
非參數(shù)估計(完整)_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

非參數(shù)估計劉芳,戚玉濤qi_yutao@163.com12021/5/9引言參數(shù)化估計:ML方法和Bayesian估計。假設(shè)概率密度形式已知。實際中概率密度形式往往未知。實際中概率密度往往是多模的,即有多個局部極大值。實際中樣本維數(shù)較高,且關(guān)于高維密度函數(shù)可以表示成一些低維密度函數(shù)乘積的假設(shè)通常也不成立。本章介紹非參數(shù)密度估計方法:能處理任意的概率分布,而不必假設(shè)密度函數(shù)的形式已知。22021/5/9主要內(nèi)容概率密度估計Parzen窗估計k-NN估計最近鄰分類器(NN)k-近鄰分類器(k-NN)32021/5/9概率密度估計概率密度估計問題:給定i.i.d.樣本集:估計概率分布:42021/5/9概率密度估計直方圖方法:非參數(shù)概率密度估計的最簡單方法

1.把x的每個分量分成k個等間隔小窗,(x∈Ed

,則形成kd

個小艙)

2.統(tǒng)計落入各個小艙內(nèi)的樣本數(shù)qi3.相應(yīng)小艙的概率密度為:qi/(NV)

(N:樣本總數(shù),V:小艙體積)52021/5/9概率密度估計直方圖的例子62021/5/9概率密度估計非參數(shù)概率密度估計的核心思路:一個向量x落在區(qū)域R中的概率P為:因此,可以通過統(tǒng)計概率P來估計概率密度函數(shù)p(x)72021/5/9概率密度估計假設(shè)N個樣本的集合是根據(jù)概率密度函數(shù)為p(x)的分布獨立抽取得到的。那么,有k個樣本落在區(qū)域R中的概率服從二項式定理:k的期望值為:對P的估計:當(dāng)時,估計是非常精確的82021/5/9概率密度估計假設(shè)p(x)是連續(xù)的,且R足夠小使得p(x)在R內(nèi)幾乎沒有變化。令R是包含樣本點x的一個區(qū)域,其體積為V,設(shè)有N個訓(xùn)練樣本,其中有k落在區(qū)域R中,則可對概率密度作出一個估計:對p(x)在小區(qū)域內(nèi)的平均值的估計92021/5/9概率密度估計當(dāng)樣本數(shù)量N固定時,體積V的大小對估計的效果影響很大。過大則平滑過多,不夠精確;過小則可能導(dǎo)致在此區(qū)域內(nèi)無樣本點,k=0。此方法的有效性取決于樣本數(shù)量的多少,以及區(qū)域體積選擇的合適。102021/5/9概率密度估計收斂性問題:樣本數(shù)量N無窮大是,估計的概率函數(shù)是否收斂到真實值?實際中,越精確,要求:實際中,N是有限的:當(dāng)時,絕大部分區(qū)間沒有樣本:如果僥幸存在一個樣本,則:112021/5/9概率密度估計理論結(jié)果:設(shè)有一系列包含x的區(qū)域R1,R2,…,Rn,…,對R1采用1個樣本進(jìn)行估計,對R2用2個,…,Rn包含kn個樣本。Vn為Rn的體積。為p(x)的第n次估計122021/5/9概率密度估計如果要求能夠收斂到p(x),那么必須滿足:選擇Vn選擇kn132021/5/9概率密度估計兩種選擇方法:142021/5/9主要內(nèi)容概率密度估計Parzen窗估計k-NN估計最近鄰分類器(NN)k-近鄰分類器(k-NN)152021/5/9Parzen窗估計定義窗函數(shù):假設(shè)Rn是一個d維的超立方體。令hn為超立方體一條邊的長度,則體積:立方體窗函數(shù)為:中心在原點的單位超立方體162021/5/9Parzen窗估計X處的密度估計為:落入以X為中心的立方體區(qū)域的樣本數(shù)為:可以驗證:172021/5/9窗函數(shù)的要求Parzen窗估計過程是一個內(nèi)插過程,樣本xi距離x越近,對概率密度估計的貢獻(xiàn)越大,越遠(yuǎn)貢獻(xiàn)越小。只要滿足如下條件,就可以作為窗函數(shù):182021/5/9窗函數(shù)的形式

方窗函數(shù)指數(shù)窗函數(shù)正態(tài)窗函數(shù)其中:192021/5/9窗口寬度的影響Parzen估計的性能與窗寬參數(shù)hn緊密相關(guān)當(dāng)hn較大時,x和中心xi距離大小的影響程度變?nèi)酰烙嫷膒(x)較為平滑,分辨率較差。當(dāng)hn較小時,x和中心xi距離大小的影響程度變強,估計的p(x)較為尖銳,分辨率較好。202021/5/9窗口寬度的影響212021/5/9窗函數(shù)密度估計值5個樣本的Parzen窗估計:222021/5/9漸近收斂性Parzen窗密度估計的漸近收斂性:無偏性:一致性:當(dāng)時,232021/5/90123456x6x5x3x1x2x4x

例:對于一個二類(ω1

,ω2

)識別問題,隨機(jī)抽取ω1類的6個樣本X=(x1,x2,….x6)ω1=(x1,x2,….x6)=(x1=3.2,x2=3.6,x3=3,x4=6,x5=2.5,x6=1.1)

估計P(x|ω1)即PN(x)

解:選正態(tài)窗函數(shù)242021/5/9∵x是一維的上式用圖形表示是6個分別以3.2,3.6,3,6,2.5,1.1為中心的正態(tài)曲線,而PN(x)則是這些曲線之和。代入:由圖看出,每個樣本對估計的貢獻(xiàn)與樣本間的距離有關(guān),樣本越多,PN(x)越準(zhǔn)確。252021/5/9例:設(shè)待估計的P(x)是個均值為0,方差為1的正態(tài)密度函數(shù)。若隨機(jī)地抽取X樣本中的1個、16個、256個作為學(xué)習(xí)樣本xi,試用窗口法估計PN(x)。解:設(shè)窗口函數(shù)為正態(tài)的,σ=1,μ=0hN:窗長度,N為樣本數(shù),h1為選定可調(diào)節(jié)的參數(shù)。262021/5/9用窗法估計單一正態(tài)分布的實驗N=∞N=256N=16N=1272021/5/9由圖看出,PN(x)隨N,h1的變化情況①當(dāng)N=1時,PN(x)是一個以第一個樣本為中心的正態(tài)曲線,與窗函數(shù)差不多。②當(dāng)N=16及N=256時

h1=0.25曲線起伏很大,噪聲大

h1=1起伏減小

h1=4曲線平坦

③當(dāng)N→∞時,PN(x)收斂于一平滑的正態(tài)曲線,估計曲線較好。282021/5/9例:待估的密度函數(shù)為二項分布解:此為多峰情況的估計設(shè)窗函數(shù)為正態(tài)解:此為多峰情況的估計設(shè)窗函數(shù)為正態(tài)x-2.5-210.2502P(x)-2.5<x<-20<x<2x為其它292021/5/9N=∞N=256N=16N=1用窗法估計兩個均勻分布的實驗302021/5/9當(dāng)N=1、16、256、∞時的PN(x)估計如圖所示①當(dāng)N=1時,PN(x)實際是窗函數(shù)。②當(dāng)N=16及N=256時

h1=0.25曲線起伏大

h1=1曲線起伏減小

h1=4曲線平坦

③當(dāng)N→∞時,曲線較好。312021/5/9Parzen窗估計優(yōu)點由前面的例子可以看出,Parzen窗估計的優(yōu)點是應(yīng)用的普遍性。對規(guī)則分布,非規(guī)則分布,單鋒或多峰分布都可用此法進(jìn)行密度估計??梢垣@得較為光滑且分辨率較高的密度估計,實現(xiàn)了光滑性和分辨率之間的一個較好平衡。缺點要求樣本足夠多,才能有較好的估計。因此使計算量,存儲量增大。窗寬在整個樣本空間固定不變,難以獲得區(qū)域自適應(yīng)的密度估計。322021/5/9識別方法保存每個類別所有的訓(xùn)練樣本;選擇窗函數(shù)的形式,根據(jù)訓(xùn)練樣本數(shù)n選擇窗函數(shù)的h寬度;識別時,利用每個類別的訓(xùn)練樣本計算待識別樣本x的類條件概率密度:采用Bayes判別準(zhǔn)則進(jìn)行分類。332021/5/9例子:基于Parzen估計的Bayesian分類器較小較大342021/5/9主要內(nèi)容概率密度估計Parzen窗估計Kn近鄰估計最近鄰分類器(NN)k-近鄰分類器(k-NN)352021/5/9Kn近鄰估計在Parzen窗估計中,存在一個問題:對hn的選擇。若hn選太小,則大部分體積將是空的(即不包含樣本),從而使Pn(x)估計不穩(wěn)定。若hn選太大,則Pn(x)估計較平坦,反映不出總體分布的變化Kn近鄰法的思想:固定樣本數(shù)量Kn

,調(diào)整區(qū)域體積大小Vn,直至有Kn個樣本落入?yún)^(qū)域中362021/5/9Kn近鄰估計Kn近鄰密度估計:固定樣本數(shù)為,在附近選取與之最近的個樣本,計算該個樣本分布的最小體積在X處的概率密度估計值為:372021/5/9漸近收斂的條件漸近收斂的充要條件為:通常選擇:382021/5/9Kn近鄰估計例子:392021/5/9例子:

Parzenwindowskn-nearest-neighbor斜率不連續(xù)當(dāng)n值為有限值時Kn近鄰估計十分粗糙402021/5/9例子:Parzenwindowskn-nearest-neighbor412021/5/9Kn近鄰估計Kn近鄰后驗概率估計:

給定i.i.d.樣本集,共類。把一個體積V放在x周圍,能夠包含進(jìn)k個樣本,其中有ki個樣本屬于第i類。那么聯(lián)合概率密度的估計為:后驗概率:

422021/5/9Kn近鄰估計例子X屬于第i類的后驗概率就是體積中標(biāo)記為第i類的樣本個數(shù)與體積中全部樣本點個數(shù)的比值。為了達(dá)到最小誤差率,選擇比值最大的那個類別作為判決結(jié)果。如果樣本足夠多、體積足夠小,這樣的方法得到的結(jié)果是比較準(zhǔn)確的!432021/5/9主要內(nèi)容概率密度估計Parzen窗估計k-NN估計最近鄰分類器(NN)

k-近鄰分類器(k-NN)442021/5/9最近鄰分類器(NN)假設(shè)i.i.d.樣本集對于樣本,NN采用如下的決策:相當(dāng)于采用近鄰方法估計后驗概率,然后采用最大后驗概率決策。分類一個樣本的計算復(fù)雜度:(采用歐氏距離)452021/5/9最近鄰分類器樣本x=(0.10,0.25)的類別?TrainingExamplesLabelsDistance(0.15,0.35)(0.10,0.28)(0.09,0.30)(0.12,0.20)

1

2

5

20.1180.0300.0510.054462021/5/9最近鄰分類器決策邊界:Voronoi網(wǎng)格NN分類規(guī)則將特征空間分成許多Voronoi網(wǎng)格(Voronoi網(wǎng)格:由一組由連接兩鄰點直線的垂直平分線組成的連續(xù)多邊形組成)472021/5/9最近鄰分類器決策邊界在一個Voronoi網(wǎng)格中,每一個點到該Voronoi網(wǎng)格原型的距離小于到其它所有訓(xùn)練樣本點的距離。

NN分類器將該Voronoi網(wǎng)格中的點標(biāo)識為與該原型同類。482021/5/9最近鄰分類器決策邊界:在NN分類器中,分類邊界對于分類新樣本是足夠的。但是計算或者存儲分類邊界是非常困難的目前已經(jīng)提出許多算法來存儲簡化后的樣本集,而不是整個樣本集,使得分類邊界不變。492021/5/9NN分類器的漸近誤差界若是n個樣本時的誤差率,并且:為最小Bayesian錯誤率,c為類別數(shù)??梢宰C明:502021/5/9NN分類器的漸近誤差界假設(shè)能夠得到無限多的訓(xùn)練樣本和使用任意復(fù)雜的分量規(guī)則,我們至多只能使誤差率降低一半。也就是說,分類信息中的一半信息是由最鄰近點提供的!512021/5/9最近鄰分類器當(dāng)樣本有限的情況下,最近鄰分類器的分類效果如何?不理想!隨著樣本數(shù)量的增加,分類器收斂到漸近值的速度如何?可能會任意慢,而且誤差未必會隨著n的增加單調(diào)遞減!522021/5/9k-近鄰分類器(k-NN)假設(shè)i.i.d.樣本集對于樣本,k-NN采用如下的決策:搜索與最近的個近鄰,如果個近鄰中屬于類的樣本最多,則判決屬于原理:相當(dāng)于采用近鄰方法估計后驗概率,然后采用最大后驗概率決策。分類一個樣本的計算復(fù)雜度:(采用歐氏距離)532021/5/9k-近鄰分類器從測試樣本x開始生長,不斷擴(kuò)大區(qū)域,直至包含進(jìn)k個訓(xùn)練樣本;把測試樣本x的類別歸為與之最近的k個訓(xùn)練樣本中出現(xiàn)頻率最大的類別。542021/5/9例:k=3

(oddvalue)

andx=(0.10,0.25)t選擇k-NNtox

{(0.10,0.28,

2);(0.12,0.20,2);

(0.09,0.30,5)}X屬于

2。PrototypesLabels(0.15,0.35)(0.10,0.28)(0.09,0.30)(0.12,0.20)

1

2

5

2552021/5/9k-近鄰分類器決策面:

分段線性超平面每一個超平面對應(yīng)著最近兩點的中垂面。562021/5/9k-近鄰分類器k-NN分類器的誤差率在樣本數(shù)無窮大時趨向于Bayesian最小錯誤率!572021/5/9k-NN分類器

近鄰分類器

假設(shè)i.i.d.樣本集對于樣本,-NN采用如下的決策:搜索與最近的個近鄰,如果個近鄰中屬于類的樣本最多,為個,則判決屬于,否則拒識。582021/5/9k-NN分類器k-NN分類器的優(yōu)點:原理和實現(xiàn)簡單,特別適用于大類別問題。當(dāng)訓(xùn)練樣本數(shù)較多時,誤差界小于2倍的Bayesian最小錯誤率。592021/5/9k-NN分類器k-NN分類器的缺點:由于訓(xùn)練樣本數(shù)有限,k-NN估計的后驗概率往往并不精確,從而導(dǎo)致分類錯誤率遠(yuǎn)遠(yuǎn)大于Bayesian最小錯誤率。搜索近鄰需要遍歷每一個樣本,計算復(fù)雜度較大。需要存儲所有樣本。受噪聲和距離測度的選擇影響較大。602021/5/9距離度量距離度量應(yīng)滿足如下三個性質(zhì):非負(fù)性:自反性:當(dāng)且僅當(dāng)對稱性:三角不等式:距離測度的選取原則:需要精心選擇類內(nèi)變化平緩,類間變化劇烈的距離測度!612021/5/9常用的距離函數(shù)歐幾里德距離:(EucideanDistance)

曼哈頓距離:(ManhattanDistance)622021/5/9常用的距離函數(shù)明氏距離:(MinkowskiDistance)馬氏距離:(MahalanobisDistance)632021/5/9常用的距離函數(shù)角度相似函數(shù):(AngleDistance)

海明距離:(HammingDistance)

x和y為2值特征矢量:D(x,y)定義為x,y中使得不等式

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論