




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、5 總體分布的非參數(shù)估計方法 前述都設知總體分布即知概密,但實踐不然。因此如何用樣本來估計總體分布的問題,就是本節(jié)的目的即非參數(shù)估計。 含有p(x),p(x|wi),p(wi|x) 等的估計。 而p(wi|x)的估計的一種根本方法是繞過概率的估計而直接求決策函數(shù)的方法即近鄰法那么。 (1) 根本方法根本方法 1) 本節(jié)所述估計的目的 從樣本集估計樣本空間任何一點X的概率密度 P(X); 假設來自某一類別如wi類,那么估計結果為類條件概密P(X|wi); 假設來自c個類別,但不詳細涉及類別,那么估計結果為混合密度P(X)。2) 非參數(shù)估計的根本思想非參數(shù)估計的根本思想 隨機向量X落入到區(qū)域R的概
2、率P為: 這表示概率P是概密函數(shù)P(X)的一種平均,對P作估計就是估計出P(X)的這個平均值。dxxPPR)(P(X)RX 設N個樣本x1,x2,xn是從概密為P(x)的總體中獨立抽取的,那么N個樣本中有k個樣本落在區(qū)域R中的概率Pk自然服從二項分布,即 其中,P為樣本X落入R的概率,Pk為k個樣本落入R的概率。 kNkkNkPPCP)1 ()!( !kNkNCkN使Pk取最大的k值稱為眾數(shù)記為m, 即 眾數(shù)的意義是:在抽出的N個樣本中有m個樣本落入?yún)^(qū)域R的概率最大。對二項分布,眾數(shù)m為(N+1)P的整數(shù)部分,即這樣,在Pm處,就有m = k (N+1) P N P即P k / N式中P是P的
3、估計,即P是總體密度P(x)在區(qū)域R上的一個估計。kmPPmax) 1(PNm 設P(x)延續(xù),且區(qū)域R的體積V足夠小,那么 設P(x)是P(x)的估計,由上面二式得: 于是可得: 上式就是X點概率密度P(x)的估計值,它與k、N、V有關。VxPdxxPPR)()( )( )Rkpp xdxp x VN( )k Np xV闡明:闡明: 從實際上講,要使從實際上講,要使P P(x)(x)趨于趨于P(x)P(x),就須,就須讓積分域讓積分域R R無限小無限小 即讓其即讓其V V近于零,同時近于零,同時讓讓N N、k k無窮大,但實踐估計時體積無窮大,但實踐估計時體積V V不是恣意不是恣意的小,且樣
4、本總數(shù)也是有限的,所以的小,且樣本總數(shù)也是有限的,所以P P(x) (x) 總是存在誤差??偸谴嬖谡`差。 假設把體積假設把體積V V固定,樣本獲得足夠多,那么固定,樣本獲得足夠多,那么K/NK/N將在概率上收斂,但這時得到的是一個將在概率上收斂,但這時得到的是一個R R區(qū)域上區(qū)域上P(x)P(x)的平均估計。的平均估計。 即即 而要想得到而要想得到P P(x)(x),而不是,而不是P(x)P(x)在在R R上的平均,上的平均,那么須讓那么須讓V V趨于零。趨于零。()RRPxd xPVd x 假設把樣本數(shù)目固定,而令V趨于零,由于樣本數(shù)目總是有限的,所以當V趨于零時,會使區(qū)域R不斷減少以致于能
5、夠不包含任何樣本,這就會得出P(x)=0(無價值的估計;假設恰巧有一個或幾個樣本同X點重合的出如今R中,那么會使估計發(fā)散到無窮大這也是無價值的估計。 3) 實際上的處理方案 為了提高X處的概密P(x)的估計精度,據(jù)極限實際,采取如下步驟以盡量滿足實際要求。 構造一包含樣本X的區(qū)域序列R1、R2 、RN 、各區(qū)域RN(N=1,2,)的體積VN滿足: 在RN域中取N個樣本進展估計實驗,并設有kN個樣本落入RN中,樣本數(shù)目應滿足:0limNNVNNklim 應滿足: 那么估計序列 N=1,2, 處處收斂于P(x)。闡明: 在區(qū)域平滑地減少,且P(x)在X點延續(xù)的情況下,那么: 條件可使空間平均密度P
6、 / V收斂于真實的密度P(x); 條件僅對P(x)0的點才有意義,即當P(x)0時,使 P(x)0,可使頻率在概率意義上收斂于概率;0limNkNN ( )NNNkNPxV 條件是式 收斂的必要條件,它描畫了N的增長速度要大于kN的增長速度,使kN/N為無窮小,而kN/N和VN為同階的無窮小,使 為非無窮大的有界數(shù),防止凡滿足上述三個條件的區(qū)域序列和樣本選取都可以。( )NNNkNPxVNNVNk( )P x 1) Parzen1) Parzen窗估計的概念窗估計的概念 要估計要估計d d維空間中某點維空間中某點X X的概率密度的概率密度時,可以以時,可以以X X為中心,作一邊棱長為為中心,
7、作一邊棱長為hNhN的的d d維超立方體維超立方體VNVN,那么其體積為:,那么其體積為: 此立方體被視為一個窗口。此立方體被視為一個窗口。如今的問題是要求出落入如今的問題是要求出落入VNVN中的樣本中的樣本數(shù)數(shù)kNkN。dNNhV(2) Parzen(2) Parzen窗法窗法 u = u1 , udT (u)是一個以原點為中心,邊是一個以原點為中心,邊棱長為棱長為1的的d維超立方體函數(shù),其函維超立方體函數(shù),其函數(shù)值為數(shù)值為1可用于計樣本數(shù)??捎糜谟嫎颖緮?shù)。11|,1,2,.,( )20jujdu當其它1/21/2-1/2-1/2U2U1 為能用函數(shù)描畫區(qū)域RN和對落入RN的樣本計數(shù),定義窗
8、函數(shù)的根本方式為: 由于經(jīng)過坐標的平移和尺度的縮放可以改動超立方體的位置和大小。所以對于一個以X為中心,以hN為邊棱長的超立方體,用變量Xi此Xi可作樣本刻劃下的通用窗函數(shù)的方式如下: 1 當 0 其他)(NihxxdjhxxNji., 1,2窗口X1X2邊長為1-X1hN X1 1 hN 2 此函數(shù)被稱為Parzen窗函數(shù),其含義為假設一個樣本Xi落入窗口,那么=1即計數(shù)為1,否那么=0即計數(shù)為0。 換句話說,就是檢查d維空間中的每一個樣本Xi,假設向量X-Xi中的每一分量都小于hN/2,那么該樣本必在VN以內且計數(shù)為1,否那么就在VN以外且不計數(shù)。 故落入VN內的樣本數(shù)為: 這樣可得X點處
9、概率估計為 這就是Parzen窗法估計的根本公式。NiNiNhxxk1111( )NNiNiNNNkNxxPxVNVh討論:討論: 上式實踐上是一個迭加函數(shù),窗函數(shù)作迭加上式實踐上是一個迭加函數(shù),窗函數(shù)作迭加基函數(shù),每個樣本點處作為迭加節(jié)點,運用基函數(shù),每個樣本點處作為迭加節(jié)點,運用kNkN個以樣本個以樣本XiXi為中心的窗函數(shù)迭加對為中心的窗函數(shù)迭加對X X處的密處的密度進展估計;度進展估計; 自然,樣本較密集的區(qū)域上概密估計迭加自然,樣本較密集的區(qū)域上概密估計迭加函數(shù)值較大;函數(shù)值較大; 上式闡明每一樣本上式闡明每一樣本XiXi對密度函數(shù)的奉獻只在對密度函數(shù)的奉獻只在一個窗口范圍內;一個窗
10、口范圍內; 每一樣本每一樣本XiXi對估計對估計PN(x)PN(x)所起的作用依賴所起的作用依賴于它即于它即XiXi到到X X的間隔;的間隔; 窗函數(shù)不限于超立方體窗函數(shù),還可有其他窗函數(shù)不限于超立方體窗函數(shù),還可有其他方式。方式。2) 2) 估計量估計量P PN(x)N(x)為密度函數(shù)的條件為密度函數(shù)的條件 作為窗函數(shù)需求滿足以下兩個條件: 即窗函數(shù)本身具有密度函數(shù)的方式,那么PN(x) 一定為密度函數(shù)。 其中條件保證PN(x)非負; 條件保證在整個參數(shù)空間積分為1,即0)(u1)(duu( )1NPx dx 下面對超立方體方窗函數(shù)在一維下進展證明: 對于條件,自然保證PN(x) 非負; 對
11、于條件 所以超立方體函數(shù)可作為窗函數(shù),即能得到密度函數(shù)PN(x)。11)(1)(11)(11)(1x-xu11iNNduuNdxhxxhNdxhxxVNdxxPNihduhdxNiNiNNiNiNNNN令一維時3) (3) (一維下一維下) )窗函數(shù)常見的其它幾種方式窗函數(shù)常見的其它幾種方式 方窗函數(shù):方窗函數(shù): 正態(tài)窗函數(shù):正態(tài)窗函數(shù): 2221)(ueu12121-)(uUU)(u2111|( )20uu其它 指數(shù)窗函數(shù):指數(shù)窗函數(shù): 三角窗函數(shù):三角窗函數(shù): ueu21)()(uU21)(u1-111 | 1( )0uuu其它 總之,只需滿足前述兩個條件的函數(shù),都可作為窗函數(shù)運用。但最終
12、估計效果的好壞那么與樣本情況、窗函數(shù)及其參數(shù)的選擇有關。4) 4) 寬度寬度hNhN對估計量對估計量P PN(x)N(x)的影響的影響: : 在樣本數(shù)在樣本數(shù)N N有限時,窗寬有限時,窗寬hNhN對對P PN(x)N(x)有很有很大影響。大影響。 假設定義函數(shù)假設定義函數(shù) N(x)N(x)為:為: 那么可將那么可將P PN(x)N(x)看作看作N N個樣本的平均個樣本的平均值。值。 VN = hNd VN = hNd, hN hN既影響既影響 N N的幅度,又影響它的的幅度,又影響它的寬度。寬度。)(1)(NNNhxVx11 ( )()NNNiiPxxxN 假設假設hN太大,那么太大,那么 N
13、的幅度就很小,而寬度將拓寬由于的幅度就很小,而寬度將拓寬由于窗口的面積一定。同時只需當窗口的面積一定。同時只需當Xi離離X較遠時,才干使較遠時,才干使 N(x-xi) 與與 N(0)的函數(shù)值相差的多一些,此時的函數(shù)值相差的多一些,此時PN(x)是是N個低幅的、函數(shù)值變化緩慢的、寬垮的函數(shù)的疊加,這樣個低幅的、函數(shù)值變化緩慢的、寬垮的函數(shù)的疊加,這樣將使將使PN(x) 較平滑,但不能跟上較平滑,但不能跟上P(x)的變化,分辨率較低。的變化,分辨率較低。 假設假設hN太小,那么太小,那么 N的幅度就很大,而寬度很窄,近似于的幅度就很大,而寬度很窄,近似于以以Xi為中心的為中心的 函數(shù),且峰值出如今
14、函數(shù),且峰值出如今X=Xi附近,此時附近,此時PN(x)是是N個以個以Xi為中心的尖脈沖在為中心的尖脈沖在X點處的疊加,使點處的疊加,使PN(x)動動搖太大,不穩(wěn)定,能夠失去延續(xù)性。搖太大,不穩(wěn)定,能夠失去延續(xù)性。 hN的選取對的選取對PN(x)影響很大,如何選擇影響很大,如何選擇hN需求一定的需求一定的閱歷,普通要折中思索。閱歷,普通要折中思索。5) 5) 估計量估計量P PN(x)N(x)的統(tǒng)計性質的統(tǒng)計性質 對于任一固定的X,PN(x)的值還與隨機樣本集x1,x2,xN有關,采用不同的樣本集,就會有不同的PN(x)值,即PN(x)是一個隨機變量,且它依賴于隨機的訓練樣本,所以估計量PN(
15、x)的性質只能用統(tǒng)計性質表示。 另外用PN(x)來估計一個未知密度函數(shù)時,只能用它的均值PN(x),同時為了知道估計確實定性程度,還必需知道它的方差2(x)。即假設存在: 那么估計量PN(x)均方收斂于P(x)。lim ( )( )NNPxP xlim 2(x) =0N 為了保證收斂性,必需對未知密度P(x)、窗函數(shù)(u)和窗寬hN設置一些條件,在滿足下述這些條件后,PN(x)就是漸近無偏估計、均方逼近P(x),漸近正態(tài)分布。條件歸納如下: (1) 總體密度P(x)在X處延續(xù); (2) 窗函數(shù)應滿足的條件: 0)(u1)(duu)(supuu0)(lim1idiuuu注:sup表示取最大的u.
16、(3)窗寬限制: (4)對樣本的要求: 0limNNVNNVNlim0limNkNNNNklim闡明:上述闡明:上述( (新新) )條件可解釋如下:條件可解釋如下: 條件是為了保證條件是為了保證PN(x)PN(x)有密度函數(shù)的性質;有密度函數(shù)的性質; 條件是要求條件是要求(u)(u)是有界的,不能為無窮大;是有界的,不能為無窮大; 條件是要求條件是要求(u)(u)隨隨u u的增長較快地趨于零,的增長較快地趨于零,其目的是減少遠距其目的是減少遠距X X的樣本的樣本XiXi對對X X的影響;的影響; 條件要求體積隨條件要求體積隨N N的增大而趨于零,但縮減的增大而趨于零,但縮減的速度又不要太快,其
17、速率要低于的速度又不要太快,其速率要低于1/N1/N即要求即要求VNVN趨于趨于零的速率低于零的速率低于N N的增長速率。的增長速率。(3) kN-近鄰估計近鄰估計 在在Parzen窗估計中存在的一個問題是體積序窗估計中存在的一個問題是體積序列的列的V1,V2,VN的選擇問題,而把體積的選擇問題,而把體積VN作為作為樣本數(shù)樣本數(shù)N的函數(shù)將導致的函數(shù)將導致VN對估計結果影響很大。對估計結果影響很大。 例如:例如: 時,對有限的時,對有限的N,其估計結果對初值,其估計結果對初值V1的選的選擇很敏感。擇很敏感。 假設假設V1選得太小,那么導致大部分體積是空的,選得太小,那么導致大部分體積是空的,從而
18、使估計從而使估計PN(x)不穩(wěn)定;不穩(wěn)定; 假設假設V1選得太大,那么選得太大,那么PN(x)較平坦,反映不較平坦,反映不出真實總體分布的變化。出真實總體分布的變化。NVVN1kN-近鄰法的根本思想:近鄰法的根本思想: 使體積使體積VN為數(shù)據(jù)為數(shù)據(jù)kN的函數(shù),而不是樣本數(shù)的函數(shù),而不是樣本數(shù)N的函的函數(shù)。即使含數(shù)。即使含X點的序列體積點的序列體積V1,V2,VN受落入受落入VN中樣本數(shù)中樣本數(shù)kN的控制,而不是直接作為樣本的控制,而不是直接作為樣本N的函數(shù)。的函數(shù)。 可以預先確定可以預先確定kN是是N的某個函數(shù)的某個函數(shù),然后在然后在X點附近點附近選擇一個較小的區(qū)域作為體積選擇一個較小的區(qū)域作為體積VN,并讓它不斷增長,并讓它不斷增長直至捕獲直至捕獲kN個樣本為止,這些樣本即為個樣本為止,這些樣本即為X的的kN個近個近鄰。即只讓鄰。即只讓VN含含kN個近鄰樣本。個近鄰樣本。這樣,假設這樣,假設X點附近的概密較大,那么包含點附近的概密較大,那么包含kN個個樣本的體積自然就相對較??;樣本的體積自然就相對較??;假設假設X點附近的概密較小,那么包含點附近的概密較小,那么包含kN個個樣本的體積自然就相對較大。樣本的體積自然就相對較大。kN-近鄰估計的根本式仍為:近鄰估計的根本式仍為: 條件依然是:條件依然是:滿足上述條件,那么滿足上述條
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T/CECS 10072-2019綠色建材評價雨水處理設備
- T/CECS 10011-2022聚乙烯共混聚氯乙烯高性能雙壁波紋管材
- T/CCT 008-2023智能化選煤廠建設分級評價
- T/CCMA 0167-2023施工升降機圖形符號
- T/CCAS 035-2023大宗散裝粉料(水泥)多式聯(lián)運罐式集裝箱技術規(guī)范
- 化工消防考試題及答案
- 國外服裝考試題及答案
- 公司面試題庫及答案
- 工作定位面試題及答案
- 改善環(huán)境面試題及答案
- 無機化學說課精講課件
- 靜脈輸液外滲的預防與處理完整版課件
- 民用無人駕駛航空器系統(tǒng)駕駛員訓練大綱
- 裝修客戶需求表
- 大樹遮陽腳手架搭設方案
- 鋼結構冷庫施工方案
- 外源水楊酸對高溫脅迫下甘藍幼苗生長及生理特性的影響-第1篇
- 模具材料及表面處理全優(yōu)秀課件
- 人教版八年級下冊英語全冊單詞表學生默寫版直接打印
- 國家開放大學《數(shù)據(jù)結構(本)》形考作業(yè)1-4參考答案
- 最全可自由編輯的中國各省市地圖
評論
0/150
提交評論