模式識別李春權(quán)第3章概率密度估計_第1頁
模式識別李春權(quán)第3章概率密度估計_第2頁
模式識別李春權(quán)第3章概率密度估計_第3頁
模式識別李春權(quán)第3章概率密度估計_第4頁
模式識別李春權(quán)第3章概率密度估計_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、模式識別:概率密度函數(shù)的估計,第3章 概率密度函 數(shù)的估計,目錄,3.1引言 3.2參數(shù)估計 3.3非參數(shù)估計,3.1 引言,分類器功能結(jié)構(gòu),貝葉斯分類器:,先驗概率,先驗概率的估計: 用訓(xùn)練數(shù)據(jù)中各類出現(xiàn)的頻率估計 經(jīng)驗,類條件概率分布估計的方法,離散 連續(xù),基因表達(dá)譜,列舉所有情況的概率,概率密度估計,混雜:離散、連續(xù),類條件概率密度估計的方法,類條件概率密度估計的兩種主要方法: 參數(shù)估計:概率密度函數(shù)的形式已知,而參數(shù)未知,通過訓(xùn)練數(shù)據(jù)來估計 最大似然估計 非參數(shù)估計:密度函數(shù)的形式未知,利用訓(xùn)練數(shù)據(jù)直接對概率密度進(jìn)行估計 Parzen窗法 kn-近鄰法,目錄,3.1引言 3.2參數(shù)估計

2、 3.3非參數(shù)估計,3.2.1 最大似然估計,Maximum Likelihood (ML) 極大似然原理的直觀想法是:一個隨機試驗如有若干個可能的結(jié)果A,B,C,。若在一次試驗中,結(jié)果A 出現(xiàn),則一般認(rèn)為試驗條件對A 出現(xiàn)有利,也即A 出現(xiàn)的概率很大 樣本集可按類別分開,不同類別的密度函數(shù)的參數(shù)分別用各類的樣本集來訓(xùn)練。 概率密度函數(shù)的形式已知,參數(shù)未知,為了描述概率密度函數(shù)p(x|i)與參數(shù)的依賴關(guān)系,用p(x|i ,)表示。,最大似然估計,似然函數(shù):,對數(shù)(loglarized)似然函數(shù):,似然函數(shù)(對數(shù)似然函數(shù))最大化:,估計結(jié)果,計算方法,最大似然估計量使似然函數(shù)梯度為0 :,一元正

3、態(tài)分布均值和方差的估計,一元正態(tài)分布均值和方差的估計,多元正態(tài)分布參數(shù)最大似然估計,例題:,已知四個樣本和三個屬性構(gòu)成的數(shù)據(jù)矩陣。使用最大似然估計獲得均值向量和協(xié)方差矩陣。,1 ,2 ,3 1, 1 5 9 2, 2 6 10 3, 3 7 11 4, 4 8 12,解:cov函數(shù)計算樣本協(xié)方差,已知y-matrix(c(1,2,3,4,5,6,7,8,9,10,11,12),4,3) 計算均值向量apply(y,2,mean) 得到結(jié)果為 2.5 6.5 10.5 用cov(y)計算樣本協(xié)方差矩陣得: ,1 ,2 ,3 1, 1.6667 1.6667 1.6667 2, 1.6667 1.

4、6667 1.6667 3, 1.6667 1.6667 1.6667,最大似然估計的協(xié)方差矩陣(3/4)*cov(y) ,1 ,2 ,3 1, 1.25 1.25 1.25 2, 1.25 1.25 1.25 3, 1.25 1.25 1.25,目錄,3.1引言 3.2參數(shù)估計 3.3非參數(shù)估計,3.3 非參數(shù)估計,非參數(shù)估計:密度函數(shù)的形式未知,也不作假設(shè),利用訓(xùn)練數(shù)據(jù)直接對概率密度進(jìn)行估計。 兩種主要方法: Parzen窗法 kN-近鄰法,基本方法,設(shè)樣本集為D=x1,x2,x3,每個樣本xi對以它為中心,寬度為h的范圍內(nèi)分布的貢獻(xiàn)為a,要想估計p(x),可以把每個樣本點的貢獻(xiàn)相加近似作

5、為這點的密度,對任意點都這樣做,則得到分布p(x)。當(dāng)N足夠大時,將有好的估計效果。,我們也可以認(rèn)為每個樣本對自己所在位置的分布貢獻(xiàn)最大,而離得越遠(yuǎn),則貢獻(xiàn)越小。所以表示為在樣本xi處對分布貢獻(xiàn)最大,而往兩邊越來越小的函數(shù)形式。,理論依據(jù),如果有N個樣本x1,xN是從p(x)的總體中獨立抽取的,則N個樣本中有k個落入?yún)^(qū)域R中的概率Pk等于二項分布:,當(dāng) 時,Pk的值最大。可取,兩種主要方法:Parzen窗法和kN-近鄰法,Parzen窗法 固定體積(例如: ),計算落入?yún)^(qū)域的樣本數(shù)k kN-近鄰法 固定落入?yún)^(qū)域樣本數(shù)k(例如: ),計算落入k個樣本需要的體積V,參數(shù)估計和非參數(shù)估計的使用范圍,

6、非參數(shù)估計: (1)樣本數(shù)量非常充足。 (2)樣本的分布形式未知。 參數(shù)估計: 貝葉斯- (1)樣本數(shù)量非常充足或很充足。 (2)樣本的分布形式已知。 樸素貝葉斯- (1)樣本數(shù)量非常充足、很充足或充足。 (2)樣本的分布形式已知。 (3)屬性之間近似獨立。,習(xí)題,類條件概率密度估計的兩種主要方法_和_。 類條件概率密度估計的非參數(shù)估計有兩種主要的方法_和_。它們的基本原理都是基于樣本對分布的_原則。 如果有N個樣本,可以計算樣本鄰域的體積V,然后獲得V中的樣本數(shù)k,那么P(x)=_。,假設(shè)正常細(xì)胞和癌細(xì)胞的樣本的類條件概率服從多元正態(tài)分布 ,使用最大似然估計方法,對概率密度的參數(shù)估計的結(jié)果為_。 證明:使用最大似然估計方法,對一元正態(tài)概率密度的參數(shù)估計的結(jié)果如下:,例題:,已知5個樣本和2個屬性構(gòu)成的數(shù)據(jù)集中,w1類有3個樣本,w2類有兩個樣本。如果使用貝葉斯方法設(shè)計分類器,需要獲得各類樣本的條件概率分布,現(xiàn)假設(shè)樣本服從多元正態(tài)分布 ,則只需獲得分布的參數(shù)均值向量和協(xié)方差矩陣即可,那么采用最大似然估計獲得的w1類的類條件概率密度均值向量為_,以及協(xié)方差矩陣為_。,計算機求解:計算樣本均值向量和協(xié)方差矩陣,已知y-matrix(c(1,1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論