模式識(shí)別李春權(quán)第3章概率密度估計(jì)_第1頁
模式識(shí)別李春權(quán)第3章概率密度估計(jì)_第2頁
模式識(shí)別李春權(quán)第3章概率密度估計(jì)_第3頁
模式識(shí)別李春權(quán)第3章概率密度估計(jì)_第4頁
模式識(shí)別李春權(quán)第3章概率密度估計(jì)_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、模式識(shí)別:概率密度函數(shù)的估計(jì),第3章 概率密度函 數(shù)的估計(jì),目錄,3.1引言 3.2參數(shù)估計(jì) 3.3非參數(shù)估計(jì),3.1 引言,分類器功能結(jié)構(gòu),貝葉斯分類器:,先驗(yàn)概率,先驗(yàn)概率的估計(jì): 用訓(xùn)練數(shù)據(jù)中各類出現(xiàn)的頻率估計(jì) 經(jīng)驗(yàn),類條件概率分布估計(jì)的方法,離散 連續(xù),基因表達(dá)譜,列舉所有情況的概率,概率密度估計(jì),混雜:離散、連續(xù),類條件概率密度估計(jì)的方法,類條件概率密度估計(jì)的兩種主要方法: 參數(shù)估計(jì):概率密度函數(shù)的形式已知,而參數(shù)未知,通過訓(xùn)練數(shù)據(jù)來估計(jì) 最大似然估計(jì) 非參數(shù)估計(jì):密度函數(shù)的形式未知,利用訓(xùn)練數(shù)據(jù)直接對(duì)概率密度進(jìn)行估計(jì) Parzen窗法 kn-近鄰法,目錄,3.1引言 3.2參數(shù)估計(jì)

2、 3.3非參數(shù)估計(jì),3.2.1 最大似然估計(jì),Maximum Likelihood (ML) 極大似然原理的直觀想法是:一個(gè)隨機(jī)試驗(yàn)如有若干個(gè)可能的結(jié)果A,B,C,。若在一次試驗(yàn)中,結(jié)果A 出現(xiàn),則一般認(rèn)為試驗(yàn)條件對(duì)A 出現(xiàn)有利,也即A 出現(xiàn)的概率很大 樣本集可按類別分開,不同類別的密度函數(shù)的參數(shù)分別用各類的樣本集來訓(xùn)練。 概率密度函數(shù)的形式已知,參數(shù)未知,為了描述概率密度函數(shù)p(x|i)與參數(shù)的依賴關(guān)系,用p(x|i ,)表示。,最大似然估計(jì),似然函數(shù):,對(duì)數(shù)(loglarized)似然函數(shù):,似然函數(shù)(對(duì)數(shù)似然函數(shù))最大化:,估計(jì)結(jié)果,計(jì)算方法,最大似然估計(jì)量使似然函數(shù)梯度為0 :,一元正

3、態(tài)分布均值和方差的估計(jì),一元正態(tài)分布均值和方差的估計(jì),多元正態(tài)分布參數(shù)最大似然估計(jì),例題:,已知四個(gè)樣本和三個(gè)屬性構(gòu)成的數(shù)據(jù)矩陣。使用最大似然估計(jì)獲得均值向量和協(xié)方差矩陣。,1 ,2 ,3 1, 1 5 9 2, 2 6 10 3, 3 7 11 4, 4 8 12,解:cov函數(shù)計(jì)算樣本協(xié)方差,已知y-matrix(c(1,2,3,4,5,6,7,8,9,10,11,12),4,3) 計(jì)算均值向量apply(y,2,mean) 得到結(jié)果為 2.5 6.5 10.5 用cov(y)計(jì)算樣本協(xié)方差矩陣得: ,1 ,2 ,3 1, 1.6667 1.6667 1.6667 2, 1.6667 1.

4、6667 1.6667 3, 1.6667 1.6667 1.6667,最大似然估計(jì)的協(xié)方差矩陣(3/4)*cov(y) ,1 ,2 ,3 1, 1.25 1.25 1.25 2, 1.25 1.25 1.25 3, 1.25 1.25 1.25,目錄,3.1引言 3.2參數(shù)估計(jì) 3.3非參數(shù)估計(jì),3.3 非參數(shù)估計(jì),非參數(shù)估計(jì):密度函數(shù)的形式未知,也不作假設(shè),利用訓(xùn)練數(shù)據(jù)直接對(duì)概率密度進(jìn)行估計(jì)。 兩種主要方法: Parzen窗法 kN-近鄰法,基本方法,設(shè)樣本集為D=x1,x2,x3,每個(gè)樣本xi對(duì)以它為中心,寬度為h的范圍內(nèi)分布的貢獻(xiàn)為a,要想估計(jì)p(x),可以把每個(gè)樣本點(diǎn)的貢獻(xiàn)相加近似作

5、為這點(diǎn)的密度,對(duì)任意點(diǎn)都這樣做,則得到分布p(x)。當(dāng)N足夠大時(shí),將有好的估計(jì)效果。,我們也可以認(rèn)為每個(gè)樣本對(duì)自己所在位置的分布貢獻(xiàn)最大,而離得越遠(yuǎn),則貢獻(xiàn)越小。所以表示為在樣本xi處對(duì)分布貢獻(xiàn)最大,而往兩邊越來越小的函數(shù)形式。,理論依據(jù),如果有N個(gè)樣本x1,xN是從p(x)的總體中獨(dú)立抽取的,則N個(gè)樣本中有k個(gè)落入?yún)^(qū)域R中的概率Pk等于二項(xiàng)分布:,當(dāng) 時(shí),Pk的值最大。可取,兩種主要方法:Parzen窗法和kN-近鄰法,Parzen窗法 固定體積(例如: ),計(jì)算落入?yún)^(qū)域的樣本數(shù)k kN-近鄰法 固定落入?yún)^(qū)域樣本數(shù)k(例如: ),計(jì)算落入k個(gè)樣本需要的體積V,參數(shù)估計(jì)和非參數(shù)估計(jì)的使用范圍,

6、非參數(shù)估計(jì): (1)樣本數(shù)量非常充足。 (2)樣本的分布形式未知。 參數(shù)估計(jì): 貝葉斯- (1)樣本數(shù)量非常充足或很充足。 (2)樣本的分布形式已知。 樸素貝葉斯- (1)樣本數(shù)量非常充足、很充足或充足。 (2)樣本的分布形式已知。 (3)屬性之間近似獨(dú)立。,習(xí)題,類條件概率密度估計(jì)的兩種主要方法_和_。 類條件概率密度估計(jì)的非參數(shù)估計(jì)有兩種主要的方法_和_。它們的基本原理都是基于樣本對(duì)分布的_原則。 如果有N個(gè)樣本,可以計(jì)算樣本鄰域的體積V,然后獲得V中的樣本數(shù)k,那么P(x)=_。,假設(shè)正常細(xì)胞和癌細(xì)胞的樣本的類條件概率服從多元正態(tài)分布 ,使用最大似然估計(jì)方法,對(duì)概率密度的參數(shù)估計(jì)的結(jié)果為_。 證明:使用最大似然估計(jì)方法,對(duì)一元正態(tài)概率密度的參數(shù)估計(jì)的結(jié)果如下:,例題:,已知5個(gè)樣本和2個(gè)屬性構(gòu)成的數(shù)據(jù)集中,w1類有3個(gè)樣本,w2類有兩個(gè)樣本。如果使用貝葉斯方法設(shè)計(jì)分類器,需要獲得各類樣本的條件概率分布,現(xiàn)假設(shè)樣本服從多元正態(tài)分布 ,則只需獲得分布的參數(shù)均值向量和協(xié)方差矩陣即可,那么采用最大似然估計(jì)獲得的w1類的類條件概率密度均值向量為_,以及協(xié)方差矩陣為_。,計(jì)算機(jī)求解:計(jì)算樣本均值向量和協(xié)方差矩陣,已知y-matrix(c(1,1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論