樸素貝葉斯分類器詳細(xì)介紹_第1頁(yè)
樸素貝葉斯分類器詳細(xì)介紹_第2頁(yè)
樸素貝葉斯分類器詳細(xì)介紹_第3頁(yè)
樸素貝葉斯分類器詳細(xì)介紹_第4頁(yè)
樸素貝葉斯分類器詳細(xì)介紹_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、樸素貝葉斯分類器是一種應(yīng)用基于獨(dú)立假設(shè)的貝葉斯定理的簡(jiǎn)單概率分類器更精確的描述這種潛在的概率模型為獨(dú)立特征模型。目錄隱藏1簡(jiǎn)介2樸素貝葉斯概率模型3貝葉斯分類器特點(diǎn)4參數(shù)估計(jì)5樣本修正6從概率模型中構(gòu)造分類器7實(shí)例o7.1性別分類-7.1.1訓(xùn)練-二1.2測(cè)試O7.2文本分類8討論9參見10參考文獻(xiàn)11外部鏈接簡(jiǎn)介編輯貝葉斯分類的基礎(chǔ)是概率推理,就是在各種條件的存在不確定,僅知其出現(xiàn)概率的情況下,如何完成推理和決策任務(wù)。概率推理是與確定性推理相對(duì)應(yīng)的。而樸素貝葉斯分類器是基于獨(dú)立假設(shè)的,即假設(shè)樣本每個(gè)特征與其他特征都不相關(guān)。舉個(gè)例子,如果一種水果其具有紅,圓,直徑大概4英寸等特征,該水果可以被

2、判定為是蘋果。盡管這些特征相互依賴或者有些特征由其他特征決定,然而樸素貝葉斯分類器認(rèn)為這些屬性在判定該水果是否為蘋果的概率分布上獨(dú)立的。樸素貝葉斯分類器依靠精確的自然概率模型,在有監(jiān)督學(xué)習(xí)的樣本集中能獲取得非常好的分類效果。在許多實(shí)際應(yīng)用中,樸素貝葉斯模型參數(shù)估計(jì)使用最大似然估計(jì)方法,換而言之樸素貝葉斯模型能工作并沒有用到貝吐斯概峑或者任何貝葉斯模型。盡管是帶著這些樸素思想和過于簡(jiǎn)單化的假設(shè),但樸素貝葉斯分類器在很多復(fù)雜的現(xiàn)實(shí)情形中仍能夠取得相當(dāng)好的效果。2004年,一篇分析貝葉斯分類器問題的文章揭示了樸素貝葉斯分類器取得看上去不可思議的分類效果的若干理論上的原因。皿盡管如此,2006年有一篇

3、文章詳細(xì)比較了各種分類方法,發(fā)現(xiàn)更新的方法(如boostedtrees和隨機(jī)森林)的性能超過了貝葉斯分類器。型樸素貝葉斯分類器的一個(gè)優(yōu)勢(shì)在于只需要根據(jù)少量的訓(xùn)練數(shù)據(jù)估計(jì)出必要的參數(shù)(變量的均值和方差)。由于變量獨(dú)立假設(shè),只需要估計(jì)各個(gè)變量的方法,而不需要確定整個(gè)協(xié)方差矩陣。樸素貝葉斯概率模型編蚩理論上,概率模型分類器是一個(gè)條件概率模型。p(C|Fi,,凡)獨(dú)立的類別變量C有若干類別,條件依賴于若干特征變量珂,卩2,.,幾。但問題在于如果特征數(shù)量兀較大或者每個(gè)特征能取大量值時(shí),基于概率模型列出概率表變得不現(xiàn)實(shí)。所以我們修改這個(gè)模型使之變得可行。貝葉斯定理有以下式子:p(C|Fbp(C|Fb.,F

4、n)=譏C)p(幾,凡Q)p(rb.,Fn)用樸素的語(yǔ)言可以表達(dá)為:posterior=priorxlikelihoodevidenceposterior=實(shí)際中,我們只關(guān)心分式中的分子部分,因?yàn)榉帜覆灰蕾囉贑而且特征Fi的值是給定的,于是分母可以認(rèn)為是一個(gè)常數(shù)。這樣分子就等價(jià)于聯(lián)合分布模型。重復(fù)使用鏈?zhǔn)椒▌t,可將該式寫成條件概率的形式,如下所示:p(C|幾,凡p(C|幾,凡)C)p(碼,凡IGFJC)p(耳(碼,凡心用應(yīng))C)p(F2GFi)p(F3c,f15f2)p(F4?,用G幾理F3)C)p(F2C,Fi)p(F3.pFnCyFlyF2,F31.,Fn.cp(C)p(Ficxp(C)p

5、(F1ex(C)p(Fi現(xiàn)在“樸素”的條住獨(dú)立假設(shè)開始發(fā)揮作用:假設(shè)每個(gè)特征列對(duì)于其他特征巧,J豐是條件獨(dú)立的。這就意味著p(FiC,Fj)=pC)對(duì)于詳久所以聯(lián)合分布模型可以表達(dá)為p(C|幾,凡)exp(C)P(F1Q)P(F2|C)XF3|C).nrp(C)Jp(E|C)1=1這意味著上述假設(shè)下,類變量C的條件分布可以表達(dá)為:i九P幾占)=刃(7)HpMG厶1=1其中Z(證據(jù)因子)是一個(gè)只依賴與F1,,凡等的縮放因子,當(dāng)特征變量的值己知時(shí)是一個(gè)常數(shù)。由于分解成所謂的類先驗(yàn)概率卩()和獨(dú)立概率分布(用|),上述概率模型的可掌控性得到很大的提高。如果這是一個(gè)斤分類問題,且每個(gè)P(FiC=c)可

6、以表達(dá)為廠個(gè)參數(shù),于是相應(yīng)的樸素貝葉斯模型有(&-1)+nr個(gè)參數(shù)。實(shí)際應(yīng)用中,通常取丘=2(二分類問題),廠=1(伯努利分布作為特征),因此模型的參數(shù)個(gè)數(shù)為2厲+1,其中兀是二值分類特征的個(gè)數(shù)。貝葉斯分類器特點(diǎn)編輯1、需要知道先驗(yàn)概率先驗(yàn)概率是計(jì)算后驗(yàn)概率的基礎(chǔ)。在傳統(tǒng)的概率理論中,先驗(yàn)概率可以由大量的重復(fù)實(shí)驗(yàn)所獲得的各類樣本出現(xiàn)的頻率來(lái)近似獲得,其基礎(chǔ)是“大數(shù)定律”,這一思想稱為“頻率主義”。而在稱為“貝葉斯主義”的數(shù)理統(tǒng)計(jì)學(xué)派中,他們認(rèn)為時(shí)間是單向的,許多事件的發(fā)生不具有可重復(fù)性,因此先驗(yàn)概率只能根據(jù)對(duì)置信度的主觀判定來(lái)給出,也可以說由“信仰”來(lái)確定。2、按照獲得的信息對(duì)先驗(yàn)概率進(jìn)行修正

7、在沒有獲得任何信息的時(shí)候,如果要進(jìn)行分類判別,只能依據(jù)各類存在的先驗(yàn)概率,將樣本劃分到先驗(yàn)概率大的一類中。而在獲得了更多關(guān)于樣本特征的信息后,可以依照貝葉斯公式對(duì)先驗(yàn)概率進(jìn)行修正,得到后驗(yàn)概率,提高分類決策的準(zhǔn)確性和置信度。3、分類決策存在錯(cuò)誤率由于貝葉斯分類是在樣本取得某特征值時(shí)對(duì)它屬于各類的概率進(jìn)行推測(cè),并無(wú)法獲得樣本真實(shí)的類別歸屬情況,所以分類決策一定存在錯(cuò)誤率,即使錯(cuò)誤率很低,分類錯(cuò)誤的情況也可能發(fā)生。參數(shù)估計(jì)編輯只要知道先驗(yàn)概率(G和獨(dú)立概率分布(尺C),就可以設(shè)計(jì)出一個(gè)貝葉斯分類器。先驗(yàn)概率()不是一個(gè)分布函數(shù),僅僅是一個(gè)值,它表達(dá)了樣本空間中各個(gè)類的樣本所占數(shù)量的比例。依據(jù)大數(shù)定

8、理,當(dāng)訓(xùn)練集中樣本數(shù)量足夠多且來(lái)自于樣本空間的隨機(jī)選取時(shí),可以以訓(xùn)練集中各類樣本所占的比例來(lái)估計(jì)P(C)的值。獨(dú)立概率分布P(Fic)是以某種形式分布的概率密度函數(shù),需要從訓(xùn)練集中樣本特征的分布情況進(jìn)行估計(jì)。估計(jì)方法可以分為參數(shù)估計(jì)和非參數(shù)估計(jì)。參數(shù)估計(jì)先假定類條件概率密度具有某種確定的分布形式,如正態(tài)分布、二項(xiàng)分布,再用己經(jīng)具有類別標(biāo)簽的訓(xùn)練集對(duì)概率分布的參數(shù)進(jìn)行估計(jì)。非參數(shù)估計(jì)是在不知道或者不假設(shè)類條件概率密度的分布形式的基礎(chǔ)上,直接用樣本集中所包含的信息來(lái)估計(jì)樣本的概率分布情況。所有的模型參數(shù)都可以通過訓(xùn)練集的相關(guān)頻率來(lái)估計(jì)。常用方法是概率的最大似然估計(jì)。類的先驗(yàn)概率可以通過假設(shè)各類等概

9、率來(lái)計(jì)算(先驗(yàn)概率二1/(類的數(shù)量),或者通過訓(xùn)練集的各類樣本出現(xiàn)的次數(shù)來(lái)估計(jì)(A類先驗(yàn)概率二(A類樣本的數(shù)量)/(樣本總數(shù))o為了估計(jì)特征的分布參數(shù),我們要先假設(shè)訓(xùn)練集數(shù)據(jù)滿足某種分布或者非參數(shù)模型。型如果要處理的是連續(xù)數(shù)據(jù)一種通常的假設(shè)是這些連續(xù)數(shù)值為高斯分布。例如,假設(shè)訓(xùn)練集中有一個(gè)連續(xù)屬性,我們首先對(duì)數(shù)據(jù)根據(jù)類別分類,然后計(jì)算每個(gè)類別中的均值和方差。令表示為在c類上的均值,令為在c類上的方差。在給定類中某個(gè)值的概率,P(J=7JIC),可以通過將&表示為均值為“匕方差為正態(tài)分布計(jì)算出來(lái)。如下,P(x=l;|c)=ry6臥處理連續(xù)數(shù)值問題的另一種常用的技術(shù)是通過離散化連續(xù)數(shù)值的方法。通常

10、,當(dāng)訓(xùn)練樣本數(shù)量較少或者是精確的分布己知時(shí),通過概率分布的方法是一種更好的選擇。在大量樣本的情形下離散化的方法表現(xiàn)更優(yōu),因?yàn)榇罅康臉颖究梢詫W(xué)習(xí)到數(shù)據(jù)的分布。由于樸素貝葉斯是一種典型的用到大量樣本的方法(越大計(jì)算量的模型可以產(chǎn)生越高的分類精確度),所以樸素貝葉斯方法都用到離散化方法,而不是概率分布估計(jì)的方法。樣本修正編輯如果一個(gè)給定的類和特征值在訓(xùn)練集中沒有一起出現(xiàn)過,那么基于頻率的估計(jì)下該概率將為0。這將是一個(gè)問題。因?yàn)榕c其他概率相乘時(shí)將會(huì)把其他概率的信息統(tǒng)統(tǒng)去除。所以常常要求要對(duì)每個(gè)小類樣本的概率估計(jì)進(jìn)行修正,以保證不會(huì)出現(xiàn)有為0的概率出現(xiàn)。從概率模型中構(gòu)造分類器編輯討論至此為止我們導(dǎo)出了獨(dú)

11、立分布特征模型,也就是樸素貝葉斯概率模型。樸素貝葉斯分迤包括了這種模型和相應(yīng)的決策規(guī)則。根據(jù)分類決策規(guī)則的不同,貝葉斯分類有多種形式:最小錯(cuò)誤率貝葉斯分類器,最大似然比貝葉斯分類器,最小風(fēng)險(xiǎn)貝葉斯分類器。一個(gè)普通的規(guī)則就是選出最有可能的那個(gè),即將一個(gè)待分類樣本劃歸到后驗(yàn)概率最大的那一類中:這就是大家熟知的最大后驗(yàn)概率(MAP)決策準(zhǔn)則,真正分類器稱為最大后驗(yàn)概率分類器,與最小錯(cuò)誤率貝葉斯分類器是等價(jià)的。當(dāng)采取最大后驗(yàn)概率決策時(shí),分類錯(cuò)誤概率取得最小值。相應(yīng)的分類器便是如下定義的classify公式:nclassify(亢=argmaxp(C=c)p(Ft=ftC=c).cf=i獨(dú)立概率分布也稱

12、為類c對(duì)特征向量Fi的似然函數(shù),表達(dá)了某類中的樣本取某個(gè)特征值的可能性。PG)bj二P(/l9)稱為似然比,它與待識(shí)別的特征向量有關(guān);P(5)QU二卩稱為判決門限,它僅與兩類的先驗(yàn)概率有關(guān)。若Lij(QQij,對(duì)任意的1,2,.,c,丨不等于j,則屬于g。該分類器稱為最大似然比貝葉斯分類器。在最小錯(cuò)誤率貝葉斯分類器中,僅考慮了樣本屬于每一類的后驗(yàn)概率就做出了分類決策,而沒有考慮每一種分類決策的風(fēng)險(xiǎn)。在獲得樣本屬于每一類的后驗(yàn)概率后,需要綜合考慮做出各種分類決策所帶來(lái)的風(fēng)險(xiǎn),選擇風(fēng)險(xiǎn)最小的分類決策,稱為最小風(fēng)險(xiǎn)貝葉斯分類器。決策為:把待識(shí)別樣本x歸類到G類中;損失心久把真實(shí)屬于匂類的樣本x歸類到

13、G類中帶來(lái)的損失;條件風(fēng)險(xiǎn)R偽W):對(duì)X釆取決策鳥后可能的風(fēng)險(xiǎn);則最小風(fēng)險(xiǎn)貝葉斯分類器的分類決策規(guī)則為:若/?他|對(duì)=minR(oix)t=l?2r.?c,則*屬于堆。實(shí)例編輯性別分類編輯問題描述:通過一些測(cè)量的特征,包括身高、體重、腳的尺寸,判定一個(gè)人是男性還是女性。訓(xùn)練編輯訓(xùn)練數(shù)據(jù)如下:性別身高(英尺)體重(磅)腳的尺寸(英寸)男618012男5.92(5T1)19011男5.58(57)17012男5.92(5T1)16510女51006女556)1508女5.425)130L女5759)1509假設(shè)訓(xùn)練集樣本的特征滿足高斯分布,得到下表:性別均值(身高)性別均值(身高)方差(身高)均值

14、(體重)男性5.8553.5033e-02176.25女性5.41759.7225e-02132.5方差(體均值(腳的尺方差(腳的重)寸)尺寸)1.2292e+0211.259.1667e-0155833e+027.51.6667e+00我們認(rèn)為兩種類別是等概率的,也就是P(male)二P(female)二0.5。在沒有做辨識(shí)的情況下就做這樣的假設(shè)并不是一個(gè)好的點(diǎn)子。但我們通過數(shù)據(jù)集中兩類樣本出現(xiàn)的頻率來(lái)確定P(C),我們得到的結(jié)果也是一樣的。測(cè)試編輯以下給出一個(gè)待分類是男性還是女性的樣本。性別身高(英尺)體重(磅)腳的尺寸(英尺)sample61308sample61308我們希望得到的是男

15、性還是女性哪類的后驗(yàn)概率大。男性的后驗(yàn)概率通過下面式子來(lái)求取posteriormale)=一:一:evtdence女性的后驗(yàn)概率通過下面式子來(lái)求取丄一rP(于巳mol已)p(htight廿巳mak)p(w巳jemQg)p(扛l)QSTCf201JCH2Q.IC):evidence證據(jù)因子(通常是常數(shù))用來(lái)使各類的后驗(yàn)概率之和為1.evidence=Pmale)pheightmale)pweight|male)pfootsizemale)+P(證據(jù)因子是一個(gè)常數(shù)(在正態(tài)分布中通常是正數(shù)),所以可以忽略。接下來(lái)我們來(lái)判定這樣樣本的性別。P(male)=0.5p(height|male)=exp=5

16、.855卅=3妗磁血是訓(xùn)練集樣本的正態(tài)分布參數(shù).注意,這里的值大于1也是允許的-這里是概率密度而不是概率,因?yàn)樯砀呤且粋€(gè)連續(xù)的變量是訓(xùn)練集樣本的正態(tài)分布參數(shù).注意,這里p(weightmale)=5.9881e-06p(footsizemale)=1.3112e-3posteriornumerator(male)=6.1984eogfemale)=0.5p(heightfemale)2.2346e_1p(weightfemale)=1.6789廠p(footsize|female)=2.8669e_1posteriornumerator(female)=5.3778e04由于女性后驗(yàn)概率的分子

17、比較大,所以我們預(yù)計(jì)這個(gè)樣本是女性。文本分類編輯這是一個(gè)用樸素貝葉斯分類做的一個(gè)文圭分類問題的例子??紤]一個(gè)基于內(nèi)容的文本分類問題,例如判斷郵件是否為垃圾郵件。想像文本可以分成若干的類別,首先文本可以被一些單詞集標(biāo)注,而這個(gè)單詞集是獨(dú)立分布的,在給定的C類文本中第i個(gè)單詞出現(xiàn)的概率可以表示為:P(如C)(通過這種處理,我們進(jìn)一步簡(jiǎn)化了工作,假設(shè)每個(gè)單詞是在文中是隨機(jī)分布的-也就是單詞不依賴于文本的長(zhǎng)度,與其他詞出現(xiàn)在文中的位置,或者其他文本內(nèi)容。)對(duì)于一個(gè)給定類別G單詞的文本Q,概率表示為p(DC=lp(wtC)i我們要回答的問題是文檔Q屬于類c的概率是多少。換而言之P(C|)是多少?現(xiàn)在定義

18、通過貝葉斯定理將上述概率處理成似然度的形式PD)=p(DC)假設(shè)現(xiàn)在只有兩個(gè)相互獨(dú)立的類別,s和s(垃圾郵件和非垃圾郵件),這里每個(gè)元素(郵件)要么是垃圾郵件,要么就不是。P(DS)=Ypw.iS)P(D-S)=Yp(w.iS)用上述貝葉斯的結(jié)果,可以寫成譏sid)=黑口卩伽同P(S|D)=鶴口卩伽|伺兩者相除:衛(wèi)(S|D)PSD)_P(訥S)pE)UiPihs)整理得:衛(wèi)(S|D)p(S|D)_Pnp(w.iS)P(S)戸(嗎lS)這樣概率比p(s|Z?)/p(s|D)可以表達(dá)為似然比。實(shí)際的概率p(s|0)可以很容易通過log(p(sIZ?)/p(sIQ)計(jì)算出來(lái),基于p(sIZ?)+p(sI0)二1。結(jié)合上面所討論的概率比,可以得到:p(s|d)yp他LS)(這種對(duì)數(shù)似然比的技術(shù)在統(tǒng)計(jì)中是一種常用的技術(shù)。在這種兩個(gè)獨(dú)立的分類情況下(如這個(gè)垃圾郵件的例子),把對(duì)數(shù)似然比轉(zhuǎn)化為sigmoidcurve的形式)。時(shí)判定為最后文本可以分類,當(dāng)”(S|D)Ap(S|D)或者時(shí)判定為垃圾郵件,否則為正常郵件。討論編輯盡管實(shí)際上獨(dú)立

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論