簡樸貝葉斯算法_第1頁
簡樸貝葉斯算法_第2頁
簡樸貝葉斯算法_第3頁
簡樸貝葉斯算法_第4頁
簡樸貝葉斯算法_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

本文格式為Word版,下載可任意編輯——簡樸貝葉斯算法簡樸貝葉斯算法

1.算法簡介

簡樸貝葉斯分類是一種十分簡單的分類算法,叫它簡樸貝葉斯分類是由于這種方法的思想真的很簡樸,簡樸貝葉斯的思想基礎(chǔ)是:對于給出的待分類項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率,哪個(gè)最大,就認(rèn)為此待分類項(xiàng)屬于哪個(gè)類別。

2.算法定義

簡樸貝葉斯分類的正式定義如下:1)設(shè)2)有類別集合3)計(jì)算4)假使

為一個(gè)待分類項(xiàng),而每個(gè)a為x的一個(gè)特征屬性;

;。

,則

其中關(guān)鍵是如何計(jì)算步驟3)中的各個(gè)條件概率。計(jì)算過程如下:(1)找到一個(gè)已知分類的待分類項(xiàng)集合,該集合稱為訓(xùn)練樣本集。(2)統(tǒng)計(jì)得到在各類別下各個(gè)特征屬性的條件概率估計(jì)。即

(3)假使各個(gè)特征屬性是條件獨(dú)立的,則根據(jù)貝葉斯定理有如下推導(dǎo):

由于分母對于所有類別為常數(shù),因此只要將分子最大化皆可。又由于各特征屬性是條件獨(dú)立的,所以有:

可以看到,整個(gè)簡樸貝葉斯分類分為三個(gè)階段:

第一階段——準(zhǔn)備工作階段,這個(gè)階段的任務(wù)是為簡樸貝葉斯分類做必要的準(zhǔn)備,主要工作是根據(jù)具體狀況確定特征屬性,并對每個(gè)特征屬性進(jìn)行適當(dāng)劃分,然后由人工對一部分待分類項(xiàng)進(jìn)行分類,形成訓(xùn)練樣本集合。這一階段的輸入是所有待分類數(shù)據(jù),輸出是特征屬性和訓(xùn)練樣本。這一階段是整個(gè)簡樸貝葉斯分類中唯一需要人工完成的階段,其質(zhì)量對整個(gè)過程將有重要影響,分類器的質(zhì)量很大程度上由特征屬性、特征屬性劃分及訓(xùn)練樣本質(zhì)量決定。

其次階段——分類器訓(xùn)練階段,這個(gè)階段的任務(wù)就是生成分類器,主要工作是計(jì)算每個(gè)類別在訓(xùn)練樣本中的出現(xiàn)頻率及每個(gè)特征屬性劃分對每個(gè)類別的條

件概率估計(jì),并將結(jié)果記錄。其輸入是特征屬性和訓(xùn)練樣本,輸出是分類器。這一階段是機(jī)械性階段,根據(jù)前面探討的公式可以由程序自動(dòng)計(jì)算完成。

第三階段——應(yīng)用階段。這個(gè)階段的任務(wù)是使用分類器對待分類項(xiàng)進(jìn)行分類,其輸入是分類器和待分類項(xiàng),輸出是待分類項(xiàng)與類別的映射關(guān)系。這一階段也是機(jī)械性階段,由程序完成。

3.估計(jì)類別下特征屬性劃分的條件概率及Laplace校準(zhǔn)

?估計(jì)類別下特征屬性劃分的條件概率

計(jì)算各個(gè)劃分的條件概率P(a|y)是簡樸貝葉斯分類的關(guān)鍵性步驟,當(dāng)特征屬性為離散值時(shí),只要很便利的統(tǒng)計(jì)訓(xùn)練樣本中各個(gè)劃分在每個(gè)類別中出現(xiàn)的頻率即可用來估計(jì)P(a|y),下面重點(diǎn)探討特征屬性是連續(xù)值的狀況。

當(dāng)特征屬性為連續(xù)值時(shí),尋常假定其值聽從高斯分布(也稱正態(tài)分布)。即:

因此只要計(jì)算出訓(xùn)練樣本中各個(gè)類別中此特征項(xiàng)劃分的各均值和標(biāo)準(zhǔn)差,代入上述公式即可得到需要的估計(jì)值。?Laplace校準(zhǔn)

當(dāng)某個(gè)類別下某個(gè)特征項(xiàng)劃分沒有出現(xiàn)時(shí),會(huì)產(chǎn)生P(a|y)=0的現(xiàn)象,這會(huì)令分類器質(zhì)量大大降低。為了解決這個(gè)問題,引入Laplace校準(zhǔn),就是對每個(gè)類別下所有劃分的計(jì)數(shù)加1,這樣假使訓(xùn)練樣本集數(shù)量充分大時(shí),并不會(huì)對結(jié)果產(chǎn)生影響,并且解決了上述頻率為0的難堪局面。

?Laplace校準(zhǔn)詳解

假設(shè)離散型隨機(jī)變量z有{1,2,…,k}共k個(gè)值,用?j?p(z?j),j?{1,2,?,k}來表示每個(gè)值的概率。假設(shè)在m個(gè)訓(xùn)練樣本中,z的觀測值是每一個(gè)觀測值對應(yīng)k個(gè)值中的一個(gè)。那么z=j出現(xiàn)的概率為:

其中

Laplace校準(zhǔn)將每個(gè)特征值出現(xiàn)次數(shù)事先都加1,通俗講就是假設(shè)它們都出現(xiàn)過一次。那么修改后的表達(dá)式為:

每個(gè)z=j的分子都加1,分母加k,可見?簡樸貝葉斯中Laplace校準(zhǔn)

。

假設(shè)特征變量x有{x1,x2,?,xk}共k個(gè)特征值,類別特征c有{C1,C2,?,Cn}共n個(gè)標(biāo)簽值,則C1類別下x1特征值的條件概率為:

P(x?x1|c?C1)?類別C1中特征x?x1的樣本個(gè)數(shù)

所有樣本中類別C1個(gè)數(shù)Laplace校驗(yàn)修正的條件概率為:

P(x?x1|c?C1)?類別C1中特征x?x1的樣本個(gè)數(shù)+1

所有樣本中類別C1個(gè)數(shù)+k4.算法實(shí)例

下面探討一個(gè)使用簡樸貝葉斯分類解決實(shí)際問題的例子(檢測SNS社區(qū)中不真實(shí)賬號(hào)),為了簡單起見,對例子中的數(shù)據(jù)做了適當(dāng)?shù)暮喕?/p>

對于SNS社區(qū)來說,不真實(shí)賬號(hào)(使用虛假身份或用戶的小號(hào))是一個(gè)普遍存在的問題,作為SNS社區(qū)的運(yùn)營商,希望可以檢測出這些不真實(shí)賬號(hào),從而在一些運(yùn)營分析報(bào)告中避免這些賬號(hào)的干擾,亦可以加強(qiáng)對SNS社區(qū)的了解與監(jiān)管。假使通過純?nèi)斯z測,需要花費(fèi)大量的人力,效率也十分低下,如能引入自動(dòng)檢測機(jī)制,必將大大提升工作效率。在此采用簡樸貝葉斯算法將社區(qū)中所有賬號(hào)在真實(shí)賬號(hào)和不真實(shí)賬號(hào)兩個(gè)類別上進(jìn)行分類,下面具體介紹該算法實(shí)現(xiàn)過程。

首先設(shè)C=0表示真實(shí)賬號(hào),C=1表示不真實(shí)賬號(hào)。1)確定特征屬性及劃分

這一步要找出可以幫助我們區(qū)分真實(shí)賬號(hào)與不真實(shí)賬號(hào)的特征屬性,在實(shí)際應(yīng)用中,特征屬性的數(shù)量是好多的,劃分也會(huì)比較細(xì)致,但這里為了簡單起見,用少量的特征屬性

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論