下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
本文格式為Word版,下載可任意編輯——簡樸貝葉斯算法簡樸貝葉斯算法
1.算法簡介
簡樸貝葉斯分類是一種十分簡單的分類算法,叫它簡樸貝葉斯分類是由于這種方法的思想真的很簡樸,簡樸貝葉斯的思想基礎(chǔ)是:對于給出的待分類項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率,哪個(gè)最大,就認(rèn)為此待分類項(xiàng)屬于哪個(gè)類別。
2.算法定義
簡樸貝葉斯分類的正式定義如下:1)設(shè)2)有類別集合3)計(jì)算4)假使
為一個(gè)待分類項(xiàng),而每個(gè)a為x的一個(gè)特征屬性;
;。
,則
。
其中關(guān)鍵是如何計(jì)算步驟3)中的各個(gè)條件概率。計(jì)算過程如下:(1)找到一個(gè)已知分類的待分類項(xiàng)集合,該集合稱為訓(xùn)練樣本集。(2)統(tǒng)計(jì)得到在各類別下各個(gè)特征屬性的條件概率估計(jì)。即
(3)假使各個(gè)特征屬性是條件獨(dú)立的,則根據(jù)貝葉斯定理有如下推導(dǎo):
由于分母對于所有類別為常數(shù),因此只要將分子最大化皆可。又由于各特征屬性是條件獨(dú)立的,所以有:
可以看到,整個(gè)簡樸貝葉斯分類分為三個(gè)階段:
第一階段——準(zhǔn)備工作階段,這個(gè)階段的任務(wù)是為簡樸貝葉斯分類做必要的準(zhǔn)備,主要工作是根據(jù)具體狀況確定特征屬性,并對每個(gè)特征屬性進(jìn)行適當(dāng)劃分,然后由人工對一部分待分類項(xiàng)進(jìn)行分類,形成訓(xùn)練樣本集合。這一階段的輸入是所有待分類數(shù)據(jù),輸出是特征屬性和訓(xùn)練樣本。這一階段是整個(gè)簡樸貝葉斯分類中唯一需要人工完成的階段,其質(zhì)量對整個(gè)過程將有重要影響,分類器的質(zhì)量很大程度上由特征屬性、特征屬性劃分及訓(xùn)練樣本質(zhì)量決定。
其次階段——分類器訓(xùn)練階段,這個(gè)階段的任務(wù)就是生成分類器,主要工作是計(jì)算每個(gè)類別在訓(xùn)練樣本中的出現(xiàn)頻率及每個(gè)特征屬性劃分對每個(gè)類別的條
件概率估計(jì),并將結(jié)果記錄。其輸入是特征屬性和訓(xùn)練樣本,輸出是分類器。這一階段是機(jī)械性階段,根據(jù)前面探討的公式可以由程序自動(dòng)計(jì)算完成。
第三階段——應(yīng)用階段。這個(gè)階段的任務(wù)是使用分類器對待分類項(xiàng)進(jìn)行分類,其輸入是分類器和待分類項(xiàng),輸出是待分類項(xiàng)與類別的映射關(guān)系。這一階段也是機(jī)械性階段,由程序完成。
3.估計(jì)類別下特征屬性劃分的條件概率及Laplace校準(zhǔn)
?估計(jì)類別下特征屬性劃分的條件概率
計(jì)算各個(gè)劃分的條件概率P(a|y)是簡樸貝葉斯分類的關(guān)鍵性步驟,當(dāng)特征屬性為離散值時(shí),只要很便利的統(tǒng)計(jì)訓(xùn)練樣本中各個(gè)劃分在每個(gè)類別中出現(xiàn)的頻率即可用來估計(jì)P(a|y),下面重點(diǎn)探討特征屬性是連續(xù)值的狀況。
當(dāng)特征屬性為連續(xù)值時(shí),尋常假定其值聽從高斯分布(也稱正態(tài)分布)。即:
而
因此只要計(jì)算出訓(xùn)練樣本中各個(gè)類別中此特征項(xiàng)劃分的各均值和標(biāo)準(zhǔn)差,代入上述公式即可得到需要的估計(jì)值。?Laplace校準(zhǔn)
當(dāng)某個(gè)類別下某個(gè)特征項(xiàng)劃分沒有出現(xiàn)時(shí),會(huì)產(chǎn)生P(a|y)=0的現(xiàn)象,這會(huì)令分類器質(zhì)量大大降低。為了解決這個(gè)問題,引入Laplace校準(zhǔn),就是對每個(gè)類別下所有劃分的計(jì)數(shù)加1,這樣假使訓(xùn)練樣本集數(shù)量充分大時(shí),并不會(huì)對結(jié)果產(chǎn)生影響,并且解決了上述頻率為0的難堪局面。
?Laplace校準(zhǔn)詳解
假設(shè)離散型隨機(jī)變量z有{1,2,…,k}共k個(gè)值,用?j?p(z?j),j?{1,2,?,k}來表示每個(gè)值的概率。假設(shè)在m個(gè)訓(xùn)練樣本中,z的觀測值是每一個(gè)觀測值對應(yīng)k個(gè)值中的一個(gè)。那么z=j出現(xiàn)的概率為:
其中
Laplace校準(zhǔn)將每個(gè)特征值出現(xiàn)次數(shù)事先都加1,通俗講就是假設(shè)它們都出現(xiàn)過一次。那么修改后的表達(dá)式為:
每個(gè)z=j的分子都加1,分母加k,可見?簡樸貝葉斯中Laplace校準(zhǔn)
。
假設(shè)特征變量x有{x1,x2,?,xk}共k個(gè)特征值,類別特征c有{C1,C2,?,Cn}共n個(gè)標(biāo)簽值,則C1類別下x1特征值的條件概率為:
P(x?x1|c?C1)?類別C1中特征x?x1的樣本個(gè)數(shù)
所有樣本中類別C1個(gè)數(shù)Laplace校驗(yàn)修正的條件概率為:
P(x?x1|c?C1)?類別C1中特征x?x1的樣本個(gè)數(shù)+1
所有樣本中類別C1個(gè)數(shù)+k4.算法實(shí)例
下面探討一個(gè)使用簡樸貝葉斯分類解決實(shí)際問題的例子(檢測SNS社區(qū)中不真實(shí)賬號(hào)),為了簡單起見,對例子中的數(shù)據(jù)做了適當(dāng)?shù)暮喕?/p>
對于SNS社區(qū)來說,不真實(shí)賬號(hào)(使用虛假身份或用戶的小號(hào))是一個(gè)普遍存在的問題,作為SNS社區(qū)的運(yùn)營商,希望可以檢測出這些不真實(shí)賬號(hào),從而在一些運(yùn)營分析報(bào)告中避免這些賬號(hào)的干擾,亦可以加強(qiáng)對SNS社區(qū)的了解與監(jiān)管。假使通過純?nèi)斯z測,需要花費(fèi)大量的人力,效率也十分低下,如能引入自動(dòng)檢測機(jī)制,必將大大提升工作效率。在此采用簡樸貝葉斯算法將社區(qū)中所有賬號(hào)在真實(shí)賬號(hào)和不真實(shí)賬號(hào)兩個(gè)類別上進(jìn)行分類,下面具體介紹該算法實(shí)現(xiàn)過程。
首先設(shè)C=0表示真實(shí)賬號(hào),C=1表示不真實(shí)賬號(hào)。1)確定特征屬性及劃分
這一步要找出可以幫助我們區(qū)分真實(shí)賬號(hào)與不真實(shí)賬號(hào)的特征屬性,在實(shí)際應(yīng)用中,特征屬性的數(shù)量是好多的,劃分也會(huì)比較細(xì)致,但這里為了簡單起見,用少量的特征屬性
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 埃萊爾-當(dāng)洛綜合征的臨床護(hù)理
- JJF(陜) 111-2024 超聲流量計(jì)在線校準(zhǔn)規(guī)范
- 《教綜合布線技術(shù)》課件
- 《保險(xiǎn)家庭財(cái)產(chǎn)保險(xiǎn)》課件
- 風(fēng)險(xiǎn)識(shí)別與評估技巧培訓(xùn)
- 培養(yǎng)創(chuàng)新思維的方法計(jì)劃
- 深入分析行業(yè)趨勢制定行動(dòng)方案計(jì)劃
- 2024-2025學(xué)年九年級(jí)數(shù)學(xué)人教版下冊專題整合復(fù)習(xí)卷第28章 銳角三角函數(shù)整章測試(含答案)
- 杠桿基金合同三篇
- 拖拉機(jī)及農(nóng)林牧漁用掛車相關(guān)行業(yè)投資方案
- 海灣200型火災(zāi)自動(dòng)報(bào)警系統(tǒng)操作說明
- 肘關(guān)節(jié)的解剖課件
- 《音樂學(xué)科課程標(biāo)準(zhǔn)與教材分析》課程教學(xué)大綱
- 英語培訓(xùn)班招生宣傳海報(bào)
- DB32∕T 3690-2019 600MPa熱處理、熱軋帶肋鋼筋混凝土結(jié)構(gòu)技術(shù)規(guī)程
- 風(fēng)濕病概述及中國風(fēng)濕病發(fā)展情況ppt
- 2021年食品安全監(jiān)督抽檢培訓(xùn)完整版PPT課件
- 部編二年級(jí)下冊語文詞語表帶拼音
- 檢測大綱-整車檢驗(yàn)、過程檢驗(yàn)、零部件入廠檢驗(yàn)、關(guān)鍵部位檢驗(yàn)、成品入庫檢驗(yàn)
- 托輥技術(shù)規(guī)格書
- CRH2型動(dòng)車組一級(jí)檢修作業(yè)辦法081222
評論
0/150
提交評論