基于貝葉斯的文本分類_第1頁
基于貝葉斯的文本分類_第2頁
基于貝葉斯的文本分類_第3頁
基于貝葉斯的文本分類_第4頁
基于貝葉斯的文本分類_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院課程作業(yè)課程名稱: 本文信息處理 作業(yè)題目: 基于樸素貝葉斯實(shí)現(xiàn)文本分類 姓 名: 趙 華 學(xué) 號: 114107000778 成 績: 任課教師評語: 簽名: 年 月 日基于樸素貝葉斯實(shí)現(xiàn)文本分類摘要貝葉斯分類是一類分類算法的總稱,這類算法均以貝葉斯定理為基礎(chǔ),故統(tǒng)稱為貝葉斯分類。本文作為分類算法的第一篇,將首先介紹分類問題,對分類問題進(jìn)行一個正式的定義。然后,介紹貝葉斯分類算法的基礎(chǔ)貝葉斯定理。最后,通過實(shí)例討論貝葉斯分類中最簡單的一種:樸素貝葉斯分類。關(guān)鍵詞社區(qū)發(fā)現(xiàn)標(biāo)簽傳播算法社會網(wǎng)絡(luò)分析社區(qū)結(jié)構(gòu)1引言數(shù)據(jù)挖掘在上個世紀(jì)末在數(shù)據(jù)的智能分析技術(shù)上得到了廣泛的應(yīng)用。分

2、類作為數(shù)據(jù)挖掘中一項非常重要的任務(wù),目前在商業(yè)上應(yīng)用很多。分類的目的是學(xué)會一個分類函數(shù)或分類模型(也常常稱作分類器),該分類器可以將數(shù)據(jù)集合中的數(shù)據(jù)項映射到給定類別中的某一個,從而可以用于后續(xù)數(shù)據(jù)的預(yù)測和狀態(tài)決策。目前,分類方法的研究成果較多,判別方法的好壞可以從三個方面進(jìn)行:1)預(yù)測準(zhǔn)確度,對非樣本數(shù)據(jù)的判別準(zhǔn)確度;2)計算復(fù)雜度,方法實(shí)現(xiàn)時對時間和空間的復(fù)雜度;3)模式的簡潔度,在同樣效果情況下,希望決策樹小或規(guī)則少。分類是數(shù)據(jù)分析和機(jī)器學(xué)習(xí)領(lǐng)域的基本問題。沒有一個分類方法在對所有數(shù)據(jù)集上進(jìn)行分類學(xué)習(xí)均是最優(yōu)的。從數(shù)據(jù)中學(xué)習(xí)高精度的分類器近年來一直是研究的熱點(diǎn)。各種不同的方法都可以用來學(xué)習(xí)

3、分類器。例如,人工神經(jīng)元網(wǎng)絡(luò)1、決策樹2、非參數(shù)學(xué)習(xí)算法3等等。與其他精心設(shè)計的分類器相比,樸素貝葉斯分類器4是學(xué)習(xí)效率和分類效果較好的分類器之一。樸素貝葉斯方法,是目前公認(rèn)的一種簡單有效的分類方法,它是一種基于概率的分類方法,被廣泛地應(yīng)用于模式識別、自然語言處理、機(jī)器人導(dǎo)航、規(guī)劃、機(jī)器學(xué)習(xí)以及利用貝葉斯網(wǎng)絡(luò)技術(shù)構(gòu)建和分析軟件系統(tǒng)。2貝葉斯分類2.1分類問題綜述對于分類問題,其實(shí)誰都不會陌生,說我們每個人每天都在執(zhí)行分類操作一點(diǎn)都不夸張,只是我們沒有意識到罷了。例如,當(dāng)你看到一個陌生人,你的腦子下意識判斷TA是男是女;你可能經(jīng)常會走在路上對身旁的朋友說“這個人一看就很有錢、那邊有個非主流”之類

4、的話,其實(shí)這就是一種分類操作。從數(shù)學(xué)角度來說,分類問題可做如下定義:已知集合:和,確定映射規(guī)則,使得任意有且僅有一個使得成立。(不考慮模糊數(shù)學(xué)里的模糊集情況)其中C叫做類別集合,其中每一個元素是一個類別,而I叫做項集合,其中每一個元素是一個待分類項,f叫做分類器。分類算法的任務(wù)就是構(gòu)造分類器f。這里要著重強(qiáng)調(diào),分類問題往往采用經(jīng)驗性方法構(gòu)造映射規(guī)則,即一般情況下的分類問題缺少足夠的信息來構(gòu)造100%正確的映射規(guī)則,而是通過對經(jīng)驗數(shù)據(jù)的學(xué)習(xí)從而實(shí)現(xiàn)一定概率意義上正確的分類,因此所訓(xùn)練出的分類器并不是一定能將每個待分類項準(zhǔn)確映射到其分類,分類器的質(zhì)量與分類器構(gòu)造方法、待分類數(shù)據(jù)的特性以及訓(xùn)練樣本數(shù)

5、量等諸多因素有關(guān)。例如,醫(yī)生對病人進(jìn)行診斷就是一個典型的分類過程,任何一個醫(yī)生都無法直接看到病人的病情,只能觀察病人表現(xiàn)出的癥狀和各種化驗檢測數(shù)據(jù)來推斷病情,這時醫(yī)生就好比一個分類器,而這個醫(yī)生診斷的準(zhǔn)確率,與他當(dāng)初受到的教育方式(構(gòu)造方法)、病人的癥狀是否突出(待分類數(shù)據(jù)的特性)以及醫(yī)生的經(jīng)驗多少(訓(xùn)練樣本數(shù)量)都有密切關(guān)系。2.2貝葉斯分類的基礎(chǔ)貝葉斯定理貝葉斯定理解決了現(xiàn)實(shí)生活里經(jīng)常遇到的問題:已知某條件概率,如何得到兩個事件交換后的概率,也就是在已知P(A|B)的情況下如何求得P(B|A)。這里先解釋什么是條件概率:表示事件B已經(jīng)發(fā)生的前提下,事件A發(fā)生的概率,叫做事件B發(fā)生下事件A的

6、條件概率。其基本求解公式為:貝葉斯定理之所以有用,是因為我們在生活中經(jīng)常遇到這種情況:我們可以很容易直接得出P(A|B),P(B|A)則很難直接得出,但我們更關(guān)心P(B|A),貝葉斯定理就為我們打通從P(A|B)獲得P(B|A)的道路。貝葉斯定理公式如下:2.3樸素貝葉斯分類的原理與流程樸素貝葉斯分類是一種十分簡單的分類算法,叫它樸素貝葉斯分類是因為這種方法的思想真的很樸素,樸素貝葉斯的思想基礎(chǔ)是這樣的:對于給出的待分類項,求解在此項出現(xiàn)的條件下各個類別出現(xiàn)的概率,哪個最大,就認(rèn)為此待分類項屬于哪個類別。通俗來說,就好比這么個道理,你在街上看到一個黑人,我問你你猜這哥們哪里來的,你十有八九猜非

7、洲。為什么呢?因為黑人中非洲人的比率最高,當(dāng)然人家也可能是美洲人或亞洲人,但在沒有其它可用信息下,我們會選擇條件概率最大的類別,這就是樸素貝葉斯的思想基礎(chǔ)。樸素貝葉斯分類的正式定義如下:1、設(shè)為一個待分類項,而每個a為x的一個特征屬性。2、有類別集合。3、計算。4、如果,則。那么現(xiàn)在的關(guān)鍵就是如何計算第3步中的各個條件概率。我們可以這么做:1、找到一個已知分類的待分類項集合,這個集合叫做訓(xùn)練樣本集。2、統(tǒng)計得到在各類別下各個特征屬性的條件概率估計。即3、如果各個特征屬性是條件獨(dú)立的,則根據(jù)貝葉斯定理有如下推導(dǎo):因為分母對于所有類別為常數(shù),因為我們只要將分子最大化皆可。又因為各特征屬性是條件獨(dú)立

8、的,所以有:根據(jù)上述分析,樸素貝葉斯分類的流程可以由下圖表示:圖1樸素貝葉斯分類流程圖3實(shí)驗過程及結(jié)果分析3.1數(shù)據(jù)來源共兩類數(shù)據(jù),每個類別下分別有1979個文檔。3.2實(shí)驗過程本實(shí)驗調(diào)用jieba分詞,過濾停用詞,選取前5000個高頻詞作為特征項,每個類別抽取1000個樣本,90%訓(xùn)練,10%測試,調(diào)用nltk包下的貝葉斯分類器進(jìn)行分類,并計算準(zhǔn)確度。實(shí)驗流程如下圖2所示:樸素貝葉斯分類最終數(shù)據(jù)集切詞結(jié)果數(shù)據(jù)切詞停用詞過濾初始語料庫90%訓(xùn)練數(shù)據(jù)集10%測試數(shù)據(jù)集圖2實(shí)驗流程圖3.3實(shí)驗結(jié)果調(diào)用貝葉斯分類器,每個類別選取900個文檔作為訓(xùn)練集,101個作為訓(xùn)練集,得出實(shí)驗結(jié)果如下圖3所示,準(zhǔn)確度為0.9455,較高的準(zhǔn)確度應(yīng)該跟數(shù)據(jù)集的質(zhì)量比較高有關(guān)。圖3 實(shí)驗結(jié)果4結(jié)論與展望本文根據(jù)統(tǒng)計詞頻選取特征項,尚存在不足,在特征項抽取方面有待完善。參考文獻(xiàn)1 P H Sorensen,et al.Implementation of neural network based nonlinear predictive controlJ.1999,28(1):37-512 楊平,等.神經(jīng)網(wǎng)絡(luò)預(yù)測控制算法及其應(yīng)用J.控制工程,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論