




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
23基于樸素貝葉斯的新聞文本分類內(nèi)容摘要:本文包含了樸素貝葉斯算法的基本公式、方法,以及基于該算法進(jìn)行新聞文本分類的方法,并結(jié)合由多篇新聞文本所構(gòu)成的具體數(shù)據(jù)庫實(shí)例構(gòu)建數(shù)據(jù)模型,據(jù)此展開數(shù)據(jù)分析。關(guān)鍵詞:樸素貝葉斯;文本分類;中文分詞當(dāng)下,我們正處在一個信息化的時代,每天都要面臨數(shù)以萬計的信息轟炸。網(wǎng)絡(luò)作為連通全世界的巨大數(shù)據(jù)空間,無時無刻不在有著新聞的產(chǎn)生。這些新聞涵蓋了各個領(lǐng)域、各個范圍,跨越了空間的界限,沖擊著人們的消息網(wǎng)。然而對于個人而言,一段時間之內(nèi)所能接收到的信息是有限的,也就是說,將全網(wǎng)所產(chǎn)生的所有新聞逐條閱讀、全數(shù)了解是一件不可能的事。加之并非所有的新聞都是“有用”的,這里的“有用”一方面指存在某些假新聞或無意義的新聞,更重要的是,從另一方面講,每個人都有自己的興趣點(diǎn),只有特定種類的新聞才會引起他的關(guān)注,也只有他所感興趣的那部分新聞,才算是對他“有用”的新聞。這就意味著,我們有必要給每條新聞都打上專屬標(biāo)簽,也就是進(jìn)行文本分類,以便于后續(xù)針對用戶個人的閱讀習(xí)慣為每位用戶進(jìn)行個性化推薦,使他們能夠快速精準(zhǔn)地找到自己感興趣的新聞內(nèi)容,來提高用戶的閱讀使用體驗。樸素貝葉斯分類算法介紹在介紹樸素貝葉斯分類之前,我們有必要先簡單的了解一下貝葉斯分類算法。貝葉斯分類算法是一種統(tǒng)計學(xué)算法,它是一種非常具有代表性的不確定性知識表示和推理方法。貝葉斯分類算法基于假設(shè)的先驗概率,以及給定假設(shè)下觀察到不同數(shù)據(jù)的概率,來計算后驗概率。我們可以通過下面的公式對該算法進(jìn)行更清晰的了解,貝葉斯公式即:上述公式中的A和B分別代表了兩個不同的事件,P(Bi)為事件Bi發(fā)生的概率,P(A│Bi)為在Bi發(fā)生的條件下事件A發(fā)生的概率,P(Bi│A)為在A發(fā)生的條件下事件Bi的概率。在實(shí)際應(yīng)用中,當(dāng)對如新聞文本之類的某個事物分類時,常常需要考慮到事物自身的各個屬性。我們可以將公式中的事件A看作是B的屬性集,而它包含了{(lán)A1,A2,……,An}多個不同屬性。在此基礎(chǔ)上,我們通常把P(A│Bi)叫做Bi的先驗概率,而把P(Bi│A)叫做Bi的后驗概率。根據(jù)公式所示,貝葉斯分類的思想即根據(jù)c發(fā)生的概率、x發(fā)生的概率,以及c的先驗概率,來計算c的后驗概率。貝葉斯分類會計算出一個樣本中各類別ci不同的后驗概率,并進(jìn)行比較,其中后驗概率P最大的ci就是該樣本所屬的類別。進(jìn)一步地,我們將繼續(xù)對樸素貝葉斯分類算法進(jìn)行介紹。它是貝葉斯分類算法的一種特殊形式,與常規(guī)貝葉斯分類算法的主要區(qū)別在于,樸素貝葉斯分類時把事物的不同屬性看作是獨(dú)立的,與其他各屬性都不相關(guān)。比如一種動物,它生活在海洋,是最大的哺乳動物,根據(jù)前述的幾個特征屬性,我們可以判定這個動物是藍(lán)鯨。然而盡管它的這些屬性之間可能會存在某些聯(lián)系,樸素貝葉斯分類器在進(jìn)行分類計算時會認(rèn)為它們在概率分布上是完全獨(dú)立的,最后只需得出在這些屬性下這個樣本屬于哪一類的概率最大即為最終結(jié)果。數(shù)據(jù)分析模型的構(gòu)造使用SPSSModeler軟件進(jìn)行模型的訓(xùn)練和構(gòu)造。首先,從網(wǎng)絡(luò)中下載中文新聞文本分類數(shù)據(jù)集,數(shù)據(jù)集包含訓(xùn)練文本和測試文本兩部分。訓(xùn)練文本共將新聞分為體育、娛樂、家具、房產(chǎn)、教育、時尚、時政、游戲、科技、財經(jīng)十大類。將文本導(dǎo)入工作流中,并設(shè)置好相關(guān)參數(shù),可以利用軟件自動生成表格。在對文本進(jìn)行處理的過程中,我發(fā)現(xiàn)大段的長文本無法進(jìn)行類型識別,會導(dǎo)致缺省值的出現(xiàn),因此我采用了先分詞、后處理的方式。首先將訓(xùn)練用的新聞文本主逐條分開,以多個的文本文檔的形式根據(jù)分類存放在幾個不同的文件夾中。接下來用python中自帶的jieba庫,先對各個類別的新聞進(jìn)行分詞處理??紤]到數(shù)據(jù)量以及其重復(fù)度,僅僅根據(jù)新聞文本中所出現(xiàn)過的詞匯的詞頻,對每條新聞中出現(xiàn)率最高的詞語進(jìn)行記錄和保存,也就是說,我們將每條新聞僅用其出現(xiàn)率最好的一個詞表示,把長新聞壓縮成短詞匯。由于數(shù)據(jù)的基數(shù)比較大,因此本次測試可以暫時將壓縮新聞內(nèi)容所帶來的誤差忽略不計。此外,還應(yīng)該將重復(fù)出現(xiàn)的詞語去掉,進(jìn)一步壓縮數(shù)據(jù)量。由于樸素貝葉斯分類方法具有一定的限制性(會在后文思考與反思中進(jìn)行詳細(xì)說明),因此在實(shí)際應(yīng)用當(dāng)中,我們采用貝葉斯網(wǎng)絡(luò)的方式,對樸素貝葉斯進(jìn)行優(yōu)化升級,來進(jìn)行文本的分類。本次采用TAN的策略以及勾選似然比方式進(jìn)行測試。點(diǎn)擊運(yùn)行后我們可以看到,成功生成了一個貝葉斯模型。接下來就可以利用這個模型,進(jìn)一步對測試數(shù)據(jù)進(jìn)行分類處理了。貝葉斯分類算法的意義樸素貝葉斯分類算法是一種具有很強(qiáng)的數(shù)學(xué)背景,并且目前被廣泛應(yīng)用于各個領(lǐng)域的一種算法,它主要被用于預(yù)測分析領(lǐng)域。它的分類機(jī)制可以進(jìn)一步劃分為二分類和多分類這兩種相關(guān)問題,比如針對文本分類,通過樸素貝葉斯分類可以實(shí)現(xiàn)垃圾郵件、垃圾短信的鑒別這種二分類的問題,也可以實(shí)現(xiàn)如上述實(shí)例所展示的新聞文本分類、文本情感分析這種多分類的問題,在實(shí)際應(yīng)用中,貝葉斯算法主要被應(yīng)用于多分類的領(lǐng)域,用來預(yù)測多類目標(biāo)變量的概率。由于貝葉斯算法的簡單快捷,這種算法能夠用于實(shí)時預(yù)測,同時,還可以和協(xié)同過濾機(jī)制相結(jié)合,設(shè)計完成用戶的自動推薦系統(tǒng),比如類似于今日頭條這類的網(wǎng)站或是app,可以根據(jù)用戶的喜好需求,進(jìn)行主頁的量身定制,用戶可以在主頁刷到自己感興趣的新聞內(nèi)容,省去了搜索的復(fù)雜步驟。思考與反思通過實(shí)例可以看出,樸素貝葉斯分類算法具有鮮明的特點(diǎn)。它的主要優(yōu)點(diǎn)有:邏輯簡單、快速、高效、便于實(shí)現(xiàn),而且分類的效果也比較好。在進(jìn)行模型訓(xùn)練時,它不需要很多的訓(xùn)練數(shù)據(jù),只需要很小規(guī)模的數(shù)據(jù)集,當(dāng)任務(wù)量增大時,可以進(jìn)行增量式的訓(xùn)練。這種算法對于缺失數(shù)據(jù)也不太敏感,因此相比于其他各種算法,它尤其適用于文本分類??偟膩碚f,這種算法的時空開銷小,而且比較穩(wěn)定,健壯性非常好。當(dāng)然,事物都具有兩面性,除了上述優(yōu)點(diǎn)之外,樸素貝葉斯分類算法的缺點(diǎn)也很明確。首先,從理論上來講,樸素貝葉斯算法要求事先知道樣本的先驗概率,而樣本的先驗概率大多由假設(shè)的模型所決定,但是假設(shè)模型的多樣性會導(dǎo)致預(yù)測結(jié)果可能會產(chǎn)生偏差,效果并不盡如人意。并且樸素貝葉斯分類的大前提是“將事物的不同屬性看作是獨(dú)立的,與其他各屬性都不相關(guān)”,這個假設(shè)前提在實(shí)際應(yīng)用中其實(shí)是不合理的,因為事物的各個屬性往往都存在著或多或少的關(guān)聯(lián),當(dāng)這種關(guān)聯(lián)較小時,樣本更接近于樸素貝葉斯算法的要求,分類的效果也就會更理想,然而當(dāng)屬性關(guān)聯(lián)非常緊密的時候,模型預(yù)測的效果性能也就大大降低了。我們可以通過一些手段來對樸素貝葉斯算法進(jìn)行性能優(yōu)化和改進(jìn),如可以將連續(xù)特征轉(zhuǎn)換為正態(tài)分布形式,也可以用拉普拉斯估計修正含有“零頻率問題”的數(shù)據(jù)集,或者改進(jìn)特征選擇的方式等等。除了上述手段外,為了改進(jìn)樸素貝葉斯算法,使它更貼近于實(shí)際生活應(yīng)用的場景,我們可以將它進(jìn)一步擴(kuò)展半樸素貝葉斯分類算法。這種算法主要采用兩種策略,其一是SPODE方
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2019-2025年消防設(shè)施操作員之消防設(shè)備高級技能題庫練習(xí)試卷B卷附答案
- 2025年度主管護(hù)師考試專項復(fù)習(xí)試題庫50題及答案(四)
- 生物熒光知識培訓(xùn)課件
- 紀(jì)錄片美麗的自然教學(xué)教案設(shè)計
- 工廠生產(chǎn)線產(chǎn)量進(jìn)度表
- 解決方案推廣計劃
- 西游記唐僧取經(jīng)之旅解讀
- 企業(yè)內(nèi)部信息安全技術(shù)保障服務(wù)合同
- 小紅帽新編故事讀后感
- 技術(shù)創(chuàng)新成果統(tǒng)計表
- 臨時工雇傭合同范本2025年度
- (二調(diào))武漢市2025屆高中畢業(yè)生二月調(diào)研考試 地理試卷
- “艾梅乙”感染者消除醫(yī)療歧視制度-
- 2024-2025學(xué)年八年級地理下冊第七章《南方地區(qū)》檢測卷(人教版)
- 森林防火知識
- 2025年黑龍江林業(yè)職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試題庫帶答案
- 第二單元第1課《精彩瞬間》第2課時 課件-七年級美術(shù)下冊(人教版2024)
- 2025年公共營養(yǎng)師三級理論試題及答案
- 煤礦防治水安全質(zhì)量標(biāo)準(zhǔn)化評分表
- 2025電動自行車安全技術(shù)規(guī)范培訓(xùn)課件
- 小學(xué)語文常見的說明方法(四年級下冊第二單元)
評論
0/150
提交評論