




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、 文本挖掘分類算法的比較研究 張鑫摘要:本文借助r軟件,采用來自某新聞媒體官方微信公眾號中16個類別的中文文本數(shù)據(jù),對所發(fā)布內(nèi)容進(jìn)行分類。首先對文本進(jìn)行預(yù)處理,主要是進(jìn)行分詞和去除停用詞,并加入自定義詞典,然后采用tf-idf權(quán)重法提取文本特征,按照訓(xùn)練集與測試集10:3的比例,用支持向量機(jī)(svm),隨機(jī)森林(rf),boosting,最大似然的廣義線性回歸(glmnet),最大熵(maxent)這5種分類算法,對選取的訓(xùn)練文本進(jìn)行訓(xùn)練得到不同的分類模型,進(jìn)而對測試文本進(jìn)行自動分類,并采用5折交叉驗(yàn)證法比較不同算法的分類性能。結(jié)果顯示boo
2、sng分類算法對于該文本的分類準(zhǔn)確率最高。關(guān)鍵詞:tf-idf;支持向量機(jī);隨機(jī)森林;boosting;分類模型一、引言文本分類是指依據(jù)文本的內(nèi)容,根據(jù)某種自動分類算法按照一定分類體系或標(biāo)準(zhǔn),對大量文本進(jìn)行判斷并歸類為預(yù)先定義好的一個或者多個類別的過程。本文根據(jù)微信公眾號發(fā)布內(nèi)容,建立分類模型進(jìn)行文本自動分類,主要采用支持向量機(jī)(svm)、隨機(jī)森林、boosting、最大似然的廣義線性回歸、最大熵這5種分類技術(shù)。二、描述性統(tǒng)計從該新聞媒體官方微信公眾號的發(fā)布內(nèi)容及其所屬類別來看,共發(fā)布了780條新聞,其中社會類新聞達(dá)到了352條,生活服務(wù)類新聞共有118條,健康類新聞有65條。因此,該新聞媒體
3、比較關(guān)注有關(guān)社會民生、身體健康等方面的內(nèi)容,較適合普通民眾閱讀。詞云圖是一種信息文本可視化技術(shù),可過濾掉大量的龐雜文本信息,容易看出哪些類型的關(guān)鍵詞出現(xiàn)頻率最高,從而更容易對其進(jìn)行分類。以下是對該新聞媒體的幾種具有代表性的新聞類型分別作出詞云圖,可以觀察到在某類型新聞中哪些詞出現(xiàn)的頻率較高,從而更容易對一則新的新聞進(jìn)行分類。圖1-圖5分別展示出的是社會類新聞、生活服務(wù)類新聞、房產(chǎn)類新聞、財經(jīng)類新聞、環(huán)保類新聞。但若僅僅通過觀察來判斷一條信息屬于哪一類型,不僅工作量大且正確率有待考究,因此需要通過文本分類算法來規(guī)范化新聞的分類。由于篇幅受限未給出詞云圖。三、實(shí)證分析3.1文本集整合在提取文本特征
4、之前,要對文本做預(yù)處理,主要是對文本進(jìn)行分詞和去除停用詞處理。去除停用詞一般通過導(dǎo)入中文停用詞表來實(shí)現(xiàn),本文采用的中文停用詞表含有4545個停用詞。去除這些與主題無關(guān)的詞以后,按照實(shí)際需求選取權(quán)重最高的幾個詞匯來代表該文本的核心內(nèi)容。此外,在文本信息處理過程中,通過從搜狗細(xì)胞詞庫中選擇自定義詞典將文本中出現(xiàn)的特殊詞加進(jìn)去,有助于識別文本,提高分類的準(zhǔn)確率。3.2提取特征文本選取能夠反映文本類別的文本特征。各個詞匯對文本分類的影響是不同的,一些通用的或者各個類別中都普遍存在的詞匯對文本分類的影響很小,去除掉這些沒有影響力的詞匯,篩選出代表該類的特征項(xiàng)集合。特征提取是文本分類中的關(guān)鍵問題,它對分類
5、精確率有很大影響。文本特征提取有很多方法,其中最常用的方法是通過詞頻選擇特征。通過詞頻計算出權(quán)重。采用tf-idf(詞頻率-逆文檔頻率)法計算權(quán)重。3.3利用訓(xùn)練集訓(xùn)練模型本文選用某新聞媒體官方微信公眾號的發(fā)布內(nèi)容為研究文本,文本類別為時政、社會、頭條新聞、視頻、生活服務(wù)、財經(jīng)、科技、健康、房產(chǎn)、環(huán)保等16類。取600篇作為訓(xùn)練文本,其余180篇作為測試文本。在模型訓(xùn)練時,對訓(xùn)練文本進(jìn)行詞頻統(tǒng)計,得到詞頻統(tǒng)計矩陣,構(gòu)造不同算法對應(yīng)的分類器模型。分別是支持向量機(jī)(svm),隨機(jī)森林(rf),boosting,最大似然的廣義線性回歸(glmnet),最大熵(maxent)這5種分類算法。3.4利用
6、測試集對模型測試對于選取的180篇測試文本,根據(jù)不同的分類器模型,對測試文本進(jìn)行自動分類,以支持向量機(jī)和最大熵算法為例,得到的分類結(jié)果見表1。(藍(lán)字標(biāo)注的表示分錯的類別)進(jìn)一步,針對這兩種算法的180篇測試文本分類結(jié)果及各個類別正確分類和錯誤分類的文本數(shù)。對應(yīng)計算出各類別的正確率。在支持向量機(jī)svm算法下,社會和活動這兩個類別分類的正確率相對較高,分別為81%,68%。在最大熵maxent算法下,社會、時政、活動、生活服務(wù)這四個類別分類的正確率分別為63%,67%,78%,66%。3.5分類性能的比較針對五種分類算法,采用5折交叉驗(yàn)證,得到分類準(zhǔn)確率accuracy。支持向量機(jī)(svm)、隨機(jī)森林(rf)、boosting、最大似然的廣義線性回歸(glmnet)、最大熵(maxent)這五種算法的5折交叉驗(yàn)證準(zhǔn)確率分別為0.573、0.667、0.692、0.608、0.574。這五種分類算法的準(zhǔn)確率都基本上在60%以上,其中boosting的準(zhǔn)確率最高,近70%。boosting算法對于此文本分類是分類性能最好的算法。四、結(jié)論由實(shí)證部分交叉驗(yàn)證結(jié)果得到boos
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- Ammuxetine-071031B-生命科學(xué)試劑-MCE
- 25T7-NBOMe-hydrochloride-生命科學(xué)試劑-MCE
- 5-IAI-hydrochloride-生命科學(xué)試劑-MCE
- 3-4-Difluoro-N-desmethyl-U-47700-hydrochloride-生命科學(xué)試劑-MCE
- 2-Aminomethylpyrimidine-hydrochloride-Pyrimidin-2-ylmethanamine-hydrochloride-生命科學(xué)試劑-MCE
- 2025年煤焦化產(chǎn)品項(xiàng)目發(fā)展計劃
- 2025年電子產(chǎn)品制造設(shè)備:工裝夾具項(xiàng)目合作計劃書
- 2025年毒素類診斷抗原項(xiàng)目發(fā)展計劃
- 新村環(huán)境衛(wèi)生工作總結(jié)
- 二零二五年度房產(chǎn)證收齊后購房合同交接與保管協(xié)議
- 課程設(shè)計存在問題和建議
- 2024年北京中考地理試卷
- 四川蜀道集團(tuán)筆試題
- 耐甲氧西林肺炎鏈球菌(MRSP)的流行病學(xué)和分子流行病學(xué)
- 電氣自動化工程師考試題庫
- DBJ50-T-420-2022建設(shè)工程配建5G移動通信基礎(chǔ)設(shè)施技術(shù)標(biāo)準(zhǔn)
- 2023年全國職業(yè)院校技能大賽-健身指導(dǎo)賽項(xiàng)規(guī)程
- 年“春節(jié)”前后安全自查系列用表完整
- 小學(xué)利潤問題應(yīng)用題100道附答案(完整版)
- 青島版三年級下冊口算題大全(全冊)
- 醫(yī)院智能化系統(tǒng)內(nèi)網(wǎng)、外網(wǎng)及設(shè)備網(wǎng)系統(tǒng)拓?fù)鋱D-可編輯課件
評論
0/150
提交評論