




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
文本分類與聚類4任務(wù):垃圾短信分類目錄文本分類與聚類的步驟5任務(wù):新聞文本聚類6機(jī)器學(xué)習(xí)算法進(jìn)行文本分類或聚類步驟如下。首先是數(shù)據(jù)準(zhǔn)備。接著對特征提取。進(jìn)行模型選擇與訓(xùn)練。通過對模型測試。最后模型融合。文本分類與聚類的步驟4任務(wù):垃圾短信分類目錄文本分類與聚類的步驟5任務(wù):新聞文本聚類6垃圾短信分類的流程包括以下步驟。數(shù)據(jù)讀取:讀取原始短信數(shù)據(jù),共有80萬條數(shù)據(jù)。文本預(yù)處理:對原始數(shù)據(jù)進(jìn)行預(yù)處理,對其進(jìn)行去重、脫敏和分詞等操作。詞頻統(tǒng)計(jì):分別統(tǒng)計(jì)垃圾與非垃圾短信的詞頻,隨后繪制相應(yīng)的詞云圖。由于原始數(shù)據(jù)量較大,需要對數(shù)據(jù)進(jìn)行采樣,共抽取了兩萬條數(shù)據(jù)進(jìn)行訓(xùn)練模型及分類。分類:分別采用兩種方式對短信內(nèi)容進(jìn)行分類,第一種方式是自定義樸素貝葉斯函數(shù),第二種則是調(diào)用Python內(nèi)置函數(shù)實(shí)現(xiàn)樸素貝葉斯分類,兩種方式的實(shí)現(xiàn)步驟基本一致,最終結(jié)果將與測試集進(jìn)行比較,得到模型的分類情況和準(zhǔn)確率。模型評價(jià):使用處理好的測試集進(jìn)行預(yù)測,對比真實(shí)值與預(yù)測值,獲得準(zhǔn)確率并進(jìn)行結(jié)果分析。任務(wù):垃圾短信分類垃圾短信的數(shù)據(jù)讀取過程如下。讀取原始短信數(shù)據(jù)。數(shù)據(jù)中的垃圾短信共有80000條,非垃圾短信有720000條。垃圾短信的文本預(yù)處理步驟如下。首先查看數(shù)據(jù)是否存在缺失值,對其進(jìn)行去重和脫敏操作。接著原始數(shù)據(jù)中的敏感信息用統(tǒng)一字符替換。通過采用jieba分詞切分短信內(nèi)容,通過自定義詞典分詞。然后對分詞后的結(jié)果過濾停用詞。最后經(jīng)過處理的數(shù)據(jù)中存在一些無意義的空列表,對其進(jìn)行刪除。任務(wù):垃圾短信分類垃圾短信詞頻統(tǒng)計(jì)步驟如下。首先通過自定義函數(shù)統(tǒng)計(jì)詞頻。接著整合得到詞匯序列再進(jìn)行切分,統(tǒng)計(jì)每個詞出現(xiàn)的頻次。最后分別對垃圾與非垃圾短信繪制詞云圖。垃圾短信使用MultinomialNB函數(shù)步驟如下。首先劃分訓(xùn)練集和測試集。然后利用訓(xùn)練集生成詞庫,分別構(gòu)建訓(xùn)練集和測試集的向量矩陣。最后通過內(nèi)置樸素貝葉斯函數(shù)預(yù)測分類。垃圾短信分類模型評價(jià)過程如下。通過使用處理好的測試集進(jìn)行預(yù)測,對比真實(shí)值與預(yù)測值,獲得準(zhǔn)確率并進(jìn)行結(jié)果分析。任務(wù):垃圾短信分類4任務(wù):垃圾短信分類目錄文本分類與聚類的步驟5任務(wù):新聞文本聚類6新聞文本聚類的流程包括以下步驟。數(shù)據(jù)讀?。鹤x取文件列表中的新聞文本并給定標(biāo)簽,劃分訓(xùn)練集與測試集,讀入的每條新聞作為一行,方便后續(xù)數(shù)據(jù)處理及詞頻矩陣的轉(zhuǎn)化。文本預(yù)處理:每個新聞文本進(jìn)行jieba分詞和去除停用詞處理,去除文本中無用的停用詞,降低處理維度,加快計(jì)算速度。特征提取:使用scikit-learn庫調(diào)用CountVectorizer和TfidfTransformer函數(shù)計(jì)算TF-IDF值,將文本轉(zhuǎn)為詞頻矩陣。聚類:根據(jù)導(dǎo)入數(shù)據(jù)類型標(biāo)簽個數(shù),從而定義分類個數(shù),導(dǎo)入訓(xùn)練數(shù)據(jù)集后通過調(diào)用sklearn.cluster訓(xùn)練模型,并保存聚類模型。模型評價(jià):使用處理好的測試集進(jìn)行預(yù)測,對比真實(shí)值與預(yù)測值,獲得準(zhǔn)確率并進(jìn)行結(jié)果分析。任務(wù):新聞文本聚類新聞文本數(shù)據(jù)讀取步驟如下。首先讀取文件列表中的新聞文本并給定標(biāo)簽。然后劃分訓(xùn)練集與測試集,讀入的每條新聞作為一行,方便后續(xù)數(shù)據(jù)處理及詞頻矩陣的轉(zhuǎn)化。新聞文本聚類的文本預(yù)處理步驟如下。首先通過自定義函數(shù)seg_word對文本預(yù)處理的內(nèi)容進(jìn)行封裝。接著每個新聞文本進(jìn)行jieba分詞和去除停用詞處理。然后去除文本中無用的停用詞,降低處理維度,加快計(jì)算速度。最后分別進(jìn)行數(shù)據(jù)的預(yù)處理和后續(xù)的特征提取。任務(wù):新聞文本聚類新聞文本特征提取過程如下。首先調(diào)用CountVectorizer函數(shù)將文本中的詞語轉(zhuǎn)換為詞頻矩陣。接著調(diào)用TfidfTransformer函數(shù)計(jì)算TF-IDF權(quán)值并轉(zhuǎn)化為矩陣。最后分別對垃圾與非垃圾短信繪制詞云圖。新聞文本聚類過程如下。首先選取4個數(shù)據(jù)集,因此,選用4個中心點(diǎn)。接著進(jìn)行模型的訓(xùn)練,調(diào)用fit函數(shù)將數(shù)據(jù)輸入到分類器中,訓(xùn)練完成后保存模型。最后訓(xùn)練聚類模型并查看模型準(zhǔn)確率。新聞文本聚類的模型評價(jià)。首先輸入測試數(shù)據(jù)進(jìn)行模型訓(xùn)練,計(jì)算測試數(shù)據(jù)的準(zhǔn)確率。最后使用處理好的測試集進(jìn)行預(yù)測,對比真實(shí)值與預(yù)測值,獲得準(zhǔn)確率并進(jìn)行結(jié)果分析。任務(wù):新聞文本聚類本章節(jié)主要介紹了文本分類與聚類基本概念如下。首先介紹了文本挖掘的概念和應(yīng)用場景。接著介紹文本分類和文本聚類常用算法。隨后介紹文本
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 學(xué)生評教與反饋實(shí)施方案計(jì)劃
- 靜脈治療報(bào)告
- 統(tǒng)編版小學(xué)語文二年級下冊《語文園地三》精美課件
- 第四單元 《平行四邊形的認(rèn)識》教學(xué)設(shè)計(jì)-2024-2025學(xué)年四年級數(shù)學(xué)上冊青島版(五四學(xué)制)
- 養(yǎng)老床位建設(shè)服務(wù)方案(技術(shù)方案)
- 老年骨折手術(shù)護(hù)理
- 放射科護(hù)理相關(guān)知識課件
- 培訓(xùn)課件知識產(chǎn)權(quán)保護(hù)
- 2025年湛江道路客貨運(yùn)輸從業(yè)資格證模擬考試下載
- 2025年上海貨運(yùn)從業(yè)資格證模擬試題答案大全
- 廣西河池市(2024年-2025年小學(xué)六年級語文)統(tǒng)編版隨堂測試(下學(xué)期)試卷及答案
- 江蘇省南京市2024年中考英語試題(含解析)
- 2025年匯成集團(tuán)招聘筆試參考題庫含答案解析
- 課題申報(bào)書:湖北教育援疆在文化潤疆中的作用發(fā)揮研究
- 巨量千川營銷師(初級)認(rèn)證考試復(fù)習(xí)題及答案
- 《佛跳墻英文介紹》課件
- 《特斯拉報(bào)告分析》課件
- 2025年小學(xué)五年級數(shù)學(xué)(北京版)-家庭生活中的碳排放-1教案
- 2024年12月管理體系認(rèn)證基礎(chǔ)考試真題及答案
- 抖音直播手冊【新人必看】
- 延安大學(xué)《算法設(shè)計(jì)與分析》2022-2023學(xué)年期末試卷
評論
0/150
提交評論