




已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
精品文檔 1歡迎下載 北京郵電大學(xué)北京郵電大學(xué) 學(xué)年第學(xué)年第 1 1 學(xué)期實驗報告學(xué)期實驗報告 課程名稱 課程名稱 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 實驗名稱 實驗名稱 文本的分類文本的分類 實驗完成人 實驗完成人 姓名 姓名 學(xué)號 學(xué)號 支持向量樣本集具有一定的魯棒性 有些成功的應(yīng)用中 SVM 方法對核的選取不敏感 4 44 4 性能評估方法性能評估方法 在性能評估中 我們采用的是計算分類器對于不同分類的準(zhǔn)確 率和召回率 4 4 14 4 1 準(zhǔn)確率準(zhǔn)確率 Precision Precision 準(zhǔn)確率 指的是在所有被判斷為正確的文檔中 有多大比例是 確實正確的 例如 我們把文件分類這樣四類 精品文檔 8歡迎下載 A 系統(tǒng)檢測到的相關(guān)的文檔 B 系統(tǒng)檢測到的不相關(guān)的文檔 C 系統(tǒng)沒有檢測到的相關(guān)的文檔 D 系統(tǒng)沒有檢測到的不相關(guān)的文檔 那么我們的計算公式為 P AAB 準(zhǔn)確率 4 4 24 4 2 召回率召回率 Recall Recall 召回率 指的是在所有確實正確的文檔中 有多大比例被我們 判斷為正確 例如 我們繼續(xù)參照上述的例子 那么我們的計算公式為 AAC 召回率R 根據(jù)上述的兩個公式 我們計算出每一類的準(zhǔn)確率和召回率 進行比較 今兒對分類器的分類效果進行評估 5 5 實驗過程 實驗過程 5 15 1 文本分類語料庫的采集文本分類語料庫的采集 我們直接使用搜狗語料庫的新聞預(yù)料 共有十個類別 每個類別取 精品文檔 9歡迎下載 2000 篇作為訓(xùn)練集 另取 2000 篇作為測試集 這樣我們就獲得了 20000 篇的訓(xùn)練集和 20000 篇的測試集 5 25 2 數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理 5 2 15 2 1 文本格式預(yù)處理文本格式預(yù)處理 原始的新聞按文件夾劃分類別 同一個類別在同一個文件夾下 每篇新聞?wù)家粋€文件 首先我們把所有文章整理到一個文件中 并 標(biāo)上類型號 這樣便于后期處理 5 2 25 2 2 分詞和去停用詞處理分詞和去停用詞處理 對語料庫進行分詞處理階段 我們采用中科院研發(fā)的漢語分詞 軟件 NLPIR 我們?yōu)榱藢Υ罅康奈谋具M行分詞 在 NLPIR 中又添加了一個批 處理函數(shù) 對 NLPIR 進行調(diào)用 對大量文本進行分詞處理 通過更 改 NLPIR 的參數(shù) 我們獲取了帶有詞性標(biāo)注的大量分詞后的文本文 件 然后我們利用模式匹配的方法把所有分名詞過濾掉 然后根據(jù) 停用詞表除去停用詞 5 35 3 特征提取和表達特征提取和表達 5 3 15 3 1 特征詞提取特征詞提取 本次實驗我們采用信息增益法進行特征詞提取 提取特征詞 精品文檔 10歡迎下載 1000 個 將分詞 取名詞 去停用詞后的每篇文章統(tǒng)一整理到一篇文本 中 每篇文章作為一行記錄出現(xiàn) 這樣便于采用信息增益法計算每 個單詞的信息增益值 它是一個基于嫡的評價方法 涉及較多的數(shù) 學(xué)理論和復(fù)雜的嫡理論公式 定義為某特征在文檔中出現(xiàn)前后的信 息嫡之差 根據(jù)訓(xùn)練數(shù)據(jù) 計算出各個單詞的信息增益 刪除信息 增益很小的詞 其余的按照信息增益從大到小排序 信息增益評估函數(shù)被定義為 IG t P t P Ci t log P Ci t P Ci P tn P Ci tn logP Ci t P i 式中 P Ci t 表示文本中出現(xiàn)特征 t 時 文本屬于 Ci 類的概 率 P Ci tn 表示文本中不出現(xiàn)單詞 t 時 文本屬于 Ci 類 的概率 P Ci 表示類別出現(xiàn)的概率 P t 表示 t 在整個文本訓(xùn)練集中出 現(xiàn)的概率 計算完每個單詞的信息增益值后 采用堆排序方法選取前 5000 個單詞作為特征詞 即詞典 5 3 25 3 2 建立文本向量建立文本向量 根據(jù)提取的特征詞采用 TF IDF 法建立文本向量 TF IDF 是一種加權(quán)技術(shù) 它通過統(tǒng)計的方法來計算和表達某個 精品文檔 11歡迎下載 關(guān)鍵詞在文本中的重要程度 TF IDF 是由兩部分組成 一部分是 TF Token Frequency 表示一個詞在文檔中出現(xiàn)的次數(shù) 即詞頻 另一部分是 IDF Inverse Document Frequency 表示某個詞出現(xiàn) 在多少個文本中 或者解釋為有多少個文本包含了這個詞 即逆向 文檔頻率 通常由公式 IDFt log 1 D Dt 其中 D 表示文 檔總數(shù) Dt 表示包含關(guān)鍵詞 t 的文檔數(shù)量 根據(jù)上述原理 我們把訓(xùn)練集轉(zhuǎn)化為 libsvm 所支持的向量格式 LIBSVM 的訓(xùn)練集格式如下 lable1 index1 featureValue1 index2 featureValue2 index3 featureValue3 lable2 index1 featureValue1 index2 featureValue2 index3 featureValue3 對應(yīng)到文本分類上就是 類別 ID 特征序號 特征值 TFIDF 值 5 45 4 訓(xùn)練過程訓(xùn)練過程 我們利用 libsvm 提供的 grid py 工具對訓(xùn)練集進行參數(shù)尋優(yōu) 并得 到參數(shù) c 128 0 g 3 0517578125e 05 然后利用這組參數(shù)對訓(xùn) 精品文檔 12歡迎下載 練集進行訓(xùn)練 得到模型文件 5 55 5 測試過程測試過程 我們對測試集進行同樣的分詞與去停用詞等操作 然后根據(jù)訓(xùn) 練得到的模型文件 對其進行預(yù)測 然后 分析預(yù)測輸出文件和初 始的測試文件 得到相關(guān)統(tǒng)計數(shù)據(jù) 5 65 6 實驗結(jié)果和性能評估實驗結(jié)果和性能評估 訓(xùn)練集 20000 篇 測試集 20000 篇 特征提取后字典大小 1000 詞 訓(xùn)練時間 92 7s 測試時間 80s 平均準(zhǔn)確率 83 具體準(zhǔn)確率與召回率如圖 5 1 所示 精品文檔 13歡迎下載 軍事文化教育經(jīng)濟女性體育汽車娛樂軍事IT 0 0 1 0 2 0 3 0 4 0 5 0 6 0 7 0 8 0 9 1 準(zhǔn)確率 召回率 圖 5 1 預(yù)測結(jié)果準(zhǔn)確率與召回率 預(yù)測結(jié)果混淆矩陣如圖 5 2 所示 軍事文化教育經(jīng)濟女性體育汽車娛樂軍事 IT 軍事 0352185000182411 文化 440192338365694518 教育 2333016253323836 經(jīng)濟 11160202433 女性 48564420033162818 體育 345517401970 汽車 28141571021017 娛樂 17701722927019 軍事 26681915616225013 IT173870152012337120 精品文檔 14歡迎下載 6 6 實驗總結(jié)實驗總結(jié) 通過這次實驗
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度中國石化春季招聘統(tǒng)一初選考試筆試參考題庫附帶答案詳解
- 2024-2025工廠安全培訓(xùn)考試試題及參考答案(達標(biāo)題)
- 2025企業(yè)主要負(fù)責(zé)人安全培訓(xùn)考試試題答案4A
- 2025公司、項目部、各個班組三級安全培訓(xùn)考試試題往年題考
- 2025美容院員工勞動合同模板
- 2025房屋抵押合同模板
- 2025年上海公司股權(quán)轉(zhuǎn)讓合同模板
- 2025國際民間貿(mào)易合作合同模板
- 2025電子產(chǎn)品買賣合同模板
- 2025年工程材料供應(yīng)購銷合同范本
- 延邊大學(xué)教師崗位招聘考試真題2024
- 青馬工程筆試試題及答案
- 豆粕交易合同協(xié)議
- 項目設(shè)計安全管理制度
- 電子化采購招投標(biāo)平臺系統(tǒng)建設(shè)項目解決方案
- 小學(xué)京劇知識
- 華為智慧園區(qū)解決方案
- 世界銀行集團簡介課件(PPT 48頁)
- 中國毛筆字書法教育培訓(xùn)動態(tài)PPT模板
- 委外加工作業(yè)流程圖
- 中國作家協(xié)會入會申請表
評論
0/150
提交評論