下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、機器學習試驗報告樸實貝葉斯學習和分類文本(2022年度秋季學期)一、試驗內(nèi)容問題:通過樸實貝葉斯學習和分類文本目標:可以通過訓練好的貝葉斯分類器對文本正確分類 二、試驗設計試驗原理與設計:在分類(classification)問題中,經(jīng)常需要把一個事物分到某個類別。一 個事物具有許多屬性,把它的眾多屬性看做一個向量,即x=(xl/X2,x3,xn), 用x這個向量來代表這個事物。類別也是有許多種,用集合Y=yl,y2,ym表 示。假如x屬于yl類別,就可以給x打上yl標簽,意思是說x屬于yl類別。 這就是所謂的分類(Classification)。x的集合記為X,稱為屬性集。一般X和Y 的關系
2、是不確定的,你只能在某種程度上說x有多大可能性屬于類yl,比方 說x有80%的可能性屬于類yl,這時可以把X和Y看做是隨機變量,P(Y|X) 稱為Y的后驗概率(posterior probability),與之相對的,P(Y)稱為Y的先驗 概率(prior probability) 1。在訓練階段,我們要依據(jù)從訓練數(shù)據(jù)中提供的信 息,對X和Y的每一種組合學習后驗概率P(Y|X)O分類時,來了一個實例x, 在剛才訓練得到的一堆后驗概率中找出全部的P(Y|x),其中最大的那個y, 即為x所屬分類。依據(jù)貝葉斯公式,后驗概率為p(y|x)=p(y|x)=p(x|y)p(y)p(x)在比擬不同Y值的后驗
3、概率時,分母P(X)總是常數(shù),因此可以忽視。先 驗概率P(Y)可以通過計算訓練集中屬于每一個類的訓練樣本所占的比例簡單 地估量。在文本分類中,假設我們有一個文檔dX, X是文檔向量空間(document space),和一個固定的類集合C=cl,c2,”cj,類別又稱為標簽。明顯,文檔 向量空間是一個高維度空間。我們把一堆打了標簽的文檔集合d,c作為訓練 樣本,d,cGXxCo 例如:d,c=Beijing joins the World Trade Organization, China對于這個只有一句話的文檔,我們把它歸類到China,即打上china標 簽。我們期望用某種訓練算法,訓練出
4、一個函數(shù)V,能夠?qū)⑽臋n映射到某一 個類別:V:X玲C這種類型的學習方法叫做有監(jiān)督學習,由于事先有一個監(jiān) 督者(我們事先給出了一堆打好標簽的文檔)像個老師一樣監(jiān)督著整個學習 過程。樸實貝葉斯分類器是一種有監(jiān)督學習。試驗主要代碼:1、由于中文本身是沒有自然分割符(如空格之類符號),所以要獲得中文文本的特 征變量向量首先需要對文本進行中文分詞。這里采納極易中文分詞組件public class ChineseSpliter(/*考治定的文本獨行中文分巨param text洽定的文本Iparam splitToken 用于分S.的修力”|return分完亮早的文本/public static Strin
5、g split(String text,String splitToker String result = null;MMAnalyzer analyzer = new MMAnalyzer();try (result = analyzer.segment(text? splitToken);)catch (lOException e) (e.printStackTrace(); Ireturn result;)先驗概率計算,N表示訓練文本集總數(shù)量。public class FrierFrcbability (prirate static TrainingDataKanager tdiri =
6、new TrainingData2anager ();先驗概率param c給定的分類return給定條件下的先驗概率*/public static zlcat calculatePc(String c) (float ret = OF;zlcat Nc = tdm.getTrainingFileCcunt0fCla33ificaticn(c);float N = tdm.getTrainingFileCcunt(); ret = Nc / N; return ret;)條件概率計算,為在條件A下發(fā)生的條件大事B發(fā)生的條件概率。x給定的文本 屬性,c給定的分類pub-11 c static f
7、lcat calculatePxc(String xr String c) ( float ret = OF;float Nxc = tdm.getCountCcntainKeyOfCla3sificaticn(cr x);flcat Nc = tdm.getTrainingFileCcunt0fCla33izicaticn(c);flcat V = tn.getTraning21a33izicaticn3).length;ret = (Nxc + 1) / (Nc + M + V); /為了防止出現(xiàn)。這樣極端情況,進行加權(quán)處理 return ret;)對給定的文本進行分類public Str
8、ing classify(String text) String terms = null;terms= ChineseSpliter. split (text, ) .3plit(w );中文分詞處理(分詞后結(jié)果可能還包含有信用詞) terms = DrcpSspWords (七erms);/去掉停用詞,以免影響分類String Cla33e3 = tn.getTraningCla33ificaticns();flcat prcbility = 0.0F;Li3t cr3 = new AirayLi3Cla33ifYRe3ulc();分類結(jié)果 for (int i = 0; i Cla3se
9、s.length; i+) (String Ci = Classes i;第i個分類probility = calcFrcd(terms, Ui);計算給定的文本屬性向里csms在給定的分類CTi中的分類條件概率 /保存分類結(jié)果 ClassifyResult cr = new Cla33ifyResult();cr. classification = Ci; 分類cr. probility = pebility;/關鍵字在分類的條件概率System, out .printin (wIn process .”);System.out.printin(Ci + prcbility);cr3.add
10、(cr);三、測試數(shù)據(jù)訓練集文本:數(shù)據(jù)樣例選用Sogou試驗室的文本分類數(shù)據(jù)的mini版本C000007C000008,C000010COOOO13C000014C000016COOOO2OCOOOO22COOOO23C000024,ClassList.txt2016/1/3 20:182016/1/3 20:182016/1/3 20:182016/1/3 20:182016/1/3 20:182016/1/3 20:182016/1/3 20:182016/1/3 20:182016/1/3 20:182016/1/3 20:182006/10/26 11:37文件夾 文件夾 文件夾 文件
11、夾 文件夾 文件夾 文件夾 文件夾文件夾 文件夾文本文檔類別及標號C000007 汽車C000008 財經(jīng)C000010 ITC000013C000014C000016C000020C000022C000023C000024測試數(shù)據(jù)文本:微軟公司提出以44 5億美元的價格收購雅虎巾國網(wǎng)2月1日報道美聯(lián)社消息,微軟公司提出以4堂億美元現(xiàn)金加股票的價格收購搜索網(wǎng)站雅虎公司。微軟提出以每股31美元的價格收購雅虎。微軟的收購報價較雅虎二月31日的收盤價19.工美元溢價微軟公司稱雅虎公司的股東可以選擇以現(xiàn)金或 股票進行交易。微軟和雅虎公司在20箕年底和2007年初已在尋求雙方合作。而近兩年,雅虎一直處于
12、困境:市場份額下滑、運營業(yè)績不佳、股價大幅下跌。對于力圖 在互聯(lián)網(wǎng)市場有所作為的微軟來說,收購雅虎無疑是一條捷徑,因為雙方具有非常強的互補性。(小橋)通過觀看可知,該文本預期為IT類文章三、試驗結(jié)果運行結(jié)果如下列圖In process.C000007: 4.0854457E-7In process.C000008: 3.7337093E-9In process.C000010: 3.9367328E-4In process.C000013: 4.6463947E-11In process.C000014: 1.3958673E-20In process.C00O016: 1.4360195E-15In process.C000020: 6.3035146E-18In process.C000022: 5.2257925E-16In process.C000023: 9.089387E-22In p
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版排水工程勘察設計合同4篇
- 2025年度現(xiàn)代農(nóng)業(yè)項目投資合作協(xié)議2篇
- 2025年度食品包裝材料質(zhì)量保證協(xié)議4篇
- 二零二五版蒙娜麗莎瓷磚與教育機構(gòu)校園文化建設合同4篇
- 2025年度電視劇衍生品開發(fā)合作協(xié)議4篇
- 2025年度門窗行業(yè)專利技術(shù)許可與實施合同4篇
- 個人與個人之間車輛買賣合同20242篇
- 2025年度個人住宅抵押貸款合同樣本6篇
- 二零二五年度大理石裝飾工程監(jiān)理與驗收合同模板3篇
- 二零二五年度船舶設備維修與保障協(xié)議4篇
- 我的家鄉(xiāng)瓊海
- (2025)專業(yè)技術(shù)人員繼續(xù)教育公需課題庫(附含答案)
- 《互聯(lián)網(wǎng)現(xiàn)狀和發(fā)展》課件
- 【MOOC】計算機組成原理-電子科技大學 中國大學慕課MOOC答案
- 2024年上海健康醫(yī)學院單招職業(yè)適應性測試題庫及答案解析
- 2024年湖北省武漢市中考語文適應性試卷
- 非新生兒破傷風診療規(guī)范(2024年版)解讀
- EDIFIER漫步者S880使用說明書
- 上海市華東師大二附中2025屆高二數(shù)學第一學期期末統(tǒng)考試題含解析
- IP授權(quán)合作合同模板
- 2024中華人民共和國農(nóng)村集體經(jīng)濟組織法詳細解讀課件
評論
0/150
提交評論