機(jī)器學(xué)習(xí)實(shí)驗(yàn)報(bào)告-樸素貝葉斯學(xué)習(xí)和分類文本_第1頁(yè)
機(jī)器學(xué)習(xí)實(shí)驗(yàn)報(bào)告-樸素貝葉斯學(xué)習(xí)和分類文本_第2頁(yè)
機(jī)器學(xué)習(xí)實(shí)驗(yàn)報(bào)告-樸素貝葉斯學(xué)習(xí)和分類文本_第3頁(yè)
機(jī)器學(xué)習(xí)實(shí)驗(yàn)報(bào)告-樸素貝葉斯學(xué)習(xí)和分類文本_第4頁(yè)
機(jī)器學(xué)習(xí)實(shí)驗(yàn)報(bào)告-樸素貝葉斯學(xué)習(xí)和分類文本_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

機(jī)器學(xué)習(xí)實(shí)驗(yàn)報(bào)告樸素貝葉斯學(xué)習(xí)和分類文本(2015年度秋季學(xué)期)、實(shí)驗(yàn)內(nèi)容問(wèn)題:通過(guò)樸素貝葉斯學(xué)習(xí)和分類文本目標(biāo):可以通過(guò)訓(xùn)練好的貝葉斯分類器對(duì)文本正確分類、實(shí)驗(yàn)設(shè)計(jì)

實(shí)驗(yàn)原理與設(shè)計(jì):在分類(classification)問(wèn)題中,常常需要把一個(gè)事物分到某個(gè)類別。一個(gè)事物具有很多屬性,把它的眾多屬性看做一個(gè)向量,即x=(x1,x2,x3,…,xn),用x這個(gè)向量來(lái)代表這個(gè)事物。類別也是有很多種,用集合Y=y1,y2,…ym表示。如果x屬于y1類別,就可以給x打上y1標(biāo)簽,意思是說(shuō)x屬于y1類別。這就是所謂的分類(Classification)。*的集合記為X,稱為屬性集。一般X和Y的關(guān)系是不確定的,你只能在某種程度上說(shuō)x有多大可能性屬于類yl,比如說(shuō)x有80%的可能性屬于類yl,這時(shí)可以把X和Y看做是隨機(jī)變量,P(Y|X)稱為Y的后驗(yàn)概率(posteriorprobability),與之相對(duì)的,P(Y)稱為Y的先驗(yàn)概率(priorprobability)1。在訓(xùn)練階段,我們要根據(jù)從訓(xùn)練數(shù)據(jù)中收集的信息,對(duì)X和Y的每一種組合學(xué)習(xí)后驗(yàn)概率P(Y|X)。分類時(shí),來(lái)了一個(gè)實(shí)例x,在剛才訓(xùn)練得到的一堆后驗(yàn)概率中找出所有的P(Y|x),其中最大的那個(gè)y,即為x所屬分類。根據(jù)貝葉斯公式,P(Y\X)=P(X\Y)P[Y}P(Y\X)=P(X\Y)P[Y}后驗(yàn)概率為在比較不同Y值的后驗(yàn)概率時(shí),分母P(X)總是常數(shù),因此可以忽略。先驗(yàn)概率P(Y)可以通過(guò)計(jì)算訓(xùn)練集中屬于每一個(gè)類的訓(xùn)練樣本所占的比例容易地估計(jì)。在文本分類中,假設(shè)我們有一個(gè)文檔d£X,X是文檔向量空間(documentspace),和一個(gè)固定的類集合C={c1,c2,…,cj},類別又稱為標(biāo)簽。顯然,文檔向量空間是一個(gè)高維度空間。我們把一堆打了標(biāo)簽的文檔集合〈山。>作為訓(xùn)練樣本,<d,c>£XXC。例如:<d,c>={BeijingjoinstheWorldTradeOrganization,China}對(duì)于這個(gè)只有一句話的文檔,我們把它歸類到China,即打上china標(biāo)簽。我們期望用某種訓(xùn)練算法,訓(xùn)練出一個(gè)函數(shù)Y,能夠?qū)⑽臋n映射到某一個(gè)類別:Y:X-C這種類型的學(xué)習(xí)方法叫做有監(jiān)督學(xué)習(xí),因?yàn)槭孪扔幸粋€(gè)監(jiān)督者(我們事先給出了一堆打好標(biāo)簽的文檔)像個(gè)老師一樣監(jiān)督著整個(gè)學(xué)習(xí)過(guò)程。樸素貝葉斯分類器是一種有監(jiān)督學(xué)習(xí)。實(shí)驗(yàn)主要代碼:由于中文本身是沒有自然分割符(如空格之類符號(hào)),所以要獲得中文文本的特征變量向量首先需要對(duì)文本進(jìn)行中文分詞。這里采用極易中文分詞組件

publicclassChineseSpliter(/**k特定的知三4行三Kij再paramteict洽定的注本paramsplitToken用干Si■利的課里"比"|"力^return在河癥早的毋ipublicstaticStringsplitfStringtexljStringsplitTokerStringresult=null;MMAnalyz^ranalyzer=n,MMAnal,yzer();tryresult=analyzer.seginent(te^tjsplitToken);catch(lOExceptione)e.printStackTrace();returnresultj先驗(yàn)概率計(jì)算,N表示訓(xùn)練文本集總數(shù)量。fpublizzlaaarriorFrcbabi1itirtzrivate啟;:二TraininjDataEanag-eetdm=neT.<7"ainingDataKanage"();**先驗(yàn)概率Gpacam二給定的分類Oreturn給定條件下的先喊概率Vpi;bli2a:白;二二:二二百七caLculat之FtfEt=ingg-JzL?itrez=OF;三二ca:ITc=T±n,getTr-ainingFileCcunt^zula55i^ica-iDri{ci;IT=tim.getlrainingFileCcunt();re7-He『IT;returnre-;條件概率計(jì)算,為在條件A下發(fā)生的條件事件B發(fā)生的條件概率。x?給定的文本屬性,c?給定的分類

2atati2:二3日:calciilazeFxc<STrirLjKrStrinjc)「……四?It-二日:I-l^c=t±rbg=tCuuzi;匚0n;□1口區(qū)吃丫口工二]niliudtj.口m{u,也,;zloatlie=tdin.二二自ininn三二二巳匚unnttf二1己331:二匚己士10口(匚,;zlD3t7=tim.jetlraningZlasaizizatiDELS().length;Mt=(Nxc-1)/{Me-M-5;〃為了避免出現(xiàn)二:這樣極端情況,進(jìn)行加權(quán)處理returnret;對(duì)給定的文本進(jìn)行分類publicstringelasaizyI'Szrinj"extJtenns=ChireseSpliterrsplic(test,ri11hsplit(",);〃中文分詞處理[分詞后結(jié)果可能還包含有信用伺〕t==比①£七呼風(fēng)工日口(正皿3”〃去掉停用同5以免星匆同分類ScringnClasses=tim.,gstlraningCldssifications()flc-atprcbilit^=0..OFrLLSLCCldS31*l-Re3LlL>CIS=H.SW&2匚己皿113K匚1日331二YRRSUI00;〃分類焙果(int±=0;i<01333£3..length;i++)StringCi-口!anm[i];"第:1個(gè)分類prebility=ca.lcPrcd(t£ms?Ci>;〃計(jì)苴給定的文本屬性向里比"3在給定的分類ti中的分類條件概率“保存分蟒果ClassizyEesultcr=newClassizi'Reault();cr.LiassiricaEldq=11;"分類cr.prDbiLity=probi二匚¥;“關(guān)鍵字在分類的條件概率Svst-emrout-,print;ln("Inprocess--Pr,):Syjtem.out.pziat1n(Cit11:"+probility)}crs.add(cr);三、測(cè)試數(shù)據(jù)訓(xùn)練集文本:數(shù)據(jù)樣例選用Sogou實(shí)驗(yàn)室的文本分類數(shù)據(jù)的mini版本.C000007.C000007.cooooos.COOOO1O.COOOO130000014C00001S.C000020COOOO22.COOOO23CW0024,ClasELiEt.brt2O1S/V320;1B文件夾2016/1/320:13文件夾2016/1732018文件夾2015/1/320:13文件夾2016/1/320;18文件夾2016/17320:10文件夾2O16/V320:18文件夾2016/1/320:18文件夾2016/1/32018文件夾2O1&/1/32糖13文件夾2006/10/2611:37立本文檔類別及標(biāo)號(hào)C000007汽車C000008財(cái)經(jīng)C000010ITC000013健康C000014便育C000016旅游C000020教育C000022招聘C000023文化C000024軍事測(cè)試數(shù)據(jù)文本:燃公司斜山4兆覲帥觸響觸中國(guó)網(wǎng)2月二日?qǐng)?bào)道美聯(lián)社消息,他就公司提出以氾啟憶美元現(xiàn)金加股票的侑格收購(gòu)搜索網(wǎng)站觸必司,齦棉出以每股31美元的價(jià)格收購(gòu)底虎。徵軟的收購(gòu)報(bào)價(jià)棚叫二月1日的收盤柏二一,*美瀚價(jià)曉仙桃處司通虎公司的股東可以選擇以現(xiàn)金或股票進(jìn)行交易。燃和雅虎公司在二式《年底和2口口?年初已在尋求雙方合作口而近兩年,底虐一直處于困it:市場(chǎng)份額下涓■1運(yùn)營(yíng)業(yè)震不佳、股價(jià)大幅下跌。對(duì)于力圖瓶以網(wǎng)福有斫作為的制域說(shuō)?雌鹿虎瑙是—荊監(jiān)0M方具用潸強(qiáng)般補(bǔ)性口:小和通過(guò)觀察可知,該文本預(yù)期為IT類文章三、實(shí)驗(yàn)結(jié)果運(yùn)行結(jié)果如下圖

Inproce5sC^^00734.0S54457E-7InprocessC&W00S:3.7337093E-9Inproce553.9367528E-4InprocessCW0@13:4.&463947E-11InprocessC&&e914L.395S&73E-Z?InprocessC^O016=L.436?195E-15InprocessCW?02?:6.3035146E-18InprocessC&W022:5.,2257925E-16Inprocess,,,.CW*023:Q.&S93S7E-22Inprocess

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論