




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
AI實(shí)驗(yàn):用樸素貝葉斯算法實(shí)現(xiàn)文本分類(lèi)學(xué)院:計(jì)算機(jī)科學(xué)與工程學(xué)院班級(jí):03計(jì)聯(lián)組別:第二組姓名:學(xué)號(hào):指導(dǎo)老師:一、實(shí)驗(yàn)內(nèi)容:1.?dāng)?shù)據(jù)采集1)下載CornellUniversity,WashingtonUniversity,WisconsinUniversityandTexasUniversity計(jì)算機(jī)專(zhuān)業(yè)和化學(xué)專(zhuān)業(yè)的教授個(gè)人網(wǎng)頁(yè)、學(xué)生個(gè)人網(wǎng)頁(yè)和課程網(wǎng)頁(yè)2)預(yù)處理數(shù)據(jù)2.實(shí)現(xiàn)樸素貝葉斯算法。3.實(shí)驗(yàn)結(jié)果1)按專(zhuān)業(yè)分類(lèi)的準(zhǔn)確性(2組)2)打印出每類(lèi)中概率值最高的20個(gè)詞,并分析它們的不同之處3)修改程序,使得在計(jì)算字概率時(shí),可以從詞匯表中去掉概率最高的N個(gè)字(從訓(xùn)練集中選)。當(dāng)N取30、50、100、300、500、1000時(shí)比較分類(lèi)器的準(zhǔn)確性,畫(huà)圖說(shuō)明4)計(jì)算字概率時(shí)采用如下公式:where,Cisacategory,ECisthesetofalltrainingexampleslabelledasC,c(w;EC)isthecountsofwordwinEC,ands(EC)=∑c(wi;EC)isthetotalcountsofallthewordsinEC.m取[10,|V|]范圍的至少5個(gè)值,學(xué)習(xí)分類(lèi)器,比較分類(lèi)器的準(zhǔn)確性,畫(huà)圖說(shuō)明。二、實(shí)驗(yàn)步驟1.?dāng)?shù)據(jù)采集本次實(shí)驗(yàn)的數(shù)據(jù)采集由我們兩個(gè)班共4個(gè)組的同學(xué)分工完成,本組負(fù)責(zé)收集WashingtonUniversity的相關(guān)網(wǎng)頁(yè)。本組用“OfflineExplorerEnterprise”這個(gè)國(guó)外的軟件先將WashingtonUniversity的站內(nèi)的相關(guān)頁(yè)面下載下來(lái),然后將里面的無(wú)關(guān)的鏈接刪除,得到與該校有關(guān)的頁(yè)面。由于在下載后,里面有些文件夾內(nèi)存在一些pdf文件,考慮到無(wú)法讀取該類(lèi)文件,所以也將它們刪去。最后只剩.html文件。組長(zhǎng)將這些資料分發(fā)給我們,由我們這些組員整理,再發(fā)回給他。預(yù)處理數(shù)據(jù)時(shí)先篩選掉無(wú)關(guān)的網(wǎng)頁(yè),然后將有效網(wǎng)頁(yè)以學(xué)校名->專(zhuān)業(yè)->課程(教授或?qū)W生)->網(wǎng)頁(yè)分類(lèi)存放。網(wǎng)頁(yè)命名基本原則是四個(gè)組統(tǒng)一安排的,該原則是按網(wǎng)頁(yè)的URL命名,考慮到網(wǎng)頁(yè)已按文件夾分類(lèi)好,不存在重名的問(wèn)題,所以一部分網(wǎng)頁(yè)保留原名(下載名)。本實(shí)驗(yàn)的網(wǎng)頁(yè)文件放在”AIHtmlResource”文件夾里,清單如下所示ChemistryComputerScienceCornellUniversity155237WashingtonUniversity179WisconsinUniversity187219用于測(cè)試的網(wǎng)頁(yè)放在”test_for_chem”和”test_for_cs”兩個(gè)文件夾里,這些文件都是從搜集到的文件里面隨機(jī)抽取的,清單如下所示:test_for_chemtest_for_cs文件個(gè)數(shù)86872.程序代碼☆平臺(tái):WindowsXP☆開(kāi)發(fā)語(yǔ)言:JAVA☆開(kāi)發(fā)工具:JDK+JCreator本實(shí)驗(yàn)的代碼共包括5個(gè)java文件,清單如下所示:功能說(shuō)明Artificial.java主類(lèi),提供輸出和對(duì)結(jié)果進(jìn)行統(tǒng)計(jì)的功能Analyze.java提供分析字符串功能,分割單詞并生成單詞集HtmlFilter.java過(guò)濾網(wǎng)頁(yè)中的標(biāo)簽,為進(jìn)行分類(lèi)做準(zhǔn)備keyAndCount.java提供存放單詞及其概率的結(jié)構(gòu)keyAndCountobject.java提供存放單詞token的結(jié)構(gòu)object主要功能函數(shù)說(shuō)明如下:類(lèi)Artificial 在此類(lèi)中,定義了一個(gè)靜態(tài)字符串?dāng)?shù)組,用于存放停止詞publicstaticfinalString[]ENGLISH_STOP_WORDS={"a","an","and","are","am","as","at","be","but","by","for","i","if","in","into","is","it","do","no","not","of","on","or","s","such","t","that","the","their","then","there","these","they","this","to","was","will","with","nbsp","pm","td","dropitem","dropdown","hover","drophead","td","you","your"}; 定義了一個(gè)函數(shù),它調(diào)用了其他類(lèi)的函數(shù),同時(shí)生成一個(gè)哈希表,用于對(duì)結(jié)果進(jìn)行統(tǒng)計(jì),此函數(shù)首先將文本進(jìn)行預(yù)處理,將當(dāng)中的有用的文本提取出來(lái),再存入哈希表內(nèi),同時(shí)進(jìn)行了統(tǒng)計(jì),用于下一步的處理publicstaticvoidLoadfileAndStat(Filefile,Vectorvt,intkind) 定義了一個(gè)函數(shù),用于對(duì)哈希表進(jìn)行排序,這樣可以方便提取出頻率最高的單詞,方便以后的處理.此函數(shù)采用的是快速排序算法publicstaticvoidQuickSort(Vectorvt,intleft,intright)類(lèi)Analyze在此類(lèi)中定義了一個(gè)函數(shù)analyze,它的功能是對(duì)單詞進(jìn)行提取,并存入一個(gè)向量中,當(dāng)中的提取過(guò)程是:首先對(duì)字符的編碼進(jìn)行判斷,如果有用就保存下來(lái),無(wú)用就將其刪除;然后將這些字符以詞為單位存入向量中。類(lèi)HtmlFilter此類(lèi)只定義了一個(gè)構(gòu)造函數(shù)HtmlFilter。此函數(shù)的功能是刪除網(wǎng)頁(yè)中的標(biāo)簽和腳本語(yǔ)言.它的算法是,每次讀一行文本,如果出現(xiàn)”<”號(hào),則忽略此號(hào)到”>”之間的內(nèi)容,也就是去除了標(biāo)簽.而對(duì)于腳本語(yǔ)言的去除,就是去除”{”號(hào)和”}”號(hào)之間的內(nèi)容.當(dāng)然,這里面也存在一些不足.因?yàn)槟_本語(yǔ)言里面的函數(shù)名無(wú)法去.如果要做到盡善盡美,則會(huì)使程序非常復(fù)雜.考慮到腳本語(yǔ)言的函數(shù)調(diào)用頻率不會(huì)很高,對(duì)分類(lèi)不會(huì)產(chǎn)生太大的影響,所以不進(jìn)行處理,以免影響速度.3.實(shí)驗(yàn)方法在Artificial類(lèi)當(dāng)中定義了兩個(gè)全局靜態(tài)整數(shù)N和m,其中N用于去除概率最高的N個(gè)字,m對(duì)應(yīng)于公式中的m,用于讓結(jié)果變得更加平滑。實(shí)驗(yàn)時(shí)只要改變這兩個(gè)變量,就可以得出不同的結(jié)果,然后對(duì)這些結(jié)果進(jìn)行統(tǒng)計(jì)就行了。4.實(shí)驗(yàn)結(jié)果在所有chemistry文件中,頻率最高的20個(gè)單詞是{intrinsic,chemistry,fortran,chem,use,course,intrinsics,code,information,style,kind,section,name,program,gnu,function,integer,time,see,type}在所有computerscience文件中,頻率最高的20個(gè)單詞是{course,cs,computer,programming,class,lecture,information,systems,science,homework,students,data,from,may,topics,introduction,design,due,cps,problem}對(duì)文件夾test_for_chem的運(yùn)行結(jié)果如下所示m=10m=100m=500m=1000m=3000N=00.94040.94050.94050.94050.9405N=300.71430.73810.73810.73810.7381N=500.91670.91670.91670.91670.9167N=1000.60710.60710.60710.58330.5833N=3000.17860.16670.16670.16670.1548N=5000.21430.20240.20240.20240.1667N=10000.11900.11900.11900.11900.1071對(duì)文件夾test_for_cs的運(yùn)行結(jié)果如下所示m=10m=100m=500m=1000m=3000N=00.96250.96250.96250.96250.9625N=300.95000.95000.95000.95000.9500N=500.92500.95000.95000.96250.9750N=1000.85000.90000.90000.91250.9125N=3000.67500.75000.83750.85000.9125N=5000.46250.62500.81250.85000.9000N=10000.51250.63750.81250.86250.9125實(shí)驗(yàn)結(jié)果用條狀圖表示,結(jié)果如下所示:對(duì)文件夾test_for_chem的測(cè)試結(jié)果如下曲線圖所示:對(duì)文件夾test_for_cs的測(cè)試結(jié)果如下曲線圖所示5.結(jié)果分析從上面的幾張圖可以看出,對(duì)于不同的m值,曲線的形狀的變化并不大,只是改變了曲線某些結(jié)點(diǎn)的值;而在同一個(gè)m中,隨著N的變大,曲線先向下凸,再上升,然后下降。由于時(shí)間和能力所限,實(shí)驗(yàn)中也存在著不少的不足,從所有的圖可以看出,在N取30至50時(shí),準(zhǔn)確率是最高的,而隨著N的繼續(xù)增大,會(huì)出現(xiàn)減少而又增大的現(xiàn)象,顯然,這是不合實(shí)際的.這可能是因?yàn)閿?shù)據(jù)的選取上出了差錯(cuò),或者是因?yàn)榉椒ㄉ铣隽藛?wèn)題。在這里,樸素貝葉斯算法的準(zhǔn)確性并沒(méi)有達(dá)到理想的要求。AIchem.m文件的源代碼functionAIchem()x=[0,30,50,100,300,500,1000];ya=[0.9404,0.7143,0.9167,0.6071,0.1786,0.2143,0.1190];yb=[0.9404,0.7143,0.9167,0.6071,0.1667,0.2024,0.1190];yc=[0.9404,0.7143,0.9167,0.6071,0.1667,0.2024,0.1190];yd=[0.9404,0.7143,0.9167,0.5833,0.1667,0.2024,0.1190];ye=[0.9404,0.7143,0.9167,0.5833,0.1548,0.1667,0.1071];aa=polyfit(x,ya,2);bb=polyfit(x,yb,2);cc=polyfit(x,yc,2);dd=polyfit(x,yd,2);ee=polyfit(x,ye,2);x1=[0:10:1000];y1=aa(3)+aa(2)*x1+aa(1)*x1.^2;y2=bb(3)+bb(2)*x1+bb(1)*x1.^2;y3=cc(3)+cc(2)*x1+cc(1)*x1.^2;y4=dd(3)+dd(2)*x1+dd(1)*x1.^2;y5=ee(3)+ee(2)*x1+ee(1)*x1.^2;subplot(5,1,1);plot(x1,y1,'-r');title('m=10');subplot(5,1,2);plot(x1,y2,'-r');title('m=100');subplot(5,1,3);plot(x1,y3,'-r');title('m=500');subplot(5,1,4);plot(x1,y4,'-r');title('m=1000');subplot(5,1,5);plot(x1,y5,'-r');title('m=3000');附錄:AIcs.m文件的源代碼functionAIcs()x=[0,30,50,100,300,500,1000];ya=[0.9625,0.9500,0.9250,0.8500,0.6750,0.4625,0.5125];yb=[0.9625,0.9500,0.9500,0.9000,0.7500,0.6250,0.6375];yc=[0.9625,0.9500,0.9500,0.9000,0.8375,0.8125,0.8125];yd=[0.9625,0.9500,0.9625,0.9125,0.8500,0.8500,0.8625];ye=[0.9625,0.9500,0.9750,0.9125,0.9125,0.9000,0.9125];aa=polyfit(x,ya,2);bb=polyfit(x,yb,2);cc=polyfit(x,yc,2);dd=polyfit(x,yd,2);ee=polyfit(x,ye,2);x1=[0:10:1000];y1=aa(3)+aa(2)*x1+aa(1)*x1.^2;y2=bb(3)+bb(2)*x1+bb(1)*x1.^2;y3=cc(3)+cc(2)*x1+cc(1)*x1.^2;y4=dd(3)+dd(2)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年河北旅游職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)完整
- 電力安全生產(chǎn)教育培訓(xùn)的現(xiàn)代科技應(yīng)用
- 聲明改合同范本
- 2025-2030年中國(guó)生物丁醇行業(yè)風(fēng)險(xiǎn)評(píng)估與十三五規(guī)劃研究報(bào)告
- 2025-2030年中國(guó)淀粉全降解塑料行業(yè)投資戰(zhàn)略決策研究報(bào)告
- 知識(shí)產(chǎn)權(quán)保護(hù)策略在辦公環(huán)境中的應(yīng)用
- 2025-2030年中國(guó)泡桐木原木市場(chǎng)運(yùn)行動(dòng)態(tài)及投資戰(zhàn)略研究報(bào)告
- 2025-2030年中國(guó)汽車(chē)制動(dòng)盤(pán)行業(yè)發(fā)展趨勢(shì)及投資戰(zhàn)略研究報(bào)告
- 2025-2030年中國(guó)汽柴油清凈劑行業(yè)運(yùn)行現(xiàn)狀與投資戰(zhàn)略研究報(bào)告
- 2025-2030年中國(guó)有機(jī)大米市場(chǎng)發(fā)展態(tài)勢(shì)及投資規(guī)劃研究報(bào)告
- 學(xué)校辦公室主任述職報(bào)告
- 《列夫·托爾斯泰》-完整版PPT
- 高考古代詩(shī)歌鑒賞復(fù)習(xí)教案
- 負(fù)數(shù)的認(rèn)識(shí)1202
- After-Effects影視特效設(shè)計(jì)教程完整版全套ppt課件
- 中國(guó)鐵塔建設(shè)維護(hù)工作培訓(xùn)PPT通用通用課件
- 新視野大學(xué)英語(yǔ)第三版Book 2 Unit 1 Text A
- 醫(yī)療設(shè)備清單
- 《夏夜多美》課件(ppt)
- SHD干燥機(jī)說(shuō)明書(shū)(英)
- 藍(lán)色卡通風(fēng)格研學(xué)旅行報(bào)告PPT講座學(xué)習(xí)
評(píng)論
0/150
提交評(píng)論