



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于weka的數(shù)據(jù)分類分析實(shí)驗(yàn)報(bào)告1實(shí)驗(yàn)根本內(nèi)容本實(shí)驗(yàn)的根本內(nèi)容是通過使用weka中的三種常見分類和聚類方法〔決策樹J48、KNN和k-means〕分別在訓(xùn)練數(shù)據(jù)上訓(xùn)練出分類模型,并使用校驗(yàn)數(shù)據(jù)對(duì)各個(gè)模型進(jìn)行測(cè)試和評(píng)價(jià),找出各個(gè)模型最優(yōu)的參數(shù)值,并對(duì)三個(gè)模型進(jìn)行全面評(píng)價(jià)比擬,得到一個(gè)最好的分類模型以及該模型所有設(shè)置的最優(yōu)參數(shù)。最后使用這些參數(shù)以及訓(xùn)練集和校驗(yàn)集數(shù)據(jù)一起構(gòu)造出一個(gè)最優(yōu)分類器,并利用該分類器對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)。2數(shù)據(jù)的準(zhǔn)備及預(yù)處理2.1格式轉(zhuǎn)換方法(1)翻開“data02.xls〞另存為CSV類型,得到“data02.csv〞。(2)在WEKA中提供了一個(gè)“ArffViewer〞模塊,翻開一個(gè)“data02.csv〞進(jìn)行瀏覽,然后另存為ARFF文件,得到“data02.arff〞。。3.實(shí)驗(yàn)過程及結(jié)果截圖3.1決策樹分類(1)決策樹分類用“Explorer〞翻開數(shù)據(jù)“data02.arff〞,然后切換到“Classify〞。點(diǎn)擊“Choose〞,選擇算法“trees-J48〞,再在“Testoptions〞選擇“Cross-validation〔Flods=10〕〞,點(diǎn)擊“Start〞,開始運(yùn)行。系統(tǒng)默認(rèn)trees-J48決策樹算法中minNumObj=2,得到如下結(jié)果===Summary===CorrectlyClassifiedInstances2388.4615%IncorrectlyClassifiedInstances311.5385%Kappastatistic0.7636Meanabsoluteerror0.141Rootmeansquarederror0.3255Relativeabsoluteerror30.7368%Rootrelativesquarederror68.0307%TotalNumberofInstances26===DetailedAccuracyByClass===TPRateFPRatePrecisionRecallF-MeasureROCAreaClass0.824010.8240.9030.892N10.1760.7510.8570.892YWeightedAvg.0.8850.0610.9130.8850.8870.892===ConfusionMatrix===ab<--classifiedas143|a=N09|b=Y使用不同的參數(shù)準(zhǔn)確率比擬:minNumObj2345CorrectlyClassifiedInstances23〔88.4615%〕22〔84.6154%〕23〔88.4615%〕23〔88.4615%〕由上表,可知minNumObj為2時(shí),準(zhǔn)確率最高。根據(jù)測(cè)試數(shù)集,利用準(zhǔn)確率最高的模型得到的結(jié)果:分析說明:在用J48對(duì)數(shù)據(jù)集進(jìn)行分類時(shí)采用了10折交叉驗(yàn)證〔Folds=10〕來選擇和評(píng)估模型,其中屬性值有兩個(gè)Y,N。一局部結(jié)果如下:CorrectlyClassifiedInstances2388.4615%IncorrectlyClassifiedInstances311.5385%===ConfusionMatrix===ab<--classifiedas143|a=N09|b=Y這個(gè)矩陣是說,原來是“Y〞的實(shí)例,有14個(gè)被正確的預(yù)測(cè)為“Y〞,有3個(gè)錯(cuò)誤的預(yù)測(cè)成了“N〞。原本是“NO〞的實(shí)例有0個(gè)被正確的預(yù)測(cè)成為“Y〞,有9個(gè)正確的預(yù)測(cè)成了“N〞?!?4+3+0+9=26〞是實(shí)例的總數(shù),而〔14+9〕/26=0.884615正好是正確分類的實(shí)例所占比例。這個(gè)矩陣對(duì)角線上的數(shù)字越大,說明預(yù)測(cè)得越好。(2)K最近鄰分類算法用“Explorer〞翻開數(shù)據(jù)“data02.arff〞,然后切換到“Classify〞。點(diǎn)擊“Choose〞,選擇算法“l(fā)azy-IBk〞,再在“Testoptions〞選擇“Cross-validation〔Flods=10〕〞,點(diǎn)擊“Start〞,開始運(yùn)行。訓(xùn)練結(jié)果:系統(tǒng)默認(rèn)lazy-IBkK最近鄰分類算法中KNN=1,得到如下結(jié)果===Summary===CorrectlyClassifiedInstances2076.9231%IncorrectlyClassifiedInstances623.0769%Kappastatistic0.4902Meanabsoluteerror0.252Rootmeansquarederror0.4626Relativeabsoluteerror54.9136%Rootrelativesquarederror96.694%TotalNumberofInstances26===DetailedAccuracyByClass===TPRateFPRatePrecisionRecallF-MeasureROCAreaClass0.8240.3330.8240.8240.8240.768N0.6670.1760.6670.6670.6670.768YWeightedAvg.0.7690.2790.7690.7690.7690.768===ConfusionMatrix===ab<--classifiedas143|a=N36|b=Y使用不同的參數(shù)準(zhǔn)確率比擬:KNN1234CorrectlyClassifiedInstances20〔76.9231%〕19〔73.0769%〕23〔88.4615%〕20〔76.9231%〕由上表,可知KNN為3時(shí),準(zhǔn)確率最高。根據(jù)測(cè)試數(shù)集,利用準(zhǔn)確率最高的模型得到的結(jié)果:分析說明:在用lazy-Ibk(KNN=3)對(duì)數(shù)據(jù)集進(jìn)行分類時(shí)采用了10折交叉驗(yàn)證〔Folds=10〕來選擇和評(píng)估模型,其中屬性值有兩個(gè)Y,N。一局部結(jié)果如下:===Summary===CorrectlyClassifiedInstances2388.4615%IncorrectlyClassifiedInstances311.5385%===ConfusionMatrix===ab<--classifiedas161|a=N27|b=Y這個(gè)矩陣是說,原來是“Y〞的實(shí)例,有16個(gè)被正確的預(yù)測(cè)為“Y〞,有1個(gè)錯(cuò)誤的預(yù)測(cè)成了“N〞。原本是“NO〞的實(shí)例有2個(gè)被正確的預(yù)測(cè)成為“Y〞,有9個(gè)正確的預(yù)測(cè)成了“7〞?!?6+1+2+7=26〞是實(shí)例的總數(shù),而〔16+7〕/26=0.884615正好是正確分類的實(shí)例所占比例。二、對(duì)“data01〞進(jìn)行聚類分析1.數(shù)據(jù)格式的轉(zhuǎn)換(1)翻開“data01.xls〞另存為CSV類型,得到“data01.csv〞。(2)在WEKA中提供了一個(gè)“ArffViewer〞模塊,翻開一個(gè)“data01.csv〞進(jìn)行瀏覽,然后另存為ARFF文件,得到“data01.arff〞。2.聚類過程用“Explorer〞翻開數(shù)據(jù)“data01.arff〞,然后切換到“Cluster〞。點(diǎn)擊“Choose〞,選擇算法“SimpleKMeans〔numClusters=6,seed=200〕,再在“Testoptions〞選擇“Usetrainingset〞,點(diǎn)擊“Start〞,開始運(yùn)行。訓(xùn)練結(jié)果:采用simpleKMeans算法,其中numClusters=6,seed=100,得到如下結(jié)果:Numberofiterations:3Withinclustersumofsquarederrors:6.065322314450069〔平方誤差之和〕ClusteredInstancesClusteredInstances04(15%)13(12%)24(15%)33(12%)42(8%)510(38%)〔各類的包含的實(shí)例個(gè)數(shù)以及占總實(shí)例的百分比〕說明:其中當(dāng)seed的取值越大,平方誤差之和越小。在這次實(shí)驗(yàn)seed=100,得到:Withinclustersumofsquarederrors:6.065322314450069.這是評(píng)價(jià)聚類好壞的標(biāo)準(zhǔn),數(shù)值越小說明同一簇實(shí)例之間的距離就越小。接下來“Clustercentroids〞:列出了各個(gè)簇中心的位置:AttributeFullData012345(26)(4)(3)(4)(3)(2)(10)=================================================================================sample13.522.54.666720.514.66674.511.2old-year48.076965.7559.333350.52556.541.9VEGF1.92312.752.333322.666731MVC102.1538126.45100.6667127.488.266710486.58cancer-grade2.57693.75233.33333.51.7cancer-stage2.15383.251.333332.33333.51.3cancermetastasisNYNNYYN最后“ClusteredInstances〞列出了各個(gè)簇中實(shí)例的數(shù)目及百分比:ClusteredIn
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)形象策劃服務(wù)合同
- 專業(yè)分包施工合同協(xié)議書
- 舊機(jī)動(dòng)車買賣居間服務(wù)合同
- 石灰土底基層施工勞務(wù)承包合同
- 廣州華立學(xué)院《區(qū)域數(shù)字經(jīng)濟(jì)調(diào)查》2023-2024學(xué)年第二學(xué)期期末試卷
- 大興安嶺職業(yè)學(xué)院《財(cái)務(wù)報(bào)表編制與分析》2023-2024學(xué)年第二學(xué)期期末試卷
- 下壓式接力跑 教學(xué)設(shè)計(jì)-2023-2024學(xué)年高一上學(xué)期體育與健康人教版必修第一冊(cè)
- 江南影視藝術(shù)職業(yè)學(xué)院《信息與內(nèi)容安全》2023-2024學(xué)年第二學(xué)期期末試卷
- 綿陽飛行職業(yè)學(xué)院《馬克思主義經(jīng)典著作選讀(一)》2023-2024學(xué)年第二學(xué)期期末試卷
- 長(zhǎng)江大學(xué)文理學(xué)院《家具史》2023-2024學(xué)年第二學(xué)期期末試卷
- 華東師大版七年級(jí)數(shù)學(xué)下冊(cè)“第1周周考”
- 中國地方政府融資平臺(tái)行業(yè)市場(chǎng)深度分析及投資前景展望報(bào)告
- 2025年廣東中考物理學(xué)科模擬試卷(廣東專屬)
- 2025年包頭鐵道職業(yè)技術(shù)學(xué)院高職單招語文2018-2024歷年參考題庫頻考點(diǎn)含答案解析
- 光伏安全施工方案范本
- 2025上半年江蘇省南通如東事業(yè)單位招聘7人易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 山東省濟(jì)南市2024-2024學(xué)年高三上學(xué)期1月期末考試 地理 含答案
- 2025年湘教版二年級(jí)美術(shù)下冊(cè)計(jì)劃與教案
- 藥品注冊(cè)管理辦法課件
- 2024-2030年中國自動(dòng)光學(xué)檢測(cè)儀(AOI)市場(chǎng)競(jìng)爭(zhēng)格局與前景發(fā)展策略分析報(bào)告
- 2024-2025學(xué)年人教版數(shù)學(xué)八年級(jí)上冊(cè)期末模擬試卷
評(píng)論
0/150
提交評(píng)論