商務(wù)智能與數(shù)據(jù)挖掘試驗報告_第1頁
商務(wù)智能與數(shù)據(jù)挖掘試驗報告_第2頁
商務(wù)智能與數(shù)據(jù)挖掘試驗報告_第3頁
商務(wù)智能與數(shù)據(jù)挖掘試驗報告_第4頁
商務(wù)智能與數(shù)據(jù)挖掘試驗報告_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

商務(wù)智能與數(shù)據(jù)挖掘?qū)嶒瀳蟾嬲n程:商務(wù)智能與數(shù)據(jù)挖掘地點:L2607時間:2012年5月13日學(xué)生姓名不冶”叱* 班級 電商 學(xué)號實驗項目數(shù)據(jù)挖掘應(yīng)用實驗指導(dǎo)教師 *辛叱**本實驗?zāi)康腖掌握MicrosoftSQLserver的數(shù)據(jù)庫恢復(fù):,掌握MicrosoftSQLServerAnlysisService的多維數(shù)據(jù)分析功能;.至少掌握一種數(shù)據(jù)挖掘工具,并能正確地使用;.利用所掌握的數(shù)據(jù)挖掘工具進行分類分析、關(guān)聯(lián)分析、聚類分析等.實驗要求1.根據(jù)提供的“SQL2008SBSDW.bak”文件恢復(fù)SQL2008SBSDW數(shù)據(jù)庫;.在SQL2008SBSDW數(shù)據(jù)庫上搭建多維數(shù)據(jù)集口.根據(jù)提供的“data02”進行分類分析;.根據(jù)提供的“data02”進行關(guān)聯(lián)分析;.根據(jù)提供的“data。產(chǎn)進行聚類分析;(數(shù)據(jù)可利用系統(tǒng)自帶的進行分析,也可利用提供的數(shù)據(jù)進行分析)實驗內(nèi)容及實驗結(jié)果一、對“曲g02”進行分類分析L數(shù)據(jù)格式的轉(zhuǎn)換(1)打開“data02.xl瞟另存為CSV類型,得至1」“dataO2.cw- 丑?£吃.(2)在WEKA中提供了一個“ArffView"”模塊,打開一個“data02uv”進行瀏覽,然后另存為ARFF文件,得到“dataO2.arff二9『a吧丹而2.分類過程(D決策樹分類用“Explorer”打開數(shù)據(jù)"data02.arff",然后切換到“Classify”口點擊“Choose",選擇算法“trees-」48",再在"Testoptions"選擇"Cross-validaticm(Flods=10)",點擊"Start",開始運行。訓(xùn)練結(jié)果;

系統(tǒng)默認treevJ48決策樹算法中mii^um0bj=2,得到如下結(jié)果===Summary二二二CorrectlyClassifiedInslances2388.4615%IncorrectlyClassifiedInstances311.5385%Kappastatistic0.7636Meanabsoluteerror0.141Rootmeansquarederror0.3255RelativeabsoluteerroT30.7368%Rootrelativesquarederror68.0307%TotalNumberofInstances26 DetailedAccuracyByClass TPRateFPRatePrecisionRecallF-MeasureROCAreaClass0.824 010.824 0.903 0.892N1 0.1760.751 0.857 0.892YWeightedAvg.0.885 01)61().9130.885 0.887 0.892二二二ConfusionMatrix二二二ab<-classifiedas1431a=N091b=Y使用不同的參數(shù)準(zhǔn)確率比較:minNnmObj2345CorrectlyClcissifiedInstcinces23(88.4615%)22(84.6154%)23(88.4615%)23(88.4615%)由上表,可知minXumObj為2時,準(zhǔn)確率最高.根據(jù)測試數(shù)集,利用準(zhǔn)確率最高的模型得到的結(jié)果:[=?WekaClassierTreeVisualizer:11:22:13-treesJ48(data02)I^ARFF-Viewer-C:\User^US\Peslctop\lli.arff [=FileEditView疸.Lx'」』jlliarffRelation:dataEQjredictedHq.sampleNiacric疝d-yqar「二空:二VEGF%=2ri匚MV€:;3ST9二cancer-gradecanc-%r^stage::=行二predictedearicermetasasis用s.in1a.lcancer■vt&Sls.sis手工工ml19.05G.01.07401.01.0nin1024.031.02.G124.8203.0IT1113.0盟Q1.056.0io1.0nW1217.014.03.0138.63.03.0TI133.06L02.019002.0l.oIT148.042.0l.Q24Q.03.02.0T151612.02.025.036.02.01.094657.2Rightdick(orforcontextmenuIwl.Ul.U1714.03101.04782.01.0n185.05S.03.Q80.03.00II157.038.01.076.01.01.0Vn2也045.02.Q124.02.04.0A2018.0耀總LQ11402.03.0V.2119.03S.0l.ij40.22.01.0l!H22二二Q63Q3,:?12723.030YI236.06:Q1.c9:42.0l.Un2-;2520.01.0"?uS9.03:2.Q17J243.44.02.a3.01.0Y口TU26315.Q~6.0的汽A?.031:■3.031.61419.83,04.01.03.0l I45躇。H.Or二Qu1.03.G662132.S2.04.01.02.0IT不us6721.010.065R弭02-:■3.u51e情6CO2.G;.o2.0I立I s325u5三u1.0123.0403uTq94058j:i3.0128.04.03.0Il分析說明:在用148對數(shù)據(jù)集進行分類時采用了10折交叉驗證(Folds=10)來選擇和評估模型,其中屬性值有兩個Y,1一部分結(jié)果如下:884615%11.5385884615%11.5385%IncorrectlyClassifiedInstances 3二二二ConfusionMatrix=二ab<-classifiedas1431a=N091b=Y這個矩陣是說,原來是,”的實例,有14個被正確的預(yù)測為有3個錯誤的預(yù)測成了“N:原本是的實例有0個被正確的預(yù)測成為“?二有9個正確的預(yù)測成了“N”。*14+3+0+9=26”是實例的總數(shù),而(14+9)/26=0.884615正好是正確分類的實例所占比例。這個矩陣對角線上的數(shù)字越大,說明預(yù)測得越好“(2)K最近鄰分類算法用/即工0廷工'”打開數(shù)據(jù),就總02.arff”,然后切換到“Classify"-點擊"Choose",選擇算法“l(fā)azy-IBk”,再在4<Testoptions”選擇^Cross-validation(Elods=10)",點擊"Start”,開始運行。訓(xùn)練結(jié)果:

系統(tǒng)默認lazy-1曲K最近鄰分類算法中QN=L得到如下結(jié)果Summary===CorrectlyClassifiedInstances2076.9231%IncorrectlyClassifiedInstances623.0769%Kappastatistic0.4902Meanabsoluteerror0.252Rootmeansquarederror0.4626Relativeabsoluteerror54.91361Rootrelativesquarederror96.694%TotalNumberofInstances26===DetailedAccuracyByClass===TPRateFPRatePrecisionRecallF-MeasureROCAreaClass0.824 0.3330.824 0.8240.824 0.768N0.667 0.1760.667 0.6670.667 0.768YWeightedAvg, 0.769 0.2790.769 0.7690.769 0.768===ConfusionMatrix=-=ab <一一classifiedas143|a=N36|b-Y使用不同的參數(shù)準(zhǔn)確率比較:KNN1234CorrectlyClcissifiedInstcinces20(76.9231%)19(73.0769%)23(88.4615%)20(76.9231%)由上表,可知解為3時,準(zhǔn)確率最高。根據(jù)測試數(shù)集,利用準(zhǔn)確率最高的模型得到的結(jié)果:

分析說明,在用lazy-Ibk(汕N=3)對數(shù)據(jù)集進行分類時采用了10折交叉驗證(Folds=10)來選擇和評估模型,其中屬性值有兩個Y,N,一部分結(jié)果如下:===Summary===CorrectlyClassifiedInstances 23 88.4615%IncorrectlyClassifiedInstances 3 11.5385%===ConfusionMatrix===ab <-classifiedas161a=N

16127|b=Y這個矩陣是說,原來是“Y”的實例,有16個被正確的預(yù)測為有1個錯誤的預(yù)測成了,原木是“NO”的實例有2個被正確的預(yù)測成為有9個正確的預(yù)測成了“71“16+1+2+7=26”是實例的總數(shù),而(16+7)726=0.884615正好是正確分類的實例所占比例.二、對“dataUl”進行聚類分析.數(shù)據(jù)格式的轉(zhuǎn)換⑴打開“dataOLxls”另存為CSV類型,得到“data。1心v:憐史:。匕二_⑵在WEKA中提供了一個“ArffViewed模塊,打開一個“dataOLcsv”進行瀏覽,然后另存為ARFF文件,得到“da3)Larff文件,得到“da3)Larff。dataOl.arff.聚類過程用Explorer^打開數(shù)據(jù)“dataOLarff%然后切換到“Cluster,點擊“Choose",選擇算法KSimploKMocUis(nusnClusters=63seed=200),再在"Testoptions"選擇wlsetrainingset點擊“Start”,開始運行.訓(xùn)練結(jié)果,采用simpleKMHans算法,其中nuniClusterf=6,seed=100f得到如卜結(jié)果:Mumberofiterations:3Withinclustersumofsquarederrors:6.065322314450069(平方誤差之和)ClusteredInstancesClusteredInstances0 4 ( 15%)1 3 ( 12%)2 4 ( 15%)

3 3(12%)4 2(8%)5 10(38%)(各類的包含的實例個數(shù)以及占總實例的百分比)商WekaClustererVisuafize:13:22:44-SimpieKMeansidataO2)[口j回Plotdata'?2clusteredClasscolourclusterOclusuerl一三;〔 clusuero*ARFF-Viewer-C:\User5\ASUS\Desktop\555.arffFileEditView!5S5.ar££jRelation-dataO2MclustedHo.Xnstance_n.ujnberNumericsampleold-yearur-sti二VEGFHVC:&WHE二cancer^gjadecaoicer^stageNun£=i*i亡cancermetastasisCluster10.0l.Q59.02.043.42.0l.UITcIueterl109.010.05S.03.068,6202.0Hcluster1ll10.0ii.a6E.03.0i32S102uITclusterS1211.012G25.02.0946403.0IclustsrS1312.013.052.01.0560LQ10ITeluster51413.014.031.01.047.82.01.0ITcluslerS1514.015.036.03.031.63.01.0Tcluster31615.016.042.01.066.22.01..0打cluster5I-16.017.0HO3.0138.63.03,0TclustersIS17.018032.01.0iUu203uITclusterS1918.019.035.01040.22.0LOITclusters21.02.03601.057.21.01.0Hclustsr52019.02cLa70.03.0177.24.03.0Tcliister02120.02L065.02.0SI.64.04.0TclusterO2221.022.045.02.012-zQ20:0Hcluster22322.023?66.03.Q12723Q30IelmsterCi2423.024031.0ITelueter22524.025.058.0Vcluster21.VJi,0一2625.026.Q60.03.0149.8103.0TclusterO32.03.061.02.0190.02.01.0clusterl43.04.05803.0128.04.03.0Ycluster454.0505503.080.03.0:uYcluster465.06Q61.01.042.010ITclusters6.038.01.076.0LO1/0口clustsr5B7.08.04201.0240.03.0'2.011cluster5gS.O9.050.01.074.01.01.0ITclusters

說明:其中當(dāng)seed的取值越大,平方誤差之和越小口在這次實驗geed=?OO,得到:Withinclustersumofsquarederrors:6.065322314450069.這是講價聚類好壞的標(biāo)準(zhǔn),數(shù)值越小說明同一簇實例之間的距離就越小.接下來“CluEtetcentroids”:列出了各個兢中心的位置:AttributeFullData012345(26)⑷⑶⑷⑶⑵(10)sample13.522.54.666720.514.66674.511.2old-year48.076965.7559.333350.52556.541.9VEGF1.92312.7

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論