數(shù)據(jù)挖掘WEKA試驗報告

上傳人：y*** IP屬地：天津上傳時間：2021-12-22 格式：DOC 頁數(shù)：24 大?。?.05MB 積分：25 舉報 版權(quán)申訴

已閱讀5頁，還剩19頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘-WAKA實驗報告 1 數(shù)據(jù)挖掘-WAKA 實驗報告一、WEKA軟件簡介在我所從事的證券行業(yè)中，存在著海量的信息和數(shù)據(jù)，但是這些數(shù)據(jù) 日常知識發(fā)揮了一小部分的作用，其包含了大量的隱性的信息并不為所用，但是卻可以為一些公司的決策和對客戶的服務(wù)提供不小的價值。因此，我們可以通過一些數(shù)據(jù)采集、數(shù)據(jù)挖掘來獲得潛在的有價值的信息。數(shù)據(jù)挖掘就是通過分析存在丁數(shù)據(jù)庫里的數(shù)據(jù)來解決問題。在數(shù)據(jù)挖掘中計算機以電子化的形式存儲數(shù)據(jù)，并且能自動的查詢數(shù)據(jù)，通過關(guān)聯(lián)規(guī)則、分類丁回歸、聚類分析等算法對數(shù)據(jù)進行一系列的處理，尋找和描述數(shù)據(jù)里的結(jié)構(gòu)模式，進而挖掘出潛在的有用的信息。數(shù)據(jù)挖掘就是通

2、過分析存在丁數(shù)據(jù)庫里的數(shù)據(jù)來解決問題。WEKA出現(xiàn)讓我們把數(shù)據(jù)挖掘無需編程即可輕松搞定。 WEKA是由新西蘭懷卡托大學(xué)開發(fā)的開源項目，全名是懷卡托智能分析環(huán)境(Waikato Environment for Knowledge Analysis )。WEK由 JAVA 編寫的,它的源代碼可通過 http:/www.cs.waikato.ac.nz/ml/WEKA 得到，并且限制在 GBU通用公眾證書的條件下發(fā)布，可以運行在所有的操作系統(tǒng) 中。是一款免費的，非商業(yè)化的機器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件 WEKA作為一個公開的數(shù)據(jù)挖掘工作平臺，集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機器學(xué)習(xí)算法，包括對數(shù)據(jù)進

3、行預(yù)處理，分類，回歸、聚類、關(guān)聯(lián) 規(guī)則以及在新的交互式界數(shù)據(jù)挖掘-WAKA實驗報告 2 面上的可視化。如果想自己實現(xiàn)數(shù)據(jù)挖掘算法的話，可以看一看 WEKA勺接口文檔。在 WEK沖集成自己的算法甚至借鑒它的方法自己實現(xiàn)可視化工具并不是件很困難的事情。安裝WEK也十分簡單，首相要下載安裝 JDK環(huán)境，JDK在這個頁面可以找到它的下載 http:/ JDK 6之后的Download 按鈕，轉(zhuǎn)到下載頁面。選擇 Accepct ,過一會兒頁面會刷新。我們需要的是這個 Windows Offline Installation, Multi-language jdk-6-windows-i586.

4、exe 53.16 MB ，點擊它下載。也可以右鍵點擊它上面的鏈接，在Flashget等工具中下載。安裝它和一般軟件沒什么區(qū)別。不過中間會中斷一下提示你安裝JRE, 一并裝上即可。之后就是安裝 WEKA軟件，這個在網(wǎng)上很多地方都有。同樣簡單地按默認方法安裝后即可使用。點擊啟動運行 WEKA軟件后，我門發(fā)現(xiàn) WEKA存儲數(shù)據(jù)的格式是 ARFF數(shù)據(jù)挖掘-WAKA實驗報告 3 (Attribute-Relation File Format )文件，這是一種 ASCII 文本文件。我們?nèi)鐖D1通過軟件的 Tools菜單進入 ArffViewer 可以在安裝目錄下查看軟件自帶的幾個 ARFF文

5、件。圖1 魔魔如圖2,打開文件后選擇data自目錄下的任意一張表，我們都可以看到如圖 3 所示的二維表格存儲在如下的 ARFF文件中。這也就是 WEKA自帶的 “ contact-lenses.arff ”文件。這里我們要介紹一下 WEKA中的術(shù)語。表格里的一個橫行稱作一個實例(Instance ),相當(dāng)丁統(tǒng)計學(xué)中的一個樣本，或者數(shù) 據(jù)庫中的一條記錄。豎行稱作一個屆性(Attrbute ),相當(dāng)丁統(tǒng)計學(xué)中的一個變量，或者數(shù)據(jù)庫中的一個字段。這樣一個表格，或者叫數(shù)據(jù)集，在WEKA看來，呈現(xiàn)了屆性之間的一種關(guān)系數(shù)據(jù)挖掘-WAKA實驗報告 4 (Relation)。圖1中一共有22個實例，

6、5個屆性，關(guān)系名稱為 “ contact-lenses ”。除了 ARFF格式，WEKA還支持另外一種常見格式，CSV格式。CSV同樣是一種二進制保存的文本格式，我們可以在 WEKA中直接打開CSV格式的文件，并保存為ARFF格式。這樣就給我提供了把常見的數(shù)據(jù)格式轉(zhuǎn)換為 ARFF格式的方法，如對丁 Excel文件，我們可以通過把每張表保存為 CSV格式，進而保存為 ARFF格式，與此同時，我們可以利用filter對數(shù)據(jù)進行相應(yīng)的預(yù)處理。而對丁 Matlab格式的數(shù)據(jù)，我們可以通過命令csvwrite把數(shù)據(jù)轉(zhuǎn)化成CSV格式的文件，進而轉(zhuǎn)化為ARFF格式文件。對丁海量數(shù)據(jù)，一般保存在數(shù)

7、據(jù)庫中， WEKA同時支持JDBC訪問數(shù)據(jù)庫。 ARFF-Viewer - D：k-a 3 7-.d3icontart-1 er=；.arff file Edit View ；cantfiict-lensss. Kalat ion： ccmtac Ho sp i p Kni 口 1 astigmatism t ear-pre dr rate 1 yauTfcg 琳琳 r*du *i TiOtL# i. 2 vGung sa t 區(qū) ycmikg gw g reiueil fZTL 巨 I 4 younfi y&p y .arff 將CSV轉(zhuǎn)換為ARFF最迅捷的辦法是使用 WEK新帶的

8、命令行工具。運行 WEKA勺主程序，出現(xiàn) GUI后可以點擊下方按鈕進入相應(yīng)的模塊。我們點擊進入“ Simple CLI ”模塊提供的命令行功能。由丁 weka暫不支持中文輸入，所以挑選了在 D盤下進行轉(zhuǎn)換，在新窗口的最下方(上方是不能寫字的)輸入框?qū)懮蠑?shù)據(jù)挖掘-WAKA實驗報告 9 javaweka.core.converters.CSVLoader D:/Fund-data.csv.arff 即可完成轉(zhuǎn)換，生成文件“ D:/Fund-data.csv.arff ”。見下圖5: * SimpleCU java welra-cor-e. C2nverters .CSVLc Tiava w

9、e k a - core. conve r t e r s . ZSVLc ade r D:/Fund-data,csv D:/Fund-data.csv,arff ader 0:/ Fund-iata-csv D:/ Fund-data,cav+ arff java, la . FLlelaputStrEaiL. cpen(Nati.ve Method) java, io. File Input 3 tieaiL.(Uulm own Source I veJra core , conv it e r 3 + At a tx ac t Fi leLc ade r se tS our: c e

10、(Unknown Source) we Ira - care. conver tera, , aeuSource (UnJmown Source) welra.ea*.tonv-e?te：ts.Abatia=tFll&Lcsdsr.(Qnknowi Scat心 weira. COZE . ccnv-extsrs. AbstiactFileLcader. runFleLoader (Unitnown ScUECE : *reIra,core,converters + 75VLoader+main(Unknown Sourcei gun.reflect.Nativ&MethodAe

11、eesinvsJreO Native aUTL.reflect.NaEivsMeTlicdAceesaDrlJfflpl,involre(Unknown Source) sun.reflect.Ce1egatingEethDdJLsee3sorImp1.invoke(Unknown Scarce 3&va. lang, refl-ect. Hethcxi-invcke (Unknown Source) vreira,gui 5iirpl-eCLIPaneRunneE, run (Unloiovrn Source) at java.io_Fil-eInputSreair.openMeth

12、od) at java . iD_Fil-ElnputSt:reair. (Unknonn Source) at WE 1c 3 . core - converter 3. At act File Loader. setSaurce (U JmcHTi Source) at wekaPcoreconverters,CSrLcader.setSource(Unknown Source 此 .core.converera.AfcffxrflcFileLDader.etFile(Unlcnawn Source) at weka.core.CDnv&rters.AfcsrracFileLoad

13、er.runFileLeaderlUnkncwn Source) nt -psfcs.CQrSdcoaveca-CSVlcfldcr.jLain(Un)ma7i 拿mur匚 u) at aun- reflect KauiveMezhodAccessorlxpl-invoked(Hacive Hethcdl at aim. ref lecE -HatIveMethodAcctssorlxpl. invoke (UQkriawn Source J at sun. reflect .DelEgatlngMethadAGGesaaLliiipl. iliVn Unknown Saurce) at ja

14、va . lang, rtf lect Method, invite (Unkna vn Source J at we lea gu 1. eGLI Panel f Cl a saRunne r + run J n known Sour ce) red!reeling output ta D:/Eund-data.csv.arff1. 進入“ Exploer ”模塊，從上方的按鈕中打開 CSV文件然后另存為 ARFF 文件亦可。我們應(yīng)該注意到，“ Exploer ”還提供了很多功能，實際上可以說這是 WEKA使用最多的模塊。現(xiàn)在我們先來熟悉它的界面，然后利用它對數(shù)據(jù)進行預(yù)處理。界面展現(xiàn)見下

15、圖 6: 圖中顯示的是使用“ Exploer ”打開“ Fund-data.csv.csv ”的情況。D:/Fund-data.csv Fliilsliedi 數(shù)據(jù)挖掘-WAKA實驗報告 10 圖6 2、預(yù)處理通常對丁 WEKM說并不支持中文，所以我們將一些涉及中文的字段刪除。勾選屆性 “fund_name”、“company”、“business_name ”、“remark ” , 并點擊“ Remov4。將新的數(shù)據(jù)集保存一次。其中“ fares_type ”只有2 個取值：全額結(jié)算和凈額結(jié)算。這時我們在 UltraEdit 中直接修改ARFF文件，把 attribute fares

16、_type 全額結(jié)算，凈額結(jié)算改為 attribute fares_type Full , Net attributedate numeric 改為 attribut date 2009/8/24,2009/8/25,2009/8/26,2009/8/27,2009/8/28 數(shù)據(jù)挖掘-WAKA實驗報告 11 就可以了。在 “Explorer ” 中重新打開 “fund-data.arff ”，選中“ date ” 和 “fund_type ”，看到屆性已經(jīng)變成“ Nominal” 了。 WEKA支持的有四種，分別是：numeric-數(shù) 值型， - 分類（nomina

17、l ）型，string- 字符申型， date - 日期和時間型而本表只有nemeric和nominal兩種類型，數(shù)值屆性（nemeric）數(shù)值型屆性可以是整數(shù)或者實數(shù)，但 WEK把它們都當(dāng)作實數(shù)看待。分類屆性（nominal ）分類屆性由歹U出一系歹U可能的類別名稱并放在花括號中：, , . 。數(shù)據(jù)集中該屆性的值只能是其中一種類別。如果類別名稱帶有空格，仍需要將之放入引號中。 “shares”，“banlance”，“fares”，“internet_shares” 和 “internet_banlance” 的離散化我們需要借助 WEKA中名為“Discretize”的Fil

18、ter來完成。在區(qū)域2中點 “ Choose ”，出現(xiàn)一棵 “ Filter 樹”，逐級找到 “weka.filters.unsupervised.attribute.Discretize”，點擊。若無法關(guān)閉這個樹，在樹之外的地方點擊“ Explorer”面板即可。現(xiàn)在 “ChooseT 旁邊的文本框應(yīng)該顯示 “ Discretize -B 10 -M -0.1-R first-last。點擊這個文本框會彈出新窗口以修改離散化的參數(shù)。我們不打算對所有的屆性離散化，只是針對對第 4 , 5, 6, 8, 9個，故把 attributeIndices右邊改成“4, 5, 6, 8, 9

19、”。我們把這兩個屆性都分成10段, 丁是把“bins”改成“10”。其它不變。點“OK回到“Explorer” ，可以看到“shares”, “banlance”，“fares”，“internet_shares” 和 “ internet_banlance” 已經(jīng)被離散化成分類型的屆性。同時我們可以用 UltraEdit打開保存后的ARF成件，把所有的類似（-inf-1464805.884” ”替換成“ 0_1464805.884”。其它標(biāo)識做類似地手動替換。經(jīng)刪減后，保留 date、shares、balance、fares、fares_type、interne

20、t_shares、 internet_balance7 個屆性，如圖 7數(shù)據(jù)挖掘-WAKA實驗報告 12 圖7 在進行數(shù)據(jù)搜集和整理的過程中,我們發(fā)現(xiàn)如果屆性的類型為數(shù)值型的話，在做關(guān)聯(lián)分析時將不能得到結(jié)果，因為關(guān)聯(lián)分析無法處理數(shù)值型數(shù)據(jù)。因此，我們進行了數(shù)據(jù)離散處理后使得需要分析的數(shù)據(jù)變?yōu)榉诸愋停@樣就可以關(guān)聯(lián)分析得以順利進行。因此通過預(yù)處理數(shù)據(jù)可以提高原數(shù)據(jù)的質(zhì)量，活除數(shù)據(jù)噪聲和與挖掘目標(biāo)無關(guān)的數(shù)據(jù)，為進一步的挖掘工作奠定可靠的基礎(chǔ)。 3、分類與回歸 WEKA中的“Classify ”選項卡中包含了分類（Classification）和回歸（Regression）,在這兩個

21、任務(wù)中，都有一個共同的目標(biāo)屆性（輸出變量）。可以根據(jù)一個樣本（WEKA中稱作實例）的一組特征（輸入變量），對目標(biāo)進行預(yù)測。為了實現(xiàn)這一目的，我們需要有一個訓(xùn)練數(shù)據(jù)集，這個數(shù)據(jù)集中每個實例的輸入和輸出都是已知的。觀察訓(xùn)練集中的實例，可以建立起預(yù) 測的模型。有了這個模型，我們就可以新的輸出未知的實例進行預(yù)測了。衡量模型的好壞就在丁預(yù)測的準(zhǔn)確程度。在WEK中，待預(yù)測的目標(biāo)（輸出）被稱作Class屆性，這應(yīng)該是來自分類任務(wù)的“類”。一般的，若 Class數(shù)據(jù)挖掘-WAKA實驗報告圖8 13 屆性是分類型時我們的任務(wù)才叫分類， Class屆性是數(shù)值型時我們的任務(wù)叫回歸。而我們使用決策樹算

22、法 C4.5對Fund-data-normal 建立起分類模型。因此我們制作分類不做回歸。我們用 “ Explorer ”打開訓(xùn)練集 “ Fund-data-normal.arff ”，。切換到“Classify ”選項卡，點擊“ Choose”按鈕后可以看到很多分類或者回歸的算法分門別類的列在一個樹型框里。樹型框下方有一個“ Filter. 按鈕，點擊后勾選 “Binary attributes ” “Numeric attributes ” 和 “Binary class ”。點“ OK后回到樹形圖，可以發(fā)現(xiàn)一些算法名稱變灰了，說明它們不能用。選擇“ trees ”下的“ J48

23、”，這就是我們需要的 C4.5算法。點擊“ Choose”右邊的文本框，彈出新窗口為該算法設(shè)置各種參數(shù)。我們把參數(shù)保持默認。選上 “ Cross-validation ”并在 “ Folds ”框填上 “ 10”。點 “ Start ” 按鈕開始讓算法生成決策樹模型。很快，用文本表示的一棵決策樹以及對這個決策樹的誤差分析結(jié)果出現(xiàn)在右邊 “Classifier output ”中。見圖8。二岫匕pig 工.，昏呼三塑 Cliwsify ILgcj Sitltct tUnkuUfi iVasuoljLzt chc.aE.fr JTM -C 0 ES -H E 數(shù)據(jù)挖掘-WAKA實驗報告

24、圖9 14 u w U !J = . Q g D ? n d C 0 0 7 D 0 fl 0 0? L 0 c Q 0 0J D ( c o Q a.c 融心忱機1 D .MS L GW 0.9W J Hat工c A q c e I 5 h 1 J -1 fled as 730 0 0 D 0 - a 0 0 1 a - 1 (C_143OO73.0E3 J, 0 0 n n 0 0 3 1 b - 1 jl43L07e.8-!3-2 o01S7/ J. a - j z 0 0 J 1 C = 1 (3M01&?. 7(6-1290236.1 0 6 D 0 D 西 d 0 0 3

25、 1 日二 1 (4M023 .&l3ia31S J c 0 fl 0 0 0 0 0 0 1 1 t -任TH北5點3將039虹 - ! 0 0 Q 0 D JA u a 0 3 1 t - 0 0 0 0 0 a 朋 0 3 1 g w (”，匚0.旦*心心” 0 G 0 CH 0 Q 0 0 3 1 h - 1 (10010 5S311 61 -11 1 0 0 : : Q 0 0 3 1 i - 1 rnUO 31fi4-120-O7C； 1 q 0 0 a Q 0 J 1 1 - 1(12S707Q3-s4-laIi - J 1 1 r * L Et HLtUJE OX 數(shù)據(jù)

26、挖掘-WAKA實驗報告圖9 15 4 4、聚類分析聚類的任務(wù)是把所有的實例分配到若干的簇，使得同一個簇的實例聚集在一個簇中心的周圍，它們之間距離的比較近；而不同簇實例之間的距離比較遠?，F(xiàn)在我們對前面的“ Fund-data-normal ”作聚類分析，使用最常見的K均值（K-means）算法。用 “Explorer ”打開剛才得到的 “ Fund-data-normal.arff ”，并切換到 “ Cluster ”。點 “ Choose” 按鈕選擇 “ SimpleKMeans ”，這是 WEKA中實現(xiàn)K均值的算法。點擊旁邊的文本框，修改“ numClusters ”為6,說

27、明我們希望把這734條實例聚成6類，即K=5。下面的“seed”參數(shù)是要設(shè)置一個隨機種子，依此產(chǎn)生一個隨機數(shù)，用來得到 K均值算法中第一次給出的K個簇中心的位置。我們不妨?xí)簳r讓它就為 10。選中 “ Cluster Mode ”的 “ Use training set ”，點擊“ Start ”按鈕，觀察右邊“ Clusterer output ”給出的聚類結(jié)果。見下圖 9: 數(shù)據(jù)挖掘-WAKA實驗報告 16 5、關(guān)聯(lián)規(guī)則我們打算對前面的“ Fund-data-normal ”數(shù)據(jù)作關(guān)聯(lián)規(guī)則的分析。用 “Explorer ”打開 “ Fund-data-normal.arff ”后

28、，切換至U “ Associate ” 選項卡。默認關(guān)聯(lián)規(guī)則分析是用 Apriori 算法，我們就用這個算法，但是點“ Choose”右邊的文本框修改默認的參數(shù)。從網(wǎng)上獲得的 Apriori有關(guān)知識：對丁一條關(guān)聯(lián)規(guī)則 L-R ,我們常用支持度(Support )和置信度(Confidence )來衡量它的重要性。規(guī)則的支持度是用來估計在一個購物籃中同時觀察到 L和R的概率P(L,R),而規(guī)則的置信度是估計購物欄中出現(xiàn)了 L時也出會現(xiàn) R的條件概率P(R|L)。關(guān)聯(lián) 規(guī)則的目標(biāo)一般是產(chǎn)生支持度和置信度都較高的規(guī)則。有幾個類似的度量代替置信度來衡量規(guī)則的關(guān)聯(lián)程度，它們分別是 Lift

29、(提升度？ ) : P(L,R)/(P(L)P(R) Lift=1 時表小L和R獨立。這個數(shù)越大，越表明 L和R存在在一個購物籃中不是偶然現(xiàn)象。 Leverage (不知道怎么翻譯)： P(L,R)-P(L)P(R) 它和Lift 的含義差不多。Leverage=0時L和R獨立，Leverage越大L 和R的關(guān)系越密切。 Conviction (更不知道譯了)： P(L)P(!R)/P(L,!R) (!R 表示 R沒有發(fā)生) Conviction 也是用來衡量 L和R的獨立性。從它和lift 的關(guān)系(對 R 取反，代入Lift公式后求倒數(shù))可以看出，我們也希望這個值越大越好。值得注意的是

30、，用 Lift 和Leverage作標(biāo)準(zhǔn)時，L和R是對稱的， Confidence 和 Conviction 則不然。現(xiàn)在我們計劃挖掘出支持度在 10%J 100%之間，并且lift 值超過1.5 且lift 值排在前100位的那些關(guān)聯(lián)規(guī)則。我們把TowerBoundMinSupport ” 和 “ upperBoundMinSupport ”分別設(shè)為 0.1 和 1, “metricType ”設(shè)為 lift , “minMetric ”設(shè)為1.5, “numRules”設(shè)為10,其他參數(shù)不變。點擊“start ” 見圖10數(shù)據(jù)挖掘-WAKA實驗報告 17 圖10 我們也可以利用命令行來完

31、成挖掘任務(wù)，在“ Simlpe CLI模塊中輸入如下格式的命令：java weka.associations.Apriori -N 100 -T 1 -C 1.5 -D 0.05 -U 1.0 -M 0.1 -S -1.0 -I -t d: fund-data-normal.arff 即可得到如圖 11 的結(jié)果。* /JeMLa 數(shù)據(jù)挖掘-WAKA實驗報告 18 java we kra. a SB ocia 11 ons - Apr io r i -N ICO -T 1 -C 1. S -D 0. OS -U 1. fl -M 0.1 -S -1.0 -I 匕 d;Afun.d-data-n

32、oal + arff Aprioci Minimam auppori;: 01 (73 instancca) Mitiiinus seme 1-S Nuzrter of cycles psTfcrrsd: IB Senerated sets cf large itezsets: S12e of set o large itemsets L1): 11 Large Itexet3 L(1|; date-20a9/B/24 159 dare=Z009/ /2S 17 dae=2009/S/2-6 111 date=2009/E/27 122 dai;e-2009/B/2e 164 ahareff-

33、F (0_14-64e05,8E4J 724 baUnce- (014551 733 * 730 fare3=,(0_9403,21 731 fare_type=Full 726 iHEFTHF憶憶 wh占占r，in 1 4HS1 341 T3fl 圖11 6 6、屆性分析用 “Explorer ”打開剛才得到的 “ Fund-data-normal.arff ”，并切換到 “Selectattributes ”。點 “ Attribute Evaluator ”中的 “ Choose” 按鈕選擇 “ ClassifierSubsetEval ”，點 “ Search Method ”中

34、的 “ Choose” 按鈕選擇 “ RaceSearch ”。在 “ Attribute Selection ” 中選中 Cross-validation ”項，參數(shù)默認 Folds=10 和 Seed=1。點擊 “ start ” 見圖12 見圖數(shù)據(jù)挖掘-WAKA實驗報告 19 圖12 7 7、可視化分析用 “ Explorer ”打開剛才得到的 “ Fund-data-normal.arff “Visualize ”。見圖 13數(shù)據(jù)挖掘-WAKA實驗報告 20 四、分析結(jié)果 1、分類與回歸我們看到“ J48”算法交義驗證的結(jié)果之一為 Correctly Classified Ins

35、Correctly Classified Instances 730tances 730 Incorrectly Classified Instances 4 =Confusion Matrix =Incorrectly Classified Instances 4 =Confusion Matrix = a b c d e f ga b c d e f g h h i ji j - classified asclassified as 730730 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 |0 | a =a = :(0_1430078.883:(0_1430078

36、.883 1010 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 |0 | b b (1430078.883(1430078.883- -2860157.7662860157.766 1010 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 |0 | c c 圖13 99.455 %99.455 % 0.545 %0.545 % 數(shù)據(jù)挖掘-WAKA實驗報告 21 (2860157.766(2860157.766- -4290234290236.6496.649 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 |0 | d d 數(shù)據(jù)挖掘-WA

37、KA實驗報告 22 (4290236.649(4290236.649- -5720315.5325720315.532 0 0 0 0 0 0 0 0 0 0 0 0 (5720315.532(5720315.532- -7150394.4157150394.415 0 0 0 0 0 0 0 0 0 0 0 0 (7150394.415(7150394.415- -8580473.2988580473.298 0 0 0 0 0 0 0 0 0 0 0 0 (8580473.298(8580473.298- -10010552181 0 0 0 0 0 0 0 0 0 0 0 0 (10010552.181(10010552.181- -11440631.06411440631.064 1 1 0 0 0 0 0 0 0 0 0 0 (11440631.064(11440631.064- -12870709.94712870709.947 通過矩陣分析，看到正確的分類實例達到了 99.445% 2 2、聚類分析在“Cluster centroids: ”之后歹0出了各個簇中心的位置。而Clustered Instances ”是各個簇中實例的數(shù)目及白分比。為了觀察可視化的聚類結(jié)果

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘WEKA試驗報告

文檔簡介

溫馨提示

最新文檔

評論

數(shù)據(jù)挖掘WEKA試驗報告

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔