數(shù)據(jù)挖掘WEKA試驗報告_第1頁
數(shù)據(jù)挖掘WEKA試驗報告_第2頁
數(shù)據(jù)挖掘WEKA試驗報告_第3頁
數(shù)據(jù)挖掘WEKA試驗報告_第4頁
數(shù)據(jù)挖掘WEKA試驗報告_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘-WAKA實驗報告 1 數(shù)據(jù)挖掘-WAKA 實驗報告 一、WEKA軟件簡介 在我所從事的證券行業(yè)中,存在著海量的信息和數(shù)據(jù),但是這些數(shù)據(jù) 日常知識發(fā)揮了一小部分的作用,其包含了大量的隱性的信息并不為所用, 但是卻可以為一些公司的決策和對客戶的服務(wù)提供不小的價值。因此 ,我們 可以通過一些數(shù)據(jù)采集、數(shù)據(jù)挖掘來獲得潛在的有價值的信息。 數(shù)據(jù)挖掘就是通過分析存在丁數(shù)據(jù)庫里的數(shù)據(jù)來解決問題。 在數(shù)據(jù)挖掘中計 算機以電子化的形式存儲數(shù)據(jù),并且能自動的查詢數(shù)據(jù),通過關(guān)聯(lián)規(guī)則、分類丁 回歸、聚類分析等算法對數(shù)據(jù)進行一系列的處理,尋找和描述數(shù)據(jù)里的結(jié)構(gòu)模式, 進而挖掘出潛在的有用的信息。數(shù)據(jù)挖掘就是通

2、過分析存在丁數(shù)據(jù)庫里的數(shù)據(jù)來 解決問題。WEKA出現(xiàn)讓我們把數(shù)據(jù)挖掘無需編程即可輕松搞定。 WEKA是由新西蘭懷卡托大學(xué)開發(fā)的開源項目,全名是懷卡托智能分析 環(huán)境(Waikato Environment for Knowledge Analysis )。WEK由 JAVA 編寫的,它的源代碼可通過 http:/www.cs.waikato.ac.nz/ml/WEKA 得到, 并且限制在 GBU通用公眾證書的條件下發(fā)布,可以運行在所有的操作系統(tǒng) 中。是一款免費的,非商業(yè)化的機器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件 WEKA作為一個公開的數(shù)據(jù)挖掘工作平臺,集合了大量能承擔(dān)數(shù)據(jù)挖掘 任務(wù)的機器學(xué)習(xí)算法,包括對數(shù)據(jù)進

3、行預(yù)處理,分類,回歸、聚類、關(guān)聯(lián) 規(guī)則以及在新的交互式界數(shù)據(jù)挖掘-WAKA實驗報告 2 面上的可視化。如果想自己實現(xiàn)數(shù)據(jù)挖掘算法的 話,可以看一看 WEKA勺接口文檔。在 WEK沖集成自己的算法甚至借鑒它 的方法自己實現(xiàn)可視化工具并不是件很困難的事情。 安裝WEK也十分簡單,首相要下載安裝 JDK環(huán)境,JDK在這個頁面可以 找到它的下載 http:/ JDK 6之后的Download 按鈕,轉(zhuǎn)到下載頁面。選擇 Accepct ,過一會兒頁面 會刷新。我們需要的是這個 Windows Offline Installation, Multi-language jdk-6-windows-i586.

4、exe 53.16 MB ,點擊它下載。也可以右鍵點擊它上面 的鏈接,在Flashget等工具中下載。安裝它和一般軟件沒什么區(qū)別。不過中間 會中斷一下提示你安裝JRE, 一并裝上即可。之后就是安裝 WEKA軟件,這個 在網(wǎng)上很多地方都有。同樣簡單地按默認方法安裝后即可使用。 點擊啟動運行 WEKA軟件后,我門發(fā)現(xiàn) WEKA存儲數(shù)據(jù)的格式是 ARFF數(shù)據(jù)挖掘-WAKA實驗報告 3 (Attribute-Relation File Format )文件,這是一種 ASCII 文本文件。 我們?nèi)鐖D1通過軟件的 Tools菜單進入 ArffViewer 可以在安裝目錄下查看 軟件自帶的幾個 ARFF文

5、件。 圖1 魔魔 如圖2,打開文件后選擇data自目錄下的任意一張表,我們都可以看到如圖 3 所示的二維表格存儲在如下的 ARFF文件中。這也就是 WEKA自帶的 “ contact-lenses.arff ”文件。這里我們要介紹一下 WEKA中的術(shù)語。表格 里的一個橫行稱作一個實例(Instance ),相當(dāng)丁統(tǒng)計學(xué)中的一個樣本,或者數(shù) 據(jù)庫中的一條記錄。豎行稱作一個屆性(Attrbute ),相當(dāng)丁統(tǒng)計學(xué)中的一個變 量,或者數(shù)據(jù)庫中的一個字段。這樣一個表格,或者叫數(shù)據(jù)集,在WEKA看來, 呈現(xiàn)了屆性之間的一種關(guān)系數(shù)據(jù)挖掘-WAKA實驗報告 4 (Relation)。圖1中一共有22個實例,

6、5個屆性, 關(guān)系名稱為 “ contact-lenses ”。 除了 ARFF格式,WEKA還支持另外一種常見格式,CSV格式。CSV同樣是 一種二進制保存的文本格式,我們可以在 WEKA中直接打開CSV格式的文件, 并保存為ARFF格式。這樣就給我提供了把常見的數(shù)據(jù)格式轉(zhuǎn)換為 ARFF格式的 方法,如對丁 Excel文件,我們可以通過把每張表保存為 CSV格式,進而保存為 ARFF格式,與此同時,我們可以利用filter對數(shù)據(jù)進行相應(yīng)的預(yù)處理。而對丁 Matlab格式的數(shù)據(jù),我們可以通過命令csvwrite把數(shù)據(jù)轉(zhuǎn)化成CSV格式的文件, 進而轉(zhuǎn)化為ARFF格式文件。對丁海量數(shù)據(jù),一般保存在數(shù)

7、據(jù)庫中, WEKA同時 支持JDBC訪問數(shù)據(jù)庫。 ARFF-Viewer - D:k-a 3 7-.d3icontart-1 er=;.arff file Edit View ;cantfiict-lensss. Kalat ion: ccmtac Ho sp i p Kni 口 1 astigmatism t ear-pre dr rate 1 yauTfcg 琳琳 r*du *i TiOtL# i. 2 vGung sa t 區(qū) ycmikg gw g reiueil fZTL 巨 I 4 younfi y&p y .arff 將CSV轉(zhuǎn)換為ARFF最迅捷的辦法是使用 WEK新帶的

8、命令行工具。 運行 WEKA勺主程序,出現(xiàn) GUI后可以點擊下方按鈕進入相應(yīng)的模塊。 我們點擊進入“ Simple CLI ”模塊提供的命令行功能。由丁 weka暫不支持 中文輸入,所以挑選了在 D盤下進行轉(zhuǎn)換,在新窗口的最下方(上方是不 能寫字的)輸入框?qū)懮蠑?shù)據(jù)挖掘-WAKA實驗報告 9 javaweka.core.converters.CSVLoader D:/Fund-data.csv.arff 即可完成轉(zhuǎn)換,生成文件“ D:/Fund-data.csv.arff ”。見下圖5: * SimpleCU java welra-cor-e. C2nverters .CSVLc Tiava w

9、e k a - core. conve r t e r s . ZSVLc ade r D:/Fund-data,csv D:/Fund-data.csv,arff ader 0:/ Fund-iata-csv D:/ Fund-data,cav+ arff java, la . FLlelaputStrEaiL. cpen(Nati.ve Method) java, io. File Input 3 tieaiL.(Uulm own Source I veJra core , conv it e r 3 + At a tx ac t Fi leLc ade r se tS our: c e

10、(Unknown Source) we Ira - care. conver tera, , aeuSource (UnJmown Source) welra.ea*.tonv-e?te:ts.Abatia=tFll&Lcsdsr.(Qnknowi Scat心 weira. COZE . ccnv-extsrs. AbstiactFileLcader. runFleLoader (Unitnown ScUECE : *reIra,core,converters + 75VLoader+main(Unknown Sourcei gun.reflect.Nativ&MethodAe

11、eesinvsJreO Native aUTL.reflect.NaEivsMeTlicdAceesaDrlJfflpl,involre(Unknown Source) sun.reflect.Ce1egatingEethDdJLsee3sorImp1.invoke(Unknown Scarce 3&va. lang, refl-ect. Hethcxi-invcke (Unknown Source) vreira,gui 5iirpl-eCLIPaneRunneE, run (Unloiovrn Source) at java.io_Fil-eInputSreair.openMeth

12、od) at java . iD_Fil-ElnputSt:reair. (Unknonn Source) at WE 1c 3 . core - converter 3. At act File Loader. setSaurce (U JmcHTi Source) at wekaPcoreconverters,CSrLcader.setSource(Unknown Source 此 .core.converera.AfcffxrflcFileLDader.etFile(Unlcnawn Source) at weka.core.CDnv&rters.AfcsrracFileLoad

13、er.runFileLeaderlUnkncwn Source) nt -psfcs.CQrSdcoaveca-CSVlcfldcr.jLain(Un)ma7i 拿mur匚 u) at aun- reflect KauiveMezhodAccessorlxpl-invoked(Hacive Hethcdl at aim. ref lecE -HatIveMethodAcctssorlxpl. invoke (UQkriawn Source J at sun. reflect .DelEgatlngMethadAGGesaaLliiipl. iliVn Unknown Saurce) at ja

14、va . lang, rtf lect Method, invite (Unkna vn Source J at we lea gu 1. eGLI Panel f Cl a saRunne r + run J n known Sour ce) red!reeling output ta D:/Eund-data.csv.arff1. 進入“ Exploer ”模塊,從上方的按鈕中打開 CSV文件然后另存為 ARFF 文件亦可。我們應(yīng)該注意到,“ Exploer ”還提供了很多功能,實際上可以 說這是 WEKA使用最多的模塊。現(xiàn)在我們先來熟悉它的界面,然后利用它對 數(shù)據(jù)進行預(yù)處理。界面展現(xiàn)見下

15、圖 6: 圖中顯示的是使用“ Exploer ”打開“ Fund-data.csv.csv ”的情況。D:/Fund-data.csv Fliilsliedi 數(shù)據(jù)挖掘-WAKA實驗報告 10 圖6 2、預(yù)處理 通常對丁 WEKM說并不支持中文,所以我們將一些涉及中文的字段刪 除。勾選屆性 “fund_name”、“company”、“business_name ”、“remark ” , 并點擊“ Remov4。將新的數(shù)據(jù)集保存一次。其中“ fares_type ”只有2 個取值:全額結(jié)算和凈額結(jié)算。這時我們在 UltraEdit 中直接修改ARFF文 件,把 attribute fares

16、_type 全額結(jié)算,凈額結(jié)算 改為 attribute fares_type Full , Net attributedate numeric 改為 attribut date 2009/8/24,2009/8/25,2009/8/26,2009/8/27,2009/8/28 數(shù)據(jù)挖掘-WAKA實驗報告 11 就可以了。 在 “Explorer ” 中重新打開 “fund-data.arff ”,選中“ date ” 和 “fund_type ”,看到屆性已經(jīng)變成“ Nominal” 了。 WEKA支 持 的有 四 種 , 分 別 是 :numeric-數(shù) 值 型 , - 分類(nomina

17、l ) 型,string- 字符申型, date - 日期和時間型 而本表只有nemeric和nominal兩種類型,數(shù)值屆性(nemeric)數(shù)值型屆 性可以是整數(shù)或者實數(shù),但 WEK把它們都當(dāng)作實數(shù)看待。分類屆性(nominal ) 分類屆性由 歹U出一系歹U可能的類別名稱并放在花括號 中:, , . 。數(shù)據(jù)集中該屆性的值只能 是其中一種類別。如果類別名稱帶有空格,仍需要將之放入引號中。 “shares”,“banlance”,“fares”,“internet_shares” 和 “internet_banlance” 的離散化我們需要借助 WEKA中名為“Discretize”的Fil

18、ter來完成。在區(qū)域2中 點 “ Choose ”, 出現(xiàn)一棵 “ Filter 樹”,逐級找到 “weka.filters.unsupervised.attribute.Discretize”,點擊。若無法關(guān)閉這個樹,在樹 之外的地方點擊“ Explorer”面板即可。 現(xiàn)在 “ChooseT 旁邊的文本框應(yīng)該顯示 “ Discretize -B 10 -M -0.1-R first-last。點 擊這個文本框會彈出新窗口以修改離散化的參數(shù)。 我們不打算對所有的屆性離散化,只是針對對第 4 , 5, 6, 8, 9個,故把 attributeIndices右邊改成“4, 5, 6, 8, 9

19、”。我們把這兩個屆性都分成10段, 丁是把“bins”改 成“10”。 其 它 不 變 。 點“OK回 到“Explorer” ,可 以 看 到“shares”, “banlance”,“fares”,“internet_shares” 和 “ internet_banlance” 已經(jīng)被離散化 成分類型的屆性。同時我們可以用 UltraEdit打開保存后的ARF成件,把所有的 類似(-inf-1464805.884” ”替換成“ 0_1464805.884”。其它標(biāo)識做類似地手動 替換。 經(jīng)刪減后,保留 date、shares、balance、fares、fares_type、interne

20、t_shares、 internet_balance7 個屆性,如圖 7數(shù)據(jù)挖掘-WAKA實驗報告 12 圖7 在進行數(shù)據(jù)搜集和整理的過程中,我們發(fā)現(xiàn)如果屆性的類型為數(shù)值型的話, 在做關(guān)聯(lián)分析時將不能得到結(jié)果,因為關(guān)聯(lián)分析無法處理數(shù)值型數(shù)據(jù)。 因此,我 們進行了數(shù)據(jù)離散處理后使得需要分析的數(shù)據(jù)變?yōu)榉诸愋停@樣就可以關(guān)聯(lián)分析 得以順利進行。因此通過預(yù)處理數(shù)據(jù)可以提高原數(shù)據(jù)的質(zhì)量,活除數(shù)據(jù)噪聲和與 挖掘目標(biāo)無關(guān)的數(shù)據(jù),為進一步的挖掘工作奠定可靠的基礎(chǔ)。 3、分類與回歸 WEKA中的“Classify ”選項卡中包含了分類 (Classification) 和回歸 (Regression),在這兩個

21、任務(wù)中,都有一個共同的目標(biāo)屆性(輸出變量)。 可以根據(jù)一個樣本(WEKA中稱作實例)的一組特征(輸入變量),對目標(biāo)進 行預(yù)測。為了實現(xiàn)這一目的,我們需要有一個訓(xùn)練數(shù)據(jù)集,這個數(shù)據(jù)集中 每個實例的輸入和輸出都是已知的。觀察訓(xùn)練集中的實例,可以建立起預(yù) 測的模型。有了這個模型,我們就可以新的輸出未知的實例進行預(yù)測了。 衡量模型的好壞就在丁預(yù)測的準(zhǔn)確程度。 在WEK中,待預(yù)測的目標(biāo)(輸出) 被稱作Class屆性,這應(yīng)該是來自分類任務(wù)的“類”。一般的,若 Class數(shù)據(jù)挖掘-WAKA實驗報告 圖8 13 屆性是分類型時我們的任務(wù)才叫分類, Class屆性是數(shù)值型時我們的任務(wù)叫 回歸。而我們使用決策樹算

22、法 C4.5對Fund-data-normal 建立起分類模型。 因此我們制作分類不做回歸。 我們用 “ Explorer ”打開訓(xùn)練集 “ Fund-data-normal.arff ”,。切換 到“Classify ”選項卡,點擊“ Choose”按鈕后可以看到很多分類或者回 歸的算法分門別類的列在一個樹型框里。樹型框下方有一個“ Filter. 按鈕,點擊后勾選 “Binary attributes ” “Numeric attributes ” 和 “Binary class ”。點“ OK后回到樹形圖,可以發(fā)現(xiàn)一些算法名稱變灰了,說明它 們不能用。選擇“ trees ”下的“ J48

23、”,這就是我們需要的 C4.5算法。 點擊“ Choose”右邊的文本框,彈出新窗口為該算法設(shè)置各種參數(shù)。 我們把參數(shù)保持默認。 選上 “ Cross-validation ”并在 “ Folds ”框填上 “ 10”。點 “ Start ” 按鈕開始讓算法生成決策樹模型。很快,用文本表示的一棵決策樹以及對 這個決策樹的誤差分析結(jié)果出現(xiàn)在右邊 “Classifier output ”中。見圖8。 二岫匕pig 工., 昏呼三塑 Cliwsify ILgcj Sitltct tUnkuUfi iVasuoljLzt chc.aE.fr JTM -C 0 ES -H E 數(shù)據(jù)挖掘-WAKA實驗報告

24、 圖9 14 u w U !J = . Q g D ? n d C 0 0 7 D 0 fl 0 0? L 0 c Q 0 0J D ( c o Q a.c 融心忱機1 D .MS L GW 0.9W J Hat工c A q c e I 5 h 1 J -1 fled as 730 0 0 D 0 - a 0 0 1 a - 1 (C_143OO73.0E3 J, 0 0 n n 0 0 3 1 b - 1 jl43L07e.8-!3-2 o01S7/ J. a - j z 0 0 J 1 C = 1 (3M01&?. 7(6-1290236.1 0 6 D 0 D 西 d 0 0 3

25、 1 日二 1 (4M023 .&l3ia31S J c 0 fl 0 0 0 0 0 0 1 1 t -任TH北5點3將039虹 - ! 0 0 Q 0 D JA u a 0 3 1 t - 0 0 0 0 0 a 朋 0 3 1 g w (”,匚0.旦*心心” 0 G 0 CH 0 Q 0 0 3 1 h - 1 (10010 5S311 61 -11 1 0 0 : : Q 0 0 3 1 i - 1 rnUO 31fi4-120-O7C; 1 q 0 0 a Q 0 J 1 1 - 1(12S707Q3-s4-laIi - J 1 1 r * L Et HLtUJE OX 數(shù)據(jù)

26、挖掘-WAKA實驗報告 圖9 15 4 4、聚類分析 聚類的任務(wù)是把所有的實例分配到若干的簇,使得同一個簇的實例聚 集在一個簇中心的周圍,它們之間距離的比較近;而不同簇實例之間的距 離比較遠?,F(xiàn)在我們對前面的“ Fund-data-normal ”作聚類分析,使用最 常見的K均值(K-means)算法。 用 “Explorer ”打開剛才得到的 “ Fund-data-normal.arff ”,并切換 到 “ Cluster ”。點 “ Choose” 按鈕選擇 “ SimpleKMeans ”,這是 WEKA中 實現(xiàn)K均值的算法。點擊旁邊的文本框,修改“ numClusters ”為6,說

27、明 我們希望把這734條實例聚成6類,即K=5。下面的“seed”參數(shù)是要設(shè)置 一個隨機種子,依此產(chǎn)生一個隨機數(shù),用來得到 K均值算法中第一次給出 的K個簇中心的位置。我們不妨?xí)簳r讓它就為 10。 選中 “ Cluster Mode ”的 “ Use training set ”,點擊“ Start ”按鈕,觀 察右邊“ Clusterer output ”給出的聚類結(jié)果。見下圖 9: 數(shù)據(jù)挖掘-WAKA實驗報告 16 5、關(guān)聯(lián)規(guī)則 我們打算對前面的“ Fund-data-normal ”數(shù)據(jù)作關(guān)聯(lián)規(guī)則的分析。用 “Explorer ”打開 “ Fund-data-normal.arff ”后

28、,切換至U “ Associate ” 選項卡。默認關(guān)聯(lián)規(guī)則分析是用 Apriori 算法,我們就用這個算法,但是 點“ Choose”右邊的文本框修改默認的參數(shù)。 從網(wǎng)上獲得的 Apriori有關(guān)知識:對丁一條關(guān)聯(lián)規(guī)則 L-R ,我們常用 支持度(Support )和置信度(Confidence )來衡量它的重要性。規(guī)則的支 持度是用來估計在一個購物籃中同時觀察到 L和R的概率P(L,R),而規(guī)則 的置信度是估計購物欄中出現(xiàn)了 L時也出會現(xiàn) R的條件概率P(R|L)。關(guān)聯(lián) 規(guī)則的目標(biāo)一般是產(chǎn)生支持度和置信度都較高的規(guī)則。 有幾個類似的度量代替置信度來衡量規(guī)則的關(guān)聯(lián)程度,它們分別是 Lift

29、(提升度? ) : P(L,R)/(P(L)P(R) Lift=1 時表小L和R獨立。這個數(shù)越大,越表明 L和R存在在一個購 物籃中不是偶然現(xiàn)象。 Leverage (不知道怎么翻譯): P(L,R)-P(L)P(R) 它和Lift 的含義差不多。Leverage=0時L和R獨立,Leverage越大L 和R的關(guān)系越密切。 Conviction (更不知道譯了): P(L)P(!R)/P(L,!R) (!R 表示 R沒有 發(fā)生) Conviction 也是用來衡量 L和R的獨立性。從它和lift 的關(guān)系(對 R 取反,代入Lift公式后求倒數(shù))可以看出,我們也希望這個值越大越好。 值得注意的是

30、,用 Lift 和Leverage作標(biāo)準(zhǔn)時,L和R是對稱的, Confidence 和 Conviction 則不然。 現(xiàn)在我們計劃挖掘出支持度在 10%J 100%之間,并且lift 值超過1.5 且lift 值排在前100位的那些關(guān)聯(lián)規(guī)則。我們把TowerBoundMinSupport ” 和 “ upperBoundMinSupport ”分別設(shè)為 0.1 和 1, “metricType ”設(shè)為 lift , “minMetric ”設(shè)為1.5, “numRules”設(shè)為10,其他參數(shù)不變。點擊“start ” 見圖10數(shù)據(jù)挖掘-WAKA實驗報告 17 圖10 我們也可以利用命令行來完

31、成挖掘任務(wù),在“ Simlpe CLI模塊中輸入如下格式 的命令:java weka.associations.Apriori -N 100 -T 1 -C 1.5 -D 0.05 -U 1.0 -M 0.1 -S -1.0 -I -t d: fund-data-normal.arff 即可得到如圖 11 的結(jié)果。* /JeMLa 數(shù)據(jù)挖掘-WAKA實驗報告 18 java we kra. a SB ocia 11 ons - Apr io r i -N ICO -T 1 -C 1. S -D 0. OS -U 1. fl -M 0.1 -S -1.0 -I 匕 d;Afun.d-data-n

32、oal + arff Aprioci Minimam auppori;: 01 (73 instancca) Mitiiinus seme 1-S Nuzrter of cycles psTfcrrsd: IB Senerated sets cf large itezsets: S12e of set o large itemsets L1): 11 Large Itexet3 L(1|; date-20a9/B/24 159 dare=Z009/ /2S 17 dae=2009/S/2-6 111 date=2009/E/27 122 dai;e-2009/B/2e 164 ahareff-

33、F (0_14-64e05,8E4J 724 baUnce- (014551 733 * 730 fare3=,(0_9403,21 731 fare_type=Full 726 iHEFTHF憶憶 wh占占r,in 1 4HS1 341 T3fl 圖11 6 6、屆性分析 用 “Explorer ”打開剛才得到的 “ Fund-data-normal.arff ”,并切換 到 “Selectattributes ”。點 “ Attribute Evaluator ”中的 “ Choose” 按 鈕選擇 “ ClassifierSubsetEval ”,點 “ Search Method ”中

34、的 “ Choose” 按鈕選擇 “ RaceSearch ”。在 “ Attribute Selection ” 中選中 Cross-validation ”項,參數(shù)默認 Folds=10 和 Seed=1。點擊 “ start ” 見圖12 見圖 數(shù)據(jù)挖掘-WAKA實驗報告 19 圖12 7 7、可視化分析 用 “ Explorer ”打開剛才得到的 “ Fund-data-normal.arff “Visualize ”。見圖 13數(shù)據(jù)挖掘-WAKA實驗報告 20 四、分析結(jié)果 1、分類與回歸 我們看到“ J48”算法交義驗證的結(jié)果之一為 Correctly Classified Ins

35、Correctly Classified Instances 730tances 730 Incorrectly Classified Instances 4 =Confusion Matrix =Incorrectly Classified Instances 4 =Confusion Matrix = a b c d e f ga b c d e f g h h i ji j - classified asclassified as 730730 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 |0 | a =a = :(0_1430078.883:(0_1430078

36、.883 1010 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 |0 | b b (1430078.883(1430078.883- -2860157.7662860157.766 1010 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 |0 | c c 圖13 99.455 %99.455 % 0.545 %0.545 % 數(shù)據(jù)挖掘-WAKA實驗報告 21 (2860157.766(2860157.766- -4290234290236.6496.649 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 |0 | d d 數(shù)據(jù)挖掘-WA

37、KA實驗報告 22 (4290236.649(4290236.649- -5720315.5325720315.532 0 0 0 0 0 0 0 0 0 0 0 0 (5720315.532(5720315.532- -7150394.4157150394.415 0 0 0 0 0 0 0 0 0 0 0 0 (7150394.415(7150394.415- -8580473.2988580473.298 0 0 0 0 0 0 0 0 0 0 0 0 (8580473.298(8580473.298- -10010552181 0 0 0 0 0 0 0 0 0 0 0 0 (10010552.181(10010552.181- -11440631.06411440631.064 1 1 0 0 0 0 0 0 0 0 0 0 (11440631.064(11440631.064- -12870709.94712870709.947 通過矩陣分析,看到正確的分類實例達到了 99.445% 2 2、聚類分析 在“Cluster centroids: ”之后歹0出了各個簇中心的位置。 而Clustered Instances ”是各個簇中實例的數(shù)目及白分比。 為了觀察可視化的聚類結(jié)果

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論