大數(shù)據(jù)挖掘試驗報告材料-試驗Weka基礎(chǔ)操作_第1頁
大數(shù)據(jù)挖掘試驗報告材料-試驗Weka基礎(chǔ)操作_第2頁
大數(shù)據(jù)挖掘試驗報告材料-試驗Weka基礎(chǔ)操作_第3頁
大數(shù)據(jù)挖掘試驗報告材料-試驗Weka基礎(chǔ)操作_第4頁
大數(shù)據(jù)挖掘試驗報告材料-試驗Weka基礎(chǔ)操作_第5頁
已閱讀5頁,還剩10頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、實用文檔學(xué)生實驗報告學(xué) 院:信息管理學(xué)院 課程名稱: 數(shù)據(jù)挖掘教學(xué)班級: B01姓 名:_學(xué) 號:實用文檔實驗報告課程名稱數(shù)據(jù)挖掘教學(xué)班級B01指導(dǎo)老師學(xué)號行政班級實驗項目實驗一:Weka 的基本操作組員獨立完成實驗類型操作性實驗驗證性實驗綜合性實驗實驗地點H535實驗日期2016.09.281. 實驗?zāi)康暮鸵螅海?) Explorer 界面的各項功能;注意不能與課件上的截圖相同,可采用打開不同的數(shù)據(jù)文件以示區(qū)別。(2) Weka 的兩種數(shù)據(jù)表格編輯文件方式下的功能介紹;Explorer-Preprocess-edit ,彈出 Viewer 對話框;Weka GUI 選擇器窗口 -Tools

2、 | ArffViewer,打開 ARFF-Viewer 窗口。(3) ARFF 文件組成。2. 實驗過程(記錄實驗步驟、分析實驗結(jié)果)2.1 Explorer 界面的各項功能2.1.1 初始界面示意其中:explorer 選項是數(shù)據(jù)挖掘梳理數(shù)據(jù)最常用界面,也是使用weka 最簡單的方法。實用文檔Experimenter :實驗者選項,提供不同數(shù)值的比較,發(fā)現(xiàn)其中規(guī)律。KnowledgeFlow :知識流,其中包含處理大型數(shù)據(jù)的方法,初學(xué)者應(yīng)用較少。實用文檔Simple CLI :命令行窗口,有點像 cmd 格式,非圖形界面。2.1.2 進入 Explorer 界面功能介紹(1)任務(wù)面板Pre

3、process (數(shù)據(jù)預(yù)處理):選擇和修改要處理的數(shù)據(jù)。Classify(分類):訓(xùn)練和測試分類或回歸模型。Cluster (聚類):從數(shù)據(jù)中聚類。聚類分析時用的較多。Associate (關(guān)聯(lián)分析):從數(shù)據(jù)中學(xué)習(xí)關(guān)聯(lián)規(guī)則。Select Attributes(選擇屬性):選擇數(shù)據(jù)中最相關(guān)的屬性。Visualize (可視化):查看數(shù)據(jù)的二維散布圖。(2)常用按鈕Open file :打開文件實用文檔Open URL:打開 URL 格式文件Open DB:打開數(shù)據(jù)庫文件實用文檔Gen erate :數(shù)據(jù)生成Un do:撤銷操作Edit :編輯數(shù)據(jù)Save:保存數(shù)據(jù)文件,可實現(xiàn)文件格式的轉(zhuǎn)換,比如

4、csv 格式文件向 ARFF 格式文件轉(zhuǎn)換等等。ered_2e6acb9a-4446-4a09-972e-63db68cf2f4b$篩選數(shù)據(jù)Choose:從這個按鈕進去可以選擇某個過濾器對數(shù)據(jù)進行篩選,數(shù)據(jù)預(yù)處理一般使用這個。Apply :處理完成后,點擊這個按鈕,處理生效。ered_2e6acb9a-4446-4a09-972e-63db68cf2f4b$數(shù)據(jù)集的屬性關(guān)系和操作current relation:展示了屬性的(relation )關(guān)系名稱 (attributes)屬性數(shù),(Insetances) 實例數(shù),(sum of weigh ts)權(quán)重的總和等多種屬性關(guān)系。Attribu

5、tes:展示了屬性的所有列,上邊的四個按鈕是對屬性列的快捷選擇按鈕,包括(all)全選,實用文檔(none)全不選,(Ivert)反選,(patern )模式,選擇符合某一條件的屬性列。最下邊的 remove 按鈕可以刪除選中的屬性列,如果想撤回,可以使用上邊提到的undo 按鈕實用文檔(5)屬性摘要和直方圖Selected attributes:如果是數(shù)值屬性:屬性名( Name、屬性類型(Type)、缺失值(Missing )個數(shù)及百分比、不同值(Distinct 、數(shù)、唯一值(Unique、數(shù)及百分比等等。對于數(shù)值屬性和標(biāo)稱屬性,摘要的方式是不一樣的。圖中顯示的是標(biāo)簽的取值及相應(yīng)取值的實

6、例數(shù)。選中屬性的直方圖。若數(shù)據(jù)集的最后一個屬性是類標(biāo)變量(這是分類或回歸任務(wù)的默認(rèn)目標(biāo)變量,如“ play”),直方圖中的每個長方形就會按照該變量的比例分成不同顏色的段。要想換個分段的依據(jù),在上方的下拉框中選個不同的分類屬性就可以了。下拉框里選上“ No Class ”或者一個數(shù)值屬性會變成黑白的直方圖。Visualize :展示所有的屬性的直方圖(6)狀態(tài)欄(status )顯示一些信息讓你知道正在做什么。在狀態(tài)欄中的任意位置右擊鼠標(biāo)將會出現(xiàn)一個小菜單。有兩個選項:Memory Information-顯示 WEKM 用的存量。Edit_ !FaarisiTDbd-_ 12d rlLr a|

7、iF rifflp 1-MI7 ViMd i-M址1實用文檔Run garbage collector-強制運行 Java 垃圾回收器,搜索不再需要的存空間并將之釋放,從而可為新任務(wù)分配更多的存。Log :按鈕可以查看以 weka 操作日志。沒有任務(wù)時,右邊的小鳥是坐著的,任務(wù)運行時,小鳥會站起來左右搖擺。若小鳥站著但不轉(zhuǎn)動,表示 任務(wù)出了問題。2.1.2 引例操作顯示功能(1)2.2 weka 的兩種數(shù)據(jù)表格編輯方式下的功能介紹Explorer-Preprocess-edit,彈出 Viewer 對話框;1、 雙擊鼠標(biāo)可以對數(shù)據(jù)進行修改,2、 在數(shù)據(jù)上使用右鍵可以對數(shù)據(jù)修改進行撤回(un d

8、o)3、 對數(shù)據(jù)修改之后,如果想保存,點擊下方的ok,撤回點擊 undo,不保存直接點擊 cancelWeka GUI 選擇器窗口 -Tools | ArffViewer,打開 ARFF-Viewer 窗口。實用文檔1、 在最開始進入界面點擊上邊的2、 點擊打開不同的文件,會在上沿像瀏覽器一樣挨個展示3、 鼠標(biāo)移動到屬性名稱旁邊是會顯示對屬性列操作的格式,單機左鍵會對所有數(shù)據(jù)按照這個屬性按照升序排列,(shift + 左鍵)會對屬性按照這個屬性進行降序排列,(Alt+左鍵)或者直接右鍵出現(xiàn)對數(shù)據(jù)進行操作的菜單,對屬性列進行重命名,所有數(shù)據(jù)相加之類的操作都可以在菜單中找到。4、 鼠標(biāo)定在某行時,

9、可以刪除某一行5、 有點像 excel 中的操作ARFF 文件組成2.2.1、對文件格式介紹WEK 存儲數(shù)據(jù)的格式是ARFF( Attribute-Relation File Format)文件1、 這是一種 ASCII 文本文件2、 文件的擴展名為.arff3、 可以用寫字板打開、編輯 ARFF 文件。建議用 UltraEdit 等編輯器使用寫字板打開時如下rec wi-EitrLd-c&Lrfl-7B-CtlllT41i4-T Muarli-E E43 :ZtSFEHSri!VMi.1 q a?.cUJDQ 3.2Z35E1C 丸ICG_ LBLB? Q_rnULGQ 01ni2 0 Q*

10、人d 01弗匸二9.g.oKa9.Q.C-d. 93.和吋口2 0込 09 0-C0 31 麗 WZ.3 0BBa0a cd 43 iin 11ED73 DE aSi E0 Dd D1 SdU4氛;麗30-*WQts右門 11 口. (j iiiml1441=1BS0fl.LL1L3Ld 11 4S5MD. 1L1L3LD.-3EBBEe C &IL=5LS3 a& G* AfiW Viewer- D:1.Ka!Aa 1- J-jMisegrrwrrt- zha mgr曲H Ft Edit Virw+5i*=-.t-.il-nr* s-J |汨.何LTUIE- arrF” w- l k mr

11、r 壬-w土tl ZIL IVMiUL6 AL 40 0l. 329555 C 茂u-1 誨 i i# 0;0tl ,0.-P3V】;091 0a* oQ01 鈉鐮:=6 0D5 fl 00、0. r:rr:s . fa匚. 丄 幣Q! a L01H呂E2n fih aS1.0 fl201 OCJ&T5:9U1J:14】二;9逍HS314flq a dg.d訶.ilXUlmd -eq實用文檔attribute oi?n_ tel ephone none, yes血乞七七ri bute or e i gn_ wetr yes, noattribute class運ood, badudata.1=

12、7r, 4male single1, noneD4, real estate1, 67, none, oivn, 2, skilled, 1, yes?yes)good0(=I200,48,nexisting paid,radio/551*n100,11=R*1,*乙1femalediT/dep/mar7,nQne, 2、 realuwtate?22i nne, 9vn?111, nne, yes, b富d1no checkinK,,12/ critical/other existing“ %表示注釋, WEK 將忽略這些行。除去注釋后,整個 ARFF 文件可以分為兩個部分:第一部分給出了頭信

13、息(Head information),包括了對關(guān)系的聲明和對屬性的聲明。第二部分給出了數(shù)據(jù)信息(Data information ),即數(shù)據(jù)集中給出的數(shù)據(jù)。從data ”標(biāo)記開始,后面的就是數(shù)據(jù)信息了。關(guān)系名稱在 ARFF 文件的第一個有效行來定義,格式為:relation 是一個字符串。如果這個字符串包含空格,它必須加上引號(指英文 標(biāo)點的單引號或雙引號)。屬性聲明用一列以“ attribute ”開頭的語句表示。數(shù)據(jù)集中的每一個屬性都有對應(yīng)的“attribute”語句,來定義它的屬性名稱和數(shù)據(jù)類型(datatype ):attribute 其中 必須以字母開頭的字符串。和關(guān)系名稱一樣,如

14、果這個字符串包含空 格,它必須加上引號。屬性聲明語句的順序很重要,它表明了該項屬性在數(shù)據(jù)部分的位置。最后一個聲明的屬性被稱作class 屬性,在分類或回歸任務(wù)中,它是默認(rèn)的目標(biāo)變量。WEK 一共支持五種數(shù)據(jù)類型numeric數(shù)值型nominal標(biāo)稱(nominal)型stri ng字符串型date 日期和時間型Relatio nal關(guān)系型還可以使用兩個類型“ integer ”和“ real ,但是 WEK 把巴它們都當(dāng)作“ numeric 看 待。注意:“integer ”,“real ”,“numeric ”,“date ”,“string 這些關(guān)鍵字是區(qū)分大小寫的,而arelation

15、”、“ attribute ”和“ data ”則不區(qū)分。實用文檔每個實例占一行,實例的各屬性值用逗號“,”隔開。如果某個屬性的值是缺失值(missing value ),用問號“?”表示,且這個問號不能省略。222 xls 文件轉(zhuǎn) arff 文件(1)創(chuàng)建 xls 文件,保存為 csv 文件實用文檔屋昱存為Xt v刖戶 JU * 0p辰FQ畐碑Ae1R A 丈岸牡凰;工 gF 注1工:匚 5V .逗尋分同)V畫T&L-|9)(2) weka 中打開 csv 格式的文件,另存為 arff 文件,因為在數(shù)據(jù)處理中,arff 文件 最受歡迎轉(zhuǎn)存后3.問題反饋與收獲3.1 問題與解決辦法突然忘記了怎

16、么將表格圖片快捷保存了,咨詢百度也沒找到結(jié)果,然后決定使用截圖了3.2 發(fā)現(xiàn)與收獲空件窖:lESi仆S3祕型(D:csv丄最I(lǐng)s (fc c=t)7ARFF文辟(旳實用文檔我發(fā)現(xiàn):在數(shù)據(jù)處理的時候使用離散化,可以更好的顯示數(shù)據(jù)之間的差別Q富知Eipdorv口叭jtfU JSdKt 4ltt L Hifl- 一一LFIAUHClfll. hLn0(41 U*LQf4 IE;Ein如下所示Q MJ LlFhtwr- X?fcp m-rt Clma-fr tuErtvbw Bdvtt rli.LiEV一一fpLpiL1ac:H4lutxLkrtiI w-IIMJItftflHSL El-EE xiLvin

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論