數(shù)據(jù)挖掘WEKA試驗(yàn)報(bào)告 優(yōu)秀課程設(shè)計(jì)_第1頁
數(shù)據(jù)挖掘WEKA試驗(yàn)報(bào)告 優(yōu)秀課程設(shè)計(jì)_第2頁
數(shù)據(jù)挖掘WEKA試驗(yàn)報(bào)告 優(yōu)秀課程設(shè)計(jì)_第3頁
數(shù)據(jù)挖掘WEKA試驗(yàn)報(bào)告 優(yōu)秀課程設(shè)計(jì)_第4頁
數(shù)據(jù)挖掘WEKA試驗(yàn)報(bào)告 優(yōu)秀課程設(shè)計(jì)_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

本文格式為Word版,下載可任意編輯——數(shù)據(jù)挖掘WEKA試驗(yàn)報(bào)告優(yōu)秀課程設(shè)計(jì)

數(shù)據(jù)挖掘-WAKA試驗(yàn)報(bào)告數(shù)據(jù)挖掘-WAKA試驗(yàn)報(bào)告

數(shù)據(jù)挖掘-WAKA試驗(yàn)報(bào)告一、WEKA軟件簡介

在我所從事的證券行業(yè)中,存在著海量的信息和數(shù)據(jù),但是這些數(shù)據(jù)日常知識(shí)發(fā)揮了一小部分的作用,其包含了大量的隱性的信息并不為所用,但是卻可以為一些公司的決策和對(duì)客戶的服務(wù)提供不小的價(jià)值。因此,我們可以通過一些數(shù)據(jù)采集、數(shù)據(jù)挖掘來獲得潛在的有價(jià)值的信息。

數(shù)據(jù)挖掘就是通過分析存在于數(shù)據(jù)庫里的數(shù)據(jù)來解決問題。在數(shù)據(jù)挖掘中計(jì)算機(jī)以電子化的形式存儲(chǔ)數(shù)據(jù),并且能自動(dòng)的查詢數(shù)據(jù),通過關(guān)聯(lián)規(guī)則、分類于回歸、聚類分析等算法對(duì)數(shù)據(jù)進(jìn)行一系列的處理,尋覓和描述數(shù)據(jù)里的結(jié)構(gòu)模式,進(jìn)而挖掘出潛在的有用的信息。數(shù)據(jù)挖掘就是通過分析存在于數(shù)據(jù)庫里的數(shù)據(jù)來解決問題。WEKA的出現(xiàn)讓我們把數(shù)據(jù)挖掘無需編程即可輕松搞定。

WEKA是由新西蘭懷卡托大學(xué)開發(fā)的開源項(xiàng)目,全名是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis)。WEKA是由JAVA編寫的,它的源代碼可通過http://.cs.waikato.ac.nz/ml/WEKA得到,并且限制在GBU通用公眾證書的條件下發(fā)布,可以運(yùn)行在所有的操作系統(tǒng)中。是一款免費(fèi)的,非商業(yè)化的機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件

WEKA作為一個(gè)公開的數(shù)據(jù)挖掘工作平臺(tái),集合了大量能承受數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。假使想自己實(shí)現(xiàn)數(shù)據(jù)挖掘算法的話,可以看一看WEKA的接口文檔。在WEKA中集成自己的算法甚至借鑒它的方法自己實(shí)現(xiàn)可視化工具并不是件很困難的事情。

安裝WEKA也十分簡單,首相要下載安裝JDK環(huán)境,JDK在這個(gè)頁面可以找到它的下載/javase/downloads/index.jsp。點(diǎn)擊JDK6之后的

Download按鈕,轉(zhuǎn)到下載頁面。選擇Accepct,過一會(huì)兒頁面會(huì)刷新。我們需要的是這個(gè)WindowsOfflineInstallation,Multi-languagejdk-6-windows-i586.exe53.16MB,點(diǎn)擊它下載。也可以右鍵點(diǎn)擊它上面的鏈接,在Flashget等工具中下載。安裝它和一般軟件沒什么區(qū)別。不過中間會(huì)中斷一下提醒你安裝JRE,一并裝上即可。之后就是安裝WEKA軟件,這個(gè)在網(wǎng)上好多地方都有。同樣簡單地按默認(rèn)方法安裝后即可使用。

點(diǎn)擊啟動(dòng)運(yùn)行WEKA軟件后,我門發(fā)現(xiàn)WEKA存儲(chǔ)數(shù)據(jù)的格式是ARFF數(shù)據(jù)挖掘-WAKA試驗(yàn)報(bào)告

(Attribute-RelationFileFormat)文件,這是一種ASCII文本文件。我們?nèi)鐖D1通過軟件的Tools菜單進(jìn)入ArffViewer可以在安裝目錄下查看軟件自帶的幾個(gè)ARFF文件。圖1圖2

數(shù)據(jù)挖掘-WAKA試驗(yàn)報(bào)告

如圖2,開啟文件后選擇data自目錄下的任意一張表,我們都可以看到如圖3所示的二維表格存儲(chǔ)在如下的ARFF文件中。這也就是WEKA自帶的

“contact-lenses.arff〞文件。這里我們要介紹一下WEKA中的術(shù)語。表格里的一個(gè)橫行稱作一個(gè)實(shí)例(Instance),相當(dāng)于統(tǒng)計(jì)學(xué)中的一個(gè)樣本,或者數(shù)據(jù)庫中的一條記錄。豎行稱作一個(gè)屬性(Attrbute),相當(dāng)于統(tǒng)計(jì)學(xué)中的一個(gè)變量,或者數(shù)據(jù)庫中的一個(gè)字段。這樣一個(gè)表格,或者叫數(shù)據(jù)集,在WEKA看來,浮現(xiàn)了屬性之間的一種關(guān)系(Relation)。圖1中一共有22個(gè)實(shí)例,5個(gè)屬性,關(guān)系名稱為“contact-lenses〞。

除了ARFF格式,WEKA還支持另外一種常見格式,CSV格式。CSV同樣是一種二進(jìn)制保存的文本格式,我們可以在WEKA中直接開啟CSV格式的文件,并

保存為ARFF格式。這樣就給我提供了把常見的數(shù)據(jù)格式轉(zhuǎn)換為ARFF格式的方法,如對(duì)于Excel文件,我們可以通過把每張表保存為CSV格式,進(jìn)而保存為ARFF格式,與此同時(shí),我們可以利用filter對(duì)數(shù)據(jù)進(jìn)行相應(yīng)的預(yù)處理。而對(duì)于Matlab格式的數(shù)據(jù),我們可以通過命令csvwrite把數(shù)據(jù)轉(zhuǎn)化成CSV格式的文件,進(jìn)而轉(zhuǎn)化為ARFF格式文件。對(duì)于海量數(shù)據(jù),一般保存在數(shù)據(jù)庫中,WEKA同時(shí)支持JDBC訪問數(shù)據(jù)庫。圖3

數(shù)據(jù)挖掘-WAKA試驗(yàn)報(bào)告

開啟WEKA,首先出現(xiàn)一個(gè)命令行窗口。原以為要在這個(gè)命令行下寫java語句呢,不過稍等一秒,WEKAGUIChooser的出現(xiàn)了。這是一個(gè)很簡單的窗體,提供四個(gè)按鈕:SimpleCLI、Explorer、Experimenter、KnowledgeFlow。SimpleCLI應(yīng)當(dāng)是一個(gè)使用命令行的界面,有點(diǎn)像SAS的編輯器;Explorer是則是視窗模式下的數(shù)據(jù)挖掘工具;Experimenter和KnowledgeFlow的使用有待進(jìn)一步摸索圖4

(1)Explorer

使用WEKA摸索數(shù)據(jù)的環(huán)境。在這個(gè)環(huán)境中,WEKA提供了數(shù)據(jù)的預(yù)處理,數(shù)據(jù)格式的轉(zhuǎn)化(從CSV格式到ARFF格式的轉(zhuǎn)化),各種數(shù)據(jù)挖掘算法(包括分類與回歸算法,聚類算法,關(guān)聯(lián)規(guī)則等),并提供了結(jié)果的可視化工具。對(duì)于一個(gè)數(shù)據(jù)集,通過簡單的數(shù)據(jù)的預(yù)處理,并對(duì)數(shù)據(jù)挖掘算法進(jìn)行選擇(在

WEKA3.5版本之后,參與了算法的過濾功能,可以過濾掉那些不適合當(dāng)前數(shù)據(jù)集類型的算法),接著通過窗口界面對(duì)算法的參數(shù)進(jìn)行配置。可視化工具分為對(duì)

數(shù)據(jù)集的可視化和對(duì)部分結(jié)果的可視化,并且我們可以通過屬性選擇工具(SelectAttribute),通過探尋數(shù)據(jù)集中所有屬性的可能組合,找出預(yù)計(jì)效果最好的那一組屬性。

Explorer是普通用戶最常用的一個(gè)界面。用戶可以從ARFF文件(Weka使用的一種文本文件格式)、網(wǎng)頁或數(shù)據(jù)庫中讀取數(shù)據(jù)集。開啟數(shù)據(jù)文件后,可以選擇算法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。這時(shí)窗體上給出了這個(gè)數(shù)據(jù)集的一些基本特征,如含有多少屬性,各屬性的一些簡單統(tǒng)計(jì)量,右下方還給出一些可視化效果圖。這些都是比較直觀的分析,假使想發(fā)現(xiàn)隱蔽在數(shù)據(jù)集背后的關(guān)系,還需要選擇

Weka

數(shù)據(jù)挖掘-WAKA試驗(yàn)報(bào)告

提供的各種分類、聚類或關(guān)聯(lián)規(guī)則的算法。所有設(shè)置完成后,點(diǎn)擊Start按鈕,就可以安心地等待weka帶來最終的結(jié)果。哪些結(jié)果是真正有用的還要靠經(jīng)驗(yàn)來判斷。

(2)Experimenter

運(yùn)行算法試驗(yàn)、管理算法方案之間的統(tǒng)計(jì)檢驗(yàn)的環(huán)境。Experiment環(huán)境可以讓用戶創(chuàng)立,運(yùn)行,修改和分析算法試驗(yàn),這可能比單獨(dú)的分析各個(gè)算法更加便利。例如,用戶可創(chuàng)立一次試驗(yàn),在一系列數(shù)據(jù)集上運(yùn)行多個(gè)算法(schemes),然后分析結(jié)果以判斷是否某個(gè)算法比其他算法(在統(tǒng)計(jì)意義下)更好。

Explorermenter主要包括簡單模式,繁雜模式和遠(yuǎn)程模式。繁雜模式是對(duì)簡單模式的基本功能的擴(kuò)展,而遠(yuǎn)程模式允許我們通過分布式的方法進(jìn)行試驗(yàn)。就功能模塊而言,分為設(shè)置模塊,運(yùn)行模塊和分析模塊。在設(shè)置模塊中我們可以自定義試驗(yàn),參與多個(gè)算法和多方的源數(shù)據(jù)(支持ARFF文件,CSV文件和數(shù)據(jù)庫),在運(yùn)行模塊中我們可以運(yùn)行我們的試驗(yàn),而在分析模塊中

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論