![數(shù)據(jù)挖掘WEKA試驗(yàn)報(bào)告 優(yōu)秀課程設(shè)計(jì)_第1頁](http://file4.renrendoc.com/view/8914173899fd05a89d851408c1ff531f/8914173899fd05a89d851408c1ff531f1.gif)
![數(shù)據(jù)挖掘WEKA試驗(yàn)報(bào)告 優(yōu)秀課程設(shè)計(jì)_第2頁](http://file4.renrendoc.com/view/8914173899fd05a89d851408c1ff531f/8914173899fd05a89d851408c1ff531f2.gif)
![數(shù)據(jù)挖掘WEKA試驗(yàn)報(bào)告 優(yōu)秀課程設(shè)計(jì)_第3頁](http://file4.renrendoc.com/view/8914173899fd05a89d851408c1ff531f/8914173899fd05a89d851408c1ff531f3.gif)
![數(shù)據(jù)挖掘WEKA試驗(yàn)報(bào)告 優(yōu)秀課程設(shè)計(jì)_第4頁](http://file4.renrendoc.com/view/8914173899fd05a89d851408c1ff531f/8914173899fd05a89d851408c1ff531f4.gif)
![數(shù)據(jù)挖掘WEKA試驗(yàn)報(bào)告 優(yōu)秀課程設(shè)計(jì)_第5頁](http://file4.renrendoc.com/view/8914173899fd05a89d851408c1ff531f/8914173899fd05a89d851408c1ff531f5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
本文格式為Word版,下載可任意編輯——數(shù)據(jù)挖掘WEKA試驗(yàn)報(bào)告優(yōu)秀課程設(shè)計(jì)
數(shù)據(jù)挖掘-WAKA試驗(yàn)報(bào)告數(shù)據(jù)挖掘-WAKA試驗(yàn)報(bào)告
數(shù)據(jù)挖掘-WAKA試驗(yàn)報(bào)告一、WEKA軟件簡介
在我所從事的證券行業(yè)中,存在著海量的信息和數(shù)據(jù),但是這些數(shù)據(jù)日常知識(shí)發(fā)揮了一小部分的作用,其包含了大量的隱性的信息并不為所用,但是卻可以為一些公司的決策和對(duì)客戶的服務(wù)提供不小的價(jià)值。因此,我們可以通過一些數(shù)據(jù)采集、數(shù)據(jù)挖掘來獲得潛在的有價(jià)值的信息。
數(shù)據(jù)挖掘就是通過分析存在于數(shù)據(jù)庫里的數(shù)據(jù)來解決問題。在數(shù)據(jù)挖掘中計(jì)算機(jī)以電子化的形式存儲(chǔ)數(shù)據(jù),并且能自動(dòng)的查詢數(shù)據(jù),通過關(guān)聯(lián)規(guī)則、分類于回歸、聚類分析等算法對(duì)數(shù)據(jù)進(jìn)行一系列的處理,尋覓和描述數(shù)據(jù)里的結(jié)構(gòu)模式,進(jìn)而挖掘出潛在的有用的信息。數(shù)據(jù)挖掘就是通過分析存在于數(shù)據(jù)庫里的數(shù)據(jù)來解決問題。WEKA的出現(xiàn)讓我們把數(shù)據(jù)挖掘無需編程即可輕松搞定。
WEKA是由新西蘭懷卡托大學(xué)開發(fā)的開源項(xiàng)目,全名是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis)。WEKA是由JAVA編寫的,它的源代碼可通過http://.cs.waikato.ac.nz/ml/WEKA得到,并且限制在GBU通用公眾證書的條件下發(fā)布,可以運(yùn)行在所有的操作系統(tǒng)中。是一款免費(fèi)的,非商業(yè)化的機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件
WEKA作為一個(gè)公開的數(shù)據(jù)挖掘工作平臺(tái),集合了大量能承受數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。假使想自己實(shí)現(xiàn)數(shù)據(jù)挖掘算法的話,可以看一看WEKA的接口文檔。在WEKA中集成自己的算法甚至借鑒它的方法自己實(shí)現(xiàn)可視化工具并不是件很困難的事情。
安裝WEKA也十分簡單,首相要下載安裝JDK環(huán)境,JDK在這個(gè)頁面可以找到它的下載/javase/downloads/index.jsp。點(diǎn)擊JDK6之后的
Download按鈕,轉(zhuǎn)到下載頁面。選擇Accepct,過一會(huì)兒頁面會(huì)刷新。我們需要的是這個(gè)WindowsOfflineInstallation,Multi-languagejdk-6-windows-i586.exe53.16MB,點(diǎn)擊它下載。也可以右鍵點(diǎn)擊它上面的鏈接,在Flashget等工具中下載。安裝它和一般軟件沒什么區(qū)別。不過中間會(huì)中斷一下提醒你安裝JRE,一并裝上即可。之后就是安裝WEKA軟件,這個(gè)在網(wǎng)上好多地方都有。同樣簡單地按默認(rèn)方法安裝后即可使用。
點(diǎn)擊啟動(dòng)運(yùn)行WEKA軟件后,我門發(fā)現(xiàn)WEKA存儲(chǔ)數(shù)據(jù)的格式是ARFF數(shù)據(jù)挖掘-WAKA試驗(yàn)報(bào)告
(Attribute-RelationFileFormat)文件,這是一種ASCII文本文件。我們?nèi)鐖D1通過軟件的Tools菜單進(jìn)入ArffViewer可以在安裝目錄下查看軟件自帶的幾個(gè)ARFF文件。圖1圖2
數(shù)據(jù)挖掘-WAKA試驗(yàn)報(bào)告
如圖2,開啟文件后選擇data自目錄下的任意一張表,我們都可以看到如圖3所示的二維表格存儲(chǔ)在如下的ARFF文件中。這也就是WEKA自帶的
“contact-lenses.arff〞文件。這里我們要介紹一下WEKA中的術(shù)語。表格里的一個(gè)橫行稱作一個(gè)實(shí)例(Instance),相當(dāng)于統(tǒng)計(jì)學(xué)中的一個(gè)樣本,或者數(shù)據(jù)庫中的一條記錄。豎行稱作一個(gè)屬性(Attrbute),相當(dāng)于統(tǒng)計(jì)學(xué)中的一個(gè)變量,或者數(shù)據(jù)庫中的一個(gè)字段。這樣一個(gè)表格,或者叫數(shù)據(jù)集,在WEKA看來,浮現(xiàn)了屬性之間的一種關(guān)系(Relation)。圖1中一共有22個(gè)實(shí)例,5個(gè)屬性,關(guān)系名稱為“contact-lenses〞。
除了ARFF格式,WEKA還支持另外一種常見格式,CSV格式。CSV同樣是一種二進(jìn)制保存的文本格式,我們可以在WEKA中直接開啟CSV格式的文件,并
保存為ARFF格式。這樣就給我提供了把常見的數(shù)據(jù)格式轉(zhuǎn)換為ARFF格式的方法,如對(duì)于Excel文件,我們可以通過把每張表保存為CSV格式,進(jìn)而保存為ARFF格式,與此同時(shí),我們可以利用filter對(duì)數(shù)據(jù)進(jìn)行相應(yīng)的預(yù)處理。而對(duì)于Matlab格式的數(shù)據(jù),我們可以通過命令csvwrite把數(shù)據(jù)轉(zhuǎn)化成CSV格式的文件,進(jìn)而轉(zhuǎn)化為ARFF格式文件。對(duì)于海量數(shù)據(jù),一般保存在數(shù)據(jù)庫中,WEKA同時(shí)支持JDBC訪問數(shù)據(jù)庫。圖3
數(shù)據(jù)挖掘-WAKA試驗(yàn)報(bào)告
開啟WEKA,首先出現(xiàn)一個(gè)命令行窗口。原以為要在這個(gè)命令行下寫java語句呢,不過稍等一秒,WEKAGUIChooser的出現(xiàn)了。這是一個(gè)很簡單的窗體,提供四個(gè)按鈕:SimpleCLI、Explorer、Experimenter、KnowledgeFlow。SimpleCLI應(yīng)當(dāng)是一個(gè)使用命令行的界面,有點(diǎn)像SAS的編輯器;Explorer是則是視窗模式下的數(shù)據(jù)挖掘工具;Experimenter和KnowledgeFlow的使用有待進(jìn)一步摸索圖4
(1)Explorer
使用WEKA摸索數(shù)據(jù)的環(huán)境。在這個(gè)環(huán)境中,WEKA提供了數(shù)據(jù)的預(yù)處理,數(shù)據(jù)格式的轉(zhuǎn)化(從CSV格式到ARFF格式的轉(zhuǎn)化),各種數(shù)據(jù)挖掘算法(包括分類與回歸算法,聚類算法,關(guān)聯(lián)規(guī)則等),并提供了結(jié)果的可視化工具。對(duì)于一個(gè)數(shù)據(jù)集,通過簡單的數(shù)據(jù)的預(yù)處理,并對(duì)數(shù)據(jù)挖掘算法進(jìn)行選擇(在
WEKA3.5版本之后,參與了算法的過濾功能,可以過濾掉那些不適合當(dāng)前數(shù)據(jù)集類型的算法),接著通過窗口界面對(duì)算法的參數(shù)進(jìn)行配置。可視化工具分為對(duì)
數(shù)據(jù)集的可視化和對(duì)部分結(jié)果的可視化,并且我們可以通過屬性選擇工具(SelectAttribute),通過探尋數(shù)據(jù)集中所有屬性的可能組合,找出預(yù)計(jì)效果最好的那一組屬性。
Explorer是普通用戶最常用的一個(gè)界面。用戶可以從ARFF文件(Weka使用的一種文本文件格式)、網(wǎng)頁或數(shù)據(jù)庫中讀取數(shù)據(jù)集。開啟數(shù)據(jù)文件后,可以選擇算法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。這時(shí)窗體上給出了這個(gè)數(shù)據(jù)集的一些基本特征,如含有多少屬性,各屬性的一些簡單統(tǒng)計(jì)量,右下方還給出一些可視化效果圖。這些都是比較直觀的分析,假使想發(fā)現(xiàn)隱蔽在數(shù)據(jù)集背后的關(guān)系,還需要選擇
Weka
數(shù)據(jù)挖掘-WAKA試驗(yàn)報(bào)告
提供的各種分類、聚類或關(guān)聯(lián)規(guī)則的算法。所有設(shè)置完成后,點(diǎn)擊Start按鈕,就可以安心地等待weka帶來最終的結(jié)果。哪些結(jié)果是真正有用的還要靠經(jīng)驗(yàn)來判斷。
(2)Experimenter
運(yùn)行算法試驗(yàn)、管理算法方案之間的統(tǒng)計(jì)檢驗(yàn)的環(huán)境。Experiment環(huán)境可以讓用戶創(chuàng)立,運(yùn)行,修改和分析算法試驗(yàn),這可能比單獨(dú)的分析各個(gè)算法更加便利。例如,用戶可創(chuàng)立一次試驗(yàn),在一系列數(shù)據(jù)集上運(yùn)行多個(gè)算法(schemes),然后分析結(jié)果以判斷是否某個(gè)算法比其他算法(在統(tǒng)計(jì)意義下)更好。
Explorermenter主要包括簡單模式,繁雜模式和遠(yuǎn)程模式。繁雜模式是對(duì)簡單模式的基本功能的擴(kuò)展,而遠(yuǎn)程模式允許我們通過分布式的方法進(jìn)行試驗(yàn)。就功能模塊而言,分為設(shè)置模塊,運(yùn)行模塊和分析模塊。在設(shè)置模塊中我們可以自定義試驗(yàn),參與多個(gè)算法和多方的源數(shù)據(jù)(支持ARFF文件,CSV文件和數(shù)據(jù)庫),在運(yùn)行模塊中我們可以運(yùn)行我們的試驗(yàn),而在分析模塊中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年高中化學(xué)第三章有機(jī)化合物第一節(jié)綜合訓(xùn)練含解析新人教版必修2
- 承包魚塘的申請(qǐng)書
- 早自習(xí)申請(qǐng)書
- 電子商務(wù)平臺(tái)的用戶滿意度數(shù)據(jù)分析
- 2025年度海洋油氣設(shè)備租賃服務(wù)協(xié)議
- 2025年度旅游企業(yè)獨(dú)立董事候選人旅游服務(wù)質(zhì)量承諾書
- 高壓用電申請(qǐng)書
- 現(xiàn)代餐飲空間的創(chuàng)新設(shè)計(jì)與營銷策略研究
- 二零二五影視演員聘用合同規(guī)范版下載4篇
- 外資企業(yè)申請(qǐng)書
- 數(shù)學(xué)家祖沖之課件
- 2024年高壓電工操作證考試復(fù)習(xí)題庫及答案(共三套)
- 2024-2030年山茶油行業(yè)市場發(fā)展分析及發(fā)展趨勢與規(guī)劃建議研究報(bào)告
- 2024年廣東汕尾市“奔向海陸豐”事業(yè)單位(綜合崗類)招聘工作人員176人歷年高頻500題難、易錯(cuò)點(diǎn)模擬試題附帶答案詳解
- 【2024高考萬能答題模版】數(shù)學(xué)答題模板1
- DG-TJ 08-2242-2023 民用建筑外窗應(yīng)用技術(shù)標(biāo)準(zhǔn)
- 2024-2025上期學(xué)校心理健康教育工作計(jì)劃(附每周工作安排)
- 【中考真題】2024年河南省普通高中招生考試歷史試卷(含答案)
- YYT 0653-2017 血液分析儀行業(yè)標(biāo)準(zhǔn)
- JT-T-445-2021汽車底盤測功機(jī)
- 高考英語經(jīng)常用的七百個(gè)詞匯
評(píng)論
0/150
提交評(píng)論