




已閱讀5頁,還剩7頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)挖掘?qū)嵱?xùn)課程論文(報(bào)告、案例分析)院 系 信 息 學(xué) 院 專 業(yè) 統(tǒng) 計(jì) 班 級(jí) 10級(jí)統(tǒng)計(jì) 3 班 學(xué)生姓名 李健 學(xué) 號(hào) 2010210453 任課教師 劉 洪 偉 2013年 01月17日課程論文評(píng)分表各項(xiàng)滿分評(píng)分標(biāo)準(zhǔn)學(xué)生得分評(píng)分標(biāo)準(zhǔn)一10有明確的研究背景和意義 評(píng)分標(biāo)準(zhǔn)二30數(shù)據(jù)準(zhǔn)確、有時(shí)效性,必須是最新的數(shù)據(jù)評(píng)分標(biāo)準(zhǔn)三40方法得當(dāng),有實(shí)證分析評(píng)分標(biāo)準(zhǔn)四10條理性和邏輯性強(qiáng),內(nèi)容闡述清晰、結(jié)論明確評(píng)分標(biāo)準(zhǔn)五10論文按規(guī)定的格式撰寫,文章中引用的內(nèi)容需用腳注注明來源評(píng)分標(biāo)準(zhǔn)六特別提醒文章出現(xiàn)大段抄襲或者兩人之間內(nèi)容雷同達(dá)到80%以上,均不能及格。論文按規(guī)定的時(shí)間上交,每推遲一天,扣減2分總分評(píng)閱人簽字?jǐn)?shù)據(jù)挖掘?qū)嵱?xùn)課程論文選題要求:根據(jù)公開發(fā)表統(tǒng)計(jì)數(shù)據(jù),請(qǐng)結(jié)合數(shù)據(jù)挖掘理論與方法,撰寫一篇與數(shù)據(jù)挖掘領(lǐng)域相關(guān)的論文。寫作要求:(1)數(shù)據(jù)準(zhǔn)確、有時(shí)效性,必須是最新的數(shù)據(jù)。(2)文章必須有相應(yīng)的統(tǒng)計(jì)方法,這些統(tǒng)計(jì)方法包括以前專業(yè)課中學(xué)到的任何統(tǒng)計(jì)方法,如參數(shù)估計(jì)、假設(shè)檢驗(yàn)、相關(guān)與回歸、多元統(tǒng)計(jì)等等。(3)論文的內(nèi)容必須是原創(chuàng),有可靠的分析依據(jù)和明確的結(jié)論。(4)論文按照規(guī)定的格式化撰寫;(5)字?jǐn)?shù)不少于2000字。數(shù)據(jù)挖掘(WEKA軟件)實(shí)驗(yàn)報(bào)告統(tǒng)計(jì)學(xué) 專業(yè) 學(xué)生 李健 學(xué)號(hào) 2010210453關(guān)鍵詞:數(shù)據(jù)挖掘;游玩;因素;WEKA本次實(shí)驗(yàn)指在熟練的運(yùn)用軟件weka進(jìn)行數(shù)據(jù)處理,其中包括數(shù)據(jù)準(zhǔn)備,關(guān)聯(lián)規(guī)則等同時(shí)了解weka的基本用法。一、軟件介紹1簡介 數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)這些字眼,在一些人看來,是門檻很高的東西。誠然,如果做算法實(shí)現(xiàn)甚至算法優(yōu)化,確實(shí)需要很多背景知識(shí)。但事實(shí)是,絕大多數(shù)數(shù)據(jù)挖掘工程師,不需要去做算法層面的東西。他們的精力,集中在特征提取,算法選擇和參數(shù)調(diào)優(yōu)上。那么,一個(gè)可以方便地提供這些功能的工具,便是十分必要的了。而weka,便是數(shù)據(jù)挖掘工具中的佼佼者。 WEKA的全名是懷卡托智能分析環(huán)境(Waikato Environment forKnowledge Analysis),是由新西蘭懷卡托(Waikato)大學(xué)開發(fā)的機(jī)器學(xué)習(xí)軟件,純Java技術(shù)實(shí)現(xiàn)的開源軟件,遵循于GNU General Public License,跨平臺(tái)運(yùn)行,集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,分類器實(shí)現(xiàn)了常用ZeroR算法、Id3算法、J48算法等40多個(gè)算法,聚類器實(shí)現(xiàn)了EM算法、SimpleKMeans算法和Cobweb算法3種算法,能對(duì)數(shù)據(jù)進(jìn)行預(yù)處理、分類、回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。2oo5年8月,在第11屆ACM SIGKDD國際會(huì)議上,懷卡托大學(xué)的WEKA小組榮獲了數(shù)據(jù)挖掘和知識(shí)探索領(lǐng)域的最高服務(wù)獎(jiǎng),WEKA系統(tǒng)得到了廣泛的認(rèn)可,被譽(yù)為數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)歷史上的里程碑,是現(xiàn)今最完備的數(shù)據(jù)挖掘工具之一。WEKA使用的是一種叫做arff(AttributeRelation File Format)的數(shù)據(jù)文件結(jié)構(gòu)。這種arff文件是普通的ASCII文本文件,內(nèi)部結(jié)構(gòu)很簡單,主要是測(cè)試算法使用的輕量級(jí)的數(shù)據(jù)文件結(jié)構(gòu)。arff文件可以自己建立,也可通過JDBC從Oracle和Mysql等流行數(shù)據(jù)庫中獲得。整個(gè)arf文件可以分為兩個(gè)部分。第一部分給出了頭信息(Head information),包括關(guān)系聲明(Relation Declaration)和屬性聲明(AttributeDeclarations)。第二部分給出了數(shù)據(jù)信息(Datainformation),即數(shù)據(jù)集中給出的數(shù)據(jù)。關(guān)系聲明的定義格式為:relation;屬性聲明的定義格式為:attribute;數(shù)據(jù)信息的定義格式為獨(dú)占一行的data,后面跟著的就是數(shù)據(jù)信息。2.安裝Weka的官方地址是http:/www.cs.waikato.ac.nz/ml/weka/。點(diǎn)開左側(cè)download欄,可以進(jìn)入下載頁面,里面有windows,mac os,linux等平臺(tái)下的版本,我們以windows系統(tǒng)作為示例。目前穩(wěn)定的版本是3.6。如果本機(jī)沒有安裝java,可以選擇帶有jre的版本。下載后是一個(gè)exe的可執(zhí)行文件,雙擊進(jìn)行安裝即可。安裝完畢,打開啟動(dòng)weka的快捷方式,如果可以看到下面的界面,那么恭喜,安裝成功了。共有4個(gè)應(yīng)用,分別是1)Explorer用來進(jìn)行數(shù)據(jù)實(shí)驗(yàn)、挖掘的環(huán)境,它提供了分類,聚類,關(guān)聯(lián)規(guī)則,特征選擇,數(shù)據(jù)可視化的功能。(An environment for exploring data with WEKA)2)Experimentor用來進(jìn)行實(shí)驗(yàn),對(duì)不同學(xué)習(xí)方案進(jìn)行數(shù)據(jù)測(cè)試的環(huán)境。(An environment for performing experiments and conducting statistical tests between learning schemes.)3)KnowledgeFlow功能和Explorer差不多,不過提供的接口不同,用戶可以使用拖拽的方式去建立實(shí)驗(yàn)方案。另外,它支持增量學(xué)習(xí)。(This environment supports essentially the same functions as the Explorer but with a drag-and-drop interface. One advantage is that it supports incremental learning.)4)SimpleCLI簡單的命令行界面。(Provides a simple command-line interface that allows direct execution of WEKA commands for operating systems that do not provide their own command line interface.)二、實(shí)驗(yàn)內(nèi)容1.選用數(shù)據(jù)文件為:small_dataset中的weather.arff數(shù)據(jù)文件2.在WEKA中點(diǎn)擊explorer 打開文件 weather.arff3.對(duì)數(shù)據(jù)整理分析4.將數(shù)據(jù)分類:單機(jī)classify在test options中 選擇第一項(xiàng)(Use training set)點(diǎn)擊classifier下面的choose 按鈕 選擇trees中的J48由上圖可知該樹有5個(gè)葉子是否出去游玩由天氣晴朗(sunny)、天氣預(yù)報(bào)(overcast)以及陰雨天(rainy)因素決定5. 關(guān)聯(lián)規(guī)則我們打算對(duì)前面的“bank-data”數(shù)據(jù)作關(guān)聯(lián)規(guī)則的分析。用“Explorer”打開“bank-data-final.arff”后,切 換到“Associate”選項(xiàng)卡。默認(rèn)關(guān)聯(lián)規(guī)則分析是用Apriori算法,我們就用這個(gè)算法,但是點(diǎn)“Choose”右邊的文本框修改默認(rèn)的參數(shù),彈 出的窗口中點(diǎn)“More”可以看到各參數(shù)的說明。 7.切換到“Associate”選項(xiàng)卡。默認(rèn)關(guān)聯(lián)規(guī)則分析是用Apriori算法,我們就用這個(gè)算法1), 將經(jīng)過離散化的數(shù)據(jù)存入subset example1.arff2), 點(diǎn)擊“Choose”旁邊的文本框會(huì)彈出新窗口以修改離散化的參數(shù)。3), 現(xiàn)在我們計(jì)劃挖掘出支持度在10%到100%之間,并且lift值超過1.5且lift值排在前100位的那些關(guān)聯(lián)規(guī)則。numRules”設(shè)為100,metrictype 由 confidence改為lift 。其他選項(xiàng)保持默認(rèn)即可。點(diǎn)擊start 輸出100個(gè)數(shù)據(jù)Best rules found: 1. humidity=80.5_max 7 = play=no 4 conf:(0.57) lev:(0.11) 1 conv:(1.13) 2. play=no 5 = humidity=80.5_max 4 conf:(0.8) lev:(0.11) 1 conv:(1.25) 3. outlook=overcast 4 = play=yes 4 conf:(1) lev:(0.1) 1 conv:(1.43) 4. play=yes 9 = outlook=overcast 4 conf:(0.44) lev:(0.1) 1 conv:(1.07) 5. humidity=0_80.5 windy=FALSE 4 = play=yes 4 conf:(1) lev:(0.1) 1 conv:(1.43) 6. play=yes 9 = humidity=0_80.5 windy=FALSE 4 conf:(0.44) lev:(0.1) 1 conv:(1.07) 7. outlook=rainy 5 = temperature=0_74.5 4 conf:(0.8) lev:(0.08) 1 conv:(1.07) 8. temperature=0_74.5 8 = outlook=rainy 4 conf:(0.5) lev:(0.08) 1 conv:(1.03) 9. humidity=0_80.5 7 = play=yes 6 conf:(0.86) lev:(0.11) 1 conv:(1.25)10. play=yes 9 = humidity=0_80.5 6 conf:(0.67) lev:(0.11) 1 conv:(1.13)三、總結(jié):通過實(shí)踐周的學(xué)習(xí),我們不僅繼續(xù)學(xué)習(xí)了R還學(xué)習(xí)了Weka軟件的應(yīng)用。使我重新學(xué)習(xí)了一下數(shù)據(jù)挖掘的相關(guān)概念、知識(shí)和軟件的應(yīng)用,理解了數(shù)據(jù)挖掘的用途和使用步驟。在此過程中學(xué)會(huì)了運(yùn)用各個(gè)模塊的分析方法。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 員工管理心得體會(huì)模版
- 《環(huán)境監(jiān)測(cè)化學(xué)復(fù)習(xí)》課件
- 2025施工企業(yè)材料供應(yīng)合同管理制度
- 維生素缺乏癥的臨床護(hù)理
- 《胸腔及肺葉解剖》課件
- 《藥品營銷技巧》課件
- 中學(xué)2025年春季學(xué)期班主任老師工作總結(jié)模版
- 華為應(yīng)收賬款管理體系構(gòu)建
- 《銷售技巧課件 - 李慧敏 異議處理作業(yè)》
- 2025年度住宅裝修合同關(guān)鍵條款解析
- 家人轉(zhuǎn)贈(zèng)房產(chǎn)協(xié)議書模板
- 食堂員工培訓(xùn)管理制度
- 2025第四屆全國節(jié)約用水知識(shí)大賽題庫附答案(105題)
- 跨學(xué)科實(shí)踐;自行車-2024-2025學(xué)年教科版物理八年級(jí)下冊(cè)教學(xué)同步課件
- 輔助運(yùn)輸管理規(guī)定
- VDA6.3-2023版培訓(xùn)教材課件
- 2025-2030中國光芯片行業(yè)市場(chǎng)發(fā)展現(xiàn)狀及競(jìng)爭(zhēng)格局研究報(bào)告
- 《工業(yè)機(jī)器人仿真技術(shù)應(yīng)用》課件-項(xiàng)目四 工業(yè)機(jī)器人涂膠工作站的仿真應(yīng)用
- 中醫(yī)養(yǎng)生學(xué)沐浴養(yǎng)生講解
- CNAS-GL040-2019 儀器驗(yàn)證實(shí)施指南
- 《聲光影的內(nèi)心感動(dòng):電影視聽語言》期末考試
評(píng)論
0/150
提交評(píng)論