![數(shù)據(jù)挖掘工具_(dá)第1頁](http://file4.renrendoc.com/view/602bed0dae36b27bc3784d0effadf3a6/602bed0dae36b27bc3784d0effadf3a61.gif)
![數(shù)據(jù)挖掘工具_(dá)第2頁](http://file4.renrendoc.com/view/602bed0dae36b27bc3784d0effadf3a6/602bed0dae36b27bc3784d0effadf3a62.gif)
![數(shù)據(jù)挖掘工具_(dá)第3頁](http://file4.renrendoc.com/view/602bed0dae36b27bc3784d0effadf3a6/602bed0dae36b27bc3784d0effadf3a63.gif)
![數(shù)據(jù)挖掘工具_(dá)第4頁](http://file4.renrendoc.com/view/602bed0dae36b27bc3784d0effadf3a6/602bed0dae36b27bc3784d0effadf3a64.gif)
![數(shù)據(jù)挖掘工具_(dá)第5頁](http://file4.renrendoc.com/view/602bed0dae36b27bc3784d0effadf3a6/602bed0dae36b27bc3784d0effadf3a65.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
R語言在數(shù)據(jù)挖掘中的運(yùn)用進(jìn)行數(shù)據(jù)挖掘之前數(shù)據(jù)集成數(shù)據(jù)集成:將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放一個(gè)一致的數(shù)據(jù)存儲(chǔ)的過程數(shù)據(jù)集成包括數(shù)據(jù)集成和模式集成。例如:在一個(gè)企業(yè)的兩個(gè)數(shù)據(jù)源中我們分別以cust-id和customer-no來標(biāo)識用戶,數(shù)據(jù)集成時(shí),把標(biāo)識相同的客戶和在一起A.cust-id==B.customer-no用戶標(biāo)識的定義不同A表:ID=”23442”B表:ID=”SH23442”String(A.cust-id)==String(B.customer-no).Substr(2,length-2)進(jìn)行數(shù)據(jù)挖掘之前-數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理原因:①現(xiàn)實(shí)世界的數(shù)據(jù)是“雜亂的”。②數(shù)據(jù)挖掘需要高質(zhì)量的數(shù)據(jù)。如何對數(shù)據(jù)進(jìn)行預(yù)處理◆數(shù)據(jù)清理◆數(shù)據(jù)轉(zhuǎn)換◆數(shù)據(jù)的規(guī)約數(shù)據(jù)清理格式標(biāo)準(zhǔn)化異常數(shù)據(jù)清除錯(cuò)誤糾正重復(fù)數(shù)據(jù)的清除處理缺失數(shù)據(jù)處理重復(fù)數(shù)據(jù)處理噪聲數(shù)據(jù)處理異常數(shù)據(jù)目標(biāo):提高數(shù)據(jù)質(zhì)量的四個(gè)環(huán)節(jié)數(shù)據(jù)轉(zhuǎn)換分類:常規(guī)數(shù)據(jù)轉(zhuǎn)換通常通過線性或非線性的數(shù)學(xué)變換方法等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。非常規(guī)數(shù)據(jù)的數(shù)據(jù)變換根據(jù)數(shù)據(jù)的特性會(huì)有較多的形式各異的轉(zhuǎn)換方式。數(shù)據(jù)轉(zhuǎn)換常見轉(zhuǎn)換方法:為了減少數(shù)據(jù)復(fù)雜度,用高層概念替換底層概念。專注于數(shù)據(jù)規(guī)范化,是數(shù)據(jù)按比例縮放,落入特定區(qū)域。做屬性構(gòu)選,通過一個(gè)或多個(gè)屬性的變換計(jì)算構(gòu)造出新的屬性。數(shù)據(jù)轉(zhuǎn)換⑴標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化所謂標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化是將各個(gè)記錄值減去記錄值的平均值在除以記錄值的標(biāo)準(zhǔn)差X’=(Xij-Xia)/SinXia為平均值,表達(dá)式為Xia=1/n∑Xijj=1n設(shè)Sij是標(biāo)準(zhǔn)差有:Si=√1/n∑(Xij-Xia)j=1數(shù)據(jù)轉(zhuǎn)換(2)極差標(biāo)準(zhǔn)化極差標(biāo)準(zhǔn)化變換是將各個(gè)記錄值減去記錄值的平均值,在除以記錄值的極差。X’ij=(Xij-Xia))/(max(Xij)-min(Xij))(3)極差正規(guī)化
X’ij=(Xij-min(Xij))/(max(Xij)-min(Xij))將各個(gè)記錄值減去記錄值的極小值,在除以記錄值的極差。數(shù)據(jù)轉(zhuǎn)換最小—最大規(guī)范化處理將所有數(shù)據(jù)轉(zhuǎn)化到我們新設(shè)定的最小和最大值的區(qū)間內(nèi)。數(shù)據(jù)的規(guī)約更少的數(shù)據(jù),提高挖掘效果更高的數(shù)據(jù)挖掘處理精度簡單的數(shù)據(jù)挖掘處理結(jié)果更少的數(shù)據(jù)特征刪除列刪除行減少列中的值效果:由于數(shù)據(jù)規(guī)約對原始數(shù)據(jù)通常都是有損的,盡量不使用規(guī)約?;静僮鳎篟語言簡介R語言基本語法結(jié)構(gòu)標(biāo)準(zhǔn)的和基于各種設(shè)備的輸入/輸出面向?qū)ο缶幊谭绞胶蛿?shù)學(xué)編程方式分布式計(jì)算結(jié)構(gòu)引用程序包數(shù)學(xué)和統(tǒng)計(jì)學(xué)各種函數(shù)包括:基本數(shù)學(xué)函數(shù),模擬和隨數(shù)產(chǎn)生函數(shù)基本統(tǒng)計(jì)函數(shù)和概率分布函數(shù)機(jī)器語言學(xué)習(xí)功能信號處理功能統(tǒng)計(jì)學(xué)建模和測試功能靜態(tài)和動(dòng)態(tài)的圖形展示R語言簡介R語言在數(shù)據(jù)挖掘中的優(yōu)勢:最廉價(jià)(免費(fèi))最全面的算法最完美多樣的數(shù)據(jù)展示最狂熱的愛好者社區(qū)R語言的整個(gè)語法結(jié)構(gòu)完全來自S語言,突出兩個(gè)特點(diǎn)是:函數(shù)或編程和向量化計(jì)算。背景特點(diǎn)簡介R語言常用的包CORElearn包:程序包集合了多種分類算法和回歸模型例如:樸素貝葉斯,隨機(jī)森林,決策樹,回歸分析等。E1071包:綜合了眾多數(shù)數(shù)據(jù)挖掘的包,其中被使用較多的SUM()函數(shù)實(shí)現(xiàn)支持向量化。Rpart包:提供有效處理稀疏二元數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu),而且提供函數(shù)用Apriori算法和Edat算法來挖掘頻繁項(xiàng)集最大頻繁項(xiàng)集,閉頻繁項(xiàng)集合和關(guān)聯(lián)規(guī)則。Randomforest包:實(shí)現(xiàn)隨機(jī)森林算法。ROCR包:是專門用于做模型評估的,可以方便的繪出ROC圖。MATLAB(MATtrixLABoratary)矩陣實(shí)驗(yàn)室功能:①M(fèi)ATLAB將數(shù)值分析,矩陣計(jì)算,科學(xué)數(shù)據(jù)可視化以及非線性動(dòng)態(tài)系統(tǒng)的建模和仿真等諸多強(qiáng)大功能集成在一個(gè)易于使用的視窗環(huán)境中。②可以輕易地描繪二維和三維圖形。特點(diǎn):高效的數(shù)學(xué)表達(dá)式表現(xiàn)方式,數(shù)值計(jì)算及符號計(jì)算功能。語言:MATLAB語言是簡化版的類C++語言。其他商用數(shù)據(jù)挖掘工具SPSSModeler
支持整個(gè)數(shù)據(jù)挖掘流程,包括從數(shù)據(jù)獲取,轉(zhuǎn)化,建模,評估到最終部署的全部過程。SASEnterMiner
可利用具有圖形化的模塊將數(shù)據(jù)挖掘單元組成處理流程圖并依此來組織數(shù)據(jù)挖掘的過程。IntellgentMinerforData
它是用來數(shù)據(jù)挖掘包含在數(shù)據(jù)庫,數(shù)據(jù)倉庫和數(shù)據(jù)中心中的隱含信息,幫助用戶利用傳統(tǒng)數(shù)據(jù)庫或普通文件中的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘。開源數(shù)據(jù)挖掘工具WekaWeka(WaikatoEnvironmentforknowledgeAnalysis)——全名:懷卡托智能分析環(huán)境Weka是用Java語言開發(fā)和開源的數(shù)據(jù)挖掘軟件。Weka可以使用的數(shù)據(jù)挖掘算法:分類算法,聚類算法和并聯(lián)算法。Weka在R語言中時(shí),使用RWeka程序包調(diào)用Weka中所有算法。開源數(shù)據(jù)挖掘工具Weka-四個(gè)組成部分Explorer,在該環(huán)境中,我們可以實(shí)現(xiàn)各種數(shù)據(jù)挖掘算法,并提供可視法結(jié)果。Experimenter:用來做算法實(shí)驗(yàn)的環(huán)境,在該環(huán)境中,用戶可以創(chuàng)建比較,修改和分析算法。KnowledgeFlow:在“知識流”的環(huán)境中,用戶可以把不同組件按照一定順序連接起來,組成知識流用以處理和分析數(shù)據(jù)。SmpleCLI:簡單的命令行界面。一、SPSS軟件簡介軟件簡介SPSS是StatisticalProgramforSocialSciences的簡稱,即社會(huì)科學(xué)統(tǒng)計(jì)程序,由美國SPSS公司1970年代推出,迄今已有近30年的歷史。是國際著名三大社會(huì)科學(xué)統(tǒng)計(jì)軟件包之一(SAS、SPSS、Statis)。SPSS原是為大型計(jì)算機(jī)開發(fā)的,其版本為SPSSx,80年代初,微機(jī)開始普及以后,它率先推出了微機(jī)版本(版本為SPSS/PC+x.x),占領(lǐng)了微機(jī)市場,大大地?cái)U(kuò)大了自己的用戶量,我們現(xiàn)在使用的是SPSSforWindows12.0版。軟件簡介與以往的SPSSforDOS版本相比,SPSSforWindows顯得更加直觀易用。首先,它采用現(xiàn)今廣為流行的電子表格形式作數(shù)據(jù)管理器,使用戶變量命名、定義數(shù)據(jù)格式、數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年個(gè)人普通貨物運(yùn)輸合同模板(三篇)
- 2025年二手房屋買賣合同范文(2篇)
- 2025年二人合伙開店協(xié)議經(jīng)典版(三篇)
- 2025年五年級語文教學(xué)工作總結(jié)參考范文(二篇)
- 2025年個(gè)人房產(chǎn)抵押借款合同標(biāo)準(zhǔn)版本(三篇)
- 2025年五金配件訂購買賣合同(三篇)
- 2025年產(chǎn)品銷售合作協(xié)議(三篇)
- 2025年專利實(shí)施合同參考樣本(三篇)
- 歷史建筑修復(fù)外包合同
- 教育產(chǎn)業(yè)基地建設(shè)居間協(xié)議
- 和平精英電競賽事
- 熱應(yīng)激的防與控
- 輸液港用無損傷針相關(guān)知識
- 高標(biāo)準(zhǔn)農(nóng)田施工組織設(shè)計(jì)(全)
- 職業(yè)安全健康工作總結(jié)(2篇)
- 14S501-1 球墨鑄鐵單層井蓋及踏步施工
- YB 4022-1991耐火泥漿荷重軟化溫度試驗(yàn)方法(示差-升溫法)
- 水土保持方案中沉沙池的布設(shè)技術(shù)
- 現(xiàn)代企業(yè)管理 (全套完整課件)
- 走進(jìn)本土項(xiàng)目化設(shè)計(jì)-讀《PBL項(xiàng)目化學(xué)習(xí)設(shè)計(jì)》有感
- 高中語文日積月累23
評論
0/150
提交評論