版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、2022/10/1011.2 數(shù)據(jù)挖掘軟件與應(yīng)用情況第一章 數(shù)據(jù)挖掘概述1 數(shù)據(jù)挖掘軟件的發(fā)展代特征數(shù)據(jù)挖掘算法集成分布計(jì)算模型數(shù)據(jù)模型第一代作為一個(gè)獨(dú)立的應(yīng)用支持一個(gè)或者多個(gè)算法 獨(dú)立的系統(tǒng)單個(gè)機(jī)器向量數(shù)據(jù)第二代和數(shù)據(jù)庫(kù)以及數(shù)據(jù)倉(cāng)庫(kù)集成多個(gè)算法:能夠挖掘一次不能放進(jìn)內(nèi)存的數(shù)據(jù)數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)同質(zhì)、局部區(qū)域的計(jì)算機(jī)群集有些系統(tǒng)支持對(duì)象,文本和連續(xù)的媒體數(shù)據(jù)第三代和預(yù)言模型系統(tǒng)集成 多個(gè)算法數(shù)據(jù)管理和預(yù)言模型系統(tǒng)intranet/extranet網(wǎng)絡(luò)計(jì)算支持半結(jié)構(gòu)化數(shù)據(jù)和web數(shù)據(jù)第四代和移動(dòng)數(shù)據(jù)/各種計(jì)算設(shè)備的數(shù)據(jù)聯(lián)合 多個(gè)算法數(shù)據(jù)管理、預(yù)言模型、移動(dòng)系統(tǒng)移動(dòng)和各種計(jì)算設(shè)備普
2、遍存在的計(jì)算模型 Robert Grossman, National Center for Data Mining University of Illinois at Chicago 的觀點(diǎn)(1) 第一代數(shù)據(jù)挖掘軟件特點(diǎn)支持一個(gè)或少數(shù)幾個(gè)數(shù)據(jù)挖掘算法 挖掘向量數(shù)據(jù)(vector-valued data) 數(shù)據(jù)一般一次性調(diào)進(jìn)內(nèi)存進(jìn)行處理 典型的系統(tǒng)如Salford Systems公司早期的CART系統(tǒng)() 缺欠如果數(shù)據(jù)足夠大,并且頻繁的變化,這就需要利用數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)技術(shù)進(jìn)行管理,第一代系統(tǒng)顯然不能滿足需求。第一代數(shù)據(jù)挖掘軟件 CBA 新加坡國(guó)立大學(xué)。基于關(guān)聯(lián)規(guī)則的分類算法,能從關(guān)系數(shù)據(jù)或者
3、交易數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則,使用關(guān)聯(lián)規(guī)則進(jìn)行分類和預(yù)測(cè)。(2) 第二代數(shù)據(jù)挖掘軟件特點(diǎn)與數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS)集成。 支持?jǐn)?shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù),和它們具有高性能的接口,具有高的可擴(kuò)展性。 能夠挖掘大數(shù)據(jù)集、以及更復(fù)雜的數(shù)據(jù)集。 通過(guò)支持?jǐn)?shù)據(jù)挖掘模式(data mining schema)和數(shù)據(jù)挖掘查詢語(yǔ)言增加系統(tǒng)的靈活性。 典型的系統(tǒng)如DBMiner,能通過(guò)數(shù)據(jù)挖掘查詢語(yǔ)言DMQL(Data Mining Query Language) 進(jìn)行挖掘操作。缺欠只注重模型的生成,如何和預(yù)言模型系統(tǒng)集成導(dǎo)致了第三代數(shù)據(jù)挖掘系統(tǒng)的開發(fā)。第二代數(shù)據(jù)挖掘軟件 SAS Enterprise Miner(3)第三代
4、數(shù)據(jù)挖掘軟件特點(diǎn)和預(yù)言模型系統(tǒng)之間能夠無(wú)縫的集成,使得由數(shù)據(jù)挖掘軟件產(chǎn)生的模型的變化能夠及時(shí)反映到預(yù)言模型系統(tǒng)中。 由數(shù)據(jù)挖掘軟件產(chǎn)生的預(yù)言模型能夠自動(dòng)地被操作型系統(tǒng)吸收,從而與操作型系統(tǒng)中的預(yù)言模型相聯(lián)合提供決策支持的功能。能夠挖掘網(wǎng)絡(luò)環(huán)境下(Internet/Extranet(外聯(lián)網(wǎng))的分布式和高度異質(zhì)的數(shù)據(jù),并且能夠有效地和操作型系統(tǒng)集成。 缺欠不能支持移動(dòng)環(huán)境。(4) 第四代數(shù)據(jù)挖掘軟件特點(diǎn)目前移動(dòng)計(jì)算越發(fā)顯得重要,將數(shù)據(jù)挖掘和移動(dòng)計(jì)算相結(jié)合是當(dāng)前的一個(gè)研究領(lǐng)域。 第四代軟件能夠挖掘嵌入式系統(tǒng)、移動(dòng)系統(tǒng)、和普遍存在(ubiquitous)計(jì)算設(shè)備產(chǎn)生的各種類型的數(shù)據(jù)。(1) 獨(dú)立的數(shù)據(jù)
5、挖掘軟件(95年以前)特點(diǎn)獨(dú)立的數(shù)據(jù)挖掘軟件對(duì)應(yīng)第一代系統(tǒng),出現(xiàn)在數(shù)據(jù)挖掘技術(shù)發(fā)展早期,研究人員開發(fā)出一種新型的數(shù)據(jù)挖掘算法,就形成一個(gè)軟件。這類軟件要求用戶對(duì)具體的算法和數(shù)據(jù)挖掘技術(shù)有相當(dāng)?shù)牧私猓€要負(fù)責(zé)大量的數(shù)據(jù)預(yù)處理工作。比如C4.5決策樹,平行坐標(biāo)可視化(parallel-coordinate visualization)。 (2)橫向數(shù)據(jù)挖掘工具集(95年開始)發(fā)展原因隨著數(shù)據(jù)挖掘應(yīng)用的發(fā)展,人們逐漸認(rèn)識(shí)到數(shù)據(jù)挖掘軟件需要和以下三個(gè)方面緊密結(jié)合:1)數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù);2)多種類型的數(shù)據(jù)挖掘算法;3)數(shù)據(jù)清洗、轉(zhuǎn)換等預(yù)處理工作。隨著數(shù)據(jù)量的增加,需要利用數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)技術(shù)進(jìn)行管理,
6、所以數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)結(jié)合是自然的發(fā)展。 現(xiàn)實(shí)領(lǐng)域的問(wèn)題是多種多樣的,一種或少數(shù)數(shù)據(jù)挖掘算法難以解決。 挖掘的數(shù)據(jù)通常不符合算法的要求,需要有數(shù)據(jù)清洗、轉(zhuǎn)換等數(shù)據(jù)預(yù)處理的配合,才能得出有價(jià)值的模型。 (3)縱向數(shù)據(jù)挖掘解決方案(99年開始)發(fā)展原因隨著橫向的數(shù)據(jù)挖掘工具的使用日漸廣泛,人們也發(fā)現(xiàn)這類工具只有精通數(shù)據(jù)挖掘算法的專家才能熟練使用,如果對(duì)算法不了解,難以得出好的模型。 從1999年開始,大量的數(shù)據(jù)挖掘工具研制者開始提供縱向的數(shù)據(jù)挖掘解決方案(Vertical Solution),即針對(duì)特定的應(yīng)用提供完整的數(shù)據(jù)挖掘方案。 對(duì)于縱向的解決方案,數(shù)據(jù)挖掘技術(shù)的應(yīng)用多數(shù)還是為了解
7、決某些特定的難題,而嵌入在應(yīng)用系統(tǒng)中。在證券系統(tǒng)中嵌入神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)功能在欺詐檢測(cè)系統(tǒng)中嵌入欺詐行為的分類/識(shí)別模型在客戶關(guān)系管理系統(tǒng)中嵌入客戶成簇/分類功能或客戶行為分析功能在機(jī)器維護(hù)系統(tǒng)中嵌入監(jiān)/檢測(cè)或識(shí)別難以定性的設(shè)備故障功能在數(shù)據(jù)庫(kù)營(yíng)銷中嵌入選擇最可能購(gòu)買產(chǎn)品的客戶功能在機(jī)場(chǎng)管理系統(tǒng)中嵌入旅客人數(shù)預(yù)測(cè)、貨運(yùn)優(yōu)化功能在基因分析系統(tǒng)中嵌入DNA識(shí)別功能在制造/生產(chǎn)系統(tǒng)中嵌入質(zhì)量控制功能等2 數(shù)據(jù)挖掘軟件的應(yīng)用情況 目前有數(shù)百個(gè)數(shù)據(jù)挖掘軟件產(chǎn)品,下面是幾種主流數(shù)據(jù)挖掘軟件使用情況的一個(gè)問(wèn)卷結(jié)果:3 數(shù)據(jù)挖掘相關(guān)期刊和學(xué)術(shù)會(huì)議Journals 1. ACM Transactions on Kno
8、wledge Discovery from Data (TKDD) (Association for Computing Machinery SCI, ISSN:1556-4681,IF=1.419) 2. IEEE Transactions on Knowledge and Data Engineering (TKDE) (SCI, ISSN:1041-4347 ,IF=1.657) 3. Data Mining and Knowledge Discovery (SCI, ISSN:1384-5810 ,IF=1.545) 4. Knowledge and Information Syste
9、ms (SCI, ISSN:0219-1377 ,IF=2.225) 5. Data & Knowledge Engineering (SCI, ISSN:0169-023X ,IF=1.422) 6. Information Sciences (SCI, ISSN:0020-0255 ,IF=2.833) Conferences 1. SIGKDD-ACM Knowledge Discovery and Data Mining 2. IEEE ICDM - IEEE International Conference on Data Mining 3. PAKDD - Pacific-Asia
10、 Conference on Knowledge Discovery and Data Mining 4. SIAM SDM - SIAM International Conference on Data Mining 5. PKDD - European Conference on Principles of Data Mining and Knowledge Discovery9 主要參考書Books 1.數(shù)據(jù)挖掘Clementine應(yīng)用實(shí)務(wù) 謝邦昌主編,機(jī)械工業(yè)出版社,2008. 2. 數(shù)據(jù)挖掘概念與技術(shù)(原書第2版) (加)Jiawei Han,Micheline Kamber著,范明,孟小峰譯, 機(jī)械工業(yè)出版社,2007. 3. 數(shù)據(jù)挖掘教程 (美) 羅杰 (Richard J.Roiger),吉茨 (Michael W.Geatz) 著, 翁敬農(nóng),戴紅譯,清華大學(xué)出版社,2003. 4. 數(shù)據(jù)挖掘概念、模型、方法和算法 (美)Mehmed Kantardzic 譯者:閃四清,陳茵,程雁,2003. 5. 數(shù)據(jù)挖掘?qū)д?完整版)(第二版) (美)陳封能,(美)斯坦巴赫,(美)庫(kù)瑪爾著,范明等譯, 人民郵電出版社,2011. 6. 數(shù)據(jù)挖掘教程 李保坤,張麗娟編著,西南財(cái)經(jīng)大學(xué)出版社,2009. 7. 基于模糊推理系統(tǒng)的工業(yè)過(guò)程數(shù)據(jù)挖掘 張立權(quán)著, 機(jī)械工業(yè)出版社,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 四川省瀘縣高三三診模擬語(yǔ)文試卷(含答案)
- 中職班主任選手備賽七部曲匯報(bào)人王秀芳講解
- 職業(yè)溝通與禮儀健康管理系施怡寧講解
- 簡(jiǎn)單聘用合同范本
- 2025抵押物的借款合同范本「標(biāo)準(zhǔn)版」
- 實(shí)習(xí)生用人合同協(xié)議書
- 2025三方工程合同
- 提高溝通技巧的職業(yè)培訓(xùn)方案
- 安防監(jiān)控工程施工合同范本
- 蘇教版六年級(jí)數(shù)學(xué)下冊(cè)第四單元大單元教學(xué)設(shè)計(jì)
- 北師大版七年級(jí)上冊(cè)數(shù)學(xué)思維導(dǎo)圖全套
- 13《馬說(shuō)》(原卷版)-2023年中考課標(biāo)文言文20篇專項(xiàng)訓(xùn)練
- 人教版三下勞動(dòng)項(xiàng)目四《蒸蛋羹》教學(xué)設(shè)計(jì)
- 質(zhì)量為綱-華為公司質(zhì)量理念與實(shí)踐
- 2023徐金桂“徐徐道來(lái)”(行政法知識(shí)點(diǎn))版
- 《事故汽車常用零部件修復(fù)與更換判別規(guī)范》
- JBT 1306-2024 電動(dòng)單梁起重機(jī)(正式版)
- 信息科技重大版 七年級(jí)下冊(cè) 互聯(lián)網(wǎng)應(yīng)用與創(chuàng)新 第一單元單元教學(xué)設(shè)計(jì) 互聯(lián)網(wǎng)創(chuàng)新應(yīng)用
- 高中政治必刷題 高考真題 必修3《政治與法治》(原卷版)
- 2024年輔警招聘考試試題庫(kù)含完整答案(各地真題)
評(píng)論
0/150
提交評(píng)論