數(shù)據(jù)挖掘軟件與應(yīng)用情況1課件_第1頁
數(shù)據(jù)挖掘軟件與應(yīng)用情況1課件_第2頁
數(shù)據(jù)挖掘軟件與應(yīng)用情況1課件_第3頁
數(shù)據(jù)挖掘軟件與應(yīng)用情況1課件_第4頁
數(shù)據(jù)挖掘軟件與應(yīng)用情況1課件_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、2022/10/1011.2 數(shù)據(jù)挖掘軟件與應(yīng)用情況第一章 數(shù)據(jù)挖掘概述1 數(shù)據(jù)挖掘軟件的發(fā)展代特征數(shù)據(jù)挖掘算法集成分布計算模型數(shù)據(jù)模型第一代作為一個獨立的應(yīng)用支持一個或者多個算法 獨立的系統(tǒng)單個機器向量數(shù)據(jù)第二代和數(shù)據(jù)庫以及數(shù)據(jù)倉庫集成多個算法:能夠挖掘一次不能放進內(nèi)存的數(shù)據(jù)數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)庫和數(shù)據(jù)倉庫同質(zhì)、局部區(qū)域的計算機群集有些系統(tǒng)支持對象,文本和連續(xù)的媒體數(shù)據(jù)第三代和預(yù)言模型系統(tǒng)集成 多個算法數(shù)據(jù)管理和預(yù)言模型系統(tǒng)intranet/extranet網(wǎng)絡(luò)計算支持半結(jié)構(gòu)化數(shù)據(jù)和web數(shù)據(jù)第四代和移動數(shù)據(jù)/各種計算設(shè)備的數(shù)據(jù)聯(lián)合 多個算法數(shù)據(jù)管理、預(yù)言模型、移動系統(tǒng)移動和各種計算設(shè)備普

2、遍存在的計算模型 Robert Grossman, National Center for Data Mining University of Illinois at Chicago 的觀點(1) 第一代數(shù)據(jù)挖掘軟件特點支持一個或少數(shù)幾個數(shù)據(jù)挖掘算法 挖掘向量數(shù)據(jù)(vector-valued data) 數(shù)據(jù)一般一次性調(diào)進內(nèi)存進行處理 典型的系統(tǒng)如Salford Systems公司早期的CART系統(tǒng)() 缺欠如果數(shù)據(jù)足夠大,并且頻繁的變化,這就需要利用數(shù)據(jù)庫或者數(shù)據(jù)倉庫技術(shù)進行管理,第一代系統(tǒng)顯然不能滿足需求。第一代數(shù)據(jù)挖掘軟件 CBA 新加坡國立大學?;陉P(guān)聯(lián)規(guī)則的分類算法,能從關(guān)系數(shù)據(jù)或者

3、交易數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則,使用關(guān)聯(lián)規(guī)則進行分類和預(yù)測。(2) 第二代數(shù)據(jù)挖掘軟件特點與數(shù)據(jù)庫管理系統(tǒng)(DBMS)集成。 支持數(shù)據(jù)庫和數(shù)據(jù)倉庫,和它們具有高性能的接口,具有高的可擴展性。 能夠挖掘大數(shù)據(jù)集、以及更復雜的數(shù)據(jù)集。 通過支持數(shù)據(jù)挖掘模式(data mining schema)和數(shù)據(jù)挖掘查詢語言增加系統(tǒng)的靈活性。 典型的系統(tǒng)如DBMiner,能通過數(shù)據(jù)挖掘查詢語言DMQL(Data Mining Query Language) 進行挖掘操作。缺欠只注重模型的生成,如何和預(yù)言模型系統(tǒng)集成導致了第三代數(shù)據(jù)挖掘系統(tǒng)的開發(fā)。第二代數(shù)據(jù)挖掘軟件 SAS Enterprise Miner(3)第三代

4、數(shù)據(jù)挖掘軟件特點和預(yù)言模型系統(tǒng)之間能夠無縫的集成,使得由數(shù)據(jù)挖掘軟件產(chǎn)生的模型的變化能夠及時反映到預(yù)言模型系統(tǒng)中。 由數(shù)據(jù)挖掘軟件產(chǎn)生的預(yù)言模型能夠自動地被操作型系統(tǒng)吸收,從而與操作型系統(tǒng)中的預(yù)言模型相聯(lián)合提供決策支持的功能。能夠挖掘網(wǎng)絡(luò)環(huán)境下(Internet/Extranet(外聯(lián)網(wǎng))的分布式和高度異質(zhì)的數(shù)據(jù),并且能夠有效地和操作型系統(tǒng)集成。 缺欠不能支持移動環(huán)境。(4) 第四代數(shù)據(jù)挖掘軟件特點目前移動計算越發(fā)顯得重要,將數(shù)據(jù)挖掘和移動計算相結(jié)合是當前的一個研究領(lǐng)域。 第四代軟件能夠挖掘嵌入式系統(tǒng)、移動系統(tǒng)、和普遍存在(ubiquitous)計算設(shè)備產(chǎn)生的各種類型的數(shù)據(jù)。(1) 獨立的數(shù)據(jù)

5、挖掘軟件(95年以前)特點獨立的數(shù)據(jù)挖掘軟件對應(yīng)第一代系統(tǒng),出現(xiàn)在數(shù)據(jù)挖掘技術(shù)發(fā)展早期,研究人員開發(fā)出一種新型的數(shù)據(jù)挖掘算法,就形成一個軟件。這類軟件要求用戶對具體的算法和數(shù)據(jù)挖掘技術(shù)有相當?shù)牧私?,還要負責大量的數(shù)據(jù)預(yù)處理工作。比如C4.5決策樹,平行坐標可視化(parallel-coordinate visualization)。 (2)橫向數(shù)據(jù)挖掘工具集(95年開始)發(fā)展原因隨著數(shù)據(jù)挖掘應(yīng)用的發(fā)展,人們逐漸認識到數(shù)據(jù)挖掘軟件需要和以下三個方面緊密結(jié)合:1)數(shù)據(jù)庫和數(shù)據(jù)倉庫;2)多種類型的數(shù)據(jù)挖掘算法;3)數(shù)據(jù)清洗、轉(zhuǎn)換等預(yù)處理工作。隨著數(shù)據(jù)量的增加,需要利用數(shù)據(jù)庫或者數(shù)據(jù)倉庫技術(shù)進行管理,

6、所以數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫和數(shù)據(jù)倉庫結(jié)合是自然的發(fā)展。 現(xiàn)實領(lǐng)域的問題是多種多樣的,一種或少數(shù)數(shù)據(jù)挖掘算法難以解決。 挖掘的數(shù)據(jù)通常不符合算法的要求,需要有數(shù)據(jù)清洗、轉(zhuǎn)換等數(shù)據(jù)預(yù)處理的配合,才能得出有價值的模型。 (3)縱向數(shù)據(jù)挖掘解決方案(99年開始)發(fā)展原因隨著橫向的數(shù)據(jù)挖掘工具的使用日漸廣泛,人們也發(fā)現(xiàn)這類工具只有精通數(shù)據(jù)挖掘算法的專家才能熟練使用,如果對算法不了解,難以得出好的模型。 從1999年開始,大量的數(shù)據(jù)挖掘工具研制者開始提供縱向的數(shù)據(jù)挖掘解決方案(Vertical Solution),即針對特定的應(yīng)用提供完整的數(shù)據(jù)挖掘方案。 對于縱向的解決方案,數(shù)據(jù)挖掘技術(shù)的應(yīng)用多數(shù)還是為了解

7、決某些特定的難題,而嵌入在應(yīng)用系統(tǒng)中。在證券系統(tǒng)中嵌入神經(jīng)網(wǎng)絡(luò)預(yù)測功能在欺詐檢測系統(tǒng)中嵌入欺詐行為的分類/識別模型在客戶關(guān)系管理系統(tǒng)中嵌入客戶成簇/分類功能或客戶行為分析功能在機器維護系統(tǒng)中嵌入監(jiān)/檢測或識別難以定性的設(shè)備故障功能在數(shù)據(jù)庫營銷中嵌入選擇最可能購買產(chǎn)品的客戶功能在機場管理系統(tǒng)中嵌入旅客人數(shù)預(yù)測、貨運優(yōu)化功能在基因分析系統(tǒng)中嵌入DNA識別功能在制造/生產(chǎn)系統(tǒng)中嵌入質(zhì)量控制功能等2 數(shù)據(jù)挖掘軟件的應(yīng)用情況 目前有數(shù)百個數(shù)據(jù)挖掘軟件產(chǎn)品,下面是幾種主流數(shù)據(jù)挖掘軟件使用情況的一個問卷結(jié)果:3 數(shù)據(jù)挖掘相關(guān)期刊和學術(shù)會議Journals 1. ACM Transactions on Kno

8、wledge Discovery from Data (TKDD) (Association for Computing Machinery SCI, ISSN:1556-4681,IF=1.419) 2. IEEE Transactions on Knowledge and Data Engineering (TKDE) (SCI, ISSN:1041-4347 ,IF=1.657) 3. Data Mining and Knowledge Discovery (SCI, ISSN:1384-5810 ,IF=1.545) 4. Knowledge and Information Syste

9、ms (SCI, ISSN:0219-1377 ,IF=2.225) 5. Data & Knowledge Engineering (SCI, ISSN:0169-023X ,IF=1.422) 6. Information Sciences (SCI, ISSN:0020-0255 ,IF=2.833) Conferences 1. SIGKDD-ACM Knowledge Discovery and Data Mining 2. IEEE ICDM - IEEE International Conference on Data Mining 3. PAKDD - Pacific-Asia

10、 Conference on Knowledge Discovery and Data Mining 4. SIAM SDM - SIAM International Conference on Data Mining 5. PKDD - European Conference on Principles of Data Mining and Knowledge Discovery9 主要參考書Books 1.數(shù)據(jù)挖掘Clementine應(yīng)用實務(wù) 謝邦昌主編,機械工業(yè)出版社,2008. 2. 數(shù)據(jù)挖掘概念與技術(shù)(原書第2版) (加)Jiawei Han,Micheline Kamber著,范明,孟小峰譯, 機械工業(yè)出版社,2007. 3. 數(shù)據(jù)挖掘教程 (美) 羅杰 (Richard J.Roiger),吉茨 (Michael W.Geatz) 著, 翁敬農(nóng),戴紅譯,清華大學出版社,2003. 4. 數(shù)據(jù)挖掘概念、模型、方法和算法 (美)Mehmed Kantardzic 譯者:閃四清,陳茵,程雁,2003. 5. 數(shù)據(jù)挖掘?qū)д?完整版)(第二版) (美)陳封能,(美)斯坦巴赫,(美)庫瑪爾著,范明等譯, 人民郵電出版社,2011. 6. 數(shù)據(jù)挖掘教程 李保坤,張麗娟編著,西南財經(jīng)大學出版社,2009. 7. 基于模糊推理系統(tǒng)的工業(yè)過程數(shù)據(jù)挖掘 張立權(quán)著, 機械工業(yè)出版社,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論