




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、數(shù)據(jù)挖掘語言、軟件和工具介紹王成(副教授)華僑大學計算機科學與技術學院八月 11, 2022DMKD Sides By MAO2數(shù)據(jù)挖掘語言、軟件和工具介紹 內(nèi)容提要數(shù)據(jù)挖掘語言數(shù)據(jù)挖掘軟件數(shù)據(jù)挖掘工具八月 11, 2022DMKD Sides By MAO3數(shù)據(jù)挖掘語言概述設計理想的數(shù)據(jù)挖掘語言是一個巨大的挑戰(zhàn)。這是因為數(shù)據(jù)挖掘覆蓋的任務寬、包含知識形式廣(如數(shù)據(jù)特征化、關聯(lián)規(guī)則、數(shù)據(jù)分類、聚集等等)。每個任務都有不同的需求,每種知識表示形式都有不同內(nèi)涵。一個有效的數(shù)據(jù)挖掘語言設計需要對各種不同的數(shù)據(jù)挖掘任務的能力、約束以及運行機制有深入地理解。眾所周知,關系查詢語言的標準化,發(fā)生在關系型數(shù)
2、據(jù)庫開發(fā)的早期階段。經(jīng)過不懈的努力,以SQL為代表的關系型數(shù)據(jù)庫查詢語言的標準化被成功解決。同樣,一個好的數(shù)據(jù)挖掘語言可以有助于數(shù)據(jù)挖掘系統(tǒng)平臺的標準化進程,甚至可以象HTML推動Internet的發(fā)展一樣,推動數(shù)據(jù)挖掘行業(yè)的開發(fā)和發(fā)展。數(shù)據(jù)挖掘語言的發(fā)展大致經(jīng)歷了兩個階段:第一個階段是研究單位和公司自行研究和開發(fā)階段;第二階段是研究單位和公司組成聯(lián)盟,研制和開發(fā)數(shù)據(jù)挖掘語言標準化的階段。 八月 11, 2022DMKD Sides By MAO4數(shù)據(jù)挖掘語言概述根據(jù)功能和側(cè)重點不同,數(shù)據(jù)挖掘語言可以分為三種類型:數(shù)據(jù)挖掘查詢語言:希望以一種像SQL這樣的數(shù)據(jù)庫查詢語言完成數(shù)據(jù)挖掘的任務。 數(shù)
3、據(jù)挖掘建模語言:對數(shù)據(jù)挖掘模型進行描述和定義的語言,設計一種標準的數(shù)據(jù)挖掘建模語言,使得數(shù)據(jù)挖掘系統(tǒng)在模型定義和描述方面有標準可以遵循。通用數(shù)據(jù)挖掘語言:通用數(shù)據(jù)挖掘語言合并了上述兩種語言的特點,既具有定義模型的功能,又能作為查詢語言與數(shù)據(jù)挖掘系統(tǒng)通信,進行交互式挖掘。通用數(shù)據(jù)挖掘語言的標準化是目前解決數(shù)據(jù)挖掘行業(yè)出現(xiàn)問題的頗具吸引力的研究方向。八月 11, 2022DMKD Sides By MAO5數(shù)據(jù)挖掘查詢語言J. W. Han等開發(fā)的數(shù)據(jù)挖掘系統(tǒng)DBMiner中數(shù)據(jù)挖掘查詢語言DMQL(Data Mining Query Language)是這類挖掘語言的典型代表。數(shù)據(jù)挖掘查詢語言D
4、MQL由數(shù)據(jù)挖掘原語組成,數(shù)據(jù)挖掘原語用來定義一個數(shù)據(jù)挖掘任務。用戶使用數(shù)據(jù)挖掘原語與數(shù)據(jù)挖掘系統(tǒng)通信,使得知識發(fā)現(xiàn)更有效。這些原語有以下幾個種類:數(shù)據(jù)庫部分以及用戶感興趣的數(shù)據(jù)集(包括感興趣的數(shù)據(jù)庫屬性或數(shù)據(jù)倉庫的維度);挖掘知識的種類;在指導挖掘過程中有用的背景知識;模式估值的興趣度測量;挖掘出的知識如何可視化表示。數(shù)據(jù)挖掘查詢的基本單位是數(shù)據(jù)挖掘任務,通過數(shù)據(jù)挖掘查詢語言,數(shù)據(jù)挖掘任務可以通過查詢的形式輸入到數(shù)據(jù)挖掘系統(tǒng)中。一個數(shù)據(jù)挖掘查詢由五種基本的數(shù)據(jù)挖掘原語定義。 八月 11, 2022DMKD Sides By MAO6數(shù)據(jù)挖掘建模語言數(shù)據(jù)挖掘建模語言是對數(shù)據(jù)挖掘模型進行描述和定
5、義的語言。預言模型標記語言”(Predictive Model Markup Language,PMML)被一個稱作數(shù)據(jù)挖掘協(xié)會(The Data Mining Group,DMG)的組織開發(fā)。PMML是一種基于XML的語言,用來定義預言模型。PMML允許應用程序和聯(lián)機分析處理(OLAP)工具能從數(shù)據(jù)挖掘系統(tǒng)獲得模型,而不用獨自開發(fā)數(shù)據(jù)挖掘模塊。PMML的模型定義由以下幾部分組成:頭文件(Header);數(shù)據(jù)模式(Data Schema);數(shù)據(jù)挖掘模式(Data Mining Schema);預言模型模式(Predictive Model Schema);預言模型定義(Definitions
6、for Predictive Models);全體模型定義(Definitions for Ensembles of Models);選擇和聯(lián)合模型和全體模型的規(guī)則(Rules for Selecting and Combining Models and Ensembles of Models);異常處理的規(guī)則(Rules for Exception Handling)八月 11, 2022DMKD Sides By MAO7通用數(shù)據(jù)挖掘語言通用數(shù)據(jù)挖掘語言合并了上述兩種語言的特點,既具有定義模型的功能,又能作為查詢語言與數(shù)據(jù)挖掘系統(tǒng)通信,進行交互式挖掘。通用數(shù)據(jù)挖掘語言的標準化是目前解決數(shù)據(jù)
7、挖掘行業(yè)出現(xiàn)問題的頗具吸引力的研究方向。2000年3月,微軟公司推出了一個數(shù)據(jù)挖掘語言,稱作OLE DB for Data Mining(DM),是通用數(shù)據(jù)挖掘語言中最具代表性的嘗試。微軟此舉的目的是為數(shù)據(jù)挖掘提供行業(yè)標準。只要符合這個標準,都能容易地嵌入應用程序中。OLE DB for DM支持多種流行的數(shù)據(jù)挖掘算法。使用OLE DB for DM,數(shù)據(jù)挖掘應用能夠通過OLE DB生產(chǎn)者接進任何表格式的數(shù)據(jù)源。八月 11, 2022DMKD Sides By MAO8DMQL挖掘查詢語言介紹DMQL語言的頂層語法DMQL:=;:=|數(shù)據(jù)挖掘聲明(Data_Mining_Statement)語
8、句相關項說明:=use database | use data warehouse use hierarchy for from where in relevance to order by group by having 例子:use database AllElecronics_dbin relevance to e,C.agefrom customer C, item I, purchases P, items_sold Swhere I.item_ID=S.item_ID and S.trans_ID=P.trans_ID and P.cust_ID=C.cust_ID and C.c
9、ountry=“Canada”group by P.date;八月 11, 2022DMKD Sides By MAO9DMQL挖掘查詢語言介紹(續(xù))挖掘知識指定(Mine_Knowledge_Specification)語句相關項說明:=| := mine characteristics as analyze := mine comparison as for where versus where analyze := mine associations as matching :=mine classification as analyze 八月 11, 2022DMKD Sides By
10、 MAO10DMQL挖掘查詢語言介紹(續(xù))概念分層聲明(Concept_Hierarchy_Definition_Statement)相關項說明 :=define hierarchy for on as where 例子:define hierarchy age_hierarchy for age on customer aslevel1: young, middle_aged, senior level0:alllevel2: 20, ., 39 level1: younglevel2: 40, ., 59 level1: middle_agedlevel2: 60, ., 89 level
11、1: senior;define hierarchy profit_margin_hierarchy on item as level1: low_profit_margin level_0: all if (price - cost) $50level1: medium-profit_margin $50) and (price - cost) = $250) level1: high_profit_margin $250;八月 11, 2022DMKD Sides By MAO11DMQL挖掘查詢語言介紹(續(xù))模式表示和可視化說明的語法 :=display as | ; := roll u
12、p on | drill down on | add | drop ;其中可以是規(guī)則、表、交叉表、餅圖或條圖、判定樹、立方體、曲線或曲面等 八月 11, 2022DMKD Sides By MAO12數(shù)據(jù)挖掘語言、軟件和工具介紹 內(nèi)容提要數(shù)據(jù)挖掘語言數(shù)據(jù)挖掘軟件數(shù)據(jù)挖掘工具數(shù)據(jù)挖掘軟件的發(fā)展代特征數(shù)據(jù)挖掘算法集成分布計算模型數(shù)據(jù)模型第一代作為一個獨立的應用支持一個或者多個算法 獨立的系統(tǒng)單個機器向量數(shù)據(jù)第二代和數(shù)據(jù)庫以及數(shù)據(jù)倉庫集成多個算法:能夠挖掘一次不能放進內(nèi)存的數(shù)據(jù)數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)庫和數(shù)據(jù)倉庫同質(zhì)、局部區(qū)域的計算機群集有些系統(tǒng)支持對象,文本和連續(xù)的媒體數(shù)據(jù)第三代和預言模型系統(tǒng)集成
13、多個算法數(shù)據(jù)管理和預言模型系統(tǒng)intranet/extranet網(wǎng)絡計算支持半結(jié)構化數(shù)據(jù)和web數(shù)據(jù)第四代和移動數(shù)據(jù)/各種計算設備的數(shù)據(jù)聯(lián)合 多個算法數(shù)據(jù)管理、預言模型、移動系統(tǒng)移動和各種計算設備普遍存在的計算模型 數(shù)據(jù)挖掘軟件的發(fā)展第一代數(shù)據(jù)挖掘軟件特點支持一個或少數(shù)幾個數(shù)據(jù)挖掘算法 挖掘向量數(shù)據(jù)(vector-valued data) 數(shù)據(jù)一般一次性調(diào)進內(nèi)存進行處理 典型的系統(tǒng)如Salford Systems公司早期的CART系統(tǒng)( ) 缺陷如果數(shù)據(jù)足夠大,并且頻繁的變化,這就需要利用數(shù)據(jù)庫或者數(shù)據(jù)倉庫技術進行管理,第一代系統(tǒng)顯然不能滿足需求。數(shù)據(jù)挖掘軟件的發(fā)展第一代數(shù)據(jù)挖掘軟件 CBA
14、新加坡國立大學?;陉P聯(lián)規(guī)則的分類算法,能從關系數(shù)據(jù)或者交易數(shù)據(jù)中挖掘關聯(lián)規(guī)則,使用關聯(lián)規(guī)則進行分類和預測二、數(shù)據(jù)挖掘軟件的發(fā)展第二代數(shù)據(jù)挖掘軟件特點與數(shù)據(jù)庫管理系統(tǒng)(DBMS)集成 支持數(shù)據(jù)庫和數(shù)據(jù)倉庫,和它們具有高性能的接口,具有高的可擴展性 能夠挖掘大數(shù)據(jù)集、以及更復雜的數(shù)據(jù)集 通過支持數(shù)據(jù)挖掘模式(data mining schema)和數(shù)據(jù)挖掘查詢語言增加系統(tǒng)的靈活性 典型的系統(tǒng)如DBMiner,能通過DMQL挖掘語言進行挖掘操作缺陷只注重模型的生成,如何和預言模型系統(tǒng)集成導致了第三代數(shù)據(jù)挖掘系統(tǒng)的開發(fā)數(shù)據(jù)挖掘軟件的發(fā)展第二代數(shù)據(jù)挖掘軟件 DBMiner數(shù)據(jù)挖掘軟件的發(fā)展第二代軟件
15、SAS Enterprise Miner數(shù)據(jù)挖掘軟件的發(fā)展第三代數(shù)據(jù)挖掘軟件特點和預言模型系統(tǒng)之間能夠無縫的集成,使得由數(shù)據(jù)挖掘軟件產(chǎn)生的模型的變化能夠及時反映到預言模型系統(tǒng)中 由數(shù)據(jù)挖掘軟件產(chǎn)生的預言模型能夠自動地被操作型系統(tǒng)吸收,從而與操作型系統(tǒng)中的預言模型相聯(lián)合提供決策支持的功能 能夠挖掘網(wǎng)絡環(huán)境下(Internet/Extranet)的分布式和高度異質(zhì)的數(shù)據(jù),并且能夠有效地和操作型系統(tǒng)集成 缺陷不能支持移動環(huán)境數(shù)據(jù)挖掘軟件的發(fā)展第三代軟件 SPSS Clementine以PMML的格式提供與預言模型系統(tǒng)的接口二、數(shù)據(jù)挖掘軟件的發(fā)展第四代數(shù)據(jù)挖掘軟件特點目前移動計算越發(fā)顯得重要,將數(shù)據(jù)挖
16、掘和移動計算相結(jié)合是當前的一個研究領域。 第四代軟件能夠挖掘嵌入式系統(tǒng)、移動系統(tǒng)、和普遍存在(ubiquitous)計算設備產(chǎn)生的各種類型的數(shù)據(jù)第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見報導,PKDD2001上Kargupta發(fā)表了一篇在移動環(huán)境下挖掘決策樹的論文,Kargupta是馬里蘭巴爾的摩州立大學(University of Maryland Baltimore County)正在研制的CAREER數(shù)據(jù)挖掘項目的負責人,該項目研究期限是2001年4月到2006年4月,目的是開發(fā)挖掘分布式和異質(zhì)數(shù)據(jù)(Ubiquitous設備)的第四代數(shù)據(jù)挖掘系統(tǒng)。 工業(yè)控制技術研究所數(shù)據(jù)挖掘軟件的發(fā)展第一代系統(tǒng)
17、與第二代相比因為不具有和數(shù)據(jù)管理系統(tǒng)之間有效的接口,所以在數(shù)據(jù)預處理方面有一定缺陷 第三、四代系統(tǒng)強調(diào)預測模型的使用和操作型環(huán)境的部署 第二代系統(tǒng)提供數(shù)據(jù)管理系統(tǒng)和數(shù)據(jù)挖掘系統(tǒng)之間的有效接口 第三代系統(tǒng)另外還提供數(shù)據(jù)挖掘系統(tǒng)和預言模型系統(tǒng)之間的有效的接口 目前,隨著新的挖掘算法的研究和開發(fā),第一代數(shù)據(jù)挖掘系統(tǒng)仍然會出現(xiàn),第二代系統(tǒng)是商業(yè)軟件的主流,部分第二代系統(tǒng)開發(fā)商開始研制相應的第三代數(shù)據(jù)挖掘系統(tǒng),比如 IBM Intelligent Score Service。第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見報導 數(shù)據(jù)挖掘軟件的發(fā)展數(shù)據(jù)挖掘軟件發(fā)展的三個階段獨立的數(shù)據(jù)挖掘軟件橫向的數(shù)據(jù)挖掘工具集縱向的數(shù)
18、據(jù)挖掘解決方案數(shù)據(jù)挖掘軟件的發(fā)展獨立的數(shù)據(jù)挖掘軟件(95年以前)特點獨立的數(shù)據(jù)挖掘軟件對應第一代系統(tǒng),出現(xiàn)在數(shù)據(jù)挖掘技術發(fā)展早期,研究人員開發(fā)出一種新型的數(shù)據(jù)挖掘算法,就形成一個軟件。這類軟件要求用戶對具體的算法和數(shù)據(jù)挖掘技術有相當?shù)牧私猓€要負責大量的數(shù)據(jù)預處理工作。比如C4.5決策樹,平行坐標可視化(parallel-coordinate visualization)。 數(shù)據(jù)挖掘軟件的發(fā)展橫向的數(shù)據(jù)挖掘工具集(95年開始)發(fā)展原因隨著數(shù)據(jù)挖掘應用的發(fā)展,人們逐漸認識到數(shù)據(jù)挖掘軟件需要和以下三個方面緊密結(jié)合:1)數(shù)據(jù)庫和數(shù)據(jù)倉庫;2)多種類型的數(shù)據(jù)挖掘算法;3)數(shù)據(jù)清洗、轉(zhuǎn)換等預處理工作。隨
19、著數(shù)據(jù)量的增加,需要利用數(shù)據(jù)庫或者數(shù)據(jù)倉庫技術進行管理,所以數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫和數(shù)據(jù)倉庫結(jié)合是自然的發(fā)展。 現(xiàn)實領域的問題是多種多樣的,一種或少數(shù)數(shù)據(jù)挖掘算法難以解決 挖掘的數(shù)據(jù)通常不符合算法的要求,需要有數(shù)據(jù)清洗、轉(zhuǎn)換等數(shù)據(jù)預處理的配合,才能得出有價值的模型 數(shù)據(jù)挖掘軟件的發(fā)展橫向的數(shù)據(jù)挖掘工具集(95年開始)發(fā)展過程隨著這些需求的出現(xiàn),1995年左右軟件開發(fā)商開始提供稱之為“工具集”的數(shù)據(jù)挖掘軟件特點此類工具集的特點是提供多種數(shù)據(jù)挖掘算法 包括數(shù)據(jù)的轉(zhuǎn)換和可視化 由于此類工具并非面向特定的應用,是通用的算法集合,可以稱之為橫向的數(shù)據(jù)挖掘工具(Horizontal Data Mining
20、Tools) 由于此類工具并非面向特定的應用,是通用的算法集合,所以稱之為橫向的數(shù)據(jù)挖掘工具典型的橫向工具有IBM Intelligent Miner、SPSS的Clementine、SAS的Enterprise Miner、SGI的MineSet、Oracle Darwin等 數(shù)據(jù)挖掘軟件的發(fā)展橫向的數(shù)據(jù)挖掘工具集(95年開始)IBM Intelligent MinerSPSS的ClementineSAS的Enterprise MinerSGI的MineSetOracle Darwin數(shù)據(jù)挖掘軟件的發(fā)展縱向的數(shù)據(jù)挖掘解決方案(99年開始)發(fā)展原因隨著橫向的數(shù)據(jù)挖掘工具的使用日漸廣泛,人們也發(fā)現(xiàn)這類工具只有精通數(shù)數(shù)據(jù)挖掘算法的專家才能熟練使用,如果對算法不了解,難以得出好的模型 從1999年開始,大量的數(shù)據(jù)挖掘工具研制者開始提供縱向的數(shù)據(jù)挖掘解決方案(Vertical Solution),即針對特定的應用提供完整的數(shù)據(jù)挖掘方案 對于縱向的解決方案,數(shù)據(jù)挖掘技術的應用多數(shù)還是為了解決某些特定的難題,而嵌入在應用系統(tǒng)中數(shù)據(jù)挖掘軟件的發(fā)展
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 私人貸款合同樣本
- 2025年卸氣柱項目發(fā)展計劃
- 飲料加盟合同范本
- 5 走近我們的老師 第一課時 教學設計-2023-2024學年道德與法治三年級上冊統(tǒng)編版
- 買房時的合同范本
- 門店拆除工程合同范本
- 8 蝴蝶的家(教學設計)-2024-2025學年統(tǒng)編版語文四年級上冊
- 美的購銷安裝合同范本
- 4 日月山川(教學設計)-2024-2025學年統(tǒng)編版語文一年級上冊
- 私人包車帶司機協(xié)議
- 租房協(xié)議書 租房協(xié)議書范本
- GB/T 43646-2024陸生野生動物廊道設計要求
- 吊籃施工風險分級管控與隱患排查治理(匯編)
- 內(nèi)蒙古呼和浩特市2023年中考歷史試題(附真題答案)
- 急診科護理帶教經(jīng)驗
- 涉警輿情培訓課件模板
- 2024年鄭州信息科技職業(yè)學院高職單招(英語/數(shù)學/語文)筆試歷年參考題庫含答案解析
- 學校保密教育培訓課件
- 班組文化是企業(yè)文化建設的核心
- Project-培訓教學課件
- 福建省服務區(qū)標準化設計指南
評論
0/150
提交評論