版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、敖志剛 編制第6章 數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn) 敖志剛 編制第6章 數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn) 第6章 數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)61 數(shù)據(jù)挖掘的技術(shù)基礎(chǔ)611 數(shù)據(jù)挖掘的概念612 數(shù)據(jù)挖掘的功能和存在的主要問(wèn)題613 數(shù)據(jù)挖掘成功案例62 數(shù)據(jù)挖掘的方法步驟和語(yǔ)言工具621 數(shù)據(jù)挖掘的方法622 數(shù)據(jù)挖掘語(yǔ)言623 數(shù)據(jù)挖掘的工具624 數(shù)據(jù)挖掘的流程 第6章 數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)63 數(shù)據(jù)挖掘系統(tǒng)的組構(gòu)及管理策略631 數(shù)據(jù)挖掘系統(tǒng)的組成632 數(shù)據(jù)挖掘系統(tǒng)的架構(gòu)633 數(shù)據(jù)挖掘管理系統(tǒng)64 數(shù)據(jù)挖掘的研究與發(fā)展641 數(shù)據(jù)挖掘系統(tǒng)的開(kāi)發(fā)進(jìn)展642 數(shù)據(jù)挖掘未來(lái)研究方向 61 數(shù)據(jù)挖掘的技術(shù)基礎(chǔ) 611 數(shù)據(jù)挖掘
2、的概念1. 技術(shù)的產(chǎn)生面對(duì)信息社會(huì),人們積累的數(shù)據(jù)越來(lái)越多。激增的數(shù)據(jù)背后隱藏著許多重要信息,人們希望能對(duì)其進(jìn)行更高層次的分析。目前的數(shù)據(jù)庫(kù)系統(tǒng)可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,但無(wú)法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無(wú)法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)。缺乏挖掘數(shù)據(jù)背后隱藏的知識(shí)的手段,導(dǎo)致了“數(shù)據(jù)爆炸但知識(shí)貧乏”的現(xiàn)象。 2. 當(dāng)前數(shù)據(jù)特點(diǎn) 數(shù)據(jù)規(guī)模巨大; 數(shù)據(jù)分布存儲(chǔ); 數(shù)據(jù)來(lái)源廣; 數(shù)據(jù)特性未知; 數(shù)據(jù)包含不確定信息; 數(shù)據(jù)包含不安全信息; 數(shù)據(jù)日益增長(zhǎng)。 3. 數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘DM(Data Mining)也稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)KDD(Knowledge Discover
3、y in Database) 。數(shù)據(jù)挖掘就是通過(guò)采用自動(dòng)或半自動(dòng)的手段,對(duì)數(shù)據(jù)進(jìn)行一定的處理,從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,發(fā)現(xiàn)和提取有意義的、隱含在其中的、人們事先不知道的、但又是有效的、新穎的、潛在有用的、最終可被理解的信息和知識(shí)的過(guò)程。從另外一個(gè)方面來(lái)說(shuō),數(shù)據(jù)挖掘是從數(shù)據(jù)中自動(dòng)地抽取模式、關(guān)聯(lián)、變化、異常和有意義的結(jié)構(gòu)。與數(shù)據(jù)挖掘相近的同義詞有知識(shí)提取、數(shù)據(jù)融合、數(shù)據(jù)/模式分析、數(shù)據(jù)考古學(xué)、數(shù)據(jù)捕撈和信息收獲等等。此定義包括好幾層含義:數(shù)據(jù)源必須是真實(shí)的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識(shí);發(fā)現(xiàn)的知識(shí)要可接受、可理解、可運(yùn)用;并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)
4、的知識(shí),僅支持特定的發(fā)現(xiàn)問(wèn)題。4. 數(shù)據(jù)挖掘基本概念的區(qū)分 數(shù)據(jù)挖掘與傳統(tǒng)分析方法傳統(tǒng)的數(shù)據(jù)分析如查詢、報(bào)表、聯(lián)機(jī)應(yīng)用分析等數(shù)據(jù)挖掘是在沒(méi)有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí),所得到的信息應(yīng)具有先未知,有效和可實(shí)用三個(gè)特征。即數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺(jué)發(fā)現(xiàn)的信息或知識(shí),甚至是違背直覺(jué)的信息或知識(shí),挖掘出的信息越是出乎意料,就可能越有價(jià)值。 數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn) 知識(shí)發(fā)現(xiàn)被認(rèn)為是從數(shù)據(jù)中發(fā)現(xiàn)有用知識(shí)的整個(gè)過(guò)程,是用數(shù)據(jù)庫(kù)管理系統(tǒng)來(lái)存儲(chǔ)數(shù)據(jù),用機(jī)器學(xué)習(xí)的方法來(lái)分析數(shù)據(jù),挖掘大量數(shù)據(jù)背后隱藏的知識(shí)。知識(shí)發(fā)現(xiàn)研究的問(wèn)題有:定性知識(shí)和定量知識(shí)的發(fā)現(xiàn);知識(shí)發(fā)現(xiàn)方法;知識(shí)發(fā)現(xiàn)的應(yīng)用等。 數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)
5、庫(kù) 數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉(cāng)庫(kù)中拿到數(shù)據(jù)挖掘庫(kù)或數(shù)據(jù)集市中(見(jiàn)圖6-1)。數(shù)據(jù)挖掘庫(kù)是數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)邏輯上的子集,而不一定非得是物理上單獨(dú)的數(shù)據(jù)庫(kù)。建立一個(gè)巨大的數(shù)據(jù)倉(cāng)庫(kù),把各個(gè)不同源的數(shù)據(jù)統(tǒng)一在一起,解決所有的數(shù)據(jù)沖突問(wèn)題,然后把所有的數(shù)據(jù)導(dǎo)到一個(gè)數(shù)據(jù)倉(cāng)庫(kù)內(nèi),是一項(xiàng)巨大的工程,可能要用幾年的時(shí)間花上百萬(wàn)的錢(qián)才能完成。數(shù)據(jù)源數(shù)據(jù)挖掘庫(kù)數(shù)據(jù)源數(shù)據(jù)倉(cāng)庫(kù)各分公司數(shù)據(jù)集市分 析數(shù)據(jù)集市數(shù)據(jù)挖掘數(shù)據(jù)集市圖6-1 數(shù)據(jù)挖掘庫(kù)從數(shù)據(jù)倉(cāng)庫(kù)中得出圖6-2 數(shù)據(jù)挖掘庫(kù)從事務(wù)數(shù)據(jù)庫(kù)中得出 數(shù)據(jù)挖掘與信息處理 信息處理基于查詢,可以發(fā)現(xiàn)有用的信息。但是這種查詢的回答反映的是直接存放在數(shù)據(jù)庫(kù)中的信息。它們不反映復(fù)雜
6、的模式,或隱藏在數(shù)據(jù)庫(kù)中的規(guī)律。 數(shù)據(jù)挖掘與聯(lián)機(jī)分析(OLAP) OLAP分析過(guò)程在本質(zhì)上是一個(gè)演繹推理的過(guò)程,是決策支持領(lǐng)域的一部分。傳統(tǒng)的查詢和報(bào)表工具是告訴你數(shù)據(jù)庫(kù)中都有什么,OLAP則更進(jìn)一步告訴你下一步會(huì)怎么樣和如果采取這樣的措施又會(huì)怎么樣。用戶首先建立一個(gè)假設(shè),然后用OLAP檢索數(shù)據(jù)庫(kù)來(lái)驗(yàn)證這個(gè)假設(shè)是否正確。數(shù)據(jù)挖掘在本質(zhì)上是一個(gè)歸納推理的過(guò)程,與OLAP不同的地方是,數(shù)據(jù)挖掘不是用于驗(yàn)證某個(gè)假定的模式(模型)的正確性,而是在數(shù)據(jù)庫(kù)中自己尋找模型。數(shù)據(jù)挖掘和OLAP具有一定的互補(bǔ)性。在利用數(shù)據(jù)挖掘出來(lái)的結(jié)論采取行動(dòng)之前,OLAP工具能起輔助決策作用。而且在知識(shí)發(fā)現(xiàn)的早期階段,OLA
7、P工具用來(lái)探索數(shù)據(jù),找到哪些是對(duì)一個(gè)問(wèn)題比較重要的變量,發(fā)現(xiàn)異常數(shù)據(jù)和互相影響的變量。 數(shù)據(jù)挖掘與人工智能、統(tǒng)計(jì)學(xué) 數(shù)據(jù)挖掘是統(tǒng)計(jì)分析方法學(xué)的延伸和擴(kuò)展。大多數(shù)的統(tǒng)計(jì)分析技術(shù)都基于完善的數(shù)學(xué)理論和高超的技巧,預(yù)測(cè)的準(zhǔn)確度還是令人滿意的,但對(duì)使用者的要求很高。數(shù)據(jù)挖掘就是充分利用了統(tǒng)計(jì)學(xué)和人工智能技術(shù)的應(yīng)用程序,并把這些高深復(fù)雜的技術(shù)封裝起來(lái),使人們不用自己掌握這些技術(shù)也能完成同樣的功能,并且更專(zhuān)注于自己所要解決的問(wèn)題。數(shù)據(jù)挖掘分析海量數(shù)據(jù)。許多數(shù)據(jù)庫(kù)都不適合統(tǒng)計(jì)學(xué)分析需要。 5. 數(shù)據(jù)挖掘系統(tǒng)的分類(lèi) 根據(jù)數(shù)據(jù)模型分類(lèi),可以分為有關(guān)系的、事務(wù)的、面向?qū)ο蟮?、?duì)象-關(guān)系的、或數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘系統(tǒng)
8、。 根據(jù)所處理的數(shù)據(jù)的特定類(lèi)型分類(lèi),可以分為有空間的、時(shí)間序列的、文本的、或多媒體的數(shù)據(jù)挖掘系統(tǒng),或WWW 數(shù)據(jù)挖掘系統(tǒng)。 根據(jù)數(shù)據(jù)挖掘的功能,可以分為特征、區(qū)分、關(guān)聯(lián)、聚類(lèi)、局外者、趨勢(shì)和演化分析、偏差分析、類(lèi)似性分析等數(shù)據(jù)挖掘系統(tǒng)。 根據(jù)所挖掘的知識(shí)的粒度或抽象層進(jìn)行區(qū)分,包括泛化知識(shí)(在高抽象層)、原始層知識(shí)(在原始數(shù)據(jù)層)或多層知識(shí)(考慮若干抽象層)。一個(gè)先進(jìn)的數(shù)據(jù)挖掘系統(tǒng)應(yīng)當(dāng)支持多抽象層的知識(shí)發(fā)現(xiàn)。 5. 數(shù)據(jù)挖掘系統(tǒng)的分類(lèi) 根據(jù)所用的技術(shù)分類(lèi):這些技術(shù)可以根據(jù)用戶交互程度(例如,自動(dòng)系統(tǒng)、交互探查系統(tǒng)、查詢驅(qū)動(dòng)系統(tǒng)),或所用的數(shù)據(jù)分析方法(例如,面向數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)的技術(shù),機(jī)器學(xué)習(xí)
9、、統(tǒng)計(jì)、可視化、模式識(shí)別、神經(jīng)網(wǎng)絡(luò)等等)描述。 根據(jù)挖掘任務(wù)可以分為:分類(lèi)或預(yù)測(cè)模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)與聚類(lèi)發(fā)現(xiàn)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、相似模式發(fā)現(xiàn)、混沌模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢(shì)發(fā)現(xiàn)等。 根據(jù)挖掘?qū)ο罂梢苑譃椋宏P(guān)系型數(shù)據(jù)庫(kù)挖掘、面向?qū)ο髷?shù)據(jù)庫(kù)挖掘、空間數(shù)據(jù)庫(kù)挖掘、時(shí)態(tài)數(shù)據(jù)庫(kù)挖掘、文本數(shù)據(jù)源挖掘、多媒體數(shù)據(jù)庫(kù)挖掘、異質(zhì)數(shù)據(jù)庫(kù)挖掘、遺產(chǎn)數(shù)據(jù)庫(kù)挖掘、Web數(shù)據(jù)庫(kù)挖掘。6. 數(shù)據(jù)挖掘的來(lái)源一般情況下,數(shù)據(jù)挖掘在關(guān)系數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、事務(wù)數(shù)據(jù)庫(kù)、高級(jí)數(shù)據(jù)庫(kù)系統(tǒng)和信息庫(kù)四種數(shù)據(jù)庫(kù)上進(jìn)行。 關(guān)系數(shù)據(jù)庫(kù)關(guān)系數(shù)據(jù)庫(kù)是表的集合,每個(gè)表都賦予一個(gè)唯一的名字。每個(gè)表包含一組屬性(列或字段),并通
10、常存放大量元組(記錄或行)。語(yǔ)義數(shù)據(jù)模型,如實(shí)體-聯(lián)系(ER)數(shù)據(jù)模型,將數(shù)據(jù)庫(kù)作為一組實(shí)體和它們之間的聯(lián)系進(jìn)行建模。通常為關(guān)系數(shù)據(jù)庫(kù)構(gòu)造ER模型。 數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)集成的、面向主題的、設(shè)計(jì)用于決策支持功能的數(shù)據(jù)庫(kù)的集合,數(shù)據(jù)中的每一個(gè)數(shù)據(jù)單元在時(shí)間上都是和某個(gè)時(shí)刻相關(guān)的。 一般來(lái)講,數(shù)據(jù)倉(cāng)庫(kù)都很巨大,它存儲(chǔ)了幾百萬(wàn)條記錄。在很多情況下,一個(gè)組織可能有幾個(gè)局部或部門(mén)的數(shù)據(jù)倉(cāng)庫(kù),這常常叫做數(shù)據(jù)集市。 數(shù)據(jù)倉(cāng)庫(kù)包括以下的數(shù)據(jù)類(lèi)別:過(guò)去細(xì)節(jié)數(shù)據(jù);當(dāng)前(新)細(xì)節(jié)數(shù)據(jù);輕度綜合數(shù)據(jù);高度綜合數(shù)據(jù);元數(shù)據(jù)(數(shù)據(jù)目錄或向?qū)?。 事務(wù)數(shù)據(jù)庫(kù) 事務(wù)數(shù)據(jù)庫(kù)由一個(gè)文件組成,其中每個(gè)記錄代表一個(gè)事務(wù)。通常,一個(gè)
11、事務(wù)包含一個(gè)唯一的事務(wù)標(biāo)識(shí)號(hào)(trans_ID),和一個(gè)組成事務(wù)的項(xiàng)的列表(如,在商店購(gòu)買(mǎi)的商品)。事務(wù)數(shù)據(jù)庫(kù)可能有一些與之相關(guān)聯(lián)的附加表,包含關(guān)于銷(xiāo)售的其它信息,如事務(wù)的日期、顧客的ID號(hào)、銷(xiāo)售者的ID號(hào)、銷(xiāo)售分店等等。 高級(jí)數(shù)據(jù)庫(kù)系統(tǒng)和信息庫(kù) 高級(jí)數(shù)據(jù)庫(kù)系統(tǒng)和信息庫(kù)包含以下6個(gè)方面: 空間數(shù)據(jù)庫(kù); 時(shí)間數(shù)據(jù)庫(kù)和時(shí)間序列數(shù)據(jù)庫(kù); 流數(shù)據(jù); 多媒體數(shù)據(jù)庫(kù); 面向?qū)ο髷?shù)據(jù)庫(kù)和對(duì)象-關(guān)系數(shù)據(jù)庫(kù); 異種數(shù)據(jù)庫(kù)和歷史(legacy)數(shù)據(jù)庫(kù); 文本數(shù)據(jù)庫(kù)和萬(wàn)維網(wǎng)(WWW)。7. 數(shù)據(jù)挖掘研究?jī)?nèi)容和知識(shí)類(lèi)型主要研究?jī)?nèi)容基礎(chǔ)理論、各種挖掘算法和挖掘語(yǔ)言、數(shù)據(jù)倉(cāng)庫(kù)、可視化技術(shù)、定性定量互換模型、智能計(jì)算和軟計(jì)
12、算在數(shù)據(jù)挖掘中的應(yīng)用、知識(shí)表示方法、發(fā)現(xiàn)知識(shí)的維護(hù)和再利用、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中的知識(shí)發(fā)現(xiàn)、網(wǎng)絡(luò)數(shù)據(jù)挖掘以及對(duì)已有知識(shí)的維護(hù)和再利用等。所發(fā)現(xiàn)的類(lèi)型:即廣義知識(shí)、概括性描述知識(shí)、關(guān)聯(lián)知識(shí)、分類(lèi)知識(shí)、預(yù)測(cè)型知識(shí)、偏差型知識(shí)。 8. 數(shù)據(jù)挖掘的應(yīng)用 電信 :客戶群體劃分、客戶流失性分析、客戶信用記分、篩選因特網(wǎng)上的新聞; 銀行:聚類(lèi)(細(xì)分)、交叉銷(xiāo)售、數(shù)據(jù)庫(kù)營(yíng)銷(xiāo)、背景分析; 百貨公司/超市:購(gòu)物籃分析 (關(guān)聯(lián)規(guī)則)、預(yù)測(cè)準(zhǔn)客戶的需要; 保險(xiǎn):細(xì)分,交叉銷(xiāo)售,流失(原因分析)、欺詐發(fā)現(xiàn); 信用卡: 欺詐探測(cè),細(xì)分; 電子商務(wù):網(wǎng)站日志分析; 稅務(wù)部門(mén):偷漏稅行為探測(cè); 警察機(jī)關(guān):犯罪行為分析;
13、醫(yī)學(xué): 醫(yī)療保健。 6.1.2 數(shù)據(jù)挖掘的功能和主要問(wèn)題1. 數(shù)據(jù)挖掘的功能 自動(dòng)預(yù)測(cè)趨勢(shì)和行為。如市場(chǎng)預(yù)測(cè)、預(yù)報(bào)破產(chǎn)等。 關(guān)聯(lián)分析。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng)。 聚類(lèi)。數(shù)據(jù)庫(kù)中的記錄可被化分為一系列有意義的子集,即聚類(lèi)。聚類(lèi)技術(shù)主要包括傳統(tǒng)的模式識(shí)別方法和數(shù)學(xué)分類(lèi)學(xué)。 概念描述。就是對(duì)某類(lèi)對(duì)象的內(nèi)涵進(jìn)行描述,并概括這類(lèi)對(duì)象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類(lèi)對(duì)象的共同特征,后者描述不同類(lèi)對(duì)象之間的區(qū)別。生成區(qū)別性描述的方法很多,如決策樹(shù)方法、遺傳算法等。 偏差檢
14、測(cè)。偏差包括很多潛在的知識(shí),如分類(lèi)中的反常實(shí)例、不滿足規(guī)則的特例、觀測(cè)結(jié)果與模型預(yù)測(cè)值的偏差、量值隨時(shí)間的變化等。偏差檢測(cè)的基本方法是,尋找觀測(cè)結(jié)果與參照值之間有意義的差別。2. 實(shí)施數(shù)據(jù)挖掘項(xiàng)目要考慮的問(wèn)題 超大規(guī)模數(shù)據(jù)庫(kù)和高維數(shù)據(jù)問(wèn)題; 數(shù)據(jù)丟失問(wèn)題; 變化的數(shù)據(jù)和知識(shí)問(wèn)題; 模式的易懂性問(wèn)題; 非標(biāo)準(zhǔn)格式的數(shù)據(jù)、多媒體數(shù)據(jù)、面向?qū)ο髷?shù)據(jù)處理問(wèn)題; 與其他系統(tǒng)的集成問(wèn)題; 網(wǎng)絡(luò)與分布式環(huán)境下的KDD問(wèn)題; 個(gè)人隱私問(wèn)題。 3. 數(shù)據(jù)挖掘存在的主要問(wèn)題 數(shù)據(jù)挖掘技術(shù)和用戶界面問(wèn)題。 在數(shù)據(jù)庫(kù)中挖掘不同類(lèi)型的知識(shí)。 多個(gè)抽象層的交互知識(shí)挖掘。 結(jié)合背景知識(shí)。 數(shù)據(jù)挖掘查詢語(yǔ)言和特定的數(shù)據(jù)挖掘。
15、 數(shù)據(jù)挖掘結(jié)果的表示和顯示。 處理噪音和不完全數(shù)據(jù)。 模式評(píng)估興趣度問(wèn)題。 3. 數(shù)據(jù)挖掘存在的主要問(wèn)題 性能問(wèn)題。 數(shù)據(jù)挖掘算法的有效性和可規(guī)模性。即對(duì)于大型數(shù)據(jù)庫(kù),數(shù)據(jù)挖掘算法的運(yùn)行時(shí)間必須是可預(yù)計(jì)的和可接受的。 并行、分布和增量挖掘算法:許多數(shù)據(jù)庫(kù)的大容量、數(shù)據(jù)的廣泛分布和一些數(shù)據(jù)挖掘算法的計(jì)算復(fù)雜性是促使開(kāi)發(fā)并行和分布式數(shù)據(jù)挖掘算法的因素。這些算法將數(shù)據(jù)劃分成部分,這些部分可以并行處理,然后合并每部分的結(jié)果。此外,有些數(shù)據(jù)挖掘過(guò)程的高花費(fèi)導(dǎo)致了對(duì)增量數(shù)據(jù)挖掘算法的需要。增量算法與數(shù)據(jù)庫(kù)更新結(jié)合在一起,而不必重新挖掘全部數(shù)據(jù)。3. 數(shù)據(jù)挖掘存在的主要問(wèn)題 關(guān)于數(shù)據(jù)庫(kù)類(lèi)型的多樣性問(wèn)題: 關(guān)
16、系的和復(fù)雜的數(shù)據(jù)類(lèi)型的處理:數(shù)據(jù)庫(kù)可能包含復(fù)雜的數(shù)據(jù)對(duì)象、超文本和多媒體數(shù)據(jù)、空間數(shù)據(jù)、時(shí)間數(shù)據(jù)、或事務(wù)數(shù)據(jù)。對(duì)于不同類(lèi)型的數(shù)據(jù),應(yīng)該有不同的數(shù)據(jù)挖掘系統(tǒng)。 由異種數(shù)據(jù)庫(kù)和全球信息系統(tǒng)挖掘信息:從具有不同數(shù)據(jù)語(yǔ)義的結(jié)構(gòu)的、半結(jié)構(gòu)的、和無(wú)結(jié)構(gòu)的不同數(shù)據(jù)源發(fā)現(xiàn)知識(shí),對(duì)數(shù)據(jù)挖掘提出了巨大挑戰(zhàn)。Web 挖掘發(fā)現(xiàn)關(guān)于Web 連接、Web 使用和Web 動(dòng)態(tài)情況的有趣知識(shí),已經(jīng)成為數(shù)據(jù)挖掘的一個(gè)非常具有挑戰(zhàn)性的領(lǐng)域。此外,超大規(guī)模數(shù)據(jù)庫(kù)和高維數(shù)據(jù)問(wèn)題;數(shù)據(jù)丟失問(wèn)題;變化的數(shù)據(jù)和知識(shí)問(wèn)題;模式的易懂性問(wèn)題;非標(biāo)準(zhǔn)格式的數(shù)據(jù)、多媒體數(shù)據(jù)、面向?qū)ο髷?shù)據(jù)處理問(wèn)題;與其他系統(tǒng)的集成問(wèn)題;網(wǎng)絡(luò)與分布式環(huán)境下的KDD問(wèn)
17、題;個(gè)人隱私問(wèn)題也是數(shù)據(jù)挖掘項(xiàng)目應(yīng)該考慮的問(wèn)題。 613 數(shù)據(jù)挖掘成功案例1. 雅虎數(shù)據(jù)挖掘成功案例 閱讀郵件和閱讀新聞的相關(guān)性一個(gè)例子雅虎電子郵箱。通過(guò)對(duì)用戶使用行為的意外模式分析,發(fā)現(xiàn)在每次會(huì)話中,人們閱讀郵件和閱讀新聞的行為之間存在很強(qiáng)的相關(guān)關(guān)系。研究人員把這個(gè)發(fā)現(xiàn)傳達(dá)給雅虎電子郵箱產(chǎn)品小組,他們首先想到的就是驗(yàn)證這種關(guān)系的影響。 即時(shí)通信對(duì)雅虎通的使用情況進(jìn)行了分析,結(jié)果發(fā)現(xiàn),最重要的因素是讓用戶擴(kuò)大他們的“好友列表”,至少增加5個(gè)新的好友。據(jù)此雅虎精心設(shè)計(jì)了相應(yīng)的營(yíng)銷(xiāo)活動(dòng),鼓勵(lì)用戶增加好友列表中的好友數(shù)。 雅虎首頁(yè)的搜索框一個(gè)簡(jiǎn)單的例子就是發(fā)現(xiàn),在雅虎的首頁(yè)上,把搜索框放在居中的位置
18、(而不是以前的左側(cè))將提高用戶的用量。這個(gè)結(jié)果是首先發(fā)現(xiàn)Netscape瀏覽器的用戶比IE的用戶更多地使用了搜索功能。2. NBA數(shù)據(jù)挖掘成功案例今天,NBA的教練有了他們的新式武器:數(shù)據(jù)挖掘。大約20個(gè)NBA球隊(duì)使用了IBM公司開(kāi)發(fā)的數(shù)據(jù)挖掘應(yīng)用軟件Advanced Scout系統(tǒng)來(lái)優(yōu)化他們的戰(zhàn)術(shù)組合。例如Scout就因?yàn)檠芯苛四g(shù)隊(duì)隊(duì)員不同的布陣安排,在與邁阿密熱隊(duì)的比賽中找到了獲勝的機(jī)會(huì)。Advanced Scout是一個(gè)數(shù)據(jù)分析工具,教練可以用便攜式電腦在家里或在路上挖掘存儲(chǔ)在NBA中心的服務(wù)器上的數(shù)據(jù)。每一場(chǎng)比賽的事件都被統(tǒng)計(jì)分類(lèi),按得分、助攻、失誤等等。時(shí)間標(biāo)記讓教練非常容易地通過(guò)
19、搜索NBA比賽的錄像來(lái)理解統(tǒng)計(jì)發(fā)現(xiàn)的含義。例如:教練通過(guò)Advanced Scout發(fā)現(xiàn)本隊(duì)的球員在與對(duì)方一個(gè)球星對(duì)抗時(shí)有犯規(guī)紀(jì)錄,他可以在對(duì)方球星與這個(gè)隊(duì)員“頭碰頭”的瞬間分解雙方接觸的動(dòng)作,進(jìn)而設(shè)計(jì)合理的防守策略。3. 商業(yè)銀行數(shù)據(jù)挖掘成功案例例如,美國(guó)Firstar銀行等使用的Marksman數(shù)據(jù)挖掘工具,能讀取800到1000個(gè)變量并且給它們賦值,可以根據(jù)消費(fèi)者的家庭貸款、賒帳卡、儲(chǔ)蓄、投資產(chǎn)品等,將客戶分類(lèi),進(jìn)而預(yù)測(cè)何時(shí)向哪類(lèi)客戶提供哪種產(chǎn)品 。Mellon銀行使用智能代理數(shù)據(jù)挖掘軟件提高銷(xiāo)售和定價(jià)金融產(chǎn)品的精確度,如家庭普通貸款。Mellon銀行銷(xiāo)售部在先期數(shù)據(jù)挖掘項(xiàng)目上使用智能代
20、理尋找信息,主要目的是確定現(xiàn)有Mellon用戶購(gòu)買(mǎi)特定附加產(chǎn)品:家庭普通信貸限額的傾向,利用該工具可生成用于檢測(cè)的模型。智能代理可幫助用戶增強(qiáng)其商業(yè)智能,如交往、分類(lèi)或回歸分析,依賴這些能力,可對(duì)那些有較高傾向購(gòu)買(mǎi)銀行產(chǎn)品、服務(wù)產(chǎn)品和服務(wù)的客戶進(jìn)行有目的的推銷(xiāo)。4. 沃爾瑪?shù)慕?jīng)典案例 一般看來(lái),啤酒和尿布是顧客群完全不同的商品。但是沃爾瑪一年內(nèi)數(shù)據(jù)挖掘的結(jié)果顯示,在居民區(qū)中尿布賣(mài)得好的店面啤酒也賣(mài)得很好。原因其實(shí)很簡(jiǎn)單,一般太太讓先生下樓買(mǎi)尿布的時(shí)候,先生們一般都會(huì)犒勞自己兩瓶啤酒。因此啤酒和尿布一起購(gòu)買(mǎi)的機(jī)會(huì)是最多的。這是一個(gè)現(xiàn)代商場(chǎng)智能化信息分析系統(tǒng)發(fā)現(xiàn)的秘密。這個(gè)故事被公認(rèn)是商業(yè)領(lǐng)域數(shù)據(jù)
21、挖掘的誕生。 62 數(shù)據(jù)挖掘的方法步驟和語(yǔ)言工具 621 數(shù)據(jù)挖掘的方法 分析和預(yù)測(cè)方法。數(shù)據(jù)挖掘中大量采用統(tǒng)計(jì)分析方法,如描述統(tǒng)計(jì)、概率論、回歸分析(線性回歸、非線性回歸、多元回歸、泊松回歸、對(duì)數(shù)回歸)、時(shí)間序列分析、多元分析等。 粗糙集。把那些無(wú)法確認(rèn)的個(gè)體都?xì)w屬于邊界線區(qū)域,而這種邊界線區(qū)域被定義為上近似集和下近似集之差集。粗糙集理論主要特點(diǎn)在于它恰好反映了人們用粗糙集方法處理不分明問(wèn)題的常規(guī)性,即以不完全信息或知識(shí)去處理一些不分明現(xiàn)象的能力,或依據(jù)觀察、度量到的某些不精確的結(jié)果而進(jìn)行分類(lèi)數(shù)據(jù)的能力。 621 數(shù)據(jù)挖掘的方法 模糊集。模糊集合論用隸屬程度來(lái)描述差異的中間過(guò)渡,是一種用精確
22、的數(shù)學(xué)語(yǔ)言對(duì)模糊性進(jìn)行描述的方法。定義:論域X=x上的模糊集合A由隸屬函數(shù)A(x)來(lái)表征。其中A(x)在實(shí)軸的閉區(qū)間0,1中取值,A(x)的大小反映x對(duì)于模糊集合A的隸屬程度。 A(x)的值接近1,表示x隸屬于A的程度很高。 A(x)的值接近0,表示x隸屬于A的程度很低。特例,當(dāng)A的值域取0,1閉區(qū)間的兩個(gè)端點(diǎn),亦即0和1兩個(gè)值時(shí),A便退化為一個(gè)普通的邏輯子集。隸屬函數(shù)也就退化為普通邏輯值。 621 數(shù)據(jù)挖掘的方法 聚類(lèi)分析。聚類(lèi)是對(duì)物理的或抽象的對(duì)象集合分組的過(guò)程。聚類(lèi)生成的組為簇,簇是數(shù)據(jù)對(duì)象的集合。簇內(nèi)部任意兩個(gè)對(duì)象之間具有較高的相似度,而屬于不同簇的兩個(gè)對(duì)象間具有較高的相異度。 主要方
23、法有:劃分的方法、層次的方法、基于密度的方法、基于網(wǎng)格的方法、基于模型的方法。 關(guān)聯(lián)規(guī)則。它反映一個(gè)事物與其它事物之間的相互依存性和關(guān)聯(lián)性,如果兩個(gè)事物或者多個(gè)事物之間存在一定的關(guān)聯(lián)關(guān)系,那么其中一個(gè)事物就能夠通過(guò)其他事物預(yù)測(cè)到。 發(fā)現(xiàn)關(guān)聯(lián)規(guī)則需經(jīng)如下兩步: 找出所有頻繁項(xiàng); 由頻繁項(xiàng)集生成滿足最小信任度閾值的規(guī)則。 621 數(shù)據(jù)挖掘的方法 決策樹(shù)。它首先通過(guò)一批已知的訓(xùn)練數(shù)據(jù)建立一棵決策樹(shù),然后采用建好的決策樹(shù)對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)。常用的方法有分類(lèi)及回歸樹(shù)法、卡方自動(dòng)交互探測(cè)法等。 人工神經(jīng)網(wǎng)絡(luò)。一種模仿人腦思考結(jié)構(gòu)的數(shù)據(jù)分析模式,由輸入變量或數(shù)值中自我學(xué)習(xí)并根據(jù)學(xué)習(xí)經(jīng)驗(yàn)所得的知識(shí)不斷調(diào)整參數(shù),以
24、期得到資料的模式。它可以對(duì)大量復(fù)雜的數(shù)據(jù)進(jìn)行分析,并能完成對(duì)人腦或計(jì)算機(jī)來(lái)說(shuō)極為復(fù)雜的模式抽取及趨勢(shì)分析。比較典型的學(xué)習(xí)方法是回溯法。通過(guò)將輸出結(jié)果同一些已知值進(jìn)行一系列比較,加權(quán)值不斷調(diào)整,得到一個(gè)新的輸出值,再經(jīng)過(guò)不斷的學(xué)習(xí)過(guò)程,最后該神經(jīng)網(wǎng)絡(luò)得到一個(gè)穩(wěn)定的結(jié)果。 多媒體數(shù)據(jù)挖掘。就是通過(guò)綜合分析多媒體數(shù)據(jù)的內(nèi)容和語(yǔ)義,從大量多媒體數(shù)據(jù)中發(fā)現(xiàn)隱含的、有效的、有價(jià)值的、可理解的模式,得出事件的發(fā)展趨向和關(guān)聯(lián)關(guān)系。 621 數(shù)據(jù)挖掘的方法 數(shù)據(jù)可視化。可視化工具可以通過(guò)適當(dāng)?shù)膱D形來(lái)表示數(shù)據(jù),并支持多維數(shù)據(jù)的可視化,為數(shù)據(jù)分析人員提供很好的幫助。有些工具甚至提供動(dòng)畫(huà)功能。 遺傳算法。它應(yīng)用算法的
25、適應(yīng)函數(shù)來(lái)決定搜索的方向,運(yùn)用一些擬生物化的人工運(yùn)算過(guò)程進(jìn)行一代一代的周而復(fù)始的演化,求得一個(gè)最佳結(jié)果。 近鄰算法。依據(jù)“Do as your neighbors do”的原則,相鄰數(shù)據(jù)必然有相同的屬性或行為。Knearest鄰居方法的含義為:K表示某個(gè)特定數(shù)據(jù)的K個(gè)鄰居,可以通過(guò)K個(gè)鄰居的平均數(shù)據(jù)來(lái)預(yù)測(cè)該特定數(shù)據(jù)的某個(gè)屬性或行為。621 數(shù)據(jù)挖掘的方法 連機(jī)分析處理。簡(jiǎn)稱OLAP,是基于大型數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)的信息分析過(guò)程和用戶接口部分,其目的是滿足決策支持或多維環(huán)境特定的查詢和報(bào)表要求。OLAP主要是對(duì)用戶當(dāng)前及歷史數(shù)據(jù)進(jìn)行分析,輔助決策。其典型的應(yīng)用有對(duì)銀行信用卡風(fēng)險(xiǎn)的分析與預(yù)測(cè)等,主要是
26、進(jìn)行大量的查詢操作,對(duì)時(shí)間的要求不太嚴(yán)格。 多層次數(shù)據(jù)概化歸納:數(shù)據(jù)庫(kù)中的數(shù)據(jù)和對(duì)象經(jīng)常包含原始概念層上的詳細(xì)信息,將一個(gè)數(shù)據(jù)集合歸納成高概念層次信息的數(shù)據(jù)挖掘技術(shù)被稱為數(shù)據(jù)概化。概念匯總將數(shù)據(jù)庫(kù)中的相關(guān)數(shù)據(jù)由低概念層抽象到高概念層,主要有數(shù)據(jù)立方體和面向?qū)傩詢煞N方法。622 數(shù)據(jù)挖掘語(yǔ)言 數(shù)據(jù)挖掘語(yǔ)言的研究經(jīng)歷了兩個(gè)階段,第一個(gè)階段成果包括DMQL、MSQL和MINE RULE操作器等。第二階段主要包括數(shù)據(jù)挖掘組織協(xié)會(huì)(DMG)提出的預(yù)言模型標(biāo)記語(yǔ)言PMML,以及微軟公司提出的OLE DB for Data Mining規(guī)范。 根據(jù)功能和側(cè)重點(diǎn)不同,可將數(shù)據(jù)挖掘分為三種類(lèi)型:數(shù)據(jù)挖掘查詢語(yǔ)言
27、、數(shù)據(jù)挖掘建模語(yǔ)言、通用數(shù)據(jù)挖掘語(yǔ)言。第一階段的數(shù)據(jù)挖掘語(yǔ)言一般屬于查詢語(yǔ)言;PMML屬于建模語(yǔ)言;OLE DB for DM屬于通用數(shù)據(jù)挖掘語(yǔ)言。下面我們分別介紹其特點(diǎn)和功能。 1. 數(shù)據(jù)挖掘查詢語(yǔ)言 數(shù)據(jù)挖掘查詢語(yǔ)言DMQL(Data Mining Query Language)由數(shù)據(jù)挖掘原語(yǔ)組成,該原語(yǔ)用來(lái)定義一個(gè)數(shù)據(jù)挖掘任務(wù)。這些原語(yǔ)有以下幾個(gè)種類(lèi):數(shù)據(jù)庫(kù)一部分的規(guī)范以及用戶感興趣的數(shù)據(jù)集(包括感興趣的數(shù)據(jù)庫(kù)屬性或數(shù)據(jù)倉(cāng)庫(kù)的維度);挖掘知識(shí)的種類(lèi);在指導(dǎo)挖掘過(guò)程中有用的背景知識(shí);模式估值的興趣度測(cè)量;以及挖掘出的知識(shí)如何可視化表示。數(shù)據(jù)挖掘原語(yǔ)允許用戶在挖掘過(guò)程中從不同的角度或深度與數(shù)
28、據(jù)挖掘系統(tǒng)進(jìn)行交互式地通信。1. 數(shù)據(jù)挖掘查詢語(yǔ)言 五種基本的數(shù)據(jù)挖掘原語(yǔ)定義: 任務(wù)相關(guān)數(shù)據(jù)原語(yǔ)。用戶感興趣的數(shù)據(jù)集,及表中感興趣的屬性。包括:數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)的名稱;數(shù)據(jù)庫(kù)表或數(shù)據(jù)倉(cāng)庫(kù)的立方體;數(shù)據(jù)選擇的條件;相關(guān)屬性或維;數(shù)據(jù)分組定義。 被挖掘知識(shí)的種類(lèi)原語(yǔ)。該原語(yǔ)指定被執(zhí)行的數(shù)據(jù)挖掘的功能,分為五類(lèi):特征規(guī)則、辨別規(guī)則、關(guān)聯(lián)規(guī)則、分類(lèi)/預(yù)言、聚集。 背景知識(shí)原語(yǔ)。用戶能夠指定的背景知識(shí)。包括:概念層次、對(duì)數(shù)據(jù)關(guān)系的用戶信任度。 興趣度測(cè)量原語(yǔ)。這個(gè)功能是將不感興趣的模式從知識(shí)中排除出去。低于用戶指定的支持度和可信度閾值的規(guī)則被認(rèn)為是不感興趣的。興趣度測(cè)量原語(yǔ)包括:簡(jiǎn)單性、確定性(比如:
29、可信度)、效用、新穎性等。 被發(fā)現(xiàn)模式的表示和可視化原語(yǔ)。這個(gè)原語(yǔ)定義被發(fā)現(xiàn)的模式顯示的方式,用戶能夠選擇不同的知識(shí)表示形式。包括:規(guī)則、表格、報(bào)告、圖表、圖形、決策樹(shù)和立方體、向下鉆入和向上累積。 1. 數(shù)據(jù)挖掘查詢語(yǔ)言 除了DMQL以外,還有一些其它數(shù)據(jù)挖掘查詢語(yǔ)言。比如基于SQL的多媒體查詢語(yǔ)言(MSQL)使用了類(lèi)似SQL的語(yǔ)法和SQL原語(yǔ)(包括排序、分組、和其它原語(yǔ)),能在數(shù)據(jù)挖掘中可能產(chǎn)生大量的規(guī)則。 MSQL提供了一個(gè)稱作GetRule和SelectRule的原語(yǔ),用于規(guī)則產(chǎn)生和規(guī)則選擇。它統(tǒng)一地對(duì)待數(shù)據(jù)和規(guī)則,因此,能夠在執(zhí)行數(shù)據(jù)選擇,以及基于查詢的規(guī)則產(chǎn)生時(shí)進(jìn)行優(yōu)化工作,同時(shí)也
30、能在操縱或者查詢產(chǎn)生規(guī)則的集合時(shí)進(jìn)行優(yōu)化。其它在數(shù)據(jù)挖掘語(yǔ)言設(shè)計(jì)方面的研究工作包括MINE RULE操作器。它同樣遵循類(lèi)似SQL的語(yǔ)法,是為挖掘關(guān)聯(lián)規(guī)則設(shè)計(jì)的規(guī)則產(chǎn)生查詢語(yǔ)言。 2. 數(shù)據(jù)挖掘建模語(yǔ)言 預(yù)言模型標(biāo)記語(yǔ)言PMML(Predictive Model Markup Language)PMML主要目的是允許應(yīng)用程序和聯(lián)機(jī)分析處理(OLAP)工具能從數(shù)據(jù)挖掘系統(tǒng)獲得模型,而不用獨(dú)自開(kāi)發(fā)數(shù)據(jù)挖掘模塊。另一個(gè)目的是能夠收集使用大量潛在的模型,并且統(tǒng)一管理各種模型的集合。PMML是一種基于擴(kuò)展性標(biāo)識(shí)語(yǔ)言(XML)的語(yǔ)言,用來(lái)定義預(yù)言模型。通過(guò)使用XML解析器,應(yīng)用程序能夠決定模型輸入和輸出的數(shù)
31、據(jù)類(lèi)型、模型詳細(xì)的格式,并且按照標(biāo)準(zhǔn)的數(shù)據(jù)挖掘術(shù)語(yǔ)來(lái)解釋模型的結(jié)果。 PMML對(duì)于那些需要全部學(xué)習(xí)、部分學(xué)習(xí)和分布式學(xué)習(xí)的應(yīng)用程序,這種語(yǔ)言被證明是非常有用的。特別地,PMML非常適合部分學(xué)習(xí)、元學(xué)習(xí)、分布式學(xué)習(xí)、以及相關(guān)領(lǐng)域。使用PMML進(jìn)行模型定義由以下幾部分組成: 頭文件;數(shù)據(jù)模式;數(shù)據(jù)挖掘模式;預(yù)言模型模式;預(yù)言模型定義;全體模型定義;選擇和聯(lián)合模型和全體模型的規(guī)則;異常處理的規(guī)則。3. 通用數(shù)據(jù)挖掘語(yǔ)言 通用數(shù)據(jù)挖掘語(yǔ)言合并了上述兩種語(yǔ)言的特點(diǎn),既具有定義模型的功能,又能作為查詢語(yǔ)言與數(shù)據(jù)挖掘系統(tǒng)通信,進(jìn)行交互和特殊的挖掘。 OLE DB for DM歸類(lèi)成通用數(shù)據(jù)挖掘語(yǔ)言。 OLE
32、 DB for DM的規(guī)范包括創(chuàng)建原語(yǔ)以及許多重要數(shù)據(jù)挖掘模型的定義和使用。它是一個(gè)基于SQL預(yù)言的協(xié)議,為軟件商和應(yīng)用開(kāi)發(fā)人員提供了一個(gè)開(kāi)放的接口。OLE DB for DM擴(kuò)充了SQL語(yǔ)言語(yǔ)法,使得商業(yè)分析和開(kāi)發(fā)人員只是調(diào)用單一確定的API(應(yīng)用程序接口)函數(shù)即可實(shí)現(xiàn)數(shù)據(jù)挖掘功能,而不需要特殊的數(shù)據(jù)挖掘技能。 OLE DB for DM定義了重要的新的概念和特點(diǎn),包括如下幾點(diǎn): 數(shù)據(jù)挖掘模型DMM(Data Mining Model)。 預(yù)言聯(lián)接操作。 OLE DB for DM模式行集合。 623 數(shù)據(jù)挖掘的工具 1. 數(shù)據(jù)挖掘工具分類(lèi)數(shù)據(jù)挖掘工具根據(jù)其適用的范圍分為兩類(lèi):專(zhuān)用數(shù)據(jù)挖掘工
33、具和通用數(shù)據(jù)挖掘工具。專(zhuān)用數(shù)據(jù)挖掘工具是針對(duì)某個(gè)特定領(lǐng)域的問(wèn)題提供解決方案,采用的是特殊的算法,可以處理特殊的數(shù)據(jù),實(shí)現(xiàn)特殊的目的,并作了優(yōu)化;而通用數(shù)據(jù)挖掘工具不區(qū)分具體數(shù)據(jù)的含義,采用通用的挖掘算法,處理常見(jiàn)的數(shù)據(jù)類(lèi)型,可以做多種模式的挖掘,挖掘什么和用什么來(lái)挖掘都由用戶根據(jù)自己的應(yīng)用來(lái)選擇。 2. 數(shù)據(jù)挖掘工具的選擇根據(jù)以下幾點(diǎn)選擇數(shù)據(jù)挖掘工具: 數(shù)據(jù)挖掘的功能性。 數(shù)據(jù)挖掘工具的可伸縮性。 操作的簡(jiǎn)易性。 數(shù)據(jù)挖掘工具的可視化。 數(shù)據(jù)挖掘工具的開(kāi)放性。另外對(duì)數(shù)據(jù)挖掘工具還應(yīng)考慮是否有多種模式、多種算法、多種校驗(yàn)方法,是否有較好的數(shù)據(jù)選擇和轉(zhuǎn)換、較好的操作性能和數(shù)據(jù)存取能力、接口功能的好
34、壞等。 3. 數(shù)據(jù)挖掘工具介紹 QUESTQUEST是IBM公司Almaden研究中心開(kāi)發(fā)的一個(gè)多任務(wù)數(shù)據(jù)挖掘系統(tǒng),系統(tǒng)具有如下特點(diǎn): 提供了專(zhuān)門(mén)在大型數(shù)據(jù)庫(kù)上進(jìn)行各種開(kāi)采的功能:關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、時(shí)間序列聚類(lèi)、決策樹(shù)分類(lèi)、遞增式主動(dòng)開(kāi)采等。 各種開(kāi)采算法具有近似線性計(jì)算復(fù)雜度,可適用于任意大小的數(shù)據(jù)庫(kù)。 算法具有找全性,即能將所有滿足指定類(lèi)型的模式全部尋找出來(lái)。 為各種發(fā)現(xiàn)功能設(shè)計(jì)了相應(yīng)的并行算法。3. 數(shù)據(jù)挖掘工具介紹 MineSetMineSet是由SGI公司和美國(guó)Standford大學(xué)聯(lián)合開(kāi)發(fā)的多任務(wù)數(shù)據(jù)挖掘系統(tǒng)。MineSet集成多種數(shù)據(jù)挖掘算法和可視化工具,幫助用戶直觀地
35、、實(shí)時(shí)地發(fā)掘、理解大量數(shù)據(jù)背后的知識(shí)。MineSet有如下特點(diǎn): MineSet以先進(jìn)的可視化顯示方法聞名于世。 支持多種關(guān)系數(shù)據(jù)庫(kù)。可以直接從Oracle、Informix、Sybase的表讀取數(shù)據(jù),也可以通過(guò)SQL命令執(zhí)行查詢。 多種數(shù)據(jù)轉(zhuǎn)換功能。 操作簡(jiǎn)單、支持國(guó)際字符、可以直接發(fā)布到Web。3. 數(shù)據(jù)挖掘工具介紹 DBMinerDBMiner是加拿大SimonFraser大學(xué)開(kāi)發(fā)的一個(gè)多任務(wù)數(shù)據(jù)挖掘系統(tǒng)。設(shè)計(jì)目的是把關(guān)系數(shù)據(jù)庫(kù)和數(shù)據(jù)開(kāi)采集成在一起,以面向?qū)傩缘亩嗉?jí)概念為基礎(chǔ)發(fā)現(xiàn)各種知識(shí)。DBMiner系統(tǒng)具有如下特色: 能完成多種知識(shí)的發(fā)現(xiàn):泛化規(guī)則、特性規(guī)則、關(guān)聯(lián)規(guī)則、分類(lèi)規(guī)則、演化
36、知識(shí)、偏離知識(shí)等。 綜合了多種數(shù)據(jù)開(kāi)采技術(shù):面向?qū)傩缘臍w納、統(tǒng)計(jì)分析、逐級(jí)深化發(fā)現(xiàn)多級(jí)規(guī)則、元規(guī)則引導(dǎo)發(fā)現(xiàn)等方法。 提出了一種交互式的類(lèi)SQL語(yǔ)言數(shù)據(jù)開(kāi)采查詢語(yǔ)言DMQL。 能與關(guān)系數(shù)據(jù)庫(kù)平滑集成。 實(shí)現(xiàn)了基于客戶/服務(wù)器體系結(jié)構(gòu)的Unix和PC(Windows/NT)版本的系統(tǒng)。 3. 數(shù)據(jù)挖掘工具介紹 Intelligent Miner由美國(guó)IBM公司開(kāi)發(fā)的數(shù)據(jù)挖掘軟件Intelligent Miner是一種分別面向數(shù)據(jù)庫(kù)和文本信息進(jìn)行數(shù)據(jù)挖掘的軟件系列,它包括Intelligent Miner for Data和Intelligent Miner for Text。前者可以挖掘包含在數(shù)據(jù)
37、庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)中心中的隱含信息,幫助用戶利用傳統(tǒng)數(shù)據(jù)庫(kù)或普通文件中的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘。它已經(jīng)成功應(yīng)用于市場(chǎng)分析、詐騙行為監(jiān)測(cè)及客戶聯(lián)系管理等;后者允許企業(yè)從文本信息進(jìn)行數(shù)據(jù)挖掘,文本數(shù)據(jù)源可以是文本文件、Web頁(yè)面、電子郵件、Lotus Notes數(shù)據(jù)庫(kù)等等。3. 數(shù)據(jù)挖掘工具介紹 SAS Enterprise Miner這是一種在我國(guó)的企業(yè)中得到采用的數(shù)據(jù)挖掘工具,比較典型的包括上海寶鋼配礦系統(tǒng)應(yīng)用和鐵路部門(mén)在春運(yùn)客運(yùn)研究中的應(yīng)用。SAS Enterprise Miner是一種通用的數(shù)據(jù)挖掘工具,按照抽樣-探索-轉(zhuǎn)換-建模-評(píng)估的方法進(jìn)行數(shù)據(jù)挖掘??梢耘cSAS數(shù)據(jù)倉(cāng)庫(kù)和OLAP集成
38、,實(shí)現(xiàn)從提出數(shù)據(jù)、抓住數(shù)據(jù)到得到解答的端到端知識(shí)發(fā)現(xiàn)。3. 數(shù)據(jù)挖掘工具介紹 SPSS ClementineSPSS Clementine是一個(gè)開(kāi)放式數(shù)據(jù)挖掘工具,不但支持整個(gè)數(shù)據(jù)挖掘流程,從數(shù)據(jù)獲取、轉(zhuǎn)化、建模、評(píng)估到最終部署的全部過(guò)程,還支持?jǐn)?shù)據(jù)挖掘的行業(yè)標(biāo)準(zhǔn)-CRISP-DM。Clementine提供了多種圖形化技術(shù),有助理解數(shù)據(jù)間的關(guān)鍵性聯(lián)系,指導(dǎo)用戶以最便捷的途徑找到問(wèn)題的最終解決辦法。其它常用的數(shù)據(jù)挖掘工具還有LEVEL5 Quest 、MineSet (SGI) 、Partek 、SE-Learn 、SPSS 的數(shù)據(jù)挖掘軟件Snob、Ashraf Azmy 的SuperQuery
39、 、WINROSA 、XmdvTool 等。624 數(shù)據(jù)挖掘的流程1. 數(shù)據(jù)挖掘環(huán)境人們可以對(duì)大型數(shù)據(jù)庫(kù)中先前未知的數(shù)據(jù)進(jìn)行分析、研究、變換、篩選、過(guò)濾、綜合和預(yù)處理??梢酝ㄟ^(guò)可視化的工具對(duì)挖掘出的規(guī)律和模式進(jìn)行解釋、評(píng)價(jià)和驗(yàn)證,用戶可能要使用各類(lèi)可視化工具來(lái)顯示有關(guān)數(shù)據(jù) 。數(shù)據(jù)庫(kù)數(shù)據(jù)挖掘工具可視化工具圖6-3 數(shù)據(jù)挖掘環(huán)境示意圖2. 數(shù)據(jù)挖掘的過(guò)程圖6-4 數(shù)據(jù)挖掘的基本過(guò)程和主要步驟3. 數(shù)據(jù)挖掘需要的人員 數(shù)據(jù)挖掘在不同的階段需要有不同專(zhuān)長(zhǎng)的人員,他們大體可以分為以下三類(lèi): 業(yè)務(wù)分析人員:要求精通業(yè)務(wù),能夠解釋業(yè)務(wù)對(duì)象,并根據(jù)各業(yè)務(wù)對(duì)象確定出用于數(shù)據(jù)定義和挖掘算法的業(yè)務(wù)需求。 數(shù)據(jù)分析人
40、員:精通數(shù)據(jù)分析技術(shù),并對(duì)統(tǒng)計(jì)學(xué)有較熟練的掌握,有能力把業(yè)務(wù)需求轉(zhuǎn)化為數(shù)據(jù)挖掘的各步操作,并為每步操作選擇合適的技術(shù)。 數(shù)據(jù)管理人員:精通數(shù)據(jù)管理技術(shù),并從數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中收集數(shù)據(jù)。 63 數(shù)據(jù)挖掘系統(tǒng)的組構(gòu)及管理策略 數(shù)據(jù)挖掘系統(tǒng)的組成 數(shù)據(jù)清理 數(shù)據(jù)集成數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù) 庫(kù)數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器數(shù)據(jù)挖掘引擎模式評(píng)估圖形用戶界面知識(shí)庫(kù)過(guò)濾圖6-5 數(shù)據(jù)挖掘的系統(tǒng)組成數(shù)據(jù)挖掘邏輯模型 挖掘系統(tǒng)管理器DB接口數(shù)據(jù)選擇挖掘引擎抽取算法評(píng)價(jià)發(fā)現(xiàn)描述知 識(shí) 庫(kù)數(shù)據(jù)庫(kù)分析員輸入領(lǐng)域知識(shí)發(fā)現(xiàn)圖6-6 數(shù)據(jù)挖掘邏輯模型數(shù)據(jù)挖掘系統(tǒng)的架構(gòu) 用戶接口挖掘管理器用戶轉(zhuǎn)換器挖掘向?qū)J胶Y選各種形式的知識(shí)挖掘內(nèi)核分類(lèi)方法聚類(lèi)方法關(guān)聯(lián)分析可視化方法其他數(shù)據(jù)挖掘方法模式表達(dá)與解釋
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 高考物理總復(fù)習(xí)專(zhuān)題七電場(chǎng)第1講庫(kù)侖定律、電場(chǎng)強(qiáng)度、電場(chǎng)線練習(xí)含答案
- 專(zhuān)業(yè)混凝土分包合同范本
- 《平衡計(jì)分卡培訓(xùn)》課件
- 高中數(shù)學(xué) 2.2 直線的方程 2.2.3.1 兩條直線相交、平行與重合的條件教案 新人教B版必修2
- 八年級(jí)物理下冊(cè) 第九章 機(jī)械和功 第三節(jié) 功教案 (新版)北師大版
- 六年級(jí)品德與社會(huì)上冊(cè) 科學(xué)技術(shù)的另一面教案 泰山版
- 高中數(shù)學(xué) 1.1.2 空間向量的數(shù)量積運(yùn)算教學(xué)設(shè)計(jì) 新人教A版選擇性必修第一冊(cè)
- 2024年六年級(jí)品社下冊(cè)《讓科學(xué)技術(shù)走進(jìn)生活》教案1 冀教版
- 廚房管理規(guī)章制度
- 租借手機(jī)的合同(2篇)
- 北師大版二年級(jí)數(shù)學(xué)上冊(cè)《數(shù)學(xué)好玩》(大單元教學(xué)設(shè)計(jì))
- 當(dāng)代社會(huì)政策分析 課件 第13、14章 反貧困社會(huì)政策、公益慈善政策
- 人防疏散基地建設(shè)技術(shù)標(biāo)準(zhǔn) DG-TJ08-2419-2023
- 工程項(xiàng)目移交方案
- 醫(yī)學(xué)檢驗(yàn)技術(shù)生涯規(guī)劃
- 2024時(shí)事政治必考試題庫(kù)(預(yù)熱題)
- 數(shù)字貨幣的經(jīng)濟(jì)影響
- 醫(yī)療技術(shù)操作規(guī)范制度及流程
- 《經(jīng)濟(jì)法基礎(chǔ)》教案
- 戶外直播知識(shí)競(jìng)賽答題附答案
- 手術(shù)室溫暖的護(hù)士
評(píng)論
0/150
提交評(píng)論