第六章 數(shù)據(jù)挖掘概述_第1頁(yè)
第六章 數(shù)據(jù)挖掘概述_第2頁(yè)
第六章 數(shù)據(jù)挖掘概述_第3頁(yè)
第六章 數(shù)據(jù)挖掘概述_第4頁(yè)
第六章 數(shù)據(jù)挖掘概述_第5頁(yè)
已閱讀5頁(yè),還剩49頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第六章數(shù)據(jù)挖掘概述本章內(nèi)容數(shù)據(jù)挖掘的由來數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘的基本概念數(shù)據(jù)挖掘的主要功能數(shù)據(jù)挖掘模型和實(shí)現(xiàn)流程數(shù)據(jù)挖掘應(yīng)用數(shù)據(jù)挖掘的由來網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn)數(shù)據(jù)爆炸但知識(shí)貧乏支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ)從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn)網(wǎng)絡(luò)時(shí)代面臨的信息問題:信息過量,難以消化;信息真假難以辨識(shí);信息安全難以保證;信息形式不一致,難以統(tǒng)一處理?!耙獙W(xué)會(huì)拋棄信息”

數(shù)據(jù)爆炸但知識(shí)貧乏數(shù)據(jù)庫(kù)的容量已達(dá)上萬億水平(T)--1,000,000,000,000個(gè)字節(jié)全球信息量以驚人的速度急劇增長(zhǎng)--據(jù)估計(jì),每二十個(gè)月將增加一倍。許多組織機(jī)構(gòu)的IT系統(tǒng)中都收集了大量的數(shù)據(jù)支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ)激發(fā)了數(shù)據(jù)挖掘的開發(fā)、應(yīng)用和研究的興趣的四個(gè)主要技術(shù)理由:超大規(guī)模數(shù)據(jù)庫(kù)的出現(xiàn),例如商業(yè)數(shù)據(jù)倉(cāng)庫(kù)和計(jì)算機(jī)自動(dòng)收集的數(shù)據(jù)記錄;強(qiáng)大的多處理器計(jì)算機(jī)。例如更快和更大的計(jì)算能力和并行體系結(jié)構(gòu);海量數(shù)據(jù)搜索,對(duì)巨大量數(shù)據(jù)的快速訪問;數(shù)據(jù)挖掘算法。

從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化進(jìn)化階段商業(yè)問題支持技術(shù)產(chǎn)品廠家產(chǎn)品特點(diǎn)數(shù)據(jù)搜集

(60年代)“過去五年中我的總收入是多少?”計(jì)算機(jī)、磁帶和磁盤IBM,CDC提供歷史性的、靜態(tài)的數(shù)據(jù)信息數(shù)據(jù)訪問

(80年代)“在新英格蘭的分部去年三月的銷售額是多少?”關(guān)系數(shù)據(jù)庫(kù)(RDBMS),結(jié)構(gòu)化查詢語(yǔ)言(SQL)、Sybase、Informix、IBMOracle、Sybase、Informix、IBM、Microsoft在記錄級(jí)提供歷史性、動(dòng)態(tài)數(shù)據(jù)信息數(shù)據(jù)倉(cāng)庫(kù);

決策支持

(90年代)“在新英格蘭的分部去年三月的銷售額是多少?波士頓據(jù)此可得出什么結(jié)論?”聯(lián)機(jī)分析處理(OLAP)、多維數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)Pilot、Comshare、Arbor、Cognos、Microstrategy在各種層次上提供回溯的、動(dòng)態(tài)的數(shù)據(jù)信息數(shù)據(jù)挖掘

(正在流行)“下個(gè)月波士頓的銷售會(huì)怎么樣?為什么?”高級(jí)算法、多處理器計(jì)算機(jī)、海量數(shù)據(jù)庫(kù)Pilot、Lockheed、IBM、SGI、其他初創(chuàng)公司提供預(yù)測(cè)性的信息數(shù)據(jù)挖掘(DataMining)的定義數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程?!布夹g(shù)角度的定義〕數(shù)據(jù)挖掘可以描述為:按企業(yè)既定業(yè)務(wù)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證己知的規(guī)律性,并進(jìn)一步將其模型化的有效方法?!采虡I(yè)角度的定義〕數(shù)據(jù)挖掘相近的同義詞包括:數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等。

數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)系統(tǒng)統(tǒng)計(jì)學(xué)其他學(xué)科算法機(jī)器學(xué)習(xí)可視化實(shí)施數(shù)據(jù)挖掘的目的不再是單純?yōu)榱搜芯?,更主要的是為商業(yè)決策提供真正有價(jià)值的信息,進(jìn)而獲得利潤(rùn)。所有企業(yè)面臨的一個(gè)共同問題是:企業(yè)數(shù)據(jù)量非常大,而其中真正有價(jià)值的信息卻很少,因此需要從大量的數(shù)據(jù)中經(jīng)過深層分析,獲得有利于商業(yè)運(yùn)作、提高競(jìng)爭(zhēng)力的信息,就像從礦石中淘金一樣,數(shù)據(jù)挖掘也由此而得名。數(shù)據(jù)挖掘的應(yīng)用數(shù)據(jù)分析和決策支持市場(chǎng)分析和管理目標(biāo)市場(chǎng),客戶關(guān)系管理(CRM),市場(chǎng)占有量分析,交叉銷售,市場(chǎng)分割風(fēng)險(xiǎn)分析和管理風(fēng)險(xiǎn)預(yù)測(cè),客戶保持,保險(xiǎn)業(yè)的改良,質(zhì)量控制,競(jìng)爭(zhēng)分析欺騙檢測(cè)和異常模式的監(jiān)測(cè)(孤立點(diǎn))其他的應(yīng)用文本挖掘(新聞組,電子郵件,文檔)和WEB挖掘流數(shù)據(jù)挖掘DNA和生物數(shù)據(jù)分析數(shù)據(jù)挖掘應(yīng)用——市場(chǎng)分析和管理(1)數(shù)據(jù)從那里來?信用卡交易,會(huì)員卡,商家的優(yōu)惠卷,消費(fèi)者投訴電話,公眾生活方式研究目標(biāo)市場(chǎng)構(gòu)建一系列的“客戶群模型”,這些顧客具有相同特征:興趣愛好,收入水平,消費(fèi)習(xí)慣,等等確定顧客的購(gòu)買模式交叉市場(chǎng)分析貨物銷售之間的相互聯(lián)系和相關(guān)性,以及基于這種聯(lián)系上的預(yù)測(cè)數(shù)據(jù)挖掘應(yīng)用——市場(chǎng)分析和管理(2)顧客分析哪類顧客購(gòu)買那種商品(聚類分析或分類預(yù)測(cè))客戶需求分析確定適合不同顧客的最佳商品預(yù)測(cè)何種因素能夠吸引新顧客提供概要信息多維度的綜合報(bào)告統(tǒng)計(jì)概要信息(數(shù)據(jù)的集中趨勢(shì)和變化)數(shù)據(jù)挖掘應(yīng)用——公司分析和風(fēng)險(xiǎn)管理財(cái)務(wù)計(jì)劃現(xiàn)金流轉(zhuǎn)分析和預(yù)測(cè)交叉區(qū)域分析和時(shí)間序列分析(財(cái)務(wù)資金比率,趨勢(shì)分析等等)資源計(jì)劃總結(jié)和比較資源和花費(fèi)競(jìng)爭(zhēng)對(duì)競(jìng)爭(zhēng)者和市場(chǎng)趨勢(shì)的監(jiān)控將顧客按等級(jí)分組和基于等級(jí)的定價(jià)過程將定價(jià)策略應(yīng)用于競(jìng)爭(zhēng)更激烈的市場(chǎng)中數(shù)據(jù)挖掘應(yīng)用——欺詐行為檢測(cè)和異常模式的發(fā)現(xiàn)方法:對(duì)欺騙行為進(jìn)行聚類和建模,并進(jìn)行孤立點(diǎn)分析應(yīng)用:衛(wèi)生保健、零售業(yè)、信用卡服務(wù)、電信等汽車保險(xiǎn):相撞事件的分析洗錢:發(fā)現(xiàn)可疑的貨幣交易行為醫(yī)療保險(xiǎn)職業(yè)病人,醫(yī)生以及相關(guān)數(shù)據(jù)分析不必要的或相關(guān)的測(cè)試電信:電話呼叫欺騙行為電話呼叫模型:呼叫目的地,持續(xù)時(shí)間,日或周呼叫次數(shù).分析該模型發(fā)現(xiàn)與期待標(biāo)準(zhǔn)的偏差零售產(chǎn)業(yè)分析師估計(jì)有38%的零售額下降是由于雇員的不誠(chéng)實(shí)行為造成的反恐怖主義其他應(yīng)用體育競(jìng)賽美國(guó)NBA的29個(gè)球隊(duì)中,有25個(gè)球隊(duì)使用了IBM分析機(jī)構(gòu)的數(shù)據(jù)挖掘工具,通過分析每個(gè)對(duì)手的數(shù)據(jù)(蓋帽、助攻、犯規(guī)等數(shù)據(jù))來獲得比賽時(shí)的對(duì)抗優(yōu)勢(shì)。天文學(xué)JPL實(shí)驗(yàn)室和Palomar天文臺(tái)就曾經(jīng)在數(shù)據(jù)挖掘工具的幫助下發(fā)現(xiàn)了22顆新的恒星網(wǎng)上沖浪通過將數(shù)據(jù)挖掘算法應(yīng)用于網(wǎng)絡(luò)訪問日志,從與市場(chǎng)相關(guān)的網(wǎng)頁(yè)中發(fā)現(xiàn)消費(fèi)者的偏愛和行為,分析網(wǎng)絡(luò)行銷的有效性,改善網(wǎng)絡(luò)站點(diǎn)組織。這就是新興的WEB挖掘研究數(shù)據(jù)挖掘的數(shù)據(jù)源與以前相比有了顯著的改變;數(shù)據(jù)是海量的;數(shù)據(jù)有噪聲;數(shù)據(jù)可能是非結(jié)構(gòu)化的;傳統(tǒng)的數(shù)據(jù)分析方法基于假設(shè)驅(qū)動(dòng)的:一般都是先給出一個(gè)假設(shè)然后通過數(shù)據(jù)驗(yàn)證數(shù)據(jù)挖掘在一定意義上是基于發(fā)現(xiàn)驅(qū)動(dòng)的:模式都是通過大量的搜索工作從數(shù)據(jù)中自動(dòng)提取出來。即數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識(shí),甚至是違背直覺的信息或知識(shí),挖掘出的信息越是出乎意料,就可能越有價(jià)值。數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析方法區(qū)別數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)

數(shù)據(jù)挖掘和OLAP完全不同的工具,基于的技術(shù)也大相徑庭OLAP基于用戶假設(shè)。whathappened〔查詢和報(bào)表工具是告訴你數(shù)據(jù)庫(kù)中都有什么〕whatnext〔OLAP更進(jìn)一步告訴你下一步會(huì)怎么樣〕whatif〔如果我采取這樣的措施又會(huì)怎么樣〕數(shù)據(jù)挖掘本質(zhì)上是一個(gè)歸納的過程,不是用于驗(yàn)證某個(gè)假定的模式(模型)的正確性,而是在數(shù)據(jù)庫(kù)中自己尋找模型。數(shù)據(jù)挖掘和OLAP有一定的互補(bǔ)性?;靖拍顢?shù)據(jù):是指一個(gè)有關(guān)事實(shí)F的集合(如學(xué)生檔案數(shù)據(jù)庫(kù)中有關(guān)學(xué)生基本情況的各條記錄),用來描述事物有關(guān)方面的信息。一般而言,這些數(shù)據(jù)都是準(zhǔn)確無誤的。信息:

是事物運(yùn)動(dòng)的狀態(tài)和狀態(tài)變化的方式。知識(shí)人們實(shí)踐經(jīng)驗(yàn)的結(jié)晶且為新的實(shí)踐所證實(shí)的;是關(guān)于事物運(yùn)動(dòng)的狀態(tài)和狀態(tài)變化的規(guī)律;是對(duì)信息加工提煉所獲得的抽象化產(chǎn)物。知識(shí)的形式可能是模式、關(guān)聯(lián)、變化、異常以及其他有意義的結(jié)構(gòu)。主要功能1.概念/類別描述(Concept/ClassDescription)

概念/類別描述是指對(duì)數(shù)據(jù)集做一個(gè)簡(jiǎn)潔的總體性描述并/或描述它與某一對(duì)照數(shù)據(jù)集的差別。例1:我們收集移動(dòng)電話費(fèi)月消費(fèi)額超出1000元的客戶資料,然后利用數(shù)據(jù)挖掘進(jìn)行分析,獲得這類客戶的總體性描述:35-50歲,有工作,月收入5000元以上,擁有良好的信用度…;

主要功能例2:對(duì)比移動(dòng)電話費(fèi)月消費(fèi)額超出1000元的客戶群與移動(dòng)電話費(fèi)月消費(fèi)額低于100元的客戶群。利用數(shù)據(jù)挖掘可作出如下描述:移動(dòng)電話月消費(fèi)額超出1000元的客戶80%以上年齡在35-50歲之間,且月收入5000元以上;而移動(dòng)電話月消費(fèi)額低于100元的客戶60%以上要么年齡過大要么年齡過小,且月收入2000元以下。主要功能2.關(guān)聯(lián)分析(AssociationAnalysis)

從一個(gè)項(xiàng)目集中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,該規(guī)則顯示了給定數(shù)據(jù)集中經(jīng)常一起出現(xiàn)的屬性-值條件元組。例如:關(guān)聯(lián)規(guī)則X=>Y所表達(dá)的含義是滿足X的數(shù)據(jù)庫(kù)元組很可能滿足Y。關(guān)聯(lián)分析在交易數(shù)據(jù)分析、支持定向市場(chǎng)、商品目錄設(shè)計(jì)和其他業(yè)務(wù)決策等方面有著廣泛的應(yīng)用。

主要功能3.分類與估值(ClassificationandEstimation)

分類指通過分析一個(gè)類別已知的數(shù)據(jù)集的特征來建立一組模型,該模型可用以預(yù)測(cè)類別未知的數(shù)據(jù)項(xiàng)的類別。該分類模型可以表現(xiàn)為多種形式:分類規(guī)則(IF-THEN),決策樹或者數(shù)學(xué)公式,乃至神經(jīng)網(wǎng)絡(luò)。估值與分類類似,只不過它要預(yù)測(cè)的不是類別,而是一個(gè)連續(xù)的數(shù)值。

主要功能4.聚類分析(ClusteringAnalysis)

聚類分析又稱為“同質(zhì)分組”或者“無監(jiān)督的分類”,指把一組數(shù)據(jù)分成不同的“簇”,每簇中的數(shù)據(jù)相似而不同簇間的數(shù)據(jù)則距離較遠(yuǎn)。相似性可以由用戶或者專家定義的距離函數(shù)加以度量。好的聚類方法應(yīng)保證不同類間數(shù)據(jù)的相似性盡可能地小,而類內(nèi)數(shù)據(jù)的相似性盡可能地大。

主要功能5.時(shí)間序列分析(Time-Series

Analysis)

時(shí)間序列分析即預(yù)測(cè)(Prediction),是指通過對(duì)大量時(shí)間序列數(shù)據(jù)的分析找到特定的規(guī)則和感興趣的特性,包括搜索相似序列或者子序列,挖掘序列模式、周期性、趨勢(shì)和偏差。預(yù)測(cè)的目的是對(duì)未來的情況作出估計(jì)。

主要功能6.其它功能

包括:偏差分析(DeviationAnalysis)、孤立點(diǎn)分析(OutlierAnalysis)等。隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,可能還會(huì)繼續(xù)出現(xiàn)新的數(shù)據(jù)挖掘功能。

所有模式都是有趣的嗎?數(shù)據(jù)挖掘可能產(chǎn)生數(shù)以千計(jì)的模式或規(guī)則,但并不是所有的模式或規(guī)則都是令人感興趣的。模式興趣度的度量一個(gè)模式是有趣的,如果(1)它易于被人理解;(2)在某種程度上,對(duì)于新的或測(cè)試數(shù)據(jù)是有效的;(3)具有潛在效用;(4)新穎的;(5)符合用戶確信的某種假設(shè)模式興趣度的客觀和主觀度量客觀度量:基于所發(fā)現(xiàn)模式的結(jié)構(gòu)和關(guān)于它們的統(tǒng)計(jì),比如:支持度、置信度等等主觀度量:基于用戶對(duì)數(shù)據(jù)的判斷。比如:出乎意料的、新穎的、可行動(dòng)的等等能夠產(chǎn)生所有有趣模式并且僅產(chǎn)生有趣模式嗎?找出所有有趣的模式:數(shù)據(jù)挖掘算法的完全性問題數(shù)據(jù)挖掘系統(tǒng)能夠產(chǎn)生所有有趣的模式嗎?試探搜索vs.窮舉搜索關(guān)聯(lián)vs.分類vs.聚類只搜索有趣的模式:數(shù)據(jù)挖掘算法的最優(yōu)化問題數(shù)據(jù)挖掘系統(tǒng)可以僅僅發(fā)現(xiàn)有趣的模式嗎?方法首先生成所有模式然后過濾那些無趣的.僅僅生成有趣的模式—挖掘查詢優(yōu)化數(shù)據(jù)挖掘模型CRISP-DM(CrossIndustryStandardProcessforDataMining)模型,最先在1996年被提出,當(dāng)前的白皮書版本是1.0。目的是把數(shù)據(jù)挖掘的過程標(biāo)準(zhǔn)化,使數(shù)據(jù)挖掘項(xiàng)目的實(shí)施速度更快、成本更低、更可靠并且更容易管理。業(yè)務(wù)理解(BusinessUnderstanding)階段確定業(yè)務(wù)目標(biāo):分析項(xiàng)目的背景,從業(yè)務(wù)視點(diǎn)分析項(xiàng)目的目標(biāo)和需求,確定業(yè)務(wù)角度的成功標(biāo)準(zhǔn);項(xiàng)目可行性分析:分析擁有的資源,條件和限制,風(fēng)險(xiǎn)估計(jì),成本和效益估計(jì);確定數(shù)據(jù)挖掘目標(biāo):明確確定數(shù)據(jù)挖掘的目標(biāo)和成功標(biāo)準(zhǔn),數(shù)據(jù)挖掘的目標(biāo)和業(yè)務(wù)目標(biāo)是不一樣的,前者指技術(shù)上的,例如生成一棵決策樹等;提出項(xiàng)目計(jì)劃:對(duì)整個(gè)項(xiàng)目做一個(gè)計(jì)劃,初步估計(jì)用到的工具和技術(shù)。

數(shù)據(jù)理解(DataUnderstanding)階段收集原始數(shù)據(jù):收集本項(xiàng)目所涉及到的數(shù)據(jù),如有必要,把數(shù)據(jù)裝入數(shù)據(jù)處理工具,并作一些初步的數(shù)據(jù)集成的工作,生成相應(yīng)報(bào)告;描述數(shù)據(jù):對(duì)數(shù)據(jù)做一些大致的描述,例如記錄數(shù)、屬性數(shù)等,給出相應(yīng)報(bào)告;探索數(shù)據(jù):對(duì)數(shù)據(jù)做簡(jiǎn)單的統(tǒng)計(jì)分析,例如關(guān)鍵屬性的分布等;檢查數(shù)據(jù)質(zhì)量:包括數(shù)據(jù)是否完整、數(shù)據(jù)是否有錯(cuò)、是否有缺失值等問題。

數(shù)據(jù)準(zhǔn)備(DataPreparation)階段數(shù)據(jù)選擇:根據(jù)數(shù)據(jù)挖掘目標(biāo)和數(shù)據(jù)質(zhì)量選擇合適的數(shù)據(jù),包括表的選擇、記錄選擇和屬性選擇;數(shù)據(jù)清潔:提高選擇好的數(shù)據(jù)的質(zhì)量,例如去除噪音,估計(jì)缺失值等;數(shù)據(jù)創(chuàng)建:在原有數(shù)據(jù)的基礎(chǔ)上是生成新的屬性或記錄;數(shù)據(jù)合并:利用表連接等方式將幾個(gè)數(shù)據(jù)集合并在一起;數(shù)據(jù)格式化:把數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)挖掘處理的格式。建立模型(Modeling)階段選擇建模技術(shù):確定數(shù)據(jù)挖掘算法和參數(shù),可能會(huì)利用多個(gè)算法;測(cè)試方案設(shè)計(jì):設(shè)計(jì)某種測(cè)試模型的質(zhì)量和有效性的機(jī)制;模型訓(xùn)練:在準(zhǔn)備好的數(shù)據(jù)集上運(yùn)行數(shù)據(jù)挖掘算法,得出一個(gè)或者多個(gè)模型;模型測(cè)試評(píng)估:根據(jù)測(cè)試方案進(jìn)行測(cè)試,從數(shù)據(jù)挖掘技術(shù)的角度確定數(shù)據(jù)挖掘目標(biāo)是否成功。

模型評(píng)估(Evaluation)階段結(jié)果評(píng)估:從商業(yè)角度評(píng)估得到的模型,甚至實(shí)際試用該模型測(cè)試其效果;過程回顧:回顧項(xiàng)目的所有流程,確定每一個(gè)階段都沒有失誤;確定下一步工作:根據(jù)結(jié)果評(píng)估和過程回顧得出的結(jié)論,確定是部署該挖掘模型還是從某個(gè)階段開始重新開始。

部署(Deployment)階段部署計(jì)劃:對(duì)在業(yè)務(wù)運(yùn)作中部署模型作出計(jì)劃;監(jiān)控和維護(hù)計(jì)劃:如何監(jiān)控模型在實(shí)際業(yè)務(wù)中的使用情況,如何維護(hù)該模型;作出最終報(bào)告:項(xiàng)目總結(jié),項(xiàng)目經(jīng)驗(yàn)和項(xiàng)目結(jié)果;項(xiàng)目回顧:回顧項(xiàng)目的實(shí)施過程,總結(jié)經(jīng)驗(yàn)教訓(xùn);對(duì)數(shù)據(jù)挖掘的運(yùn)行效果做一個(gè)預(yù)測(cè)。

數(shù)據(jù)挖掘模型為保證項(xiàng)目的可靠性和可管理性,CRISP-DM規(guī)定一個(gè)數(shù)據(jù)挖掘項(xiàng)目應(yīng)該產(chǎn)生11個(gè)報(bào)告:

業(yè)務(wù)理解報(bào)告原始數(shù)據(jù)收集報(bào)告數(shù)據(jù)描述報(bào)告數(shù)據(jù)探索報(bào)告數(shù)據(jù)質(zhì)量報(bào)告數(shù)據(jù)集描述報(bào)告模型訓(xùn)練報(bào)告模型評(píng)估報(bào)告部署計(jì)劃監(jiān)控和維護(hù)計(jì)劃總結(jié)報(bào)告通過這些報(bào)告,可以有效地控制數(shù)據(jù)挖掘項(xiàng)目進(jìn)程,減少開發(fā)風(fēng)險(xiǎn)。

實(shí)現(xiàn)流程各步驟之間互相影響、反復(fù)調(diào)整,形成一種螺旋式上升過程。數(shù)據(jù)準(zhǔn)備KDD的處理對(duì)象是大量的數(shù)據(jù),這些數(shù)據(jù)一般存儲(chǔ)在數(shù)據(jù)庫(kù)系統(tǒng)中,是長(zhǎng)期積累的結(jié)果。但往往不合適直接在這些數(shù)據(jù)上進(jìn)行知識(shí)挖掘,需要做一些準(zhǔn)備工作,也就數(shù)據(jù)的預(yù)處理。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)的選擇(選擇相關(guān)數(shù)據(jù))、凈化(消除噪音、冗余數(shù)據(jù))、推測(cè)(推算缺值數(shù)據(jù))、轉(zhuǎn)換(離散型數(shù)據(jù)與連續(xù)型數(shù)據(jù)之間的轉(zhuǎn)換)、數(shù)據(jù)縮減(減少數(shù)據(jù)量)等。數(shù)據(jù)準(zhǔn)備是KDD的第一個(gè)步驟,數(shù)據(jù)準(zhǔn)備得好壞將直接影響數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最終模式的有效性.。

數(shù)據(jù)挖掘數(shù)據(jù)挖掘是最為關(guān)鍵的步驟,它根據(jù)KDD的目標(biāo),選取相應(yīng)算法的參數(shù),分析數(shù)據(jù),得到可能形成知識(shí)的模式模型。目前采用較多的技術(shù)有決策樹、分類、聚類、粗糙集、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)、遺傳算法等。

模式的評(píng)估、解釋通過上面步驟所得到的模式,有可能是沒有意義或沒有實(shí)用價(jià)值的,因此需要評(píng)估,確定那些是有效的、有用的模式。此外,大部分模式是用數(shù)學(xué)手段描述的表達(dá)式,很難被人理解,還需要將其解釋成可理解的方式以呈現(xiàn)給用戶。

知識(shí)運(yùn)用發(fā)現(xiàn)知識(shí)是為了運(yùn)用,如何使知識(shí)能被運(yùn)用也是KDD的步驟之一。運(yùn)用知識(shí)有兩種方法:一種是只需看知識(shí)本身所描述的關(guān)系或結(jié)果,就可以對(duì)決策提供支持;一種是要求對(duì)新的數(shù)據(jù)運(yùn)用知識(shí),由此可能產(chǎn)生新的問題,而需要對(duì)知識(shí)做進(jìn)一步的優(yōu)化。KDD過程可能需要多次的循環(huán)反復(fù),每一個(gè)步驟一旦與預(yù)期目標(biāo)不符,都要回到前面的步驟,重新調(diào)整,重新執(zhí)行。實(shí)現(xiàn)流程數(shù)據(jù)挖掘過程的分步實(shí)現(xiàn),不同的步驟需要不同的專業(yè)人員參與完成,大體分為三類:1)業(yè)務(wù)分析人員:要求精通業(yè)務(wù),能夠解釋業(yè)務(wù)對(duì)象,并根據(jù)各業(yè)務(wù)對(duì)象確定出用于數(shù)據(jù)定義和挖掘算法的業(yè)務(wù)需求。2)數(shù)據(jù)分析人員:精通數(shù)據(jù)分析技術(shù),并對(duì)統(tǒng)計(jì)學(xué)有較熟練的掌握,有能力把業(yè)務(wù)需求轉(zhuǎn)化為數(shù)據(jù)挖掘的各步操作,并為每步操作選擇合適的技術(shù)。3)數(shù)據(jù)管理人員:精通數(shù)據(jù)管理技術(shù),并從數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中收集數(shù)據(jù)。數(shù)據(jù)挖掘是一個(gè)多領(lǐng)域?qū)<液献鞯倪^程,也是一個(gè)在資金上和技術(shù)上高投入的過程。數(shù)據(jù)挖掘過程要反復(fù)進(jìn)行,在反復(fù)過程中,不斷地趨近事物的本質(zhì),不斷地優(yōu)先問題的解決方案。體系結(jié)構(gòu):典型數(shù)據(jù)挖掘系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)清洗過濾數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器數(shù)據(jù)挖掘引擎模式評(píng)估圖形用戶界面知識(shí)庫(kù)數(shù)據(jù)集成在何種數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘關(guān)系數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)事務(wù)數(shù)據(jù)庫(kù)高級(jí)數(shù)據(jù)庫(kù)系統(tǒng)和信息庫(kù)空間數(shù)據(jù)庫(kù)時(shí)間數(shù)據(jù)庫(kù)和時(shí)間序列數(shù)據(jù)庫(kù)流數(shù)據(jù)多媒體數(shù)據(jù)庫(kù)面向?qū)ο髷?shù)據(jù)庫(kù)和對(duì)象-關(guān)系數(shù)據(jù)庫(kù)異種數(shù)據(jù)庫(kù)和遺產(chǎn)(legacy)數(shù)據(jù)庫(kù)文本數(shù)據(jù)庫(kù)和萬維網(wǎng)(WWW)空間數(shù)據(jù)庫(kù)空間數(shù)據(jù)庫(kù)是指在關(guān)系型數(shù)據(jù)庫(kù)(DBMS)內(nèi)部對(duì)地理信息進(jìn)行物理存儲(chǔ)??臻g數(shù)據(jù)庫(kù)中存儲(chǔ)的海量數(shù)據(jù)包括對(duì)象的空間拓?fù)涮卣鳌⒎强臻g屬性特征以及對(duì)象在時(shí)間上的狀態(tài)變化。常見的空間數(shù)據(jù)庫(kù)數(shù)據(jù)類型地理信息系統(tǒng)(GIS)遙感圖像數(shù)據(jù)醫(yī)學(xué)圖像數(shù)據(jù)數(shù)據(jù)挖掘技術(shù)的應(yīng)用:通過空間分類和空間趨勢(shì)分析,引入機(jī)器學(xué)習(xí)算法,對(duì)有用模式進(jìn)行智能檢索時(shí)間數(shù)據(jù)庫(kù)和時(shí)間序列數(shù)據(jù)庫(kù)時(shí)間數(shù)據(jù)庫(kù)和時(shí)間序列數(shù)據(jù)庫(kù)都存放與時(shí)間有關(guān)的數(shù)據(jù)。時(shí)間數(shù)據(jù)庫(kù)通常存放包含時(shí)間相關(guān)屬性的時(shí)間。時(shí)間序列數(shù)據(jù)庫(kù)存放隨時(shí)間變化的值序列。對(duì)時(shí)間數(shù)據(jù)庫(kù)和時(shí)間序列數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘,可以通過研究事物發(fā)生發(fā)展的過程,有助于揭示事物發(fā)展的本質(zhì)規(guī)律,可以發(fā)現(xiàn)數(shù)據(jù)對(duì)象的演變特征或?qū)ο笞兓厔?shì)。流數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)中的靜態(tài)數(shù)據(jù)不同,流數(shù)據(jù)是連續(xù)的、有序的、變化的、快速的、大量的數(shù)據(jù)輸入的數(shù)據(jù)。主要應(yīng)用場(chǎng)合網(wǎng)絡(luò)監(jiān)控網(wǎng)頁(yè)點(diǎn)擊流股票市場(chǎng)流媒體…等等與傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)相比,流數(shù)據(jù)在存儲(chǔ)、查詢、訪問、實(shí)時(shí)性的要求等方面都有很大區(qū)別。多媒體數(shù)據(jù)庫(kù)多媒體數(shù)據(jù)庫(kù)實(shí)現(xiàn)用計(jì)算機(jī)管理龐大復(fù)雜的多媒體數(shù)據(jù),主要包括包括圖形(graphics)、圖象(image)、聲音(audio)、視頻(video)等等,現(xiàn)代數(shù)據(jù)庫(kù)技術(shù)一般將這些多媒體數(shù)據(jù)以二進(jìn)制大對(duì)象的形式進(jìn)行存儲(chǔ)。對(duì)于多媒體數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘,需要將存儲(chǔ)和檢索技術(shù)相結(jié)合。目前的主要方法包括構(gòu)造多媒體數(shù)據(jù)立方體、多媒體數(shù)據(jù)庫(kù)的多特征提取和基于相似性的模式匹配。多媒體挖掘(MultimeadiaMining)基于描述的檢索系統(tǒng)基于圖像的描述創(chuàng)建索引并實(shí)現(xiàn)對(duì)象檢索,如關(guān)鍵字、標(biāo)題、尺寸和創(chuàng)建時(shí)間等;人工實(shí)現(xiàn)則極為費(fèi)時(shí)、費(fèi)力;自動(dòng)實(shí)現(xiàn)則往往結(jié)果不理想。

基于內(nèi)容的檢索系統(tǒng)支持基于圖像內(nèi)容的檢索,例如顏色、質(zhì)地、形狀、對(duì)象及小波變換C-BIRD:Content-BasedImageRetrievalfromDigitallibrariesSearchbyimagecolorsbycolorpercentagebycolorlayoutby

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論