商務(wù)智能-Chapter03-DataMining Overview學(xué)習(xí)課件_第1頁
商務(wù)智能-Chapter03-DataMining Overview學(xué)習(xí)課件_第2頁
商務(wù)智能-Chapter03-DataMining Overview學(xué)習(xí)課件_第3頁
商務(wù)智能-Chapter03-DataMining Overview學(xué)習(xí)課件_第4頁
商務(wù)智能-Chapter03-DataMining Overview學(xué)習(xí)課件_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

商務(wù)智能伍章俊智能商務(wù)研究所wuzhangjun@2025/2/27?

TheInstituteofBusinessIntelligence,HFUT2/37第三章數(shù)據(jù)挖掘概述1.DM背景和定義2.DM功能和過程3.DM現(xiàn)狀和發(fā)展趨勢2025/2/27?

TheInstituteofBusinessIntelligence,HFUT3/37背景

數(shù)據(jù)挖掘是八十年代投資AI研究項目失敗后,AI轉(zhuǎn)入實際應(yīng)用時提出的。它是一個新興的,面向商業(yè)應(yīng)用的AI研究。(AI(ArtificialIntelligence,人工智能))1989年8月,在美國底特律召開的第11屆國際人工智能聯(lián)合會議的專題討論會上首次出現(xiàn)數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD)這一術(shù)語。隨后,在1991年、1993年和1994年都舉行KDD專題討論會,匯集來自各個領(lǐng)域的研究人員和應(yīng)用開發(fā)者,集中討論數(shù)據(jù)統(tǒng)計、海量數(shù)據(jù)分析算法、知識表示、知識運用等問題。最初,數(shù)據(jù)挖掘是作為KDD中利用算法處理數(shù)據(jù)的一個步驟,其后逐漸演變成KDD的同義詞。2025/2/27?

TheInstituteofBusinessIntelligence,HFUT4/37背景

現(xiàn)在,人們往往不加區(qū)別地使用兩者。KDD常常被稱為數(shù)據(jù)挖掘(DataMining),實際兩者是有區(qū)別的。一般將KDD中進行知識學(xué)習(xí)的階段稱為數(shù)據(jù)挖掘(DataMining),數(shù)據(jù)挖掘是KDD中一個非常重要的處理步驟。數(shù)據(jù)挖掘是近年來出現(xiàn)的客戶關(guān)系管理(CustomerRelationshipManagement,CRM)、商業(yè)智能(BusinessIntelligence,BI)等熱點領(lǐng)域的核心技術(shù)之一。2025/2/27?

TheInstituteofBusinessIntelligence,HFUT5/37技術(shù)角度定義數(shù)據(jù)挖掘(DataMining)是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。與數(shù)據(jù)挖掘相近的同義詞包括:數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等。這一定義包括好幾層含義:數(shù)據(jù)源必須是真實的、海量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識;發(fā)現(xiàn)的知識要可接受、可理解、可運用;并不要求發(fā)現(xiàn)放之四海皆準的知識,僅支持特定的發(fā)現(xiàn)問題。2025/2/27?

TheInstituteofBusinessIntelligence,HFUT6/37商業(yè)角度定義數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性信息。簡言之,數(shù)據(jù)挖掘其實是一類深層次的數(shù)據(jù)分析方法。因此,數(shù)據(jù)挖掘可以描述為:按企業(yè)既定業(yè)務(wù)目標,對大量的企業(yè)數(shù)據(jù)進行探索和分析,揭示隱藏的、未知的或驗證己知的規(guī)律性,并進一步將其模型化的有效方法。2025/2/27?

TheInstituteofBusinessIntelligence,HFUT7/37DataminingcontextBusinessintelligencemodelLevelsofdataanalysismethodhiddenshallowsurfacesimpledatabasequeriesstatisticalanalysis

datamining

2025/2/27?

TheInstituteofBusinessIntelligence,HFUT8/37數(shù)據(jù)挖掘的演化進化階段商業(yè)問題支持技術(shù)產(chǎn)品廠家產(chǎn)品特點數(shù)據(jù)搜集

(60年代)“過去五年中我的總收入是多少?”計算機、磁帶和磁盤IBM,CDC提供歷史性的、靜態(tài)的數(shù)據(jù)信息數(shù)據(jù)訪問

(80年代)“在新英格蘭的分部去年三月的銷售額是多少?”關(guān)系數(shù)據(jù)庫(RDBMS),結(jié)構(gòu)化查詢語言(SQL),ODBCOracle、Sybase、Informix、IBM、MicrosoftOracle、Sybase、Informix、IBM、Microsoft在記錄級提供歷史性的、動態(tài)數(shù)據(jù)信息數(shù)據(jù)倉庫;

決策支持

(90年代)“在新英格蘭的分部去年三月的銷售額是多少?波士頓據(jù)此可得出什么結(jié)論?”聯(lián)機分析處理(OLAP)、多維數(shù)據(jù)庫、數(shù)據(jù)倉庫Pilot、Comshare、Arbor、Cognos、Microstrategy在各種層次上提供回溯的、動態(tài)的數(shù)據(jù)信息數(shù)據(jù)挖掘

(正在流行)“下個月波士頓的銷售會怎么樣?為什么?”高級算法、多處理器計算機、海量數(shù)據(jù)庫Pilot、Lockheed、IBM、SGI、其他初創(chuàng)公司提供預(yù)測性的信息2025/2/27?

TheInstituteofBusinessIntelligence,HFUT9/37數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系DataMiningDatabaseTechnologyStatisticsOtherDisciplinesInformationScienceMachineLearningVisualization2025/2/27?

TheInstituteofBusinessIntelligence,HFUT10/37數(shù)據(jù)挖掘與統(tǒng)計學(xué)的關(guān)系近幾年,人們逐漸發(fā)現(xiàn)數(shù)據(jù)挖掘中有許多工作都是由統(tǒng)計方法來完成的。甚至有些人(尤其是統(tǒng)計學(xué)家)認為數(shù)據(jù)挖掘是統(tǒng)計學(xué)的一個分支,當然大多數(shù)人(包括絕大多數(shù)數(shù)據(jù)挖掘研究人員)并不這么認為。但是,統(tǒng)計學(xué)和數(shù)據(jù)挖掘的目標非常相似,而且數(shù)據(jù)挖掘中的許多算法也源于數(shù)理統(tǒng)計,統(tǒng)計學(xué)對數(shù)據(jù)挖掘發(fā)展的貢獻功不可沒。2025/2/27?

TheInstituteofBusinessIntelligence,HFUT11/37數(shù)據(jù)挖掘與傳統(tǒng)統(tǒng)計學(xué)的關(guān)系(1)數(shù)據(jù)挖掘的數(shù)據(jù)源與以前相比有了顯著的改變;數(shù)據(jù)是海量的;數(shù)據(jù)有噪聲;數(shù)據(jù)可能是非結(jié)構(gòu)化的;(2)傳統(tǒng)的數(shù)據(jù)分析方法一般都是先給出一個假設(shè)然后通過數(shù)據(jù)驗證,在一定意義上是假設(shè)驅(qū)動的;與之相反,數(shù)據(jù)挖掘在一定意義上是發(fā)現(xiàn)驅(qū)動的,模式都是通過大量的搜索工作從數(shù)據(jù)中自動提取出來。即數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識,甚至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越有價值。2025/2/27?

TheInstituteofBusinessIntelligence,HFUT12/37數(shù)據(jù)挖掘與傳統(tǒng)統(tǒng)計學(xué)的關(guān)系在缺乏強有力的數(shù)據(jù)分析工具而不能分析這些資源的情況下,歷史數(shù)據(jù)庫也就變成了“數(shù)據(jù)墳?zāi)埂保锩娴臄?shù)據(jù)幾乎不再被訪問。

也就是說,極有價值的信息被“淹沒”在海量數(shù)據(jù)堆中,領(lǐng)導(dǎo)者決策時還只能憑自己的經(jīng)驗和直覺。因此改進原有的數(shù)據(jù)分析方法,使之能夠智能地處理海量數(shù)據(jù),即演化為數(shù)據(jù)挖掘。2025/2/27?

TheInstituteofBusinessIntelligence,HFUT13/37國外數(shù)據(jù)挖掘的現(xiàn)狀

IEEE的KnowledgeandDataEngineering會刊率先在1993年出版了KDD技術(shù)??2⑿杏嬎恪⒂嬎銠C網(wǎng)絡(luò)和信息工程等其他領(lǐng)域的國際學(xué)會、學(xué)刊也把數(shù)據(jù)挖掘和知識發(fā)現(xiàn)列為專題和專刊討論。數(shù)據(jù)挖掘已經(jīng)成了國際學(xué)術(shù)研究的重要熱點之一。此外,在Internet上還有不少KDD電子出版物,其中以半月刊KnowledgeDiscoveryNuggets最為權(quán)威(/subscribe.html)。在網(wǎng)上還有許多自由論壇,如DMEmailClub等。2025/2/27?

TheInstituteofBusinessIntelligence,HFUT14/37國外數(shù)據(jù)挖掘的現(xiàn)狀2025/2/27?

TheInstituteofBusinessIntelligence,HFUT15/37國外數(shù)據(jù)挖掘的現(xiàn)狀自1989年KDD術(shù)語出現(xiàn)以來,由美國人工智能協(xié)會主辦的KDD國際研討會已經(jīng)召開了10次以上,規(guī)模由原來的專題討論會發(fā)展到國際學(xué)術(shù)大會。而亞太地區(qū)也從1997開始舉行PAKDD年會。2025/2/27?

TheInstituteofBusinessIntelligence,HFUT16/37國內(nèi)數(shù)據(jù)挖掘的現(xiàn)狀與國外相比,國內(nèi)對數(shù)據(jù)挖掘的研究起步稍晚,但發(fā)展勢頭強勁。

1993年,國家自然科學(xué)基金首次資助復(fù)旦大學(xué)對該領(lǐng)域的研究項目。目前,國內(nèi)的許多科研單位和高等院校競相開展知識發(fā)現(xiàn)的基礎(chǔ)理論及其應(yīng)用研究。2025/2/27?

TheInstituteofBusinessIntelligence,HFUT17/37主要功能

1.概念/類別描述(Concept/ClassDescription)概念/類別描述是指對數(shù)據(jù)集做一個簡潔的總體性描述并/或描述它與某一對照數(shù)據(jù)集的差別。

例1:我們收集移動電話費月消費額超出1000元的客戶資料,然后利用數(shù)據(jù)挖掘進行分析,獲得這類客戶的總體性描述:35-50歲,有工作,月收入5000元以上,擁有良好的信用度…;2025/2/27?

TheInstituteofBusinessIntelligence,HFUT18/37主要功能

1.概念/類別描述(Concept/ClassDescription)概念/類別描述是指對數(shù)據(jù)集做一個簡潔的總體性描述并/或描述它與某一對照數(shù)據(jù)集的差別。

例2:對比移動電話費月消費額超出1000元的客戶群與移動電話費月消費額低于100元的客戶群。利用數(shù)據(jù)挖掘可作出如下描述:移動電話月消費額超出1000元的客戶80%以上年齡在35-50歲之間,且月收入5000元以上;而移動電話月消費額低于100元的客戶60%以上要么年齡過大要么年齡過小,且月收入2000元以下。2025/2/27?

TheInstituteofBusinessIntelligence,HFUT19/37主要功能

2.關(guān)聯(lián)分析(AssociationAnalysis)從一個項目集中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,該規(guī)則顯示了給定數(shù)據(jù)集中經(jīng)常一起出現(xiàn)的屬性-值條件元組。

例如:關(guān)聯(lián)規(guī)則X=>Y所表達的含義是滿足X的數(shù)據(jù)庫元組很可能滿足Y。關(guān)聯(lián)分析在交易數(shù)據(jù)分析、支持定向市場、商品目錄設(shè)計和其他業(yè)務(wù)決策等方面有著廣泛的應(yīng)用。2025/2/27?

TheInstituteofBusinessIntelligence,HFUT20/37主要功能3.分類與估值(ClassificationandEstimation)分類指通過分析一個類別已知的數(shù)據(jù)集的特征來建立一組模型,該模型可用以預(yù)測類別未知的數(shù)據(jù)項的類別。該分類模型可以表現(xiàn)為多種形式:分類規(guī)則(IF-THEN),決策樹或者數(shù)學(xué)公式,乃至神經(jīng)網(wǎng)絡(luò)。估值與分類類似,只不過它要預(yù)測的不是類別,而是一個連續(xù)的數(shù)值。2025/2/27?

TheInstituteofBusinessIntelligence,HFUT21/37主要功能4.聚類分析(ClusteringAnalysis)聚類分析又稱為“同質(zhì)分組”或者“無監(jiān)督的分類”,指把一組數(shù)據(jù)分成不同的“簇”,每簇中的數(shù)據(jù)相似而不同簇間的數(shù)據(jù)則距離較遠。相似性可以由用戶或者專家定義的距離函數(shù)加以度量。好的聚類方法應(yīng)保證不同類間數(shù)據(jù)的相似性盡可能地小,而類內(nèi)數(shù)據(jù)的相似性盡可能地大。2025/2/27?

TheInstituteofBusinessIntelligence,HFUT22/37主要功能5.時間序列分析(Time-SeriesAnalysis)時間序列分析即預(yù)測(Prediction),是指通過對大量時間序列數(shù)據(jù)的分析找到特定的規(guī)則和感興趣的特性,包括搜索相似序列或者子序列,挖掘序列模式、周期性、趨勢和偏差。預(yù)測的目的是對未來的情況作出估計。2025/2/27?

TheInstituteofBusinessIntelligence,HFUT23/37主要功能6.其它功能

包括:偏差分析(DeviationAnalysis)、孤立點分析(OutlierAnalysis)等。隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,可能還會繼續(xù)出現(xiàn)新的數(shù)據(jù)挖掘功能。2025/2/27?

TheInstituteofBusinessIntelligence,HFUT24/37數(shù)據(jù)挖掘模型為了使數(shù)據(jù)挖掘技術(shù)在產(chǎn)業(yè)界得到更好的應(yīng)用,歐洲委員會聯(lián)合一些數(shù)據(jù)挖掘軟件廠商開發(fā)了CRISP-DM(CrossIndustryStandardProcessforDataMining)模型,目的是把數(shù)據(jù)挖掘的過程標準化,使數(shù)據(jù)挖掘項目的實施速度更快、成本更低、更可靠并且更容易管理。

CRISP-DM模型最先在1996年被提出,當前的白皮書版本是1.0。2025/2/27?

TheInstituteofBusinessIntelligence,HFUT25/37CRISP-DM(CrossIndustryStandardProcessforDataMining)模型2025/2/27?

TheInstituteofBusinessIntelligence,HFUT26/37數(shù)據(jù)挖掘模型

CRISP-DM模型中,數(shù)據(jù)挖掘包括六個步驟:

1.業(yè)務(wù)理解(BusinessUnderstanding)階段具體地,包括:確定業(yè)務(wù)目標項目可行性分析確定數(shù)據(jù)挖掘目標提出初步的項目計劃2025/2/27?

TheInstituteofBusinessIntelligence,HFUT27/37數(shù)據(jù)挖掘模型確定業(yè)務(wù)目標:分析項目的背景,從業(yè)務(wù)視點分析項目的目標和需求,確定業(yè)務(wù)角度的成功標準;項目可行性分析:分析擁有的資源,條件和限制,風(fēng)險估計,成本和效益估計;確定數(shù)據(jù)挖掘目標:明確確定數(shù)據(jù)挖掘的目標和成功標準,數(shù)據(jù)挖掘的目標和業(yè)務(wù)目標是不一樣的,前者指技術(shù)上的,例如生成一棵決策樹等;提出項目計劃:對整個項目做一個計劃,初步估計用到的工具和技術(shù)2025/2/27?

TheInstituteofBusinessIntelligence,HFUT28/37數(shù)據(jù)挖掘模型2.數(shù)據(jù)理解(DataUnderstanding)階段。具體地,包括:收集原始數(shù)據(jù):收集本項目所涉及到的數(shù)據(jù),如有必要,把數(shù)據(jù)裝入數(shù)據(jù)處理工具,并作一些初步的數(shù)據(jù)集成的工作,生成相應(yīng)報告;描述數(shù)據(jù):對數(shù)據(jù)做一些大致的描述,例如記錄數(shù)、屬性數(shù)等,給出相應(yīng)報告;探索數(shù)據(jù):對數(shù)據(jù)做簡單的統(tǒng)計分析,例如關(guān)鍵屬性的分布等;檢查數(shù)據(jù)質(zhì)量:包括數(shù)據(jù)是否完整、數(shù)據(jù)是否有錯、是否有缺失值等問題。2025/2/27?

TheInstituteofBusinessIntelligence,HFUT29/37數(shù)據(jù)挖掘模型3.數(shù)據(jù)準備(DataPreparation)階段。具體地,包括:數(shù)據(jù)選擇:根據(jù)數(shù)據(jù)挖掘目標和數(shù)據(jù)質(zhì)量選擇合適的數(shù)據(jù),包括表的選擇、記錄選擇和屬性選擇;數(shù)據(jù)清潔:提高選擇好的數(shù)據(jù)的質(zhì)量,例如去除噪音,估計缺失值等;數(shù)據(jù)創(chuàng)建:在原有數(shù)據(jù)的基礎(chǔ)上是生成新的屬性或記錄;數(shù)據(jù)合并:利用表連接等方式將幾個數(shù)據(jù)集合并在一起;數(shù)據(jù)格式化:把數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)挖掘處理的格式。2025/2/27?

TheInstituteofBusinessIntelligence,HFUT30/37數(shù)據(jù)挖掘模型4.建立模型(Modeling)階段。具體地,包括:選擇建模技術(shù):確定數(shù)據(jù)挖掘算法和參數(shù),可能會利用多個算法;測試方案設(shè)計:設(shè)計某種測試模型的質(zhì)量和有效性的機制;模型訓(xùn)練:在準備好的數(shù)據(jù)集上運行數(shù)據(jù)挖掘算法,得出一個或者多個模型;模型測試評估:根據(jù)測試方案進行測試,從數(shù)據(jù)挖掘技術(shù)的角度確定數(shù)據(jù)挖掘目標是否成功。2025/2/27?

TheInstituteofBusinessIntelligence,HFUT31/37數(shù)據(jù)挖掘模型5.模型評估(Evaluation)階段。具體地,包括:

結(jié)果評估:從商業(yè)角度評估得到的模型,甚至實際試用該模型測試其效果;過程回顧:回顧項目的所有流程,確定每一個階段都沒有失誤;確定下一步工作:根據(jù)結(jié)果評估和過程回顧得出的結(jié)論,確定是部署該挖掘模型還是從某個階段開始重新開始。2025/2/27?

TheInstituteofBusinessIntelligence,HFUT32/37數(shù)據(jù)挖掘模型6.部署(Deployment)階段。具體地,包括:

部署計劃:對在業(yè)務(wù)運作中部署模型作出計劃;監(jiān)控和維護計劃:如何監(jiān)控模型在實際業(yè)務(wù)中的使用情況,如何維護該模型;作出最終報告:項目總結(jié),項目經(jīng)驗和項目結(jié)果;項目回顧:回顧項目的實施過程,總結(jié)經(jīng)驗教訓(xùn);對數(shù)據(jù)挖掘的運行效果做一個預(yù)測。2025/2/27?

TheInstituteofBusinessIntelligence,HFUT33/37數(shù)據(jù)挖掘模型為保證項目的可靠性和可管理性,CRISP-DM規(guī)定一個數(shù)據(jù)挖掘項目應(yīng)該產(chǎn)生11個報告:

業(yè)務(wù)理解報告原始數(shù)據(jù)收集報告數(shù)據(jù)描述報告數(shù)據(jù)探索報告數(shù)據(jù)質(zhì)量報告數(shù)據(jù)集描述報告模型訓(xùn)練報告模型評估報告部署計劃監(jiān)控和維護計劃總結(jié)報告通過這些報告,可以有效地控制數(shù)據(jù)挖掘項目進程,減少開發(fā)風(fēng)險。2025/2/27?

TheInstituteofBusinessIntelligence,HFUT34/37數(shù)據(jù)挖掘過程DataCleaningDataIntegrat

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論