




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
S大數(shù)據(jù)技術(shù)張博士2015年5月S大數(shù)據(jù)技術(shù)張博士12/10/2022目錄大數(shù)據(jù)技術(shù)概論
云數(shù)據(jù)庫技術(shù)數(shù)據(jù)挖掘技術(shù)商業(yè)智能12/8/2022目錄大數(shù)據(jù)技術(shù)概論12/10/2022BigData名詞由來20世紀90年代,數(shù)據(jù)倉庫之父的BillInmon就經(jīng)常提及BigData2011年5月,在“云計算相遇大數(shù)據(jù)”為主題的EMCWorld2011會議中,EMC拋出了BigData概念12/8/2022BigData名詞由來20世紀90年代,12/10/2022大數(shù)據(jù)的產(chǎn)生21世紀是數(shù)據(jù)信息大發(fā)展的時代,移動互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)等極大拓展了互聯(lián)網(wǎng)的邊界和應(yīng)用范圍,各種數(shù)據(jù)正在迅速膨脹并變大?;ヂ?lián)網(wǎng)(社交、搜索、電商)、移動互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器,智慧地球)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融(銀行、股市、保險)、電信(通話、短信)都在瘋狂產(chǎn)生著數(shù)據(jù)。12/8/2022大數(shù)據(jù)的產(chǎn)生21世紀是數(shù)據(jù)信息大發(fā)展的時代12/10/2022數(shù)量級概念1KB=2(10)B=1024B;1MB=2(10)KB=1024KB=2(20)B;1GB=2(10)MB=1024MB=2(30)B。1TB=2(10)GB=1024GB=2(40)B1PB=2(10)TB=1024TB=2(50)B1EB=2(10)PB=1024PB=2(60)B12/8/2022數(shù)量級概念1KB=2(10)B=1024B12/10/2022數(shù)量級概念Kilobyte(KB)=1024B相當于一則短篇故事的內(nèi)容。Megabyte(MB)=l024KB
相當于一則短篇小說的文字內(nèi)容。Gigabyte(GB)=1024MB相當于貝多芬第五交響樂的演奏視頻內(nèi)容。Terabyte(TB)=1024GB相當于一家大型醫(yī)院中所有的X光照片信息。Petabyte(PB)=l024TB相當于50%的全美學(xué)術(shù)圖書館信息內(nèi)容。Exabyte(EB)=1024PB;5EB相當于至今全世界人類所講過的話語。12/8/2022數(shù)量級概念Kilobyte(KB)=10212/10/2022信息通訊進入新時代12/8/2022信息通訊進入新時代12/10/2022摩爾定律12/8/2022摩爾定律12/10/2022后摩爾時代12/8/2022后摩爾時代12/10/2022計算機演進12/8/2022計算機演進12/10/2022信息計算體系演進12/8/2022信息計算體系演進12/10/2022軟件技術(shù)網(wǎng)絡(luò)化演進12/8/2022軟件技術(shù)網(wǎng)絡(luò)化演進12/10/2022傳輸技術(shù)的發(fā)展12/8/2022傳輸技術(shù)的發(fā)展12/10/2022從移動數(shù)據(jù)到移動流媒體12/8/2022從移動數(shù)據(jù)到移動流媒體12/10/2022移動通信峰值速率的提升12/8/2022移動通信峰值速率的提升12/10/2022互聯(lián)網(wǎng)發(fā)展:從電信到泛在服務(wù)12/8/2022互聯(lián)網(wǎng)發(fā)展:從電信到泛在服務(wù)12/10/2022聯(lián)網(wǎng)主機數(shù)量12/8/2022聯(lián)網(wǎng)主機數(shù)量12/10/2022電視網(wǎng)絡(luò)化智能化與三網(wǎng)合一12/8/2022電視網(wǎng)絡(luò)化智能化與三網(wǎng)合一12/10/2022視頻流量成為主流12/8/2022視頻流量成為主流12/10/2022全球骨干網(wǎng)流量12/8/2022全球骨干網(wǎng)流量12/10/2022中國互聯(lián)網(wǎng)干線帶寬12/8/2022中國互聯(lián)網(wǎng)干線帶寬12/10/2022中國互聯(lián)網(wǎng)用戶12/8/2022中國互聯(lián)網(wǎng)用戶12/10/2022移動終端功能的演進12/8/2022移動終端功能的演進12/10/2022移動互聯(lián)網(wǎng)加快普及12/8/2022移動互聯(lián)網(wǎng)加快普及12/10/2022智能終端引領(lǐng)后PC時代12/8/2022智能終端引領(lǐng)后PC時代12/10/2022移動數(shù)據(jù)流量超過話音12/8/2022移動數(shù)據(jù)流量超過話音12/10/2022全球移動數(shù)據(jù)流量12/8/2022全球移動數(shù)據(jù)流量12/10/2022移動互聯(lián)網(wǎng)流量12/8/2022移動互聯(lián)網(wǎng)流量12/10/2022互聯(lián)網(wǎng)上1分鐘12/8/2022互聯(lián)網(wǎng)上1分鐘12/10/2022互聯(lián)網(wǎng)上的1天12/8/2022互聯(lián)網(wǎng)上的1天12/10/2022照片12/8/2022照片12/10/2022大數(shù)據(jù)時代到來12/8/2022大數(shù)據(jù)時代到來12/10/2022大數(shù)據(jù)定義12/8/2022大數(shù)據(jù)定義12/10/2022大數(shù)據(jù)例子12/8/2022大數(shù)據(jù)例子12/10/2022科學(xué)研究催生大數(shù)據(jù)12/8/2022科學(xué)研究催生大數(shù)據(jù)12/10/2022物聯(lián)網(wǎng)催生大數(shù)據(jù)12/8/2022物聯(lián)網(wǎng)催生大數(shù)據(jù)12/10/2022安全監(jiān)控的數(shù)據(jù)量12/8/2022安全監(jiān)控的數(shù)據(jù)量12/10/2022環(huán)境監(jiān)測催生大數(shù)據(jù)12/8/2022環(huán)境監(jiān)測催生大數(shù)據(jù)12/10/2022醫(yī)療病歷隱藏大數(shù)據(jù)12/8/2022醫(yī)療病歷隱藏大數(shù)據(jù)12/10/2022國際關(guān)注大數(shù)據(jù)12/8/2022國際關(guān)注大數(shù)據(jù)12/10/2022大數(shù)據(jù)的4V特征“大量化(Volume)、多樣化(Variety)、快速化(Velocity)、價值密度低(Value)”就是“大數(shù)據(jù)”的顯著特征,或者說,只有具備這些特點的數(shù)據(jù),才是大數(shù)據(jù)。體量Volume多樣性Variety價值密度Value速度Velocity非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長總數(shù)據(jù)量的80~90%比結(jié)構(gòu)化數(shù)據(jù)增長快10倍到50倍是傳統(tǒng)數(shù)據(jù)倉庫的10倍到50倍大數(shù)據(jù)的異構(gòu)和多樣性很多不同形式(文本、圖像、視頻、機器數(shù)據(jù))無模式或者模式不明顯不連貫的語法或句義大量的不相關(guān)信息對未來趨勢與模式的可預(yù)測分析深度復(fù)雜分析(機器學(xué)習(xí)、人工智能Vs傳統(tǒng)商務(wù)智能(咨詢、報告等)實時分析而非批量式分析數(shù)據(jù)輸入、處理與丟棄立竿見影而非事后見效12/8/2022大數(shù)據(jù)的4V特征“大量化(Volume)、12/10/2022大數(shù)據(jù)的4V12/8/2022大數(shù)據(jù)的4V12/10/2022大數(shù)據(jù)的劃分12/8/2022大數(shù)據(jù)的劃分12/10/2022大數(shù)據(jù)技術(shù)挑戰(zhàn)12/8/2022大數(shù)據(jù)技術(shù)挑戰(zhàn)12/10/2022大數(shù)據(jù)技術(shù)挑戰(zhàn)12/8/2022大數(shù)據(jù)技術(shù)挑戰(zhàn)12/10/2022大數(shù)據(jù)平臺技術(shù)12/8/2022大數(shù)據(jù)平臺技術(shù)12/10/2022分布式存儲與架構(gòu)12/8/2022分布式存儲與架構(gòu)12/10/2022大數(shù)據(jù)的并行處理12/8/2022大數(shù)據(jù)的并行處理12/10/2022大數(shù)據(jù)并行處理分析12/8/2022大數(shù)據(jù)并行處理分析12/10/2022大數(shù)據(jù)可視化分析12/8/2022大數(shù)據(jù)可視化分析12/10/2022虛擬化與可視化12/8/2022虛擬化與可視化12/10/2022大數(shù)據(jù)可視化12/8/2022大數(shù)據(jù)可視化12/10/2022目錄大數(shù)據(jù)技術(shù)概論云數(shù)據(jù)庫技術(shù)數(shù)據(jù)挖掘技術(shù)商業(yè)智能12/8/2022目錄大數(shù)據(jù)技術(shù)概論12/10/2022Google云數(shù)據(jù)庫12/8/2022Google云數(shù)據(jù)庫12/10/2022Google云數(shù)據(jù)庫12/8/2022Google云數(shù)據(jù)庫12/10/2022Google云數(shù)據(jù)庫12/8/2022Google云數(shù)據(jù)庫12/10/2022Google云數(shù)據(jù)庫GFS架構(gòu)12/8/2022Google云數(shù)據(jù)庫GFS架構(gòu)12/10/2022Google云數(shù)據(jù)庫12/8/2022Google云數(shù)據(jù)庫12/10/2022Google云數(shù)據(jù)庫12/8/2022Google云數(shù)據(jù)庫12/10/2022Google云數(shù)據(jù)庫12/8/2022Google云數(shù)據(jù)庫12/10/2022Google云數(shù)據(jù)庫12/8/2022Google云數(shù)據(jù)庫12/10/2022Google云數(shù)據(jù)庫12/8/2022Google云數(shù)據(jù)庫12/10/2022Google云數(shù)據(jù)庫12/8/2022Google云數(shù)據(jù)庫12/10/2022GoogleVsHadoop12/8/2022GoogleVsHadoop12/10/2022Haddop是什么12/8/2022Haddop是什么12/10/2022Hadoop發(fā)展編年12/8/2022Hadoop發(fā)展編年12/10/202212/8/202212/10/2022Hadoop子項目12/8/2022Hadoop子項目12/10/2022Hadoop特性12/8/2022Hadoop特性12/10/202212/8/202212/10/2022Hadoop物理部署12/8/2022Hadoop物理部署12/10/2022Hadoop集群12/8/2022Hadoop集群12/10/2022Hadoop用戶12/8/2022Hadoop用戶12/10/2022HDFS12/8/2022HDFS12/10/2022HDFS12/8/2022HDFS12/10/2022HDFS能做什么適合不適合12/8/2022HDFS能做什么適合12/10/2022HDFS組件12/8/2022HDFS組件12/10/2022HDFS主要組件功能12/8/2022HDFS主要組件功能12/10/2022HDFS架構(gòu)12/8/2022HDFS架構(gòu)12/10/2022HDFS文件12/8/2022HDFS文件12/10/2022HDFSNameNode12/8/2022HDFSNameNode12/10/202212/8/202212/10/2022HDFSDataNode12/8/2022HDFSDataNode12/10/2022HDFS可靠性保障12/8/2022HDFS可靠性保障12/10/2022HDFS可靠性保障12/8/2022HDFS可靠性保障12/10/2022HDFS可靠性保障12/8/2022HDFS可靠性保障12/10/2022提升性能的措施12/8/2022提升性能的措施12/10/2022HDFS:節(jié)點失效是常態(tài)12/8/2022HDFS:節(jié)點失效是常態(tài)12/10/2022DataNode磁盤掛了12/8/2022DataNode磁盤掛了12/10/2022DataNode機器掛了12/8/2022DataNode機器掛了12/10/2022NameNode掛了12/8/2022NameNode掛了12/10/202212/8/202212/10/2022Client掛了12/8/2022Client掛了12/10/2022MR+HBase12/8/2022MR+HBase12/10/2022WhyMapReduce?12/8/2022WhyMapReduce?12/10/2022大規(guī)模數(shù)據(jù)分析12/8/2022大規(guī)模數(shù)據(jù)分析12/10/2022大規(guī)模數(shù)據(jù)處理12/8/2022大規(guī)模數(shù)據(jù)處理12/10/2022MR特性12/8/2022MR特性12/10/2022M+R12/8/2022M+R12/10/202212/8/202212/10/2022MR編程12/8/2022MR編程12/10/202212/8/202212/10/202212/8/202212/10/202212/8/202212/10/202212/8/202212/10/2022單一Reduce處理12/8/2022單一Reduce處理12/10/2022多個Reduce處理12/8/2022多個Reduce處理12/10/2022MR流程12/8/2022MR流程12/10/202212/8/202212/10/2022目錄大數(shù)據(jù)技術(shù)概論云數(shù)據(jù)庫技術(shù)數(shù)據(jù)挖掘技術(shù)商業(yè)智能12/8/2022目錄大數(shù)據(jù)技術(shù)概論12/10/2022數(shù)據(jù)挖掘技術(shù)的由來大量信息在給人們帶來方便的同時也帶來了一大堆問題:第一:是信息過量,難以消化;第二:是信息真假難以辨識;第三:是信息安全難以保證;第四:是信息形式不一致,難以統(tǒng)一處理。
網(wǎng)絡(luò)之后的下一個技術(shù)熱點
12/8/2022數(shù)據(jù)挖掘技術(shù)的由來大量信息在給人們帶來方便12/10/2022數(shù)據(jù)挖掘技術(shù)的由來“要學(xué)會拋棄信息”“如何才能不被信息淹沒,而是從中及時發(fā)現(xiàn)有用的知識、提高信息利用率?”數(shù)據(jù)開采和知識發(fā)現(xiàn)(DMKD)技術(shù)應(yīng)運而生
網(wǎng)絡(luò)之后的下一個技術(shù)熱點
12/8/2022數(shù)據(jù)挖掘技術(shù)的由來“要學(xué)會拋棄信息”網(wǎng)絡(luò)12/10/2022數(shù)據(jù)挖掘技術(shù)的由來
隨著數(shù)據(jù)庫技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來越多。激增的數(shù)據(jù)背后隱藏著許多重要的信息,人們希望能夠?qū)ζ溥M行更高層次的分析,以便更好地利用這些數(shù)據(jù)。
目前的數(shù)據(jù)庫系統(tǒng)可以高效地實現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。缺乏挖掘數(shù)據(jù)背后隱藏的知識的手段,導(dǎo)致了“數(shù)據(jù)爆炸但知識貧乏”的現(xiàn)象。數(shù)據(jù)爆炸但知識貧乏12/8/2022數(shù)據(jù)挖掘技術(shù)的由來 隨著數(shù)據(jù)庫技術(shù)的迅速發(fā)12/10/2022數(shù)據(jù)挖掘技術(shù)的由來海量數(shù)據(jù)搜集強大的多處理器計算機數(shù)據(jù)挖掘算法支持數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)
12/8/2022數(shù)據(jù)挖掘技術(shù)的由來海量數(shù)據(jù)搜集支持數(shù)據(jù)挖掘12/10/2022數(shù)據(jù)挖掘技術(shù)的由來從商業(yè)數(shù)據(jù)到商業(yè)信息的進化
進化階段商業(yè)問題支持技術(shù)產(chǎn)品廠家產(chǎn)品特點數(shù)據(jù)搜集(60年代)“過去五年中我的總收入是多少?”計算機,磁帶和磁盤IBM,CDC提供歷史性的、靜態(tài)的數(shù)據(jù)信息數(shù)據(jù)訪問(80年代)“在新英格蘭的分部去年三月的銷售額是多少?”關(guān)系數(shù)據(jù)庫(RDBMS),結(jié)構(gòu)化查詢語言(SQL),ODBC,Oracle,Sybase,Informix,IBM,MicrosoftOracle,Sybase,Informix,IBM,Microsoft在記錄級提供歷史性的、動態(tài)數(shù)據(jù)信息數(shù)據(jù)倉庫;決策支持(90年代)“在新英格蘭的分部去年三月的銷售額是多少?波士頓據(jù)此可得出什么結(jié)論?”聯(lián)機分析處理(OLAP),多維數(shù)據(jù)庫,數(shù)據(jù)倉庫Pilot,Comshare,Arbor,Cognos,Microstrategy在各種層次上提供回溯的、動態(tài)的數(shù)據(jù)信息數(shù)據(jù)挖掘(正在流行)“下個月波士頓的銷售會怎么樣?為什么?”高級算法,多處理器計算機,海量數(shù)據(jù)庫Pilot,Lockheed,IBM,SGI,其他初創(chuàng)公司提供預(yù)測性的信息12/8/2022數(shù)據(jù)挖掘技術(shù)的由來從商業(yè)數(shù)據(jù)到商業(yè)信息的進12/10/2022數(shù)據(jù)挖掘技術(shù)的由來數(shù)據(jù)挖掘逐漸演變的過程
算法學(xué)習(xí)專家系統(tǒng)機器學(xué)習(xí)12/8/2022數(shù)據(jù)挖掘技術(shù)的由來數(shù)據(jù)挖掘逐漸演變的過程12/10/2022數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
技術(shù)上的定義及含義
12/8/2022數(shù)據(jù)挖掘的定義 數(shù)據(jù)挖掘(DataMin12/10/2022數(shù)據(jù)挖掘的定義數(shù)據(jù)源必須是真實的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識;發(fā)現(xiàn)的知識要可接受、可理解、可運用;并不要求發(fā)現(xiàn)放之四海皆準的知識,僅支持特定的發(fā)現(xiàn)問題技術(shù)上的定義及含義
12/8/2022數(shù)據(jù)挖掘的定義數(shù)據(jù)源必須是真實的、大量的、12/10/2022數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。按企業(yè)既定業(yè)務(wù)目標,對大量的企業(yè)數(shù)據(jù)進行探索和分析,揭示隱藏的、未知的或驗證已知的規(guī)律性,并進一步將其模型化的先進有效的方法。
商業(yè)角度的定義
12/8/2022數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘是一種新12/10/2022數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(如查詢、報表、聯(lián)機應(yīng)用分析)的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識.數(shù)據(jù)挖掘所得到的信息應(yīng)具有先未知,有效和可實用三個特征.
數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別
12/8/2022數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)12/10/2022數(shù)據(jù)挖掘的定義
數(shù)據(jù)倉庫是為決策支持而不是為事務(wù)處理所設(shè)計的數(shù)據(jù)庫,它是將不同來源的事務(wù)處理數(shù)據(jù)庫中對決策有用的數(shù)據(jù)提取出來而建立。
數(shù)據(jù)倉庫的發(fā)展是數(shù)據(jù)挖掘的動力之一。但數(shù)據(jù)挖掘既可以在數(shù)據(jù)倉庫中進行,也可以在傳統(tǒng)的事務(wù)型數(shù)據(jù)庫中進行。數(shù)據(jù)挖掘和數(shù)據(jù)倉庫
12/8/2022數(shù)據(jù)挖掘的定義 數(shù)據(jù)倉庫是為決策支持而不是12/10/2022數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘和數(shù)據(jù)倉庫
數(shù)據(jù)源數(shù)據(jù)倉庫各分公司數(shù)據(jù)集分析數(shù)據(jù)集數(shù)據(jù)挖掘數(shù)據(jù)集12/8/2022數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘和數(shù)據(jù)倉庫數(shù)據(jù)源數(shù)12/10/2022數(shù)據(jù)挖掘的定義在線分析處理(OLAP,On-Lineanalyticalprocessing)是一種增強的查詢技術(shù),是決策支持領(lǐng)域的一部分。但又不同于傳統(tǒng)的查詢技術(shù)。傳統(tǒng)的查詢和報表工具是告訴你數(shù)據(jù)庫中都有什么(whathappened),OLAP則更進一步告訴你下一步會怎么樣(Whatnext)、和如果我采取這樣的措施又會怎么樣(Whatif)。用戶首先建立一個假設(shè),然后用OLAP檢索數(shù)據(jù)庫來驗證這個假設(shè)是否正確。數(shù)據(jù)挖掘和在線分析處理
12/8/2022數(shù)據(jù)挖掘的定義在線分析處理(OLAP,O12/10/2022數(shù)據(jù)挖掘的定義比如,一個分析師想找到什么原因?qū)е铝速J款拖欠,他可能先做一個初始的假定,認為低收入的人信用度也低,然后用OLAP來驗證他這個假設(shè)。如果這個假設(shè)沒有被證實,他可能去察看那些高負債的賬戶,如果還不行,他也許要把收入和負債一起考慮,一直進行下去,直到找到他想要的結(jié)果或放棄。
數(shù)據(jù)挖掘和在線分析處理
12/8/2022數(shù)據(jù)挖掘的定義比如,一個分析師想找到12/10/2022數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘與OLAP不同的地方是,數(shù)據(jù)挖掘不是用于驗證某個假定的模式(模型)的正確性,而是在數(shù)據(jù)庫中自己尋找模型。他在本質(zhì)上是一個歸納的過程。數(shù)據(jù)挖掘和在線分析處理
比如,一個用數(shù)據(jù)挖掘工具的分析師想找到引起貸款拖欠的風(fēng)險因素。數(shù)據(jù)挖掘工具可能幫他找到高負債和低收入是引起這個問題的因素,甚至還可能發(fā)現(xiàn)一些分析師從來沒有想過或試過的其他因素,比如年齡。12/8/2022數(shù)據(jù)挖掘的定義 數(shù)據(jù)挖掘與OLAP不同的地12/10/2022數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘,機器學(xué)習(xí)和統(tǒng)計分析
數(shù)據(jù)挖掘統(tǒng)計分析預(yù)測簡單的方法復(fù)雜的方法12/8/2022數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘,機器學(xué)習(xí)和統(tǒng)計分析12/10/2022數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘,機器學(xué)習(xí)和統(tǒng)計分析
數(shù)據(jù)挖掘統(tǒng)計方法模式識別人工智能封裝預(yù)測12/8/2022數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘,機器學(xué)習(xí)和統(tǒng)計分析12/10/2022數(shù)據(jù)挖掘的定義軟硬件發(fā)展對數(shù)據(jù)挖掘的影響
存貯性能的提高計算能力的提高并行處理技術(shù)12/8/2022數(shù)據(jù)挖掘的定義軟硬件發(fā)展對數(shù)據(jù)挖掘的影響12/10/2022數(shù)據(jù)挖掘應(yīng)用欺詐偵測
AT&T使用根據(jù)數(shù)據(jù)挖掘開發(fā)的系統(tǒng)來偵測盜打國際電話的行為。由HNC公司開發(fā)的隊LCON欺詐評估系統(tǒng)用于提示可能存在的盜用信用卡的交易。金融犯罪執(zhí)法網(wǎng)絡(luò)Al系統(tǒng)(FAIS)使用包括數(shù)據(jù)挖掘在內(nèi)的幾種技術(shù),識別大型現(xiàn)金交易中可能存在的洗錢行為。個人通訊高級安全(AdvancedsecurityforPersonalcommunications)歐洲研究組織己經(jīng)利用無指導(dǎo)聚類偵測移動電話網(wǎng)絡(luò)中的欺詐。對每個用戶,系統(tǒng)儲存用戶的歷史和使用特征文件。在當前使用與用戶的歷史情況有明顯區(qū)別時,懷疑為欺詐行為。
12/8/2022數(shù)據(jù)挖掘應(yīng)用欺詐偵測AT&T使用根據(jù)數(shù)12/10/2022數(shù)據(jù)挖掘應(yīng)用衛(wèi)生保健Merck-MedcoManagedcare,Merck的一個醫(yī)藥保險和處方電郵訂購單位,使用數(shù)據(jù)挖掘來幫助找出對某種類型的病人減少費用但療效相同的治療方法。生物信息或基因數(shù)據(jù)挖掘則完全屬于另外一個領(lǐng)域,在商業(yè)上很難講有多大的價值,但對于人類卻受益非淺。例如,基因的組合千變?nèi)f化,得某種病的人的基因和正常人的基因到底差別多大?能否找出其中不同的地方,進而對其不同之處加以改變,使之成為正?;?這都需要數(shù)據(jù)挖掘技術(shù)的支持。12/8/2022數(shù)據(jù)挖掘應(yīng)用衛(wèi)生保健Merck-Medc12/10/2022數(shù)據(jù)挖掘應(yīng)用商業(yè)和金融Farmer‘sGroup有限公司如何使用數(shù)據(jù)挖掘方法得出擁有跑車的人不具有高事故風(fēng)險的假設(shè)。美國銀行(BankofAmerica)使用數(shù)據(jù)挖掘偵測哪個客戶正在使用美國銀行的哪種產(chǎn)品,以便他們能夠提供正確的產(chǎn)品和服務(wù)組合,更好地滿足客戶的需求。美國西部通信(USWestCommunications)根據(jù)諸如家庭的大小、家庭成員的平均年齡和所在地這些特征,使用數(shù)據(jù)挖掘和數(shù)據(jù)倉庫來確定客戶的傾向和需要。20世紀Fox公司分析票房收入來確定哪個演員、情節(jié)和電影在各市場環(huán)境中更容易為觀眾接受。12/8/2022數(shù)據(jù)挖掘應(yīng)用商業(yè)和金融Farmer‘s12/10/2022數(shù)據(jù)挖掘應(yīng)用科學(xué)應(yīng)用
γ射線爆是短暫的伽瑪射線反射,它來源于我們太陽系之外。有關(guān)事件的記錄已經(jīng)超過1000次??茖W(xué)界普遍認為存在兩種γ射線爆。Mukherjee等人使用統(tǒng)計聚類分析法(一種數(shù)據(jù)挖掘方法)發(fā)現(xiàn)了第3類γ射線爆。
12/8/2022數(shù)據(jù)挖掘應(yīng)用科學(xué)應(yīng)用 γ射線爆是短暫的伽瑪12/10/2022數(shù)據(jù)挖掘應(yīng)用運動和游戲大約20個NBA球隊使用了IBM公司開發(fā)的數(shù)據(jù)挖掘應(yīng)用軟件AdvancedScout系統(tǒng)來優(yōu)化他們的戰(zhàn)術(shù)組合。例如Scout就因為研究了魔術(shù)隊隊員不同的布陣安排,在與邁阿密熱隊的比賽中找到了獲勝的機會。博彩產(chǎn)業(yè)將客戶賭博方式的歷史模型結(jié)合起來,確定客戶在光顧他們喜歡的賭場時,會花(輸)多少錢。12/8/2022數(shù)據(jù)挖掘應(yīng)用運動和游戲大約20個NBA球12/10/2022數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)
我們用歸納形成基本概念定義。我們看到代表動物、植物、建筑物和諸如此類的概念實例后,我們聽到為這些個別實例做的標記,并選擇我們認定的定義概念的特性(屬性)形成我們自己的分類模型。這以后,我們使用模型幫助我們進一步來區(qū)分結(jié)構(gòu)相似的對象。這種類型的學(xué)習(xí)稱為基于歸納的有指導(dǎo)的概念學(xué)習(xí),或簡稱有指導(dǎo)的學(xué)習(xí)(supervisedlearning)12/8/2022數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——12/10/2022數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)ID喉嚨痛發(fā)燒淋巴腫充血頭痛診斷1YesYesYesYesYes鏈球菌感染喉炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo鏈球菌感染喉炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo鏈球菌感染喉炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10YesYesNoYesYes感冒12/8/2022數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——12/10/2022數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)12/8/2022數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——12/10/2022數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)如果病人淋巴腫,診斷為鏈球菌感染性咽炎。如果病人沒有淋巴腫的癥狀,但發(fā)燒,診斷為感冒。如果病人沒有淋巴腫,也不發(fā)燒,診斷為敏感癥。
12/8/2022數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——12/10/2022數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)(1)IF淋巴腫=Yes
THEN診斷=鏈球菌感染性咽炎(2) IF淋巴腫=No&發(fā)燒=Yes
THEN診斷=感冒(3)IF淋巴腫=No&發(fā)燒=No
THEN診斷=敏感癥
產(chǎn)生式規(guī)則12/8/2022數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——12/10/2022數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)未知分類的數(shù)據(jù)實例ID喉嚨痛發(fā)燒淋巴腫充血頭痛診斷11NoNoYesYesYes?(鏈球菌感染喉炎)12YesYesNoNoYes?(感冒)13NoNoNoNoYes?(敏感癥)12/8/2022數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——12/10/2022數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)準確度在檢驗集中符合產(chǎn)生式規(guī)則條件的實例正確顯示規(guī)則所指定結(jié)果的比率。覆蓋率在檢驗集中顯示規(guī)則所指定結(jié)果的實例符合產(chǎn)生式規(guī)則條件的比率。
產(chǎn)生式規(guī)則應(yīng)用效果的評價指標12/8/2022數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——12/10/2022數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)分類學(xué)習(xí)是有指導(dǎo)的。因變量是分類的。重點在于建立模型,將新的實例指派給一組定義明確的類中的一個。有指導(dǎo)學(xué)習(xí)的類型12/8/2022數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——12/10/2022數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)分類任務(wù)的例子確定用于區(qū)分患過心臟病的人和從未患過心臟病的人的特征。開發(fā)一個“成功”人士的特征文件。確定一次信用卡購物是否為盜用。將一次購車貸款申請歸類為具備良好的或者不良的信用風(fēng)險。開發(fā)一個特征文件來區(qū)別女性與男性中風(fēng)患者。
有指導(dǎo)學(xué)習(xí)的類型12/8/2022數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——12/10/2022數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)估計 與分類模型相似,估計模型的目的在于確定一個未知輸出屬性的值。然而,不同于分類模型的是,對一個估計問題,其輸出屬性值(一個或多個)是數(shù)值的而不是分類的。
有指導(dǎo)學(xué)習(xí)的類型12/8/2022數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——12/10/2022數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)估計任務(wù)的例子估計暴風(fēng)雨到達某個給定地點所需要的分鐘數(shù)。估計擁有一輛跑車的人的收入。估計信用卡已被盜的可能性。估計伽馬射線爆的長度。
有指導(dǎo)學(xué)習(xí)的類型12/8/2022數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——12/10/2022數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)預(yù)測 與分類模型和估計模型不同,預(yù)測模型的目的在于確定未來的輸出結(jié)果而不是當前的行為。預(yù)測模型的輸出屬性(一個或多個)可以是分類的或數(shù)值型的。
有指導(dǎo)學(xué)習(xí)的類型12/8/2022數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——12/10/2022數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)預(yù)測任務(wù)的例子預(yù)測2002年全美橄欖球聯(lián)盟(NFL)賽季中跑衛(wèi)的觸地總得分。確定一個信用卡客戶是否可使用其信用卡賬單提供的優(yōu)惠。預(yù)測下周道瓊斯工業(yè)指數(shù)的收盤價格。預(yù)測在未來的3個月內(nèi),哪些電話用戶最有可能改變他們的供應(yīng)商。
有指導(dǎo)學(xué)習(xí)的類型12/8/2022數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——12/10/2022數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)Acme信用卡公司信用卡促銷數(shù)據(jù)庫收入范圍雜志促銷手表促銷壽險促銷信用卡保險性別年齡40-50,000YesNoNoNoMale4530-40,000YesYesYesNoFemale4040-50,000NoNoNoNoMale4230-40,000YesYesYesYesMale4350-60,000YesNoYesNoFemale3820-30,000NoNoNoNoFemale5530-40,000YesNoYesYesMale3520-30,000NoYesNoNoMale2730-40,000YesNoNoNoMale4330-40,000YesYesYesNoFemale4140-50,000NoYesYesNoFemale4320-30,000NoYesYesNoMale2950-60,000YesYesYesNoFemale3940-50,000NoYesNoNoMale5520-30,000NoNoYesYesFemale1912/8/2022數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——12/10/2022數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)
假設(shè)Acme信用卡公司己經(jīng)批準了一個與上表所列的以前的促銷相似的新的壽險促銷活動。這個促銷材料將作為信用卡賬單的一部分發(fā)送給非零余額的所有信用卡持有者。我們將使用數(shù)據(jù)挖掘來幫助我們把賬單發(fā)送到選定的一組客戶手中,他們當前沒有信用卡余額,但有可能利用促銷機會。
我們的問題要求有指導(dǎo)數(shù)據(jù)挖掘使用壽險促銷作為輸出屬性。我們的目的是開發(fā)一個可能利用壽險促銷的客戶的特征文件,該壽險促銷是通過該客戶下一次信用卡結(jié)算表來宣傳的。
12/8/2022數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——12/10/2022數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)IF性別=Female&19<=Age<=43
THEN壽險促銷=Yes 規(guī)則準確度:100.00% 規(guī)則覆蓋率:66.67%
IFSex=Male&IncomeRange=40-50K
THEN壽險促銷=No 規(guī)則準確度:100.00% 規(guī)則覆蓋率:50.00%
12/8/2022數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——12/10/2022數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)IF信用卡保險=Yes
THEN壽險促銷=Yes 規(guī)則準確度:100.00% 規(guī)則覆蓋率:33.33%IF收入=30-40K&手表促銷=Yes
THEN壽險促銷=Yes 規(guī)則準確度:100.00% 規(guī)則覆蓋率:33.33%12/8/2022數(shù)據(jù)挖掘的基本技術(shù)有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——12/10/2022數(shù)據(jù)挖掘的基本技術(shù)無指導(dǎo)數(shù)據(jù)挖掘技術(shù)——無指導(dǎo)聚類
與有指導(dǎo)學(xué)習(xí)不同,無指導(dǎo)聚類(unsupervisedclustering)為無預(yù)定義類數(shù)據(jù)建立模型。數(shù)據(jù)實例根據(jù)聚類系統(tǒng)定義的相似分類機制進行分組,在一種或多種評估技術(shù)的支持下,最終由我們確定所構(gòu)造聚類的含義。
12/8/2022數(shù)據(jù)挖掘的基本技術(shù)無指導(dǎo)數(shù)據(jù)挖掘技術(shù)——無12/10/2022數(shù)據(jù)挖掘的基本技術(shù)無指導(dǎo)數(shù)據(jù)挖掘技術(shù)——無指導(dǎo)聚類
Acme投資有限公司代理帳戶數(shù)據(jù)客戶編號帳戶類型保證金帳戶交易方式月交易量性別年齡愛好收入1005JointNoOnline1.25F30Tennis40-50K1013CustodialNoBroker0.5F50Skiing80-99K1245JointNoOnllne3.6M20Golf20-39K2110IndividualYesBroker22.3M30Fishing40-59K1001IndividualYesOnline5.0M40Golf60-79K12/8/2022數(shù)據(jù)挖掘的基本技術(shù)無指導(dǎo)數(shù)據(jù)挖掘技術(shù)——無12/10/2022數(shù)據(jù)挖掘的基本技術(shù)無指導(dǎo)數(shù)據(jù)挖掘技術(shù)——無指導(dǎo)聚類
有指導(dǎo)學(xué)習(xí)的典型問題我可以開發(fā)一個在線投資人的一般特征文件嗎?如果可以,區(qū)分在線投資者和使用經(jīng)紀人的投資者的特征是什么?有一個新客戶,他最初并沒有開設(shè)交易保證金賬戶,我是否可以確定他在將來會開設(shè)這樣的賬戶?我們能建立一個準確預(yù)測新投資人每月交易平均數(shù)的模型嗎?女性和男性投資人有什么不同特征?
12/8/2022數(shù)據(jù)挖掘的基本技術(shù)無指導(dǎo)數(shù)據(jù)挖掘技術(shù)——無12/10/2022數(shù)據(jù)挖掘的基本技術(shù)無指導(dǎo)數(shù)據(jù)挖掘技術(shù)——無指導(dǎo)聚類
無指導(dǎo)聚類的典型問題哪些屬性相似性決定Acme投資公司的客戶分組?屬性值的哪些不同之處分割了客戶數(shù)據(jù)庫?
12/8/2022數(shù)據(jù)挖掘的基本技術(shù)無指導(dǎo)數(shù)據(jù)挖掘技術(shù)——無12/10/2022數(shù)據(jù)挖掘的基本技術(shù)無指導(dǎo)數(shù)據(jù)挖掘技術(shù)——無指導(dǎo)聚類
通過無指導(dǎo)聚類將客戶劃分為3類IF保證金帳戶=Yes&年齡=20—29&收入=40-59KTHENCluster=1 準確度=0.80 覆蓋率=0.50IF帳戶類型=Custodial&愛好=Skiing&收入=80-90KTHENCluster=2 準確度=0.95 覆蓋率=0.35IF帳戶類型=Joint&交易量/月>5&交易方式=OnlineTHENCluster=3 準確度=0.82 覆蓋率=0.6512/8/2022數(shù)據(jù)挖掘的基本技術(shù)無指導(dǎo)數(shù)據(jù)挖掘技術(shù)——無12/10/2022數(shù)據(jù)挖掘的基本技術(shù)關(guān)聯(lián)規(guī)則挖掘技術(shù)
關(guān)聯(lián)規(guī)則(associationrule)挖掘技術(shù)用于發(fā)現(xiàn)數(shù)據(jù)庫中屬性之間的有趣聯(lián)系。和傳統(tǒng)的產(chǎn)生式規(guī)則不同,關(guān)聯(lián)規(guī)則可以有一個或多個輸出屬性。同時,一個規(guī)則的輸出屬性可以是另一規(guī)則的輸入屬性。關(guān)聯(lián)規(guī)則分析有時也叫購物籃分析,是因為它可以找尋出潛在的令人感興趣的所有的產(chǎn)品組合。由此,有限數(shù)目的屬性可能生成上百條關(guān)聯(lián)規(guī)則。
12/8/2022數(shù)據(jù)挖掘的基本技術(shù)關(guān)聯(lián)規(guī)則挖掘技術(shù) 關(guān)聯(lián)12/10/2022數(shù)據(jù)挖掘的基本技術(shù)關(guān)聯(lián)規(guī)則挖掘技術(shù)通過apriori關(guān)聯(lián)規(guī)則挖掘算法,從Acme公司信用卡促銷數(shù)據(jù)庫可以得到以下關(guān)聯(lián)規(guī)則:IF性別=Female&年齡=over40&信用卡保險=NoTHEN壽險促銷=YesIF性別=Male&年齡=over40&信用卡保險=NoTHEN壽險促銷=NoIF性別=Female&Age=over40THEN信用卡保險=No&壽險促銷=Yes
12/8/2022數(shù)據(jù)挖掘的基本技術(shù)關(guān)聯(lián)規(guī)則挖掘技術(shù)通過ap12/10/2022數(shù)據(jù)挖掘的基本算法其它數(shù)據(jù)挖掘算法
K-平均值算法(一種無指導(dǎo)聚類算法)遺傳算法(可用于有指導(dǎo)學(xué)習(xí)的算法)神經(jīng)網(wǎng)絡(luò)算法(可用于有指導(dǎo)學(xué)習(xí)的算法)
12/8/2022數(shù)據(jù)挖掘的基本算法其它數(shù)據(jù)挖掘算法K-平12/10/2022目錄大數(shù)據(jù)技術(shù)概論云數(shù)據(jù)庫技術(shù)數(shù)據(jù)挖掘技術(shù)商業(yè)智能12/8/2022目錄大數(shù)據(jù)技術(shù)概論12/10/2022BI理解數(shù)據(jù)商務(wù)智能是通過對來自不同的數(shù)據(jù)源進行統(tǒng)一處理及管理,通過靈活的展現(xiàn)方法來幫助企業(yè)進行決策支持。數(shù)據(jù)信息知識決策獲取管理使用12/8/2022BI理解數(shù)據(jù)商務(wù)智能是通過對來自不同的數(shù)據(jù)12/10/2022BI概念商業(yè)智能(BusinessIntelligence,簡稱BI)的概念最早是GartnerGroup于1996年提出來的。當時將商業(yè)智能定義為一類由數(shù)據(jù)倉庫(或數(shù)據(jù)集市)、查詢報表、數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)備份和恢復(fù)等部分組成的、以幫助企業(yè)決策為目的技術(shù)及其應(yīng)用。
目前,商業(yè)智能通常被理解為將企業(yè)中現(xiàn)有的數(shù)據(jù)轉(zhuǎn)化為知識,幫助企業(yè)做出明智的業(yè)務(wù)經(jīng)營決策的工具。從技術(shù)層面上講,商業(yè)智能不是什么新技術(shù),它只是數(shù)據(jù)倉庫、OLAP和數(shù)據(jù)挖掘等技術(shù)的綜合運用。
12/8/2022BI概念商業(yè)智能(BusinessInt12/10/2022商業(yè)智能是一種解決方案,關(guān)鍵是從許多來自不同的企業(yè)運作系統(tǒng)的數(shù)據(jù)中,提取出有用的數(shù)據(jù),進行清理以保證數(shù)據(jù)的正確性,然后經(jīng)過抽?。‥xtraction)、轉(zhuǎn)換(Transformation)和裝載(Load),即ETL過程,合并到一個企業(yè)級的數(shù)據(jù)倉庫里,從而得到企業(yè)數(shù)據(jù)的一個全局視圖,在此基礎(chǔ)上利用合適的查詢和分析工具、數(shù)據(jù)挖掘工具、OLAP工具等對其進行分析和處理(這時信息變?yōu)檩o助決策的知識),最后將知識呈現(xiàn)給管理者,為管理者的決策過程提供支持。12/8/2022商業(yè)智能是一種解決方案,關(guān)鍵是從許多來自不12/10/2022外部數(shù)據(jù)庫MSSQLORACAL外部文件ETL工具大數(shù)據(jù)平臺,數(shù)據(jù)倉庫元數(shù)據(jù)數(shù)據(jù)挖掘OLAP分析信息表現(xiàn)查詢報表數(shù)據(jù)倉庫數(shù)據(jù)模型BI系統(tǒng)用戶元數(shù)據(jù)庫元數(shù)據(jù)數(shù)據(jù)描述用法結(jié)構(gòu)安全設(shè)置數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)查詢請求商業(yè)智能基本過程圖
12/8/2022外部數(shù)據(jù)庫MSORACAL外部大數(shù)12/10/2022信息孤島各自為政,互相獨立財務(wù)分析運營分析客戶分析財務(wù)系統(tǒng)營銷系統(tǒng)服務(wù)系統(tǒng)12/8/2022信息孤島各自為政,互相獨立財務(wù)分析運營分析12/10/2022幫助企業(yè)提高戰(zhàn)略決策建立業(yè)務(wù)單一視圖、消除信息孤島、多角度審視業(yè)務(wù)數(shù)據(jù)提高服務(wù)水平和客戶滿意度敏銳洞悉市場機會加強企業(yè)監(jiān)管、防范欺詐內(nèi)部效益考核優(yōu)化資源科學(xué)決策數(shù)據(jù)倉庫12/8/2022幫助企業(yè)提高戰(zhàn)略決策建立業(yè)務(wù)單一視圖、消除12/10/2022商務(wù)智能對企業(yè)的作用和價值理解業(yè)務(wù):網(wǎng)絡(luò)資源分析產(chǎn)品結(jié)構(gòu)及組合分析服務(wù)質(zhì)量分析業(yè)務(wù)發(fā)展分析理解客戶:客戶貢獻度分析客戶群體劃分客戶行為分析制訂市場營銷策略風(fēng)險分析:客戶流失的測算信用分析欺詐分析內(nèi)部績效考核:產(chǎn)品、部門利潤分析資源分配資源成本分析誰是最好的客戶?如何擴大利潤?如何避免風(fēng)險?收入/成本如何分配?大數(shù)據(jù)平臺、數(shù)據(jù)倉庫12/8/2022商務(wù)智能對企業(yè)的作用和價值理解業(yè)務(wù):理解客12/10/2022數(shù)據(jù)質(zhì)量控制數(shù)據(jù)重新組織EII解決方案數(shù)據(jù)展現(xiàn)數(shù)據(jù)管理數(shù)據(jù)獲取數(shù)據(jù)遷移作業(yè)分配數(shù)據(jù)清洗數(shù)據(jù)倉庫元數(shù)據(jù)管理數(shù)據(jù)集市管理安全性、分析管理企業(yè)商務(wù)智能體系架構(gòu)規(guī)劃最終用戶數(shù)據(jù)質(zhì)量控制數(shù)據(jù)重新組織ETL/DQ解決方案數(shù)據(jù)抽取、遷移、加載周數(shù)據(jù)加載日常數(shù)據(jù)增加日周期數(shù)據(jù)源ETL/EII數(shù)據(jù)存儲管理業(yè)務(wù)模型數(shù)據(jù)展現(xiàn)利潤成本分析資產(chǎn)分析營銷分析投資組合分析平衡計分卡/KPI解決的業(yè)務(wù)問題數(shù)據(jù)分析采購系統(tǒng)生產(chǎn)系統(tǒng)銷售系統(tǒng)財務(wù)系統(tǒng)即席查詢Intranet/Internet產(chǎn)品報告數(shù)據(jù)挖掘例外分析隨即查詢報表例外分析數(shù)據(jù)挖掘決策人員管理人員分析人員業(yè)務(wù)人員實時增量虛擬數(shù)據(jù)倉庫元數(shù)據(jù)管理(運營元數(shù)據(jù)、技術(shù)元數(shù)據(jù)、分析元數(shù)據(jù))IWAYWEBFOCUS數(shù)據(jù)倉庫企業(yè)數(shù)據(jù)模型MDMBWDW12/8/2022數(shù)據(jù)質(zhì)量控制數(shù)據(jù)重新組織EII數(shù)據(jù)展現(xiàn)數(shù)據(jù)12/10/2022決策支持系統(tǒng)解決五個層次的問題以前發(fā)生了什么為什么發(fā)生了現(xiàn)在發(fā)生了什么將來會發(fā)生什么業(yè)務(wù)活動管理12/8/2022決策支持系統(tǒng)解決五個層次的問題以前發(fā)生了什12/10/2022商務(wù)智能5類前端展現(xiàn)的工具固定報表KPI指標即席查詢例外分析數(shù)據(jù)挖掘12/8/2022商務(wù)智能5類前端展現(xiàn)的工具固定報表KPI指12/10/2022Copyright?2005BusinessObjectsGreaterChina.Allrightsreserved.商業(yè)智能應(yīng)用的三個階段階段一:
報表固定報表靈活報表復(fù)雜報表報表共享報表分發(fā)階段二:
查詢分析交互查詢切片鉆取旋轉(zhuǎn)OLAP階段三:
高層次分析AA/DMDSS12/8/2022Copyright?2005Busi12/10/2022商務(wù)智能的5個后臺數(shù)據(jù)處理工具ETL工具實時數(shù)據(jù)抽取數(shù)據(jù)質(zhì)量防火墻元數(shù)據(jù)管理主數(shù)據(jù)管理12/8/2022商務(wù)智能的5個后臺數(shù)據(jù)處理工具ETL工具12/10/2022經(jīng)營分析的關(guān)鍵主題經(jīng)營操作分析決策業(yè)務(wù)發(fā)展的趨勢客戶行為分析風(fēng)險分析競爭優(yōu)勢分析客戶服務(wù)分析營業(yè)收入分析績效考核管理入庫率分析產(chǎn)品組合分析異常預(yù)警分析12/8/2022經(jīng)營分析的關(guān)鍵主題經(jīng)營操作分析決策業(yè)務(wù)發(fā)展12/10/2022分析型客戶關(guān)系管理收入分析市場細分客戶類型地區(qū)年度業(yè)務(wù)部門爭取客戶能力分析市場細分客戶類型地區(qū)年份客戶成本分析市場細分客戶類型地區(qū)年度業(yè)務(wù)部門客戶活動周期分析保留客戶能力分析市場細分客戶類型地區(qū)年份客戶忠誠度分析市場細分客戶類型地區(qū)年份業(yè)務(wù)部門客戶產(chǎn)品毛利分析市場細分客戶類型地區(qū)年度業(yè)務(wù)部門市場細分表現(xiàn)分析市場活動營銷媒體銷售渠道時段目標市場表現(xiàn)分析市場活動營銷媒體銷售渠道時段客戶滿意度分析市場細分客戶類型地區(qū)年份業(yè)務(wù)部門活動最佳/最差客戶分析歷史收入預(yù)測收入平均定單銷售額重復(fù)購買率加權(quán)評分潛在流失客戶分析歷史收入預(yù)測收入客戶滿意度服務(wù)請求加權(quán)評分等等…12/8/2022分析型客戶關(guān)系管理收入分析爭取客戶能力分析12/10/2022客戶分析的關(guān)鍵主題經(jīng)營操作分析決策客戶獲取能力客戶保留能力風(fēng)險分析交叉銷售能力向上銷售能力客戶管理能力客戶輪廓分析客戶行為分析產(chǎn)品組合分析客戶細分分析12/8/2022客戶分析的關(guān)鍵主題經(jīng)營操作分析決策客戶獲取12/10/2022數(shù)據(jù)倉庫建設(shè)應(yīng)以應(yīng)用主題驅(qū)動主題客戶關(guān)系管理問題客戶流失分析客戶消費行為統(tǒng)計客戶群體的細分存運票價的確定和客戶的趨勢分析客戶的滿意程度客戶流失分析獲取新的客戶獲利能力和在目標市場上所占的份額模型f(要素1,要素2…要素n)要素1要素2要素n...業(yè)務(wù)系統(tǒng)網(wǎng)上信息市場數(shù)據(jù)數(shù)據(jù)集市模型問題客戶滿意度分析模型f(要素1,要素2…要素n)要素1要素2要素n...業(yè)務(wù)系統(tǒng)網(wǎng)上信息市場數(shù)據(jù)12/8/2022數(shù)據(jù)倉庫建設(shè)應(yīng)以應(yīng)用主題驅(qū)動主題問題客戶12/10/2022完整的、統(tǒng)一的數(shù)據(jù)模型所有數(shù)據(jù)存儲在單一數(shù)據(jù)庫中提供單一的“實事”數(shù)據(jù)統(tǒng)一數(shù)據(jù)模型是基礎(chǔ)統(tǒng)一數(shù)據(jù)模型客戶服務(wù)財務(wù)人力資源合作伙伴市場營銷銷售產(chǎn)品管理定單管理12/8/2022完整的、統(tǒng)一的數(shù)據(jù)模型統(tǒng)一數(shù)據(jù)模型是基礎(chǔ)客Thanks
Email:songhongjun@
Mobilehanks
Email:songhongjun@sdS大數(shù)據(jù)技術(shù)張博士2015年5月S大數(shù)據(jù)技術(shù)張博士12/10/2022目錄大數(shù)據(jù)技術(shù)概論
云數(shù)據(jù)庫技術(shù)數(shù)據(jù)挖掘技術(shù)商業(yè)智能12/8/2022目錄大數(shù)據(jù)技術(shù)概論12/10/2022BigData名詞由來20世紀90年代,數(shù)據(jù)倉庫之父的BillInmon就經(jīng)常提及BigData2011年5月,在“云計算相遇大數(shù)據(jù)”為主題的EMCWorld2011會議中,EMC拋出了BigData概念12/8/2022BigData名詞由來20世紀90年代,12/10/2022大數(shù)據(jù)的產(chǎn)生21世紀是數(shù)據(jù)信息大發(fā)展的時代,移動互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)等極大拓展了互聯(lián)網(wǎng)的邊界和應(yīng)用范圍,各種數(shù)據(jù)正在迅速膨脹并變大?;ヂ?lián)網(wǎng)(社交、搜索、電商)、移動互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器,智慧地球)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融(銀行、股市、保險)、電信(通話、短信)都在瘋狂產(chǎn)生著數(shù)據(jù)。12/8/2022大數(shù)據(jù)的產(chǎn)生21世紀是數(shù)據(jù)信息大發(fā)展的時代12/10/2022數(shù)量級概念1KB=2(10)B=1024B;1MB=2(10)KB=1024KB=2(20)B;1GB=2(10)MB=1024MB=2(30)B。1TB=2(10)GB=1024GB=2(40)B1PB=2(10)TB=1024TB=2(50)B1EB=2(10)PB=1024PB=2(60)B12/8/2022數(shù)量級概念1KB=2(10)B=1024B12/10/2022數(shù)量級概念Kilobyte(KB)=1024B相當于一則短篇故事的內(nèi)容。Megabyte(MB)=l024KB
相當于一則短篇小說的文字內(nèi)容。Gigabyte(GB)=1024MB相當于貝多芬第五交響樂的演奏視頻內(nèi)容。Terabyte(TB)=1024GB相當于一家大型醫(yī)院中所有的X光照片信息。Petabyte(PB)=l024TB相當于50%的全美學(xué)術(shù)圖書館信息內(nèi)容。Exabyte(EB)=1024PB;5EB相當于至今全世界人類所講過的話語。12/8/2022數(shù)量級概念Kilobyte(KB)=10212/10/2022信息通訊進入新時代12/8/2022信息通訊進入新時代12/10/2022摩爾定律12/8/2022摩爾定律12/10/2022后摩爾時代12/8/2022后摩爾時代12/10/2022計算機演進12/8/2022計算機演進12/10/2022信息計算體系演進12/8/2022信息計算體系演進12/10/2022軟件技術(shù)網(wǎng)絡(luò)化演進12/8/2022軟件技術(shù)網(wǎng)絡(luò)化演進12/10/2022傳輸技術(shù)的發(fā)展12/8/2022傳輸技術(shù)的發(fā)展12/10/2022從移動數(shù)據(jù)到移動流媒體12/8/2022從移動數(shù)據(jù)到移動流媒體12/10/2022移動通信峰值速率的提升12/8/2022移動通信峰值速率的提升12/10/2022互聯(lián)網(wǎng)發(fā)展:從電信到泛在服務(wù)12/8/2022互聯(lián)網(wǎng)發(fā)展:從電信到泛在服務(wù)12/10/2022聯(lián)網(wǎng)主機數(shù)量12/8/2022聯(lián)網(wǎng)主機數(shù)量12/10/2022電視網(wǎng)絡(luò)化智能化與三網(wǎng)合一12/8/2022電視網(wǎng)絡(luò)化智能化與三網(wǎng)合一12/10/2022視頻流量成為主流12/8/2022視頻流量成為主流12/10/2022全球骨干網(wǎng)流量12/8/2022全球骨干網(wǎng)流量12/10/2022中國互聯(lián)網(wǎng)干線帶寬12/8/2022中國互聯(lián)網(wǎng)干線帶寬12/10/2022中國互聯(lián)網(wǎng)用戶12/8/2022中國互聯(lián)網(wǎng)用戶12/10/2022移動終端功能的演進12/8/2022移動終端功能的演進12/10/2022移動互聯(lián)網(wǎng)加快普及12/8/2022移動互聯(lián)網(wǎng)加快普及12/10/2022智能終端引領(lǐng)后PC時代12/8/2022智能終端引領(lǐng)后PC時代12/10/2022移動數(shù)據(jù)流量超過話音12/8/2022移動數(shù)據(jù)流量超過話音12/10/2022全球移動數(shù)據(jù)流量12/8/2022全球移動數(shù)據(jù)流量12/10/2022移動互聯(lián)網(wǎng)流量12/8/2022移動互聯(lián)網(wǎng)流量12/10/2022互聯(lián)網(wǎng)上1分鐘12/8/2022互聯(lián)網(wǎng)上1分鐘12/10/2022互聯(lián)網(wǎng)上的1天12/8/2022互聯(lián)網(wǎng)上的1天12/10/2022照片12/8/2022照片12/10/2022大數(shù)據(jù)時代到來12/8/2022大數(shù)據(jù)時代到來12/10/2022大數(shù)據(jù)定義12/8/2022大數(shù)據(jù)定義12/10/2022大數(shù)據(jù)例子12/8/2022大數(shù)據(jù)例子12/10/2022科學(xué)研究催生大數(shù)據(jù)12/8/2022科學(xué)研究催生大數(shù)據(jù)12/10/2022物聯(lián)網(wǎng)催生大數(shù)據(jù)12/8/2022物聯(lián)網(wǎng)催生大數(shù)據(jù)12/10/2022安全監(jiān)控的數(shù)據(jù)量12/8/2022安全監(jiān)控的數(shù)據(jù)量12/10/2022環(huán)境監(jiān)測催生大數(shù)據(jù)12/8/2022環(huán)境監(jiān)測催生大數(shù)據(jù)12/10/2022醫(yī)療病歷隱藏大數(shù)據(jù)12/8/2022醫(yī)療病歷隱藏大數(shù)據(jù)12/10/2022國際關(guān)注大數(shù)據(jù)12/8/2022國際關(guān)注大數(shù)據(jù)12/10/2022大數(shù)據(jù)的4V特征“大量化(Volume)、多樣化(Variety)、快速化(Velocity)、價值密度低(Value)”就是“大數(shù)據(jù)”的顯著特征,或者說,只有具備這些特點的數(shù)據(jù),才是大數(shù)據(jù)。體量Volume多樣性Variety價值密度Value速度Velocity非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長總數(shù)據(jù)量的80~90%比結(jié)構(gòu)化數(shù)據(jù)增長快10倍到50倍是傳統(tǒng)數(shù)據(jù)倉庫的10倍到50倍大數(shù)據(jù)的異構(gòu)和多樣性很多不同形式(文本、圖像、視頻、機器數(shù)據(jù))無模式或者模式不明顯不連貫的語法或句義大量的不相關(guān)信息對未來趨勢與模式的可預(yù)測分析深度復(fù)雜分析(機器學(xué)習(xí)、人工智能Vs傳統(tǒng)商務(wù)智能(咨詢、報告等)實時分析而非批量式分析數(shù)據(jù)輸入、處理與丟棄立竿見影而非事后見效12/8/2022大數(shù)據(jù)的4V特征“大量化(Volume)、12/10/2022大數(shù)據(jù)的4V12/8/2022大數(shù)據(jù)的4V12/10/2022大數(shù)據(jù)的劃分12/8/2022大數(shù)據(jù)的劃分12/10/2022大數(shù)據(jù)技術(shù)挑戰(zhàn)12/8/2022大數(shù)據(jù)技術(shù)挑戰(zhàn)12/10/2022大數(shù)據(jù)技術(shù)挑戰(zhàn)12/8/2022大數(shù)據(jù)技術(shù)挑戰(zhàn)12/10/2022大數(shù)據(jù)平臺技術(shù)12/8/2022大數(shù)據(jù)平臺技術(shù)12/10/2022分布式存儲與架構(gòu)12/8/2022分布式存儲與架構(gòu)12/10/2022大數(shù)據(jù)的并行處理12/8/2022大數(shù)據(jù)的并行處理12/10/2022大數(shù)據(jù)并行處理分析12/8/2022大數(shù)據(jù)并行處理分析12/10/2022大數(shù)據(jù)可視化分析12/8/2022大數(shù)據(jù)可視化分析12/10/2022虛擬化與可視化12/8/2022虛擬化與可視化12/10/2022大數(shù)據(jù)可視化12/8/2022大數(shù)據(jù)可視化12/10/2022目錄大數(shù)據(jù)技術(shù)概論云數(shù)據(jù)庫技術(shù)數(shù)據(jù)挖掘技術(shù)商業(yè)智能12/8/2022目錄大數(shù)據(jù)技術(shù)概論12/10/2022Google云數(shù)據(jù)庫12/8/2022Google云數(shù)據(jù)庫12/10/2022Google云數(shù)據(jù)庫12/8/2022Google云數(shù)據(jù)庫12/10/2022Google云數(shù)據(jù)庫12/8/2022Google云數(shù)據(jù)庫12/10/2022Google云數(shù)據(jù)庫GFS架構(gòu)12/8/2022Google云數(shù)據(jù)庫GFS架構(gòu)12/10/2022Google云數(shù)據(jù)庫12/8/2022Google云數(shù)據(jù)庫12/10/2022Google云數(shù)據(jù)庫12/8/2022Google云數(shù)據(jù)庫12/10/2022Google云數(shù)據(jù)庫12/8/2022Google云數(shù)據(jù)庫12/10/2022Google云數(shù)據(jù)庫12/8/2022Google云數(shù)據(jù)庫12/10/2022Google云數(shù)據(jù)庫12/8/2022Google云數(shù)據(jù)庫12/10/2022Google云數(shù)據(jù)庫12/8/2022Google云數(shù)據(jù)庫12/10/2022GoogleVsHadoop12/8/2022GoogleVsHadoop12/10/2022Haddop是什么12/8/2022Haddop是什么12/10/2022Hadoop發(fā)展編年12/8/2022Hadoop發(fā)展編年12/10/202212/8/202212/10/2022Hadoop子項目12/8/2022Hadoop子項目12/10/2022Hadoop特性12/8/2022Hadoop特性12/10/202212/8/202212/10/2022Hadoop物理部署12/8/2022Hadoop物理部署12/10/2022Hadoop集群12/8/2022Hadoop集群12/10/2022Hadoop用戶12/8/2022Hadoop用戶12/10/2022HDFS12/8/2022HDFS12/10/2022HDFS12/8/2022HDFS12/10/2022HDFS能做什么適合不適合12/8/2022HDFS能做什么適合12/10/2022HDFS組件12/8/2022HDFS組件12/10/2022HDFS主要組件功能12/8/2022HDFS主要組件功能12/10/2022HDFS架構(gòu)12/8/2022HDFS架構(gòu)12/10/2022HDFS文件12/8/2022HDFS文件12/10/2022HDFSNameNode12/8/2022HDFSNameNode12/10/202212/8/202212/10/2022HDFSDataNode12/8/2022HDFSDataNode12/10/2022HDFS可靠性保障12/8/2022HDFS可靠性保障12/10/2022HDFS可靠性保障12/8/2022HDFS可靠性保障12/10/2022HDFS可靠性保障12/8/2022HDFS可靠性保障12/10/2022提升性能的措施12/8/2022提升性能的措施12/10/2022HDFS:節(jié)點失效是常態(tài)12/8/2022HDFS:節(jié)點失效是常態(tài)12/10/2022DataNode磁盤掛了12/8/2022DataNode磁盤掛了12/10/2022DataNode機器掛了12/8/2022DataNode機器掛了12/10/2022NameNode掛了12/8/2022NameNode掛了12/10/202212/8/202212/10/2022Client掛了12/8/2022Client掛了12/10/2022MR+HBase12/8/2022MR+HBase12/10/2022WhyMapReduce?12/8/2022WhyMapReduce?12/10/2022大規(guī)模數(shù)據(jù)分析12/8/2022大規(guī)模數(shù)據(jù)分析12/10/2022大規(guī)模數(shù)據(jù)處理12/8/2022大規(guī)模數(shù)據(jù)處理12/10/2022MR特性12/8/2022MR特性12/10/2022M+R12/8/2022M+R12/10/202212/8/202212/10/2022MR編程12/8/2022MR編程12/10/202212/8/202212/10/202212/8/202212/10/202212/8/202212/10/202212/8/202212/10/2022單一Reduce處理12/8/2022單一Reduce處理12/10/2022多個Reduce處理12/8/2022多個Reduce處理12/10/2022MR流程12/8/2022MR流程12/10/202212/8/202212/10/2022目錄大數(shù)據(jù)技術(shù)概論云數(shù)據(jù)庫技術(shù)數(shù)據(jù)挖掘技術(shù)商業(yè)智能12/8/2022目錄大數(shù)據(jù)技術(shù)概論12/10/2022數(shù)據(jù)挖掘技術(shù)的由來大量信息在給人們帶來方便的同時也帶來了一大堆問題:第一:是信息過量,難以消化;第二:是信息真假難以辨識;第三:是信息安全難以保證;第四:是信息形式不一致,難以統(tǒng)一處理。
網(wǎng)絡(luò)之后的下一個技術(shù)熱點
12/8/2022數(shù)據(jù)挖掘技術(shù)的由來大量信息在給人們帶來方便12/10/2022數(shù)據(jù)挖掘技術(shù)的由來“要學(xué)會拋棄信息”“如何才能不被信息淹沒,而是從中及時發(fā)現(xiàn)有用的知識、提高信息利用率?”數(shù)據(jù)開采和知識發(fā)現(xiàn)(DMKD)技術(shù)應(yīng)運而生
網(wǎng)絡(luò)之后的下一個技術(shù)熱點
12/8/2022數(shù)據(jù)挖掘技術(shù)的由來“要學(xué)會拋棄信息”網(wǎng)絡(luò)12/10/2022數(shù)據(jù)挖掘技術(shù)的由來
隨著數(shù)據(jù)庫技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來越多。激增的數(shù)據(jù)背后隱藏著許多重要的信息,人們希望能夠?qū)ζ溥M行更高層次的分析,以便更好地利用這些數(shù)據(jù)。
目前的數(shù)據(jù)庫系統(tǒng)可以高效地實現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。缺乏挖掘數(shù)據(jù)背后隱藏的知識的手段,導(dǎo)致了“數(shù)據(jù)爆炸但知識貧乏”的現(xiàn)象。數(shù)據(jù)爆炸但知識貧乏12/8/2022數(shù)據(jù)挖掘技術(shù)的由來 隨著數(shù)據(jù)庫技術(shù)的迅速發(fā)12/10/2022數(shù)據(jù)挖掘技術(shù)的由來海量數(shù)據(jù)搜集強大的多處理器計算機數(shù)據(jù)挖掘算法支持數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)
12/8/2022數(shù)據(jù)挖掘技術(shù)的由來海量數(shù)據(jù)搜集支持數(shù)據(jù)挖掘12/10/2022數(shù)據(jù)挖掘技術(shù)的由來從商業(yè)數(shù)據(jù)到商業(yè)信息的進化
進化階段商業(yè)問題支持技術(shù)產(chǎn)品廠家產(chǎn)品特點數(shù)據(jù)搜集(60年代)“過去五年中我的總收入是多少?”計算機,磁帶和磁盤IBM,CDC提供歷史性的、靜態(tài)的數(shù)據(jù)信息數(shù)據(jù)訪問(80年代)“在新英格蘭的分部去年三月的銷售額是多少?”關(guān)系數(shù)據(jù)庫(RDBMS),結(jié)構(gòu)化查詢語言(SQL),ODBC,Oracle,Sybase,Informix,IBM,MicrosoftOracle,Sybase,Informix,IBM,Microsoft在記錄級提供歷史性的、動態(tài)數(shù)據(jù)信息數(shù)據(jù)倉庫;決策支持(90年代)“在新英格蘭的分部去年三月的銷售額是多少?波士頓據(jù)此可得出什么結(jié)論?”聯(lián)機分析處理(OLAP),多維數(shù)據(jù)庫,數(shù)據(jù)倉庫Pilot,Comshare,Arbor,Cognos,Microstrategy在各種層次上提供回溯的、動態(tài)的數(shù)據(jù)信息數(shù)據(jù)挖掘(正在流行)“下個月波士頓的銷售會怎么樣?為什么?”高級算法,多處理器計算機,海量數(shù)據(jù)庫Pilot,Lockheed,IBM,SGI,其他初創(chuàng)公司提供預(yù)測性的信息12/8/2022數(shù)據(jù)挖掘技術(shù)的由來從商業(yè)數(shù)據(jù)到商業(yè)信息的進12/10/2022數(shù)據(jù)挖掘技術(shù)的由來數(shù)據(jù)挖掘逐漸演變的過程
算法學(xué)習(xí)專家系統(tǒng)機器學(xué)習(xí)12/8/2022數(shù)據(jù)挖掘技術(shù)的由來數(shù)據(jù)挖掘逐漸演變的過程12/10/2022數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
技術(shù)上的定義及含義
12/8/2022數(shù)據(jù)挖掘的定義 數(shù)據(jù)挖掘(DataMin12/10/2022數(shù)據(jù)挖掘的定義數(shù)據(jù)源必須是真實的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識;發(fā)現(xiàn)的知識要可接受、可理解、可運用;并不要求發(fā)現(xiàn)放之四海皆準的知識,僅支持特定的發(fā)現(xiàn)問題技術(shù)上的定義及含義
12/8/2022數(shù)據(jù)挖掘的定義數(shù)據(jù)源必須是真實的、大量的、12/10/2022數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。按企業(yè)既定業(yè)務(wù)目標,對大量的企業(yè)數(shù)據(jù)進行探索和分析,揭示隱藏的、未知的或驗證已知的規(guī)律性,并進一步將其模型化的先進有效的方法。
商業(yè)角度的定義
12/8/2022數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘是一種新12/10/2022數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(如查詢、報表、聯(lián)機應(yīng)用分析)的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識.數(shù)據(jù)挖掘所得到的信息應(yīng)具有先未知,有效和可實用三個特征.
數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別
12/8/2022數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)12/10/2022數(shù)據(jù)挖掘的定義
數(shù)據(jù)倉庫是為決策支持而不是為事務(wù)處理所設(shè)計的數(shù)據(jù)庫,它是將不同來源的事務(wù)處理數(shù)據(jù)庫中對決策有用的數(shù)據(jù)提取出來而建立。
數(shù)據(jù)倉庫的發(fā)展是數(shù)據(jù)挖掘的動力之一。但數(shù)據(jù)挖掘既可以在數(shù)據(jù)倉庫中進行,也可以在傳統(tǒng)的事務(wù)型數(shù)據(jù)庫中進行。數(shù)據(jù)挖掘和數(shù)據(jù)倉庫
12/8/2022數(shù)據(jù)挖掘的定義 數(shù)據(jù)倉庫是為決策支持而不是12/10/2022數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘和數(shù)據(jù)倉庫
數(shù)據(jù)源數(shù)據(jù)倉庫各分公司數(shù)據(jù)集分析數(shù)據(jù)集數(shù)據(jù)挖掘數(shù)據(jù)集12/8/2022數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘和數(shù)據(jù)倉庫數(shù)據(jù)源數(shù)12/10/2022數(shù)據(jù)挖掘的定義在線分析處理(OLAP,On-Lineanalyticalprocessing)是一種增強的查詢技術(shù),是決策支持領(lǐng)域的一部分。但又不同于傳統(tǒng)的查詢技術(shù)。傳統(tǒng)的查詢和報表工具是告訴你數(shù)據(jù)庫中都有什么(whathappened),OLAP則更進一步告訴你下一步會怎么樣(Whatnext)、和如果我采取這樣的措施又會怎么樣(Whatif)。用戶首先建立一個假設(shè),然后用OLAP檢索數(shù)據(jù)庫來驗證這個假設(shè)是否正確。數(shù)據(jù)挖掘和在線分析處理
12/8/2022數(shù)據(jù)挖掘的定義在線分析處理(OLAP,O12/10/2022數(shù)據(jù)挖掘的定義比如,一個分析師想找到什么原因?qū)е铝速J款拖欠,他可能先做一個初始的假定,認為低收入的人信用度也低,然后用OLAP來驗證他這個假設(shè)。如果這個假設(shè)沒有被證實,他可能去察看那些高負債的賬戶,如果還不行,他也許要把收入和負債一起考慮,一直進行下去,直到找到他想要的結(jié)果或放棄。
數(shù)據(jù)挖掘和在線分析處理
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 生產(chǎn)服裝購銷合同協(xié)議
- 電力護線用工合同協(xié)議
- 電子保理付款服務(wù)合同協(xié)議
- 瑕疵客戶購車合同協(xié)議
- 電腦購置電腦合同協(xié)議
- 電動汽車消費合同協(xié)議
- 現(xiàn)金合作協(xié)議合同協(xié)議
- 生產(chǎn)委托運營合同協(xié)議
- 生態(tài)豬銷售合同協(xié)議
- 甜品店租賃合同協(xié)議
- 專題13 統(tǒng)計與概率-【好題匯編】五年(2020-2024)高考數(shù)學(xué)真題分類匯編(含答案解析)
- 國家開放大學(xué)本科(非英語專業(yè))學(xué)士學(xué)位英語統(tǒng)一考試樣題
- GB/T 44273-2024水力發(fā)電工程運行管理規(guī)范
- DB65-T 4765-2024 農(nóng)牧區(qū)標準化羊場建設(shè)規(guī)范
- 城軌行車課程設(shè)計
- 2024年南京市中考歷史試題及答案
- 2024羽毛球教案36課時
- A類供應(yīng)商績效評價表
- 攝影攝像知識競賽考試題庫500題(含答案)
- 2024至2030年中國丹參行業(yè)市場發(fā)展監(jiān)測及投資潛力預(yù)測報告
- GB/T 44218-2024微型揚聲器測量方法
評論
0/150
提交評論