數(shù)據(jù)庫概論 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘_第1頁
數(shù)據(jù)庫概論 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘_第2頁
數(shù)據(jù)庫概論 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘_第3頁
數(shù)據(jù)庫概論 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘_第4頁
數(shù)據(jù)庫概論 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘_第5頁
已閱讀5頁,還剩150頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)庫概論數(shù)據(jù)倉庫與數(shù)據(jù)挖掘簡(jiǎn)介目錄數(shù)據(jù)倉庫鳥瞰:萬川匯海,吐納丹田數(shù)據(jù)挖掘算法原理:知其所以然數(shù)據(jù)挖掘應(yīng)用示例:知行合一大規(guī)模數(shù)據(jù)分析:九天攬?jiān)?,五洋捉鱉概念架構(gòu)建模開發(fā)數(shù)據(jù)倉庫簡(jiǎn)介囚徒困境囚徒乙坦白抵賴囚徒甲坦白(-8,-8)(0,-10)抵賴(-10,0)(-1,-1)titfortatonetitfortwotatstwotitsforonetat博弈智豬博弈小豬按等待大豬按(5,1)(4,4)等待(9,-1)(0,0)博弈決策支持系統(tǒng)正確決策—企業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì)錯(cuò)、錯(cuò)、錯(cuò)在錯(cuò)誤的時(shí)間、錯(cuò)誤的地點(diǎn)、同錯(cuò)誤的對(duì)手打了一場(chǎng)錯(cuò)誤的戰(zhàn)爭(zhēng)噬臍何及合九州六十四縣鐵,不能鑄成此大錯(cuò)也避免三拍決策拍腦袋決策拍巴掌通過拍屁股走人商務(wù)智能QueryDataAnalysisInformationDataminingKnowledge從數(shù)據(jù)到知識(shí)WearedrowningindatabutstarvedofinformationBusinessIntelligenceisaprocessofturningdataintoknowledgeandknowledgeintoactionforbusinessgain商務(wù)智能標(biāo)準(zhǔn)報(bào)告

多少、頻率及地點(diǎn)?發(fā)生了什么特定報(bào)告問題究竟出在哪里?質(zhì)問、刨根問底警報(bào)為什么這件事會(huì)發(fā)生?需要采取什么行動(dòng)?統(tǒng)計(jì)分析趨勢(shì)持續(xù)下去會(huì)怎樣?預(yù)測(cè)、外推下一步將發(fā)生什么?預(yù)測(cè)模型可能發(fā)生的最好結(jié)果是什么??jī)?yōu)化智能程度競(jìng)爭(zhēng)優(yōu)勢(shì)報(bào)告型分析型企業(yè)活動(dòng)的層次結(jié)構(gòu)戰(zhàn)略計(jì)劃層管理控制和戰(zhàn)術(shù)計(jì)劃層作業(yè)計(jì)劃與控制層決定戰(zhàn)略目標(biāo)資源有效利用完成具體活動(dòng)安東尼模型面向高層的戰(zhàn)略信息哪些客戶對(duì)我們最有利?如何拓展與他們的聯(lián)系?哪些客戶給我們提供利潤(rùn)?哪些客戶使我們?cè)馐軗p失?根據(jù)他們經(jīng)常光顧的商店,最好的客戶居住在哪里?哪些產(chǎn)品和服務(wù)能被最有效的進(jìn)行交叉銷售,銷售對(duì)象是誰?哪些市場(chǎng)營銷案例是最成功的?為什么?哪些銷售渠道對(duì)于哪些產(chǎn)品是最有效的?如何才能改善我們用戶的總體經(jīng)歷?戰(zhàn)略信息的特征綜合性完整性可用性及時(shí)性面向高層的戰(zhàn)略信息提供戰(zhàn)略信息的環(huán)境提供全局的、一致的信息視角提供統(tǒng)一的數(shù)據(jù)分析源滿足決策者動(dòng)態(tài)變化的需求能夠讓決策者親力親為必須把分析型數(shù)據(jù)從事務(wù)處理環(huán)境中提取出來,按照DSS處理的需要進(jìn)行重新組織,建立單獨(dú)的分析處理環(huán)境。數(shù)據(jù)倉庫應(yīng)運(yùn)而生為什么需要數(shù)據(jù)倉庫未有……之前搜索特定的數(shù)據(jù)源生成特定的抽取程序集成數(shù)據(jù)匯總數(shù)據(jù)尋找歷史數(shù)據(jù)需求決定服務(wù)分工提高效率上帝說:要有光基于數(shù)據(jù)倉庫的戰(zhàn)略信息環(huán)境提供對(duì)企業(yè)的綜合而完整的概括提供決策所需的當(dāng)前和歷史數(shù)據(jù)決策處理不妨礙操作型系統(tǒng)提供一個(gè)靈活交互的戰(zhàn)略信息來源百分百用戶驅(qū)動(dòng)非常適合提問-回答-再提問的模式信息的正確性、完備性、簡(jiǎn)明性+訪問的靈活性數(shù)據(jù)倉庫是一個(gè)數(shù)據(jù)集合面向主題的集成的相對(duì)穩(wěn)定的反映歷史變化的用于支持管理決策ETL工具中央數(shù)據(jù)倉庫關(guān)系數(shù)據(jù)應(yīng)用包歷史數(shù)據(jù)外部數(shù)據(jù)數(shù)據(jù)倉庫的定義數(shù)據(jù)倉庫是一個(gè)信息傳遞環(huán)境,使用所有已經(jīng)存在的數(shù)據(jù),通過清洗和轉(zhuǎn)化,提供有用的決策信息

采購數(shù)據(jù)庫銷售數(shù)據(jù)庫供應(yīng)商商品顧客庫存數(shù)據(jù)庫數(shù)據(jù)倉庫的定義:面向主題的數(shù)據(jù)源1數(shù)據(jù)源2抽取器抽取器合成器數(shù)據(jù)倉庫數(shù)據(jù)倉庫的定義:集成的部門級(jí)數(shù)據(jù)倉庫小型的、面向部門或工作組的數(shù)據(jù)倉庫自頂向下vs自底向上是先了解公司整體情況,自頂向下地建立一個(gè)全局?jǐn)?shù)據(jù)倉庫,還是根據(jù)部門具體需求,自底向上地建立部門級(jí)的數(shù)據(jù)集市?建設(shè)速度、實(shí)施風(fēng)險(xiǎn)、投資費(fèi)用、數(shù)據(jù)一致、管理控制數(shù)據(jù)集市眼高手低:全局視角+逐步實(shí)施數(shù)據(jù)倉庫體系結(jié)構(gòu)源數(shù)據(jù)庫數(shù)據(jù)抽取、轉(zhuǎn)換、裝載ETL工具數(shù)據(jù)建模工具中央元數(shù)據(jù)數(shù)據(jù)集市數(shù)據(jù)訪問和分析工具終端用戶DW工具中央數(shù)據(jù)倉庫中央數(shù)據(jù)倉庫中間層中間層數(shù)據(jù)集市數(shù)據(jù)集市局部元數(shù)據(jù)局部元數(shù)據(jù)局部元數(shù)據(jù)元數(shù)據(jù)交換終端用戶DW工具終端用戶DW工具多維數(shù)據(jù)庫關(guān)系數(shù)據(jù)應(yīng)用包歷史數(shù)據(jù)外部數(shù)據(jù)數(shù)據(jù)清理工具關(guān)系數(shù)據(jù)庫關(guān)系數(shù)據(jù)庫DW管理工具獲取->存儲(chǔ)->傳遞多維MD體系結(jié)構(gòu)企業(yè)信息工廠CIF體系結(jié)構(gòu)獨(dú)立的數(shù)據(jù)集市架構(gòu)聯(lián)邦式數(shù)據(jù)倉庫架構(gòu)集中式架構(gòu)集線器和車輪輻條架構(gòu)總線架構(gòu)數(shù)據(jù)倉庫架構(gòu)類型數(shù)據(jù)倉庫總線結(jié)構(gòu)令人生畏的企業(yè)數(shù)據(jù)倉庫規(guī)劃困境有什么:各種數(shù)據(jù)源要什么:滿足高層需要老死不相往來的獨(dú)立數(shù)據(jù)集市災(zāi)難不兼容性有損于整體企業(yè)視圖的一致性獨(dú)立數(shù)據(jù)集市的實(shí)施妨礙整體數(shù)據(jù)倉庫的開發(fā)數(shù)據(jù)倉庫總線:整體視圖,逐步實(shí)施數(shù)據(jù)集市:逐步實(shí)施的數(shù)據(jù)倉庫一致性維度+標(biāo)準(zhǔn)化事實(shí)數(shù)據(jù)倉庫總線結(jié)構(gòu)購買訂單商場(chǎng)庫存商場(chǎng)營銷日期產(chǎn)品存儲(chǔ)提升倉庫供應(yīng)商運(yùn)輸商維度建?;靖拍頔R模型蜘蛛網(wǎng)結(jié)構(gòu)關(guān)注局部聯(lián)系適合部門業(yè)務(wù)處理爬行路徑發(fā)現(xiàn)實(shí)體間的聯(lián)系低層信息需求某一訂單的顧客是誰?某一訂單包括哪些商品?維度建?;靖拍铑櫩陀唵斡唵蚊骷?xì)雇員貨運(yùn)產(chǎn)品目錄供應(yīng)商人口統(tǒng)計(jì)區(qū)域維度建?;靖拍罡邔有畔⑿枨箐N售量下降的原因是什么?哪些客戶的購物行為相同?金牌客戶的特征是什么?多維模型:維+度量對(duì)一些統(tǒng)計(jì)指標(biāo)(銷售額)從不同角度(維:時(shí)間、地區(qū)、商品類型、客戶)展開分析維度建?;靖拍钣唵萎a(chǎn)品顧客貨運(yùn)供貨商事實(shí)表+維表維度建?;靖拍钍聦?shí):業(yè)務(wù)度量值事實(shí)必須是數(shù)字類型和可加的事實(shí)表:存放大量的業(yè)務(wù)性能度量值每個(gè)商店每種商品每天的銷售數(shù)量和銷售額維:分析的角度禮、義、廉、恥,國之四維四維不張,國乃滅亡天柱折、地維絕維度表:富有意義的文字性描述,提供詳細(xì)的業(yè)務(wù)用語屬性,查詢與報(bào)表的來源維度建?;靖拍钚切湍J揭允聦?shí)為依據(jù)以法律為準(zhǔn)繩維度建?;靖拍钛┗J綌?shù)據(jù)倉庫項(xiàng)目:開發(fā)方法數(shù)據(jù)庫:基于確定的業(yè)務(wù)處理需求、確定的數(shù)據(jù)流數(shù)據(jù)倉庫:需求不確切,沒有固定模式,用戶對(duì)分析處理需求不甚明了給我看一下我說我想要的東西,然后我告訴你我真正想要什么既然我看到了我能夠做什么,我就能告訴你是真正有用的什么數(shù)據(jù)庫:開始于需求,結(jié)束于代碼數(shù)據(jù)倉庫:開始于數(shù)據(jù),結(jié)束于需求數(shù)據(jù)倉庫項(xiàng)目:變革運(yùn)動(dòng)超過50%的數(shù)據(jù)倉庫項(xiàng)目是失敗的要點(diǎn):數(shù)據(jù)倉庫項(xiàng)目會(huì)帶來組織結(jié)構(gòu)上的變化協(xié)調(diào)部門利益,打破條塊分割改革中普遍的人性“曾經(jīng)闊氣的要復(fù)古,正在闊氣的要保持現(xiàn)狀,未曾闊氣的要革新,大抵如此,大抵”“他的敵人會(huì)堅(jiān)決報(bào)復(fù)他,而他的朋友則不會(huì)同樣熱心地保護(hù)他”關(guān)鍵:領(lǐng)導(dǎo)者的決心與參與數(shù)據(jù)倉庫項(xiàng)目:指導(dǎo)原則發(fā)起者的地位:來自管理者的強(qiáng)有力支持項(xiàng)目經(jīng)理:應(yīng)更多地面向用戶,而非技術(shù)團(tuán)隊(duì)角色:對(duì)應(yīng)每個(gè)獨(dú)立的數(shù)據(jù)倉庫項(xiàng)目需求數(shù)據(jù)質(zhì)量:質(zhì)量、質(zhì)量、第三個(gè)質(zhì)量用戶需求:驅(qū)動(dòng)力考慮增長(zhǎng)的因素:不斷增加的用戶和查詢及數(shù)據(jù)規(guī)模項(xiàng)目政治影響:會(huì)給各個(gè)層次的用戶帶來沖擊現(xiàn)實(shí)的期望:確立合理的、逐步的、可達(dá)的期望維度建模:數(shù)據(jù)倉庫藍(lán)圖外部數(shù)據(jù):數(shù)據(jù)倉庫必需品培訓(xùn):數(shù)據(jù)倉庫價(jià)值體現(xiàn)在它的使用上數(shù)據(jù)倉庫項(xiàng)目:特別之處數(shù)據(jù)倉庫項(xiàng)目范圍更廣、更復(fù)雜、技術(shù)龐雜多請(qǐng)教領(lǐng)域?qū)<乙饘?duì)元數(shù)據(jù)的足夠重視重視基礎(chǔ)結(jié)構(gòu)的設(shè)計(jì)和建造讓最終用戶參與項(xiàng)目的每個(gè)階段并行開發(fā)迭代式開發(fā)數(shù)據(jù)倉庫項(xiàng)目:團(tuán)隊(duì)執(zhí)行負(fù)責(zé)人決定方向,支持并仲裁項(xiàng)目經(jīng)理分配任務(wù),檢查并控制進(jìn)度用戶聯(lián)絡(luò)經(jīng)理與用戶群合并體系結(jié)構(gòu)總設(shè)計(jì)設(shè)計(jì)體系結(jié)構(gòu)基礎(chǔ)設(shè)施專家設(shè)計(jì)和建設(shè)基礎(chǔ)設(shè)施商業(yè)分析師需求定義數(shù)據(jù)建模人員相關(guān)性和維度建模數(shù)據(jù)倉庫管理員類似數(shù)據(jù)庫管理員的職能數(shù)據(jù)轉(zhuǎn)換專家數(shù)據(jù)抽取、整合、轉(zhuǎn)換質(zhì)量保證分析師數(shù)據(jù)倉庫中的質(zhì)量控制測(cè)試協(xié)調(diào)員程序、系統(tǒng)和工具測(cè)試最終用戶應(yīng)用程序?qū)<覕?shù)據(jù)含義和關(guān)系的確認(rèn)開發(fā)程序員內(nèi)部程序和腳本的編寫培訓(xùn)經(jīng)理協(xié)調(diào)用戶和團(tuán)隊(duì)的培訓(xùn)數(shù)據(jù)倉庫項(xiàng)目:準(zhǔn)備工作數(shù)據(jù)倉庫項(xiàng)目:起點(diǎn)區(qū)分業(yè)務(wù)需求優(yōu)先級(jí)主題A主題B主題C主題D潛在業(yè)務(wù)影響可行性高高低低數(shù)據(jù)倉庫項(xiàng)目:起點(diǎn)儀表盤、計(jì)分卡是合適的主題嗎?包含多個(gè)業(yè)務(wù)過程的關(guān)鍵績(jī)效度量需要從所有業(yè)務(wù)過程提取數(shù)據(jù)需要詳備的細(xì)節(jié)數(shù)據(jù)最大的誘惑,最壞的起點(diǎn)最大風(fēng)險(xiǎn)是不了解數(shù)據(jù)方面的困難數(shù)據(jù)倉庫項(xiàng)目:ETL數(shù)據(jù)的抽取、轉(zhuǎn)換、裝載數(shù)據(jù)清洗缺失數(shù)據(jù)噪音數(shù)據(jù)不一致數(shù)據(jù)數(shù)據(jù)集成ETL占數(shù)據(jù)倉庫項(xiàng)目總工作量的50%到70%超過50%的人認(rèn)為數(shù)據(jù)質(zhì)量是最大的挑戰(zhàn)數(shù)據(jù)倉庫項(xiàng)目:維度設(shè)計(jì)大維度客戶維、產(chǎn)品維快速變化維客戶人口統(tǒng)計(jì)信息蜈蚣狀星型模式其他:廢棄維度、多角色維度、多層次維度、多對(duì)多維度項(xiàng)目規(guī)劃業(yè)務(wù)需求定義技術(shù)架構(gòu)設(shè)計(jì)產(chǎn)品選擇與安裝維度建模物理設(shè)計(jì)ETL設(shè)計(jì)與開發(fā)部署維護(hù)與增長(zhǎng)BI應(yīng)用程序規(guī)范BI應(yīng)用程序開發(fā)項(xiàng)目管理數(shù)據(jù)倉庫開發(fā):業(yè)務(wù)維生命周期實(shí)時(shí)數(shù)據(jù)倉庫ODS實(shí)時(shí)分區(qū)面向主題的、集成的、細(xì)節(jié)的、可變的、當(dāng)前的。用于支持全局業(yè)務(wù)處理和日常管理控制操作。延遲:啤酒商游戲主動(dòng):所有習(xí)慣中最好的那個(gè)信用卡欺詐檢測(cè)呼叫中心進(jìn)行直接的客戶營銷商場(chǎng)及時(shí)補(bǔ)充特定日期的商品基于客戶價(jià)值,給予靈活的折扣情境感知商務(wù)智能SituationalBusinessIntelligence外部事件和企業(yè)業(yè)務(wù)流程的結(jié)合wordofmouse危機(jī)公關(guān):謠言止于迅速、坦承敏感事件:受當(dāng)前風(fēng)暴影響的保險(xiǎn)單有哪些?博客營銷:基于京東、淘寶、新浪博客,給出客戶對(duì)八百萬像素且價(jià)格低于2000元的數(shù)碼相機(jī)的反應(yīng)情境感知商務(wù)智能Internet的半結(jié)構(gòu)化數(shù)據(jù)與企業(yè)內(nèi)部結(jié)構(gòu)化數(shù)據(jù)的融合數(shù)據(jù)源識(shí)別實(shí)體抽取模式抽取數(shù)據(jù)清洗數(shù)據(jù)融合“水太涼”“頭皮癢”聯(lián)機(jī)分析處理數(shù)理統(tǒng)計(jì)掠影數(shù)據(jù)挖掘概念、流程關(guān)聯(lián)分析分類決策樹最近鄰貝葉斯分類神經(jīng)網(wǎng)絡(luò)支持向量機(jī)聚類數(shù)據(jù)挖掘算法原理尋找影響指標(biāo)的背后因素利潤(rùn)率為什么大幅下降?(時(shí)間、地區(qū)、類別)sumJ1J2J4sum批發(fā)…...sum零售時(shí)間地區(qū)銷售渠道J3北京.上海廣東All,All,All時(shí)間地區(qū)銷售渠道銷售額J1北京批發(fā)1200J1北京零售2300J1上海批發(fā)1233J1上海零售2122………J2北京批發(fā)3312J2上海批發(fā)3423………關(guān)系表與數(shù)據(jù)立方體聯(lián)機(jī)分析處理聯(lián)機(jī)分析處理聯(lián)機(jī)分析處理一次分析會(huì)話有多個(gè)查詢步驟一個(gè)查詢形成下個(gè)查詢的基礎(chǔ)

建立查詢執(zhí)行查詢等待查詢結(jié)果

研究結(jié)果建立新查詢……只有提供快速靈活的訪問性能才能使用戶保持這樣一個(gè)思想隊(duì)列邊思考邊分析通過鉆取(drilldown)尋找原因立方體的實(shí)現(xiàn)方式ROLAP:基于關(guān)系MOLAP:多維數(shù)組HOLAP:混合式

東北西北華北

冰箱5060100彩電407080空調(diào)90120140

產(chǎn)品名稱地區(qū)銷售量冰箱

東北50冰箱西北60冰箱華北100彩電

東北40彩電西北70彩電華北80空調(diào)

東北90空調(diào)西北120空調(diào)華北140MDB中的數(shù)據(jù)組織RDB中的數(shù)據(jù)組織聯(lián)機(jī)分析處理MDX查詢select {[Measures].[UnitSales], [Measures].[StoreSales]}oncolumns, {[Time].[1997], [Time].[1998]}onrowsfrom Saleswhere ([Store].[USA].[CA])聯(lián)機(jī)分析處理概率問題,了解總體特性而對(duì)樣本的具體問題給出回答假設(shè)北大每年有五分之一的新生會(huì)在大二時(shí)選擇上雙學(xué)位,那么在校園內(nèi)隨機(jī)抽取100人,上雙學(xué)位的超過20人的可能性有多大?統(tǒng)計(jì)問題:了解樣本信息而期望對(duì)總體特性加以推斷假設(shè)從校園內(nèi)隨機(jī)抽樣100人,發(fā)現(xiàn)35人讀雙學(xué)位,根據(jù)這個(gè)樣本,我們可以認(rèn)為北大學(xué)生中超過三分之一的人讀雙學(xué)位嗎?數(shù)理統(tǒng)計(jì)掠影tobeornottobe,thatisthequestion未知:最大的希望,最大的恐懼墨菲定律:壞事總會(huì)發(fā)生,發(fā)生的總是壞事數(shù)理統(tǒng)計(jì)掠影描述性統(tǒng)計(jì)中心趨勢(shì):算術(shù)平均、幾何平均、調(diào)和平均、眾數(shù)、中位數(shù)離中趨勢(shì):方差、標(biāo)準(zhǔn)差、四分位數(shù)統(tǒng)計(jì)指數(shù)拉氏指數(shù)、帕氏指數(shù)、費(fèi)雪指數(shù)、埃奇沃斯指數(shù)、資本加權(quán)指數(shù)概率分布伯努利分布、帕斯卡分布、正態(tài)分布、泊松分布、超幾何分布數(shù)理統(tǒng)計(jì)掠影參數(shù)估計(jì)在新廣告追蹤過程中,隨機(jī)抽取400位觀眾,有240人記得廣告標(biāo)語,求在95%的置信水平下,記得廣告標(biāo)語占總體比率的估計(jì)區(qū)間假設(shè)檢驗(yàn)學(xué)生成績(jī)服從正態(tài)分布,現(xiàn)從中抽取16名學(xué)生,判斷能否在0.05的顯著性水平下認(rèn)為所有學(xué)生的平均成績(jī)?yōu)?0?數(shù)理統(tǒng)計(jì)掠影回歸分析確定多個(gè)變量間的相互依賴關(guān)系,一元與多元,線性與非線性y=ax+b用戶滿意度和產(chǎn)品質(zhì)量;消費(fèi)水平與工資水平、受教育程度、職業(yè)、地區(qū)、家庭負(fù)擔(dān)相關(guān)分析描述多個(gè)變量間的關(guān)系密切程度,用相關(guān)系數(shù)衡量出生率與經(jīng)濟(jì)水平、營養(yǎng)水平與健康狀況、形態(tài)指標(biāo)與機(jī)能指標(biāo)數(shù)理統(tǒng)計(jì)掠影方差分析分析不同施肥量是否給農(nóng)作物產(chǎn)量帶來顯著影響,考察地區(qū)差異是否影響婦女的生育率,研究學(xué)歷對(duì)工資收入的影響等組間差異遠(yuǎn)遠(yuǎn)大于組內(nèi)差異,說明樣本來自不同的正態(tài)總體,說明造成差異的控制變量有統(tǒng)計(jì)意義主成份分析主成分分析法是一種降維的統(tǒng)計(jì)方法,它借助于一個(gè)正交變換,將原來相關(guān)的多個(gè)指標(biāo)轉(zhuǎn)化成少量不相關(guān)的綜合指標(biāo)數(shù)據(jù)挖掘:讓歷史告訴未來數(shù)據(jù)挖掘人類從歷史中學(xué)到的唯一不變的東西就是在不斷重復(fù)過去秦人不暇自哀,而后人哀之;后人哀之而不鑒之,亦使后人而復(fù)哀后人也赫魯曉夫的兩個(gè)錦囊前事不忘,后事之師

美國加州某個(gè)超市連鎖店通過數(shù)據(jù)挖掘從記錄著每天銷售和顧客基本情況的數(shù)據(jù)庫中發(fā)現(xiàn):

在下班后前來購買嬰兒尿布的顧客多數(shù)是男性,他們往往也同時(shí)購買啤酒。 于是這個(gè)連鎖店經(jīng)理當(dāng)機(jī)立斷地重新布置了貨架,把啤酒類商品布置在嬰兒尿布貨架附近,并在二者之間放上土豆片之類的佐酒小食品,同時(shí)把男士們需要的日常生活用品也就近布置。這樣一來,上述幾種商品的銷量幾乎馬上成倍增長(zhǎng)。一個(gè)廣為流傳的例子數(shù)據(jù)挖掘是識(shí)別數(shù)據(jù)中有效的新穎的潛在有用的最終可被理解的模式的非平凡過程N(yùn)eedleInAHaystack數(shù)據(jù)挖掘啤酒和尿片有效的:該模式具有足夠的通用性,即對(duì)于新數(shù)據(jù),該模式同樣適用新穎的:該模式是深層次的,事先無法預(yù)料的潛在有用的:該模式可以指導(dǎo)一些有效的行為,不僅僅是檢索有效的新穎的模式,可以指導(dǎo)決策人員進(jìn)行科學(xué)決策最終可被理解的:該模式必須簡(jiǎn)單易懂?dāng)?shù)據(jù)挖掘OLAP:驗(yàn)證型工具在過去3年里誰是我們最好的前100名客戶在過去3年里哪些客戶拖欠抵押和目標(biāo)值相比上個(gè)季度各個(gè)區(qū)域的銷售情況如何去年哪些商店的銷售額超過了其前年的銷售額去年哪些客戶轉(zhuǎn)向了其他電話公司數(shù)據(jù)挖掘:預(yù)測(cè)型工具前100個(gè)具有最好利潤(rùn)潛力的客戶將是誰哪些客戶可能具有壞賬風(fēng)險(xiǎn)明年各個(gè)地區(qū)的預(yù)期銷售額是多少接下來的兩年內(nèi)哪些商店可能表現(xiàn)得最好明年哪些客戶有可能轉(zhuǎn)向競(jìng)爭(zhēng)對(duì)手的懷抱OLAP和數(shù)據(jù)挖掘?qū)⑸虡I(yè)問題轉(zhuǎn)換為數(shù)據(jù)挖掘問題選取合適數(shù)據(jù)設(shè)法理解數(shù)據(jù)創(chuàng)建模型集修復(fù)數(shù)據(jù)問題轉(zhuǎn)換數(shù)據(jù)建立模型評(píng)估模型部署模型評(píng)估結(jié)果數(shù)據(jù)挖掘方法論將商業(yè)問題轉(zhuǎn)換為數(shù)據(jù)挖掘問題挖掘任務(wù)分類、關(guān)聯(lián)、預(yù)測(cè)挖掘結(jié)果的應(yīng)用與交付客戶列表、評(píng)分程序讓商業(yè)用戶和IT員工參與誰最喜歡酸奶酪分類算法給出按喜歡程度劃分的客戶列表,但卻不能滿足需求,因?yàn)樗麄兿胫滥男┠挲g、收入和居住地的人最喜歡,以便進(jìn)行定向廣告。按照購物行為而不是人口統(tǒng)計(jì)進(jìn)行挖掘不能滿足需求數(shù)據(jù)挖掘方法論選取合適數(shù)據(jù)哪些數(shù)據(jù)可用:數(shù)據(jù)倉庫是最佳選擇多少數(shù)據(jù)夠用:適可而止,觀察樣本量加倍后的效果?!巴T谶@里最好”需要多少歷史數(shù)據(jù):需要足夠的歷史數(shù)據(jù)揭示周期性事件,但環(huán)境條件在變化,太久遠(yuǎn)的數(shù)據(jù)反而會(huì)干擾挖掘效果。膠柱鼓瑟、刻舟求劍需要多少變量:有些被忽略的變量和其他變量結(jié)合,就會(huì)非常有預(yù)言價(jià)值。捧哏的數(shù)據(jù)必須包含什么:必須至少包含所有可能的有意義的結(jié)果的例子數(shù)據(jù)挖掘方法論設(shè)法理解數(shù)據(jù)

搞清楚所要處理的對(duì)象的含義檢查分布狀況:借助可視化工具比較變量值及其描述:發(fā)現(xiàn)業(yè)務(wù)處理中的不完整數(shù)據(jù)。商品數(shù)量字段存儲(chǔ)了商品重量驗(yàn)證假設(shè):借用底層數(shù)據(jù)驗(yàn)證摘要數(shù)據(jù)是否正確提問問題:記錄下所有與期望或常識(shí)不符的數(shù)據(jù)為什么有很多1911年的客戶?為什么某地沒有人壽保險(xiǎn)業(yè)務(wù)?活動(dòng)客戶怎么在“取消理由”中有非空值?數(shù)據(jù)挖掘方法論創(chuàng)建模型集模型集是創(chuàng)建模型的所有數(shù)據(jù)集合創(chuàng)建平衡樣本:不能輕易拋棄奇異點(diǎn)。抽樣技術(shù)包含多種時(shí)間幀:模型應(yīng)該在任何時(shí)候都運(yùn)轉(zhuǎn)良好,必須基于多個(gè)時(shí)間段來建立,不能以偏概全(基于復(fù)活節(jié)前一周的購物數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,得到:襪子->雞蛋)劃分模型集訓(xùn)練集:創(chuàng)建初始模型驗(yàn)證集:調(diào)整初始模型,使其更加通用,不過分依賴訓(xùn)練集測(cè)試集:測(cè)試把模型用到未經(jīng)訓(xùn)練的數(shù)據(jù)時(shí)的有效性數(shù)據(jù)挖掘方法論修復(fù)數(shù)據(jù)問題擁有太多數(shù)值的分類變量具有傾斜分布和奇異點(diǎn)的數(shù)值變量缺失值含義隨時(shí)間變化的值不一致數(shù)據(jù)編碼數(shù)據(jù)轉(zhuǎn)換平滑處理:從數(shù)據(jù)中消除噪音數(shù)據(jù)聚集操作:對(duì)數(shù)據(jù)進(jìn)行綜合數(shù)據(jù)概化:用高層次概念代替原始數(shù)據(jù)數(shù)據(jù)規(guī)范化:將數(shù)據(jù)集中到一個(gè)較小的范圍之中數(shù)據(jù)挖掘方法論數(shù)據(jù)挖掘任務(wù)描述相關(guān)技術(shù)數(shù)據(jù)劃分聚類分析:在預(yù)先沒有確定類別的情況下,根據(jù)數(shù)據(jù)的不同屬性,將數(shù)據(jù)分成不同的類別。分類分析:將數(shù)據(jù)映射到預(yù)先定義的數(shù)據(jù)類別中聚類分析Bayesian分類決策樹或分類樹人工神經(jīng)網(wǎng)絡(luò)依賴分析找出各個(gè)屬性之間的依賴關(guān)系Bayesian網(wǎng)絡(luò)關(guān)聯(lián)分析奇異點(diǎn)分析找出與一般數(shù)據(jù)行為不一致的數(shù)據(jù)項(xiàng)聚類分析奇異點(diǎn)檢測(cè)趨勢(shì)檢測(cè)通常在時(shí)間序列上,對(duì)數(shù)據(jù)庫中的數(shù)據(jù)利用線性回歸或曲線擬合等方式進(jìn)行綜合分析回歸分析序列模式分析數(shù)據(jù)挖掘的任務(wù)與方法關(guān)聯(lián)分析目的:發(fā)現(xiàn)數(shù)據(jù)間的相互關(guān)聯(lián)購物籃分析:給定一組商品,一個(gè)交易集合,通過分析交易記錄集合,推導(dǎo)出商品間的相關(guān)性基本形式給定:一組事務(wù)集,每一個(gè)事務(wù)中包含若干個(gè)數(shù)據(jù)項(xiàng)挖掘:各個(gè)數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)98%的顧客在購買電動(dòng)剃須刀的同時(shí)會(huì)購買一些電池劉德華楊麗娟釋永信楊瀾方舟子李開復(fù)關(guān)聯(lián)分析支持度(Support):在關(guān)聯(lián)分析中表示滿足規(guī)則的記錄數(shù)與總記錄數(shù)的比,它表明了規(guī)則的模式在數(shù)據(jù)庫中出現(xiàn)的頻度

對(duì)于規(guī)則:X→Y,其支持度表示為S=總交易數(shù)同時(shí)購買商品X和Y的交易數(shù)購買商品Y的交易同時(shí)購買商品X和Y的交易購買商品X的交易關(guān)聯(lián)分析置信度(Confidence),在關(guān)聯(lián)分析中表示為滿足規(guī)則的記錄數(shù)與出現(xiàn)被分析數(shù)據(jù)項(xiàng)的記錄數(shù)之比

對(duì)于規(guī)則:X→Y,其支持度表示為C=購買商品X的交易數(shù)同時(shí)購買商品X和Y的交易數(shù)購買商品Y的交易同時(shí)購買商品X和Y的交易購買商品X的交易關(guān)聯(lián)分析TID項(xiàng)集1面包,牛奶2面包,啤酒,雞蛋,尿布3牛奶,啤酒,尿布,可樂4面包,牛奶,啤酒,尿布5面包,牛奶,尿布,可樂尿布→啤酒支持度3/5,置信度3/4啤酒→尿布支持度3/5,置信度3/3關(guān)聯(lián)分析頻繁項(xiàng)集:出現(xiàn)頻率超過預(yù)設(shè)支持度的項(xiàng)集關(guān)聯(lián)分析就是發(fā)現(xiàn)頻繁項(xiàng)集的過程先驗(yàn)(Apriori)法則:一個(gè)頻繁項(xiàng)集的任何非空子集肯定也是頻繁項(xiàng)集{A,B}為頻繁項(xiàng)集,那么其子集{A}、{B}也都為頻繁項(xiàng)集反單調(diào):一個(gè)集合如果不是頻繁的,則它的任何超集也不是頻繁的由低階頻繁項(xiàng)集構(gòu)造高階頻繁項(xiàng)集關(guān)聯(lián)分析1階項(xiàng)計(jì)數(shù)啤酒3面包4可樂2尿布4牛奶4雞蛋12階項(xiàng)計(jì)數(shù)啤酒,面包2啤酒,尿布3啤酒,牛奶2面包,尿布3面包,牛奶3尿布,牛奶33階項(xiàng)計(jì)數(shù)面包,尿布,牛奶3最小支持度為3關(guān)聯(lián)分析面包,尿布→牛奶置信度3/33階項(xiàng)計(jì)數(shù)面包,尿布,牛奶3牛奶→面包,尿布置信度3/4關(guān)聯(lián)分析設(shè)min_sup=30%,min_conf=60%,將發(fā)現(xiàn)規(guī)則:游戲→錄像 [support=40%,confidence=66%]

實(shí)際上購買錄象的可能性是75%

所以游戲和錄象是負(fù)相關(guān)的游戲6000錄像75004000coorA,B

=P(AB)=0.4/(0.75*0.6)=0.89P(A)P(B)關(guān)聯(lián)分析買HDTV買健身器是否是9981180否5466120153147300{買HDTV=是→買健身器=是}的置信度99/180=55%{買HDTV=否→買健身器=是}的置信度54/120=45%關(guān)聯(lián)分析顧客組買HDTV買健身器是否大學(xué)生是1910否43034在職人員是9872170否503686{買HDTV=是→買健身器=是}的置信度1/10=10%{買HDTV=否→買健身器=是}的置信度4/34=11.8%{買HDTV=是→買健身器=是}的置信度98/170=57.7%{買HDTV=否→買健身器=是}的置信度50/86=58.1%大學(xué)生在職人員辛普森悖論多層關(guān)聯(lián)分析發(fā)現(xiàn)序列模式分析數(shù)據(jù)間的前后(因果)關(guān)系顧客在不同時(shí)間購買的商品間的前后(因果)關(guān)系序列關(guān)聯(lián)分析支持度S=總組數(shù)先購買商品X再購買商品Y的組數(shù)支持度S=先購買X的組數(shù)先購買商品X再購買商品Y的組數(shù)序列關(guān)聯(lián)分析序列關(guān)聯(lián)分析序列關(guān)聯(lián)分析構(gòu)建模型:對(duì)預(yù)先確定的類別給出相應(yīng)的描述先假設(shè)一個(gè)樣本集合中的每一個(gè)樣本屬于預(yù)先定義的某一個(gè)類別,由一個(gè)類標(biāo)號(hào)屬性來確定這些元組樣本的集合稱為訓(xùn)練集,用于構(gòu)建模型;由于提供了每個(gè)訓(xùn)練樣本的類標(biāo)號(hào),稱作有指導(dǎo)的學(xué)習(xí)對(duì)同類記錄的特征進(jìn)行描述最終的模型用決策樹、分類規(guī)則或者數(shù)學(xué)公式等來表示模型應(yīng)用:對(duì)未知的數(shù)據(jù)對(duì)象進(jìn)行分類醫(yī)療診斷、性能預(yù)測(cè)、選擇購物、信譽(yù)證實(shí)等分類分析訓(xùn)練數(shù)據(jù)分類算法IFrank=‘professor’ORyears>6THENtenured=‘yes’

分類器(分類模型)分類分析構(gòu)建模型分類器測(cè)試數(shù)據(jù)未知數(shù)據(jù)(Jeff,Professor,4)Tenured?分類分析模型應(yīng)用決策樹體溫胎生非哺乳動(dòng)物哺乳動(dòng)物非哺乳動(dòng)物恒溫冷血是否界門綱目科屬種屬性順序由其信息增益決定雞蛋編號(hào)對(duì)著光線照射用手搖晃放在鹽水中雞蛋好壞1透明不搖沉好2透明不搖沉好3透明不搖沉好4透明不搖沉好5透明不搖沉好6渾濁不搖沉好7渾濁不搖沉壞8透明不搖浮壞9渾濁搖浮壞10渾濁搖浮壞決策樹利用決策樹進(jìn)行數(shù)據(jù)分類隨機(jī)判定分類器雞蛋好壞的概率分別為6/10,4/10熵為-(6/10*log(6/10)+4/10*log(4/10))選擇用手搖晃判定的分類器不搖晃時(shí)雞蛋好壞的概率分別為6/8,2/8搖晃時(shí)雞蛋好壞的概率分別為0/2,2/2熵為-((6/8*log(6/8)+2/8*log(2/8))*8/10+(0/2*log(0/2)+2/2*log(2/2))*2/10)選擇鹽水判定的分類器沉下時(shí)雞蛋好壞的概率分別為6/7,1/7浮起時(shí)雞蛋好壞的概率分別為0/3,3/3熵為-((6/7*log(6/7)+1/7*log(1/7))*7/10+(0/3*log(0/3)+3/3*log(3/3))*3/10)鹽水照射壞蛋壞蛋好蛋沉浮混濁透明決策樹自動(dòng)回歸樹ALLRose(t-1)>=135Rose(t-1)<135Month>=MarchMonth<MarchRed=942+0.78*Red(t-1)-6.5*Rose(t-1)?K-最近鄰?fù)镀边x舉同聲相應(yīng),同氣相求走像鴨子,叫像鴨子,看起來像鴨子,那就是鴨子 P(A)是先驗(yàn)概率,

P(A|B)是后驗(yàn)概率 一座別墅在過去20年里一共發(fā)生過2次被盜,別墅的主人有一條狗,狗平均每周晚上叫3次,在盜賊入侵時(shí)狗叫的概率為0.9,在狗叫的時(shí)候發(fā)生入侵的概率是多少?假設(shè)A事件為狗在晚上叫,B為盜賊入侵,則P(A)=3/7,P(B)=2/(20·365)=2/7300,P(A|B)=0.9,于是P(B|A)=0.9*(2/7300)*(7/3)=0.00058貝葉斯分類你面前有三個(gè)門可選,其中一個(gè)門后面是寶馬,另兩個(gè)是空門?,F(xiàn)在你選了一個(gè)門準(zhǔn)備打開,此時(shí)主持人打開一個(gè)空門。此時(shí)你可以繼續(xù)決定打開你之前選定的門,或者改換另一個(gè)門。

問:換還是不換?已知某酒鬼有90%的日子都會(huì)出去喝酒,喝酒只去固定三家酒吧。今天警察找了其中兩家酒吧都沒有找到酒鬼。

問:酒鬼在第三家酒吧的幾率?已知某家庭有兩個(gè)孩子。你打電話到他家里,接電話的是女孩。

問:另外一個(gè)也是女孩的幾率?

貝葉斯分類貝葉斯分類每個(gè)數(shù)據(jù)樣本用一個(gè)n維特征向量X表示假定有m個(gè)類C1,…Cm。給定一個(gè)未知的數(shù)據(jù)樣本X,貝葉斯分類將X分配給具有最高后驗(yàn)概率的類條件獨(dú)立假設(shè)貝葉斯分類貝葉斯分類類標(biāo)號(hào)屬性buys_computerC1對(duì)應(yīng)buys_computer=“yes”,C2對(duì)應(yīng)buys_computer=“no”未知樣本X=(age=“<=30”,income=“medium”,student=“yes”,credit_rating=“fair”)我們需要最大化P(X|Ci)P(Ci)P(buys_computer=“yes”)=9/14=0.643P(buys_computer=“no”)=5/14=0.357P(age=“<=30”|buys_computer=“yes”) =2/9=0.222P(age=“<=30”|buys_computer=“no”) =3/5=0.600P(income=“medium”|buys_computer=“yes”) =4/9=0.444P(income=“medium”|buys_computer=“no”) =2/5=0.400貝葉斯分類P(student=“yes”|buys_computer=“yes”) =6/9=0.333P(student=“yes”|buys_computer=“no”) =1/5=0.200P(credit_rating=“fair”|buys_computer=“yes”) =6/9=0.333P(credit_rating=“fair”|buys_computer=“no”) =2/5=0.400P(X|buys_computer=“yes”) =0.044P(X|buys_computer=“no”) =0.019P(X|buys_computer=“yes”)*P(buys_computer=“yes”) =0.028P(X|buys_computer=“no”)*P(buys_computer=“no”) =0.007于是對(duì)于樣本X,貝葉斯分類預(yù)測(cè)其buys_computer=“yes”貝葉斯信念網(wǎng)絡(luò)BBNFamilyHistorySomkerLungCancerEmphysemaPositiveXRayDyspneaFH,SFH,~S~FH,S~FH,~SLC0.1~LC0.9P(LungCancer=“yes”|FamilyHistory=“yes”,Somker=“yes”)=0.8P(LungCancer=“no”|FamilyHistory=“no”,Somker=“no”)=0.8有向無環(huán)圖+概率表神經(jīng)網(wǎng)絡(luò)ANN………輸入層隱藏層輸出層神經(jīng)元:聚合和激活∑f神經(jīng)網(wǎng)絡(luò)ANN分配初始權(quán)值對(duì)每個(gè)樣本基于當(dāng)前權(quán)值計(jì)算輸出計(jì)算輸出誤差,反向傳播過程為每個(gè)神經(jīng)元計(jì)算誤差,調(diào)整權(quán)值重復(fù)(2),直至滿足條件123456123456(1,1,0,1)支持向量機(jī)SVM線性支持向量機(jī):最大邊緣超平面支持向量機(jī)SVM線性支持向量機(jī):軟邊緣支持向量機(jī)SVM非線性支持向量機(jī)線性不可分g(x)=(x-a)(x-b)g(x)>=0,屬于C1g(x)<0,屬于C2ab支持向量機(jī)SVM非線性支持向量機(jī)非線性變換低維高維聚類把一組對(duì)象按照相似性歸成若干類別,即“物以類聚”。它的目的是使得屬于同一類別的個(gè)體之間的距離盡可能的小而不同類別上的個(gè)體間的距離盡可能的大無監(jiān)督學(xué)習(xí)相似性基于距離基于概率應(yīng)用場(chǎng)景市場(chǎng)或客戶分割、模式識(shí)別、基因分類、Web文檔分類聚類聚類:基于劃分算法:k-平均輸入:簇的數(shù)目k,包含n個(gè)對(duì)象的數(shù)據(jù)庫輸出:k個(gè)簇,使平方誤差最小步驟:任意選擇k個(gè)對(duì)象作為初始的簇中心Repeat根據(jù)簇中對(duì)象的平均值,將每個(gè)對(duì)象賦給最類似的簇更新簇的平均值,即計(jì)算每個(gè)簇中對(duì)象的平均值Until平方誤差小于某個(gè)閾值或不再發(fā)生變化平方方差函數(shù):++++++++++++聚類:基于劃分聚類:基于密度pqMinPts=5Eps=1cmpqp1pqo從q到p是直接密度可達(dá)的從q到p是密度可達(dá)的q和p是密度相連的DBSCANQMPRSO聚類:基于密度聚類:層次方法Step0Step1Step2Step3Step4bdceaabdecdeabcdeStep4Step3Step2Step1Step0agglomerative(AGNES)divisive(DIANA)層次方法是將數(shù)據(jù)對(duì)象組成一棵聚類的樹自底向上的層次樹的建立(凝聚的,AGNES算法)自頂向下的層次樹的建立(分裂的,DIANA算法)序列聚類序列:DNA、天氣預(yù)報(bào)、點(diǎn)擊流根據(jù)當(dāng)前狀態(tài)預(yù)測(cè)下一可能的步驟馬爾可夫鏈+EM聚類ShoppingGameMusicShoppingMusicMovie0.490.730.52IBMIntelligentMinerOracleDataminingsuiteSQLServerAnalysisServicesSASEnterpriseMinerSPSSClementine開源軟件Weka http://www.cs.waikato.ac.nz/ml/weka/相關(guān)工具CREATEMININGSTRUCTURECollegePlan_Structure(StudentId LONGKEY,Gender TEXTDISCRETE,ParentIncome LONGCONTINUOUS,IQ LONGCONTINUOUS,ParentEncouragement TEXTDISCRETE,CollegePlans TEXTDISCRETE)WITHHOLDOUT(10PERCENT)DMX:創(chuàng)建挖掘結(jié)構(gòu)ALTERMININGSTRUCTURECollegePlan_StructureADDMININGMODELCollegePlan(StudentId,Gender,ParentIncome,IQ,ParentEncouragement,CollegePlans PREDICT)USINGMicrosoft_Decision_TreesDMX:添加挖掘模型INSERTINTOCollegePlan_Structure (StudentId,Gender,IQ,ParentEncouragement, ParentIncome,CollegePlans)OPENQUERY(CollegePlans, 'SELECT StudentId,Gender,IQ,ParentEncouragement, ParentIncome,CollegePlans FROMCollegePlans‘)DMX:填充數(shù)據(jù)SELECT t.StudentID,CollegePlan.CollegePlans, PredictProbability(CollegePlans)AS[Probability]FROM CollegePlanPREDICTIONJOINOPENQUERY(CollegePlans, 'SELECT StudentID,Gender,IQ,ParentEncouragement,ParentIncome FROMNewStudents')AStON CollegePlan.ParentIncome=t.ParentIncomeAND CollegePlan.IQ=t.IQAND CollegePlan.Gender=t.GenderAND CollegePlan.ParentEncouragement=t.ParentEncouragementDMX:預(yù)測(cè)社交網(wǎng)絡(luò)網(wǎng)絡(luò)特征平均路徑長(zhǎng)度聚類系數(shù):朋友的朋友也是朋友節(jié)點(diǎn)重要性中介度:結(jié)點(diǎn)的影響力緊密度:結(jié)點(diǎn)傳播信息的能力無所不在的關(guān)系:至簡(jiǎn)至繁twitter,facebook,微博,航班社交網(wǎng)絡(luò)小世界高聚類,小的平均路徑長(zhǎng)度六度分離(sixdegreesofseparation):地球上任意兩個(gè)人之間的平均距離是6KevinBacon數(shù):與Bacon合作出演電影Erdos數(shù):與Erdos合作著寫文章社交網(wǎng)絡(luò)社交網(wǎng)絡(luò)細(xì)分方法細(xì)分基礎(chǔ)應(yīng)用人口統(tǒng)計(jì)細(xì)分人口統(tǒng)計(jì)、生命周期客戶獲取及保持生活方式細(xì)分行為差異、個(gè)性、心理特征客戶獲取及保持,新產(chǎn)品研發(fā)行為細(xì)分行為模式、行為特征RFM分析業(yè)務(wù)戰(zhàn)略制定、歷史數(shù)據(jù)分析客戶價(jià)值細(xì)分客戶生命周期利潤(rùn)資源最優(yōu)化配置、差別化服務(wù)社交網(wǎng)絡(luò)的客戶細(xì)分社交網(wǎng)絡(luò)SoLoMoSocial(社交的)、Local(本地的)、Mobile(移動(dòng)的)基于社交網(wǎng)絡(luò)的精準(zhǔn)廣告讀心術(shù):分析用戶行為,揣摩用戶心理,然后適時(shí)為每個(gè)獨(dú)特行為習(xí)慣的用戶提供更有針對(duì)性的服務(wù)社交網(wǎng)絡(luò)的時(shí)空分析法一些領(lǐng)袖的興起和衰落、隨時(shí)間變化而變化的信任以及特定網(wǎng)絡(luò)社區(qū)人群的遷移和流動(dòng)。性格透視:某些節(jié)點(diǎn)很具有親和力,能快而有效地形成人際關(guān)系,另一些則顯得謹(jǐn)慎、被動(dòng)數(shù)據(jù)來源通話記錄通信記錄信用卡記錄法院記錄工資單和稅務(wù)單固定資產(chǎn)和租房信息駕駛記錄犯罪網(wǎng)絡(luò)關(guān)聯(lián)類別可信關(guān)聯(lián):親緣,同學(xué),戰(zhàn)友任務(wù)關(guān)聯(lián):共同旅行,電話通信等經(jīng)濟(jì)關(guān)聯(lián):相互的資金流動(dòng)目標(biāo)關(guān)聯(lián):開會(huì),協(xié)商,談判等犯罪網(wǎng)絡(luò)關(guān)聯(lián)稀疏平均距離遠(yuǎn)組內(nèi)成員甚至無直接聯(lián)系打擊中層效果更佳犯罪網(wǎng)絡(luò)軌跡數(shù)據(jù)挖掘人生到處知何似,應(yīng)似飛鴻踏雪泥世界在移動(dòng):RFID,GPS交通管理、天氣預(yù)報(bào)、位置服務(wù)、國土安全軌跡數(shù)據(jù)挖掘熱路徑:通過該路徑的軌跡數(shù)量超過閾值軌跡數(shù)據(jù)挖掘軌跡聚類:在很長(zhǎng)一段時(shí)間內(nèi)很接近的對(duì)象集軌跡數(shù)據(jù)挖掘異常軌跡類:與其他軌跡顯著不同軌跡數(shù)據(jù)倉庫OLAP移動(dòng)模式動(dòng)機(jī)--用戶日常行為總是表現(xiàn)出一定的規(guī)律數(shù)據(jù)源--移動(dòng)日志序列模式云計(jì)算按列存儲(chǔ)流處理統(tǒng)計(jì)與數(shù)據(jù)庫MapReduce大規(guī)模數(shù)據(jù)分析當(dāng)梁山伯遇上祝英臺(tái),當(dāng)潘金蓮遇上西門慶,當(dāng)丘處機(jī)路過牛家莊,當(dāng)凱撒跨過盧比孔,當(dāng)太祖際會(huì)中國革命…歷史的機(jī)遇:偶然中的必然,必然中的偶然當(dāng)BigData遇上DeepAnaliticsBigDataPB級(jí)LSSTebayfacebookDeepAnalitics數(shù)理統(tǒng)計(jì)數(shù)據(jù)挖掘XLDB當(dāng)BigData遇上DeepAnalitics問題:數(shù)據(jù)庫分析功能有限進(jìn)出數(shù)據(jù)庫代價(jià)較高許多算法受內(nèi)存限制

重復(fù)發(fā)明輪子需求:分布式存儲(chǔ):局部性并行計(jì)算:負(fù)載均衡流處理:低延遲、低IO按列存儲(chǔ):高壓縮、高帶寬云計(jì)算商業(yè)模式:效用計(jì)算UtilityComputing,Pay-as-you-go,XaaS外觀形態(tài):互聯(lián)網(wǎng)數(shù)據(jù)中心InternetDataCenter技術(shù)關(guān)鍵:高效能計(jì)算HighProductivity云計(jì)算=(數(shù)據(jù)+軟件+平臺(tái)+基礎(chǔ)設(shè)施)×服務(wù)Google云計(jì)算數(shù)據(jù)中心云計(jì)算WebService移動(dòng)互動(dòng)應(yīng)用程序未來屬于那些能向人提供實(shí)時(shí)響應(yīng)的服務(wù)超級(jí)計(jì)算計(jì)算密集型桌面應(yīng)用程序的擴(kuò)展諸如Matlab等進(jìn)行復(fù)雜計(jì)算的桌面應(yīng)用程序可以無縫地?cái)U(kuò)展到云大規(guī)模數(shù)據(jù)分析數(shù)據(jù)處理的資源平衡點(diǎn)從事務(wù)轉(zhuǎn)向商業(yè)分析TB級(jí)的數(shù)據(jù)分析將可以在數(shù)小時(shí)內(nèi)完成云計(jì)算應(yīng)用場(chǎng)景天河一號(hào)神威藍(lán)光存儲(chǔ)墻Waston云汽車提高帶寬利用率按列存儲(chǔ)時(shí),只有那些被查詢?cè)L問的屬性才會(huì)從磁盤讀出按行存儲(chǔ)時(shí),周圍的屬性也被一并讀出提高數(shù)據(jù)壓縮率將同一個(gè)屬性域的數(shù)據(jù)存儲(chǔ)在一起,提高了局部性以及壓縮比率傳輸壓縮數(shù)據(jù)同樣減少了帶寬按列存儲(chǔ)的優(yōu)點(diǎn)MonetDBVerticaSybaseIQ增加了磁盤尋道時(shí)間如果需要并行讀取多個(gè)列,在各個(gè)塊讀之間需要進(jìn)行磁盤尋道增加插入操作的代價(jià)對(duì)于插入操作,按列存儲(chǔ)的性能很差,因?yàn)閷?duì)每條插入的元組都需要在磁盤的多個(gè)不同位置更新增加重構(gòu)元組的代價(jià)按列存儲(chǔ)如果想支持標(biāo)準(zhǔn)的關(guān)系數(shù)據(jù)庫接口,它們就必須將多個(gè)列拼合起來,構(gòu)成一條元組輸出按列存儲(chǔ)的缺點(diǎn)數(shù)據(jù)倉庫批量寫、高帶寬要求、查詢計(jì)劃經(jīng)常是表掃描寬表按列存儲(chǔ)時(shí),如果一個(gè)查詢?cè)L問固定數(shù)目的屬性,它只會(huì)讀入需要的這些列進(jìn)行處理電子商務(wù)目錄包含2百萬個(gè)零件,分成500個(gè)目錄,每個(gè)目錄包含4000個(gè)屬性4000列的寬表對(duì)于按行存儲(chǔ)是性能災(zāi)難,為了讀取一個(gè)所需屬性,需要順帶讀出周邊不需要的3999個(gè)屬性稀疏表按列存儲(chǔ)具有更好的壓縮比按列存儲(chǔ)適合的場(chǎng)合數(shù)據(jù)流連續(xù)、無界的元組序列數(shù)據(jù)驅(qū)動(dòng)型處理方式應(yīng)用場(chǎng)景實(shí)時(shí)數(shù)據(jù)流

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論