BI相關(guān)知識(shí)介紹課件_第1頁(yè)
BI相關(guān)知識(shí)介紹課件_第2頁(yè)
BI相關(guān)知識(shí)介紹課件_第3頁(yè)
BI相關(guān)知識(shí)介紹課件_第4頁(yè)
BI相關(guān)知識(shí)介紹課件_第5頁(yè)
已閱讀5頁(yè),還剩57頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù),您如何選擇?假如你是一個(gè)商品零售公司的老板。

你的公司很先進(jìn),已經(jīng)實(shí)現(xiàn)了業(yè)務(wù)信息化,每一筆銷售單據(jù)都保存在數(shù)據(jù)庫(kù)中,日積月累,已經(jīng)保存了十余年的銷售數(shù)據(jù),上億條銷售記錄。

這時(shí)如果我問(wèn)你:“反正三年前的數(shù)據(jù)留著也白白占地方,耗費(fèi)存儲(chǔ)成本,索性把它們?nèi)珓h掉吧,這樣不用買硬盤(pán)就能容納新數(shù)據(jù),如何?”

你會(huì)從容的接受我這個(gè)建議嗎?

我們的直覺(jué)告訴我們:這些數(shù)據(jù)有用!

但這僅僅是一種直覺(jué),到底該怎樣把這些占據(jù)大量存儲(chǔ)空間的數(shù)據(jù)的價(jià)值挖掘出來(lái),讓這些數(shù)據(jù)從成本的消耗者變成利潤(rùn)的促進(jìn)者?大數(shù)據(jù),您如何選擇?假如你是一個(gè)商品零售公司的老板。

1BI閃亮登場(chǎng)沒(méi)錯(cuò),選擇BI來(lái)實(shí)現(xiàn).BI(BusinessIntelligence)是一種運(yùn)用了數(shù)據(jù)倉(cāng)庫(kù)、在線分析和數(shù)據(jù)挖掘等技術(shù)來(lái)處理和分析數(shù)據(jù)的嶄新技術(shù),目的是為企業(yè)決策者提供決策支持。BI應(yīng)用的兩大類別是信息類應(yīng)用DW(數(shù)據(jù)倉(cāng)庫(kù))和知識(shí)類應(yīng)用KDD(數(shù)據(jù)挖掘)。BI是種技術(shù),或者說(shuō)是解決方案.而不是某種工具。

BI閃亮登場(chǎng)沒(méi)錯(cuò),選擇BI來(lái)實(shí)現(xiàn).2BI應(yīng)用行業(yè)行業(yè)分布銀行、通信、證券、保險(xiǎn)、能源、煙草工廠、礦場(chǎng)、醫(yī)療衛(wèi)生零售、快消品電子商務(wù)、電子政務(wù)使用特點(diǎn)目前大部分用戶主要集中在信息類應(yīng)用,即數(shù)據(jù)查詢+報(bào)表展示+OLAP分析的合理,其主要目的即減輕手工報(bào)表制作的壓力,提高工作效率.少量用戶(金融,通信,能源)集中在數(shù)據(jù)挖掘.BI應(yīng)用行業(yè)行業(yè)分布3BI國(guó)內(nèi)應(yīng)用難點(diǎn)BI工具在中國(guó)遇到的難題:*復(fù)雜表樣:中國(guó)的表樣設(shè)計(jì)思想與西方不同,西方報(bào)表傾向于僅用一張報(bào)表說(shuō)明一個(gè)問(wèn)題,而中國(guó)的報(bào)表傾向于將盡可能多的問(wèn)題集中在一張報(bào)表中,這種思路直接導(dǎo)致了中國(guó)報(bào)表的復(fù)雜格式和詭異風(fēng)格,同時(shí)導(dǎo)致在國(guó)外大受歡迎的水晶報(bào)表水土不服。*大數(shù)據(jù)量:中國(guó)是世界上人口最多的國(guó)家。以中國(guó)移動(dòng)公司為例,僅我國(guó)一個(gè)省的用戶數(shù)量,就相當(dāng)于歐洲一個(gè)中等國(guó)家的人口,是真正的海量數(shù)據(jù)!國(guó)外數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和BI應(yīng)用軟件,都在中國(guó)經(jīng)受著大數(shù)據(jù)量承載能力的考驗(yàn)。*數(shù)據(jù)回寫(xiě):中國(guó)是世界上對(duì)BI系統(tǒng)要求最奇特的國(guó)家。本來(lái)BI系統(tǒng)是以忠實(shí)再現(xiàn)源數(shù)據(jù)為原則,但這個(gè)原則在中國(guó)遇到了難題,許多領(lǐng)導(dǎo)都提出了數(shù)據(jù)修改需求。筆者曾經(jīng)經(jīng)歷,挨罵頗多。BI國(guó)內(nèi)應(yīng)用難點(diǎn)BI工具在中國(guó)遇到的難題:4BI應(yīng)用分類

信息類BI應(yīng)用(數(shù)據(jù)倉(cāng)庫(kù))知識(shí)類BI應(yīng)用(數(shù)據(jù)挖掘)報(bào)表&圖表&地圖&中國(guó)式報(bào)表數(shù)據(jù)挖掘—探察數(shù)據(jù)規(guī)律自助樣式報(bào)表數(shù)據(jù)挖掘—數(shù)據(jù)建模&預(yù)測(cè)多維聯(lián)機(jī)分析(OLAP)BI應(yīng)用分類信息類BI應(yīng)用(數(shù)據(jù)倉(cāng)庫(kù))知識(shí)類BI應(yīng)用(數(shù)據(jù)5BI實(shí)現(xiàn)過(guò)程后端(ETL)前端(報(bào)表開(kāi)發(fā))源數(shù)據(jù)分析與探索Portal建設(shè)ODS建設(shè)模型與報(bào)表開(kāi)發(fā)DW(數(shù)據(jù)倉(cāng)庫(kù))OLAP分析(CUBE建設(shè))DM(數(shù)據(jù)集市)DM(數(shù)據(jù)挖掘)BI實(shí)現(xiàn)過(guò)程=前端+后端=源數(shù)據(jù)+ODS+DW+DM+OLAP+Report+

DMBI實(shí)現(xiàn)過(guò)程后端(ETL)前端(報(bào)表開(kāi)發(fā))源數(shù)據(jù)分析與探索P6BI實(shí)施開(kāi)發(fā)常用工具實(shí)施過(guò)程

工具源數(shù)據(jù)分析與探索SQL腳本ETLInformatica(PWC),DataStage,DTS/SSIS,Kettle,Beeload,ODI數(shù)據(jù)同步(源->ODS)Informatica(PWX),GoldenGateODS&DW&DM(關(guān)系型)MSSQL,Oracle,DB2

其他(MYSQL,Teradata)數(shù)據(jù)質(zhì)量管理Informatica(IDQ)報(bào)表開(kāi)發(fā)工具SAPBO,COGNOS,水晶報(bào)表/易表,OBIEE,Brio,QlikView,SASSmartbi,POWER-BI,FinereportSpagoBI

,OpenI

OLAP開(kāi)發(fā)工具Cognos(Powerplay)、Hyperion(Essbase)、微軟(AnalysisService)以及MicroStrategy報(bào)表開(kāi)發(fā)組件FusionCharts,JFreeChart,MsChartPortal開(kāi)發(fā)語(yǔ)言(平臺(tái))JAVA,.NET,PHP…數(shù)據(jù)挖掘工具SAS,SPSSClementine,MATLAB…BI實(shí)施開(kāi)發(fā)常用工具實(shí)施過(guò)程工具源數(shù)據(jù)分析與探索SQL腳本7BI架構(gòu)圖-1

-無(wú)ODSBI架構(gòu)圖-1

-無(wú)ODS8BI架構(gòu)圖-2元數(shù)據(jù)組成(Metadata)業(yè)務(wù)系統(tǒng)到數(shù)據(jù)倉(cāng)庫(kù)

數(shù)據(jù)倉(cāng)庫(kù)

數(shù)據(jù)展現(xiàn)工具ETL

TargetDatabaseFront-EndToolETL人事銷售庫(kù)存財(cái)務(wù)RDBMSODS/StagingAreaRDBMS數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)集市企業(yè)經(jīng)營(yíng)分析客戶關(guān)系管理業(yè)務(wù)流程分析財(cái)務(wù)分析Metadata外部系統(tǒng)StatisticsClusteringNeuralNetsArtificialIntelligence業(yè)務(wù)股東管理OLAPBI架構(gòu)圖-29支持源系統(tǒng)類型常見(jiàn)源系統(tǒng)數(shù)據(jù)類型關(guān)系型數(shù)據(jù)庫(kù)ACCESS、SQLSERVER、ORACLE、DB2TERADATA、GREENPLUM、MYSQL平面文件(Flatfile)EXCEL、TXTXML、HTML其他數(shù)據(jù)COBOLFILESAPORACLEEBS相關(guān)概念:OLTP,OLAP2.透明網(wǎng)關(guān)(異構(gòu)源與目標(biāo)的ETL)3.元數(shù)據(jù)(業(yè)務(wù)元數(shù)據(jù),技術(shù)元數(shù)據(jù))支持源系統(tǒng)類型常見(jiàn)源系統(tǒng)數(shù)據(jù)類型關(guān)系型數(shù)據(jù)庫(kù)ACCESS、S10ODSODS(OperationalDataStore)特征:ODS只是存放當(dāng)前或接近當(dāng)前的數(shù)據(jù)1)在業(yè)務(wù)系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)之間形成一個(gè)隔離層;減輕ETL對(duì)源系統(tǒng)壓力,相當(dāng)于緩沖區(qū).2)轉(zhuǎn)移一部分業(yè)務(wù)系統(tǒng)明細(xì)查詢的功能3)外部數(shù)據(jù)/文件的臨時(shí)存放4)出報(bào)表,例如

客戶保單今天如果到期則發(fā)送預(yù)警報(bào)表.ODSODS(OperationalDataStore)11DW-數(shù)據(jù)倉(cāng)庫(kù)DW,即數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse)特征:面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合.實(shí)際上.DW是多個(gè)表的集合,由多個(gè)維表與事實(shí)表組成.維度:

事物的某個(gè)方面,如時(shí)間、區(qū)域、供應(yīng)商2.

度量/指標(biāo):需要分析的量,如銷量、庫(kù)存、價(jià)格、積分3.粒度:數(shù)據(jù)表中數(shù)據(jù)細(xì)化的程度,如到月、周、天等4.事實(shí)表、維度表5.代理鍵、退化維6.緩慢維度變化DW-數(shù)據(jù)倉(cāng)庫(kù)DW,即數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse1213維度:是一個(gè)與業(yè)務(wù)相關(guān)的觀察角度依賴于數(shù)據(jù)的有效性和表達(dá)業(yè)務(wù)成效的關(guān)鍵性能指標(biāo)能夠回答類似下列問(wèn)題:業(yè)務(wù)的每個(gè)方面可構(gòu)造成一個(gè)維度,例如:時(shí)間維度由年、季度、月、周和天構(gòu)成。所有的維度在一起提供了業(yè)務(wù)的多維視圖。這個(gè)多維視圖的數(shù)據(jù)被存為一個(gè)立方體。一個(gè)維度是管理員從數(shù)據(jù)倉(cāng)庫(kù)提取的有效信息,并在同一個(gè)前題下以層的方式構(gòu)造形成。例如:地區(qū)維度下有地域、國(guó)家、辦事處、銷售員4層。WhoWhatWhereWhen什么是維度?13維度:WhoWhatWhereWhen什么是維度?企業(yè)收集和存儲(chǔ)的將用于評(píng)價(jià)業(yè)務(wù)狀況的數(shù)值性數(shù)據(jù)例如:銷售額成本利潤(rùn)庫(kù)存量交易數(shù)在企業(yè)活動(dòng)中通常是通過(guò)如銷售額、費(fèi)用、業(yè)務(wù)指標(biāo)、庫(kù)存量和定額一類的關(guān)鍵性能指標(biāo)------度量來(lái)監(jiān)測(cè)業(yè)務(wù)的成效。不同的度量能夠反映出不同的業(yè)務(wù)性質(zhì)。例如:假設(shè)針對(duì)企業(yè)的關(guān)鍵成功因素是客戶的滿意度。那么,對(duì)于產(chǎn)品制造商來(lái)說(shuō),可能要通過(guò)及時(shí)運(yùn)輸貨物來(lái)衡量它;而客戶服務(wù)部門可能要用電話支持回應(yīng)時(shí)間來(lái)衡量它。Howmuch什么是度量?1.度量在日常業(yè)務(wù)中相當(dāng)于指標(biāo),

如KPI指標(biāo)2.指標(biāo)分為基礎(chǔ)指標(biāo)和計(jì)算指標(biāo),如銷量同金額3.計(jì)算指標(biāo)請(qǐng)注意afterrollup與beforrollup企業(yè)收集和存儲(chǔ)的將用于評(píng)價(jià)業(yè)務(wù)狀況的數(shù)值性數(shù)據(jù)Howmuc14DM-數(shù)據(jù)集市DM,即數(shù)據(jù)集市(DataMart)

是企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)子集,它主要面向部門級(jí)業(yè)務(wù),并且只面向某個(gè)特定的主題.不同行業(yè)數(shù)據(jù)集市的規(guī)模不同,如移動(dòng)行業(yè)數(shù)據(jù)集市比很多企業(yè)的數(shù)據(jù)倉(cāng)庫(kù)規(guī)模還要大.數(shù)據(jù)集市特征面向部門/機(jī)構(gòu),如財(cái)務(wù)部,人力資源部,市場(chǎng)部星型結(jié)構(gòu)或雪花結(jié)構(gòu)匯總數(shù)據(jù)(粒度較低)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)集市數(shù)據(jù)集市DM-數(shù)據(jù)集市DM,即數(shù)據(jù)集市(DataMart)數(shù)據(jù)集15DM數(shù)據(jù)結(jié)構(gòu)-星型

星型架構(gòu):

是一種非正規(guī)化的結(jié)構(gòu),多維數(shù)據(jù)集的每一個(gè)維度都直接與事實(shí)表相連接,不存在漸變維度,所以數(shù)據(jù)有一定的冗余,但效率較高.優(yōu)點(diǎn):查詢效率較高DM數(shù)據(jù)結(jié)構(gòu)-星型星型架構(gòu):16DM數(shù)據(jù)結(jié)構(gòu)-雪花雪花模型雪花模型是對(duì)星型模型的擴(kuò)展。它對(duì)星型模型的維表進(jìn)一步層次化,原有的各維表可能被擴(kuò)展為小的事實(shí)表,形成一些局部的"層次"區(qū)域,這些被分解的表都連接到主維度表而不是事實(shí)表。優(yōu)點(diǎn):通過(guò)最大限度地減少數(shù)據(jù)存儲(chǔ)量以及聯(lián)合較小的維表來(lái)改善查詢性能。DM數(shù)據(jù)結(jié)構(gòu)-雪花雪花模型17OLAPOLAP(

On-LineAnalyticalProcessing)OLAP是使分析人員、管理人員或執(zhí)行人員能夠從多角度對(duì)信息進(jìn)行快速、一致、交互地存取,從而獲得對(duì)數(shù)據(jù)的更深入了解的一類軟件技術(shù)。OLAP的基本多維分析操作有鉆?。╮ollup和drilldown)、切片(slice)和切塊(dice)、以及旋轉(zhuǎn)(pivot)、drillacross、drillthrough等。OLAP有多種實(shí)現(xiàn)方法,根據(jù)存儲(chǔ)數(shù)據(jù)的方式不同可以分為ROLAP、MOLAP、HOLAP。常用OLAP工具:有HyperionEssbase,MicrosoftSQLServerOLAPServices,CognosTS,MicroStrategyOLAPOLAP(On-LineAnalyticalP18OLAP應(yīng)用圖示使用向下鉆取(DrillDown)、切片和旋轉(zhuǎn)(SliceandDice)以及改變顯示方式來(lái)探察數(shù)據(jù)大區(qū)省份城市向下鉆取產(chǎn)品區(qū)域

切片和旋轉(zhuǎn)ChangeDisplays

改變顯示相關(guān)概念:切塊,切片,旋轉(zhuǎn),上鉆,下鉆2.CUBE3.層級(jí)OLAP應(yīng)用圖示大區(qū)省份城市向下鉆取產(chǎn)品區(qū)域切片和19數(shù)據(jù)挖掘數(shù)據(jù)挖掘(DataMining,DM)又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KnowledgeDiscoverinDatabase,KDD)

數(shù)據(jù)挖掘是一種決策支持過(guò)程,它主要基于人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、可視化技術(shù)等,高度自動(dòng)化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),做出正確的決策。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。數(shù)據(jù)挖掘數(shù)據(jù)挖掘(DataMining,DM)又稱數(shù)據(jù)庫(kù)中20數(shù)據(jù)挖掘技術(shù)①分類。分類是找出數(shù)據(jù)庫(kù)中一組數(shù)據(jù)對(duì)象的共同特點(diǎn)并按照分類模式將其劃分為不同的類,如一個(gè)汽車零售商將客戶按照對(duì)汽車的喜好劃分成不同的類,這樣營(yíng)銷人員就可以將新型汽車的廣告手冊(cè)直接郵寄到有這種喜好的客戶手中,從而大大增加了商業(yè)機(jī)會(huì)。②回歸?;貧w分析方法反映的是事務(wù)數(shù)據(jù)庫(kù)中屬性值在時(shí)間上的特征,產(chǎn)生一個(gè)將數(shù)據(jù)項(xiàng)映射到一個(gè)實(shí)值預(yù)測(cè)變量的函數(shù),等。它可以應(yīng)用到市場(chǎng)營(yíng)銷的各個(gè)方面,如客戶尋求、保持和預(yù)防客戶流失活動(dòng)、產(chǎn)品生命周期分析、銷售趨勢(shì)預(yù)測(cè)及有針對(duì)性的促銷活動(dòng)等。③聚類。聚類分析是把一組數(shù)據(jù)按照相似性和差異性分為幾個(gè)類別。它可以應(yīng)用到客戶群體的分類、客戶背景分析、客戶購(gòu)買趨勢(shì)預(yù)測(cè)、市場(chǎng)的細(xì)分等發(fā)現(xiàn)變量或?qū)傩蚤g的依賴關(guān)系,其主要研究問(wèn)題包括數(shù)據(jù)序列的趨勢(shì)特征、數(shù)據(jù)序列的預(yù)測(cè)以及數(shù)據(jù)間的相關(guān)關(guān)系。④關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫(kù)中數(shù)據(jù)項(xiàng)之間所存在的關(guān)系的規(guī)則,即根據(jù)一個(gè)事務(wù)中某些項(xiàng)的出現(xiàn)可導(dǎo)出另一些項(xiàng)在同一事務(wù)中也出現(xiàn),即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。在客戶關(guān)系管理中,通過(guò)對(duì)企業(yè)的客戶數(shù)據(jù)庫(kù)里的大量數(shù)據(jù)進(jìn)行挖掘,可以從大量的記錄中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系,找出影響市場(chǎng)營(yíng)銷效果的關(guān)鍵因素,為產(chǎn)品定位、定價(jià)與定制客戶群,客戶尋求、細(xì)分與保持,市場(chǎng)營(yíng)銷與推銷,營(yíng)銷風(fēng)險(xiǎn)評(píng)估和詐騙預(yù)測(cè)等決策支持提供參考依據(jù)。⑦Web頁(yè)挖掘。隨著Internet的迅速發(fā)展及Web的全球普及,使得Web上的信息量無(wú)比豐富,通過(guò)對(duì)Web的挖掘,可以利用Web的海量數(shù)據(jù)進(jìn)行分析,收集政治、經(jīng)濟(jì)、政策、科技、金融、各種市場(chǎng)、競(jìng)爭(zhēng)對(duì)手、供求信息、客戶等有關(guān)的信息,集中精力分析和處理那些對(duì)企業(yè)有重大或潛在重大影響的外部環(huán)境信息和內(nèi)部經(jīng)營(yíng)信息.數(shù)據(jù)挖掘技術(shù)①分類。分類是找出數(shù)據(jù)庫(kù)中一組數(shù)21案例-相關(guān)/回歸分析廣告支付和銷售量的相關(guān)性分析線性方程:銷售量(因)

=6.584+1.071*廣告費(fèi)用(自)二次曲線方程:

銷售量=3.903+2.854*廣告費(fèi)用—0.245*廣告費(fèi)用2

案例-相關(guān)/回歸分析廣告支付和銷售量的相關(guān)性分析22算法與案例二次曲線擬合今后某一年汽車價(jià)格馬爾可夫鏈預(yù)測(cè)股票或期貨價(jià)格決策樹(shù)在銀行風(fēng)險(xiǎn)預(yù)警中的應(yīng)用算法與案例二次曲線擬合今后某一年汽車價(jià)格23BI項(xiàng)目如何實(shí)施

--不含數(shù)據(jù)挖掘8.測(cè)試2.項(xiàng)目立項(xiàng)3.需求分析4.數(shù)據(jù)分析-質(zhì)量檢測(cè)5.概要設(shè)計(jì)-系統(tǒng)架構(gòu)6.詳細(xì)設(shè)計(jì)7.開(kāi)發(fā)/實(shí)施1.售前-項(xiàng)目調(diào)研9.試運(yùn)行/驗(yàn)收10.售后-維護(hù)概念模型邏輯模型物理模型BI項(xiàng)目如何實(shí)施

--不含數(shù)據(jù)挖掘8.測(cè)試2.項(xiàng)目立項(xiàng)3.24BI項(xiàng)目實(shí)施示意圖我想看到的報(bào)表是什么樣的用戶需求

DW設(shè)計(jì)報(bào)表規(guī)范ETL設(shè)計(jì)測(cè)試/試運(yùn)行ETL開(kāi)發(fā)/前端開(kāi)發(fā)需求/建模&架構(gòu)BI項(xiàng)目實(shí)施示意圖我想看到的報(bào)表用戶需求DW設(shè)計(jì)報(bào)表規(guī)范25BI項(xiàng)目工作量百分比BI項(xiàng)目工作量百分比26項(xiàng)目資源配備

--乙方項(xiàng)目管理項(xiàng)目經(jīng)理(項(xiàng)目總監(jiān)&項(xiàng)目經(jīng)理)項(xiàng)目助理需求調(diào)研(分析)需求分析師/業(yè)務(wù)顧問(wèn)(開(kāi)發(fā)工程師)ETL數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)師/建模工程師ETL設(shè)計(jì)工程師/ETL開(kāi)發(fā)工程師DBA(可由甲方人員擔(dān)任)報(bào)表開(kāi)發(fā)建模工程師前端(報(bào)表)開(kāi)發(fā)工程師Portal開(kāi)發(fā)系統(tǒng)架構(gòu)師軟件開(kāi)發(fā)工程師測(cè)試軟件測(cè)試工程師項(xiàng)目資源配備

--乙方項(xiàng)目管理項(xiàng)目經(jīng)理(項(xiàng)目總監(jiān)&項(xiàng)目經(jīng)理)27階段性產(chǎn)出文檔--不含PORTAL開(kāi)發(fā)

項(xiàng)目立項(xiàng)階段項(xiàng)目立項(xiàng)說(shuō)明書(shū)項(xiàng)目組資源配置說(shuō)明書(shū)項(xiàng)目計(jì)劃書(shū)需求調(diào)研階段需求分析說(shuō)明書(shū)接口與環(huán)境說(shuō)明書(shū)(針對(duì)第三方)系統(tǒng)體系架構(gòu)設(shè)計(jì)說(shuō)明書(shū)開(kāi)發(fā)階段ETL設(shè)計(jì)說(shuō)明書(shū)(概要設(shè)計(jì))ETL&數(shù)據(jù)倉(cāng)庫(kù)命名與開(kāi)發(fā)規(guī)范ETL詳細(xì)設(shè)計(jì)說(shuō)明書(shū)(映射,轉(zhuǎn)換,調(diào)度等)ETL應(yīng)用調(diào)度與維護(hù)說(shuō)明書(shū)報(bào)表命名與開(kāi)發(fā)規(guī)范報(bào)表詳細(xì)設(shè)計(jì)說(shuō)明書(shū)測(cè)試與運(yùn)維環(huán)境與配置文檔軟件安裝文檔系統(tǒng)使用說(shuō)明書(shū)階段性產(chǎn)出文檔項(xiàng)目立項(xiàng)階段項(xiàng)目立項(xiàng)說(shuō)明書(shū)項(xiàng)目組資源配置說(shuō)明書(shū)28項(xiàng)目計(jì)劃與風(fēng)控

--以項(xiàng)目周期為6個(gè)月為例項(xiàng)目計(jì)劃與風(fēng)控

--以項(xiàng)目周期為6個(gè)月為例29項(xiàng)目捷徑找到合適中間人

資質(zhì):采取合適開(kāi)發(fā)模式,如迭代開(kāi)發(fā)

甲方人員利于公關(guān)有權(quán)威性熟悉業(yè)務(wù)善于溝通項(xiàng)目捷徑找到合適中間人甲方人員利于公關(guān)有權(quán)威性熟悉業(yè)務(wù)善于溝30THANKYOU!THANKYOU!31大數(shù)據(jù),您如何選擇?假如你是一個(gè)商品零售公司的老板。

你的公司很先進(jìn),已經(jīng)實(shí)現(xiàn)了業(yè)務(wù)信息化,每一筆銷售單據(jù)都保存在數(shù)據(jù)庫(kù)中,日積月累,已經(jīng)保存了十余年的銷售數(shù)據(jù),上億條銷售記錄。

這時(shí)如果我問(wèn)你:“反正三年前的數(shù)據(jù)留著也白白占地方,耗費(fèi)存儲(chǔ)成本,索性把它們?nèi)珓h掉吧,這樣不用買硬盤(pán)就能容納新數(shù)據(jù),如何?”

你會(huì)從容的接受我這個(gè)建議嗎?

我們的直覺(jué)告訴我們:這些數(shù)據(jù)有用!

但這僅僅是一種直覺(jué),到底該怎樣把這些占據(jù)大量存儲(chǔ)空間的數(shù)據(jù)的價(jià)值挖掘出來(lái),讓這些數(shù)據(jù)從成本的消耗者變成利潤(rùn)的促進(jìn)者?大數(shù)據(jù),您如何選擇?假如你是一個(gè)商品零售公司的老板。

32BI閃亮登場(chǎng)沒(méi)錯(cuò),選擇BI來(lái)實(shí)現(xiàn).BI(BusinessIntelligence)是一種運(yùn)用了數(shù)據(jù)倉(cāng)庫(kù)、在線分析和數(shù)據(jù)挖掘等技術(shù)來(lái)處理和分析數(shù)據(jù)的嶄新技術(shù),目的是為企業(yè)決策者提供決策支持。BI應(yīng)用的兩大類別是信息類應(yīng)用DW(數(shù)據(jù)倉(cāng)庫(kù))和知識(shí)類應(yīng)用KDD(數(shù)據(jù)挖掘)。BI是種技術(shù),或者說(shuō)是解決方案.而不是某種工具。

BI閃亮登場(chǎng)沒(méi)錯(cuò),選擇BI來(lái)實(shí)現(xiàn).33BI應(yīng)用行業(yè)行業(yè)分布銀行、通信、證券、保險(xiǎn)、能源、煙草工廠、礦場(chǎng)、醫(yī)療衛(wèi)生零售、快消品電子商務(wù)、電子政務(wù)使用特點(diǎn)目前大部分用戶主要集中在信息類應(yīng)用,即數(shù)據(jù)查詢+報(bào)表展示+OLAP分析的合理,其主要目的即減輕手工報(bào)表制作的壓力,提高工作效率.少量用戶(金融,通信,能源)集中在數(shù)據(jù)挖掘.BI應(yīng)用行業(yè)行業(yè)分布34BI國(guó)內(nèi)應(yīng)用難點(diǎn)BI工具在中國(guó)遇到的難題:*復(fù)雜表樣:中國(guó)的表樣設(shè)計(jì)思想與西方不同,西方報(bào)表傾向于僅用一張報(bào)表說(shuō)明一個(gè)問(wèn)題,而中國(guó)的報(bào)表傾向于將盡可能多的問(wèn)題集中在一張報(bào)表中,這種思路直接導(dǎo)致了中國(guó)報(bào)表的復(fù)雜格式和詭異風(fēng)格,同時(shí)導(dǎo)致在國(guó)外大受歡迎的水晶報(bào)表水土不服。*大數(shù)據(jù)量:中國(guó)是世界上人口最多的國(guó)家。以中國(guó)移動(dòng)公司為例,僅我國(guó)一個(gè)省的用戶數(shù)量,就相當(dāng)于歐洲一個(gè)中等國(guó)家的人口,是真正的海量數(shù)據(jù)!國(guó)外數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和BI應(yīng)用軟件,都在中國(guó)經(jīng)受著大數(shù)據(jù)量承載能力的考驗(yàn)。*數(shù)據(jù)回寫(xiě):中國(guó)是世界上對(duì)BI系統(tǒng)要求最奇特的國(guó)家。本來(lái)BI系統(tǒng)是以忠實(shí)再現(xiàn)源數(shù)據(jù)為原則,但這個(gè)原則在中國(guó)遇到了難題,許多領(lǐng)導(dǎo)都提出了數(shù)據(jù)修改需求。筆者曾經(jīng)經(jīng)歷,挨罵頗多。BI國(guó)內(nèi)應(yīng)用難點(diǎn)BI工具在中國(guó)遇到的難題:35BI應(yīng)用分類

信息類BI應(yīng)用(數(shù)據(jù)倉(cāng)庫(kù))知識(shí)類BI應(yīng)用(數(shù)據(jù)挖掘)報(bào)表&圖表&地圖&中國(guó)式報(bào)表數(shù)據(jù)挖掘—探察數(shù)據(jù)規(guī)律自助樣式報(bào)表數(shù)據(jù)挖掘—數(shù)據(jù)建模&預(yù)測(cè)多維聯(lián)機(jī)分析(OLAP)BI應(yīng)用分類信息類BI應(yīng)用(數(shù)據(jù)倉(cāng)庫(kù))知識(shí)類BI應(yīng)用(數(shù)據(jù)36BI實(shí)現(xiàn)過(guò)程后端(ETL)前端(報(bào)表開(kāi)發(fā))源數(shù)據(jù)分析與探索Portal建設(shè)ODS建設(shè)模型與報(bào)表開(kāi)發(fā)DW(數(shù)據(jù)倉(cāng)庫(kù))OLAP分析(CUBE建設(shè))DM(數(shù)據(jù)集市)DM(數(shù)據(jù)挖掘)BI實(shí)現(xiàn)過(guò)程=前端+后端=源數(shù)據(jù)+ODS+DW+DM+OLAP+Report+

DMBI實(shí)現(xiàn)過(guò)程后端(ETL)前端(報(bào)表開(kāi)發(fā))源數(shù)據(jù)分析與探索P37BI實(shí)施開(kāi)發(fā)常用工具實(shí)施過(guò)程

工具源數(shù)據(jù)分析與探索SQL腳本ETLInformatica(PWC),DataStage,DTS/SSIS,Kettle,Beeload,ODI數(shù)據(jù)同步(源->ODS)Informatica(PWX),GoldenGateODS&DW&DM(關(guān)系型)MSSQL,Oracle,DB2

其他(MYSQL,Teradata)數(shù)據(jù)質(zhì)量管理Informatica(IDQ)報(bào)表開(kāi)發(fā)工具SAPBO,COGNOS,水晶報(bào)表/易表,OBIEE,Brio,QlikView,SASSmartbi,POWER-BI,FinereportSpagoBI

,OpenI

OLAP開(kāi)發(fā)工具Cognos(Powerplay)、Hyperion(Essbase)、微軟(AnalysisService)以及MicroStrategy報(bào)表開(kāi)發(fā)組件FusionCharts,JFreeChart,MsChartPortal開(kāi)發(fā)語(yǔ)言(平臺(tái))JAVA,.NET,PHP…數(shù)據(jù)挖掘工具SAS,SPSSClementine,MATLAB…BI實(shí)施開(kāi)發(fā)常用工具實(shí)施過(guò)程工具源數(shù)據(jù)分析與探索SQL腳本38BI架構(gòu)圖-1

-無(wú)ODSBI架構(gòu)圖-1

-無(wú)ODS39BI架構(gòu)圖-2元數(shù)據(jù)組成(Metadata)業(yè)務(wù)系統(tǒng)到數(shù)據(jù)倉(cāng)庫(kù)

數(shù)據(jù)倉(cāng)庫(kù)

數(shù)據(jù)展現(xiàn)工具ETL

TargetDatabaseFront-EndToolETL人事銷售庫(kù)存財(cái)務(wù)RDBMSODS/StagingAreaRDBMS數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)集市企業(yè)經(jīng)營(yíng)分析客戶關(guān)系管理業(yè)務(wù)流程分析財(cái)務(wù)分析Metadata外部系統(tǒng)StatisticsClusteringNeuralNetsArtificialIntelligence業(yè)務(wù)股東管理OLAPBI架構(gòu)圖-240支持源系統(tǒng)類型常見(jiàn)源系統(tǒng)數(shù)據(jù)類型關(guān)系型數(shù)據(jù)庫(kù)ACCESS、SQLSERVER、ORACLE、DB2TERADATA、GREENPLUM、MYSQL平面文件(Flatfile)EXCEL、TXTXML、HTML其他數(shù)據(jù)COBOLFILESAPORACLEEBS相關(guān)概念:OLTP,OLAP2.透明網(wǎng)關(guān)(異構(gòu)源與目標(biāo)的ETL)3.元數(shù)據(jù)(業(yè)務(wù)元數(shù)據(jù),技術(shù)元數(shù)據(jù))支持源系統(tǒng)類型常見(jiàn)源系統(tǒng)數(shù)據(jù)類型關(guān)系型數(shù)據(jù)庫(kù)ACCESS、S41ODSODS(OperationalDataStore)特征:ODS只是存放當(dāng)前或接近當(dāng)前的數(shù)據(jù)1)在業(yè)務(wù)系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)之間形成一個(gè)隔離層;減輕ETL對(duì)源系統(tǒng)壓力,相當(dāng)于緩沖區(qū).2)轉(zhuǎn)移一部分業(yè)務(wù)系統(tǒng)明細(xì)查詢的功能3)外部數(shù)據(jù)/文件的臨時(shí)存放4)出報(bào)表,例如

客戶保單今天如果到期則發(fā)送預(yù)警報(bào)表.ODSODS(OperationalDataStore)42DW-數(shù)據(jù)倉(cāng)庫(kù)DW,即數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse)特征:面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合.實(shí)際上.DW是多個(gè)表的集合,由多個(gè)維表與事實(shí)表組成.維度:

事物的某個(gè)方面,如時(shí)間、區(qū)域、供應(yīng)商2.

度量/指標(biāo):需要分析的量,如銷量、庫(kù)存、價(jià)格、積分3.粒度:數(shù)據(jù)表中數(shù)據(jù)細(xì)化的程度,如到月、周、天等4.事實(shí)表、維度表5.代理鍵、退化維6.緩慢維度變化DW-數(shù)據(jù)倉(cāng)庫(kù)DW,即數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse4344維度:是一個(gè)與業(yè)務(wù)相關(guān)的觀察角度依賴于數(shù)據(jù)的有效性和表達(dá)業(yè)務(wù)成效的關(guān)鍵性能指標(biāo)能夠回答類似下列問(wèn)題:業(yè)務(wù)的每個(gè)方面可構(gòu)造成一個(gè)維度,例如:時(shí)間維度由年、季度、月、周和天構(gòu)成。所有的維度在一起提供了業(yè)務(wù)的多維視圖。這個(gè)多維視圖的數(shù)據(jù)被存為一個(gè)立方體。一個(gè)維度是管理員從數(shù)據(jù)倉(cāng)庫(kù)提取的有效信息,并在同一個(gè)前題下以層的方式構(gòu)造形成。例如:地區(qū)維度下有地域、國(guó)家、辦事處、銷售員4層。WhoWhatWhereWhen什么是維度?13維度:WhoWhatWhereWhen什么是維度?企業(yè)收集和存儲(chǔ)的將用于評(píng)價(jià)業(yè)務(wù)狀況的數(shù)值性數(shù)據(jù)例如:銷售額成本利潤(rùn)庫(kù)存量交易數(shù)在企業(yè)活動(dòng)中通常是通過(guò)如銷售額、費(fèi)用、業(yè)務(wù)指標(biāo)、庫(kù)存量和定額一類的關(guān)鍵性能指標(biāo)------度量來(lái)監(jiān)測(cè)業(yè)務(wù)的成效。不同的度量能夠反映出不同的業(yè)務(wù)性質(zhì)。例如:假設(shè)針對(duì)企業(yè)的關(guān)鍵成功因素是客戶的滿意度。那么,對(duì)于產(chǎn)品制造商來(lái)說(shuō),可能要通過(guò)及時(shí)運(yùn)輸貨物來(lái)衡量它;而客戶服務(wù)部門可能要用電話支持回應(yīng)時(shí)間來(lái)衡量它。Howmuch什么是度量?1.度量在日常業(yè)務(wù)中相當(dāng)于指標(biāo),

如KPI指標(biāo)2.指標(biāo)分為基礎(chǔ)指標(biāo)和計(jì)算指標(biāo),如銷量同金額3.計(jì)算指標(biāo)請(qǐng)注意afterrollup與beforrollup企業(yè)收集和存儲(chǔ)的將用于評(píng)價(jià)業(yè)務(wù)狀況的數(shù)值性數(shù)據(jù)Howmuc45DM-數(shù)據(jù)集市DM,即數(shù)據(jù)集市(DataMart)

是企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)子集,它主要面向部門級(jí)業(yè)務(wù),并且只面向某個(gè)特定的主題.不同行業(yè)數(shù)據(jù)集市的規(guī)模不同,如移動(dòng)行業(yè)數(shù)據(jù)集市比很多企業(yè)的數(shù)據(jù)倉(cāng)庫(kù)規(guī)模還要大.數(shù)據(jù)集市特征面向部門/機(jī)構(gòu),如財(cái)務(wù)部,人力資源部,市場(chǎng)部星型結(jié)構(gòu)或雪花結(jié)構(gòu)匯總數(shù)據(jù)(粒度較低)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)集市數(shù)據(jù)集市DM-數(shù)據(jù)集市DM,即數(shù)據(jù)集市(DataMart)數(shù)據(jù)集46DM數(shù)據(jù)結(jié)構(gòu)-星型

星型架構(gòu):

是一種非正規(guī)化的結(jié)構(gòu),多維數(shù)據(jù)集的每一個(gè)維度都直接與事實(shí)表相連接,不存在漸變維度,所以數(shù)據(jù)有一定的冗余,但效率較高.優(yōu)點(diǎn):查詢效率較高DM數(shù)據(jù)結(jié)構(gòu)-星型星型架構(gòu):47DM數(shù)據(jù)結(jié)構(gòu)-雪花雪花模型雪花模型是對(duì)星型模型的擴(kuò)展。它對(duì)星型模型的維表進(jìn)一步層次化,原有的各維表可能被擴(kuò)展為小的事實(shí)表,形成一些局部的"層次"區(qū)域,這些被分解的表都連接到主維度表而不是事實(shí)表。優(yōu)點(diǎn):通過(guò)最大限度地減少數(shù)據(jù)存儲(chǔ)量以及聯(lián)合較小的維表來(lái)改善查詢性能。DM數(shù)據(jù)結(jié)構(gòu)-雪花雪花模型48OLAPOLAP(

On-LineAnalyticalProcessing)OLAP是使分析人員、管理人員或執(zhí)行人員能夠從多角度對(duì)信息進(jìn)行快速、一致、交互地存取,從而獲得對(duì)數(shù)據(jù)的更深入了解的一類軟件技術(shù)。OLAP的基本多維分析操作有鉆?。╮ollup和drilldown)、切片(slice)和切塊(dice)、以及旋轉(zhuǎn)(pivot)、drillacross、drillthrough等。OLAP有多種實(shí)現(xiàn)方法,根據(jù)存儲(chǔ)數(shù)據(jù)的方式不同可以分為ROLAP、MOLAP、HOLAP。常用OLAP工具:有HyperionEssbase,MicrosoftSQLServerOLAPServices,CognosTS,MicroStrategyOLAPOLAP(On-LineAnalyticalP49OLAP應(yīng)用圖示使用向下鉆取(DrillDown)、切片和旋轉(zhuǎn)(SliceandDice)以及改變顯示方式來(lái)探察數(shù)據(jù)大區(qū)省份城市向下鉆取產(chǎn)品區(qū)域

切片和旋轉(zhuǎn)ChangeDisplays

改變顯示相關(guān)概念:切塊,切片,旋轉(zhuǎn),上鉆,下鉆2.CUBE3.層級(jí)OLAP應(yīng)用圖示大區(qū)省份城市向下鉆取產(chǎn)品區(qū)域切片和50數(shù)據(jù)挖掘數(shù)據(jù)挖掘(DataMining,DM)又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KnowledgeDiscoverinDatabase,KDD)

數(shù)據(jù)挖掘是一種決策支持過(guò)程,它主要基于人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、可視化技術(shù)等,高度自動(dòng)化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),做出正確的決策。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。數(shù)據(jù)挖掘數(shù)據(jù)挖掘(DataMining,DM)又稱數(shù)據(jù)庫(kù)中51數(shù)據(jù)挖掘技術(shù)①分類。分類是找出數(shù)據(jù)庫(kù)中一組數(shù)據(jù)對(duì)象的共同特點(diǎn)并按照分類模式將其劃分為不同的類,如一個(gè)汽車零售商將客戶按照對(duì)汽車的喜好劃分成不同的類,這樣營(yíng)銷人員就可以將新型汽車的廣告手冊(cè)直接郵寄到有這種喜好的客戶手中,從而大大增加了商業(yè)機(jī)會(huì)。②回歸?;貧w分析方法反映的是事務(wù)數(shù)據(jù)庫(kù)中屬性值在時(shí)間上的特征,產(chǎn)生一個(gè)將數(shù)據(jù)項(xiàng)映射到一個(gè)實(shí)值預(yù)測(cè)變量的函數(shù),等。它可以應(yīng)用到市場(chǎng)營(yíng)銷的各個(gè)方面,如客戶尋求、保持和預(yù)防客戶流失活動(dòng)、產(chǎn)品生命周期分析、銷售趨勢(shì)預(yù)測(cè)及有針對(duì)性的促銷活動(dòng)等。③聚類。聚類分析是把一組數(shù)據(jù)按照相似性和差異性分為幾個(gè)類別。它可以應(yīng)用到客戶群體的分類、客戶背景分析、客戶購(gòu)買趨勢(shì)預(yù)測(cè)、市場(chǎng)的細(xì)分等發(fā)現(xiàn)變量或?qū)傩蚤g的依賴關(guān)系,其主要研究問(wèn)題包括數(shù)據(jù)序列的趨勢(shì)特征、數(shù)據(jù)序列的預(yù)測(cè)以及數(shù)據(jù)間的相關(guān)關(guān)系。④關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫(kù)中數(shù)據(jù)項(xiàng)之間所存在的關(guān)系的規(guī)則,即根據(jù)一個(gè)事務(wù)中某些項(xiàng)的出現(xiàn)可導(dǎo)出另一些項(xiàng)在同一事務(wù)中也出現(xiàn),即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。在客戶關(guān)系管理中,通過(guò)對(duì)企業(yè)的客戶數(shù)據(jù)庫(kù)里的大量數(shù)據(jù)進(jìn)行挖掘,可以從大量的記錄中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系,找出影響市場(chǎng)營(yíng)銷效果的關(guān)鍵因素,為產(chǎn)品定位、定價(jià)與定制客戶群,客戶尋求、細(xì)分與保持,市場(chǎng)營(yíng)銷與推銷,營(yíng)銷風(fēng)險(xiǎn)評(píng)估和詐騙預(yù)測(cè)等決策支持提供參考依據(jù)。⑦Web頁(yè)挖掘。隨著

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論