![商務(wù)智能系統(tǒng)課件_第1頁(yè)](http://file4.renrendoc.com/view/4ff1791fbd50dc5a049cae9b986c3dcf/4ff1791fbd50dc5a049cae9b986c3dcf1.gif)
![商務(wù)智能系統(tǒng)課件_第2頁(yè)](http://file4.renrendoc.com/view/4ff1791fbd50dc5a049cae9b986c3dcf/4ff1791fbd50dc5a049cae9b986c3dcf2.gif)
![商務(wù)智能系統(tǒng)課件_第3頁(yè)](http://file4.renrendoc.com/view/4ff1791fbd50dc5a049cae9b986c3dcf/4ff1791fbd50dc5a049cae9b986c3dcf3.gif)
![商務(wù)智能系統(tǒng)課件_第4頁(yè)](http://file4.renrendoc.com/view/4ff1791fbd50dc5a049cae9b986c3dcf/4ff1791fbd50dc5a049cae9b986c3dcf4.gif)
![商務(wù)智能系統(tǒng)課件_第5頁(yè)](http://file4.renrendoc.com/view/4ff1791fbd50dc5a049cae9b986c3dcf/4ff1791fbd50dc5a049cae9b986c3dcf5.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第13章 商務(wù)智能系統(tǒng) 商務(wù)智能系統(tǒng)是應(yīng)用人工智能、數(shù)據(jù)挖掘、數(shù)據(jù)倉(cāng)庫(kù)等先進(jìn)技術(shù),按照企業(yè)既定的業(yè)務(wù)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行分析和挖掘,揭示出隱藏的、未知的知識(shí)或驗(yàn)證已知的規(guī)律,從而支持企業(yè)的智能管理與決策,提高企業(yè)核心競(jìng)爭(zhēng)力。本章將詳細(xì)討論商務(wù)智能系統(tǒng)的起源、體系結(jié)構(gòu)、工作原理和關(guān)鍵技術(shù),并以知名的商務(wù)智能系統(tǒng)為例,剖析商務(wù)智能系統(tǒng)的實(shí)現(xiàn)原理和商務(wù)智能解決方案。13.1 商務(wù)智能概述商務(wù)智能將業(yè)務(wù)數(shù)據(jù)轉(zhuǎn)換成明確的、基于事實(shí)的、能夠執(zhí)行的信息,并且使得業(yè)務(wù)人員能夠發(fā)現(xiàn)客戶趨勢(shì),創(chuàng)建客戶忠誠(chéng)度,增強(qiáng)與供應(yīng)商的關(guān)系,減少金融風(fēng)險(xiǎn),以及揭示新的銷售商機(jī)。商務(wù)智能的目標(biāo)是了解變化的意義從而理解甚至預(yù)
2、見變化本身。通過(guò)訪問(wèn)當(dāng)前的、可靠的和易消化的信息,幫助企業(yè)從各個(gè)側(cè)面及不同的維度靈活地瀏覽信息和建立模型。它是提高和維持競(jìng)爭(zhēng)優(yōu)勢(shì)的一條有效的途徑。1 商務(wù)智能的產(chǎn)生原因企業(yè)對(duì)社會(huì)環(huán)境變化的需求、技術(shù)進(jìn)步的拉動(dòng)以及經(jīng)營(yíng)理念發(fā)展的結(jié)果。(1)企業(yè)運(yùn)營(yíng)模式的變化。(2)“數(shù)據(jù)= 資產(chǎn)”新企業(yè)觀念的建立。(3)傳統(tǒng)分析工具的整合能力有限。(4)信息技術(shù)的推動(dòng)。2 商務(wù)智能的定義Gartner Group最早提出商務(wù)智能概念,它認(rèn)為:商業(yè)智能技術(shù)提供使企業(yè)迅速分析數(shù)據(jù)的技術(shù)和方法,包括收集、管理和分析數(shù)據(jù),將這些數(shù)據(jù)轉(zhuǎn)化為有用的信息,然后分發(fā)到企業(yè)各處,輔助商業(yè)決策的制定。商務(wù)智能專家利奧托德這樣描述商
3、務(wù)智能:商務(wù)智能指將存儲(chǔ)于各種商業(yè)信息系統(tǒng)中的數(shù)據(jù)轉(zhuǎn)換成有用信息的技術(shù)。它允許用戶查詢和分析數(shù)據(jù)庫(kù),可以得出影響商業(yè)活動(dòng)的關(guān)鍵因素,最終幫助用戶做出更好、更合理的決策。國(guó)內(nèi)商務(wù)智能專家王茁給商務(wù)智能下了這樣一個(gè)定義:商務(wù)智能是企業(yè)利用現(xiàn)代信息技術(shù)收集、管理和分析結(jié)構(gòu)化和非結(jié)構(gòu)化的商務(wù)數(shù)據(jù)和信息,創(chuàng)造和累計(jì)商務(wù)知識(shí)和見解,改善商務(wù)決策水平,采取有效的商務(wù)行動(dòng),完善各種商務(wù)流程,提升各方面商務(wù)績(jī)效,增強(qiáng)綜合競(jìng)爭(zhēng)力的智慧和能力。國(guó)內(nèi)外一些知名的廠商也根據(jù)自身的產(chǎn)品提出獨(dú)特的見解:IDC將商務(wù)智能定義為:終端用戶查詢和報(bào)告工具、OLAP工具、數(shù)據(jù)挖掘軟件、數(shù)據(jù)集市和數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品等軟件工具的集合。 IB
4、M認(rèn)為:商業(yè)智能是一系列由系統(tǒng)和技術(shù)支持的以簡(jiǎn)化信息收集、分析的策略的集合,它應(yīng)該包括企業(yè)需要收集什么信息、誰(shuí)需要去訪問(wèn)這些數(shù)據(jù)、如何把原始數(shù)據(jù)轉(zhuǎn)化為最終導(dǎo)致戰(zhàn)略性決策的智能、客戶服務(wù)和供應(yīng)鏈管理。 Microsoft認(rèn)為:商業(yè)智能是任何嘗試獲取、分析企業(yè)數(shù)據(jù)以更清楚地了解市場(chǎng)和客戶、改進(jìn)企業(yè)流程、更有效地參與競(jìng)爭(zhēng)的努力。 SAP認(rèn)為:商業(yè)智能是一大類收集、存儲(chǔ)、分析和訪問(wèn)數(shù)據(jù)以幫助企業(yè)用戶更好進(jìn)行決策的應(yīng)用程序與技術(shù)。 SAS認(rèn)為:商業(yè)智能是關(guān)于在組織內(nèi)部和組織周圍正在發(fā)生的智能或知識(shí)。 MSTR認(rèn)為:商業(yè)智能是一系列能夠使公司分析數(shù)據(jù)庫(kù)中的數(shù)據(jù)并根據(jù)收集的信息獲得的洞察力來(lái)做決策的軟件系統(tǒng)
5、。 DWReview認(rèn)為:從數(shù)據(jù)分析的觀點(diǎn),商業(yè)智能是收集與研究主題相關(guān)的、高質(zhì)量的、有意義的信息、以幫助分析信息、得出結(jié)論或做出假設(shè)的過(guò)程。 商務(wù)智能是一個(gè)綜合的概念,不同的人從不同的角度,會(huì)得出不同的見解:從技術(shù)角度看,商務(wù)智能是以企業(yè)中的數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ),經(jīng)由聯(lián)機(jī)分析處理工具、數(shù)據(jù)挖掘工具加上決策人員的專業(yè)知識(shí),從根本上幫助公司把運(yùn)營(yíng)數(shù)據(jù)轉(zhuǎn)化成為高價(jià)值的可以獲取的信息(或者知識(shí)),并且在恰當(dāng)?shù)臅r(shí)候通過(guò)恰當(dāng)?shù)姆绞桨亚‘?dāng)?shù)男畔鬟f給恰當(dāng)?shù)娜说倪^(guò)程。從數(shù)據(jù)分析的角度看,商務(wù)智能是為了解決商業(yè)活動(dòng)中遇到的各種問(wèn)題,利用各種信息系統(tǒng)進(jìn)行的高質(zhì)量和有價(jià)值的信息收集、分析、處理過(guò)程,其基本功能包括個(gè)性化
6、的信息分析、預(yù)測(cè)和輔助決策。從應(yīng)用的角度看,商務(wù)智能幫助用戶對(duì)商業(yè)數(shù)據(jù)進(jìn)行在線分析處理和數(shù)據(jù)分析,幫助解決商業(yè)問(wèn)題、預(yù)測(cè)發(fā)展趨勢(shì)、輔助決策,對(duì)客戶進(jìn)行分類、挖掘潛在客戶等等,以便更好地實(shí)現(xiàn)商業(yè)目的。3 商務(wù)智能的特點(diǎn)現(xiàn)有的商務(wù)智能系統(tǒng)主要具有以下特點(diǎn):(1)成熟的數(shù)據(jù)倉(cāng)庫(kù)管理能力(2)強(qiáng)大的數(shù)據(jù)挖掘和OLAP能力(3)便捷的報(bào)表功能存在的缺陷:(1)主動(dòng)性較差(2)智能性較低(3)難以與企業(yè)中已有的商務(wù)系統(tǒng)集成4 商務(wù)智能的發(fā)展趨勢(shì)商務(wù)智能的出現(xiàn)是一個(gè)漸進(jìn)的復(fù)雜的演變過(guò)程,而且仍處在發(fā)展之中。它經(jīng)歷了事務(wù)處理系統(tǒng)(Transaction Proccss System,TPS)、高級(jí)管理人員信息
7、系統(tǒng)(Executive Information system,EIS)、管理信息系統(tǒng)(Management Information System,MIS)和決策支持系統(tǒng)(Decision Support System,DSS)等階段,最終演變成今天的企業(yè)商務(wù)智能。5 商務(wù)智能的應(yīng)用目前商務(wù)智能在全球的應(yīng)用主要集中在保險(xiǎn)業(yè)、銀行業(yè)、電信業(yè)、制造業(yè)、零售業(yè)、稅務(wù)和電子商務(wù)等領(lǐng)域。我國(guó)這方面的應(yīng)用雖然才剛剛起步,但市場(chǎng)空間十分廣闊。據(jù)IDC預(yù)測(cè),亞太地區(qū)商務(wù)智能軟件市場(chǎng)正以每年23%的速度增長(zhǎng),而中國(guó)是亞太地區(qū)商務(wù)智能增長(zhǎng)最為迅速的市場(chǎng)之一;如果中國(guó)經(jīng)濟(jì)繼續(xù)保持高速增長(zhǎng),商務(wù)智能軟件在中國(guó)內(nèi)地市場(chǎng)
8、的年銷售額平均增長(zhǎng)速度至少在65.6%。Business Objects和Cognos等BI提供商已直接或者通過(guò)其代理商進(jìn)入中國(guó)市場(chǎng)。Business Objects等公司成立了中國(guó)研究中心,其對(duì)中國(guó)市場(chǎng)的重視程度可見一斑。IDC公司認(rèn)為醫(yī)療、教育和服務(wù)等領(lǐng)域?qū)⑹巧虅?wù)智能增長(zhǎng)最快的行業(yè)。13.2 商務(wù)智能系統(tǒng)的體系結(jié)構(gòu)所謂體系結(jié)構(gòu)(Architecture)是指一整套的規(guī)則和結(jié)構(gòu),為一個(gè)系統(tǒng)或產(chǎn)品的整體設(shè)計(jì)提供主框架。而一個(gè)商業(yè)智能的體系結(jié)構(gòu)是指通過(guò)識(shí)別和理解數(shù)據(jù)在系統(tǒng)中的流動(dòng)過(guò)程和數(shù)據(jù)在企業(yè)中的應(yīng)用過(guò)程來(lái)提供商業(yè)智能系統(tǒng)應(yīng)用的主框架。1 商務(wù)智能系統(tǒng)的處理流程 商務(wù)智能系統(tǒng)是一種提高企業(yè)生存
9、能力的有效工具,從系統(tǒng)的觀點(diǎn)來(lái)看,一個(gè)典型的商務(wù)智能系統(tǒng)包括明確需求、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)存儲(chǔ)、知識(shí)挖掘以及應(yīng)用反饋幾個(gè)主要的處理流程。(1)外部數(shù)據(jù)源通過(guò)運(yùn)行環(huán)境(ERP、CRM、SCM等)流入BI循環(huán)(包含有關(guān)客戶、供應(yīng)商、競(jìng)爭(zhēng)對(duì)手、產(chǎn)品以及企業(yè)本身的信息);(2)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)/數(shù)據(jù)集市等數(shù)據(jù)存儲(chǔ)部分對(duì)加入數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)進(jìn)行凈化和轉(zhuǎn)換,糾正錯(cuò)誤的數(shù)據(jù)和統(tǒng)一格式,使其滿足數(shù)據(jù)倉(cāng)庫(kù)應(yīng)當(dāng)具有的數(shù)據(jù)格式和質(zhì)量標(biāo)準(zhǔn);將其存儲(chǔ)在中央存儲(chǔ)庫(kù)中(充當(dāng)中央存儲(chǔ)庫(kù)的可以是關(guān)系型數(shù)據(jù)庫(kù)或者多維數(shù)據(jù)庫(kù)),數(shù)據(jù)的抽取、凈化、轉(zhuǎn)換和存儲(chǔ)是BI循環(huán)的核心組成部分;(3)數(shù)據(jù)分析和知識(shí)挖掘部分從數(shù)據(jù)倉(cāng)庫(kù)/數(shù)據(jù)集市中獲取數(shù)據(jù),并
10、利用數(shù)據(jù)分析和知識(shí)挖掘工具,挖掘出對(duì)決策有用的知識(shí),將所得結(jié)果提交給業(yè)務(wù)決策者。這部分是商務(wù)智能系統(tǒng)的靈魂,它滿足了從簡(jiǎn)單報(bào)表經(jīng)由OLAP擴(kuò)展到數(shù)據(jù)挖掘范圍內(nèi)的各種需要;(4)BI將所得的知識(shí)以及決策者自身的反饋信息再次帶入運(yùn)作環(huán)境中,根據(jù)情況變化,表達(dá)新的需求,提高商務(wù)智能流程內(nèi)在質(zhì)量。從商務(wù)智能系統(tǒng)的循環(huán)流程中可以看出,數(shù)據(jù)倉(cāng)庫(kù)、OLAP(On-Line Analytical Processing:聯(lián)機(jī)分析處理)和數(shù)據(jù)挖掘(Data Mining)是其主要的技術(shù)支柱:數(shù)據(jù)倉(cāng)庫(kù)是處理海量數(shù)據(jù)的基礎(chǔ),存儲(chǔ)按照商務(wù)智能要求重新組織的來(lái)自業(yè)務(wù)系統(tǒng)的數(shù)據(jù);聯(lián)機(jī)分析處理不僅進(jìn)行數(shù)據(jù)匯總/聚集,同時(shí)還提
11、供切片、切塊、下鉆、上鉆和旋轉(zhuǎn)等數(shù)據(jù)分析功能,用戶可以方便地對(duì)海量數(shù)據(jù)進(jìn)行多維分析;數(shù)據(jù)挖掘的目標(biāo)則是挖掘數(shù)據(jù)背后隱藏的知識(shí),通過(guò)關(guān)聯(lián)分析、聚類和分類等方法建立分析模型,預(yù)測(cè)企業(yè)未來(lái)發(fā)展趨勢(shì)和將要面臨的問(wèn)題。2 商務(wù)智能系統(tǒng)的體系結(jié)構(gòu)從對(duì)處理流程的分析可以看出,商務(wù)智能系統(tǒng)主要由三個(gè)子系統(tǒng)組成:數(shù)據(jù)集成子系統(tǒng)、數(shù)據(jù)存儲(chǔ)子系統(tǒng)以及BI應(yīng)用子系統(tǒng)。如下圖:(1)數(shù)據(jù)集成子系統(tǒng) 數(shù)據(jù)集成子系統(tǒng)提供了一個(gè)解決企業(yè)的數(shù)據(jù)一致性與集成化問(wèn)題的方案,它通過(guò)數(shù)據(jù)整合、數(shù)據(jù)集中、數(shù)據(jù)交換等數(shù)據(jù)處理手段,將企業(yè)各個(gè)業(yè)務(wù)系統(tǒng)面向應(yīng)用的數(shù)據(jù)重新按照面向統(tǒng)計(jì)分析的方式進(jìn)行組織,屏蔽數(shù)據(jù)資源的異構(gòu)性與分布性,從而實(shí)現(xiàn)統(tǒng)一
12、的數(shù)據(jù)訪問(wèn)和數(shù)據(jù)集成。目前,數(shù)據(jù)集成主要通過(guò)ETL工具軟件、基于ETL的數(shù)據(jù)交換技術(shù)實(shí)現(xiàn)。(2)數(shù)據(jù)存儲(chǔ)子系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù)倉(cāng)庫(kù)在現(xiàn)有各業(yè)務(wù)系統(tǒng)的基礎(chǔ)上,對(duì)數(shù)據(jù)進(jìn)行抽取、清理,并有效集成后,按照主題進(jìn)行重新組織,最終確定數(shù)據(jù)倉(cāng)庫(kù)的物理存儲(chǔ)結(jié)構(gòu),同時(shí)組織存儲(chǔ)數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)(具體包括數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)字典、記錄系統(tǒng)定義、數(shù)據(jù)轉(zhuǎn)換規(guī)則、數(shù)據(jù)加載頻率以及業(yè)務(wù)規(guī)則等信息)。(3)BI應(yīng)用子系統(tǒng) 通過(guò)對(duì)分析需要的數(shù)據(jù)按照多維數(shù)據(jù)模型進(jìn)行再次重組,以支持用戶多角度、多層次的分析,并利用數(shù)據(jù)分析工具從中發(fā)現(xiàn)有用的知識(shí),支持企業(yè)的決策過(guò)程。它主要包括各種數(shù)據(jù)分析工具、報(bào)表工具、查詢工具、數(shù)據(jù)挖掘工具以及各種基于數(shù)據(jù)
13、倉(cāng)庫(kù)或數(shù)據(jù)集市開發(fā)的應(yīng)用。其中數(shù)據(jù)分析工具主要針對(duì)OLAP服務(wù)器,報(bào)表工具、數(shù)據(jù)挖掘工具既針對(duì)數(shù)據(jù)倉(cāng)庫(kù),同時(shí)也針對(duì)OLAP服務(wù)器。商務(wù)智能系統(tǒng)的實(shí)施 商業(yè)智能系統(tǒng)主要實(shí)現(xiàn)將來(lái)自不同企業(yè)運(yùn)作系統(tǒng)的數(shù)據(jù)轉(zhuǎn)換為企業(yè)決策信息的過(guò)程。與一般的信息系統(tǒng)不同,它在處理海量數(shù)據(jù)、數(shù)據(jù)分析和信息展現(xiàn)等多個(gè)方面都具有突出性能。 商務(wù)智能的體系結(jié)構(gòu)可以指導(dǎo)商務(wù)智能系統(tǒng)的實(shí)施,其步驟為:選擇數(shù)據(jù)源 數(shù)據(jù)預(yù)處理數(shù)據(jù)存儲(chǔ) 數(shù)據(jù)分析 (1)選擇數(shù)據(jù)源 數(shù)據(jù)源包括了企業(yè)中所有的信息系統(tǒng),以及根據(jù)決策分析需求可能涉及的其他外部數(shù)據(jù)資源,為了確保商務(wù)智能系統(tǒng)的成功,在識(shí)別和確定數(shù)據(jù)源時(shí)應(yīng)遵循一些原則:保證數(shù)據(jù)的真實(shí)性保證數(shù)據(jù)的針
14、對(duì)性保證數(shù)據(jù)的完整性(2)數(shù)據(jù)預(yù)處理 ETL是商務(wù)智能系統(tǒng)整合異構(gòu)數(shù)據(jù)源的解決方案,簡(jiǎn)單的講,ETL就是抽取、轉(zhuǎn)換和裝載,同時(shí)提供數(shù)據(jù)質(zhì)量的管理,并且貫穿整個(gè)商務(wù)智能解決方案的全過(guò)程,完成整個(gè)系統(tǒng)的數(shù)據(jù)處理與調(diào)度。數(shù)據(jù)抽取 數(shù)據(jù)抽取是在對(duì)數(shù)據(jù)倉(cāng)庫(kù)的主題和數(shù)據(jù)本身內(nèi)容理解的基礎(chǔ)上,選擇主題所涉及的相關(guān)數(shù)據(jù)。 a.數(shù)據(jù)的更新方式 量更新還是批量更新。 實(shí)時(shí)更新還是周期更新。 b.數(shù)據(jù)的傳輸模式 數(shù)據(jù)傳輸是通過(guò)網(wǎng)絡(luò)把遠(yuǎn)程的數(shù)據(jù)文件運(yùn)用FTP傳輸?shù)奖镜啬夸浵?。?shù)據(jù)的傳輸模式即數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是采用拉(Pull)的方式還是采用推(Push)的方式從數(shù)據(jù)源中獲取。數(shù)據(jù)轉(zhuǎn)換 數(shù)據(jù)轉(zhuǎn)換主要是針對(duì)數(shù)據(jù)倉(cāng)庫(kù)建立的
15、模型,通過(guò)一系列的轉(zhuǎn)換將數(shù)據(jù)從業(yè)務(wù)模型數(shù)據(jù)轉(zhuǎn)換為分析模型數(shù)據(jù),通過(guò)內(nèi)建的庫(kù)函數(shù)、自定義腳本或其他的擴(kuò)展方式,實(shí)現(xiàn)多種復(fù)雜轉(zhuǎn)換,并且支持調(diào)試環(huán)境,監(jiān)控轉(zhuǎn)換狀態(tài)。數(shù)據(jù)轉(zhuǎn)換是將源數(shù)據(jù)變?yōu)槟繕?biāo)數(shù)據(jù)的關(guān)鍵環(huán)節(jié),它包括數(shù)據(jù)格式轉(zhuǎn)換、數(shù)據(jù)類型轉(zhuǎn)換、數(shù)據(jù)匯總計(jì)算數(shù)據(jù)拼接等等。但轉(zhuǎn)換工作可以視具體情況在不同的過(guò)程中實(shí)現(xiàn),比如可以在數(shù)據(jù)抽取時(shí)轉(zhuǎn)換,也可以在數(shù)據(jù)加載時(shí)轉(zhuǎn)換。數(shù)據(jù)清洗 數(shù)據(jù)清洗實(shí)際就是利用有關(guān)技術(shù)如數(shù)理統(tǒng)計(jì)、數(shù)據(jù)挖掘或預(yù)定義的數(shù)據(jù)清洗規(guī)則將臟數(shù)據(jù)轉(zhuǎn)化成滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)。按數(shù)據(jù)清洗的實(shí)現(xiàn)方式與范圍,可將數(shù)據(jù)清洗分為四種:手工實(shí)現(xiàn)方式:用人工來(lái)檢測(cè)所有的錯(cuò)誤并改正。這只能針對(duì)小數(shù)據(jù)量的數(shù)據(jù)源。通過(guò)專
16、門編寫的應(yīng)用程序:通過(guò)編寫程序檢測(cè)/改正錯(cuò)誤。但通常數(shù)據(jù)清洗是一個(gè)反復(fù)進(jìn)行的過(guò)程,這就導(dǎo)致清理程序復(fù)雜、系統(tǒng)工作量大。某類特定應(yīng)用領(lǐng)域的問(wèn)題,如根據(jù)概率統(tǒng)計(jì)學(xué)原理查找數(shù)值異常的記錄。與特定應(yīng)用領(lǐng)域無(wú)關(guān)的數(shù)據(jù)清洗,這一部分的研究主要集中于重復(fù)記錄的檢測(cè)/刪除。數(shù)據(jù)清洗 數(shù)據(jù)裝載 數(shù)據(jù)裝載主要是將經(jīng)過(guò)轉(zhuǎn)換和清洗的數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)里面,即入庫(kù)??梢酝ㄟ^(guò)數(shù)據(jù)文件直接裝載或直連數(shù)據(jù)庫(kù)的方式來(lái)進(jìn)行,充分體現(xiàn)高效性。數(shù)據(jù)裝載有兩個(gè)部分,一部分是把合法數(shù)據(jù)文件裝入回滾表中,該裝入過(guò)程沒(méi)有匯總部分;另一部分是把初次匯總表加載到臨時(shí)匯總表,根據(jù)不同類型的數(shù)據(jù),可能會(huì)有二次匯總。當(dāng)加載臨時(shí)匯總表的過(guò)程完畢以后,再
17、把臨時(shí)中間表的數(shù)據(jù)裝入到中間表中。在實(shí)施中,它的步驟如下: a. 讀取匯總數(shù)據(jù)文件、無(wú)需進(jìn)行匯總的源數(shù)據(jù)文件或需以后匯總的源數(shù)據(jù)文件,調(diào)用數(shù)據(jù)文件對(duì)應(yīng)操作配置表,加載到相應(yīng)數(shù)據(jù)表(中間表或回滾表)中; b. 讀取需進(jìn)行實(shí)時(shí)匯總的合法數(shù)據(jù)文件,調(diào)用數(shù)據(jù)文件對(duì)應(yīng)操作配置表,對(duì)數(shù)據(jù)庫(kù)進(jìn)行更新操作; c. 程序根據(jù)生成的不同數(shù)據(jù)文件,同時(shí)生成匯總數(shù)據(jù),同先前步驟的匯總文件進(jìn)行對(duì)比,如出現(xiàn)不一致,提供系統(tǒng)預(yù)警。 (3) 數(shù)據(jù)存儲(chǔ) 對(duì)于一個(gè)企業(yè)來(lái)說(shuō),最關(guān)鍵最重要的是如何以一種有效的方式逐步整理各個(gè)業(yè)務(wù)處理系統(tǒng)中積累下來(lái)的歷史數(shù)據(jù),并通過(guò)靈活有效的方式為各級(jí)業(yè)務(wù)人員提供統(tǒng)一的信息視圖,從而在整個(gè)企業(yè)內(nèi)實(shí)現(xiàn)真
18、正的信息共享。數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)存貯數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù)倉(cāng)庫(kù)是一種語(yǔ)義上一致的數(shù)據(jù)存儲(chǔ),它是決策支持?jǐn)?shù)據(jù)模型的物理實(shí)現(xiàn),并存放企業(yè)戰(zhàn)略決策所需信息。數(shù)據(jù)倉(cāng)庫(kù)也常常被看作一種體系結(jié)構(gòu),通過(guò)將異種數(shù)據(jù)源中的數(shù)據(jù)集成在一起而構(gòu)造,支持結(jié)構(gòu)化的和專門的查詢、分析報(bào)告和決策。 通過(guò)提供多維數(shù)據(jù)視圖和匯總數(shù)據(jù)的預(yù)計(jì)算,數(shù)據(jù)倉(cāng)庫(kù)非常適合聯(lián)機(jī)分析處理(OLAP)。OLAP操作使用數(shù)據(jù)的領(lǐng)域背景知識(shí),允許在不同的抽象層提供數(shù)據(jù)。這些操作適合不同的用戶。盡管數(shù)據(jù)倉(cāng)庫(kù)工具對(duì)于支持?jǐn)?shù)據(jù)分析是有幫助的,但是仍需要更多的數(shù)據(jù)挖掘工具,以便進(jìn)行更深入的自動(dòng)分析。元數(shù)據(jù)存貯 簡(jiǎn)單地,元數(shù)據(jù)存貯有兩種形式:其一是以數(shù)據(jù)集為基礎(chǔ),即每一個(gè)
19、數(shù)據(jù)集有一個(gè)對(duì)應(yīng)的元數(shù)據(jù)文檔,每一個(gè)元數(shù)據(jù)文件中包含對(duì)相應(yīng)數(shù)據(jù)集的元數(shù)據(jù)內(nèi)容。另一種存在方式是以數(shù)據(jù)庫(kù)為基礎(chǔ)(即元數(shù)據(jù)庫(kù)),給一個(gè)數(shù)據(jù)庫(kù)有一個(gè)元數(shù)據(jù)文件,該文件為一表格數(shù)據(jù),它由若干項(xiàng)組成,每一項(xiàng)表示元數(shù)據(jù)的一個(gè)要素,其記錄為每一個(gè)數(shù)據(jù)集的元數(shù)據(jù)內(nèi)容。(4) 數(shù)據(jù)分析 在商務(wù)智能系統(tǒng)中,需要將交互式信息分析、挖掘工具、數(shù)據(jù)分析軟件、商務(wù)智能工具與商業(yè)運(yùn)營(yíng)規(guī)則相結(jié)合對(duì)數(shù)據(jù)的模式和趨勢(shì)進(jìn)行分析,給用戶提供企業(yè)商務(wù)的方方面面的詳細(xì)信息,以輔助商務(wù)活動(dòng)決策獲得更高的ROI和利潤(rùn)。數(shù)據(jù)分析主要包含三個(gè)方面:聯(lián)機(jī)分析處理數(shù)據(jù)挖掘聯(lián)機(jī)分析挖掘13.3 商務(wù)智能中的關(guān)鍵技術(shù)商務(wù)智能是一套完整的解決方案,它是將
20、數(shù)據(jù)倉(cāng)庫(kù)、聯(lián)機(jī)分析處理(OLAP)和數(shù)據(jù)挖掘等結(jié)合起來(lái)應(yīng)用到商業(yè)活動(dòng)中,從不同的數(shù)據(jù)源收集數(shù)據(jù),經(jīng)過(guò)抽取(Extract)、轉(zhuǎn)換(Transform)和加載(Load),送入到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市,然后使用合適的查詢與分析工具、數(shù)據(jù)挖掘工具和聯(lián)機(jī)分析處理工具對(duì)信息進(jìn)行處理,將信息轉(zhuǎn)變成為輔助決策的知識(shí),最后將知識(shí)呈現(xiàn)于用戶面前,以實(shí)現(xiàn)技術(shù)服務(wù)與決策的目的。1 數(shù)據(jù)倉(cāng)庫(kù)技術(shù) 建立數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的目的是要構(gòu)建一種體系化的數(shù)據(jù)存儲(chǔ)環(huán)境,將分析決策所需的大量數(shù)據(jù)從傳統(tǒng)的操作環(huán)境中分離出來(lái),使分散的、不一致的操作數(shù)據(jù)轉(zhuǎn)換成集成的、統(tǒng)一的信息,運(yùn)用這些信息,發(fā)現(xiàn)問(wèn)題、分析問(wèn)題、解決問(wèn)題,進(jìn)而進(jìn)行決策,為在以后
21、獲得更多的經(jīng)濟(jì)效益服務(wù)。 (1)數(shù)據(jù)倉(cāng)庫(kù)的定義 “數(shù)據(jù)倉(cāng)庫(kù)之父”W.H.Inmon在他的Building the Data Warehouse一書中指出:“數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、非易失的,隨時(shí)間變化的用來(lái)支持管理人員決策的數(shù)據(jù)集合。” 從上面這個(gè)概念的字面意義來(lái)看,數(shù)據(jù)倉(cāng)庫(kù)包含兩層含義: 數(shù)據(jù),即關(guān)于某事的事實(shí)和信息; 倉(cāng)庫(kù),即存儲(chǔ)貨物和商品的地方或設(shè)施。數(shù)據(jù)倉(cāng)庫(kù)的特征:面向主題性 數(shù)據(jù)倉(cāng)庫(kù)中的所有數(shù)據(jù)都是圍繞著某一主題組織,如客戶、供應(yīng)商、產(chǎn)品來(lái)建立的。集成性 數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是在對(duì)原有分散的數(shù)據(jù)庫(kù)數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過(guò)系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保
22、證數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息非易失性 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)以后,一般情況下將被長(zhǎng)期保留,也就是數(shù)據(jù)倉(cāng)庫(kù)中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。時(shí)變性 時(shí)變性表現(xiàn)在數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是在一個(gè)很長(zhǎng)的時(shí)間上的數(shù)據(jù)。 (2) 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織結(jié)構(gòu) 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織方式與數(shù)據(jù)庫(kù)不同,通常是采用分級(jí)的方式組織。一般分為早期細(xì)節(jié)級(jí)、當(dāng)前細(xì)節(jié)級(jí)、輕度綜合級(jí)、高度綜合級(jí)以及元數(shù)據(jù)五部分。a早期細(xì)節(jié)數(shù)據(jù) 存儲(chǔ)過(guò)去的詳細(xì)數(shù)據(jù),反映真實(shí)的歷史情況,這類數(shù)據(jù)隨著時(shí)間增加,數(shù)
23、據(jù)量很大,使用頻率低,一般存儲(chǔ)在轉(zhuǎn)換介質(zhì)中,例如磁帶中。b 當(dāng)前細(xì)節(jié)數(shù)據(jù) 存儲(chǔ)最近時(shí)期的業(yè)務(wù)數(shù)據(jù),反映當(dāng)前業(yè)務(wù)的情況,數(shù)據(jù)量大,是數(shù)據(jù)倉(cāng)庫(kù)用戶最感興趣的部分。隨著時(shí)間的推移,當(dāng)前細(xì)節(jié)數(shù)據(jù)由數(shù)據(jù)倉(cāng)庫(kù)的時(shí)間控制機(jī)制轉(zhuǎn)為早期細(xì)節(jié)數(shù)據(jù)。c輕度綜合數(shù)據(jù) 從當(dāng)前基本數(shù)據(jù)中提取出來(lái),通常以較小的時(shí)間段(粒度)統(tǒng)計(jì)而成的數(shù)據(jù),其數(shù)據(jù)量較細(xì)節(jié)及數(shù)據(jù)少得多。d高度綜合數(shù)據(jù) 這一層的數(shù)據(jù)十分精煉,是一種準(zhǔn)決策數(shù)據(jù)。e 元數(shù)據(jù) 對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的各種數(shù)據(jù)進(jìn)行詳細(xì)的描述與說(shuō)明,說(shuō)明每個(gè)數(shù)據(jù)的上下文關(guān)系,使每個(gè)數(shù)據(jù)具有符合現(xiàn)實(shí)的真實(shí)含義,使最終用戶了解這些數(shù)據(jù)之間的關(guān)系。每月數(shù)據(jù)2000-2005每周數(shù)據(jù)2000-2005細(xì)
24、節(jié)數(shù)據(jù)2000-2005操作數(shù)據(jù)1995-2000高度綜合級(jí)輕度綜合級(jí)當(dāng)前細(xì)節(jié)級(jí)早期細(xì)節(jié)級(jí)圖13-5 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織結(jié)構(gòu)圖元數(shù)據(jù) 當(dāng)前的數(shù)據(jù)總是首先進(jìn)入當(dāng)前細(xì)節(jié)級(jí),然后根據(jù)應(yīng)用的需求,通過(guò)預(yù)運(yùn)算將數(shù)據(jù)聚合成輕度綜合和高度綜合級(jí)。由此可見,數(shù)據(jù)倉(cāng)庫(kù)中存在著不同的綜合級(jí)別,一般稱之為“粒度”。粒度是指數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)單位,保存數(shù)據(jù)的細(xì)化或綜合程度的級(jí)別。細(xì)化程度越高,粒度就越小;相反,細(xì)化程度越低,粒度級(jí)就越大。粒度可以分為兩種形式,第一種粒度稱為多維粒度,是對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)的綜合程度高低的一個(gè)度量,它既影響數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量的多少,也影響數(shù)據(jù)倉(cāng)庫(kù)所能回答詢問(wèn)的種類。另一種粒度形式稱為樣本數(shù)
25、據(jù)庫(kù),它根據(jù)給定的采樣率從細(xì)節(jié)數(shù)據(jù)庫(kù)中抽取出一個(gè)子集。與粒度相對(duì)應(yīng)的一個(gè)概念是“分割”。它的目的同樣在于將數(shù)據(jù)分散到各自的物理單元中去,以便能分別獨(dú)立處理。有許多數(shù)據(jù)分割的標(biāo)準(zhǔn)可供參考:如日期、地域、業(yè)務(wù)領(lǐng)域等等,也可以是其組合。一般而言,分割標(biāo)準(zhǔn)總應(yīng)包括日期項(xiàng),它十分自然而且分割均勻。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式簡(jiǎn)單堆積文件輪轉(zhuǎn)綜合文件簡(jiǎn)化直接文件連續(xù)文件簡(jiǎn)單堆積文件 從面向應(yīng)用的數(shù)據(jù)庫(kù)中每天的數(shù)據(jù)中提取出來(lái),然后按照相應(yīng)的主題集成為數(shù)據(jù)倉(cāng)庫(kù)中的記錄。輪轉(zhuǎn)綜合文件 數(shù)據(jù)存儲(chǔ)單位被分為日、周、月、年等幾個(gè)級(jí)別。在一個(gè)星期的七天中,數(shù)據(jù)被逐一記錄在每日數(shù)據(jù)集中;然后,七天的數(shù)據(jù)被綜合并記錄在周數(shù)據(jù)集中
26、;接下去的一個(gè)星期,日數(shù)據(jù)集被重新使用,以記錄新數(shù)據(jù)。同理,周數(shù)據(jù)集達(dá)到五個(gè)后,數(shù)據(jù)再一次被綜合并記入月數(shù)據(jù)集。以此類推。輪轉(zhuǎn)綜合結(jié)構(gòu)十分簡(jiǎn)捷,數(shù)據(jù)量較簡(jiǎn)單堆積結(jié)構(gòu)大大減少。當(dāng)然,它是以損失數(shù)據(jù)細(xì)節(jié)為代價(jià)的,越久遠(yuǎn)的數(shù)據(jù),細(xì)節(jié)損失越多。1 數(shù)據(jù)倉(cāng)庫(kù)技術(shù) (2) 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式輪轉(zhuǎn)綜合文件 簡(jiǎn)化直接文件 它類似于簡(jiǎn)單堆積文件,但它是間隔一定時(shí)間的數(shù)據(jù)庫(kù)快照,比如每隔一星期或一個(gè)月作一次。連續(xù)文件 它類似于簡(jiǎn)單堆積文件,但它是間隔一定時(shí)間的數(shù)據(jù)庫(kù)快照,比如每隔一星期或一個(gè)月作一次。1 數(shù)據(jù)倉(cāng)庫(kù)技術(shù) (2) 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型 數(shù)據(jù)模型是對(duì)現(xiàn)實(shí)世界進(jìn)行
27、抽象的工具,抽象的程度不同,就形成不同抽象級(jí)別層次上的數(shù)據(jù)模型。通常,數(shù)據(jù)數(shù)據(jù)可以分為三個(gè)層次:高層數(shù)據(jù)模型(ER圖,實(shí)體關(guān)系層)、中間層模型(DIS,數(shù)據(jù)項(xiàng)集)、底層數(shù)據(jù)模型(物理模型)。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型高層數(shù)據(jù)模型 高層建模以實(shí)體和關(guān)系為特征,實(shí)體處于最高抽象層,由“集成范圍”這個(gè)術(shù)語(yǔ)表示的內(nèi)容來(lái)決定哪些實(shí)體屬于模型范圍。集成范圍定義了數(shù)據(jù)的邊界,而且集成范圍需在建模之前進(jìn)行定義。這個(gè)范圍由系統(tǒng)的建模者、管理人員和最終用戶共同確定。如果范圍沒(méi)有預(yù)先確定,建模過(guò)程就很有可能一直持續(xù)下去。寫出來(lái)的集成范圍應(yīng)該盡量簡(jiǎn)短,而且應(yīng)該使用業(yè)務(wù)人員可以理解的語(yǔ)言。 高層數(shù)據(jù)模型對(duì)數(shù)據(jù)抽象程度最大,表達(dá)
28、工具為E-R圖。中間層模型 對(duì)高層數(shù)據(jù)模型中標(biāo)識(shí)的每個(gè)主要的主題域或?qū)嶓w,都要建一個(gè)中間層數(shù)據(jù)模型。中間層數(shù)據(jù)模型4種基本構(gòu)造,見圖13-10:聯(lián)接數(shù)據(jù)組:本主題域與其他主題域間的聯(lián)系,一個(gè)主題的公共碼鍵。 基本數(shù)據(jù)組:屬于基本不會(huì)發(fā)生變化的項(xiàng)。 二次數(shù)據(jù)組:基本不變化,但又存在變化的可能的數(shù)據(jù)項(xiàng)。 類型數(shù)據(jù)組:經(jīng)常變化的數(shù)據(jù)項(xiàng)。底層模型 它是從中間層數(shù)據(jù)模型創(chuàng)建而來(lái)的,建立物理模型只需擴(kuò)展中間層模型,使模型中包含有關(guān)鍵字和物理特性就可以實(shí)現(xiàn)。其中物理特性設(shè)計(jì)需包括:確定數(shù)據(jù)的粒度和分區(qū)。當(dāng)然關(guān)鍵字結(jié)構(gòu)得發(fā)生改變,以便能加入與每一個(gè)數(shù)據(jù)單元都相關(guān)的時(shí)間元素。數(shù)據(jù)庫(kù)設(shè)計(jì)者需要在物理上組織好數(shù)據(jù)、
29、保證執(zhí)行一次物理I/O能夠返回最大數(shù)量的記錄。因?yàn)閿?shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)一般不更新,可以考慮一些在經(jīng)常更新情況下不能使用的物理設(shè)計(jì)。 上述三個(gè)層次的數(shù)據(jù)模型對(duì)應(yīng)到傳統(tǒng)操作型數(shù)據(jù)庫(kù)建模中即為:概念模型、邏輯模型和物理模型。在數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)中同樣存在著這樣的模型。數(shù)據(jù)模型既適用于現(xiàn)有的系統(tǒng)環(huán)境也適用于數(shù)據(jù)倉(cāng)庫(kù)中的環(huán)境。但數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型與操作型數(shù)據(jù)庫(kù)的三級(jí)數(shù)據(jù)模型又存在著一定的區(qū)別:數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型中不包含純操作型的數(shù)據(jù);數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型擴(kuò)充了碼結(jié)構(gòu),增加了時(shí)間屬性作為碼的一部分;數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型中增加了一些導(dǎo)出數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加方式常用的技術(shù)和方法有:時(shí)標(biāo)方法DELTA文件前后映象文件的
30、方法日志文件 (3) 數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu) 數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)是以數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ),通過(guò)集成工具、查詢工具和分析工具完成對(duì)數(shù)據(jù)的轉(zhuǎn)換和對(duì)信息提取的系統(tǒng)。通常采用如圖13-11所示的體系結(jié)構(gòu):數(shù)據(jù)源、數(shù)據(jù)存儲(chǔ)和管理、數(shù)據(jù)分析以及數(shù)據(jù)展示。其中,元數(shù)據(jù)庫(kù)是對(duì)數(shù)據(jù)的一種描述,貫穿整個(gè)系統(tǒng)的各個(gè)部分 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)一般分為操作數(shù)據(jù)庫(kù)源數(shù)據(jù)和外部源數(shù)據(jù)兩部分。操作數(shù)據(jù)源包括各種生產(chǎn)系統(tǒng)數(shù)據(jù)庫(kù)、聯(lián)機(jī)事務(wù)處理系統(tǒng)的操作數(shù)據(jù)庫(kù)等;外部源數(shù)據(jù)一般來(lái)自企業(yè)的外部信息,如市場(chǎng)調(diào)查與分析及各類文檔等。 導(dǎo)入的源數(shù)據(jù)形成了數(shù)據(jù)倉(cāng)庫(kù)的原始數(shù)據(jù),然而源數(shù)據(jù)只是數(shù)據(jù)倉(cāng)庫(kù)的一部分,但不是全部。由于需要數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行OLAP分析和數(shù)據(jù)挖掘,
31、因此需要在原始數(shù)據(jù)的基礎(chǔ)上增加冗余信息,比如進(jìn)行大量的預(yù)運(yùn)算,建立多維數(shù)據(jù)庫(kù),以求得到更好的分析結(jié)果。 數(shù)據(jù)的存儲(chǔ)與管理是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的核心。在現(xiàn)有各業(yè)務(wù)系統(tǒng)的基礎(chǔ)上,對(duì)數(shù)據(jù)進(jìn)行抽取、清理,并有效集成,按照主題進(jìn)行重新組織,最終確定數(shù)據(jù)倉(cāng)庫(kù)的物理存儲(chǔ)結(jié)構(gòu),同時(shí)組織存儲(chǔ)數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)(具體包括數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)字典、記錄系統(tǒng)定義、數(shù)據(jù)轉(zhuǎn)換規(guī)則、數(shù)據(jù)加載頻率以及業(yè)務(wù)規(guī)則等信息)。 數(shù)據(jù)訪問(wèn)和分析工具不但要提供一般的數(shù)據(jù)訪問(wèn)功能,如查詢、匯總、統(tǒng)計(jì)等,還要提供對(duì)數(shù)據(jù)的深入分析功能,即數(shù)據(jù)挖掘的功能,如數(shù)據(jù)的比較、趨勢(shì)分析、模式識(shí)別等。 數(shù)據(jù)展示將應(yīng)用結(jié)果,特別是分析、決策結(jié)果以多種媒體形式表示。 (
32、4) 數(shù)據(jù)倉(cāng)庫(kù)的基本框架 數(shù)據(jù)倉(cāng)庫(kù)提供了有效地存取和管理大量數(shù)據(jù)的理想環(huán)境,而數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的建立是一個(gè)由數(shù)據(jù)驅(qū)動(dòng)、以技術(shù)支撐并滿足應(yīng)用需求的不斷增長(zhǎng)和完善的開發(fā)過(guò)程。因此數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)可以從數(shù)據(jù)、技術(shù)和應(yīng)用三方面展開,其基本框架如圖13-13所示基本框架的各部分描述如下:項(xiàng)目計(jì)劃。項(xiàng)目計(jì)劃是指定義創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)的項(xiàng)目目標(biāo)和確定項(xiàng)目范圍,包括對(duì)項(xiàng)目計(jì)劃的評(píng)估和流程的調(diào)整。業(yè)務(wù)需求分析。業(yè)務(wù)需求分析是數(shù)據(jù)倉(cāng)庫(kù)中一個(gè)很重要的階段,好的業(yè)務(wù)需求分析會(huì)使項(xiàng)目成功的機(jī)率大大增加。數(shù)據(jù)線。數(shù)據(jù)線的實(shí)施可以分為模型設(shè)計(jì)、物理設(shè)計(jì)、數(shù)據(jù)處理三個(gè)步驟,用以滿足對(duì)數(shù)據(jù)的有效組織和管理。技術(shù)線。技術(shù)線的實(shí)施分為技術(shù)選擇
33、和產(chǎn)品選擇兩個(gè)步驟。如何采用合理有效的技術(shù)是實(shí)現(xiàn)一個(gè)好的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的基本條件。應(yīng)用線。應(yīng)用線的實(shí)施分為應(yīng)用設(shè)計(jì)和應(yīng)用開發(fā)兩個(gè)步驟。數(shù)據(jù)倉(cāng)庫(kù)的建立最終是為應(yīng)用服務(wù)的,所以需要對(duì)應(yīng)用進(jìn)行設(shè)計(jì)和開發(fā),以更好地滿足用戶的需要。運(yùn)行維護(hù)。數(shù)據(jù)倉(cāng)庫(kù)建成后就進(jìn)入運(yùn)行維護(hù),在運(yùn)行中要不斷驗(yàn)證評(píng)價(jià)分析設(shè)計(jì)是否符合用戶需求,產(chǎn)生出新的分析要求及時(shí)反饋回需求分析,進(jìn)行系統(tǒng)設(shè)計(jì)的改進(jìn)。數(shù)據(jù)線路:模型設(shè)計(jì)。該階段的主要任務(wù)是進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)的邏輯設(shè)計(jì),包括選擇合適的主題,確定事實(shí)表、相關(guān)的維、屬性和粒度劃分,設(shè)計(jì)正確的表結(jié)構(gòu)和主鍵、外鍵關(guān)系等。模型設(shè)計(jì)主要包括四個(gè)基本步驟:確定合適的主題、劃分粒度層次、設(shè)計(jì)維表和設(shè)計(jì)事實(shí)
34、表。物理設(shè)計(jì)。物理設(shè)計(jì)的主要任務(wù)是定義支持模型設(shè)計(jì)必需的物理結(jié)構(gòu)。其過(guò)程包括以下三個(gè)方面:確定物理存儲(chǔ)結(jié)構(gòu);確定索引策略;確定存儲(chǔ)分配。數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理是數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)工程中非常重要的過(guò)程,它由三個(gè)主要步驟組成:抽?。‥xtraction)、轉(zhuǎn)換(Transformation)、加載(Load),簡(jiǎn)稱ETL。技術(shù)線路: 技術(shù)路線包括技術(shù)選擇和產(chǎn)品選擇兩步。在數(shù)據(jù)倉(cāng)庫(kù)建立的過(guò)程中會(huì)遇到一些新的特定的問(wèn)題,如管理大量數(shù)據(jù)的需求,如何對(duì)數(shù)據(jù)進(jìn)行快速和方便的訪問(wèn)等。為解決這些問(wèn)題人們采用了新的技術(shù)。技術(shù)選擇。技術(shù)體系選擇必須從為這些技術(shù)建立全局的結(jié)構(gòu)框架和視角出發(fā),選擇中需要同時(shí)考慮三個(gè)因素:商業(yè)
35、需求、當(dāng)前的技術(shù)環(huán)境、計(jì)劃的策略技術(shù)方向。產(chǎn)品選擇。技術(shù)體系確定以后需要選擇實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用的各種產(chǎn)品,包括硬件平臺(tái)、ETL工具、OLAP服務(wù)器、數(shù)據(jù)展現(xiàn)工具等,并進(jìn)行產(chǎn)品的安裝和測(cè)試。應(yīng)用線路: 應(yīng)用設(shè)計(jì)和開發(fā)的一個(gè)有效辦法是針對(duì)不同的用戶需求,設(shè)計(jì)和實(shí)現(xiàn)標(biāo)準(zhǔn)的用戶應(yīng)用模板,提供給用戶高效的接入方式。應(yīng)用路線包括應(yīng)用設(shè)計(jì)和應(yīng)用開發(fā)兩步。應(yīng)用設(shè)計(jì)。應(yīng)用設(shè)計(jì)的任務(wù)是設(shè)計(jì)標(biāo)準(zhǔn)的用戶應(yīng)用模板。應(yīng)用設(shè)計(jì)的過(guò)程一般包括:確定初始的模板集、設(shè)計(jì)模板的標(biāo)準(zhǔn)、設(shè)計(jì)詳細(xì)模板、最后通過(guò)用戶反饋進(jìn)行改進(jìn)。應(yīng)用開發(fā)。應(yīng)用開發(fā)是通過(guò)應(yīng)用設(shè)計(jì)說(shuō)明書,按照標(biāo)準(zhǔn)的軟件開發(fā)流程,實(shí)現(xiàn)模板的設(shè)計(jì)。應(yīng)用開發(fā)的一般過(guò)程是選擇實(shí)現(xiàn)的方
36、法,然后進(jìn)行模板的實(shí)現(xiàn)、測(cè)試和數(shù)據(jù)驗(yàn)證,最后是應(yīng)用模板的維護(hù)。2 聯(lián)機(jī)分析處理 OLAP專門用于支持復(fù)雜的決策分析,是支持信息管理和業(yè)務(wù)管理人員決策活動(dòng)的一種決策分析工具。它可以根據(jù)分析人員的要求,迅速、靈活地對(duì)大量數(shù)據(jù)進(jìn)行復(fù)雜的查詢處理,并且以直觀的、容易理解的形式將查詢結(jié)果提供給各種決策人員,使他們迅速、準(zhǔn)確地掌握企業(yè)的運(yùn)營(yíng)情況,了解市場(chǎng)的需求。(1) 聯(lián)機(jī)分析處理的定義 OLAP委員會(huì)的定義:OLAP是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對(duì)從原始數(shù)據(jù)中轉(zhuǎn)化出來(lái)的、能夠真正為用戶所理解的、并真實(shí)反映企業(yè)維特性的信息進(jìn)行快速、一致、交互地存取,從而獲得對(duì)數(shù)據(jù)的更深入了解的一類軟件技術(shù)
37、。OLAP的目標(biāo)是滿足決策支持或多維環(huán)境特定的查詢和報(bào)表需求,它的技術(shù)核心是“維”這個(gè)概念,因此OLAP也可以說(shuō)是多維數(shù)據(jù)分析工具的集合。 聯(lián)機(jī)分析技術(shù)具有如下特點(diǎn):一是在線(On-Line),表現(xiàn)為對(duì)用戶請(qǐng)求的快速響應(yīng)和交互操作,它的實(shí)現(xiàn)是由客戶機(jī)服務(wù)器體系結(jié)構(gòu)完成的;二是多維分析(Multi-Analysis),這也是OLAP技術(shù)的核心所在。具有以下優(yōu)點(diǎn):快速性:用戶對(duì)OLAP的快速反應(yīng)能力有很高的要求,主要是指計(jì)算機(jī)的計(jì)算的反應(yīng)速度,系統(tǒng)應(yīng)能在5秒內(nèi)對(duì)用戶的大部分分析要求做出反應(yīng),但對(duì)業(yè)務(wù)數(shù)據(jù)的實(shí)時(shí)信息卻很難反應(yīng)。 可分析性:OLAP系統(tǒng)應(yīng)能處理與應(yīng)用有關(guān)的任何邏輯分析和統(tǒng)計(jì)分析。多維性
38、:多維性是OLAP的關(guān)鍵屬性。系統(tǒng)必須提供對(duì)數(shù)據(jù)的多維視圖和分析,包括對(duì)層次維和多重層次維的完全支持。信息性:不論數(shù)據(jù)量有多大,也不管數(shù)據(jù)存儲(chǔ)在何處,OLAP系統(tǒng)應(yīng)能及時(shí)獲得信息,并且管理大容量信息。 (2) OLAP的數(shù)據(jù)組織 數(shù)據(jù)倉(cāng)庫(kù)、OLAP都以多維數(shù)據(jù)模型為基礎(chǔ)。多維數(shù)據(jù)模型是數(shù)據(jù)分析時(shí)用戶的數(shù)據(jù)視圖,是面向分析的數(shù)據(jù)模型,可以給分析人員提供多種觀察的視角和面向分析的操作。該模型將數(shù)據(jù)看作多維的數(shù)據(jù)方體。維是人們觀察數(shù)據(jù)的特定角度。 人們觀察數(shù)據(jù)的某個(gè)特定角度還可以存在細(xì)節(jié)程度不同的多個(gè)描述方面,稱為維的層次(Hierarchy)。一個(gè)數(shù)據(jù)維又可以包含一個(gè)或多個(gè)層次 維的一個(gè)取值成為該
39、維的一個(gè)維成員(Member),是數(shù)據(jù)項(xiàng)在某維中位置的描述。如前例中所述的每個(gè)工廠、每段時(shí)間、每種產(chǎn)品都是它們所屬維的一個(gè)維成員。立方體和超立方(Cube) 多維數(shù)據(jù)模型的數(shù)據(jù)結(jié)構(gòu)可以用這樣來(lái)一個(gè)多維數(shù)組來(lái)表示:(維1,維2,維n,度量值),例如:商品銷售數(shù)據(jù)是按時(shí)間、地區(qū)、商品種類,加上度量“銷售額”組成的一個(gè)三維數(shù)組:(地區(qū),時(shí)間,商品種類,銷售額)。三維數(shù)組可以用一個(gè)立方體來(lái)直觀的表示。一般地多維數(shù)組用多維立方體來(lái)表示,但數(shù)據(jù)立方體并不一定限于三維,因此又稱為超立方立方體和超立方(Cube) 數(shù)據(jù)立方體方法的基本思想是實(shí)現(xiàn)某些常用的代價(jià)較高的聚集函數(shù)的計(jì)算,諸如計(jì)數(shù)、求和、平均、最大值等
40、,并將這些實(shí)現(xiàn)視圖儲(chǔ)存在多維數(shù)據(jù)庫(kù)中。因?yàn)楹芏嗑奂瘮?shù)需經(jīng)常重復(fù)計(jì)算,所以在多維數(shù)據(jù)立方體中存放預(yù)先計(jì)算好的結(jié)果將能保證快速響應(yīng),并可靈活地提供不同角度和不同抽象層次上的數(shù)據(jù)視圖。在數(shù)據(jù)立方體中,可對(duì)數(shù)據(jù)進(jìn)行聚集。由于預(yù)先計(jì)算了所有可能的聚集,因此可加快分析時(shí)的響應(yīng)速度。多維數(shù)據(jù)集的度量值 多維數(shù)據(jù)集的度量值是基于多維數(shù)據(jù)集中事實(shí)表的一列或多列,數(shù)值型數(shù)字。多維數(shù)據(jù)集的度量值是OLAP分析的核心值,是用戶在DW中需要查看的數(shù)據(jù),一般是銷售量、成本、費(fèi)用等。多維數(shù)據(jù)模型的組織模式 對(duì)于三維以上的數(shù)據(jù)方體,很難用可視化的方式直觀地表示出來(lái)。為此人們用較形象的星型模式和雪花模式來(lái)描述多維數(shù)據(jù)模型。
41、a.星型模式 星型模式(star Schema)通常由一個(gè)中心表(事實(shí)表)和一組維表組成。事實(shí)表包含大批度量數(shù)據(jù)。維表一般較小,每維一個(gè)。這種模式圖很像星星,維表圍繞中心表,故命名為星型模式。 星型模型是數(shù)據(jù)倉(cāng)庫(kù)最常見的模型范例。星型模型包括兩部分:事實(shí)表一個(gè)大的包括大批數(shù)據(jù)和不含冗余的中心表(包括用于分析的測(cè)量指和連接維的鍵,例如總銷售量、月銀行存款額、貨運(yùn)量等)。維表一組小的附屬表,每維一個(gè)。這種模型圖,很象星星爆發(fā)。維圖圍繞事實(shí)表顯示在射線上。維表包含有描述數(shù)據(jù)部件的屬性,并提供用于比較分析的信息。b.雪花模式 雪花模式(Snow Flake schema)是星型模式的變種。在某些維表中
42、,屬性列不是基本數(shù)據(jù)項(xiàng),仍然是一個(gè)維表。也就是說(shuō),某些維表不是第一范式。因此要把維表規(guī)范化,即把維表進(jìn)一步分解,生成附加的表,使模式圖形成類似于雪花的形狀。 雪花模式和星形模式的主要不同在于,冗余度小,維表易于維護(hù),并節(jié)省存儲(chǔ)空間,但是由于執(zhí)行查詢需要更多的連接操作,雪花模式可能降低查詢的性能。(3) OLAP的多維分析 多維分析是指對(duì)以多維形式組織起來(lái)的數(shù)據(jù)采取切片(Slice)、切塊(Dice)、鉆?。―rill-down和Roll-up)、旋轉(zhuǎn)(Pivot)等各種分析動(dòng)作,以求剖析數(shù)據(jù),使用戶能從多個(gè)角度、多側(cè)面地觀察數(shù)據(jù)庫(kù)中的數(shù)據(jù),從而深入理解包含在數(shù)據(jù)中的信息。數(shù)據(jù)切片(slice)
43、 多維數(shù)據(jù)是由多個(gè)維度組成的,如果在某一維度上選定一個(gè)取值,則n維多維數(shù)據(jù)就從n維下降成了n-l維,則稱多維數(shù)組的子集為多維數(shù)組在維度i上的切片。其作用在于舍棄一些觀察角度,便于人們對(duì)數(shù)據(jù)的集中觀察。這種切片數(shù)量取決于維i上的維成員個(gè)數(shù)。數(shù)據(jù)切塊(Dice) 在多維數(shù)組的某一維上選定某一區(qū)間的維成員的動(dòng)作稱為切塊。切塊可以看成是若干個(gè)切片的疊加。例如選定n維多維數(shù)組(維度1、維度2、維度3、維度n,度量值)中若干維度(通常為3個(gè)維度)的取值范圍,從而形成該多維數(shù)據(jù)的子集(維度1、維度2、維度3、AI維度iBl,A2維度jB2,A3維度kB4,維度n,度量值),即為該多維數(shù)組的一個(gè)切塊。 切片和
44、切塊是在一部分維上選定值后,關(guān)心度量數(shù)據(jù)在剩余維上的分布。如果剩余的維只有兩個(gè),則是切片;如果有三個(gè)或以上,則是切塊。數(shù)據(jù)聚合和鉆取 前面提到維度是具有層次性的,層次性實(shí)際上反映了數(shù)據(jù)的綜合程度。維度層次越高,代表的數(shù)據(jù)綜合度越高,細(xì)節(jié)越少,數(shù)據(jù)量越少;維度層次性越低,則代表的數(shù)據(jù)綜合度越低,細(xì)節(jié)越充分,數(shù)據(jù)量越大。數(shù)據(jù)聚合和鉆取是在維度層次上互為逆操作的兩種OLAP基本分析動(dòng)作,是改變維的層次,變換分析的粒度。數(shù)據(jù)聚合是對(duì)數(shù)據(jù)進(jìn)行高層次綜合的操作;是在某一維上將低層次的細(xì)節(jié)數(shù)據(jù)概括到高層次的匯總數(shù)據(jù),或者減少維數(shù);數(shù)據(jù)鉆取則是從較高的維度層次下降到較低的維度層次的操作,它從匯總數(shù)據(jù)深入到細(xì)節(jié)
45、數(shù)據(jù)進(jìn)行觀察或增加新維。鉆取的深度與維所劃分的層次相對(duì)應(yīng)。旋轉(zhuǎn) 旋轉(zhuǎn)即改變一個(gè)報(bào)告或頁(yè)面顯示的維方向。通過(guò)旋轉(zhuǎn)可以得到不同視角的數(shù)據(jù)。例如:旋轉(zhuǎn)可能包含交換行和列,或是把某一個(gè)行維移到列維中去,或把頁(yè)面顯示中的一個(gè)維和頁(yè)面外的維進(jìn)行交換。(4) OLAP系統(tǒng)的體系結(jié)構(gòu)和分類 數(shù)據(jù)倉(cāng)庫(kù)與OLAP的關(guān)系是互補(bǔ)的,現(xiàn)代OLAP系統(tǒng)一般以數(shù)據(jù)倉(cāng)庫(kù)作為基礎(chǔ),即從數(shù)據(jù)倉(cāng)庫(kù)中抽取詳細(xì)數(shù)據(jù)的一個(gè)子集并經(jīng)過(guò)必要的聚集存儲(chǔ)到OLAP存儲(chǔ)器中供前端分析工具讀取。OLAP的具體實(shí)現(xiàn)方案通常采用三層客戶/服務(wù)器結(jié)構(gòu)。如圖13-14所示。數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器OLAP服務(wù)器前端展示工具SQL 查詢查詢結(jié)果請(qǐng)求返回結(jié)果返回結(jié)果SQ
46、L圖13-14 OLAP三層客戶/服務(wù)器結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器:實(shí)現(xiàn)和基層運(yùn)營(yíng)數(shù)據(jù)庫(kù)系統(tǒng)的連接,完成企業(yè)級(jí)數(shù)據(jù)一致和數(shù)據(jù)共享的工作OLAP服務(wù)器:根據(jù)最終客戶的請(qǐng)求實(shí)現(xiàn)分解成OLAP分析的各種分析動(dòng)作,并使用DW中的數(shù)據(jù)完成這些動(dòng)作前端展示工具:將OLAP服務(wù)器處理得到的結(jié)果用直觀的方式展現(xiàn)給最終用戶。 OLAP系統(tǒng)按照其存儲(chǔ)器的數(shù)據(jù)存儲(chǔ)格式可以分為關(guān)系OLAP(Relational OLAP,簡(jiǎn)稱ROLAP)、多維OLAP(Multidimensional OLAP,簡(jiǎn)稱MOLAP)和混合型OLAP(Hybrid OLAP,簡(jiǎn)稱HOLAP)三種類型。DB圖 13-15 MOLAP
47、結(jié)構(gòu)圖DBDBOLTP數(shù)據(jù)庫(kù)多維數(shù)據(jù)庫(kù)OLAP服務(wù)器OLAP客戶端分析數(shù)據(jù)MOLAP MOLAP利用一個(gè)專有的多維數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)OLAP分析所需的數(shù)據(jù),數(shù)據(jù)以多維方式存儲(chǔ),并以多維視圖方式顯示,其結(jié)構(gòu)如圖13-15所示。 MOLAP結(jié)構(gòu)的主要優(yōu)點(diǎn)是它能迅速響應(yīng)決策分析人員的分析請(qǐng)求,并快速地將分析結(jié)果返回給用戶,這得益于它獨(dú)特的多維數(shù)據(jù)庫(kù)結(jié)構(gòu)以及存儲(chǔ)在其中的預(yù)處理程度很高的數(shù)據(jù)(一般預(yù)處理程度在85%以上)。在MOLAP結(jié)構(gòu)中,OLAP主要是通過(guò)讀取經(jīng)過(guò)預(yù)處理的數(shù)據(jù)來(lái)完成分析操作,而這些預(yù)處理操作是預(yù)先定義好的,這就限制了MOLAP結(jié)構(gòu)的靈活性。ROLAP ROLAP在功能上類似于MOLAP,但
48、是它的底層數(shù)據(jù)庫(kù)是關(guān)系數(shù)據(jù)庫(kù),而不是多維數(shù)據(jù)庫(kù),其結(jié)構(gòu)如圖13-16所示。DB圖 13-16 ROLAP 結(jié)構(gòu)圖DBDBOLTP數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)OLAP服務(wù)器OLAP客戶端分析數(shù)據(jù) ROLAP的主要優(yōu)點(diǎn)是它的靈活性強(qiáng),用戶可以動(dòng)態(tài)定義統(tǒng)計(jì)或計(jì)算方式。ROLAP的缺點(diǎn)是它對(duì)用戶的分析請(qǐng)求處理的時(shí)間要比MOLAP長(zhǎng)。MOLAP與ROLAP是目前使用最多的兩種OLAP結(jié)構(gòu),這兩種結(jié)構(gòu)都能完成相同的分析功能。MOLAP采用專用的多維數(shù)據(jù)庫(kù)來(lái)支持多維分析功能,而ROLAP則不需要用專有的多維數(shù)據(jù)庫(kù)來(lái)支持多維分析操作,它的數(shù)據(jù)庫(kù)層采用關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng)。由于這兩種結(jié)構(gòu)在各自的數(shù)據(jù)庫(kù)層采用的數(shù)據(jù)庫(kù)系統(tǒng)不同,從而
49、導(dǎo)致它們不同的特點(diǎn)。由于MOLAP采用了新的存儲(chǔ)結(jié)構(gòu),從物理層實(shí)現(xiàn)起,因此又稱為物理OLAP(Physical OLAP);而ROLAP主要通過(guò)一些軟件工具或中間軟件實(shí)現(xiàn),物理層仍采用關(guān)系數(shù)據(jù)庫(kù)的存儲(chǔ)結(jié)構(gòu),因此稱為虛擬OLAP(Virtual OLAP)。HOLAP 由于MOLAP和ROLAP有著各自的優(yōu)點(diǎn)和缺點(diǎn),而它們的結(jié)構(gòu)卻迥然不同,這給分析人員設(shè)計(jì)OLAP結(jié)構(gòu)時(shí)提出了難題,他們必須在兩種結(jié)構(gòu)之間進(jìn)行選擇。為了將兩種結(jié)構(gòu)的優(yōu)點(diǎn)結(jié)合起來(lái),一個(gè)新的OLAP結(jié)構(gòu)混合型OLAP(HOLAP)被提出。 HOLAP結(jié)構(gòu)不應(yīng)該是MOLAP與ROLAP結(jié)構(gòu)的簡(jiǎn)單組合,而是這兩種結(jié)構(gòu)技術(shù)優(yōu)點(diǎn)的有機(jī)結(jié)合,能滿
50、足用戶各種復(fù)雜的分析請(qǐng)求。一個(gè)真正的HOLAP系統(tǒng)應(yīng)能遵循以下幾條準(zhǔn)則:維度能夠被動(dòng)態(tài)更新 一個(gè)真正的HOLAP不但可以提供對(duì)數(shù)據(jù)的實(shí)時(shí)存取,還可以根據(jù)不斷變化的結(jié)構(gòu)對(duì)維數(shù)進(jìn)行更新??筛鶕?jù)RDBMS的元數(shù)據(jù)產(chǎn)生多維視圖 一個(gè)真正的HOLAP可利用RDBMS的元數(shù)據(jù)來(lái)構(gòu)建多維模型并可以利用元數(shù)據(jù)方便快捷地更改多維視圖,減少開發(fā)和維護(hù)人員的工作量??梢钥焖俅嫒「鞣N級(jí)別的匯總數(shù)據(jù)。可適應(yīng)大數(shù)據(jù)量數(shù)據(jù)的分析。可以方便地對(duì)計(jì)算和匯總算法進(jìn)行維護(hù)和修改。3 數(shù)據(jù)挖掘技術(shù) 與OLAP的探測(cè)式數(shù)據(jù)分析不同,數(shù)據(jù)挖掘是按照預(yù)定的規(guī)則對(duì)數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)中已有的數(shù)據(jù)進(jìn)行信息開采、挖掘和分析,從中識(shí)別和抽取隱含的模式
51、和有趣知識(shí),為決策者提供決策依據(jù)。 利用數(shù)據(jù)挖掘技術(shù)可以幫助獲得決策所需的各種知識(shí),如關(guān)聯(lián)規(guī)則、分類與聚類等。發(fā)現(xiàn)的知識(shí)可以被用于信息管理,查詢優(yōu)化,決策支持和過(guò)程控制等,還可以用于數(shù)據(jù)自身的維護(hù)。涉及到數(shù)理統(tǒng)計(jì)、模糊理論、神經(jīng)網(wǎng)絡(luò)和人工智能等多種技術(shù),技術(shù)含量比較高,實(shí)現(xiàn)難度較大。此外,數(shù)據(jù)挖掘技術(shù)還會(huì)同可視化技術(shù)、地理信息系統(tǒng)、統(tǒng)計(jì)分析系統(tǒng)相結(jié)合,豐富數(shù)據(jù)挖掘技術(shù)及工具的功能與性能。 從商業(yè)上看,數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對(duì)商業(yè)數(shù)據(jù)庫(kù)中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性信息。簡(jiǎn)而言之,數(shù)據(jù)挖掘其實(shí)是一類深層次的數(shù)據(jù)分析方法
52、,它是按企業(yè)既定業(yè)務(wù)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性,并進(jìn)一步將其模型化的先進(jìn)有效的方法。 從技術(shù)上講,數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。這個(gè)定義包括好幾層含義: 數(shù)據(jù)源必須是真實(shí)的、大量的、含噪聲的; 發(fā)現(xiàn)的是用戶感興趣的知識(shí); 發(fā)現(xiàn)的知識(shí)要可接受、可理解、可運(yùn)用; 并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識(shí),僅支持特定的發(fā)現(xiàn)問(wèn)題。 數(shù)據(jù)挖掘是當(dāng)前研究的熱點(diǎn),目前已經(jīng)取得了不少的進(jìn)步,并有一些商業(yè)化的數(shù)據(jù)挖掘軟件投入使用,但是還存
53、在許多問(wèn)題。數(shù)據(jù)挖掘的基本問(wèn)題就在于數(shù)據(jù)的數(shù)量和維數(shù),數(shù)據(jù)結(jié)構(gòu)也因此顯的非常復(fù)雜,如何進(jìn)行探索,選擇分析變量,也就成為首先要解決的問(wèn)題。面對(duì)如此大的數(shù)據(jù),現(xiàn)有的統(tǒng)計(jì)方法等都遇到了問(wèn)題,我們直接的想法就是對(duì)數(shù)據(jù)進(jìn)行抽樣,那么怎么抽樣,抽取多大的樣本,又怎樣評(píng)價(jià)抽樣的效果,這些都是值得研究的難題。既然數(shù)據(jù)是海量的,那么數(shù)據(jù)中就會(huì)隱含一定的變化趨勢(shì),在數(shù)據(jù)挖掘中也要對(duì)這個(gè)趨勢(shì)做應(yīng)有的考慮和評(píng)價(jià)。各種不同的模型如何應(yīng)用,其效果如何評(píng)價(jià)。不同的人對(duì)同樣的數(shù)據(jù)進(jìn)行挖掘,可能產(chǎn)生不同的結(jié)果,甚至差異很大,這就涉及到可靠性的問(wèn)題。當(dāng)前互聯(lián)網(wǎng)的發(fā)展迅速,如何進(jìn)行互聯(lián)網(wǎng)的的數(shù)據(jù)挖掘,還有文本等非標(biāo)準(zhǔn)數(shù)據(jù)的挖掘,都
54、引起了極大的興趣。數(shù)據(jù)挖掘涉及到數(shù)據(jù)也就碰到了數(shù)據(jù)的私有性和安全性。數(shù)據(jù)挖掘的結(jié)果是不確定的,要和專業(yè)知識(shí)相結(jié)合才能對(duì)其做出判斷。 總之,數(shù)據(jù)挖掘只是一個(gè)工具,不是萬(wàn)能的,它可以發(fā)現(xiàn)一些潛在的用戶,但是不會(huì)告訴你為什么,也不能保證這些潛在的用戶成為現(xiàn)實(shí)。數(shù)據(jù)挖掘的成功要求對(duì)期望解決問(wèn)題的領(lǐng)域有深刻的了解,理解數(shù)據(jù),了解其過(guò)程,才能對(duì)數(shù)據(jù)挖掘的結(jié)果找出合理的解釋。例如曾經(jīng)用數(shù)據(jù)挖掘找出的啤酒和尿布的例子,如何去解釋這種現(xiàn)象,是應(yīng)該將兩者放在一起還是分開銷售,這還需要對(duì)消費(fèi)心理學(xué)有所研究才能做出決定,而不是數(shù)據(jù)挖掘能力所及的了。 不可否認(rèn)的是,數(shù)據(jù)挖掘研究方興未艾,其研究與開發(fā)的總體水平相當(dāng)于數(shù)據(jù)
55、庫(kù)技術(shù)在70年代所處的地位,迫切需要類似于關(guān)系模式、DBMS系統(tǒng)和SQL查詢語(yǔ)言等理論和方法的指導(dǎo),才能使數(shù)據(jù)挖掘的應(yīng)用得以普遍推廣。預(yù)計(jì)在不久的研究還會(huì)形成更大的高潮,研究焦點(diǎn)可能會(huì)集中到以下幾個(gè)方面:發(fā)現(xiàn)語(yǔ)言的形式化描述,即研究專門用于知識(shí)發(fā)現(xiàn)的數(shù)據(jù)挖掘語(yǔ)言,也許會(huì)像SQL語(yǔ)言一樣走向形式化和標(biāo)準(zhǔn)化;尋求數(shù)據(jù)挖掘過(guò)程中的可視化方法,使知識(shí)發(fā)現(xiàn)的過(guò)程能夠被用戶理解,也便于在知識(shí)發(fā)現(xiàn)的過(guò)程中進(jìn)行人機(jī)交互;研究在網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)挖掘技術(shù)(Web挖掘),特別是在因特網(wǎng)上建立數(shù)據(jù)挖掘/知識(shí)發(fā)現(xiàn)服務(wù)器,并且與數(shù)據(jù)庫(kù)服務(wù)器配合,實(shí)現(xiàn)Web挖掘;加強(qiáng)對(duì)各種非結(jié)構(gòu)化數(shù)據(jù)的開采(Data Mining for
56、 AudioVideo),如對(duì)文本數(shù)據(jù)、圖形數(shù)據(jù)、視頻圖像數(shù)據(jù)、聲音數(shù)據(jù)乃至綜合多媒體數(shù)據(jù)的開采;處理的數(shù)據(jù)將會(huì)涉及到更多的數(shù)據(jù)類型,這些數(shù)據(jù)類型或者比較復(fù)雜,或者是結(jié)構(gòu)比較獨(dú)特。為了處理這些復(fù)雜的數(shù)據(jù),就需要一些新的和更好的分析和建立模型的方法,同時(shí)還會(huì)涉及到為處理這些復(fù)雜或獨(dú)特?cái)?shù)據(jù)所做的費(fèi)時(shí)和復(fù)雜數(shù)據(jù)準(zhǔn)備的一些工具和軟件。交互式發(fā)現(xiàn)和知識(shí)的維護(hù)更新。 13.4 商務(wù)智能系統(tǒng)實(shí)例分析1 IBM商務(wù)智能系統(tǒng)IBM的商務(wù)智能解決方案 IBM的商務(wù)智能方案體系結(jié)構(gòu)如圖13-18所示,包括數(shù)據(jù)倉(cāng)庫(kù),聯(lián)機(jī)分析處理,數(shù)據(jù)挖掘和查詢工具四部分。數(shù)據(jù)源VisualWarehouseDB2 Spatial E
57、xtenderDB2 OLAP severIBM EnterpriseAnalyticsDB2 Warehouse Manager用戶圖13-18 IBM商務(wù)智能方案體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù) IBM DB2通用數(shù)據(jù)庫(kù)是IBM商務(wù)智能解決方案的基礎(chǔ)。IBM已經(jīng)在DB2中集成了部分BI工具,如內(nèi)置了聯(lián)機(jī)分析處理、空間分析等功能。 Visual Warehouse是數(shù)據(jù)倉(cāng)庫(kù)工具,提供數(shù)據(jù)抽取、整合、轉(zhuǎn)換、清洗、加載等功能,可以按預(yù)先設(shè)定的時(shí)間自動(dòng)更新數(shù)據(jù)倉(cāng)庫(kù),甚至允許使用第三方工具完成數(shù)據(jù)抽取過(guò)程。 DB2 Warebouse Manager也是數(shù)據(jù)倉(cāng)庫(kù)工具,用于構(gòu)造和管理數(shù)據(jù)倉(cāng)庫(kù),有助于簡(jiǎn)化構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)原
58、型的過(guò)程,快速部署數(shù)據(jù)倉(cāng)庫(kù),能夠向終端用戶提供對(duì)元數(shù)據(jù)的簡(jiǎn)單訪問(wèn)。聯(lián)機(jī)分析處理 Essbase/DB2 OLAP Serve:是一個(gè)企業(yè)級(jí)的聯(lián)機(jī)分析處理系統(tǒng),支持多維數(shù)據(jù)庫(kù),是一個(gè)HOLAP服務(wù)器,提供“維”的定義和數(shù)據(jù)裝載功能。它可用于各種多維報(bào)告、分析、建模和規(guī)劃應(yīng)用。數(shù)據(jù)挖掘 IBM Enterprise Analyties是IBM的數(shù)據(jù)挖掘工具集,由IBM DB2 Intelligent Miner for data和DB2 Intelligent Miner Scoring組成。 IBM DB2 Intelligent Miner for data可以發(fā)現(xiàn)包含在傳統(tǒng)文件、數(shù)據(jù)庫(kù)、數(shù)據(jù)
59、倉(cāng)庫(kù)等載體中的隱含信息。 IBM DB2 Intelligent Miner scoring主要進(jìn)行實(shí)時(shí)數(shù)據(jù)挖掘分析。C.查詢工具 DB2 Spatial Extender在數(shù)據(jù)庫(kù)中提供了圖形信息系統(tǒng)(GIS)能力,通過(guò)使用戶能夠?yàn)g覽以圖像、聲音、視頻、文本、XML和其它格式保存的數(shù)據(jù)來(lái)提高多媒體查詢性能。 IBM商務(wù)智能解決方案中,查詢工具還可以使用第三方前端展現(xiàn)工具,如BO的Business objects,Cognos的Impromptu,Lotus的Approach等。2 Sybase商務(wù)智能系統(tǒng) Sybase的商業(yè)智能解決方案可以提供業(yè)界領(lǐng)先的應(yīng)用、工具和技術(shù),幫助企業(yè)全力面向新的商
60、務(wù)挑戰(zhàn),為新世紀(jì)的成功奠定堅(jiān)實(shí)的基礎(chǔ)。其Industry Warehouse Studio(IWS)是一個(gè)面向行業(yè)的集成化的商業(yè)智能應(yīng)用,為用戶解決商業(yè)智能“做什么”和“怎么做”的問(wèn)題。另一個(gè)產(chǎn)品Adaptive Server IQ Multiplex是專門為滿足數(shù)據(jù)倉(cāng)庫(kù)和商業(yè)智能設(shè)計(jì)的高性能的關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)。Sybase公司提供的商務(wù)智能解決方案以能夠支持多種關(guān)系型數(shù)據(jù)庫(kù)(如Sybase、Oracle、 Microsoft、Informix和IBM的關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng))而受到業(yè)界推崇,其垂直數(shù)據(jù)存儲(chǔ)技術(shù)使得查詢速度比傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)快100倍。(1)Industry Warehou
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 環(huán)境設(shè)計(jì)的藝術(shù)性與審美培養(yǎng)探討
- 生產(chǎn)線作業(yè)計(jì)劃與實(shí)時(shí)調(diào)度分析
- 班級(jí)紀(jì)律執(zhí)行與校園文化建設(shè)的互動(dòng)關(guān)系
- 生態(tài)城市規(guī)劃中的綠色交通系統(tǒng)建設(shè)
- 現(xiàn)代辦公中的網(wǎng)絡(luò)教育平臺(tái)應(yīng)用
- Unit 6 My family(說(shuō)課稿)-2024-2025學(xué)年滬教版(五四制)(2024)英語(yǔ)一年級(jí)上冊(cè)
- 2024年二年級(jí)品生下冊(cè)《大自然的奧秘》說(shuō)課稿 冀教版001
- 2024-2025學(xué)年高中歷史 專題一 古代中國(guó)經(jīng)濟(jì)的基本結(jié)構(gòu)與特點(diǎn) 1.3 古代中國(guó)的商業(yè)經(jīng)濟(jì)說(shuō)課稿 人民版必修2
- 10的認(rèn)識(shí)和加減法(說(shuō)課稿)-2024-2025學(xué)年一年級(jí)上冊(cè)數(shù)學(xué)人教版(2024)001
- 14《圓明園的毀滅》第二課時(shí)(說(shuō)課稿)2024-2025學(xué)年語(yǔ)文五年級(jí)上冊(cè)統(tǒng)編版
- 中國(guó)人口研究專題報(bào)告-中國(guó)2025-2100年人口預(yù)測(cè)與政策建議-西南財(cái)經(jīng)大學(xué)x清華大學(xué)-202501
- 2025年度廚師職業(yè)培訓(xùn)學(xué)院合作辦學(xué)合同4篇
- 《組織行為學(xué)》第1章-組織行為學(xué)概述
- 25版六年級(jí)寒假特色作業(yè)
- 浙江省杭州市9+1高中聯(lián)盟2025屆高三一診考試英語(yǔ)試卷含解析
- GB/T 19228.1-2024不銹鋼卡壓式管件組件第1部分:卡壓式管件
- 2024年計(jì)算機(jī)二級(jí)WPS考試題庫(kù)380題(含答案)
- (高清版)DZT 0399-2022 礦山資源儲(chǔ)量管理規(guī)范
- 初一英語(yǔ)英語(yǔ)閱讀理解專項(xiàng)訓(xùn)練15篇
- 實(shí)現(xiàn)結(jié)構(gòu)化:初中語(yǔ)文大單元教學(xué)設(shè)計(jì)的核心
- FZ∕T 54088-2016 錦綸6全牽伸單絲
評(píng)論
0/150
提交評(píng)論