ORACLE數(shù)據(jù)倉庫建設(shè)_第1頁
ORACLE數(shù)據(jù)倉庫建設(shè)_第2頁
ORACLE數(shù)據(jù)倉庫建設(shè)_第3頁
ORACLE數(shù)據(jù)倉庫建設(shè)_第4頁
ORACLE數(shù)據(jù)倉庫建設(shè)_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、ORACLE數(shù)據(jù)倉庫建設(shè)自20世紀(jì)90年代以來,運算機(jī)技術(shù)進(jìn)展迅猛,各通信商逐步開發(fā)出新的BI系統(tǒng)。實現(xiàn)給通信領(lǐng)域提出了充分利用數(shù)據(jù)倉庫技術(shù),將現(xiàn)有的海量數(shù)據(jù)構(gòu)造成為可用、可控、可擴(kuò)展的數(shù)據(jù)組織,以適應(yīng)通信領(lǐng)域各級主管和業(yè)務(wù)人員的分析需要。在本論文中從數(shù)據(jù)倉庫需求分析包括參與成員、各個成員所起到的作用;邏輯模型建設(shè)通過軟件設(shè)計,確定表之間的關(guān)系;物理模型建設(shè)中對表和過程進(jìn)行詳細(xì)的審核,用來支持所提出的需求;數(shù)據(jù)倉庫設(shè)計以O(shè)DS、DWD、DWA為層次,采納橫向分層縱向分域的理念,進(jìn)行具體的實施建立,并在后期提供了錯誤的應(yīng)急措施、數(shù)據(jù)倉庫的愛護(hù)和優(yōu)化。關(guān)鍵詞:數(shù)據(jù)倉庫,物理模型,愛護(hù)和優(yōu)化Engl

2、ishabstractSincethenineteenninties,computertechnologyisdevelopingrapidly,thecommunicationbusinessgraduallydevelopedanewBIsystem.Realitytocommunicationfieldispresentedforfullyusingdatawarehousetechnologytoexistingdatastructuresbecomeavailable,controllable,scalabledataorganization,toadapttothefieldofc

3、ommunicationatalllevelsofmanagersandbusinessanalysis.Inthispaperfromthedatawarehouserequirementanalysisincludestheparticipationofmembers,eachmemberoftheroleplayedby;logicmodelconstructionthroughsoftwaredesign,todeterminetherelationshipbetweentables;physicalmodelconstructionprocesstableanddetailedaud

4、it,usedtosupporttheproposedrequirement;datawarehousedesignwithODS,DWD,DWAlevels,thehorizontallystratifiedlongitudinaldomainconcept,specificimplementationoftheestablishment,andinlatestageprovideserroremergencymeasures,datawarehousemaintenanceandoptimization.Keywords:datawarehouse,physicalmodel,mainte

5、nanceandoptimization名目TOC o 1-5 h z HYPERLINK l bookmark2 第一章數(shù)據(jù)倉庫概述0. HYPERLINK l bookmark4 本論文采納數(shù)據(jù)倉庫的目的0 HYPERLINK l bookmark6 1.2數(shù)據(jù)倉庫的定義和特點0. HYPERLINK l bookmark8 1.3數(shù)據(jù)倉庫與數(shù)據(jù)庫1.1.5元數(shù)據(jù)21.5.1技術(shù)元數(shù)據(jù)業(yè)務(wù)元數(shù)據(jù)2. HYPERLINK l bookmark10 1.5.3元數(shù)據(jù)的作用3. HYPERLINK l bookmark12 1.6數(shù)據(jù)倉庫進(jìn)展方向4. HYPERLINK l boo

6、kmark14 1.6.1數(shù)據(jù)倉庫的產(chǎn)生和進(jìn)展4 HYPERLINK l bookmark16 數(shù)據(jù)倉庫進(jìn)展趨勢6. HYPERLINK l bookmark18 數(shù)據(jù)集市、集市群行業(yè)的進(jìn)展方向7 HYPERLINK l bookmark20 1.6.4基于Internet2、光處理器運算機(jī)和GGG技術(shù)的DW10 HYPERLINK l bookmark22 1.7建設(shè)數(shù)據(jù)倉庫的必要性1.3 HYPERLINK l bookmark24 第二章數(shù)據(jù)倉庫需求分析1.4 HYPERLINK l bookmark26 需求分析緣故1.4 HYPERLINK l bookmark28 需求分析時期1.

7、4 HYPERLINK l bookmark30 需求分析成員確立1.5 HYPERLINK l bookmark32 2.2.2需求會議1.7 HYPERLINK l bookmark36 第三章數(shù)據(jù)倉庫總體設(shè)計1.8 HYPERLINK l bookmark38 3.1數(shù)據(jù)倉庫實施環(huán)境1.8 HYPERLINK l bookmark40 確定數(shù)據(jù)倉庫開發(fā)的生命周期18 HYPERLINK l bookmark42 通訊數(shù)據(jù)倉庫設(shè)計原則2.4 HYPERLINK l bookmark44 確定數(shù)據(jù)倉庫系統(tǒng)的結(jié)構(gòu)及各部分的要緊功能25 HYPERLINK l bookmark46 第四章數(shù)據(jù)倉

8、庫詳細(xì)設(shè)計3.0 HYPERLINK l bookmark48 邏輯模型設(shè)計3.0 HYPERLINK l bookmark50 物理模型設(shè)計3.1第五章數(shù)據(jù)倉庫實現(xiàn)3.3 HYPERLINK l bookmark52 ODS層建設(shè)335.1.1接口數(shù)據(jù)抽取3.3 HYPERLINK l bookmark54 5.1.2數(shù)據(jù)抽取策略3.4 HYPERLINK l bookmark56 ODS層的作用3.5 HYPERLINK l bookmark58 DWD層建設(shè)35 HYPERLINK l bookmark60 DWD定義35 HYPERLINK l bookmark62 5.2.2實體選取

9、的原則3.5 HYPERLINK l bookmark64 5.2.3字段選取的原則3.6 HYPERLINK l bookmark66 5.2.4數(shù)據(jù)轉(zhuǎn)換3.6 HYPERLINK l bookmark68 5.2.5數(shù)據(jù)加載技術(shù)及策略37 HYPERLINK l bookmark70 DWA匯總層建設(shè)38 HYPERLINK l bookmark72 DWA衍生層建設(shè)39 HYPERLINK l bookmark76 第六章數(shù)據(jù)倉庫后期運維4.1 HYPERLINK l bookmark78 數(shù)據(jù)倉庫測試4.1 HYPERLINK l bookmark80 分析源文件41 HYPERLIN

10、K l bookmark82 開發(fā)策略和測試打算4.1 HYPERLINK l bookmark84 測試的開發(fā)與執(zhí)行4.2 HYPERLINK l bookmark86 數(shù)據(jù)倉庫后期愛護(hù)4.2 HYPERLINK l bookmark88 數(shù)據(jù)倉庫數(shù)據(jù)清理4.2 HYPERLINK l bookmark90 數(shù)據(jù)倉庫模型更換4.3 HYPERLINK l bookmark92 數(shù)據(jù)倉庫性能優(yōu)化4.3 HYPERLINK l bookmark94 調(diào)整數(shù)據(jù)庫服務(wù)器的性能43 HYPERLINK l bookmark96 調(diào)整內(nèi)存分配4.3 HYPERLINK l bookmark98 使用OR

11、ACLE的數(shù)據(jù)完整性約束44 HYPERLINK l bookmark100 使用數(shù)據(jù)庫觸發(fā)器4.4使用儲備過程4.5應(yīng)用程序調(diào)整4.5 HYPERLINK l bookmark102 總結(jié)4.6 HYPERLINK l bookmark104 致謝4.7 HYPERLINK l bookmark106 參考文獻(xiàn)4.8第一章數(shù)據(jù)倉庫概述本論文采納數(shù)據(jù)倉庫的目的當(dāng)前,通信行業(yè)(以聯(lián)通為例)內(nèi)部差不多積存了大量的業(yè)務(wù)處理數(shù)據(jù),然而這些數(shù)據(jù)分布在各級機(jī)構(gòu)、各個部門中,而且數(shù)據(jù)的操作平臺各異,有DOS的、有Windows的、有Unix的、有Solaris的;數(shù)據(jù)的來源復(fù)雜,有儲備在硬盤上的,也有儲備在

12、磁帶、光盤上的;數(shù)據(jù)的文件格式多樣,有各種不同數(shù)據(jù)庫的,也有文本文件型的,還有多媒體文件型的。這些數(shù)據(jù)是通信行業(yè)決策的寶貴信息資源,在構(gòu)造新的系統(tǒng)時必須要善加利用。數(shù)據(jù)倉庫技術(shù)為解決充分有效的利用超大容量、多平臺數(shù)據(jù)資源那個問題提供了方法和手段,能夠充分利用現(xiàn)有的海量數(shù)據(jù)資源,并從中找出對通信的運作和決策有價值的信息。數(shù)據(jù)倉庫的定義和特點數(shù)據(jù)倉庫是決策支持系統(tǒng)(dss)和聯(lián)機(jī)分析應(yīng)用數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境。數(shù)據(jù)倉庫研究和解決從數(shù)據(jù)庫中獵取信息的問題。數(shù)據(jù)倉庫的特點在于面向主題、集成性、穩(wěn)固性和時變性。(1)數(shù)據(jù)倉庫是面向主題的操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定

13、的主題域進(jìn)行組織。主題是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時所關(guān)懷的重點方面,一個主題通常與多個操作型信息系統(tǒng)相關(guān)。(2)數(shù)據(jù)倉庫是集成的數(shù)據(jù)倉庫的數(shù)據(jù)有來自于分散的操作型數(shù)據(jù),將所需數(shù)據(jù)從原先的數(shù)據(jù)中抽取出來,進(jìn)行加工與集成,統(tǒng)一與綜合之后才能進(jìn)入數(shù)據(jù)倉庫。(3)數(shù)據(jù)倉庫是不可更新的數(shù)據(jù)倉庫要緊是為決策分析提供數(shù)據(jù),所涉及的操作要緊是數(shù)據(jù)的查詢。(4)數(shù)據(jù)倉庫是隨時刻而變化的傳統(tǒng)的關(guān)系數(shù)據(jù)庫系統(tǒng)比較適合處理格式化的數(shù)據(jù),能夠較好的滿足商業(yè)商務(wù)處理的需求。穩(wěn)固的數(shù)據(jù)以只讀格式儲存,且不隨時刻改變。(5)匯總的操作性數(shù)據(jù)映射成決策可用的格式。大容量時刻序列數(shù)據(jù)集合通常都專門大。非規(guī)范化的DW數(shù)據(jù)能夠是而

14、且經(jīng)常是冗余的。元數(shù)據(jù)將描述數(shù)據(jù)的數(shù)據(jù)儲存起來。數(shù)據(jù)源數(shù)據(jù)來自內(nèi)部的和外部的非集成操作系統(tǒng)。數(shù)據(jù)倉庫與數(shù)據(jù)庫數(shù)據(jù)庫差不多在信息技術(shù)領(lǐng)域有了廣泛的應(yīng)用,我們社會生活的各個部門,幾乎都有各種各樣的數(shù)據(jù)庫儲存著與我們的生活息息相關(guān)的各種數(shù)據(jù)。作為數(shù)據(jù)庫的一個分支,數(shù)據(jù)倉庫概念的提出,相關(guān)于數(shù)據(jù)庫從時刻上就近得多。美國聞名信息工程專家William博士在90年代初提出了數(shù)據(jù)倉庫概念的一個表述,認(rèn)為:“一個數(shù)據(jù)倉庫通常是一個面向主題的、集成的、隨時刻變化的、但信息本身相對穩(wěn)固的數(shù)據(jù)集合,它用于對治理決策過程的支持?!蹦莻€地點的主題,是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時所關(guān)懷的重點方面,如:收入、客戶、銷售渠道

15、等;所謂面向主題,是指數(shù)據(jù)倉庫內(nèi)的信息是按主題進(jìn)行組織的,而不是像業(yè)務(wù)支撐系統(tǒng)那樣是按照業(yè)務(wù)功能進(jìn)行組織的。集成,是指數(shù)據(jù)倉庫中的信息不是從各個業(yè)務(wù)系統(tǒng)中簡單抽取出來的,而是通過一系列加工、整理和匯總的過程,因此數(shù)據(jù)倉庫中的信息是關(guān)于整個企業(yè)的一致的全局信息。隨時刻變化,是指數(shù)據(jù)倉庫內(nèi)的信息并不只是反映企業(yè)當(dāng)前的狀態(tài),而是記錄了從過去某一時點到當(dāng)前各個時期的信息。通過這些信息,能夠?qū)ζ髽I(yè)的進(jìn)展歷程和以后趨勢做出定量分析和推測。二者的聯(lián)系:數(shù)據(jù)倉庫的顯現(xiàn),并不是要取代數(shù)據(jù)庫。目前,大部分?jǐn)?shù)據(jù)倉庫依舊用關(guān)系數(shù)據(jù)庫治理系統(tǒng)來治理的。能夠說,數(shù)據(jù)庫、數(shù)據(jù)倉庫相輔相成、各有千秋。二者的區(qū)別:動身點不同數(shù)

16、據(jù)庫是面向事務(wù)的設(shè)計,數(shù)據(jù)倉庫是面向主題設(shè)計的。儲備的數(shù)據(jù)不同數(shù)據(jù)庫一樣儲備在線交易數(shù)據(jù),數(shù)據(jù)倉庫儲備的一樣是歷史數(shù)據(jù)。設(shè)計規(guī)則不同數(shù)據(jù)庫設(shè)計是盡量幸免冗余,一樣采納符合范式的規(guī)則來設(shè)計,數(shù)據(jù)倉庫在設(shè)計是有意引入冗余,采納反范式的方式來設(shè)計。(4)提供的功能不同數(shù)據(jù)庫是為捕捉數(shù)據(jù)而設(shè)計,數(shù)據(jù)倉庫是為分析數(shù)據(jù)而設(shè)計。(5)差不多元素不同數(shù)據(jù)庫的差不多元素是事實表,數(shù)據(jù)倉庫的差不多元素是維度表。(6)容量不同數(shù)據(jù)庫在差不多容量上要比數(shù)據(jù)倉庫小的多。(7)服務(wù)對象不同數(shù)據(jù)庫是為了高效的事務(wù)處理而設(shè)計的,服務(wù)對象為企業(yè)業(yè)務(wù)處理方面的工作人員,數(shù)據(jù)倉庫是為了分析數(shù)據(jù)進(jìn)行決策而設(shè)計的,服務(wù)對象為企業(yè)高層決

17、策人員。1.5元數(shù)據(jù)元數(shù)據(jù)(Metadata)是關(guān)于數(shù)據(jù)的數(shù)據(jù)。在數(shù)據(jù)倉庫系統(tǒng)中,元數(shù)據(jù)能夠關(guān)心數(shù)據(jù)倉庫治理員和數(shù)據(jù)倉庫的開發(fā)人員專門方便地找到他們所關(guān)懷的數(shù)據(jù);元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù),可將其按用途的不同分為兩類:技術(shù)元數(shù)據(jù)(TechnicalMetadata)和業(yè)務(wù)元數(shù)據(jù)(BusinessMetadata)。1.5.1技術(shù)元數(shù)據(jù)技術(shù)元數(shù)據(jù)是儲備關(guān)于數(shù)據(jù)倉庫系統(tǒng)技術(shù)細(xì)節(jié)的數(shù)據(jù),是用于開發(fā)和治理數(shù)據(jù)倉庫使用的數(shù)據(jù),它要緊包括數(shù)據(jù)倉庫結(jié)構(gòu)的描述,包括倉庫模式、視圖、維、層次結(jié)構(gòu)和導(dǎo)出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內(nèi)容;業(yè)務(wù)系統(tǒng)、數(shù)據(jù)倉庫和數(shù)據(jù)集市的體系結(jié)構(gòu)和模式。匯總用

18、的算法,包括度量和維定義算法,數(shù)據(jù)粒度、主題領(lǐng)域、集合、匯總、預(yù)定義的查詢與報告。由操作環(huán)境到數(shù)據(jù)倉庫環(huán)境的映射,包括源數(shù)據(jù)和它們的內(nèi)容、數(shù)據(jù)分割、數(shù)據(jù)提取、清理、轉(zhuǎn)換規(guī)則和數(shù)據(jù)刷新規(guī)則、安全(用戶授權(quán)和存取操縱)。1.5.2業(yè)務(wù)元數(shù)據(jù)業(yè)務(wù)元數(shù)據(jù)從業(yè)務(wù)角度描述了數(shù)據(jù)倉庫中的數(shù)據(jù),它提供了介于使用者和實際系統(tǒng)之間的語義層。業(yè)務(wù)元數(shù)據(jù)要緊包括以下:使用者的業(yè)務(wù)術(shù)語所表達(dá)的數(shù)據(jù)模型、對象名和屬性名;訪問數(shù)據(jù)的原則和數(shù)據(jù)的來源;系統(tǒng)所提供的分析方法以及公式和報表的;具體包括以下:企業(yè)概念模型這是業(yè)務(wù)元數(shù)據(jù)所應(yīng)提供的重要的,它表示企業(yè)數(shù)據(jù)模型的高層、整個企業(yè)的業(yè)務(wù)概念和相互關(guān)系。多維數(shù)據(jù)模型這是企業(yè)概念

19、模型的重要組成部分,確定業(yè)務(wù)分析人員在數(shù)據(jù)集市當(dāng)中有哪些維、維的類別、數(shù)據(jù)立方體以及數(shù)據(jù)集市中的聚合規(guī)則。那個地點的數(shù)據(jù)立方體表示某主題領(lǐng)域業(yè)務(wù)事實表和維表的多維組織形式。(3)業(yè)務(wù)概念模型和物理數(shù)據(jù)之間的依靠業(yè)務(wù)元數(shù)據(jù)只是表示出了數(shù)據(jù)的業(yè)務(wù)視圖,這些業(yè)務(wù)視圖與實際的數(shù)據(jù)倉庫或數(shù)據(jù)庫、中的表、字段、維、層次等之間的對應(yīng)關(guān)系也應(yīng)該在元數(shù)據(jù)知識庫中有所表達(dá)。1.5.3元數(shù)據(jù)的作用描述哪些數(shù)據(jù)在數(shù)據(jù)倉庫中。定義要進(jìn)入數(shù)據(jù)倉庫中的數(shù)據(jù)和從數(shù)據(jù)倉庫中產(chǎn)生的數(shù)據(jù)。記錄依照業(yè)務(wù)事件發(fā)生而隨之進(jìn)行的數(shù)據(jù)抽取工作時刻安排。記錄并檢測系統(tǒng)數(shù)據(jù)一致性的要求和執(zhí)行情形。衡量數(shù)據(jù)質(zhì)量。元數(shù)據(jù)治理的要緊任務(wù)有兩個方面:一

20、是負(fù)責(zé)儲備和愛護(hù)元數(shù)據(jù)庫中的元數(shù)據(jù);二是負(fù)責(zé)數(shù)據(jù)倉庫建模工具、數(shù)據(jù)獵取工具、前端工具等之間的消息傳遞,和諧各模塊和工具之間的工作。我們了解到元數(shù)據(jù)幾乎能夠被稱為是數(shù)據(jù)倉庫乃至商業(yè)智能(BI)系統(tǒng)的“靈魂”,正是由于元數(shù)據(jù)在整個數(shù)據(jù)倉庫生命周期中有著重要的地位,各個廠商的都提到了關(guān)于對元數(shù)據(jù)的治理。但遺憾的是關(guān)于元數(shù)據(jù)的治理,各個解決方案都沒有明確提出一個完整的治理模式;它們提供的僅僅是對特定的局部元數(shù)據(jù)的治理。與元數(shù)據(jù)相關(guān)的數(shù)據(jù)倉庫工具大致可分為四類:數(shù)據(jù)抽取工具把業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)抽取、轉(zhuǎn)換、集成到數(shù)據(jù)倉庫中,如Ardent的DataStage、CA(原Platinum)的DecisionBa

21、se和ETI的Extract等。這些工具僅提供了技術(shù)元數(shù)據(jù),幾乎沒有提供對業(yè)務(wù)元數(shù)據(jù)的支持。前端展現(xiàn)工具包括OLAP分析、報表和商業(yè)智能工具等,如MicroStrategy的DSSAgent、Cognos的PowerPlay、BusinessObjects的BO,以及Brio等。它們通過把關(guān)系表映射成與業(yè)務(wù)相關(guān)的事實表和維表來支持多維業(yè)務(wù)視圖,進(jìn)而對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行多維分析。這些工具都提供了業(yè)務(wù)元數(shù)據(jù)與技術(shù)元數(shù)據(jù)相對應(yīng)的語義層。建模工具為非技術(shù)人員預(yù)備的業(yè)務(wù)建模工具,這些工具能夠提供更高層的與特定業(yè)務(wù)相關(guān)的語義。如CA的ERwin、Sysbase的PowerDesigner以及Ration

22、al的Rose等。元工具元數(shù)據(jù)通常儲備在專用的數(shù)據(jù)庫中,該數(shù)據(jù)庫就如同一個“黑盒子”,外部無法明白這些工具所用到和產(chǎn)生的元數(shù)據(jù)是如何儲備的。還有一類被稱為元數(shù)據(jù)知識庫(MetadataRepository)的工具,它們獨立于其它工具,為元數(shù)據(jù)提供一個集中的儲備空間。包括微軟的Repository,CA的Repository,Ardent的MetaStage和的WCC等。1.6數(shù)據(jù)倉庫進(jìn)展方向1.6.1數(shù)據(jù)倉庫的產(chǎn)生和進(jìn)展現(xiàn)在基于業(yè)務(wù)數(shù)據(jù)的決策分析一一聯(lián)機(jī)分析處理(OLAP),比以往任何時候都顯得更為重要。假如說傳統(tǒng)聯(lián)機(jī)事務(wù)處理(OLTP)強(qiáng)調(diào)的是更新數(shù)據(jù)庫一一向數(shù)據(jù)庫中添加信息,那么OLAP確

23、實是從數(shù)據(jù)庫中獵取信息、利用信息。事實上,將大量的業(yè)務(wù)數(shù)據(jù)應(yīng)用于分析和統(tǒng)計原本是一個專門簡單和自然的方法。但在實際的操作中,人們卻發(fā)覺要獲得有用的信息并非如想象的那么容易:第一,所有OLTP強(qiáng)調(diào)的是密集的數(shù)據(jù)更新處理性能和系統(tǒng)的可靠性,并不關(guān)懷數(shù)據(jù)查詢的方便與快捷。聯(lián)機(jī)分析和事務(wù)處理對系統(tǒng)的要求不同,同一個數(shù)據(jù)庫在理論上都難以做到兩全。第二,業(yè)務(wù)數(shù)據(jù)往往被存放于分散的異構(gòu)環(huán)境中,不易統(tǒng)一查詢訪問,而且還有大量的歷史數(shù)據(jù)處于脫機(jī)狀態(tài),形同虛設(shè)。第三,業(yè)務(wù)數(shù)據(jù)的模式針對事務(wù)處理系統(tǒng)而設(shè)計,數(shù)據(jù)的格式和描述方式并不適合非運算機(jī)專業(yè)人員進(jìn)行業(yè)務(wù)上的分析和統(tǒng)計。能夠這么說,往常查詢不到信息是因為數(shù)據(jù)太少

24、了,而今天查詢不到則是因為數(shù)據(jù)太多了。針對這一問題,人們設(shè)想專門為業(yè)務(wù)的統(tǒng)計分析建立一個數(shù)據(jù)中心,它的數(shù)據(jù)從OLTP系統(tǒng)中來、從外部數(shù)據(jù)源來、從歷史業(yè)務(wù)數(shù)據(jù)中來那個數(shù)據(jù)中心是一個聯(lián)機(jī)的系統(tǒng),它是專門為分析統(tǒng)計和決策支持應(yīng)用服務(wù)的,通過它可滿足決策支持和聯(lián)機(jī)分析應(yīng)用所要求的一切。那個數(shù)據(jù)中心就叫做數(shù)據(jù)倉庫。數(shù)據(jù)倉庫確實是一個作為決策支持系統(tǒng)和聯(lián)機(jī)分析應(yīng)用數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境。數(shù)據(jù)倉庫所要研究和解決的問題確實是從數(shù)據(jù)庫中獵取信息的問題。與關(guān)系數(shù)據(jù)庫不同,數(shù)據(jù)倉庫并沒有嚴(yán)格的數(shù)學(xué)理論基礎(chǔ),它更偏向于工程。由于數(shù)據(jù)倉庫的這種工程性,因而在技術(shù)上能夠依照它的工作過程分為:數(shù)據(jù)的抽取、儲備和治理、數(shù)據(jù)的

25、表現(xiàn)以及數(shù)據(jù)倉庫設(shè)計的技術(shù)咨詢四個方面。(1)數(shù)據(jù)的抽取數(shù)據(jù)倉庫是一個獨立的數(shù)據(jù)環(huán)境,它需要通過抽取過程將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)儲備介質(zhì)中導(dǎo)入數(shù)據(jù)倉庫。數(shù)據(jù)抽取能夠定時進(jìn)行,但多個抽取操作執(zhí)行的時刻、相互的順序、成敗對數(shù)據(jù)倉庫中信息的有效性則至關(guān)重要。(2)儲備和治理數(shù)據(jù)倉庫的真正關(guān)鍵是數(shù)據(jù)的儲備和治理。數(shù)據(jù)倉庫的組織治理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫的特性,同時也決定了其對外部數(shù)據(jù)表現(xiàn)形式。要決定采納什么產(chǎn)品和技術(shù)來建立數(shù)據(jù)倉庫核心,則需要從數(shù)據(jù)倉庫的技術(shù)特點著手分析。如何完成對大量數(shù)據(jù)的儲備和治理并行處理能力針對決策支持查詢的優(yōu)化支持多維分析的查詢模式,這也是關(guān)系數(shù)據(jù)

26、庫在數(shù)據(jù)倉庫領(lǐng)域遇到的最嚴(yán)肅的挑戰(zhàn)之一。(3)數(shù)據(jù)的表現(xiàn)數(shù)據(jù)表現(xiàn)是數(shù)據(jù)倉庫的門面。那個地點說的要緊是多維分析、數(shù)理統(tǒng)計和數(shù)據(jù)挖掘方面。(4)數(shù)據(jù)倉庫設(shè)計的技術(shù)咨詢數(shù)據(jù)倉庫絕不是簡單的產(chǎn)品堆砌,它是一個綜合性的解決方案和系統(tǒng)工程。在數(shù)據(jù)倉庫的實施過程中,技術(shù)咨詢服務(wù)至關(guān)重要,是一個不可缺少的部分,它甚至于比購買產(chǎn)品更為重要。就目前的進(jìn)展來看,建立數(shù)據(jù)倉庫有兩個差不多條件:建立數(shù)據(jù)倉庫的行業(yè)有較為成熟的OLTP系統(tǒng),它為數(shù)據(jù)倉庫提供客觀條件;行業(yè)面臨市場競爭的壓力,它為數(shù)據(jù)倉庫的建立提供外在的動力。另外建立大型數(shù)據(jù)倉庫,成本也是較高的,因此對企業(yè)的經(jīng)濟(jì)實力也是個考查。因此數(shù)據(jù)倉庫的概念一經(jīng)顯現(xiàn),就

27、第一被應(yīng)用于金融、電信、保險等行業(yè)。1.6.2數(shù)據(jù)倉庫進(jìn)展趨勢數(shù)據(jù)倉庫規(guī)模不斷增長所有企業(yè)的數(shù)據(jù)倉庫規(guī)模都將呈指數(shù)增長,數(shù)據(jù)源的增長以及企業(yè)對數(shù)據(jù)更好的獵取能力推動了這種增長。另外儲備成本也越來越廉價,因此企業(yè)能夠儲存更長期的數(shù)據(jù)。但數(shù)據(jù)增長也將使企業(yè)面臨一些新問題,包括數(shù)據(jù)倉庫的可升級性以及可能顯現(xiàn)的性能問題。數(shù)據(jù)集市的整合客戶數(shù)據(jù)集成許多企業(yè)現(xiàn)在專門想跨過產(chǎn)品線、業(yè)務(wù)單位、渠道和地理各方面來綜合地得到一個關(guān)于客戶的單一視圖,一種稱之為客戶數(shù)據(jù)集成(CDI)的解決方案應(yīng)聲而出,其核心部分由數(shù)據(jù)倉庫和相關(guān)技術(shù)構(gòu)成??蛻魯?shù)據(jù)集成提供了對客戶數(shù)據(jù)360的全方位視圖,并使企業(yè)能夠從任何一個接觸點上對

28、客戶進(jìn)行認(rèn)識和做出反應(yīng)。開發(fā)商的整合由于企業(yè)都想得到完備的產(chǎn)品套件,數(shù)據(jù)倉庫和商務(wù)智能開發(fā)商因此將越來越多的功能融合到他們的產(chǎn)品中去。EAI和ETL工具的集成快速反應(yīng)的決策支持電子商務(wù)的不斷增長促使著企業(yè)去查找共享數(shù)據(jù)和對機(jī)會快速反應(yīng)的方法,盡管真正的實時決策支持差不多是不可能的,但數(shù)據(jù)倉庫技術(shù)的進(jìn)步卻使快速反應(yīng)的決策支持得以實現(xiàn)。在數(shù)分鐘或數(shù)秒鐘內(nèi)對數(shù)據(jù)進(jìn)行分析和對事件做出反應(yīng)的能力有助于企業(yè)在各方面的行動,比如供應(yīng)鏈治理、客戶服務(wù)和商務(wù)性能治理等。非結(jié)構(gòu)化信息的增長企業(yè)正面臨著非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的增長,包括圖像、聲音、視頻、XML以及其它的數(shù)據(jù)類型。同時,相關(guān)的技術(shù)也在不斷顯現(xiàn),使企業(yè)

29、能夠采納跟往常處理傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)資源的方式,來儲備和挖掘這些數(shù)據(jù)。越來越了解如何對“成功或失敗”問題做出正確分析知識治理在企業(yè)倉促著手建立數(shù)據(jù)倉庫或其它分析型知識庫時,數(shù)據(jù)質(zhì)量或元數(shù)據(jù)這些重要問題經(jīng)常被忽視,其后果確實是,專門多企業(yè)現(xiàn)今發(fā)覺他們的行動成功性打了許多折扣,因為他們不能確定“成功或失敗”問題。數(shù)據(jù)質(zhì)量問題和元數(shù)據(jù)的缺乏會嚴(yán)峻阻礙用戶對數(shù)據(jù)倉庫的同意程度,也只能得到悲傷的分析結(jié)果和不正確的決策。這是一個相當(dāng)復(fù)雜的問題,需要花費時刻和精力去確定他們。強(qiáng)調(diào)應(yīng)用程序VS數(shù)據(jù)倉庫對大多企業(yè)來說,數(shù)據(jù)倉庫不再是單獨的一件事。需要確定投資回報率。數(shù)據(jù)倉庫項目跟往常一樣是必需的,但可能會盡量跟應(yīng)

30、用程序聯(lián)系起來以便于運算投資回報率和調(diào)整項目成本。越來越注重盈虧問題艱巨的經(jīng)濟(jì)環(huán)境迫使企業(yè)除了收入增長外,還得認(rèn)真考慮收益率問題。這種不斷增加的對盈虧問題的注意力阻礙到了IT項目,其中包括數(shù)據(jù)倉庫,最終導(dǎo)致各級水平上的成本削減。新的數(shù)據(jù)倉庫項目仍將不斷進(jìn)行,然而企業(yè)可不能再妄圖一步登天去做那些對盈利沒有直截了當(dāng)阻礙的事;它們還想有一個明確的商業(yè)案例,明確的投資回報率和更短的回報周期。數(shù)據(jù)集市、集市群行業(yè)的進(jìn)展方向在數(shù)據(jù)倉庫產(chǎn)品方面,微軟是以其關(guān)系數(shù)據(jù)庫SQLServer作為它數(shù)據(jù)倉庫核心的。微軟的OLAP走的是ROLAP的路子,與其數(shù)據(jù)轉(zhuǎn)換一樣,屬于常規(guī)的解決方案;而并行處理和決策支持?jǐn)U展則不

31、是SQLServer的強(qiáng)項。因此,整個解決方案仍面向中低端,價格取勝是關(guān)鍵。為此,微軟在數(shù)據(jù)倉庫市場中倡導(dǎo)了另一個概念一一數(shù)據(jù)集市(DataMart)。所謂數(shù)據(jù)集市確實是一個面向部門應(yīng)用的、小型的數(shù)據(jù)倉庫;所采納的技術(shù)與數(shù)據(jù)倉庫相似,但儲備的內(nèi)容更加專題化。關(guān)于數(shù)據(jù)集市如此的規(guī)模,微軟的解決方案便可成為理想的選擇。盡管微軟是許多IT人士“憎恨”的對象,但我們不得不承認(rèn),它在市場定位方面的工作一直專門成功。其所堅持的走大眾化、平民化道路的理念,從操作系統(tǒng)中的windows,辦公軟件里得Office到數(shù)據(jù)庫領(lǐng)域的SQLSever等等,無一不是成功的案例。在這次數(shù)據(jù)倉庫的較量中,微軟又打起了數(shù)據(jù)集市

32、的大旗。就目前情形而言,能夠建立大型數(shù)據(jù)倉庫的企業(yè)如何說還局限于有雄厚實力的大型公司。而占市場相當(dāng)比重的中小企業(yè),一方面難以同意建立數(shù)據(jù)倉庫高昂的成本,另一方面使用大型數(shù)據(jù)倉庫來解決他們少量的工作也顯得有些白費。而現(xiàn)在數(shù)據(jù)集市則成了他們不錯的選擇。表1-1數(shù)據(jù)集市與數(shù)據(jù)倉庫的區(qū)別數(shù)據(jù)倉庫數(shù)據(jù)集市數(shù)據(jù)來源OLTP、遺留系統(tǒng)、外部數(shù)據(jù)數(shù)據(jù)倉庫范疇企業(yè)級部門級、工作組級主題企業(yè)主題部門或?qū)m椫黝}數(shù)據(jù)粒度最細(xì)粒度較粗粒度數(shù)據(jù)結(jié)構(gòu)3NTF星型、雪片型歷史數(shù)據(jù)大量歷史數(shù)據(jù)適度歷史數(shù)據(jù)優(yōu)化處理海量數(shù)據(jù)、數(shù)據(jù)探究便于訪問分析、快速查詢索引高度索引高度索引數(shù)據(jù)集市能夠分為兩種類型:獨立型數(shù)據(jù)集市和從屬型數(shù)據(jù)集市

33、。獨立型數(shù)據(jù)集市直截了當(dāng)從操作型環(huán)境獵取數(shù)據(jù),從屬型數(shù)據(jù)集市從企業(yè)級數(shù)據(jù)倉庫獵取數(shù)據(jù)。作為快速解決企業(yè)當(dāng)前存在的實際問題的一種有效方法,獨立型數(shù)據(jù)集市成為一種既成事實。獨立型數(shù)據(jù)集市是為滿足特定用戶的需求而建立的一種分析型環(huán)境,它能夠快速地解決某些具體的問題,而且投資規(guī)模也比數(shù)據(jù)倉庫小專門多。但獨立數(shù)據(jù)集市也存在一些問題:冗余數(shù)據(jù)。隨著獨立數(shù)據(jù)集市數(shù)量的增長,數(shù)據(jù)冗余量也不斷增長,這種冗余是由于每個獨立數(shù)據(jù)集市都有一個整體數(shù)據(jù)的備份而引起的,但這些數(shù)據(jù)中有許多通常并不是必需的。冗余流程。數(shù)據(jù)倉庫的體系結(jié)構(gòu)能夠?qū)λ袛?shù)據(jù)集市的共同活動進(jìn)行集中化,沒有數(shù)據(jù)倉庫,這些流程就必須為每個數(shù)據(jù)集市進(jìn)行復(fù)制

34、,這將大大增加愛護(hù)DSS所需的職員數(shù)量。較低的可伸縮性。獨立數(shù)據(jù)集市直截了當(dāng)讀取運作系統(tǒng)的文件或表,這極大限制了DSS的伸縮能力。非集成。獨立數(shù)據(jù)集市是由自成體系的團(tuán)隊建立的,而且一樣是為不同的部門建立的,導(dǎo)致這些數(shù)據(jù)集市沒有進(jìn)行集成,而且沒有一個會包含了整個企業(yè)的視圖。因此,假如CEO讓信息部門提供一個獲利能力最強(qiáng)的客戶列表,那么從每個數(shù)據(jù)集市分析到的答案都將是不同的。獨立型數(shù)據(jù)集市的存在會給人造成一種錯覺,看起來能夠先獨立地構(gòu)建數(shù)據(jù)集市,當(dāng)數(shù)據(jù)集市達(dá)到一定的規(guī)模再直截了當(dāng)轉(zhuǎn)換為數(shù)據(jù)倉庫。實際上多個獨立的數(shù)據(jù)集市的累積,是不能形成一個企業(yè)級的數(shù)據(jù)倉庫的。假如企業(yè)最終想建設(shè)一個全企業(yè)統(tǒng)一的數(shù)據(jù)

35、倉庫,想要以整個企業(yè)的視圖分析數(shù)據(jù),獨立型數(shù)據(jù)集市可能不是合適的選擇?,F(xiàn)在的業(yè)內(nèi)人士普遍認(rèn)為,從屬型數(shù)據(jù)集市在體系結(jié)構(gòu)上比獨立型數(shù)據(jù)集市更穩(wěn)固,能夠作為數(shù)據(jù)集市以后建設(shè)的要緊方向。從屬型數(shù)據(jù)集市只是是在數(shù)據(jù)倉庫與最終用戶之間又增加了一套聚攏、優(yōu)化系統(tǒng)。如此的設(shè)計也許對提高整個系統(tǒng)的反應(yīng)速度方面有一定關(guān)心,但卻削弱了數(shù)據(jù)集市相當(dāng)重要的一項優(yōu)勢廉價。其成本甚至超過了單一數(shù)據(jù)倉庫系統(tǒng),不利于此類技術(shù)的大眾化、平民化進(jìn)展。另一種比較理想的方式是,企業(yè)先就其最急需的領(lǐng)域建立獨立型數(shù)據(jù)集市,而后隨著需求的變化、實力的增強(qiáng)逐步建立更多的數(shù)據(jù)集市。這些數(shù)據(jù)集市之間保持一種高度的統(tǒng)一與和諧機(jī)制,構(gòu)成一個完整的群

36、體,我把它稱作數(shù)據(jù)集市群。數(shù)據(jù)集市群的優(yōu)勢要緊表現(xiàn)在以下幾方面:成本低廉初始成本為初始數(shù)據(jù)集市的成本加上集市群操縱器的成本。盡管比只有幾個數(shù)據(jù)集市的成本高,但與數(shù)據(jù)倉庫相比依舊廉價專門多。而且其投入產(chǎn)出比也更容易推測。冗余度低由于加入了集市群操縱器,各數(shù)據(jù)集市中的數(shù)據(jù)被統(tǒng)一調(diào)度,統(tǒng)一規(guī)劃。從而排除了數(shù)據(jù)集市件容易發(fā)生的數(shù)據(jù)冗余、不一致等問題。后期愛護(hù)容易當(dāng)集市群因某種需求而要加入新的數(shù)據(jù)集市時,所要考慮的問題僅是新的模塊需要那些數(shù)據(jù),原有集市群能提供那些數(shù)據(jù)。依照這兩點去設(shè)計新的數(shù)據(jù)集市,而不必對原有集市群做什么調(diào)整。數(shù)據(jù)集市群策劃和設(shè)計數(shù)據(jù)集市群的建立需要前期的精心策劃、設(shè)計和標(biāo)準(zhǔn)化的接口設(shè)

37、計。只有解決好這些問題,才能保證以后新建的集市能夠與原先的群順利實現(xiàn)對接及整體成效最佳。目前看來這依舊一項相當(dāng)復(fù)雜的工程,但其一旦實現(xiàn),給數(shù)據(jù)倉庫行業(yè)帶來的震動將是難以想象的。1.6.4基于Internet2、光處理器運算機(jī)和GGG技術(shù)的DW(1)Internet21996年由一些大學(xué)和高科技公司組成的聯(lián)盟開發(fā)的,旨在提供超高速的連接速度,該項目的目標(biāo)是領(lǐng)先于商用互聯(lián)網(wǎng)3-4年的時刻。目前的Internet2差不多是第三代了,今年早些時候,其骨干網(wǎng)的數(shù)據(jù)傳輸速率差不多升級為lOGbps。目前大部分的公共互聯(lián)網(wǎng)使用2.5Gbps,些運營商正在將它們的連接升級至10Gbps。P2P應(yīng)用、高清晰視頻

38、會議、實驗室設(shè)備的遠(yuǎn)程操作、分布式運算等應(yīng)用都能夠在Internet2上運行。目前,由于受帶寬的限制,這些應(yīng)用的大規(guī)模部署還專門緩慢,而Internet2則能夠滿足這些應(yīng)用對帶寬的需求。通過Internet2進(jìn)行的音樂會轉(zhuǎn)播每秒鐘能夠發(fā)送250GB的數(shù)據(jù),這比標(biāo)準(zhǔn)的撥號連接要快4000倍,比有線電視連接要快800倍。研究人員仍舊在研究如何進(jìn)一步提高Internet2的效率和速度的問題。研究人員還在開發(fā)新的中間件技術(shù),使通過網(wǎng)絡(luò)的協(xié)作更無縫更安全。在目前的互聯(lián)網(wǎng)上,應(yīng)用程序本身必須提供中間件所提供的識別、授權(quán)、安全等服務(wù)。通過語言標(biāo)準(zhǔn)化和兼容性,中間件將大大提高先進(jìn)網(wǎng)絡(luò)應(yīng)用的易用性。在過去的15

39、年中,互聯(lián)網(wǎng)的速度每年都會翻一番。研究人員相信,這種每年增長100%的趨勢在以后還會連續(xù)下去。Internet2的研究人員差不多在研究新一代的超高速網(wǎng)絡(luò)。速度為10Gbps的Abilene網(wǎng)絡(luò)的平均運行速度為lGbps-2Gbps。另外在高等教育領(lǐng)域,用戶對帶寬的需求的增長將呈幾何級數(shù)增長,因此新應(yīng)用的需求將超過目前的公共IP網(wǎng)絡(luò)的帶寬也是專門自然的。(2)以后高性能運算機(jī)按照摩爾定律,每過18個月,微處理器硅芯片上晶體管的數(shù)量就會翻一番。隨著大規(guī)模集成電路工藝的進(jìn)展,芯片的集成度越來越高,也越來越接近工藝甚至物理的上限,最終,晶體管會變得只有幾個分子那樣小。以摩爾速度進(jìn)展的微處理器使全世界的

40、微電子技術(shù)專家面臨著新的挑戰(zhàn)。盡管傳統(tǒng)的、基于集成電路的運算機(jī)短期內(nèi)還可不能退出歷史舞臺,但旨在超越它的超導(dǎo)運算機(jī)、納米運算機(jī)、光運算機(jī)、DNA運算機(jī)和量子運算機(jī)正在躍躍欲試。與傳統(tǒng)硅芯片運算機(jī)不同,光運算機(jī)用光束代替電子進(jìn)行運算和儲備:它以不同波長的光代表不同的數(shù)據(jù),以大量的透鏡、棱鏡和反射鏡將數(shù)據(jù)從一個芯片傳送到另一個芯片。從上個世紀(jì)80年代起,光子運算機(jī)就成為新一代運算機(jī)的進(jìn)展方向。2003年10月底,全球首枚嵌入光核心的商用向量光學(xué)數(shù)字處理器由以色列一公司研發(fā)的Enlight在美國波士頓軍事通信展覽會上露面,引起了業(yè)界莫大的關(guān)注。因為,它的顯現(xiàn)預(yù)示著運算機(jī)將進(jìn)入光學(xué)時代。以光速進(jìn)行運算

41、,運行速度達(dá)到每秒8萬億次這相當(dāng)于一臺超級運算機(jī)的運算能力。但超級運算機(jī)動輒采納上千個處理器同時工作,才能實現(xiàn)如此的運算速度。以去年問世的“地球模擬器”為例,這臺號稱全球運算速度最快的超級運算機(jī)峰值運算速度為35.86萬億次,而那個速度是由它的5120個處理器共同制造出來的。由于Enlight強(qiáng)大的性能,能夠被廣泛運用在大型多媒體廣播系統(tǒng)、機(jī)場安全檢查系統(tǒng)和醫(yī)學(xué)數(shù)據(jù)庫系統(tǒng)等方面。比如在移動通信領(lǐng)域,采納Enlight進(jìn)行多用戶檢測,即通過重復(fù)運算一系列方程式,能解除同一基站內(nèi)用戶間的相互干擾。一枚單獨的Enlight就能夠同時支持2000個用戶,并幸免相互干擾。而在生物科技方面,Enlight

42、強(qiáng)大的運算能力,能夠大大縮短生物技術(shù)運算必需的基因數(shù)據(jù)配對和基因與多基體配對過程?!肮庾舆\算具有龐大的潛力,能夠做常規(guī)運算無法辦到的事。”德國達(dá)姆施塔特大學(xué)的科爾內(nèi)利婭登茨博士長期致力于光運算研究。她表示,采納光學(xué)技術(shù)不但能夠極大地提升運算機(jī)的運算速度,而且能夠讓運算機(jī)系統(tǒng)模擬人腦的思維活動,同時比人腦的處理速度快上數(shù)千倍,從而實現(xiàn)真正的人工智能??茖W(xué)家的推測不是沒有依據(jù)的。到2020年,硅芯片的運算速度和微型化進(jìn)展都將止步不前。而與此同時,網(wǎng)絡(luò)和其他行業(yè)進(jìn)展帶來的海量數(shù)據(jù)運算需要和更快的傳輸需求,將迫使人們不得不尋求革命性的變革。網(wǎng)格技術(shù)網(wǎng)格運算因為在結(jié)構(gòu)上酷似電力網(wǎng)絡(luò)而得名。在九十年代中期

43、,網(wǎng)格作為一種共享運算的方法被正式提出,并第一在科研領(lǐng)域應(yīng)用。后來,為了降低成本,專門多企業(yè)也打算利用閑置的資源,網(wǎng)格開始逐步進(jìn)入商業(yè)市場,并由此為許多產(chǎn)業(yè)帶來了新的機(jī)遇。網(wǎng)格技術(shù)是一種趨勢,這是毋庸置疑的。就像運算機(jī)最初是大型主機(jī),進(jìn)展到更加通用的小型機(jī),現(xiàn)在則又有了更多的選擇。這其中有成本的緣故,有硬件技術(shù)的進(jìn)展,也說明大伙兒都在期待一個更加開放的平臺。網(wǎng)格技術(shù)正是這種趨勢進(jìn)展的一個必定。盡管網(wǎng)格的進(jìn)展還面臨專門大的困難,有業(yè)內(nèi)人士說,“網(wǎng)格的處境就看起來10年前的Internet和3年前的Linux一樣,正在從技術(shù)運算進(jìn)入商業(yè)運算?!比欢?jīng)價格高昂的網(wǎng)格運算差不多進(jìn)入各個組織機(jī)構(gòu)及跨

44、國公司,廣泛應(yīng)用到金融和工程仿真,醫(yī)學(xué)研究和石油勘探領(lǐng)域,發(fā)揮著龐大的作用:汽車制造商們正實施更多的模擬程序以使汽車更安全;娛樂公司更細(xì)致地描畫數(shù)字人像以求逼確實成效對企業(yè)來說,網(wǎng)格無疑是極具價值的工具,以后幾年,將會有更多的網(wǎng)格進(jìn)入市場。為了在以后的進(jìn)展潮流中占據(jù)有利的戰(zhàn)略地位,世界各國都紛紛加緊了網(wǎng)格研究的步伐。一些發(fā)達(dá)國家和跨國公司已為此投下了巨資。在具體實施中,IBM全球服務(wù)部和其業(yè)務(wù)合作伙伴一起,共同提供各種與網(wǎng)格有關(guān)的服務(wù),包括一個網(wǎng)格創(chuàng)新工作室(用于關(guān)心企業(yè)在其業(yè)務(wù)中實施網(wǎng)格)以及專業(yè)化的行業(yè)專用課程。在產(chǎn)品方面,IBMeServer產(chǎn)品線也形成了一個能夠用來設(shè)計和開發(fā)網(wǎng)格解決方

45、案、甚至治理整個網(wǎng)格的堅實平臺;其DB2產(chǎn)品和工具也支持網(wǎng)格運算解決方案,使得能快速、方便地建設(shè)復(fù)雜的數(shù)據(jù)基礎(chǔ)設(shè)施。數(shù)據(jù)倉庫、聯(lián)機(jī)系統(tǒng)的進(jìn)展依照長久以來的體會,運算機(jī)的軟硬件進(jìn)展一直是互相促進(jìn)、互為動力的。以上所述的以后高性能運算機(jī)、Internet2、網(wǎng)格技術(shù)等等差不多為我們勾勒出了一幅美好的畫面。更強(qiáng)大的運算工作站、驚人的信息傳輸速度、更優(yōu)化的網(wǎng)絡(luò)和諧機(jī)制,這些無疑都給以后軟件業(yè)的進(jìn)展帶來了更寬敞的施展空間。就如同現(xiàn)在的PC機(jī)使用的內(nèi)存,比10年前硬盤的儲備容量還大一樣。許許多多現(xiàn)在認(rèn)為不可能實現(xiàn)或相當(dāng)復(fù)雜的工作,對那時的運算機(jī)系統(tǒng)來說只是是小兒科而以。到那時對一個包含5千萬條記錄的DW作

46、一次完整分析,也僅僅需要幾秒鐘的時刻。因此我們有理由相信在新一代的應(yīng)用系統(tǒng)中,數(shù)據(jù)倉庫將在一開始便被納入系統(tǒng)設(shè)計的考慮,聯(lián)機(jī)分析會應(yīng)用于普遍的事務(wù)處理系統(tǒng)之中。在數(shù)據(jù)治理上,聯(lián)機(jī)事務(wù)處理和數(shù)據(jù)倉庫在應(yīng)用中相對獨立,使聯(lián)機(jī)事務(wù)處理系統(tǒng)本身更加簡潔高效,同時分析統(tǒng)計也更為便利。面向行業(yè)的數(shù)理統(tǒng)計學(xué)向更為普遍的應(yīng)用進(jìn)展,并集成到應(yīng)用系統(tǒng)的數(shù)據(jù)倉庫解決方案中。它們將立足于數(shù)據(jù)倉庫提供的豐富信息,更好地為業(yè)務(wù)決策服務(wù)。1.7建設(shè)數(shù)據(jù)倉庫的必要性企業(yè)建立數(shù)據(jù)倉庫是為了填補(bǔ)現(xiàn)有數(shù)據(jù)儲備形式差不多不能滿足信息分析的需要。數(shù)據(jù)倉庫理論中的一個核心理念確實是:事務(wù)型數(shù)據(jù)和決策支持型數(shù)據(jù)的處理性能不同。企業(yè)在它們的

47、事務(wù)操作收集數(shù)據(jù)。在企業(yè)運作過程中:隨著定單、銷售記錄的進(jìn)行,這些事務(wù)型數(shù)據(jù)也連續(xù)的產(chǎn)生。為了引入數(shù)據(jù),我們必須優(yōu)化事務(wù)型數(shù)據(jù)庫。處理決策支持型數(shù)據(jù)時,一些問題經(jīng)常會被提出:哪類客戶會購買哪類產(chǎn)品?促銷后銷售額會變化多少?等,事務(wù)型數(shù)據(jù)庫能夠為這些問題作出解答,然而它所給出的答案往往并不能讓人十分中意。在運用有限的運算機(jī)資源經(jīng)常常存在著競爭。在增加新信息的時候我們需要事務(wù)型數(shù)據(jù)庫是閑暇的。而在解答一系列具體的有關(guān)信息分析的問題的時候,系統(tǒng)處理新數(shù)據(jù)的有效性又會被大大降低。另一個問題就在于事務(wù)型數(shù)據(jù)總是在動態(tài)的變化之中的。決策支持型處理需要相對穩(wěn)固的數(shù)據(jù),從而問題都能得到一致連續(xù)的解答。數(shù)據(jù)倉庫

48、的解決方法包括:將決策支持型數(shù)據(jù)處理從事務(wù)型數(shù)據(jù)處理中分離出來。數(shù)據(jù)按照一定的周期(通常在每晚或者每周末),從事務(wù)型數(shù)據(jù)庫中導(dǎo)入決策支持型數(shù)據(jù)庫既“數(shù)據(jù)倉庫”。數(shù)據(jù)倉庫是按回答企業(yè)某方面的問題來分“主題”組織數(shù)據(jù)的,這是最有效的數(shù)據(jù)組織方式。第二章數(shù)據(jù)倉庫需求分析2.1需求分析緣故需求分析的成敗直截了當(dāng)阻礙到數(shù)據(jù)倉庫的成敗實施。關(guān)于一個嚴(yán)格完整的數(shù)據(jù)倉庫項目來說,需求分析應(yīng)該屬于數(shù)據(jù)倉庫項目的第二個過程,第一時期屬于數(shù)據(jù)倉庫項目定義時期,對項目范疇、項目評估、可行性研究分析和投資回報等相關(guān)進(jìn)行定義,也是一個不容忽視的時期。第一數(shù)據(jù)倉庫失敗的典型表現(xiàn)形式:圖2-1數(shù)據(jù)倉庫失敗圖示1)項目超過預(yù)算

49、2)沒有在規(guī)定的時刻內(nèi)完成3)沒有實現(xiàn)要求的功能4)用戶不中意5)系統(tǒng)性能不滿足要求2.2需求分析時期在進(jìn)入需求分析的初級時期時必須要先確立數(shù)據(jù)倉庫項目組人員(其中包括公司接口規(guī)范人員、接口人員、數(shù)據(jù)開發(fā)人員、ETL調(diào)度人員、稽核人員、頁面展現(xiàn)人員等),對局方聯(lián)通進(jìn)行接洽商討等相關(guān)工作。2.2.1需求分析成員確立(1)接口規(guī)范人員:用來確定當(dāng)前經(jīng)分能否支撐局方提出的需求,通過商討,判定當(dāng)前擁有的接口是否滿足需要,或是重新確定新的接口,來支撐項目的實施。如圖,例如對聯(lián)通融合業(yè)務(wù)進(jìn)行商討,判定接口是否能夠?qū)嵤?。ilr+EEjjlK連.一MrII足酉AW吐爭II卜:務(wù)部和蚯需4-弁柿需求業(yè)弼那門辛按

50、n局方審様卜-亞片卍可;擔(dān)汀I垃七!軒.XllilJ,.L-氣.jt-N-jAL亞專工申1沖旳叵*現(xiàn)心律1立詡冋J(rèn)S反ErSj姐片(打-3件G-決測試Rir-T-JtV,ll圖2-2接口規(guī)范制定流程接口人員:負(fù)責(zé)承接省分上傳的數(shù)據(jù),進(jìn)行初步的稽核,確認(rèn)是否需要遲傳、通報等,并通過ETL調(diào)度,調(diào)起節(jié)點。判定ETL能否成功調(diào)起,所承擔(dān)的負(fù)載最大值等。t文件矗nr?有新文件到詁文件解析嫁術(shù)咸功文件格式校驗文件入庫工生咸.回執(zhí)文件數(shù)提質(zhì)靈校驗不箱合按則先毆%J林合異常處理心丈件益沂規(guī)則定直仗件解祈規(guī)則定兔-丸件恪亂枕驗規(guī)躬足爻丈件人庫規(guī)則定義讓敎據(jù)質(zhì)童枕峻規(guī)則定丈屆拭龍?,F(xiàn)則定爻心任務(wù)提告內(nèi)容定義*異

51、常處理規(guī)則定義圖2-3接口入庫流程數(shù)據(jù)庫開發(fā)人員:進(jìn)行項目的開發(fā)和實施,通過與局方商量,依照需求估量項目實施周期。通過Powerdesigner、PL/SQL等工具,進(jìn)行設(shè)計開發(fā)。ETL調(diào)度人員:在開發(fā)人員腳本成功開發(fā)后,由ETL統(tǒng)一并行調(diào)度,保證及時觸發(fā)節(jié)點,并實時監(jiān)控。產(chǎn)晶域全業(yè)島產(chǎn)晶數(shù)據(jù)盍程(H)產(chǎn)老笑倍且r:ods?編母披表H:建嚴(yán)W艾i?葉圖2-4ETL調(diào)度實例(5)稽核人員:實時的對數(shù)據(jù)進(jìn)行詳細(xì)的稽核校驗,確保數(shù)據(jù)無誤,能夠及時準(zhǔn)確的上傳至頁面。專門是對重要字段進(jìn)行反復(fù)校驗,及時通過郵件反饋。(6)頁面展現(xiàn)人員:當(dāng)稽核人員確定數(shù)據(jù)無誤時,由頁面展現(xiàn)人員進(jìn)行頁面展現(xiàn),供局方人員使用,

52、確保數(shù)據(jù)的實時準(zhǔn)確。有些情形下還會有項目和諧和會議記錄等人員參加。2.2.2需求會議在做需求分析之前,一樣需要對局方進(jìn)行接口的確定,以保證總部和省分以統(tǒng)一的接口進(jìn)行上傳和接收,并通過接口規(guī)范來得到雙方的確認(rèn),會議的目的確實是公司與局方在各個方面達(dá)成一致,啟發(fā)局方提出更貼近數(shù)據(jù)倉庫的需求,具體想要得到哪些數(shù)據(jù),期望得到哪些結(jié)果。需求會議一方面是為了排除局方在進(jìn)行需求確認(rèn)時的數(shù)據(jù)倉庫的盲區(qū),更重要的一方面是讓局方明白建設(shè)數(shù)據(jù)倉庫開發(fā)的過程和困難,還有一方面確實是能夠得到局方配合來完成項目及時準(zhǔn)確的實施。第三章數(shù)據(jù)倉庫總體設(shè)計數(shù)據(jù)倉庫實施環(huán)境數(shù)據(jù)庫以O(shè)RACLE為基礎(chǔ),POWERDESIGNER進(jìn)行

53、數(shù)據(jù)模型的確定加工,PL/SQLDEVELOPER軟件進(jìn)行具體的過程開發(fā)。確定數(shù)據(jù)倉庫開發(fā)的生命周期由于數(shù)據(jù)倉庫最佳結(jié)合了業(yè)務(wù)慣例和信息系統(tǒng)技術(shù),因此,一個成功的數(shù)據(jù)倉庫實施需要這兩方面的不斷和諧,以均衡其所有的需要,要求,任務(wù)和成果。數(shù)據(jù)倉庫項目有3個軌道(tracks):數(shù)據(jù)軌道,技術(shù)軌道和應(yīng)用層軌道。當(dāng)在整理任何數(shù)據(jù)庫項目打算時,建議以這三個軌道為模板來治理和同步活動。數(shù)據(jù)庫生命周期治理方法(Discover,Design,Develop,Deploy,DaytoDay,Defend,Decommission),昵稱“7D法。數(shù)據(jù)倉庫的構(gòu)建從來可不能真正終止。不像傳統(tǒng)的數(shù)據(jù)庫在部署后的一

54、段時刻里保持相對的不變,數(shù)據(jù)倉庫始終處于不斷的變化之中,以應(yīng)對它所服務(wù)的業(yè)務(wù)環(huán)境的變化。當(dāng)今的業(yè)務(wù)環(huán)境更加復(fù)雜,并涉及比以往任何時候都要快的變化。處理這種幾乎是不斷的變化是企業(yè)的最大挑戰(zhàn)之一。這確實是什么緣故數(shù)據(jù)倉庫團(tuán)隊中的每一個人,包括技術(shù)決策者(TDMs)和業(yè)務(wù)決策者(BDMs),都必須處在同一陣線上,使用同一種生命周期治理方法,以使他們的認(rèn)識完全得到統(tǒng)一。只有如此,才有可能對已實施的數(shù)據(jù)倉庫、企業(yè)的構(gòu)想和宗旨進(jìn)行調(diào)整。挖掘任何規(guī)模和領(lǐng)域的數(shù)據(jù)庫項目離開了開始的挖掘時期都將失敗。那個時期也被稱為“需求分析和定義”,挖掘時期需要以業(yè)務(wù)為中心,專門是數(shù)據(jù)倉庫項目,因為數(shù)據(jù)倉庫的輸出需要支持組織

55、的目標(biāo)。挖掘這一步實質(zhì)上確實是調(diào)查,應(yīng)該不斷地問六個差不多問題(什么,如何,在何處,誰,何時和什么緣故),記錄好答案,并把這些答案包含在您起草的解決方案中。在“7步”的前3步(挖掘,設(shè)計,開發(fā))中,必須對業(yè)務(wù)主和技術(shù)專家進(jìn)行集中的和諧,項目經(jīng)理(PM)應(yīng)該促成這一進(jìn)程。項目經(jīng)理作為一個獨立的專業(yè)人員,要緊關(guān)懷項目的及時上線、預(yù)算在操縱范疇內(nèi),有預(yù)期的運行成效;項目經(jīng)理在得到各方的反饋意見后,負(fù)責(zé)制定嚴(yán)格的路線,里程碑和成功指標(biāo)。假如項目里沒有PM,這些將成為您的工作。在挖掘時期,PM必須收集三個軌道的信息,即技術(shù)軌道,數(shù)據(jù)軌道和應(yīng)用層軌道。在其他任務(wù)中,PM必須確定利益相關(guān)者和用戶,必須明白得

56、他們各自的角色和相應(yīng)的數(shù)據(jù)/視圖需求。PM必須明白本組織的績效治理策略:目標(biāo)是什么,倡議什么以及跟蹤業(yè)務(wù)和項目健康狀況的支撐度量標(biāo)準(zhǔn)/關(guān)鍵績效指標(biāo)。假如上述策略的任何部分遺漏了,該項目專門有可能失去最終用戶的評分,這可能會導(dǎo)致低的采納通過率和以后資金的丟失。換句話說,該項目將失敗,而不管項目任務(wù)執(zhí)行得有多么完美。(2)設(shè)計設(shè)計這一步的要緊活動是定義描述數(shù)據(jù)倉庫的語義和概要模型。這些模型必須解決企業(yè)用戶的治理信息系統(tǒng)(MISs)和商務(wù)智能(BI)分析需要。關(guān)于數(shù)據(jù)倉庫項目,能夠為關(guān)系型數(shù)據(jù)倉庫創(chuàng)建概念和邏輯數(shù)據(jù)模型,為表示多維立方體創(chuàng)建三維模型。能夠使用決策矩陣,以關(guān)心確定每個三維模型需要包含些

57、什么;沿Y軸方向列出被數(shù)據(jù)倉庫支持的關(guān)鍵業(yè)務(wù)流程,沿X軸方向列出建議的維。那個矩陣將作為當(dāng)前開發(fā)、以后擴(kuò)展和跨組織集成的向?qū)АT谠O(shè)計時期建立的模型必須反映第一時期收集的六個問題的答案。標(biāo)識數(shù)據(jù)倉庫相關(guān)的所有數(shù)據(jù)源(內(nèi)部和外部的),業(yè)務(wù)/交易數(shù)據(jù)庫和展平文件是個好注意。同時應(yīng)該明確說明哪些數(shù)據(jù)將被導(dǎo)入數(shù)據(jù)倉庫,哪些只會簡單地作為外部數(shù)據(jù)源引用。通常,技術(shù)軌道有自己的PM,但仍舊可能需要填補(bǔ)那個角色。數(shù)據(jù)倉庫能夠增長為專門大的內(nèi)容和十分廣泛的范疇,因此有必要在數(shù)據(jù)倉庫部署之前恰當(dāng)?shù)匾?guī)劃其大小。第一在紙上估量其大小,如此您就能夠大致把握當(dāng)數(shù)據(jù)倉庫投入產(chǎn)品應(yīng)用時所需的處理器速度和磁盤容量。同時需要估算

58、一天的業(yè)務(wù)終端用戶數(shù)量以及他們使用的應(yīng)用(例如,對立方體做一個專門分析,或者從關(guān)系數(shù)據(jù)倉庫中取出緩存的報告),也要估算數(shù)據(jù)倉庫一年中將會儲備的數(shù)據(jù)量。只是因為數(shù)據(jù)倉庫是一個進(jìn)展中的工作,可能會需要兩年和五年推測,同樣,其處理能力和數(shù)據(jù)儲備需求將隨著時刻的推移不斷增加。數(shù)據(jù)倉庫設(shè)施包括各種硬件,通信和軟件解決方案,所有這一切都必須協(xié)同工作,為終端用戶提供一個工作的數(shù)據(jù)倉庫。如此需要足夠的時刻來打算和測試將如何整合所有這些不同的組成部分。跟技術(shù)軌道一樣,應(yīng)用軌道可能有自己的PM或由一個主導(dǎo)的軟件開發(fā)人員充當(dāng)這一角色。假如你的工作是與此人和諧以同步任務(wù)。假如不是,那工作描述會擴(kuò)大。應(yīng)用層包括獵取從數(shù)

59、據(jù)倉庫收集到的輸出,通常是MIS報告和BI分析結(jié)果。MIS報告常是屏幕顯示,外表板,和打印副本的形式,它們關(guān)心企業(yè)治理者做出運行日常業(yè)務(wù)所需的戰(zhàn)術(shù)決策。這些輸出相對比較容易界定、編碼和被一系列標(biāo)準(zhǔn)化的進(jìn)程抓取,這些進(jìn)程運行在可預(yù)定環(huán)境中。應(yīng)用層的BI部分是一組查詢和響應(yīng),以關(guān)心執(zhí)行治理作出戰(zhàn)略決策,推動商務(wù)運營。BI解決方案往往是非結(jié)構(gòu)化的,專門難預(yù)定義,因為他們傾向于用一種專門的方式探究數(shù)據(jù)。記分牌,圖形和數(shù)據(jù)透視表是BI的應(yīng)用例子,它們能刺激更多的數(shù)據(jù)探究,而這可能導(dǎo)致公司內(nèi)部戰(zhàn)略方向的改變。在那個時期許多方法要求原型或試點項目。“7D法”不需要。至多,作為應(yīng)用層的設(shè)計活動中的一部分,能夠

60、做一個“點擊模式”-一種輸入/輸出屏幕的快速出現(xiàn)模型,不涉及或只有極少的代碼但卻能給利益攸關(guān)方可視化的概念,同時又可不能吃掉寶貴的時刻和資源。假如試點或原型是必要的,那么選擇其中的一個切片(slice)作為試點,完成“7D法”的每一步?!?D法”不區(qū)分試點,原型和產(chǎn)品系統(tǒng)-它們都被視為項目。假如按照“7D法”設(shè)計了一個原型,同時最終進(jìn)入了產(chǎn)品(大多數(shù)原型差不多上如此),然后要選擇比第一個切片更認(rèn)真地選擇第二個切片。假如這些切片不能成功地集成在一起,假如他們不支持我們在挖掘步驟發(fā)覺的企業(yè)宗旨和意圖,那么整合彼此只會遇到困難,在某些情形下,甚至全然不可能。開發(fā)數(shù)據(jù)軌道開發(fā)步驟要緊有兩個部分:第一個

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論