(計算機軟件與理論專業(yè)論文)商業(yè)領(lǐng)域數(shù)據(jù)倉庫系統(tǒng)的設(shè)計與實施.pdf_第1頁
(計算機軟件與理論專業(yè)論文)商業(yè)領(lǐng)域數(shù)據(jù)倉庫系統(tǒng)的設(shè)計與實施.pdf_第2頁
(計算機軟件與理論專業(yè)論文)商業(yè)領(lǐng)域數(shù)據(jù)倉庫系統(tǒng)的設(shè)計與實施.pdf_第3頁
(計算機軟件與理論專業(yè)論文)商業(yè)領(lǐng)域數(shù)據(jù)倉庫系統(tǒng)的設(shè)計與實施.pdf_第4頁
(計算機軟件與理論專業(yè)論文)商業(yè)領(lǐng)域數(shù)據(jù)倉庫系統(tǒng)的設(shè)計與實施.pdf_第5頁
已閱讀5頁,還剩59頁未讀 繼續(xù)免費閱讀

(計算機軟件與理論專業(yè)論文)商業(yè)領(lǐng)域數(shù)據(jù)倉庫系統(tǒng)的設(shè)計與實施.pdf.pdf 免費下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

捧豢 摘要 企業(yè)信息系統(tǒng)在運行的過程中會產(chǎn)生大量的數(shù)據(jù)和信息,如何分析和處理 這些數(shù)據(jù)以獲褥對企監(jiān)鴦懲黲決策萋怠熬寒越殘為系統(tǒng)開發(fā)天受關(guān)心翡| 、薅蘧。 數(shù)據(jù)倉庫所要研究和解決的問題就是如何從數(shù)據(jù)脬中獲取信息。數(shù)據(jù)倉庫系統(tǒng) 不同子傳統(tǒng)豹數(shù)據(jù)庫系統(tǒng),它稍在往能特點、設(shè)計方法、事務(wù)處理方法及數(shù)據(jù) 存儲方式簿方面有著根本性的區(qū)別。 在對朝批實際情況和企啦決策支持的需求進行分析的基礎(chǔ)上,本文提出了 一個小型商業(yè)數(shù)掇倉庫系統(tǒng)的設(shè)計方案,描述了數(shù)據(jù)倉癢數(shù)攢模型的建立過 程。在業(yè)務(wù)系統(tǒng)存儲的企業(yè)數(shù)據(jù)中,有很多的數(shù)據(jù)有著內(nèi)在的層次邏輯熒系, 我嬲采震企業(yè)信感分類來黠這些金蝗數(shù)攢避行分類管理,露酵幫c 蕊x 。s 公司 的管理企業(yè)數(shù)據(jù)方式做了對比。本文還論述了朝批數(shù)據(jù)倉庫星型模型和物理模 墅瓣實臻。 數(shù)據(jù)的抽取是數(shù)據(jù)倉庫的入口。由于數(shù)據(jù)倉庫是一個獨立的數(shù)據(jù)環(huán)境,它 需要通過獺取道稷將數(shù)據(jù)秩聯(lián)稅攀務(wù)處理系統(tǒng)o l t p 、外部數(shù)據(jù)源( 主要是數(shù)據(jù)交 換文檔) 、脫機的數(shù)據(jù)存儲分質(zhì)中母入到數(shù)據(jù)倉庫。文章中提蝰了鍛批的數(shù)據(jù)提 取的方案,同時述論述了譙數(shù)據(jù)提取過程中的數(shù)攢一致性問題、數(shù)據(jù)轉(zhuǎn)換和數(shù) 撂提取的遮加和維織靜方式。 提取的r o l a p 關(guān)系型聯(lián)機分析處理的數(shù)據(jù)存儲在0 r a c l e8 i 的數(shù)據(jù)庫中, 憊據(jù)多維立方薅熬維表窩事實表。囂要鬏據(jù)數(shù)搖念疼應(yīng)嗣懿特瞧,對數(shù)據(jù)倉 庫進行數(shù)據(jù)庫系統(tǒng)調(diào)優(yōu)和數(shù)據(jù)庫表的優(yōu)化工作。同時因為數(shù)據(jù)倉席中存儲的企 遂數(shù)據(jù)對予企盈發(fā)震至關(guān)繁要,本文最后編述對予贛魏數(shù)據(jù)倉庫系統(tǒng)所采取的 安全措施。 c 關(guān)鍵逶】鼗攆倉癢;數(shù)據(jù)提取;屋懋模戲;瞧能譙化 a b s tr _ a c t t h e m a n a g e m e n t i n f o m l a t i o ns y s t e m sh a v eg e n e r a t e dl a 唱eq u a n t i t ) ro fd a t aa n d i n 南髓a t i o n 壬王o w 如繃采y s e sa n dd i s p o s e 氆e 辯d a t ab e c o m e s 獺o r ea n dm o f e i m p o r t a n t + t h et e c h n o l o g y o fd a t a ,弧h o u s ei s j u s t f o r 也e r c q u e s t s d a t a r a r e h o u s ei sd i 蹙t 烈它m 蠹o mt 1 1 et r a d i t i o n 越d a t a b a s es y s t e m ;斑e f e8 r e 最妞d 秈e n t a l d 溷b r e n c e sb e t v ,移e nt h e mi np e r f o 黼a n c 棼p r o p e r 魄d e s i g nm e 也o d ,t r a n s a c t i o n m a n a g e m e n t a n dd a t a s t o r a g e m o d e b 撇d o n 齜嘲婦螂e n t o f 赫d s s s y s t e m 硝氆ec 酗o p ic o 檄p 鞠y ,& p 舉r b r i n g sf o 俐a r dt l l ed e s i g no f t l l ed a t am h o u s e 洲加t e c n 黼a r e rt l l a t ,也ep 印e r 璉e s e 蠢& s 氆ec 。n 蟪瞰c 鑫o no f 氆e 玲a 主a 鬻戡h o u s el o 垂e 蠢m(xù) o 娃e 1 b e c 雒s e 氌黼a r e i n t e m a lh j e r a r c l l i cl o 垂c a lr e l a t i o n si nt h ed a t aw a r c h o u s e ,w ei m r o d u c e dac o n c e p t o f 強e & l t e r p r 主s ed a 掘e l a s s t om a n a g e 也e s e l 旋o n s a i s o 、張m a k eac o m p 撕s o n w 油也e e n t e r p r i s ed a t a c l a s s 強dt h e1 1 1 f o 】撇a l i o nc a 詛l o go f l ec o g n o s p r o d u c t s d a t ae x 缸d o ni s 也ee n 臺口l n c eo f 嘲ed a t aw a r e h o u s e b e c a u s em ed a 紐 w 越e h o t 王s 。i sa nl n d e p e n d e 嫩齜e n v i r o 黼e n t ,i tn e e d st h ep f o c 髓so f 也e 幽主a e x 仃a c t i o nt og e tt l l ed a t a 舶mm eo l t p s y s t e m ,e x t e r i l a jd 8 _ t as o u r c e ,a 1 1 dm eo m i n e s 埝端e 麟e 蓮峨,融躐s 鯔甄w e 融g 觸涮氐d e s 駛o f 氌ee h 的張鑫如 e x 柏c t i o n s c h e m e , a i l d獻s od i s c u s st 1 1 e p r o b l e m s o fd a t a c o n s i s t e n c y , d a t a c o 毪v e r s i o na n d 氌e “贍t h o 蓮o f i l a 斑。嘶z 毫蜒o n t h er o l a pd a t ao ft h ed a 詛w h r c h o l l s ea r es t o r e di nt l l eo r a c l e8 id a t a b a s e i n c l l l d e 也ec i l b e 蕊m e i l s i o 啦協(xié)b l e sa n d 也ef h c t 扭b l 黼w en e e dt od ot h ew o r ko f d a 毫a b a s ec ) p 岫i z a 虹曲k 暉e do n 也e 朋峰瞄f 黜e n to f1 ) a 主8w 鞋勰h o t 塔e ,a tt h es a m 。 t i m e ,b e c a l i s et l l ee n t e r p r i s ed a t ai sv i t a lt om ed e v e l 叩m e n to f 協(xié)ec o m p a n mt l l e i i i * 北京工業(yè)大學(xué)工學(xué)硬士學(xué)位論文 p a p e r d e s c f 呈b e s 壕es e c 玨r i 每黼e a s u f e s ,w 巍i e hw 囂幻o kt op 羚捃睫糖eb 如磺弛h o 掛s e k e y w o r d s :d a t a 強麓r e h o 醢s e ;d a :ae x 舡a c t i o n ;s 紐rs c h e m a ;o 洳i z a 畦 第l 章緒論 第1 章緒論 1 1 數(shù)據(jù)倉庫的產(chǎn)生 近幾十年來,大量新技術(shù)、新思路的涌現(xiàn)出來并被用于關(guān)系型數(shù)據(jù)庫系統(tǒng) 的開發(fā)和實現(xiàn),關(guān)系數(shù)據(jù)庫最終成為聯(lián)機事務(wù)處理系統(tǒng)的主宰。整個8 0 年代 直到9 0 年代初,聯(lián)機事務(wù)處理一直是數(shù)據(jù)庫應(yīng)用的重要方面。然而,應(yīng)甩在不 斷地進步。當(dāng)聯(lián)機事務(wù)處理系統(tǒng)應(yīng)用到一定階段后,用戶便發(fā)現(xiàn)單靠擁有聯(lián)機 事務(wù)處理已經(jīng)不足以獲得市場競爭的優(yōu)勢,他們需要對其自身業(yè)務(wù)的運作以及 整個市場相關(guān)行業(yè)的情況進行分析,而做出有利的決策。這種決策需要對大量 的業(yè)務(wù)數(shù)據(jù)包括歷史業(yè)務(wù)數(shù)據(jù)進行分析才能得到。在如今這樣激烈的市場競爭 環(huán)境下,這種基于業(yè)務(wù)數(shù)據(jù)的決策分析,我們把它稱為聯(lián)機分析處理( o n l i n e a n a l y t i c a lp r o c e s s i n g ,o l a p ) ,比以往任何時候都顯得更為重要。如果說傳 統(tǒng)聯(lián)機事務(wù)處理強調(diào)的是更新數(shù)據(jù)庫一向數(shù)據(jù)庫中添加信息,那么聯(lián)機分析處 理就是從數(shù)據(jù)庫中獲取信息、利用信息“1 。 事實上,將大量的業(yè)務(wù)數(shù)據(jù)應(yīng)用于分析和統(tǒng)計原本是一個非常簡單和自然 的想法。但在實際的操作中,人們卻發(fā)現(xiàn)要獲得有用的信息并非如想象的那么 容易,這主要表現(xiàn)在以下幾點: 所有聯(lián)機事務(wù)處理強調(diào)的是密集的數(shù)據(jù)更新處理性能和系統(tǒng)的可靠性,而 聯(lián)機分析處理強調(diào)的是數(shù)據(jù)查詢的方便與快捷。聯(lián)機分析和事務(wù)處理對系 統(tǒng)的要求不同,同一個數(shù)據(jù)庫在理論上都難以做到兩全。 業(yè)務(wù)數(shù)據(jù)往往存放于分散的異構(gòu)環(huán)境中,不易統(tǒng)一查詢訪問,而且還有大 量的歷史數(shù)據(jù)處于脫機狀態(tài),形同虛設(shè)。 業(yè)務(wù)數(shù)據(jù)的模式針對事務(wù)處理系統(tǒng)而設(shè)計,數(shù)據(jù)的格式和描述方式并不適 北京工業(yè)大學(xué)工學(xué)碩士學(xué)位論文 合非計算機專業(yè)人員進行業(yè)務(wù)上的分析和查詢”1 。 因此有人感嘆:2 0 年前查詢不到數(shù)據(jù)是因為數(shù)據(jù)太少了,而今天查詢不到 數(shù)據(jù)是因為數(shù)據(jù)太多了。針對這一問題,人們設(shè)想專門為業(yè)務(wù)的統(tǒng)計分析建立 一個數(shù)據(jù)中心,它的數(shù)據(jù)從聯(lián)機的事務(wù)處理系統(tǒng)中來、從異構(gòu)的外部數(shù)據(jù)源來、 從脫機的歷史業(yè)務(wù)數(shù)據(jù)中來。這個數(shù)據(jù)中心是個聯(lián)機的系統(tǒng),它是專門為分 析統(tǒng)計和決策支持應(yīng)用服務(wù)的,通過它可以滿足決策支持和聯(lián)機分析應(yīng)用所要 求的一切。這個數(shù)據(jù)中心就叫做數(shù)據(jù)倉庫。這個概念在9 0 年代初被提出來。如 果需要給數(shù)據(jù)倉庫一個定義的話,那么數(shù)據(jù)倉庫就是一個作為決策支持系統(tǒng)和 聯(lián)機分析應(yīng)用數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境。數(shù)據(jù)倉庫所要研究和解決的問題就是 從數(shù)據(jù)庫中獲取信息。 數(shù)據(jù)倉庫的概念一經(jīng)出現(xiàn),就首先被用于金融、電信、保險、商業(yè)等主要 傳統(tǒng)數(shù)據(jù)處理密集型行業(yè)。那么,什么樣的行業(yè)最需要和可能建立數(shù)據(jù)倉庫呢? 有兩個基本條件:第一,該行業(yè)有較為成熟的聯(lián)機事務(wù)處理系統(tǒng),它為數(shù)據(jù)倉 庫提供客觀條件;第二,該行業(yè)面臨市場競爭的壓力,它為數(shù)據(jù)倉庫的建立提 供外在的動力。 1 2 從數(shù)據(jù)庫到數(shù)據(jù)倉庫 數(shù)據(jù)庫系統(tǒng)作為數(shù)據(jù)管理手段,主要用于事務(wù)處理。在這些數(shù)據(jù)庫中已經(jīng) 保存了大量的日常業(yè)務(wù)數(shù)據(jù)。傳統(tǒng)的決策支持系統(tǒng)( d e c i s i o ns u p p o r ts y s t e m , d s s ) 一般是直接建立在這種事務(wù)處理環(huán)境上的。數(shù)據(jù)庫技術(shù)一直力圖使自己能 勝任從事務(wù)處理、批處理到分析處理的各種類型的信息處理任務(wù)。盡管數(shù)據(jù)庫 在事務(wù)處理方面的應(yīng)用獲得了巨大的成功,但它對分析處理的支持一直不能令 人滿意,尤其是當(dāng)以業(yè)務(wù)處理為主的聯(lián)機事務(wù)處理( 0 n l i n et r a n s a c t i o n p r o c e s s i n g ,o l t p ) 應(yīng)用與以分析處理為主的d s s 應(yīng)用共存于同一個數(shù)據(jù)庫系 統(tǒng)中時,這兩種類型的處理發(fā)生了明顯的沖突“3 。人們逐漸認識到,事務(wù)處理 第1 章緒論 和分析處理具有極不相同的性質(zhì),直接使用事務(wù)處理環(huán)境來支持d s s 是行不通 的。 概況來說,事務(wù)處理環(huán)境不適應(yīng)d s s 應(yīng)用的原因主要有以下五條: 1 事務(wù)處理和分析處理的性能特點不同。 事務(wù)處理特點是數(shù)據(jù)的存取操作頻率高而每次操作處理的時間短,系統(tǒng)允 許多個用戶按分時方式使用系統(tǒng)資源,同時保持較短的響應(yīng)時間;分析處理, 經(jīng)常要訪問大量的歷史數(shù)據(jù)、消耗大量的系統(tǒng)資源,因此通常是單用戶且對響 應(yīng)時間要求不高。 2 數(shù)據(jù)集成問題。 事務(wù)處理環(huán)境中的數(shù)據(jù)通常是獨立的、分散的,主要原因有事物處理應(yīng)用 分散、“蜘蛛網(wǎng)”問題、數(shù)據(jù)不一致問題、外部數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù);而分析處 理不僅需要整個企業(yè)全面而正確的集成數(shù)據(jù),還需要企業(yè)外部、競爭對手等處 的相關(guān)集成數(shù)據(jù)。 3 數(shù)據(jù)動態(tài)集成問題。 集成的數(shù)據(jù)必須以一定的周期( 例如2 4 小時) 進行刷新,稱為動態(tài)集成。 事務(wù)處理系統(tǒng)不具備動態(tài)集成的能力。 4 歷史數(shù)據(jù)問題。 事務(wù)處理一般只需要當(dāng)前數(shù)據(jù),數(shù)據(jù)庫中一般也只存儲短期數(shù)據(jù);分析處 理需要大量的歷史數(shù)據(jù)作為依托,沒有對歷史數(shù)據(jù)的詳細分析,是難以把握企 業(yè)的發(fā)展趨勢的。 5 數(shù)據(jù)的綜合問題。 事務(wù)處理環(huán)境中存儲的大多是細節(jié)數(shù)據(jù);分析處理更關(guān)心綜合數(shù)據(jù),在分 析前,往往需要對細節(jié)數(shù)據(jù)進行不同程度的綜合“1 。 因此,要提高分析和決策的效率和有效性,分析型處理及其數(shù)據(jù)必須與操 作型處理及其數(shù)據(jù)相分離。必須把分析型數(shù)據(jù)從事務(wù)處理環(huán)境中提取出來,按 北京工業(yè)大學(xué)工學(xué)碩士學(xué)位論文 照d s s 處理的需要進行重新組織,建立單獨的分析處理環(huán)境,數(shù)據(jù)倉庫正是為 了,構(gòu)建這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲和組織技術(shù)。 著名的數(shù)據(jù)倉庫專家w h i n m o n 在其著作b u i l d i n g t h ed a t a w a r e h o u s e 書中對數(shù)據(jù)倉庫的描述如下:數(shù)據(jù)倉庫( d a t aw a r e h o u s e ) 是一個面向主題 的( s u b j e c to r i e n t e d ) 、集成的( i n t e g r a t e ) 、相對穩(wěn)定的( n o n v 0 1 a t i l e ) 、 反映歷史變化( t i m ev a r i a n t ) 的數(shù)據(jù)集合,用于支持管理決策。對于數(shù)據(jù)倉 庫的概念我們可以從兩個層次予以理解,首先,數(shù)據(jù)倉庫用于支持決策,面向 分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫;其次,數(shù)據(jù)倉庫是對多 個異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進行了重組,并包含歷史數(shù)據(jù),而 耳存放在數(shù)據(jù)倉庫中的數(shù)據(jù)一般不再修改”1 。 1 3 數(shù)據(jù)倉庫技術(shù)的研究發(fā)展方向 9 0 年代以來,計算機技術(shù),尤其是數(shù)據(jù)庫技術(shù)的發(fā)展為d s s 提供了技術(shù)支 持:激烈的市場競爭促進了高層次決策人員對d s s 的實際需求。兩方面的共同作 用,促成了以數(shù)據(jù)倉庫( d a t aw a r e h o u s e ,d ) 為核心、以o l a p 和d w 工具為 手段建設(shè)d s s 的可行方案。3 。數(shù)據(jù)庫技術(shù)的發(fā)展d w 需要以下數(shù)據(jù)庫技術(shù)的支持。 ( 1 ) 高性能數(shù)據(jù)庫服務(wù)器肼的應(yīng)用不同于傳統(tǒng)數(shù)據(jù)庫的o l t p 應(yīng)用。傳統(tǒng) 數(shù)據(jù)庫的應(yīng)用是操作型的,而d w 的應(yīng)用是分析型的,它需要高性能的數(shù)據(jù)庫管 理系統(tǒng)( d a t ab a s em a n a g e m e n ts y s t e m ,d b m s ) 核心的支持,以較快地獲得 分析結(jié)果,這通常需要數(shù)秒至數(shù)分鐘。雖然比o l t p 的響應(yīng)時間長一些,但由于 分析型應(yīng)用涉及的數(shù)據(jù)量大,查詢要求復(fù)雜,因此,對d b 淞核心的性能要求更 高,同d b m s 必須具有良好的查詢優(yōu)化機制。 ( 2 ) 并行數(shù)據(jù)庫技術(shù)d w 中的數(shù)據(jù)量大,而且隨著時間的延長,新的數(shù)據(jù)還 會不斷進入。d w 中的數(shù)據(jù)庫通常是g b 甚至t b 級的,可謂是超大規(guī)模數(shù)據(jù)庫 ( v l d b ) 。而并行數(shù)據(jù)庫技術(shù)是存儲和管理v l d b ,并提供對v l d b 復(fù)雜查詢處理 第l 蘋緒論 的有效技術(shù)。 ( 3 ) 數(shù)據(jù)庫互操作技術(shù)d w 中的數(shù)據(jù)大多來自企業(yè)或行業(yè)中業(yè)已運行的 o l t p 數(shù)據(jù)庫或外部的數(shù)據(jù)源。這些數(shù)據(jù)庫常常是異構(gòu)的,甚至是文件系統(tǒng)中的 數(shù)據(jù)。d w 必須從這些異構(gòu)數(shù)據(jù)源中定期抽取、轉(zhuǎn)換和集成所需要的數(shù)據(jù),并把 它們存入d w 中。因此,異構(gòu)數(shù)據(jù)源之間的互訪和互操作技術(shù)是必需的。 ( 4 ) 基于w e b 方式的數(shù)據(jù)倉庫的引入,數(shù)據(jù)倉庫是存儲供查詢和決策分析 用的集成化信息倉庫,它的數(shù)據(jù)來源于數(shù)據(jù)庫或其他信息源( 如日志文件) ?;?于w e b 的數(shù)據(jù)倉庫主要是指它的數(shù)據(jù)來源于w 聊站點。目前,通過w e b 方式可 以充分地共享應(yīng)用和信息,利用w e b 技術(shù)進行原有業(yè)務(wù)增值已成為信息技術(shù)的 趨勢。因此在進行數(shù)據(jù)倉庫系統(tǒng)設(shè)計時,人們一直在追求最大限度地取得決策 所需的各種信息,共享各種應(yīng)用,因此組建基于w e b 方式的數(shù)據(jù)倉庫的方案得 以提出。 現(xiàn)在許多大公司都有自己的數(shù)據(jù)倉庫產(chǎn)品,這些公司可以分成兩類: ( 1 ) 大的數(shù)據(jù)庫產(chǎn)品的廠商,如i 踟的d b 2 、o r a c l e 等都有相應(yīng)的數(shù)據(jù)倉 庫產(chǎn)品。i 脒公司提供了一套基于可視數(shù)據(jù)倉庫的商業(yè)智能( b u s i n e s s i n t e l l i g e n c e ,b i ) 解決方案,包括:v i s u a lw a r e h o u s e ( v w ) 、e s s b a s e d b 2 o l a ps e r v e r5 0 、i b md b 2u d b ,以及來自第三方的前端數(shù)據(jù)展現(xiàn)工具( 如b 0 ) 和數(shù)據(jù)挖掘工具( 如s a s ) 。0 r a c l e 數(shù)據(jù)倉庫解決方案主要包括o r a c l ee x p r e s s 和o r a c l ed i s c o v e r e r 兩個部分。0 r a c l ee x p r e s s 由四個工具組成:o r a c l e e x p r e s ss e r v e r 是一個l a p ( i i t d i 珥e n s i o no n l i n ea n a l y s i sp r o c e s s i n g , m o l a p ) 服務(wù)器,它利用多維模型,存儲和管理多維數(shù)據(jù)庫或多維高速緩存,同 時也能夠訪問多種關(guān)系數(shù)據(jù)庫:o r a c l ee x p r e s sw e ba g e n t 通過c g i 或w e b 插 件支持基于w e b 的動態(tài)多維數(shù)據(jù)展現(xiàn);0 r a c l ee x ”e s so b j e c t s 前端數(shù)據(jù)分析 工具( 目前僅支持w i n d o w s 平臺) 提供了圖形化建模和假設(shè)分析功能,支持可 視化開發(fā)和事件驅(qū)動編程技術(shù),提供了兼容v i s u a lb a s i c 語法的語言,支持 北京工業(yè)大學(xué)工學(xué)碩士學(xué)位論文 o c x 和o l e ;o r a c l ee x p r e s sa n a l y z e r 是通用的、面向最終用戶的報告和分析 工具( 目前僅支持w i n d o w s 平臺) 。o r a c l ed i s c o v e r e r 即席查詢工具是專門為 最終用戶設(shè)計的,分為最終用戶版和管理員版“。 ( 2 ) 大的軟件廠商如c o g n o s 、c a 、b o 公司等。c 。g n o s 公司的產(chǎn)品包 括:i m p r o m p t u 可以建立和修改數(shù)據(jù)庫定義,建立和修改信息目錄和文件夾 生成各種的報表。t r a n s f o r m e r 可以生成c u b e 多維數(shù)據(jù)立方體,p o w e r p l a y 是個前端展示的0 l a p 工具。 b u s i n e s so b j e c t s ( b o ) 是集查詢、報表和 o l a p 技術(shù)為身的智能決策支持系統(tǒng),它使用獨特的“語義層”技術(shù)和“動態(tài) 微立方”技術(shù)來表示數(shù)據(jù)庫中的多維數(shù)據(jù),具有較好的查詢和報表功能,提供 鉆取( d r i l l ) 等多維分析技術(shù),支持多種數(shù)據(jù)庫,同時它還支持基于w e b 瀏覽器 的查詢、報表和分析決策“”。 這些數(shù)據(jù)倉庫產(chǎn)品在電信、金融、政府等領(lǐng)域獲得了廣泛的應(yīng)用。但是它 們都有共同的問題,就是軟件價格高昂,對開發(fā)人員和使用人員的技術(shù)要求高, 開發(fā)周期很長,一般應(yīng)用在規(guī)模比較大的應(yīng)用之中。 1 4 課題的來源 北京朝批商貿(mào)有限公司( 簡稱“朝批”) 是目前華北地區(qū)最大的綜合性副 食品商業(yè)批發(fā)企業(yè),公司下設(shè)四個控股子公司、九個銷售分公司和四個庫區(qū), 原有的計算機系統(tǒng)已不能適應(yīng)業(yè)務(wù)發(fā)展的需要。為此,北京朝批商貿(mào)有限公司 決定與北京工業(yè)大學(xué)計算機學(xué)院合作,依托計算機學(xué)院的人才、技術(shù)和設(shè)備的 優(yōu)勢,重新建設(shè)計算機業(yè)務(wù)系統(tǒng),整合企業(yè)的商流、物流、信息流、資金流, 優(yōu)化企業(yè)業(yè)務(wù)流程。 設(shè)計準則主要體現(xiàn)先進性、實用性、安全性和可維護性四個方面。 先進性:采用科學(xué)的管理模型,優(yōu)化現(xiàn)行工作流程,實現(xiàn)企業(yè)業(yè)務(wù)流 程重組,滿足企業(yè)改革發(fā)展的需要。采用領(lǐng)先的信息技術(shù),建設(shè)一個 第1 章緒論 開放的電子商務(wù)架構(gòu),實現(xiàn)企業(yè)資源規(guī)劃系統(tǒng)( e n t e r p r i s er e s o u r c e p 1 a n n i n g ,e r p ) 、客戶關(guān)系管理( c u s t o m e r r e l a t i o n s h i p m a n a g e m e n t ,c r m ) 和供應(yīng)鏈管理( s u p p l yc h a i nm a n a g e m e n t ,s c m ) 的整合。 實用性:充分考慮我國國情和企業(yè)發(fā)展現(xiàn)狀,真正理解企業(yè)高層領(lǐng) 導(dǎo)面臨的問題和構(gòu)想的解決方案,廣泛吸取企業(yè)信息化建設(shè)過程中的 寶貴經(jīng)驗,盡量利用一切可利用的軟硬件資源。 安全性:企業(yè)走向電子商務(wù)化面臨的大問題,必須在系統(tǒng)設(shè)計初期 進行重點考慮。 可維護性:軟件設(shè)計采用面向?qū)ο蠛蜆?gòu)件化方法,注重軟件的可重用 性。開發(fā)方式力求工程化,注重軟件文檔和版本管理。 系統(tǒng)設(shè)計目標主要有三個方面: 利用先進的計算機技術(shù),優(yōu)化企業(yè)業(yè)務(wù)流程,實現(xiàn)全公司統(tǒng)一采購結(jié) 算、統(tǒng)一倉儲配送,公司內(nèi)部信息暢通無阻,業(yè)務(wù)財務(wù)一體化,集中 管理,統(tǒng)一核算,有效控制商流、物流和資金流。 建立基于e r p 的電子商務(wù)平臺,實現(xiàn)與大的供貨商和客戶之間的電子 單證交換,將企業(yè)內(nèi)部業(yè)務(wù)與外部交易整合,逐步改善整個供應(yīng)鏈流 程。 實現(xiàn)基于數(shù)據(jù)倉庫的決策支持系統(tǒng),提供i n t e r n e t 上的聯(lián)機分析處理 ( o l a p ) 。 1 5 課題主要研究內(nèi)容 在完成北京朝批商貿(mào)有限公司內(nèi)部e r p 系統(tǒng)的開發(fā)和實施以后,企業(yè)迫切 需要開始建立基于數(shù)據(jù)倉庫的決策支持系統(tǒng),我的研究生階段工作和論文的主 要內(nèi)容是:朝批商貿(mào)有限公司數(shù)據(jù)倉庫系統(tǒng)需求分析和整體系統(tǒng)設(shè)計,數(shù)據(jù)倉 北京工業(yè)大學(xué)工學(xué)碩士學(xué)位論文 庫數(shù)據(jù)的提取和數(shù)據(jù)倉庫數(shù)據(jù)維護,具體有如下幾方面的問題: 1 首先必須根據(jù)朝批商貿(mào)有限公司現(xiàn)有的業(yè)務(wù)系統(tǒng)情況以及用戶的實際 需求,從用戶的業(yè)務(wù)和技術(shù)二個方面的情況進行調(diào)查分析,建立數(shù)據(jù) 倉庫系統(tǒng)需求分析和數(shù)據(jù)倉庫項目實施步驟。 2 朝批商貿(mào)有限公司數(shù)據(jù)倉庫的系統(tǒng)設(shè)計,包括數(shù)據(jù)倉庫整體結(jié)構(gòu)設(shè)計、 系統(tǒng)平臺選擇、數(shù)據(jù)倉庫模式設(shè)計和物理設(shè)計。 3 數(shù)據(jù)倉庫數(shù)據(jù)來源于企業(yè)的0 l t p 系統(tǒng),如何提取、組織、轉(zhuǎn)換業(yè)務(wù) 系統(tǒng)數(shù)據(jù)以適應(yīng)數(shù)據(jù)倉庫需要,是必須解決好的一個問題。 4 企業(yè)數(shù)據(jù)倉庫提取的數(shù)據(jù)存儲在o r a c l e8 i 數(shù)據(jù)庫中,需要根據(jù)數(shù) 據(jù)倉庫應(yīng)用特性解決數(shù)據(jù)庫管理系統(tǒng)的性能優(yōu)化、備份和安全的問題。 第2 章朝批數(shù)據(jù)倉庫需求分析和實施步驟 第2 章朝批數(shù)據(jù)倉庫需求分析和實施步驟 2 。1 朝批數(shù)據(jù)倉庫需求分析 2 1 1 朝批公司概況 北京朝批商貿(mào)有限公司是華北地區(qū)最大的副食品批發(fā)企業(yè),公司下設(shè)四個 控股子公司、九個銷售分公司。公司擁有總面積8 0 0 0 余平米的智能化辦公大樓, 4 5 0 0 0 平米的標準倉儲設(shè)施,1 4 0 余部新款業(yè)務(wù)用車輛,1 3 0 余臺奔騰3 型以上 計算機,全套現(xiàn)代化辦公設(shè)備。 朝批商貿(mào)有限公司市場根基深厚,經(jīng)營實力強大:進貨渠道遍布國內(nèi)2 9 個 省市自治區(qū)的名優(yōu)商品生產(chǎn)廠家,遠通十余個國家和地區(qū)的世界知名品牌生產(chǎn) 廠家,經(jīng)營品種總數(shù)6 8 0 0 余個,其中3 0 余個國內(nèi)外名優(yōu)品牌8 0 0 余個品種為 總經(jīng)銷、總代理;銷售網(wǎng)絡(luò)覆蓋了5 0 0 0 余個繁華街區(qū)的大中型零售企業(yè),2 6 0 0 余個人口稠密社區(qū)的小型店鋪。輻射到華北、華中、東北、西北四個地區(qū)3 0 余 個城市的8 0 余家大型零售、批發(fā)企業(yè)。目前正選擇地理位置優(yōu)越,交通便利的 區(qū)域,建立商品集散基地,發(fā)展品牌的跨省市分銷,跨區(qū)域代理。 2 1 2 朝批數(shù)據(jù)倉庫可行性分析 朝批商貿(mào)有限公司與北京工業(yè)大學(xué)計算機學(xué)院合作,開發(fā)管理信息系統(tǒng), 利用先進的計算機管理手段,再造業(yè)務(wù)流程,有效控制商流、物流、資金流、 信息流。第一期工程的企業(yè)內(nèi)部的管理信息系統(tǒng)( o l t p ) 已經(jīng)投入運行,效果良 好,大大提高了企業(yè)的管理水平,為企業(yè)帶來了巨大的經(jīng)濟效益。 同時朝批的領(lǐng)導(dǎo)層已經(jīng)認識到,要想在激烈的市場競爭中取得優(yōu)勢,必須 北京工業(yè)大學(xué)工學(xué)碩士學(xué)位論文 建立企業(yè)的數(shù)據(jù)倉庫系統(tǒng),來為企業(yè)提供決策支持的服務(wù),這為朝批的數(shù)據(jù)倉 庫的建設(shè)提供了動力。 朝批現(xiàn)在的數(shù)據(jù)庫是采用的o r a c l e8 i ,數(shù)據(jù)庫中已經(jīng)有了自從2 0 0 0 年以 來所有的公司的業(yè)務(wù)數(shù)據(jù),具備構(gòu)建朝批的數(shù)據(jù)倉庫系統(tǒng)的物質(zhì)基礎(chǔ)。當(dāng)前綜 合查詢的操作是在0 l t p 系統(tǒng)中的,當(dāng)運行比較大的查詢的時候會同業(yè)務(wù)系統(tǒng)競 爭數(shù)據(jù)庫資源,這也客觀上要求建設(shè)數(shù)據(jù)倉庫系統(tǒng)。 基于以上幾點,我們認為建立朝批數(shù)據(jù)倉庫系統(tǒng)條件已經(jīng)成熟 2 1 3 朝批數(shù)據(jù)倉庫的需求分析 建立朝批數(shù)據(jù)倉庫系統(tǒng)是為了滿足朝批總公司和各個分公司越來越多、越 來越復(fù)雜的統(tǒng)計、分析、預(yù)測需求。它在保持現(xiàn)有0 l t p 應(yīng)用系統(tǒng)功能的基礎(chǔ)上, 充分利用朝批業(yè)務(wù)系統(tǒng)的各種數(shù)據(jù)源,包括總公司業(yè)務(wù)數(shù)據(jù)、分公司的業(yè)務(wù)數(shù) 據(jù)和倉庫的業(yè)務(wù)數(shù)據(jù)等,對其進行面向決策的數(shù)據(jù)重組,將其轉(zhuǎn)移到數(shù)據(jù)倉庫 中。并在該數(shù)據(jù)倉庫的基礎(chǔ)上建立面向最終用戶的基于數(shù)據(jù)倉庫的決策支持系 統(tǒng)。 朝批計算機管理信息系統(tǒng)( c p m i s ) 是傳統(tǒng)m i s ( 管理信息系統(tǒng)) 的擴展, 包含了e r p ( 企業(yè)資源計劃) 、c 跚( 客戶關(guān)系管理) 和s c m ( 供應(yīng)鏈管理) 系統(tǒng) 的先進管理理念、模式和功能。系統(tǒng)設(shè)計強調(diào)協(xié)同性和連接性,通過基于企業(yè) 內(nèi)部e r p 的開放電子商務(wù)平臺,把上下游企業(yè)通過價值鏈整合在一起。企業(yè)e r p 系統(tǒng)主要通過商品銷售管理、商品采購管理、商品倉儲運輸統(tǒng)一管理、財務(wù)統(tǒng) 一核算管理實現(xiàn)對商流、物流、資金流的有效控制,通過電子商務(wù)平臺上的c r m 和s c m 實現(xiàn)企業(yè)內(nèi)部流程與外部交易的整合,使朝批與客戶、供貨商實現(xiàn)跨平 臺、跨時間、跨空間的信息共享,服務(wù)快速響應(yīng)和互動營銷,實現(xiàn)真正的電子 交易模式。朝批的系統(tǒng)組成如圖2 1 所示: 第2 章朝批數(shù)據(jù)倉庫需求分析和實施步驟 圖2 1 朝批系統(tǒng)組成圖 f i g 2 1 c 0 n s t r u c t i o nd r 吖i n go fc pe n t e r p r i s ea p p l i c a t i o n 數(shù)據(jù)倉庫是面向決策分析的數(shù)據(jù)庫,我們無法在數(shù)據(jù)倉庫設(shè)計的最初就得 到詳細而明確的需求,我們首先確定朝批數(shù)據(jù)倉庫的基本的方向性的需求。從 朝批系統(tǒng)的組成來看可以把數(shù)據(jù)倉庫分成四個主題:銷售主題、采購主題、物 流主題和財務(wù)主題。所謂數(shù)據(jù)倉庫主題是一個在較高層次將數(shù)據(jù)歸類的標準, 每一個主題對應(yīng)一個宏觀的分析領(lǐng)域,針對具體決策需求可細化為多個主題表, 具體來說就是確定決策涉及的范圍和所要解決的問題。但是主題的確定必須建 立在現(xiàn)有管理信息系統(tǒng)基礎(chǔ)上,否則按此主題設(shè)計的數(shù)據(jù)倉庫存儲結(jié)構(gòu)將成為 一個空殼,缺少可存儲的數(shù)據(jù)o ”。 其中銷售主題是對于朝批企業(yè)最重要的主題。商業(yè)批發(fā)企業(yè)最基本的業(yè)務(wù) 就是銷售商品給客戶,企業(yè)一切活動都是為了更好的服務(wù)客戶。公司的經(jīng)營 北京工業(yè)大學(xué)工學(xué)碩士掌位論文 昔對于決策支持最迫切的需求在于:把握客戶銷售總體情況,分析銷售市場波 動趨勢,為批發(fā)企業(yè)進貨,庫存,企業(yè)人員業(yè)績考核提供依據(jù),掌握市場的發(fā) 展趨勢以供朝批總公司和分公司制定長期的營銷戰(zhàn)略。 朝批數(shù)據(jù)倉庫的系統(tǒng)設(shè)計采取了增量迭代開發(fā)的方法,首先基于銷售主題 設(shè)計數(shù)據(jù)倉庫系統(tǒng)的整體結(jié)構(gòu),確定數(shù)據(jù)倉庫邏輯模式和物理模式,在反饋和 循環(huán)中逐漸建立其他分析主題。這里我以銷售主題為例說明朝批數(shù)據(jù)倉庫系統(tǒng) 的需求分析。銷售主題可以細分成如下的業(yè)務(wù)主題: 客戶主題需求包括 不同類別客戶銷售情況分析、掌握對公司利潤貢獻較大的客戶組成、 客戶可信度和外欠情況分析、客戶服務(wù)質(zhì)量和投訴分析等 外勤主題需求包括 外勤銷售商品的業(yè)績考核、外勤銷售外欠情況分析、外勤銷售推銷 月報和同期比較。 商品主題需求包括 商品的市場需求分析、不同季節(jié)商品供需變化、商品促銷活動分析、 不同類別客戶對于商品需求特點分析。 2 2 朝批數(shù)據(jù)倉庫系統(tǒng)設(shè)計實施步驟 數(shù)據(jù)倉庫系統(tǒng)是一種解決問題的過程,而不是一個可以買到的現(xiàn)成的產(chǎn)品。 數(shù)據(jù)倉庫是在現(xiàn)存數(shù)據(jù)庫系統(tǒng)基礎(chǔ)上進行開發(fā),著眼于有效的抽取、綜合、集 成和挖掘已有數(shù)據(jù)庫的數(shù)據(jù)資源,服務(wù)于企業(yè)高層領(lǐng)導(dǎo)管理決策分析需要“。 朝批數(shù)據(jù)倉庫系統(tǒng)設(shè)計步驟具體如圖2 2 所示: 第2 章朝批數(shù)據(jù)倉庫需求分析和實施步驟 圖2 2 數(shù)據(jù)倉庫設(shè)計步驟 f i g2 2 t h ed e s i g n i n gp r o c e s so fd 8 t aw a r e h o u s e 1 需求分析 首先進行數(shù)據(jù)倉庫的需求分析,確定系統(tǒng)要解決問題的范圍。 2 技術(shù)準備工作 通過數(shù)據(jù)倉庫系統(tǒng)技術(shù)評估,建立數(shù)據(jù)倉庫工程的目標和計劃。選擇 實現(xiàn)數(shù)據(jù)倉庫的體系結(jié)構(gòu)和軟硬件資源,包括開發(fā)平臺,d b m s ,網(wǎng)絡(luò)通信 和開發(fā)工具等。 3 建立第一個主題域,在反饋和循環(huán)中逐漸建立其它主題域 最初,只使用一部分數(shù)據(jù)來生成第一個主題域。原因在于,只建立一 北京工業(yè)大學(xué)工學(xué)碩士學(xué)位論文 個主題域使得設(shè)計人員能夠輕易且迅速地對已做工作進行調(diào)整,而且能夠 盡早地實施數(shù)據(jù)倉庫的應(yīng)用。這樣,既可以在經(jīng)濟上最快地得到回報,又 能夠通過最終用戶的使用發(fā)現(xiàn)問題并提出新的需求,然后反饋給設(shè)計人員。 設(shè)計人員繼續(xù)對系統(tǒng)改進、擴展,將更多的主題域加入到數(shù)據(jù)倉庫中。經(jīng) 過這樣一個不斷的反饋過程,數(shù)據(jù)倉庫就逐漸建立起來了。 4 建立數(shù)據(jù)倉庫的數(shù)據(jù)模型 針對每一個選定的主題域,進行數(shù)據(jù)倉庫的邏輯模型和物理模型設(shè)計 通過數(shù)據(jù)倉庫的模型的設(shè)計,我們可以得到企業(yè)完整而清晰的描述信息。 5 數(shù)據(jù)倉庫生成 定義數(shù)據(jù)倉庫元數(shù)據(jù)。元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù),類似傳統(tǒng)數(shù)據(jù)庫中 的數(shù)據(jù)字典。利用元數(shù)據(jù)能有效地管理數(shù)據(jù)倉庫。然后通過數(shù)據(jù)提取的過 程生成數(shù)據(jù)倉庫結(jié)構(gòu)。 6 數(shù)據(jù)倉庫的運行維護 數(shù)據(jù)倉庫建立之后,一方面,各個級別的最終用戶,從企業(yè)的決策人 員、中級管理人員到普通的職員,都使用數(shù)據(jù)倉庫進行決策或者分析。 同 時,用戶將使用情況和新的需求意見反饋給開發(fā)人員,開發(fā)人員對數(shù)據(jù)倉 庫系統(tǒng)進行相應(yīng)的改進“。另一方面,數(shù)據(jù)倉庫管理人員負責(zé)數(shù)據(jù)倉庫維 護工作包括追加數(shù)據(jù)、制定數(shù)據(jù)倉庫安全措施等工作。 2 3 本章小結(jié) 本章從分析朝批公司概況和朝批信息管理系統(tǒng)情況入手,提出了朝批數(shù)據(jù) 倉庫的四個基本主題,分別是:銷售主題、采購主題、物流主題和財務(wù)主題。 其中銷售主題是對于朝批企業(yè)最重要的主題。在文章中對銷售主題進行了具體 的需求分析。最后提出了朝批數(shù)據(jù)倉庫的具體實施步驟。 第3 章朝批數(shù)據(jù)倉庫的系統(tǒng)設(shè)計 第3 章朝批數(shù)據(jù)倉庫的系統(tǒng)設(shè)計 3 1 朝批數(shù)據(jù)倉庫的技術(shù)環(huán)境 建立朝批數(shù)據(jù)倉庫系統(tǒng)是為了滿足朝批總公司和各個分公司越來越多、越 來越復(fù)雜的統(tǒng)計、分析、預(yù)測需求。我們根據(jù)朝批數(shù)據(jù)倉庫的需求和企業(yè)的實 際情況確定了數(shù)據(jù)倉庫系統(tǒng)的技術(shù)環(huán)境。 軟件平臺 數(shù)據(jù)倉庫系統(tǒng)的操作系統(tǒng)采用u n i x 咖e7 1 1 企業(yè)版支持雙 c p u ,數(shù)據(jù)庫d b m s 采用o r a c l e8 1 7 企業(yè)版。w 曲服務(wù)器的 操作系統(tǒng)采用晰n d o w s2 0 0 0s e n 慣。內(nèi)部決策支持和綜合查詢系統(tǒng)采 用p o w e 國u j l d e f6 o 開發(fā),基于h l 把m e t 的決策支持系統(tǒng)w 曲d s s 的開發(fā)使用j a g u a rc t s 作為中間件應(yīng)用服務(wù)器,m n d o w s s5 o 作 為w r e b 服務(wù)器, p o w e r b 試l d e r8 ow 曲作為開發(fā)工具。c o g n o s 的 i m ”o 呻t u 、t r a n s f o r m e r 和p o w e r p l a y 作為o l a p 工具。 硬件平臺 數(shù)據(jù)庫服務(wù)器采用i b me s e r i e sx 2 5 0 ( u n i x 服務(wù)器) ,應(yīng)用服務(wù) 器和w e b 服務(wù)器采用i b m 刀片式服務(wù)器x s c r i e s 3 0 0 ( 8 6 7 2 ) 。 網(wǎng)絡(luò)設(shè)備 d l i n k3 6 2 4 系列交換機,s o n i c w a n 防火墻 3 2 朝批數(shù)據(jù)倉庫的體系結(jié)構(gòu) 如圖3 一l 所示。朝批數(shù)據(jù)倉庫系統(tǒng)中,數(shù)據(jù)倉庫分為三個部分:源數(shù)據(jù)層、 數(shù)據(jù)倉庫層、表現(xiàn)層。 源數(shù)據(jù)層 數(shù)據(jù)倉庫層表現(xiàn)層 圖3 一l 朝批數(shù)據(jù)倉庫體系結(jié)構(gòu) f i g 3 1t h ea r c h i t e c t u r eo ft h ec h a o p id a t aw a r e h o u s e 源數(shù)據(jù)層:是數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ),是整個系統(tǒng)的數(shù)據(jù)源泉。通常包括 企業(yè)內(nèi)部信息和外部信息。內(nèi)部信息包括存放于r d b m s 中的各種業(yè)務(wù)處 理數(shù)據(jù)( 包括歷史數(shù)據(jù)) 和各類文檔數(shù)據(jù)。外部信息主要是數(shù)據(jù)交換數(shù) 據(jù)包括文本、蹦l 文件等。 第3 章朝批數(shù)據(jù)倉厙的系統(tǒng)設(shè)計 數(shù)據(jù)倉庫層:是整個數(shù)據(jù)倉庫系統(tǒng)的核心。數(shù)據(jù)倉庫的真正關(guān)鍵是數(shù)據(jù) 的存儲和管理“。朝批數(shù)據(jù)倉庫系統(tǒng)中,數(shù)據(jù)倉庫分為兩部分:粒度較 低的全局數(shù)據(jù)倉庫c p d w 和粒度較高多維數(shù)據(jù)模型( c u b e 多維立方體) 。 其中,c p d w 采用基于關(guān)系數(shù)據(jù)庫( 0 r a c l e ) 的星型模型建模。多維數(shù)據(jù) 模型則采用c o g n o s 公司t r a n s f o r m e r 工具建立。我們采取這個結(jié)構(gòu)的原 因是我們可以基于這個全局數(shù)據(jù)倉庫c p d w ,使用p b 8 o 自主開發(fā)基于 w e b 的決策支持系統(tǒng)。也可以利用這個全局數(shù)據(jù)倉庫,使用第三方數(shù)據(jù) 倉庫產(chǎn)品例如c o g n o s 公司數(shù)據(jù)倉庫產(chǎn)品建立多維數(shù)據(jù)模型。因為這個 全局數(shù)據(jù)倉庫經(jīng)過了數(shù)據(jù)的集成和綜合,第三方的數(shù)據(jù)倉庫產(chǎn)品可以在 此基礎(chǔ)上直接建立多維數(shù)據(jù)模型,不用再同源數(shù)據(jù)層的數(shù)據(jù)打交道。 表現(xiàn)層:主要包括各種報表工具、查詢工具、多維數(shù)據(jù)分析工具以及各 種基于數(shù)據(jù)倉庫的應(yīng)用開發(fā)工具。我們綜合查詢和報表工具使用p b 6 0 開發(fā),多維分析o l a p 采用c o g n o s 公司的產(chǎn)品p o w e r p l a y 。同時利用 s y s b a s e 公司提供的j a g u a rc t s 做應(yīng)用服務(wù)器,使用p a w e r b u i l d e r 8 o w e b 開發(fā)基于w e b 的決策支持系統(tǒng)。 3 30 l a p 多維模型 3 3 1o l a p 基本概念 下面以圖3 2 為例解釋一下o l a p 中的一些基本概念。 北京工業(yè)大學(xué)工學(xué)碩士學(xué)位論文 客戶編碼 0 3 0 0 0 2 0 0 0 1 0 0 ( 萬元) 1234時間( 月) 圖3 2 多維立方體 f i g 3 2t h e 皿u h i d i m e n s i o n a lc u b e 變量 變量是數(shù)據(jù)的實際意義,即描述數(shù)據(jù)“是什么”。例如:圖3 2 中數(shù)字 “2 0 ”本身的含義是不確定的,它可能是個學(xué)校的學(xué)生人數(shù),也可能是 一個商店的銷售金額等等。只有當(dāng)我們?yōu)樗付虽N售金額變量后,“2 0 ” 才有了具體含義。變量是一個數(shù)值度量指標,如:銷售金額,而“2 0 ”則 是銷售金額變量的一個具體的值。 維 維是人們觀察數(shù)據(jù)的特定角度。例如:批發(fā)企業(yè)通常關(guān),心不同客戶的 銷售情況,所以客戶就是一個維。批發(fā)企業(yè)同樣關(guān)心不同商品的銷售情況, 這時是從商品的角度來觀察銷售,所以商品也是一個維。 維的層次 人們觀察數(shù)據(jù)的某個特定角度( 即某個維) 還可以存在細節(jié)程度不同 的多個描述方面,我們稱這多個描述方面為維的層次。一個維往往具有多 。,。呈二些邕耋暨鍪翟鎏二。 個層次,例如:一個表示時間的維,可以從年、月、日等不同層次來描述, 即:將時間維劃分為年、月、日三個層次。 維成員 維的一個取值稱為該維的一個維成員。如果一個維是多層次的,那么 該維的維成員是在不同維層次的取值的組合。例如:我們考慮時間維具有 年、月、日這三個層次,分別在年、月、日上各取一個值組合起來,就得 到了時間維的一個維成員,即“某年某月某目”。一個維成員并不一定在每 個維層次上都要取值,即可有“某年某月”、“某月某日”、“某年”這樣的 取值。 多維數(shù)組 一個多維數(shù)組可以表示為:( 維l ,維2 ,維3 ,維n ,變量) 。 例如:圖3 2 所示商品銷售數(shù)據(jù)是按客戶、時間、商品組織起來的三維立 方體,加上變量“銷售額”,就組成了一個多維數(shù)組( 客戶,時間,商品, 銷售額) 。 數(shù)據(jù)單元( 單元格) 多維數(shù)組的取值稱為數(shù)據(jù)單元。當(dāng)多維數(shù)組的各個維都選中個維成 員,這些維成員的組合就唯一確定了一個變量的值。那么數(shù)據(jù)單元就可以 表示為:( 維l 維成員,維2 維成員,維n 維成員,變量值) 。例如: 我們在圖3 2 中分別取客戶、時間、商品的維成員“0 3 0 0 ”、“4 月”、 “l(fā) 0 0 1 0 0 1 0 ”,就唯一確定了變量“銷售額”的值為“2 0 ”萬元,則該數(shù)據(jù) 單元可表示為:( 0 3 0 0 ,4 月,1 0 0 1 0 0 1 0 ,2 0 ) 。 多維分析 是指對以多維形式組織起來的數(shù)據(jù)采取上鉆、下鉆、切片、切塊、旋 轉(zhuǎn)等各種分析動作,以求剖析數(shù)據(jù),使最終用戶能從多個角度、多側(cè)面地 觀察數(shù)據(jù)庫中的數(shù)據(jù),從而深入地了解包含在數(shù)據(jù)中的信息、內(nèi)涵“。 北京工業(yè)大學(xué)工學(xué)碩士學(xué)位論文 3 3 2 0 l a p 實現(xiàn)方式 目前o l a p 有兩種實現(xiàn)方式:一種是建立在真正的多維數(shù)據(jù)庫基礎(chǔ)上,以多 維方式組織、存儲數(shù)據(jù);另一種是利用現(xiàn)有的關(guān)系數(shù)據(jù)庫技術(shù)來模擬多維數(shù)據(jù) 存儲“”。 3 3 2 1 基于多維數(shù)據(jù)庫的0 l a p 實現(xiàn) m o l a p ( m u “t d i m e n s i o no l a p ) 是建立在真正的多維數(shù)據(jù)庫基礎(chǔ)上,以多 維方式組織、存儲數(shù)據(jù)。多維數(shù)據(jù)庫可以直接地表現(xiàn)現(xiàn)實世界中“一對多”和 “多對多”的關(guān)系。如下表所示以各部門的商品銷售數(shù)據(jù)存儲為例,展示了關(guān) 系數(shù)據(jù)庫和多維數(shù)據(jù)庫不同的數(shù)據(jù)組織形式。不難看出,關(guān)系數(shù)據(jù)庫采用關(guān)系 表來表達某部門某月的銷售額,而多維數(shù)據(jù)庫中的數(shù)據(jù)組織形式采用了二維矩 陣的形式。顯然,二維矩陣比關(guān)系表表達更清晰而且占用的存儲更少“”。如表 3 一l 所示: 表3 1 關(guān)系存儲模式和多維存儲模式對比 t a b l e3 - 1 協(xié)ec o m p 撕s o no f r e l 撕o nm o d e l 卸dt l l em u m m m 鋤s i a 1m o d e l 關(guān)系存儲模式( a ) 部門月份銷售額 o o l o2 0 0 0 0 lz 7 5 3 9 1 。8 6 0 0 1 02 0 0 0 0 23 1 2 6 8 9 2 7 0 0 2 02 0 0 0 0 12 9 3 6 5 8 0 8 0 0 2 02 0 0 0 0 23 5 2 6 9 2 1 8 0 0 3 02 0 0 0 0 11 1 2 5 8 9 2 5 0 0 3 02 0 0 0 0 21 3 2 6 2 4 3 0 第3 章朝批數(shù)據(jù)倉庫的系統(tǒng)設(shè)計 多維數(shù)據(jù)存儲( b ) 2 0 0 0 0 12 0 0 0 0 22 0 0 0 0 32 0 0 0 0 4 0 0 1 02 7 5 3 9 1 8 63 1 2 6 8 9 2 7 0 0 2 02 9 3 6 5 8 0 83 5 2 6 9 2 1 8 0 0 3 01 1 2 5 8 9 2 51 3 2 6 2 4 3 0 多維數(shù)據(jù)庫是由許多經(jīng)過壓縮的、類似于數(shù)組的對象構(gòu)成,這種對象通常 帶有高度壓縮的索引及指針結(jié)構(gòu)。每個對象由匯集成組的單元塊組成,每個單 元塊都類似于多維數(shù)組的結(jié)構(gòu)存儲,并通過直接偏移計算進行存取。 3 3 2 2 基于關(guān)系數(shù)據(jù)庫的0 l a p 實現(xiàn) 基于關(guān)系數(shù)據(jù)庫的0 l a p 通常采用星型模式模擬多維數(shù)據(jù)的表示和存儲。在 星型模式中有兩類表:一類是存儲事實的量度( m e a s u r e ) 值和各維關(guān)鍵字值的 事實表;另一類是保存維屬性的維表。每一個維表通過一個關(guān)鍵字直接與事實 表關(guān)聯(lián)。如下圖3 3 所示: 商品維 商品編碼 品名規(guī)格 商品分類 商品品牌 商品銷售 日期 商品編碼 部門編碼 銷售單價 銷售數(shù)量 銷售金額 部門編碼 日 期 圖3 3r o l a p 星型模式 f i g 3 3t h er o l a ps t a rs c h e m a 部門維 部門編碼 部門名稱 部門地址 時間維 日期 北京工業(yè)大學(xué)工學(xué)碩士學(xué)位論文 圖3 3 中商品銷售表為事實表,并包含了三個維表:商品維表、部門維表 和時間維表。在銷售事實表中存儲著商品維表、部門維表和時間維表的主碼: “商品編碼”、“部門編碼”和“日期”。這樣,通過這三個維表的主碼,就將事 實表與維表連接在一起,形成了“星型模型”,完全用二維關(guān)系表示了數(shù)據(jù)的多 維概念。 星型模式很容易構(gòu)造復(fù)雜的查詢語句并且支持決策支持系統(tǒng)中向下挖掘式 的分析。通過維表的主碼,對事實表和每一個維表做連接操作,一次查詢就可 以得到數(shù)據(jù)的值以及對數(shù)據(jù)的多維描述( 即對應(yīng)各維上的維成員) 。該方式使用 戶及分析人員可以用商業(yè)名詞( 元數(shù)據(jù)名或標記) 來描述一個需求,然后該需 求被重新翻譯成每一個維的代碼或值。 雪花模式是星型模式的一種擴展形式,主要是用來解決星型模式中復(fù)雜的 維表的數(shù)據(jù)冗余問題。雪花模式與星型模式的區(qū)別在于:星型模式中一維對應(yīng) 一張維表;雪花模式一維可對應(yīng)多張維表“o 。 3 4 朝批數(shù)據(jù)倉庫的建模 朝批數(shù)據(jù)倉庫是建立在關(guān)系數(shù)據(jù)庫o r a c l e 基礎(chǔ)之上的,所以數(shù)據(jù)倉庫的設(shè) 計中采用的邏輯模型就是關(guān)系聯(lián)機分析模型r o l a p ?;陉P(guān)系的星型模

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論