談談聯機分析處理_第1頁
談談聯機分析處理_第2頁
談談聯機分析處理_第3頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、關于數據倉庫與聯機分析處理的概述一、數據倉庫及數據庫的概念及其特點1、數據倉庫的概念及其特點“什么是數據倉庫?”這恐怕是每一個剛剛開始接觸數據倉庫的技術人員都會提出的 一個問題。 有人認為數據倉庫就是一個大的數據庫, 也有人認為數據倉庫是一項數據管理和 分析的技術。這些定義都從一定的側面反映了數據倉庫的概念,但并不全面。目前,業(yè)界公認的數據倉庫定義是由數據倉庫之父 W.H.Inmon 在 Building the Data Warehouse一書中給出:“數據倉庫是面向主題的、集成的、隨時間變化的、穩(wěn)定的數據集 合,用以支持管理中的決策制定過程。 ”正如 Inmon 所描述的,數據倉庫具有如下

2、特點:(1) 數據倉庫的數據是面向主題的 與傳統(tǒng)數據庫面向應用進行數據組織的特點相對應, 數據倉庫中的數據是面向主題進行組織的。所謂主題, 是指在較高層次上將企業(yè)信息系統(tǒng)中的數據綜合、 歸類并進行分析利用 的抽象。在邏輯意義上,它是對應企業(yè)中某一宏觀分析領域所涉及的分析對象。(2) 數據倉庫的數據是集成的 建立數據倉庫的主要目的就是為用戶提供易于訪問的商業(yè)信息。 為了減少用戶查詢的響應時間,應該把數據從數據源中提取出來,放到數據倉庫中去。在數據進入數據倉庫之前, 必須經過加工和集成,使原始數據結構做一個從面向應用到面向主題的大轉變。(3) 數據倉庫的數據是不可更新的 數據倉庫的數據主要供企業(yè)決

3、策分析之用,所涉及的數據操作主要是數據查詢,一般情況下并不進行修改操作。數據倉庫的數據不可更新使得數據倉庫管理系統(tǒng)DWMS 相比數據庫管理系統(tǒng) DBMS 而言要簡單得多,同時也使我們可以對數據倉庫進行最大限度的性能優(yōu) 化。(4) 數據倉庫的數據是隨時間不斷變化的 數據倉庫中的數據不可更新是針對應用來說的,也就是說,數據倉庫的用戶進行分析處理時是不進行更新操作的。 但并不是說, 在從數據集成輸入數據倉庫開始到最終被刪除的整 個數據生存周期中, 所有的數據倉庫數據都是永遠不變的。 數據倉庫會隨時間的變化不斷增 加新的數據內容和刪去過時的數據內容。當然,數據倉庫通常還具有一些其它的特點, 如數據倉庫

4、中的數據量很大、 數據倉庫對 系統(tǒng)軟硬件的要求較高等等。2、數據倉庫與數據庫的關系及比較傳統(tǒng)的數據庫作為數據管理的手段, 主要面向一個或一組記錄的查詢和修改, 為企業(yè)的 特定應用服務, 人們關心的是響應時間、 數據的安全性和完整性。 為此要求數據庫提供完善 的數據鎖、事務日志和并發(fā)控制等機制,以便安全可靠地處理具體業(yè)務。數據倉庫是在數據庫基礎之上發(fā)展起來的, 數據倉庫的作用就是為復雜的數據分析和高 層決策提供支持。 盡管現有的數據倉庫大多還是采用傳統(tǒng)的關系數據庫或改進后的關系數據 庫來實現, 但由于兩者面向的應用截然不同, 因此不管是在數據模型的設計上還是在數據的 物理組織上都存在著相當大的差

5、異,如表 1 所示。表1數據倉庫與數據庫的對比表對比內容數據倉庫數據庫數據目標分析應用面向業(yè)務操作程序、重復處理數據內容歷史的、綜合的、提煉的數據當前細節(jié)數據數據特征相對穩(wěn)定動態(tài)更新數據組織面向主題面向應用數據有效性代表歷史的數據存取時準確訪問特點分析驅動(訪問路徑靈活多變)事務驅動(訪問路徑相對固定)數據訪問量一次操作數據量大一次操作數據量小使用頻率中到低高響應時間要求數秒或數分鐘以上秒級、基于數據倉庫的決策支持系統(tǒng)自從Inmon首次提出數據倉庫概念以后,數據倉庫及其相關技術日益成熟,客觀上帶動了高性能和并行技術以及數據庫中的知識發(fā)現等多領域的巨大進步。數據庫技術的發(fā)展和激烈的市場競爭為解決

6、DSS問題提供了可能,人們開始提出了以數據倉庫為基礎、OLAP和數據挖掘工具為手段的一整套可操作、可實施的解決方案。以數據倉庫為核心的決策支持系統(tǒng)的結構如圖1所示。管理 工 具/、圖1基于數據倉庫的決策支持系統(tǒng)的結構數據庫、數據倉庫和共用數據接口是系統(tǒng)的數據管理部分,構成了整個系統(tǒng)的核心和基礎,為上層應用提供數據。方法庫、模型庫、知識庫、數據挖掘工具、多維分析工具(OLAP工具)和統(tǒng)計查詢工具共同構成了前端分析工具層,相互配合協(xié)調,完成用戶的決策處理任務。管理工具主要完成系統(tǒng)的模型維護、數據倉庫元數據管理、數據提取任務的管理等任務。在這種新的DSS構架中,數據倉庫、OLAP、數據挖掘和數據可視

7、化技術具有內在的統(tǒng)一性,很好地解決了相互之間的銜接問題。數據倉庫為OLAP和數據挖掘提供充實可靠的數據,數據挖掘所發(fā)現的知識可以用于指導OLAP的多維分析,而 OLAP分析得出的新知識也可以補充到系統(tǒng)的知識庫中。如下圖:數據倉庫與OLAP的關系。第三懇第二層第一層客戶端數據抽脫就維化處理這種新的DSS構架的重要意義在于重新揭示了信息的本質,表明了信息系統(tǒng)的設計觀 念從處理驅動到數據驅動的轉變。過去的信息系統(tǒng)以大量復雜的處理過程和算法為特征,數據在這些處理中產生。而在未來的時代,信息的重點將轉移到數據模式分析,信息處 理技術將隨數據分析處理的需求而不斷進步。三、聯機分析處理(OLAP )概述聯機

8、分析處理,英文名稱為On-Li ne An alysis Process ing,簡寫為。隨著數據庫技術的發(fā)展和應用,數據庫存儲的數據量從20世紀80年代的兆(M )字節(jié)及千兆(G)字節(jié)過渡到現在的兆兆(T)字節(jié)和千兆兆( P )字節(jié),同時,用戶的查詢需求也越來越復雜,涉及的已不僅是查詢或操縱一張關系表中的一條或幾條記錄,而且要對多 張表中千萬條記錄的數據進行數據分析和信息綜合,關系數據庫系統(tǒng)已不能全部滿足這一要求。操作型應用和分析型應用,特別是在性能上難以兩全,人們常常在關系數 據庫中放寬了對冗余的限制,引入了統(tǒng)計及綜合數據,但這些統(tǒng)計綜合數據的應用邏 輯是分散而雜亂的、非系統(tǒng)化的,因此分析

9、功能有限,不靈活,維護困難。在國外, 不少軟件廠商采取了發(fā)展其前端產品來彌補關系數據庫管理系統(tǒng)支持的不足,他們通過專門的數據綜合引擎,輔之以更加直觀的數據訪問界面,力圖統(tǒng)一分散的公共應用 邏輯,在短時間內響應非數據處理專業(yè)人員的復雜查詢要求。1993年,E.F.Codd (關系數據庫之父)將這類技術定義為聯機分析處理”。聯機分析處理是共享多維信息的、針對特定問題的聯機數據訪問和分析的快速軟件技術。它通過對信息的多種可能的觀察形式進行快速、穩(wěn)定一致和交互性的存取, 允許管理決策人員對數據進行深入觀察。決策數據是多維數據,多維數據就是決策的 主要內容。OLAP專門設計用于支持復雜的分析操作,側重對

10、決策人員和高層管理人 員的決策支持, 可以根據分析人員的要求快速、靈活地進行大數據量的復雜查詢處理,并且以一種直觀而易懂的形式將查詢結果提供給決策人員,以便他們準確掌握企業(yè)(公司)的經營狀況,了解對象的需求,制定正確的方案。聯機分析處理具有靈活的分析功能、直觀的數據操作和分析結果可視化表示等突出優(yōu)點,從而使用戶對基于大量復雜數據的分析變得輕松而高效,以利于迅速做出正確判斷。它可用于證實人們提出的復雜的假設,其結果是以圖形或者表格的形式來表示的對信息的總結。它并不將異常信息標記出來,是一種知識證實的方法。它可以根 據分析人員的要求,迅速靈活地對當量的數據進行復雜的查詢處理,并以直觀的容易 理解的

11、形式將查詢結果提供給各種決策人員,使他們能夠迅速準確地掌握企業(yè)的運營情況,了解市場的需求。OLAP具有兩個重要的特點:一是在線性,體現為對用戶請求的快速響應和交互式操 作;二是多維分析,也就是說,OLAP展現在用戶面前的是一個多維視圖,使用者可以對其進行各種多維分析操作。下面我們具體介紹OLAP的多維分析特性。在實際的決策制定過程中, 決策者需要的不是某一指標單一的值,而是希望從多個角度或者從不同的考察范圍來觀察某一指標或多個指標,通過分析對比,從而找出這些指標間隱藏的內在關系,并預測這些指標的發(fā)展趨勢,即決策所需的數據總是和一些分析角度和分析指標有關。OLAP的主要工作就是將數據倉庫中的數據

12、轉換到多維數據結構中,并且對上述多維數據結構執(zhí)行有效且非常復雜的多維查詢。四、OLAP的多維分析以及特性1、基本概念維維是人們觀察數據的特定角度,它是一種高層次的類型劃分。例如,企業(yè)常常關心產品銷售數據隨時間推移而產生的變化情況,這時他是從時間的角度來觀察產品的銷售,所以時間就是一個維(時間維)。(2) 維的層次人們觀察數據的某個特定角度(維)還可以存在細節(jié)程度不同的多個描述方面,我們稱這多個描述方面為維的層次。例如描述時間維時,可以從日、月、季度、年等不同的層次來 描述,那么日、月、季度、年就是時間維的層次。同一維的維層次結構可簡可繁,這主要是因為不同分析應用對數據組織的詳略程度的要 求不同

13、。在某些維中可能存在著完全不同的幾條層次路徑,例如時間維通常存在日歷層次路徑和財政層次路徑,如圖 2所示。圖2時間維的層次路徑圖(3) 維成員維成員是維的一個取值。如果一個維是多層次的,那么該維的維成員是在不同維層次取值的組合。例如,我們考慮時間維具有日、月、年三個層次,那么“2002年12月10日”就構成了時間維的一個維成員。一個維成員并不一定在每個維層次上都要取值,例如,“ 2002年12月”、“ 2002年”都是時間維的維成員。(4) 度量度量是我們需要分析的目標數據,有時也被稱為變量。 例如,用來反映一個企業(yè)經營效益好壞的銷售量、銷售額和庫存量等。(5) 多維數據集多維數據集是 OLA

14、P的核心,有時也稱為立方體或超立方。多維數據集是由一組維和度量組成的,可以用一個多維數組來表示:(維1,維2,維n,度量)。例如,按時間、地區(qū)、專利類型組織起來的專利申請量多維數據集可以表示為:(時間,地區(qū),專利類型,專利申請量)。對于三維數據集我們可采用圖3的可視化方式表達得更清楚。如果我們在上述三維數據集的基礎上再添加申請人類型維,就得到一個四維結構,當然這種維數超過三維的多維數據結構很難用可視化的方式表達清楚。(6)數據單元多維數據集的取值為數據單元。當在多維數據集中的每個維上都選中一個維成員以后,這些維成員的組合就唯一確定了度量的值。數據單元也就可以表示為:(維1成員,維2成員,維n成

15、員,度量值)。例如,在圖2中時間、地區(qū)和專利類型維上分別選取維成 員“1999年”,“北京”,“發(fā)明”,則可以唯一確定觀察度量 “專利申請量”的一個取值2062, 這樣該數據單元可表示為(1999年,北京,發(fā)明,2062)。2、OLAP的多維分析操作多維分析操作是指對以多維形式組織起來的數據采取切片、切塊、旋轉等各種分析操作,以求剖析數據、使最終用戶能從多個角度、多個側面去觀察數據庫中的數據、 從而深入地了 解包含在數據中的信息、內涵。多維分析的基本操作有:(1)切片(Slice )切片操作是在給定的多維數據集的某一個維上選定一維成員,從而得到一個多維數據子集的動作。如果有(維 1,維2,,維

16、i,,維n,度量)多維數據集,對維i選定了某個維成員,那么(維1,維2,維i成員,,維n,度量)就是多維數據集(維 1,維2,,維i,,維n,度量)在維i上的一個切片。對于圖2.4所示的三維數據集,我們選定專利類型維上的一個維成員(設為“發(fā)明”),就得到了在專利類型維上的一個切片,如圖4所示。選定專利類型維的維成員“發(fā)明”時間維專利申請狀況地區(qū)維地區(qū)維發(fā)明專利申請狀況時間維圖4切片很明顯,一次切片使原來的維數減一,所以得到的切片并不一定是二維的“平面”,其維數取決于原來的多維數據集的維數。切塊(Dice )即限制多維數據集的在多維數據集的某一維上選定某一區(qū)間的維成員的操作稱為切塊, 某一維的取

17、值區(qū)間。(3)旋轉(Rotate )旋轉是一種目視操作, 它轉動多維數據集的視角, 提供數據的替代表示。 旋轉操作可以 將多維數據集的不同維進行交換顯示,從而使用戶更加直觀地觀察數據集中不同維之間的關系。圖5的例子是把一個橫向為地區(qū), 縱向為時間和專利類型的報表旋轉成為橫向為時間和 地區(qū),縱向為專利類型的報表。地區(qū)f北京上海將行維交-時間專利類型申請量申請量2000年換為列維2001 年時間-2000年2001 年地區(qū)-北京上海專利類型申請量申請量發(fā)明實用新型外觀設計圖5旋轉鉆?。―rill )鉆取分為向下鉆?。╠rill-down )和向上鉆?。╠rill-up )。下鉆操作是由不太詳細的高

18、層 次匯總數據分解為更詳細的低層次數據。上鉆是下鉆的逆操作,它是通過一個維的概念分層向上攀升,或者通過維歸約,在多維數據集上進行聚集。在圖6中,(a)的例子是對時間維中的維成員“2000年”下鉆以獲取2000年各月的申請量數據。(b)的例子是對按月匯總數據的報表上鉆以獲取按年匯總數據的報表。地區(qū)一北京上海時間4申請量申請量2000年2001 年地區(qū)-北京上海時間4申請量申請量2000年2000年 1 月2000年2月地區(qū)-北京上海時間4申請量申請量2000年 1 月2000年 2 月地區(qū)北京上海時間1申請量申請量2000年2001 年圖6鉆取(5) 其它OLAP操作在OLAP分析操作中,還有鉆

19、過”(drill-across )和鉆透” (drill-through )等。鉆過”涉及多個事實表的查詢;“鉆透”操作使用關系 SQL機制,鉆到多維數據集的底層,到后端關系表。其它的OLAP操作還包括計算統(tǒng)計表中的最高或最低N項、平均值、移動平均值、增長率、各類百分比等。3、多維分析特性1快速性用戶對OLAP的快速反應能力有很高的要求。2. 可分析性.OLAP系統(tǒng)應能處理與應用有關的邏輯與統(tǒng)計分析3. 多維性.多維性是 OLAP的關鍵屬性。系統(tǒng)能夠提供對數據分析的多維視圖和多維 分析。4. 信息型.不論數據量有多大,也不管數據存儲在何處,OLAP系統(tǒng)應能及時獲得信息, 并且管理大容量信息。五

20、、OLAP的12準則準則1: OLAP模型必須提供多維概念視圖。OLAP必須能夠提供多維概念的視圖,從而使分析員能夠從多種角度考查和分析系統(tǒng) (企業(yè))的運營情況。 OLAP必須實現數據切片、切塊、旋轉、鉆取、聚合等基本的數據分 析動作。準則2:透明性準則透明性包括兩層含義,一是 OLAP在體系結構中的位置對用戶是透明的,二是OLAP的數據源對用戶應當是透明的, 用戶只需使用熟悉的查詢工具進行查詢, 而不必關心OLAP 提供的數據是從何處抽取來的。準則3:存取能力準則OLAP系統(tǒng)不僅能進行開放的存取,而且還提供高效的存取策略。準則4:穩(wěn)定的報表性能即當數據維OLAP產品對于數據維數和數據維度層次

21、的增加應當保持比較穩(wěn)定的性能,數和數據維度層次增加時,提供給最終分析員的報表能力和響應速度不應有明顯的降低。準則5:客戶/服務器體系結構OLAP建立在客戶/服務器的體系結構下,服務器端負責數據的抽取、數據存取、數據管理等復雜的功能,客戶端實現較為簡單的應用邏輯和用戶界面。準則6: Genertic dimensionality-維的等同性準則每個數據維度應該具有等同的結構和操作能力準則7:動態(tài)稀疏矩陣處理準則OLAP需要提供高效存取數據的能力,動態(tài)稀疏矩陣處理是實現高效存取的重要技術。該準則包括兩層含義:第一,對任意給定的稀疏矩陣,存在一個最優(yōu)的物理視圖,該視圖能提供最大的內存效率和矩陣處理能

22、力;稀疏度是數據分布的一個特征,不能適應稀疏度要求的數據分布,將會導致快速、高效操作的失效。第二, OLAP工具應當將基本物理數據單元 配置給可能出現的維的子集,同時還需要提供多種動態(tài)可變的存取機制。比如B-Tree索引、散列、直接地址計算或者是多種技術的綜合。使用這些技術的好處是存取速度將不會受數據維度的增減、數據集的大小而發(fā)生大的波動。準則&多用戶支持能力準則多個用戶能夠同時對一個 OLAP分析模型進行并行操作,或者能夠同時在同一個企業(yè) 數據上建立不同的分析模型,為此 OLAP工具應當提供并發(fā)訪問功能,并且需要確保數據 的一致性、完整性和安全性。準則9:非受限的跨維操作在多維數據分析中,所

23、有維的生成和處理都是平等的。如果用戶定義了維度的層次關系,則OLAP產品必須自動地提供相關層次綜合數據的計算方法,而不是要求最終用戶定義計 算的行為。準則10:直觀的數據處理直觀的數據處理要求用戶以直觀易懂的方式對數據進行操作,從而使數據的內涵更容易為用戶所感知。準則11:靈活的報表生成報表的格式可以按照任意維度、任意層次的組合來生成,這實際是對準則1的另一種補 充。準則12:非受限的維與維的層次OLAP工具應當支持不少于 15個維度的數據模型,而且應當讓數據分析人員可以進行透明性準則圖7 OLAP的12準則關系六、OLAP的分類如圖8所示按照不同方式對 OLAP進行的分類:圖8 OLAP的分

24、類MOLAP和ROLAP (關系型聯機分析處理)是目前使用最多的兩種 OLAP技術,由于 它們完全不同的數據表示和存儲方案, 從而導致了兩者在不同方面各有優(yōu)缺點。 下面我們從 三個方面來對它們進行比較:(1) 查詢性能MOLAP的查詢響應一般較快,這主要是因為多維數據庫在裝載數據時,預先做了大量 的計算。而在ROLAP中進行查詢分析,通常要在事實表和維表之間建立復雜的表連接,響 應時間往往難以預計。雖然 ROLAP可以通過構造索引和聚集表來提高響應的速度,但查詢 性能仍然難以預測。(2) 分析能力由于MOLAP能夠清晰地表達 OLAP中的多維數據概念,具有分析的優(yōu)勢。但多維數 據庫作為一種新興

25、技術,還缺乏統(tǒng)一的標準,每個多維數據庫都有自己的專用客戶端接口。 ROLAP由于受到SQL語言的約束,分析效果往往不如MOLAP。用戶的分析請求首先由 ROLAP 服務器轉化為 SQL 語句,再交由 RDBMS 處理, RDBMS 返回的結果通常還需要附 加的應用程序進行多維處理后才返回給用戶。(3)數據存儲和管理MOLAP 以多維數據庫為核心,數據管理主要以維及維成員為主,大多數多維數據庫產 品提供了單元級控制, 數據封鎖可以達到單元級。 這些管理控制均由多維數據庫中的數據管 理層來實現,一般不易繞過。 ROLAP 以傳統(tǒng)的關系數據庫系統(tǒng)為基礎,安全性及存取控制 基于表,封鎖基于表、頁面或行

26、。由于這些同應用中的多維概念不直接相關, ROLAP 工具 必須提供額外的安全及存取控制管理, 并且用戶可能繞過 ROLAP 的安全機制直接訪問數據 庫中的數據。MOLAP 由于數據預處理程度高,隨著維數的增加會使多維數據庫的規(guī)模急劇增長,不 能很好地適應維數的動態(tài)變化。 而 ROLAP 由于充分利用了現有關系數據庫的成熟技術, 預 綜合程度也具有很大的靈活性,處理大數據量和多維數的能力明顯強于 MOLAP 。同樣, 由于 MOLAP 預綜合程度高, 當數據或計算變化頻繁時, 有時還需要重新構建多 維數據庫,因此 MOLAP 所需要的數據加載時間也比較長。相比之下, ROLAP 的數據預處 理程度比較低,數據加載時間也較短,能保持較快的數據刷新周期。從上面的分析中我們可以看出 MOLAP 和 ROLAP 各有優(yōu)缺點, 但它們提供給用戶的分 析功能基本上是一致的。 在設計 OLAP 時,是采用 MOLAP 還是采用 ROLAP 需要根據具體 情況而定, 但應用的規(guī)模是一個主要的因素。 如果需要建立一個大型的、 功能復雜的企業(yè)級 OLAP 應用,最好選擇 ROLAP 。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論