


版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、1 商務(wù)智能1.1 數(shù)據(jù)倉庫1.1.1 數(shù)據(jù)倉庫的 4 大特點(diǎn)(特征)?面向主題的,集成的,相對穩(wěn)定的,反映歷史變化的。1.1.2 數(shù)據(jù)倉庫的四個(gè)層次體系結(jié)構(gòu)?1. 數(shù)據(jù)源 是數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ),是整個(gè)系統(tǒng)的數(shù)據(jù)源泉。通常包括企業(yè)內(nèi)部信息和外部信息。內(nèi) 部信息包括存放于 RDBMS 中的各種業(yè)務(wù)處理數(shù)據(jù)和各類文檔數(shù)據(jù)。外部信息包括各類法 律法規(guī)、市場信息和競爭對手的信息等等;2. 數(shù)據(jù)的存儲與管理 是整個(gè)數(shù)據(jù)倉庫系統(tǒng)的核心。數(shù)據(jù)倉庫的真正關(guān)鍵是數(shù)據(jù)的存儲和管理。數(shù)據(jù)倉庫的組織 管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫,同時(shí)也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。要決定采 用什么產(chǎn)品和技術(shù)來建立數(shù)據(jù)倉庫的核心,
2、則需要從數(shù)據(jù)倉庫的技術(shù)特點(diǎn)著手分析。針對 現(xiàn)有各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進(jìn)行抽取、清理,并有效集成,按照主題進(jìn)行組織。數(shù)據(jù)倉庫按 照數(shù)據(jù)的覆蓋范圍可以分為企業(yè)級數(shù)據(jù)倉庫和部門級數(shù)據(jù)倉庫(通常稱為數(shù)據(jù)集市)3. OLAP服務(wù)器對分析需要的數(shù)據(jù)進(jìn)行有效集成, 按多維模型予以組織, 以便進(jìn)行多角度、 多層次的分析, 并發(fā)現(xiàn)趨勢。其具體實(shí)現(xiàn)可以分為:ROLAP (關(guān)系型在線分析處理)、MOLAP (多維在線分析處理)和HOLAP (混合型線上分析處理)。ROLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放在RDBMS之中;MOLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放于多維數(shù)據(jù)庫中;HOLAP基本數(shù)據(jù)存放于 RDBMS之中,聚合數(shù)據(jù)存放于
3、多維數(shù)據(jù)庫中。4. 前端工具主要包括各種報(bào)表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以數(shù)據(jù)挖掘及各種基于 數(shù)據(jù)倉庫或數(shù)據(jù)集市的應(yīng)用開發(fā)工具。其中數(shù)據(jù)分析工具主要針對OLAP 服務(wù)器,報(bào)表工具、數(shù)據(jù)挖掘工具主要針對數(shù)據(jù)倉庫。1.1.3描述一下聯(lián)機(jī)分析處理OLAP?(維的概念,基本多維操作,層次結(jié)構(gòu),與OLTP的區(qū)別)OLAP(聯(lián)機(jī)分析處理 On-Line Analytical Processing)也叫多維 DBMS。OLAP是數(shù)據(jù)倉庫系統(tǒng)的主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。OLAP 的目標(biāo)是滿足決策支持或者滿足在多維環(huán)境下特定的查詢和報(bào)表需求,它的技術(shù)核
4、心是 " 維"這個(gè)概念?!熬S”是人們觀察客觀世界的角度 ,是一種高層次的類型劃分。 “維”一般包含著層次關(guān)系 ,這種 層次關(guān)系有時(shí)會相當(dāng)復(fù)雜。通過把一個(gè)實(shí)體的多項(xiàng)重要的屬性定義為多個(gè)維 (dimension) ,使用戶能 對不同維上的數(shù)據(jù)進(jìn)行比較。因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。 也叫做多維數(shù)據(jù)集。 一般一個(gè)多維數(shù)據(jù)集可以用一個(gè)立方體的方式進(jìn)行描述。多維數(shù)據(jù)集是聯(lián)機(jī)分析處理 (OLAP) 中的主要對象,是一項(xiàng)可對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行快速訪 問的技術(shù)。多維數(shù)據(jù)集是一個(gè)數(shù)據(jù)集合,通常從數(shù)據(jù)倉庫的子集構(gòu)造,并組織和匯總成一個(gè)由一組 維度和度量值定義的多維結(jié)構(gòu)。每個(gè)多
5、維數(shù)據(jù)集都有一個(gè)架構(gòu),架構(gòu)是數(shù)據(jù)倉庫中已聯(lián)接的各表的集合,多維數(shù)據(jù)集從數(shù)據(jù)倉 庫提取其源數(shù)據(jù)。架構(gòu)中的核心表是事實(shí)數(shù)據(jù)表,事實(shí)數(shù)據(jù)表是多維數(shù)據(jù)集度量值的源。OLAP的基本多維分析操作有鉆取(roll up和drill down )、切片(slice)和切塊(dice )、以及旋 轉(zhuǎn)(pivot )、drill across、drill through等。鉆取是改變維的層次,變換分析的粒度。它包括向上鉆 取( roll up )和向下鉆取( drill down )。 roll up 是在某一維上將低層次的細(xì)節(jié)數(shù)據(jù)概括到高層次的匯 總數(shù)據(jù),或者減少維數(shù);而drill down則相反,它從匯總數(shù)據(jù)
6、深入到細(xì)節(jié)數(shù)據(jù)進(jìn)行觀察或增加新維。切片和切塊是在一部分維上選定值后,關(guān)心度量數(shù)據(jù)在剩余維上的分布。如果剩余的維只有兩個(gè),則 是切片;如果有三個(gè),則是切塊。旋轉(zhuǎn)是變換維的方向,即在表格中重新安排維的放置(例如行列互換)。1.1.4 多維數(shù)據(jù)集為什么顯示有些表即是事實(shí)表又是維度表?退化維度。1.1.5 描述一下粒度?維度? Cube?粒度反映了數(shù)據(jù)倉庫按照不同的層次組織數(shù)據(jù),根據(jù)不同的查詢需要,存儲不同細(xì)節(jié)的數(shù)據(jù)。 在數(shù)據(jù)倉庫中,粒度越小,數(shù)據(jù)越細(xì),查詢范圍就越廣泛。相反,粒度級別越高,表示細(xì)節(jié)程度越 低,查詢范圍越小。1.1.6描述一下ODS,統(tǒng)一數(shù)據(jù)視圖運(yùn)營數(shù)據(jù)存儲(The operatio
7、nal data store, ODS)或稱操作型數(shù)據(jù)存儲是一個(gè)面向主題的、集成 的、當(dāng)前的并且是可 "揮發(fā) "的數(shù)據(jù)集合,它反映了在某一個(gè)時(shí)間切片瞬間,經(jīng)營分析系統(tǒng)和外圍系 統(tǒng)( BOSS、 MIS.)用以相互交換數(shù)據(jù)的集合,主要用于經(jīng)營分析系統(tǒng)與外圍系統(tǒng)關(guān)鍵數(shù)據(jù)一致性 校驗(yàn)、以及經(jīng)營分析系統(tǒng)對其它外圍系統(tǒng)的決策支持?jǐn)?shù)據(jù)的回饋,回饋數(shù)據(jù)包括以客戶擴(kuò)展屬性為 主體的詳細(xì)資料等。運(yùn)營數(shù)據(jù)存儲扮演的是用于數(shù)據(jù)稽核與交互的角色。ODS 的存儲結(jié)構(gòu)是以企業(yè)范圍所有相關(guān)業(yè)務(wù)系統(tǒng)的數(shù)據(jù), 以全面、 統(tǒng)一進(jìn)行關(guān)系型實(shí)體來體現(xiàn) 的,ODS中的數(shù)據(jù)是基于分析主題進(jìn)行組織,而不是基于業(yè)務(wù)系統(tǒng)的
8、功能進(jìn)行組織。ODS只是存儲了當(dāng)前的數(shù)據(jù)且數(shù)據(jù)是“揮發(fā)”性的,因此其數(shù)據(jù)的刷新是很快,過期的數(shù)據(jù)將要被揮發(fā)掉。因此 ODS的存儲量取決于業(yè)務(wù)接口數(shù)據(jù)的抽取與刷新頻率,取決于企業(yè)的服務(wù)客戶的數(shù)量。從ODS的作用和實(shí)現(xiàn)來說,ODS將各個(gè)孤立的業(yè)務(wù)系統(tǒng)的運(yùn)營數(shù)據(jù)集成起來,現(xiàn)成全企業(yè)的統(tǒng)一數(shù)據(jù)視圖,同時(shí)可實(shí)現(xiàn) ODS的數(shù)據(jù)共享。1.1.7 描述一下企業(yè)信息工廠數(shù)據(jù)倉庫領(lǐng)域里,有一種構(gòu)建數(shù)據(jù)倉庫的架構(gòu),叫 Corporate Information Factory ,中文一般翻 譯為“企業(yè)信息工廠” 。企業(yè)信息工廠的創(chuàng)始人是數(shù)據(jù)倉庫之父 Inmon 。企業(yè)信息工廠主要包括集成轉(zhuǎn)換層( I&T )
9、、操作數(shù)據(jù)存儲(ODS)、數(shù)據(jù)倉庫(EDW)、數(shù)據(jù)集 市(DM)、探索倉庫(EW)等部件。這些部件有機(jī)的結(jié)合在一起,為企業(yè)提供信息服務(wù)。集成轉(zhuǎn)換層的目的是將來自操作型源系統(tǒng)的數(shù)據(jù)集成轉(zhuǎn)換到數(shù)據(jù)倉庫中,它通常由一組程序組 成,而其它部件如數(shù)據(jù)倉庫和數(shù)據(jù)集市等則主要由數(shù)據(jù)組成。當(dāng)業(yè)務(wù)數(shù)據(jù)來源多,業(yè)務(wù)復(fù)雜時(shí),集成轉(zhuǎn)換層會建立一些臨時(shí)表,為數(shù)據(jù)處理提供方便。這時(shí),集成轉(zhuǎn)換層包括程序和數(shù)據(jù),也稱數(shù) 據(jù)準(zhǔn)備區(qū)(Data Staging Area)。通常中等規(guī)模及以上的數(shù)據(jù)倉庫系統(tǒng)都會建立數(shù)據(jù)準(zhǔn)備區(qū)。操作數(shù)據(jù)存儲(ODS)是建立在數(shù)據(jù)準(zhǔn)備區(qū)和數(shù)據(jù)倉庫之間的一個(gè)部件。用來滿足企業(yè)集成的、綜合的操作型處理需要。
10、例如,出盡可能實(shí)時(shí)的集成的操作報(bào)表等需求。一般,也稱操作數(shù)據(jù)存儲 是用來滿足企業(yè)戰(zhàn)術(shù)決策的需要。操作數(shù)據(jù)存儲是個(gè)可選的部件。數(shù)據(jù)倉庫是企業(yè)信息工廠的核心部件,用來保存整個(gè)企業(yè)的數(shù)據(jù)。一般,也稱數(shù)據(jù)倉庫是用來 滿足企業(yè)戰(zhàn)略決策的需要。數(shù)據(jù)倉庫的數(shù)據(jù)來自數(shù)據(jù)準(zhǔn)備區(qū)和操作數(shù)據(jù)存儲。數(shù)據(jù)集市是為了滿足企業(yè)特定部門的分析需求而專門建立的數(shù)據(jù)的集合。數(shù)據(jù)集市的數(shù)據(jù)來源 是數(shù)據(jù)倉庫。企業(yè)信息工廠中的數(shù)據(jù)集市一般來說是非規(guī)范化的、定制的和匯總的。而多維體系架 構(gòu)中的數(shù)據(jù)集市分為兩種,分別是原子數(shù)據(jù)集市和聚集數(shù)據(jù)集市。一般來說,企業(yè)信息工廠中的數(shù) 據(jù)集市相當(dāng)于多維體系架構(gòu)中的聚集數(shù)據(jù)集市。1.1.8 數(shù)據(jù)是數(shù)據(jù)
11、集市?數(shù)據(jù)集市中的數(shù)據(jù)具有數(shù)據(jù)倉庫中數(shù)據(jù)的特點(diǎn),只不過數(shù)據(jù)集市專為某一部門或某個(gè)特定商業(yè) 需求定制,而不是根據(jù)數(shù)據(jù)容量命名。數(shù)據(jù)集市面向部門、業(yè)務(wù)單元或特定應(yīng)用,因而規(guī)模較小,便于快速實(shí)現(xiàn),且成本較低,短期 內(nèi)即可獲得明顯效果。數(shù)據(jù)集市的應(yīng)用不僅滿足了部門的數(shù)據(jù)處理需求,而且作為數(shù)據(jù)倉庫的子集 有助于構(gòu)建完整的企業(yè)級數(shù)據(jù)倉庫。1.1.9 元數(shù)據(jù)的定義,元數(shù)據(jù)管理,元數(shù)據(jù)的作用用?數(shù)據(jù)倉庫的元數(shù)據(jù)是關(guān)于數(shù)據(jù)倉庫中數(shù)據(jù)的數(shù)據(jù)。 它的作用類似于數(shù)據(jù)庫管理系統(tǒng)的數(shù)據(jù)字典, 保存了邏輯數(shù)據(jù)結(jié)構(gòu)、文件、地址和索引等信息 。廣義上講,在數(shù)據(jù)倉庫中,元數(shù)據(jù)描述了數(shù)據(jù)倉 庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù)。元數(shù)據(jù)是
12、數(shù)據(jù)倉庫管理系統(tǒng)的重要組成部分,元數(shù)據(jù)管理器是企業(yè)級數(shù)據(jù)倉庫中的關(guān)鍵組件, 貫穿數(shù)據(jù)倉庫構(gòu)建的整個(gè)過程,直接影響著數(shù)據(jù)倉庫的構(gòu)建、使用和維護(hù)。(1)構(gòu)建數(shù)據(jù)倉庫的主要步驟之一是 ETL這時(shí)元數(shù)據(jù)將發(fā)揮重要的作用,它定義了源數(shù)據(jù)系 統(tǒng)到數(shù)據(jù)倉庫的映射、數(shù)據(jù)轉(zhuǎn)換的規(guī)則、數(shù)據(jù)倉庫的邏輯結(jié)構(gòu)、數(shù)據(jù)更新的規(guī)則、數(shù)據(jù)導(dǎo)入歷史記 錄以及裝載周期等相關(guān)內(nèi)容。數(shù)據(jù)抽取和轉(zhuǎn)換的專家以及數(shù)據(jù)倉庫管理員正是通過元數(shù)據(jù)高效地構(gòu) 建數(shù)據(jù)倉庫。( 2)用戶在使用數(shù)據(jù)倉庫時(shí),通過元數(shù)據(jù)訪問數(shù)據(jù),明確數(shù)據(jù)項(xiàng)的含義以及定制報(bào)表。( 3)數(shù)據(jù)倉庫的規(guī)模及其復(fù)雜性離不開正確的元數(shù)據(jù)管理,包括增加或移除外部數(shù)據(jù)源,改 變數(shù)據(jù)清洗方法,
13、控制出錯(cuò)的查詢以及安排備份等。元數(shù)據(jù)可分為技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù) 。技術(shù)元數(shù)據(jù)為開發(fā)和管理數(shù)據(jù)倉庫的 IT 人員使用, 它描述了與數(shù)據(jù)倉庫開發(fā)、管理和維護(hù)相關(guān)的數(shù)據(jù),包括數(shù)據(jù)源信息、數(shù)據(jù)轉(zhuǎn)換描述、數(shù)據(jù)倉庫模 型、數(shù)據(jù)清洗與更新規(guī)則、數(shù)據(jù)映射和訪問權(quán)限等。而業(yè)務(wù)元數(shù)據(jù)為管理層和業(yè)務(wù)分析人員服務(wù), 從業(yè)務(wù)角度描述數(shù)據(jù),包括商務(wù)術(shù)語、數(shù)據(jù)倉庫中有什么數(shù)據(jù)、數(shù)據(jù)的位置和數(shù)據(jù)的可用性等,幫 助業(yè)務(wù)人員更好地理解數(shù)據(jù)倉庫中哪些數(shù)據(jù)是可用的以及如何使用。在數(shù)據(jù)倉庫中, 元數(shù)據(jù)的主要 作用如下。( 1)描述哪些數(shù)據(jù)在數(shù)據(jù)倉庫中,幫助決策分析者對數(shù)據(jù)倉庫的內(nèi)容定位。( 2)定義數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫的方式,作為數(shù)據(jù)匯
14、總、映射和清洗的指南。( 3)記錄業(yè)務(wù)事件發(fā)生而隨之進(jìn)行的數(shù)據(jù)抽取工作時(shí)間安排。( 4)記錄并檢測系統(tǒng)數(shù)據(jù)一致性的要求和執(zhí)行情況。( 5)評估數(shù)據(jù)質(zhì)量。1.1.10 什么是主數(shù)據(jù) ,主數(shù)據(jù)管理?和元數(shù)據(jù)有什么區(qū)別?主數(shù)據(jù) 管理和傳統(tǒng)數(shù)據(jù)倉庫的區(qū)別?主數(shù)據(jù)是指在整個(gè)企業(yè)范圍內(nèi)各個(gè)系統(tǒng)(操作 / 事務(wù)型應(yīng)用系統(tǒng)以及分析型系統(tǒng))間要共享的數(shù)據(jù), 比如, 可以是與客戶 (customers), 供應(yīng)商 (suppliers), 帳戶 (accounts) 以及組織單位 (organizational units)相關(guān)的數(shù)據(jù)。主數(shù)據(jù)通常需要在整個(gè)企業(yè)范圍內(nèi)保持一致性(consistent)、完整性(co
15、mplete)、可控性 (controlled) ,為了達(dá)成這一目標(biāo), 就需要進(jìn)行主數(shù)據(jù)管理 (Master Data Management ,MDM) 。 主數(shù)據(jù)不是企業(yè)內(nèi)所有的業(yè)務(wù)數(shù)據(jù),只是有必要在各個(gè)系統(tǒng)間共享的數(shù)據(jù)才是主數(shù)據(jù),比如大部分 的交易數(shù)據(jù)、 帳單數(shù)據(jù)等都不是主數(shù)據(jù), 而像描述核心業(yè)務(wù)實(shí)體的數(shù)據(jù), 而像客戶、 供應(yīng)商、 帳戶、 組織單位、員工、合作伙伴、位置信息等都是主數(shù)據(jù)。主數(shù)據(jù)是企業(yè)內(nèi)能夠跨業(yè)務(wù)重復(fù)使用的高價(jià) 值的數(shù)據(jù)。主數(shù)據(jù)管理 (Master Data Management ,MDM) 是指 一組約束和方法 用來保證一個(gè)企業(yè)內(nèi)主題域 和系統(tǒng)內(nèi)相關(guān)數(shù)據(jù)和跨主題域和系統(tǒng)的相
16、關(guān)數(shù)據(jù)的 實(shí)時(shí)性、含義和質(zhì)量 。這是從深層次來說來說明 主數(shù)據(jù)管理(MDM)的深度和復(fù)雜性,簡單的說,主數(shù)據(jù)管理(MDM)保證你的系統(tǒng)協(xié)調(diào)和重用通用、正確的業(yè)務(wù)數(shù)據(jù) (主數(shù)據(jù))。通常,我們會把主數(shù)據(jù)管理作為應(yīng)用流程的補(bǔ)充,通過從各個(gè)操作/事務(wù)型應(yīng)用以及分析型應(yīng)用中分離出主要的信息,使其成為一個(gè)集中的、獨(dú)立于企業(yè)中各種其他應(yīng)用核 心資源,從而使得企業(yè)的核心信息得以重用并確保各個(gè)操作/ 事務(wù)型應(yīng)用以及分析型應(yīng)用間的核心數(shù)據(jù)的一致性 。通過主數(shù)據(jù)管理, 改變企業(yè)數(shù)據(jù)利用的現(xiàn)狀, 從而更好地為企業(yè)信息集成做好鋪墊。主數(shù)據(jù)管理(MDM)可以幫助我們創(chuàng)建并維護(hù)整個(gè)企業(yè)內(nèi)主數(shù)據(jù)的單一視圖(Single Vi
17、ew),保證單一視圖的準(zhǔn)確性、一致性以及完整性,從而提供數(shù)據(jù)質(zhì)量,統(tǒng)一商業(yè)實(shí)體的定義,簡化改進(jìn)商業(yè)流 程并提供業(yè)務(wù)的響應(yīng)速度。 從變化的頻率來看,主數(shù)據(jù)和日常交易數(shù)據(jù)不一樣,變化相對緩慢,另 外,主數(shù)據(jù)由于跨各個(gè)系統(tǒng),所以對數(shù)據(jù)的一致性、實(shí)時(shí)性以及版本控制要求很高。主數(shù)據(jù)(Master Data)和元數(shù)據(jù)(Meta Data)是兩個(gè)完全不同的概念。元數(shù)據(jù)是指表示數(shù)據(jù)的相關(guān)信息,比如數(shù)據(jù)定義等,而主數(shù)據(jù)是指實(shí)例數(shù)據(jù),比如產(chǎn)品目錄信息等。主數(shù)據(jù)管理和傳統(tǒng)數(shù)據(jù)倉庫解決方案不是一個(gè)概念,數(shù)據(jù)倉庫會將各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)集中在 一起在進(jìn)行業(yè)務(wù)的分析,而主數(shù)據(jù)管理系統(tǒng)不會把所有數(shù)據(jù)都管理起來,只是把需要在各
18、個(gè)系統(tǒng)間 共享的主數(shù)據(jù)進(jìn)行采集和發(fā)布。相對于傳統(tǒng)數(shù)據(jù)倉庫解決方案的單向集成,主數(shù)據(jù)管理正注重將主 數(shù)據(jù)的變化同步發(fā)布到各個(gè)關(guān)聯(lián)的業(yè)務(wù)系統(tǒng)中 (主數(shù)據(jù)管理數(shù)據(jù)是雙向的 )。1.1.11描述一下ETL過程中需要處理的內(nèi)容三個(gè)簡單的字母,E-T-L,很容易忽視38個(gè)ETL子系統(tǒng)在數(shù)據(jù)倉庫建設(shè)中的重要性。抽取-轉(zhuǎn)換-加載(ETL)系統(tǒng),或者非正式的稱為“后臺系統(tǒng)”,在建立整個(gè)數(shù)據(jù)倉庫系統(tǒng)中占據(jù)了 70的工作量和時(shí)間。但是這還不足以說明 ETL系統(tǒng)的復(fù)雜性。每個(gè)人都理解這三個(gè)字母的含義, E,從源系統(tǒng)中將數(shù)據(jù)取出來; T,對這些數(shù)據(jù)做處理;L,加載到最終用戶訪問的表中。1. 抽取系統(tǒng)( Extract
19、System)主要功能包括源數(shù)據(jù)的適配器,推 /拖/ 搬運(yùn)數(shù)據(jù)的工作調(diào)度,對源數(shù)據(jù)的過濾和排序功能,數(shù) 據(jù)格式的轉(zhuǎn)換,遷移到ETL環(huán)境后的數(shù)據(jù)暫存功能。2. 變化數(shù)據(jù)捕獲系統(tǒng)( Change Data Capture System)主要功能包括對源數(shù)據(jù)日志文件的閱讀功能,源數(shù)據(jù)日期和序列號的過濾功能,基于CRC算法的記錄比較功能。3. 數(shù)據(jù)概況分析系統(tǒng)( Data Profiling System )主要功能包括字段屬性分析, 如參照域的分析; 結(jié)構(gòu)分析, 如主外鍵關(guān)系分析; 數(shù)據(jù)規(guī)則分析; 值規(guī)則分析等。4. 數(shù)據(jù)清洗系統(tǒng)( Data Cleansing System) 主要功能包括一個(gè)典型
20、的數(shù)據(jù)字典驅(qū)動的系統(tǒng),用于解析個(gè)體和組織的名稱、地址等信息,也用來解析產(chǎn)品、場所等內(nèi)容;一個(gè)“ De-duplication ”系統(tǒng),用于鑒別和移除個(gè)體和組織信息,也用 于產(chǎn)品和場所;一個(gè)“ Survivi ng ”系統(tǒng),使用特定的數(shù)據(jù)合并邏輯,用來保存特定數(shù)據(jù)源的指定字 段,這個(gè)特定數(shù)據(jù)源的數(shù)據(jù)將成為數(shù)據(jù)倉庫的最終版本; 為所有的數(shù)據(jù)源維護(hù)后臺數(shù)據(jù)的對應(yīng)關(guān)系, 如自然鍵和代理鍵對應(yīng)關(guān)系等內(nèi)容。5. 數(shù)據(jù)一致性處理系統(tǒng)( Data Conformer System) 主要功能包括標(biāo)識和生成專用的一致性維度屬性、一致性事實(shí)的度量屬性,這兩組屬性作為數(shù)據(jù)整合工作的基礎(chǔ),用來支持跨多個(gè)數(shù)據(jù)源的數(shù)據(jù)集
21、成工作。6. 審計(jì)維度生成系統(tǒng)( Audit Dimension Assembler System ) 主要功能是將與事實(shí)表相關(guān)的元數(shù)據(jù)內(nèi)容加載到一張審計(jì)維度表中,這樣最終用戶可以像查看普通維度一樣查看與事實(shí)表相關(guān)的元數(shù)據(jù)。7. 數(shù)據(jù)質(zhì)量過濾系統(tǒng)( Quality Screen Handler System)主要功能是在 ETL的處理過程中自動的檢測所有的數(shù)據(jù)質(zhì)量問題。檢測的結(jié)果將進(jìn)入錯(cuò)誤事件 處理系統(tǒng)(詳見子系統(tǒng)8)。8. 錯(cuò)誤事件處理系統(tǒng)( Error Event Hander System)主要功能是全面的記錄和報(bào)告在ETL處理中的所有的錯(cuò)誤事件。包括各類錯(cuò)誤的分枝處理邏輯,還包括對ET
22、L處理中數(shù)據(jù)質(zhì)量的實(shí)時(shí)監(jiān)控。9. 代理鍵生成系統(tǒng)( Surrogate Key Create System) 主要功能是以一種魯棒的機(jī)制生成流水的代理鍵,生成規(guī)則不依賴與任何維度,也不依賴與任何數(shù)據(jù)庫實(shí)例,可以支持分布式系統(tǒng)。10. 緩慢變化維處理系統(tǒng)( Slowly Changing Dimension Processor, SCD) 主要功能是處理維度表的屬性隨時(shí)間變化的情況, 處理方式為: 類型 1 (直接覆蓋),類型 2(生成新行),類型 3(添加新列) 。11遲到維度處理系統(tǒng)( Late Arriving Dimension Handler ) 主要功能是當(dāng)維度數(shù)據(jù)的變化情況到達(dá)數(shù)據(jù)
23、準(zhǔn)備區(qū)的時(shí)間晚于對應(yīng)的事實(shí)數(shù)據(jù)時(shí),對維度數(shù)據(jù) 的插入和更新策略。12固定層級結(jié)構(gòu)生成系統(tǒng)(Fixed Hierarchy Dimension Builder )主要功能是對維度表中各類多對一關(guān)系的層級結(jié)構(gòu)進(jìn)行數(shù)據(jù)有效性檢查和維護(hù)。13 可變層級結(jié)構(gòu)生成系統(tǒng)( Variable Hierarchy Dimension Builder ) 主要功能是對維度表中所有的層深可變的層級結(jié)構(gòu)的的數(shù)據(jù)有效性檢查和維度,例如組織的層 級結(jié)構(gòu),零件的層級結(jié)構(gòu)等。14 多值維度橋接表生成系統(tǒng)( Multivalued Dimension Bridge Table Builder ) 主要功能是建立和維護(hù)橋接表,用
24、來描述維度間的多對多關(guān)系。15 雜項(xiàng)維度生成系統(tǒng)( Junk Dimension Builder ) 主要功能是將來自多個(gè)數(shù)據(jù)源的多個(gè)低基數(shù)的標(biāo)志字段、狀態(tài)字段等小型維度建立成一個(gè)雜項(xiàng) 維度,并對之進(jìn)行維護(hù)。16 交易粒度事實(shí)表加載系統(tǒng)( Transaction grain fact table loader ) 主要功能是更新交易粒度事實(shí)表, 包括對數(shù)據(jù)、 索引和分區(qū)的處理。 通常是用來處理增量數(shù)據(jù), 即最新的數(shù)據(jù)。需要使用代理鍵替換管道系統(tǒng)(詳見子系統(tǒng)19)。17 周期快照事實(shí)表加載系統(tǒng)( Periodic snapshot grain fact table loader ) 主要功能是更
25、新周期快照事實(shí)表,包括對數(shù)據(jù)、索引和分區(qū)的處理。包括對當(dāng)期數(shù)據(jù)的增量更 新策略。需要使用代理鍵替換管道系統(tǒng)(詳見子系統(tǒng)19)。18 累計(jì)快照事實(shí)表加載系統(tǒng)( Accumulating snapshot grain fact table loader ) 主要功能是更新累積快照事實(shí)表,包括對數(shù)據(jù)、索引和分區(qū)的處理,同時(shí)更新維度外鍵和累積 事實(shí)。需要使用代理鍵替換管道系統(tǒng)(詳見子系統(tǒng)19)。19 代理鍵替換管道系統(tǒng)( Surrogate key pipeline ) 主要功能是使用多線程技術(shù)將來到數(shù)據(jù)倉庫數(shù)據(jù)的自然鍵替換為代理鍵。20 遲到事實(shí)處理系統(tǒng)( Late arriving fact ha
26、ndler ) 主要功能是處理對遲到事實(shí)記錄的插入和更新策略。21. 聚合生成系統(tǒng)( Aggregate builder ) 主要功能是創(chuàng)建和維護(hù)數(shù)據(jù)庫物理結(jié)構(gòu), 比如說聚合表, 用于和 query -rewrite 技術(shù)配合使用, 以提高數(shù)據(jù)庫查詢性能。也包括獨(dú)立的聚合表和物化表。22. 多維 cube 生成系統(tǒng)( Multidimensional cube builder )主要功能是創(chuàng)建和維護(hù)星型架構(gòu)用于裝載多維cube,包括cube技術(shù)的一些專有工作,比如維度層次結(jié)構(gòu)的維護(hù)。23. 實(shí)時(shí)分區(qū)生成系統(tǒng)( Real-time partition builder )三種事實(shí)表類型(參照子系統(tǒng)
27、 16, 17, 18)的特殊邏輯在內(nèi)存中維護(hù)著一個(gè)“熱分區(qū)” ,它只 包含最近一次已經(jīng)統(tǒng)計(jì)到數(shù)據(jù)倉庫表中以后的部分增量數(shù)據(jù)。24. 維度管理子系統(tǒng)( Dimension manager system )顧名思義, 它是一個(gè)管理維度表的系統(tǒng)。 它負(fù)責(zé)從集中存放維度表和事實(shí)表之間的維度一致性, 請參照子系統(tǒng) 25.25. 事實(shí)管理系統(tǒng)( Fact table provider system ) 對應(yīng)于維度表管理系統(tǒng),它是一個(gè)事實(shí)表的管理系統(tǒng),它接收從維度管理系統(tǒng)發(fā)過來的一致性維度。包括本地鍵替換,維度版本檢查,和聚合表等維護(hù)系列工作。26. 任務(wù)調(diào)度系統(tǒng)( Job scheduler)它負(fù)責(zé)ET
28、L任務(wù)的安排和啟動。它能夠等待各種系統(tǒng)條件包括對優(yōu)先級高的任務(wù)完成的依賴。 能夠針對異常情況發(fā)送警告。27. 工作流程監(jiān)視系統(tǒng)( Workflow monitor )它的主要功能是有控制臺和報(bào)表系統(tǒng)用以監(jiān)控ETL任務(wù)被任務(wù)調(diào)度系統(tǒng)啟動以后的執(zhí)行狀況。包括處理的記錄條數(shù),錯(cuò)誤摘要,和執(zhí)行的活動。28. 恢復(fù)和重做系統(tǒng)( Recovery and restart system )當(dāng)任務(wù)執(zhí)行過程中任務(wù)暫停后的重新啟動,或者是恢復(fù)到任務(wù)執(zhí)行前的狀態(tài)重新執(zhí)行。這個(gè)子 系統(tǒng)嚴(yán)重依賴于備份子系統(tǒng)(參考子系統(tǒng)38)29. 并行處理和管道處理系統(tǒng)( Parallelizing/pipelining system
29、 ) 它的主要功能是利用多處理器,網(wǎng)格計(jì)算資源以提高性能,和實(shí)現(xiàn)數(shù)據(jù)流處理。當(dāng)不是寫硬盤 操作或者是執(zhí)行過程中等待一個(gè)條件的發(fā)生的ETL的情況,是有必要采用并行化和管道化的。30. 異常放大系統(tǒng)( Problem escalation system ) 它的主要功能是負(fù)責(zé)在一定的條件下提高錯(cuò)誤的級別以跟蹤和解決問題。包括簡單錯(cuò)誤日志記 錄,操作者通知,管理員通知和系統(tǒng)開發(fā)人員通知。31. 版本控制系統(tǒng)( Version control system ) 使得元數(shù)據(jù)的歸檔能夠有堅(jiān)固的快照功能,可以查閱某一時(shí)刻改變前后的狀態(tài)。能夠遷入和遷 出所有ETL模塊和任務(wù)。源代碼對比功能以快速展示改變前后的
30、不同。32. 版本移植系統(tǒng)( Version migration system ) 讓程序可以在開發(fā)環(huán)境,測試環(huán)境,正式環(huán)境快速切換。版本控制系統(tǒng)的用于恢復(fù)移植的一個(gè) 接口,也是配置完整數(shù)據(jù)庫連接信息的一個(gè)接口。使得代理鍵生成不依賴于數(shù)據(jù)庫的位置。33. 體系和依賴分析系統(tǒng)( Lineage and dependency analyzer )對任何選中的數(shù)據(jù)組件,都要展示它的物理數(shù)據(jù)源和所有的后來的轉(zhuǎn)換,不管是選中ETL管道中間的組件,或者是選中最終的數(shù)據(jù)結(jié)果,都一樣展示。對任何選中的數(shù)據(jù)組件,都要展示它的下 游的數(shù)據(jù)組件和可能會造成改變的最終數(shù)據(jù)結(jié)果的字段結(jié)構(gòu),不管是選中ETL管道中間的組件
31、,或者是選中數(shù)據(jù)源,都一樣展示。34. 符合規(guī)定報(bào)告系統(tǒng)( Compliance reporter ) 符合規(guī)定的規(guī)則以證明系統(tǒng)報(bào)告的可信度。證明數(shù)據(jù)和轉(zhuǎn)換沒有改變。展示誰訪問過或者改變過任何數(shù)據(jù)。35. 安全控制系統(tǒng)( Security system) 在ETL的管道中,實(shí)現(xiàn)對所有數(shù)據(jù)和元數(shù)據(jù)基于角色的權(quán)限控制。證明模塊的版本沒有改變。 展示誰做過任何更改。36. 備份系統(tǒng)( Backup system) 對數(shù)據(jù)和元數(shù)據(jù)的備份,用于以后的數(shù)據(jù)的恢復(fù),重啟,安全,和符合規(guī)定的要求。37. 元數(shù)據(jù)管理系統(tǒng)( Metadata repository manager )用于捕獲和維護(hù)所有 ETL的元
32、數(shù)據(jù)的系統(tǒng),包括所有轉(zhuǎn)換邏輯。包括處理元數(shù)據(jù),技術(shù)元數(shù)據(jù) 和業(yè)務(wù)邏輯元數(shù)據(jù)。38. 項(xiàng)目管理系統(tǒng)( Project management system )對所有ETL任務(wù)進(jìn)行開發(fā)的跟蹤系統(tǒng)。1.1.12數(shù)據(jù)庫及數(shù)據(jù)倉庫模型設(shè)計(jì)的三個(gè)主要步驟?1. 概念數(shù)據(jù)模型( conceptual data model ) 概念數(shù)據(jù)模型設(shè)計(jì)與邏輯數(shù)據(jù)模型設(shè)計(jì)、物理數(shù)據(jù)模型設(shè)計(jì)是數(shù)據(jù)庫及數(shù)據(jù)倉庫模型設(shè)計(jì)的三 個(gè)主要步驟。概念數(shù)據(jù)模型是最終用戶對數(shù)據(jù)存儲的看法,反映了最終用戶綜合性的信息需求,它以數(shù)據(jù)類 的方式描述企業(yè)級的數(shù)據(jù)需求,數(shù)據(jù)類代表了在業(yè)務(wù)環(huán)境中自然聚集成的幾個(gè)主要類別數(shù)據(jù)。概念數(shù)據(jù)模型的內(nèi)容包括重要
33、的實(shí)體及實(shí)體之間的關(guān)系。在概念數(shù)據(jù)模型中不包括實(shí)體的屬性, 也不用定義實(shí)體的主鍵。這是概念數(shù)據(jù)模型和邏輯數(shù)據(jù)模型的主要區(qū)別。概念數(shù)據(jù)模型的目標(biāo)是統(tǒng)一業(yè)務(wù)概念,作為業(yè)務(wù)人員和技術(shù)人員之間溝通的橋梁,確定不同實(shí)體之間的最高層次的關(guān)系。在有些數(shù)據(jù)模型的設(shè)計(jì)過程中,概念數(shù)據(jù)模型是和邏輯數(shù)據(jù)模型合在一起進(jìn)行設(shè)計(jì)的。2. 邏輯數(shù)據(jù)模型( logical data model ) 邏輯數(shù)據(jù)模型反映的是系統(tǒng)分析設(shè)計(jì)人員對數(shù)據(jù)存儲的觀點(diǎn),是對概念數(shù)據(jù)模型進(jìn)一步的分解 和細(xì)化。邏輯數(shù)據(jù)模型是根據(jù)業(yè)務(wù)規(guī)則確定的,關(guān)于業(yè)務(wù)對象、業(yè)務(wù)對象的數(shù)據(jù)項(xiàng)及業(yè)務(wù)對象之間 關(guān)系的基本藍(lán)圖。邏輯數(shù)據(jù)模型的內(nèi)容包括所有的實(shí)體和關(guān)系,確
34、定每個(gè)實(shí)體的屬性,定義每個(gè)實(shí)體的主鍵,指 定實(shí)體的外鍵,需要進(jìn)行范式化處理。邏輯數(shù)據(jù)模型的目標(biāo)是盡可能詳細(xì)的描述數(shù)據(jù),但并不考慮數(shù)據(jù)在物理上如何來實(shí)現(xiàn)。 邏輯數(shù)據(jù)建模不僅會影響數(shù)據(jù)庫設(shè)計(jì)的方向,還間接影響最終數(shù)據(jù)庫的性能和管理。如果在實(shí) 現(xiàn)邏輯數(shù)據(jù)模型時(shí)投入得足夠多,那么在物理數(shù)據(jù)模型設(shè)計(jì)時(shí)就可以有許多可供選擇的方法。3. 物理數(shù)據(jù)模型 (physical data model) 物理數(shù)據(jù)模型設(shè)計(jì)與概念數(shù)據(jù)模型設(shè)計(jì)、邏輯數(shù)據(jù)模型設(shè)計(jì)是數(shù)據(jù)庫及數(shù)據(jù)倉庫模型設(shè)計(jì)的三 個(gè)主要步驟。物理數(shù)據(jù)模型是在邏輯數(shù)據(jù)模型的基礎(chǔ)上,考慮各種具體的技術(shù)實(shí)現(xiàn)因素,進(jìn)行數(shù)據(jù)庫體系結(jié) 構(gòu)設(shè)計(jì),真正實(shí)現(xiàn)數(shù)據(jù)在數(shù)據(jù)庫中的存放。物理數(shù)據(jù)模型的內(nèi)容包括確定所有的表和列,定義外鍵用于確定表之間的關(guān)系,基于用戶的需 求可能進(jìn)行發(fā)范式化等內(nèi)容。在物理實(shí)現(xiàn)上的考慮,可能會導(dǎo)致物理數(shù)據(jù)模型和邏輯數(shù)據(jù)模型有較 大的不同。物理數(shù)據(jù)模型的目標(biāo)是指定如何用數(shù)據(jù)庫模式來實(shí)現(xiàn)邏輯數(shù)據(jù)模型,以及真正的保存數(shù)據(jù)。1.1.13什么是多值維度,怎么處理多值維度?在維度建模的數(shù)據(jù)倉庫中,有一種維度表叫多值維度 (multivalue dimension) 。 多值維度有兩種情況, 第一種情況是指維度表中的某個(gè)屬性字段同時(shí)有多個(gè)值,第二種情況是事實(shí)表在某個(gè)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 員工工資提成合同協(xié)議
- 武漢市合同房補(bǔ)充協(xié)議
- 正規(guī)服裝合作合同協(xié)議
- 2025房產(chǎn)如何撰寫買賣合同
- 商品共同經(jīng)營合同協(xié)議
- 櫻桃產(chǎn)地采購合同協(xié)議
- 2025實(shí)習(xí)勞動合同模板示例
- 死亡賠償協(xié)議書格式
- 2025簽訂汽車維修合同應(yīng)注意的事項(xiàng)
- 員工下班后協(xié)議書范本
- 2023年廣東省初中生物地理學(xué)業(yè)考試真題集合試卷及答案高清版
- 靜脈輸液輸液反應(yīng)課件
- 廣東省廣州市天河區(qū)2023年中考二?;瘜W(xué)試題(含解析)
- 《動物王國開大會》說課-優(yōu)質(zhì)課件
- 病媒生物監(jiān)測記錄表
- 醇的性質(zhì)高中化學(xué)一等獎公開課一等獎省優(yōu)質(zhì)課大賽獲獎?wù)n件
- 電廠煙囪外壁防腐工程項(xiàng)目施工方案
- 《教師職業(yè)道德》全書word版
- 唯美復(fù)古風(fēng)人間煙火氣相冊宣傳模板課件
- 合同制消防員績效考核細(xì)則詳解
- 門禁一卡通系統(tǒng)解決方案
評論
0/150
提交評論