IBM數(shù)據(jù)倉(cāng)庫(kù)解決方案_第1頁(yè)
IBM數(shù)據(jù)倉(cāng)庫(kù)解決方案_第2頁(yè)
IBM數(shù)據(jù)倉(cāng)庫(kù)解決方案_第3頁(yè)
IBM數(shù)據(jù)倉(cāng)庫(kù)解決方案_第4頁(yè)
IBM數(shù)據(jù)倉(cāng)庫(kù)解決方案_第5頁(yè)
已閱讀5頁(yè),還剩24頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、IBM 數(shù)據(jù)倉(cāng)庫(kù)解決方案1.1技術(shù)架構(gòu)設(shè)計(jì)成功地實(shí)施一個(gè)倉(cāng)庫(kù)項(xiàng)目,通常需要很長(zhǎng)的時(shí)間。如果僅僅著眼于短 期成果,缺乏整體考慮,采用一種不健全的體系結(jié)構(gòu),不僅會(huì)增加系統(tǒng)開(kāi) 發(fā)和維護(hù)成本,而且必將對(duì)發(fā)揮數(shù)據(jù)倉(cāng)庫(kù)的作用造成不利的影響。因此一 個(gè)綜合,清晰的遠(yuǎn)景規(guī)劃及技術(shù)實(shí)施XX將在整個(gè)項(xiàng)目的實(shí)施過(guò)程中起到重 要作用。技術(shù)架構(gòu)必須具有高度先進(jìn)性和可擴(kuò)展性,以滿(mǎn)足業(yè)務(wù)需求的不斷變 化。一個(gè)完整的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)包括數(shù)據(jù)源、數(shù)據(jù)轉(zhuǎn)換區(qū)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù) 集市、和數(shù)據(jù)展現(xiàn)層,通過(guò)數(shù)據(jù)倉(cāng)庫(kù)不同層次之間的加工過(guò)程,實(shí)現(xiàn)財(cái)政 從數(shù)據(jù)資產(chǎn)向信息資產(chǎn)的轉(zhuǎn)化過(guò)程。在不同層次之間的數(shù)據(jù)加工過(guò)程需要 通過(guò)ETL技術(shù)實(shí)現(xiàn),并對(duì)整個(gè)

2、過(guò)程進(jìn)行有效的元數(shù)據(jù)管理?;趯?duì)需求的理解,基于財(cái)政部的信息系統(tǒng)框架模型基礎(chǔ)之上的財(cái)政 決策支持系統(tǒng)技術(shù)架構(gòu)如下圖所示:如上圖所示意,通過(guò)搭建靈活的、可擴(kuò)展技術(shù)架構(gòu),在保持?jǐn)?shù)據(jù)集市 穩(wěn)定性的同時(shí),可以不斷增加數(shù)據(jù)源,增加應(yīng)用數(shù)據(jù)層、增加應(yīng)用層,滿(mǎn) 足不斷增加的業(yè)務(wù)分析應(yīng)用需求。采用DW+OD的數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu),使用全新的ETL模式對(duì)ODS進(jìn)程每 日數(shù)據(jù)更新,按xx或月xx期對(duì)數(shù)據(jù)倉(cāng)庫(kù)執(zhí)行ETL過(guò)程。使用COGNOS BI 做為前端的查詢(xún)分析和數(shù)據(jù)挖掘工具,可滿(mǎn)足各種日常數(shù)據(jù)處理操作,從 即時(shí)簡(jiǎn)單報(bào)表查詢(xún)到多維多級(jí)數(shù)據(jù)分析和挖掘,都能夠在統(tǒng)一 COGNOS BI 平臺(tái)上完成。1.1.1 數(shù)據(jù)源和

3、數(shù)據(jù)接口數(shù)據(jù)源指存儲(chǔ)于財(cái)政各個(gè)業(yè)務(wù)系統(tǒng)的業(yè)務(wù)數(shù)據(jù),以及未來(lái)的財(cái)政監(jiān)管 和外部數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)將整合來(lái)自于這些系統(tǒng)的數(shù)據(jù),形成財(cái)政統(tǒng)一 的、一致的基礎(chǔ)數(shù)據(jù)集,并提供給不同的應(yīng)用主題形成數(shù)據(jù)集市。各個(gè)系 統(tǒng)在體系架構(gòu)、開(kāi)發(fā)平臺(tái)、數(shù)據(jù)定義、接口標(biāo)準(zhǔn)都會(huì)存在不同程度的差異; 另外由于業(yè)務(wù)的不斷變化,歷史數(shù)據(jù)與當(dāng)前數(shù)據(jù)之間的含義也可能存在不 同,因此數(shù)據(jù)整合必須充分考慮源系統(tǒng)在技術(shù)和數(shù)據(jù)方面存在的差異。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)將采用文本文件的方式從源系統(tǒng)獲取數(shù)據(jù)。每個(gè)源系統(tǒng) 會(huì)就與數(shù)據(jù)倉(cāng)庫(kù)之間就傳輸數(shù)據(jù)接口文件( I FF )的格式和方法制定標(biāo)準(zhǔn), 稱(chēng)之為接口規(guī)范。每個(gè)數(shù)據(jù)源會(huì)首先通過(guò)各自的數(shù)據(jù)導(dǎo)出程序 ( Ex

4、tractor )生成接口文 件存儲(chǔ)在各自的文件緩沖區(qū)內(nèi)。這個(gè) Extractor 負(fù)責(zé)各自范圍內(nèi)導(dǎo)出數(shù)據(jù) 的完備性和一致性,包括:1) 依照各自的業(yè)務(wù)規(guī)則確定增量數(shù)據(jù)的導(dǎo)出方法2) 保證導(dǎo)出文件的格式符合接口規(guī)范的要求3) 保證導(dǎo)出文件的傳輸時(shí)間的及時(shí)性4) 保證接口文件的數(shù)據(jù)質(zhì)量,不錯(cuò)數(shù)、不丟數(shù)、不多數(shù)1.1.2 財(cái) 政數(shù)據(jù)倉(cāng)庫(kù)財(cái)政數(shù)據(jù)倉(cāng)庫(kù)(EDW,存儲(chǔ)和管理來(lái)自源數(shù)據(jù)系統(tǒng)的數(shù)據(jù),按照數(shù)據(jù) 模型分主題進(jìn)行組織和存放,包括當(dāng)期的和較長(zhǎng)時(shí)間的歷史數(shù)據(jù)。數(shù)據(jù)倉(cāng) 庫(kù)的核心是企業(yè)級(jí)數(shù)據(jù)模型的規(guī)劃和設(shè)計(jì),是所有應(yīng)用的基礎(chǔ)。接下來(lái)我 們分別對(duì)EDV每個(gè)數(shù)據(jù)區(qū)域做詳細(xì)介紹。1) 接口文件區(qū)接口文件區(qū)是存儲(chǔ)

5、和處理接口文件的區(qū)域,如前面章節(jié)所述,接口 文件區(qū)在系統(tǒng)下按照特定的目錄結(jié)構(gòu)組織起來(lái)。用一些系統(tǒng)命令和 工具來(lái)管理。對(duì)每個(gè)目錄按照其特定的用途設(shè)定對(duì)不同用戶(hù)的訪問(wèn) 權(quán)限,比如誰(shuí)能讀,誰(shuí)能寫(xiě),誰(shuí)能改等。2) 細(xì)節(jié)數(shù)據(jù)暫存區(qū) SSA( SOR Staging Area )SSA的主要目的是支持把接口文件的裝載到數(shù)據(jù)庫(kù),對(duì)其進(jìn)行驗(yàn)證 和處理,然后把數(shù)據(jù)整合到SOF內(nèi)。驗(yàn)證的方法主要是將新轉(zhuǎn)載的 數(shù)據(jù)與SOF內(nèi)已有的數(shù)據(jù)進(jìn)行查找和比較。SSA內(nèi)數(shù)據(jù)結(jié)構(gòu)的設(shè)計(jì) 原則是最大限度的利用接口文件的數(shù)據(jù)結(jié)構(gòu), 盡量降低實(shí)體的個(gè)數(shù), 同時(shí)很好的支持后續(xù)的ETL過(guò)程。3) 細(xì)節(jié)數(shù)據(jù) SOF( System Of F

6、ecord )SOF是基于模型開(kāi)發(fā)的一套符合3NF范式規(guī)范的表結(jié)構(gòu)。SOF存儲(chǔ)了 數(shù)據(jù)倉(cāng)庫(kù)內(nèi)最細(xì)節(jié)層次的數(shù)據(jù),按照不同的主題域進(jìn)一步分分類(lèi)組 織。此模型是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)模型的核心,其設(shè)計(jì)為具有足夠的 靈活性,以能夠應(yīng)對(duì)添加更多的數(shù)據(jù)源,支持更多分析需求,同時(shí) 也能夠支持進(jìn)一步升級(jí)和更新。為了能夠在數(shù)據(jù)倉(cāng)庫(kù)內(nèi)記錄數(shù)據(jù)的變化以支持歷史趨勢(shì)和變化分 析,SOF在一些 關(guān)鍵的屬性值上會(huì)跟蹤變化(比如客戶(hù)的信用度、 狀態(tài)等)。跟蹤變化的常見(jiàn)方法就是利用漸變 xx的Type 2方法來(lái) 處理記錄,在表內(nèi)增加一條記錄變化數(shù)據(jù)的新記錄。同時(shí)為了降低 不必要的存儲(chǔ)空間的浪費(fèi)(相同數(shù)據(jù)的重復(fù)存儲(chǔ)),我們可以把實(shí)

7、體中動(dòng)態(tài)變化的屬性與靜態(tài)不變或只需覆蓋不需跟蹤變化的屬性分 開(kāi)。比如對(duì)用戶(hù),我們可以用一張表存放不變化的用戶(hù)靜態(tài)屬性, 用另一張表存放經(jīng)常變化的用戶(hù)行為屬性,當(dāng)跟蹤用戶(hù)行為的變化 時(shí)我們只需在用戶(hù)行為表內(nèi)添加記錄就行了,沒(méi)必要把沒(méi)有發(fā)生變 化的用戶(hù)靜態(tài)表內(nèi)的數(shù)據(jù)也復(fù)制一份。4) 匯總數(shù)據(jù)區(qū) Summary匯總數(shù)據(jù)區(qū)是為了方便查詢(xún)和后續(xù)多維數(shù)據(jù)的更新,創(chuàng)建一些常用 的中間匯總表,以提高性能和降低后續(xù) ETL工作的復(fù)雜性。由于SOR是高度規(guī)范化的數(shù)據(jù),因此要完成一個(gè)查詢(xún)需要大量的xx 操作;同時(shí)數(shù)據(jù)集市中的數(shù)據(jù)粒度往往要比SOF高很多,對(duì)要成生數(shù)據(jù)集市所需數(shù)據(jù)也需要大量的匯總計(jì)算,因此如果我們把常

8、用的 數(shù)據(jù)預(yù)先 xx 和匯總好,并讓其盡量多在多個(gè)數(shù)據(jù)集市的計(jì)算中共 享,就能大幅度的提高整個(gè) ETL工作和數(shù)據(jù)倉(cāng)庫(kù)查詢(xún)的性能。5) 反饋數(shù)據(jù)區(qū)( Feedback Area )反饋數(shù)據(jù)區(qū)主要記錄的是數(shù)據(jù)倉(cāng)庫(kù)自身生成的結(jié)果。比如用戶(hù)對(duì)營(yíng) 銷(xiāo)活動(dòng)的反饋等。數(shù)據(jù)倉(cāng)庫(kù)的特性決定了用戶(hù)在原則上不能直接修 改數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),因此用戶(hù)的修改數(shù)據(jù)和其它生成數(shù)據(jù)必須單 獨(dú)記錄,以便于追蹤歷史和進(jìn)行比較。6) 元數(shù)據(jù)存儲(chǔ) MDR(Meta Data Repository )元數(shù)據(jù)存儲(chǔ)用來(lái)保存關(guān)于數(shù)據(jù)倉(cāng)庫(kù)中的過(guò)程、數(shù)據(jù)的信息(xx、數(shù)據(jù)詞典、配置信息等)。由于各個(gè)工具和系統(tǒng)都會(huì)生成自己的元數(shù) 據(jù),同時(shí)我們還利用

9、元數(shù)據(jù)管理工具把這些元數(shù)據(jù)盡可能的集中存 儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中的MDF內(nèi),因此MDF總的來(lái)說(shuō)只是一個(gè)共享元數(shù)據(jù) 供用戶(hù)集中訪問(wèn)的地方,真正元數(shù)據(jù)的維護(hù)地還是在生成這些元數(shù) 據(jù)的系統(tǒng)或工具內(nèi)。1.1.3 數(shù) 據(jù)集市數(shù)據(jù)集市設(shè)計(jì)用途是要滿(mǎn)足特定的目的,同時(shí)具有查詢(xún)、多維分析、 報(bào)表和數(shù)據(jù)挖掘功能。這與企業(yè)數(shù)據(jù)倉(cāng)庫(kù)截然不同,設(shè)計(jì)時(shí)企業(yè)數(shù)據(jù)倉(cāng)庫(kù) 在信息內(nèi)容與結(jié)構(gòu)方面盡可能擁有開(kāi)放性與靈活性。數(shù)據(jù)集市有以下特征:為特定用途而設(shè)計(jì)數(shù)據(jù)集市設(shè)計(jì)的目的,是支持特定用戶(hù)對(duì)數(shù) 據(jù)子集的特定范圍的查詢(xún)。它以用戶(hù)所要求的方式提供企業(yè)數(shù)據(jù)倉(cāng) 庫(kù)的細(xì)節(jié)匯總。優(yōu)化數(shù)據(jù)集市為了支持特定工具的訪問(wèn)而優(yōu)化。根據(jù)工具、根 據(jù)企業(yè)數(shù)據(jù)倉(cāng)庫(kù)

10、提供的信息子集來(lái)設(shè)計(jì)數(shù)據(jù)集市,而不是讓用戶(hù)直 接訪問(wèn)企業(yè)數(shù)據(jù)倉(cāng)庫(kù)中的大型數(shù)據(jù)庫(kù), 這可以改善數(shù)據(jù)集市的性能。虛擬或物理數(shù)據(jù)集市數(shù)據(jù)集市可以是物理的實(shí)現(xiàn),也可以是企 業(yè)數(shù)據(jù)倉(cāng)庫(kù)表的各種視圖。使用視圖(虛擬數(shù)據(jù)集市)可以避免存 儲(chǔ)數(shù)據(jù)的多個(gè)副本,簡(jiǎn)化了數(shù)據(jù)管理。數(shù)據(jù)集市,即 Data Mart ,指面向?qū)m?xiàng)應(yīng)用領(lǐng)域的分析主題。 Data Mart 即是通過(guò)OLAP技術(shù)或者數(shù)據(jù)挖掘技術(shù),利用數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)根據(jù)用戶(hù)需求 建立的數(shù)據(jù)集市模型,大大提高了前端查詢(xún)?cè)L問(wèn)的效率,用戶(hù)能方便地實(shí) 現(xiàn)靈活、動(dòng)態(tài)、快速、xx、多層次地分析企業(yè)數(shù)據(jù)。同時(shí),也可以通過(guò)定 制靈活的OLTP查詢(xún)來(lái)了解明細(xì)數(shù)據(jù)。1.1.4 數(shù)

11、據(jù)的抽取、轉(zhuǎn)換、加載( ETL)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)來(lái)源于業(yè)務(wù)處理系統(tǒng),但是數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)并不是對(duì) 源系統(tǒng)數(shù)據(jù)的簡(jiǎn)單疊加,它需要按照數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型和物理模型,在源系統(tǒng)數(shù)據(jù)分析的基礎(chǔ)上,按照源系統(tǒng)數(shù)據(jù)和數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)之間的映射關(guān) 系,經(jīng)過(guò)數(shù)據(jù)的抽取 (Extraction) 、轉(zhuǎn)換 (Transformation) 和加載 (Loading)等環(huán)節(jié)方可進(jìn)入數(shù)據(jù)倉(cāng)庫(kù),這個(gè)過(guò)程簡(jiǎn)稱(chēng)為ETL處理。數(shù)據(jù)經(jīng)過(guò)數(shù)據(jù)抽取、轉(zhuǎn)換和加載處理進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)的整個(gè)過(guò)程可以簡(jiǎn) 稱(chēng)為ETL過(guò)程。ETL是搭建數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)平臺(tái)的基礎(chǔ),也是保證數(shù)據(jù)倉(cāng)庫(kù) 的數(shù)據(jù)質(zhì)量的具體實(shí)現(xiàn)。根據(jù)基于數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目開(kāi)發(fā)的經(jīng)驗(yàn),在大多數(shù)據(jù) 倉(cāng)庫(kù)的實(shí)施過(guò)程

12、當(dāng)中,ETL都是一個(gè)非常復(fù)雜、耗時(shí)的過(guò)程,其工作量約 占整個(gè)數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目的 40-50%,占數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)階段工作量的 70-80%,有 許多原因影響這一階段的時(shí)間和進(jìn)度。比如對(duì)原有業(yè)務(wù)系統(tǒng)和舊的操作環(huán) 境的了解有限,原系統(tǒng)文檔不全等。因?yàn)檫@些原因,使ETL任務(wù)花了許多時(shí)間在了解舊的業(yè)務(wù)應(yīng)用以及如何抽取數(shù)據(jù)上。ETL實(shí)施困難另一個(gè)原因是原有的系統(tǒng)平臺(tái)沒(méi)有足夠的容量 / 系統(tǒng)資源來(lái)支持?jǐn)?shù)據(jù)抽取處理, 系統(tǒng)資 源不足可能表現(xiàn)為:CPU磁盤(pán)空間、I/O帶寬或沒(méi)有一個(gè)有效的窗口去運(yùn) 行抽取、轉(zhuǎn)換程序。ETL過(guò)程不僅工作量大,而且還受到很多時(shí)間窗口的限制,它不僅需 要在不同的特定(非確定)的時(shí)間抽取數(shù)據(jù),

13、而且還必須要在特定的時(shí)間 范圍內(nèi)把數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)。由于 ETL過(guò)程是數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用系統(tǒng)每天都 要進(jìn)行的工作,ETL設(shè)計(jì)的科學(xué)性和效率性是非常重要的,關(guān)系到數(shù)據(jù)倉(cāng) 庫(kù)項(xiàng)目的成敗。ETL遵循如下設(shè)計(jì)原則:靈活性:不同的時(shí)間段中能夠進(jìn)行數(shù)據(jù)獲取、轉(zhuǎn)換、裝載。可重復(fù)性:支持失敗的ETL任務(wù)行數(shù)據(jù)重新裝載。模塊化:ETL過(guò)程分步實(shí)施,每個(gè)過(guò)程通過(guò)不同的模塊組件來(lái)完成。并盡可能復(fù)用這些組件;從而提高 ETL實(shí)施效率,增加數(shù)據(jù)倉(cāng)庫(kù)的 可維護(hù)性。迭代方法:滿(mǎn)足當(dāng)前的業(yè)務(wù)需求,盡可能搭建滿(mǎn)足未來(lái)的業(yè)務(wù)需求 的平臺(tái)上不斷開(kāi)發(fā)實(shí)施。ETL邏輯順序:依賴(lài)業(yè)務(wù)系統(tǒng)數(shù)據(jù)處理方式,來(lái)定義ETL處理流程控制。例如:在銀行的

14、ETL過(guò)程中,交易記錄信息的數(shù)據(jù)裝載應(yīng)該 在賬戶(hù)信息進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之后進(jìn)行。第一步:數(shù)據(jù)抽取在源系統(tǒng)上啟動(dòng)數(shù)據(jù)抽取控制程序,完成以下工作:1、數(shù)據(jù)采集考慮到數(shù)據(jù)來(lái)源的多樣性和復(fù)雜性,數(shù)據(jù)采集主要包括:對(duì)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)采集:在日終結(jié)后,當(dāng)日數(shù)據(jù)自動(dòng)、增量地轉(zhuǎn) 儲(chǔ)到數(shù)據(jù)備份機(jī)上, 作為數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)源并成為數(shù)據(jù)備份策略 的一部分。對(duì)于稅收計(jì)劃、外部數(shù)據(jù)、納稅人財(cái)務(wù)報(bào)表的數(shù)據(jù)采集??筛鶕?jù) 實(shí)際需要,采用多種途徑。2、數(shù)據(jù)發(fā)送在數(shù)據(jù)采集完成后,各系統(tǒng)上的抽取控制程序?qū)?shù)據(jù)文件和校驗(yàn)文 件通過(guò)局域網(wǎng)發(fā)送到數(shù)據(jù)轉(zhuǎn)換區(qū)。第二步:數(shù)據(jù)裝入轉(zhuǎn)換區(qū)1. 檢查數(shù)據(jù)是否到位根據(jù)校驗(yàn)文件,檢查源系統(tǒng)數(shù)據(jù)是否到位、是否存在

15、傳輸錯(cuò)誤等異 常情況。如果數(shù)據(jù)不全或傳輸出現(xiàn)錯(cuò)誤,如果出錯(cuò),將出錯(cuò)結(jié)果寫(xiě) 入錯(cuò)誤xx,重新執(zhí)行第一步。2. 將外部數(shù)據(jù)文件裝入數(shù)據(jù)庫(kù)把來(lái)自外部源數(shù)據(jù)源的 xx 數(shù)據(jù)轉(zhuǎn)化成數(shù)據(jù)庫(kù)、表結(jié)構(gòu)。3. 修改系統(tǒng)狀態(tài):待該步驟工作完成后,將系統(tǒng)狀態(tài)改為抽取工作完成。注:若直接從業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)中抽取數(shù)據(jù), 則無(wú)須數(shù)據(jù)轉(zhuǎn)換區(qū)步驟。第三步:數(shù)據(jù)質(zhì)量檢查和出錯(cuò)處理1. 狀態(tài)檢查:查詢(xún)參數(shù)表,如果數(shù)據(jù)抽取工作已經(jīng)完成,開(kāi)始執(zhí)行該步驟工作。2. 數(shù)據(jù)質(zhì)量檢查:根據(jù)檢查規(guī)則,數(shù)據(jù)質(zhì)量檢查程序掃描源數(shù)據(jù)數(shù)據(jù)表,根據(jù)規(guī)則檢查數(shù)據(jù)是否合法,給出檢查報(bào)告和最終的數(shù)據(jù)質(zhì)量報(bào)告并寫(xiě)入數(shù)據(jù) 庫(kù),數(shù)據(jù)質(zhì)量檢查結(jié)果寫(xiě)入質(zhì)量檢查報(bào)告。3.

16、 出錯(cuò)處理:如果出現(xiàn)嚴(yán)重出錯(cuò),停止ETL工作,需要系統(tǒng)維護(hù)人員現(xiàn)場(chǎng)做出相 應(yīng)的處理,修改正確后,重新執(zhí)行該步驟工作;對(duì)于警告級(jí)出錯(cuò), 繼續(xù)進(jìn)行下述步驟。4. 修改系統(tǒng)狀態(tài):待該步驟工作完成后,將系統(tǒng)狀態(tài)改為數(shù)據(jù)質(zhì)量檢查工作完成。第四步:數(shù)據(jù)轉(zhuǎn)換1、狀態(tài)檢查查詢(xún)參數(shù)表, 如果數(shù)據(jù)質(zhì)量檢查工作已經(jīng)完成, 開(kāi)始執(zhí)行該步工作。2、數(shù)據(jù)轉(zhuǎn)換根據(jù)數(shù)據(jù)倉(cāng)庫(kù)要求的數(shù)據(jù)源格式在 Staging Areaxx 進(jìn)行并行轉(zhuǎn)換 處 理,并將轉(zhuǎn)換的結(jié)果數(shù)據(jù)存放在待裝載數(shù)據(jù)存放區(qū)。3、生成轉(zhuǎn)換報(bào)告 記錄數(shù)據(jù)轉(zhuǎn)換情況,并寫(xiě)入數(shù)據(jù)庫(kù)轉(zhuǎn)換 xx 中。4、修改系統(tǒng)狀態(tài):待該步驟工作完成后,將系統(tǒng)狀態(tài)改為數(shù)據(jù)轉(zhuǎn)換工作完成。第五步:

17、數(shù)據(jù)加載1、狀態(tài)檢查查詢(xún)參數(shù)表,如果數(shù)據(jù)質(zhì)量檢查工作已經(jīng)完成,開(kāi)始執(zhí)行該步驟工 作。2、數(shù)據(jù)裝入數(shù)據(jù)倉(cāng)庫(kù)采用非依賴(lài)數(shù)據(jù)并行加載的策略,將待裝載數(shù)據(jù)區(qū)的數(shù)據(jù)裝入中心 數(shù)據(jù)倉(cāng)庫(kù),如果標(biāo)準(zhǔn)代碼表發(fā)生變化,數(shù)據(jù)裝載程序?qū)?biāo)準(zhǔn)代碼的 變化情況增量加載到數(shù)據(jù)倉(cāng)庫(kù)代碼表中。3、數(shù)據(jù)加載情況報(bào)告 記錄數(shù)據(jù)加載情況,并寫(xiě)入數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的參數(shù)表中。4、修改系統(tǒng)狀態(tài):待該步驟工作完成后,將系統(tǒng)狀態(tài)改為數(shù)據(jù)轉(zhuǎn)換工作完成。第六步:加載時(shí)間維1. 狀態(tài)檢查查詢(xún)參數(shù)表,如果數(shù)據(jù)加載工作已經(jīng)完成,開(kāi)始執(zhí)行該步驟工作。2. 加載時(shí)間維根據(jù)當(dāng)前的時(shí)間,依據(jù)數(shù)據(jù)集市多 xx 模型,完成時(shí)間 xx 的加載工 作。3. 修改系統(tǒng)狀態(tài)

18、: 待該步驟工作完成后,將系統(tǒng)狀態(tài)改為時(shí)間維加載工作完成。第七步:加載事實(shí)表1. 狀態(tài)檢查查詢(xún)參數(shù)表, 如果時(shí)間維加載工作已經(jīng)完成, 開(kāi)始執(zhí)行該步驟工作。2. 加載事實(shí)表 以數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)為數(shù)據(jù)源,依據(jù)數(shù)據(jù)集市多維模型,完成事實(shí)表的 加載工作。3. 修改系統(tǒng)狀態(tài): 待該步驟工作完成后,將系統(tǒng)狀態(tài)改為事實(shí)表加載工作完成。第八步:加載聚合表1. 狀態(tài)檢查查詢(xún)參數(shù)表, 如果事實(shí)表加載工作已經(jīng)完成, 開(kāi)始執(zhí)行該步驟工作。2. 加載聚合表 以事實(shí)表為數(shù)據(jù)源,依據(jù)數(shù)據(jù)集市多維模型,完成聚合表的加載工 作。3. 修改系統(tǒng)狀態(tài):待該步驟工作完成后,將系統(tǒng)狀態(tài)改為 ETL工作結(jié)束1.1.5數(shù)據(jù)展現(xiàn)數(shù)據(jù)訪問(wèn)及展現(xiàn)是

19、通過(guò)信息門(mén)戶(hù),將各類(lèi)數(shù)據(jù)集市應(yīng)用通過(guò)統(tǒng)一的平臺(tái) 展現(xiàn)給財(cái)政各類(lèi)用戶(hù)。同時(shí)提供數(shù)據(jù)分析結(jié)果的表達(dá)、 共享與傳遞的功能, 是信息服務(wù)的主要界面,主要包括信息展現(xiàn)與人機(jī)交互、信息發(fā)布等。本次的展現(xiàn)選擇*的報(bào)表分析平臺(tái),詳細(xì)功能見(jiàn)附件一。1.2數(shù)據(jù)架構(gòu)設(shè)計(jì)r_i-展終用戶(hù)BI ToolsOLAPJo- rn/匯總數(shù)據(jù)明細(xì)數(shù)據(jù)星型模型企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)集市數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)包括 4 個(gè)層次的數(shù)據(jù):數(shù)據(jù)源、數(shù)據(jù)倉(cāng)庫(kù)層和數(shù) 據(jù)集市層。1)數(shù)據(jù)源(業(yè)務(wù)系統(tǒng))包含面向操作應(yīng)用的原始數(shù)據(jù)以及外部錄入 數(shù)據(jù),主要服務(wù)于高性能的事務(wù)處理。2)數(shù)據(jù)倉(cāng)庫(kù)層(包括ODS和DW/存儲(chǔ)企業(yè)的歷史數(shù)據(jù),其數(shù)據(jù)是規(guī) 范的、穩(wěn)定的。

20、i. 數(shù)據(jù)倉(cāng)庫(kù)包含當(dāng)前數(shù)據(jù)、綜合數(shù)據(jù)、歷史數(shù)據(jù)的組織和整理。通 過(guò)數(shù)據(jù)抽取平臺(tái)獲取的各業(yè)務(wù)數(shù)據(jù),從邏輯上和業(yè)務(wù)上是獨(dú)立 的、分散的,要實(shí)現(xiàn)一體化的查詢(xún)功能,必須對(duì)分散的業(yè)務(wù)數(shù)據(jù) 進(jìn)行抽取和整合。如將分散的單位基礎(chǔ)信息、預(yù)算數(shù)據(jù)、支出數(shù) 據(jù)通過(guò)一定的策略,整理形成一套編碼統(tǒng)一、業(yè)務(wù) xx 的數(shù)據(jù)體 系,這是一體化查詢(xún)系統(tǒng)成功的關(guān)鍵。3)數(shù)據(jù)集市層(包括 Relational Data Mart 和 Star-Schema DataMart和OLAP是面向部門(mén)的、滿(mǎn)足最終用戶(hù)需求的數(shù)據(jù),數(shù)據(jù) 集市中的數(shù)據(jù)是反規(guī)范的、匯總的。數(shù)據(jù)整理平臺(tái)基于各業(yè)務(wù)數(shù)據(jù),可以根據(jù)不同的用戶(hù)查詢(xún)需 求,定制數(shù)據(jù)整理策略

21、。根據(jù)查詢(xún)角度的不同,按決策的主題要 求形成當(dāng)前的基本數(shù)據(jù)層,按綜合決策的要求構(gòu)成綜合數(shù)據(jù)層, 隨著時(shí)問(wèn)的推移,由時(shí)間控制機(jī)制將當(dāng)前基本數(shù)據(jù)層轉(zhuǎn)為歷史數(shù) 據(jù)層。4)數(shù)據(jù)展現(xiàn)層(前端展現(xiàn))是面向業(yè)務(wù)用戶(hù)的需求展現(xiàn),包括使用 報(bào)表、多維分析、即席查詢(xún)等基本功能,提供告警、統(tǒng)計(jì)算法等 高級(jí)功能。第二章 基于基礎(chǔ)資料系統(tǒng)的數(shù)據(jù)模型設(shè)計(jì) 2.1 基本緯度數(shù)據(jù)模型設(shè)計(jì)“金財(cái)工程” 一體化需以系統(tǒng)統(tǒng)一的數(shù)據(jù)字典和統(tǒng)一的編碼體系為基 礎(chǔ),以統(tǒng)一的應(yīng)用支撐平臺(tái)作保障,通過(guò)本級(jí)財(cái)政業(yè)務(wù)流程的整合,實(shí)現(xiàn) 對(duì)任一筆資金的跟蹤和回溯。為了實(shí)現(xiàn)對(duì)數(shù)據(jù)的集中使用,就要從需求出發(fā),在充分考慮到數(shù)據(jù)的可 共享性、系統(tǒng)未來(lái)的可擴(kuò)

22、展性等因素,定義一套標(biāo)準(zhǔn)數(shù)據(jù)格式,為系統(tǒng)的 建設(shè)打下一個(gè)良好的基礎(chǔ)。它包括各種涉及的基礎(chǔ)編碼表:如預(yù)算科目表、 經(jīng)濟(jì)科目表、預(yù)算單位編碼表、企業(yè)登記表、稅種表、預(yù)算級(jí)次表等。數(shù)據(jù)字典是財(cái)政業(yè)務(wù)系統(tǒng)間需要統(tǒng)一維護(hù)管理、支持同步和共享的數(shù)據(jù) 元、基礎(chǔ)代碼集、基礎(chǔ)配置數(shù)據(jù)和相關(guān)命名規(guī)范的統(tǒng)稱(chēng)。其中數(shù)據(jù)元又稱(chēng) 數(shù)據(jù)類(lèi)型,包括定義、標(biāo)識(shí)、表示以及 XX等一系列屬性描述的數(shù)據(jù)單元。 通常所說(shuō)的業(yè)務(wù)要素就是財(cái)政業(yè)務(wù)系統(tǒng)中構(gòu)成業(yè)務(wù)數(shù)據(jù)的比較重要的數(shù)據(jù) 元,該類(lèi)數(shù)據(jù)元均有相應(yīng)的基礎(chǔ)代碼集。數(shù)據(jù)字典中主要包括的內(nèi)容:財(cái)政業(yè)務(wù)管理涉及到的所有的數(shù)據(jù)元及共 享的基礎(chǔ)代碼集;共用的用戶(hù)列表;相關(guān)配置數(shù)據(jù)及系統(tǒng)開(kāi)發(fā)需遵循

23、的命 名規(guī)范。我們將按照省廳建設(shè)的基礎(chǔ)數(shù)據(jù)資料庫(kù)來(lái)進(jìn)行基本緯度模型的建設(shè)。2.2基礎(chǔ)資料系統(tǒng)維護(hù)功能模塊功能模塊功能說(shuō)明框架單點(diǎn)登錄多系統(tǒng)實(shí)現(xiàn)單點(diǎn)登錄權(quán)限控制統(tǒng)一的功能權(quán)限控制機(jī)制日志統(tǒng)一的系統(tǒng)級(jí)、功能級(jí)、數(shù)據(jù)級(jí)操作日志選擇年度選擇所需要操作的年度和帳套,設(shè)置默認(rèn)的年度;修改密碼修改當(dāng)前用戶(hù)的登錄系統(tǒng)密碼;注銷(xiāo)注銷(xiāo)當(dāng)前用戶(hù),退出系統(tǒng),返回到登錄頁(yè)面;幫助隱藏隱臧和顯示頁(yè)面上方軟件標(biāo)題欄和左方采單欄;基礎(chǔ)資料創(chuàng)建新年度系統(tǒng)設(shè)置應(yīng)用設(shè)置設(shè)置應(yīng)用的名稱(chēng)以及一些基礎(chǔ)信息;選項(xiàng)表設(shè)置設(shè)置選項(xiàng)表以及下拉菜單信息;參數(shù)設(shè)置設(shè)置各個(gè)應(yīng)用的所在服務(wù)器的IP值以及一些其他的固定的參數(shù);應(yīng)用權(quán)限設(shè)置設(shè)置數(shù)據(jù)授權(quán)中的

24、用戶(hù)和單位對(duì)應(yīng)用中的要素的權(quán)限是否公有;用戶(hù)對(duì)賬本年度設(shè)置用戶(hù)與賬本年度對(duì)應(yīng)關(guān)系,也即用戶(hù)訪問(wèn)賬本年度的權(quán)限;緩存管理刷新緩存的功能;要素維護(hù)預(yù)算單位設(shè)置預(yù)算單位名稱(chēng)以及基本信息;功能科目設(shè)置功能科目名稱(chēng)以及基本信息;會(huì)計(jì)科目設(shè)置會(huì)計(jì)科目名稱(chēng)以及基本信息;經(jīng)濟(jì)科目設(shè)置經(jīng)濟(jì)科目名稱(chēng)以及基本信息;預(yù)算項(xiàng)目設(shè)置預(yù)算項(xiàng)目名稱(chēng)以及基本信息;收費(fèi)項(xiàng)目設(shè)置收費(fèi)項(xiàng)目名稱(chēng)以及基本信息;資金來(lái)源設(shè)置資金來(lái)源名稱(chēng)以及基本信息;指標(biāo)類(lèi)型設(shè)置指標(biāo)類(lèi)型名稱(chēng)以及基本信息;資金性質(zhì)設(shè)置資金性質(zhì)名稱(chēng)以及基本信息;財(cái)政歸口部門(mén)設(shè)置財(cái)政歸口部門(mén)名稱(chēng)以及基本信息;數(shù)據(jù)授權(quán)用戶(hù)對(duì)預(yù)算單位設(shè)置用戶(hù)與預(yù)算單位對(duì)應(yīng)關(guān)系;用戶(hù)對(duì)會(huì)計(jì)科目設(shè)置用

25、戶(hù)與會(huì)計(jì)科目對(duì)應(yīng)關(guān)系;用戶(hù)對(duì)功能科目設(shè)置用戶(hù)與功能科目對(duì)應(yīng)關(guān)系;用戶(hù)對(duì)經(jīng)濟(jì)科目設(shè)置用戶(hù)與經(jīng)濟(jì)科目對(duì)應(yīng)關(guān)系;用戶(hù)對(duì)預(yù)算項(xiàng)目設(shè)置用戶(hù)與預(yù)算項(xiàng)目對(duì)應(yīng)關(guān)系;用戶(hù)對(duì)收費(fèi)項(xiàng)目設(shè)置用戶(hù)與收費(fèi)項(xiàng)目對(duì)應(yīng)關(guān)系;用戶(hù)對(duì)指標(biāo)類(lèi)型設(shè)置用戶(hù)與指標(biāo)類(lèi)型對(duì)應(yīng)關(guān)系;用戶(hù)對(duì)資金來(lái)源設(shè)置用戶(hù)與資金來(lái)源對(duì)應(yīng)關(guān)系;單位對(duì)會(huì)計(jì)科目設(shè)置預(yù)算單位與會(huì)計(jì)科目對(duì)應(yīng)關(guān)系;單位對(duì)功能科目設(shè)置預(yù)算單位與功能科目對(duì)應(yīng)關(guān)系;單位對(duì)經(jīng)濟(jì)科目設(shè)置預(yù)算單位與經(jīng)濟(jì)科目對(duì)應(yīng)關(guān)系;單位對(duì)預(yù)算項(xiàng)目設(shè)置預(yù)算單位與預(yù)算項(xiàng)目對(duì)應(yīng)關(guān)系;處室對(duì)單位設(shè)置財(cái)政歸口部門(mén)與預(yù)算單位之間的對(duì)應(yīng)關(guān)系;用戶(hù)對(duì)歸口設(shè)置用戶(hù)與財(cái)政歸口部門(mén)之間的對(duì)應(yīng)關(guān)系;功能授權(quán)用戶(hù)設(shè)置用戶(hù)的基本信息以及用戶(hù)與財(cái)

26、政歸口部門(mén)和預(yù)算 單位之間的對(duì)應(yīng)關(guān)系;崗位設(shè)置崗位的基本信息;功能設(shè)置功能(也即各個(gè)應(yīng)用的菜單和按鈕)的基本信息和鏈接地址等;功能轉(zhuǎn)授把當(dāng)前用戶(hù)的功能轉(zhuǎn)授給其他用戶(hù)的設(shè)置;用戶(hù)對(duì)崗位設(shè)置用戶(hù)與崗位的對(duì)應(yīng)關(guān)系;崗位對(duì)功能設(shè)置崗位與功能的對(duì)應(yīng)關(guān)系;權(quán)限轉(zhuǎn)授用戶(hù)對(duì)會(huì)計(jì)科目把當(dāng)前用戶(hù)會(huì)計(jì)科目的數(shù)據(jù)權(quán)限轉(zhuǎn)授給其他用戶(hù);用戶(hù)對(duì)經(jīng)濟(jì)科目把當(dāng)前用戶(hù)經(jīng)濟(jì)科目的數(shù)據(jù)權(quán)限轉(zhuǎn)授給其他用戶(hù);用戶(hù)對(duì)指標(biāo)類(lèi)型把當(dāng)前用戶(hù)指標(biāo)類(lèi)型的數(shù)據(jù)權(quán)限轉(zhuǎn)授給其他用戶(hù);用戶(hù)對(duì)收費(fèi)項(xiàng)目把當(dāng)前用戶(hù)收費(fèi)項(xiàng)目的數(shù)據(jù)權(quán)限轉(zhuǎn)授給其他用戶(hù);用戶(hù)對(duì)預(yù)算項(xiàng)目把當(dāng)前用戶(hù)預(yù)算項(xiàng)目的數(shù)據(jù)權(quán)限轉(zhuǎn)授給其他用戶(hù);用戶(hù)對(duì)資金來(lái)源把當(dāng)前用戶(hù)資金來(lái)源的數(shù)據(jù)權(quán)限轉(zhuǎn)授給其他用戶(hù);

27、2.3數(shù)據(jù)邏輯建模邏輯建模是數(shù)據(jù)倉(cāng)庫(kù)實(shí)施中的重要一環(huán),因?yàn)樗苤苯臃从吵鰶Q策者 管理者的需求,同時(shí)對(duì)系統(tǒng)的物理實(shí)施有著重要的指導(dǎo)作用。目前較常用 的兩種建模方法是所謂的第三范式(3NF,即Third Normal Form)和星型模 式(Star-Schema) ,3NF是數(shù)據(jù)庫(kù)設(shè)計(jì)的基礎(chǔ)理論,這里不再展開(kāi)。星型模式是一種多xx的數(shù)據(jù)關(guān)系,它由一個(gè)事實(shí)表(Fact Table)和一組 xx表(Dimension Table)組成。每個(gè)xx表都有一個(gè)xx作為主鍵,所有這 些xx的主鍵組合成事實(shí)表的主鍵。事實(shí)表的非主鍵屬性稱(chēng)為事實(shí)(Fact), 它們一般都是數(shù)值或其他可以進(jìn)行計(jì)算的數(shù)據(jù);而xxxx

28、是文字、時(shí)間等類(lèi) 型的數(shù)據(jù),按這種方式組織好數(shù)據(jù)我們就可以按照不同的xx(事實(shí)表的主鍵的部分或全部)來(lái)對(duì)這些事實(shí)數(shù)據(jù)進(jìn)行求和(summary)、求平均(average)、計(jì)數(shù)(count)、百分比(percent)的聚集計(jì)算,甚至可以做20-80分析。這樣就可以從不同的角度數(shù)字來(lái)分析業(yè)務(wù)主題的情況,下面給出一 個(gè)直觀的例子圖8-3預(yù)算執(zhí)行情況星型模型圖三是一個(gè)典型的財(cái)政預(yù)算執(zhí)行情況分析的模型設(shè)計(jì),其中加邊框的為主關(guān)鍵字(PK, Primary Key),其中預(yù)算執(zhí)行情況分析表是一個(gè)事實(shí)表,其 中的指標(biāo)金額,計(jì)劃金額,支付金額是需要從各角度觀察的數(shù)據(jù)(事實(shí)),而觀察的角度是有功能分類(lèi)、業(yè)務(wù)處室、

29、時(shí)間和單位這四個(gè)方面組合進(jìn)行, 這些分析角度的有機(jī)組合,可以對(duì)指標(biāo)金額、計(jì)劃金額和支付金額進(jìn)行多 種組合的數(shù)據(jù)統(tǒng)計(jì)分析,以此實(shí)現(xiàn)對(duì)預(yù)算執(zhí)行情況的xx(維)多層次(數(shù)據(jù)不同的匯總程度)的分析,預(yù)算執(zhí)行情況分析人員既可以宏觀地看到財(cái)政業(yè) 務(wù)的整體情況,又可以微觀地觀察到具體某預(yù)算單位某天支出的細(xì)節(jié)信息。多維分析的時(shí)候,XX選擇越多數(shù)據(jù)越細(xì)節(jié)(劃分得更細(xì)了),XX選擇越少數(shù) 據(jù)越匯總越宏觀。這樣一個(gè)中間一個(gè)大表形成主表,周?chē)唤M小表與主表相關(guān)聯(lián)的結(jié)構(gòu), 形態(tài)上呈星星和雪花的形狀,星型模型是數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型與其他數(shù)據(jù) 庫(kù)應(yīng)用相區(qū)分的一個(gè)重要特征。數(shù)據(jù)倉(cāng)庫(kù)典型的邏輯模型形狀第三章數(shù)據(jù)抽取平臺(tái)建設(shè)數(shù)據(jù)轉(zhuǎn)

30、換平臺(tái)是將分布式物理存儲(chǔ)的源數(shù)據(jù),轉(zhuǎn)換到統(tǒng)一存儲(chǔ)的數(shù)據(jù)倉(cāng)庫(kù)中。從分布式源數(shù)據(jù)庫(kù)中獲取對(duì)財(cái)政一體化查詢(xún)系統(tǒng)用戶(hù)有用的數(shù)據(jù)、 過(guò)濾掉不需要的內(nèi)容、驗(yàn)證數(shù)據(jù)的質(zhì)量、數(shù)據(jù)清理、數(shù)據(jù)融合、到最后數(shù) 據(jù)裝載入數(shù)據(jù)倉(cāng)庫(kù)中。數(shù)據(jù)抽取是數(shù)據(jù)進(jìn)入倉(cāng)庫(kù)的XX,財(cái)政一體化查詢(xún)系統(tǒng)涉及多個(gè)分布式數(shù)據(jù)源,需要通過(guò)抽取過(guò)程將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)、 外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲(chǔ)介質(zhì)中導(dǎo)入到數(shù)據(jù)倉(cāng)庫(kù)。根據(jù)源數(shù)據(jù)的不同 性質(zhì),應(yīng)選用不同的數(shù)據(jù)抽取方法。本系統(tǒng)中,對(duì)于Oracle、Sybase等關(guān) 系數(shù)據(jù)庫(kù)中的數(shù)據(jù), 我們通過(guò)交易 xx 的方法進(jìn)行數(shù)據(jù)抽取, 而對(duì)于其它半 結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),我們選用靜態(tài)數(shù)據(jù)、時(shí)間標(biāo)記、文件比較

31、等方法 實(shí)現(xiàn)數(shù)據(jù)抽取。3.1 設(shè)計(jì)原則高數(shù)據(jù)質(zhì)量原則:保證進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的質(zhì)量,將垃圾數(shù)據(jù)排除在數(shù)據(jù)倉(cāng)庫(kù)之 外。自動(dòng)化原則:ETL過(guò)程應(yīng)盡量自動(dòng)完成,減少人為干預(yù)程度??勺匪菰瓌t:ETL的相關(guān)工作結(jié)果,應(yīng)留有痕跡,給出相應(yīng)的報(bào)告,以便跟蹤 和分析。參數(shù)化設(shè)計(jì)原則:采用參數(shù)化的設(shè)計(jì)思想, 減少編程的工作量, 增強(qiáng)系統(tǒng)的靈活性 和可維護(hù)性。效率性原則:采用并行處理等設(shè)計(jì)方法,減少 ETL時(shí)間,提高ETL效率。源系統(tǒng)不修改原則:盡量不對(duì)源系統(tǒng)進(jìn)行修改,將對(duì)源系統(tǒng)的影響降低到最低程度。方便性原則。ETL設(shè)計(jì)應(yīng)充分考慮系統(tǒng)運(yùn)行后管理和維護(hù)的方便性和xx。3.2 ETL抽取過(guò)程設(shè)計(jì)ETL工具采用Cog

32、nos產(chǎn)品本身的ETL工具3.2.1 ETL過(guò)程概述ETL流程是指源系統(tǒng)數(shù)據(jù)經(jīng)過(guò)數(shù)據(jù)抽取、轉(zhuǎn)換和加載處理進(jìn)入數(shù)據(jù)倉(cāng)庫(kù) 的整個(gè)過(guò)程。ETL流程主要包括以下主要步驟:1. 數(shù)據(jù)抽?。簲?shù)據(jù)抽取就是將數(shù)據(jù)倉(cāng)庫(kù)需要的業(yè)務(wù)數(shù)據(jù)抽取到數(shù)據(jù)轉(zhuǎn)換區(qū)的過(guò) 程。(這里的數(shù)據(jù)轉(zhuǎn)換區(qū)也可以?xún)H僅是一個(gè)邏輯的概念,即數(shù)據(jù)的抽取到 轉(zhuǎn)換采取數(shù)據(jù)不落地的方式完成)2. 數(shù)據(jù)檢查和出錯(cuò)處理:在數(shù)據(jù)轉(zhuǎn)換區(qū)中,對(duì)源系統(tǒng)數(shù)據(jù)質(zhì)量進(jìn)行檢查,形成檢查報(bào)告,并 進(jìn)行相應(yīng)的出錯(cuò)處理,對(duì)于嚴(yán)重錯(cuò)誤,需要系統(tǒng)維護(hù)人員現(xiàn)場(chǎng)做出相應(yīng)的 處理。3. 數(shù)據(jù)轉(zhuǎn)換:數(shù)據(jù)轉(zhuǎn)換包括對(duì)源系統(tǒng)數(shù)據(jù)進(jìn)行整理、剔除、合并、驗(yàn)證等一系列 轉(zhuǎn)換工作,最后形成數(shù)據(jù)倉(cāng)庫(kù)物理數(shù)據(jù)

33、結(jié)構(gòu)所需的數(shù)據(jù),存放在轉(zhuǎn)換區(qū)的 數(shù)據(jù)表中。4. 數(shù)據(jù)加載:數(shù)據(jù)加載將數(shù)據(jù)轉(zhuǎn)換的結(jié)果數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù),并形成數(shù)據(jù)加載 情況的報(bào)告。3.2.2 ETL 過(guò)程詳述本期項(xiàng)目ETL的過(guò)程具體描述如下:第一步: 數(shù)據(jù)抽取在源系統(tǒng)上啟動(dòng)數(shù)據(jù)抽取控制程序,完成以下工作:1、數(shù)據(jù)采集考慮到數(shù)據(jù)來(lái)源的多樣性和復(fù)雜性,數(shù)據(jù)采集主要包括:對(duì)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)采集:在日終結(jié)后,當(dāng)日數(shù)據(jù)自動(dòng)、增量地轉(zhuǎn)儲(chǔ)到數(shù)據(jù)備份機(jī)上,作為數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)源并成為數(shù)據(jù)備份策略的一 部分。對(duì)于稅收計(jì)劃、外部數(shù)據(jù)、納稅人財(cái)務(wù)報(bào)表的數(shù)據(jù)采集??筛鶕?jù)實(shí) 際需要,采用多種途徑。2、數(shù)據(jù)發(fā)送在數(shù)據(jù)采集完成后,各系統(tǒng)上的抽取控制程序?qū)?shù)據(jù)文件和校 驗(yàn)文件通

34、過(guò)局域網(wǎng)發(fā)送到數(shù)據(jù)轉(zhuǎn)換區(qū)。第二步:數(shù)據(jù)裝入轉(zhuǎn)換區(qū)1. 檢查數(shù)據(jù)是否到位根據(jù)校驗(yàn)文件,檢查源系統(tǒng)數(shù)據(jù)是否到位、是否存在傳輸錯(cuò)誤 等異常情況。如果數(shù)據(jù)不全或傳輸出現(xiàn)錯(cuò)誤,如果出錯(cuò),將出錯(cuò)結(jié) 果寫(xiě)入錯(cuò)誤XX,重新執(zhí)行第一步。2. 將外部數(shù)據(jù)文件裝入 oracle 數(shù)據(jù)庫(kù)把來(lái)自外部源數(shù)據(jù)源的 XX 數(shù)據(jù)轉(zhuǎn)化成 oracle 數(shù)據(jù)庫(kù)、表結(jié)構(gòu)3. 修改系統(tǒng)狀態(tài):待該步驟工作完成后,將系統(tǒng)狀態(tài)改為抽取工作完成。注:若直接從業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)中抽取數(shù)據(jù),則無(wú)須數(shù)據(jù)轉(zhuǎn)換區(qū)步驟。第三步:數(shù)據(jù)質(zhì)量檢查和出錯(cuò)處理1. 狀態(tài)檢查:查詢(xún)參數(shù)表,如果數(shù)據(jù)抽取工作已經(jīng)完成,開(kāi)始執(zhí)行該步驟工 作。2. 數(shù)據(jù)質(zhì)量檢查:根據(jù)檢查規(guī)則,

35、數(shù)據(jù)質(zhì)量檢查程序掃描源數(shù)據(jù)數(shù)據(jù)表,根據(jù)規(guī)則檢 查數(shù)據(jù)是否合法,給出檢查報(bào)告和最終的數(shù)據(jù)質(zhì)量報(bào)告并寫(xiě)入數(shù)據(jù)庫(kù), 數(shù)據(jù)質(zhì)量檢查結(jié)果寫(xiě)入質(zhì)量檢查報(bào)告。3. 出錯(cuò)處理:如果出現(xiàn)嚴(yán)重出錯(cuò),停止 ETL工作,需要系統(tǒng)維護(hù)人員現(xiàn)場(chǎng)做出相應(yīng)的處理,修改正確后,重新執(zhí)行該步驟工作;對(duì)于警告級(jí)出錯(cuò),繼續(xù) 進(jìn)行下述步驟。4. 修改系統(tǒng)狀態(tài):待該步驟工作完成后,將系統(tǒng)狀態(tài)改為數(shù)據(jù)質(zhì)量檢查工作完成。 第四步:數(shù)據(jù)轉(zhuǎn)換1、狀態(tài)檢查 查詢(xún)參數(shù)表,如果數(shù)據(jù)質(zhì)量檢查工作已經(jīng)完成,開(kāi)始執(zhí)行該步工作。2、數(shù)據(jù)轉(zhuǎn)換 根據(jù)數(shù)據(jù)倉(cāng)庫(kù)要求的數(shù)據(jù)源格式在 Staging Areaxx 進(jìn)行并行轉(zhuǎn)換處理,并將轉(zhuǎn)換的結(jié)果數(shù)據(jù)存放在待裝載數(shù)據(jù)存放

36、區(qū)。3、生成轉(zhuǎn)換報(bào)告 記錄數(shù)據(jù)轉(zhuǎn)換情況,并寫(xiě)入數(shù)據(jù)庫(kù)轉(zhuǎn)換 xx 中。4、修改系統(tǒng)狀態(tài): 待該步驟工作完成后,將系統(tǒng)狀態(tài)改為數(shù)據(jù)轉(zhuǎn)換工作完成。 第五步:數(shù)據(jù)加載狀態(tài)檢查 查詢(xún)參數(shù)表,如果數(shù)據(jù)質(zhì)量檢查工作已經(jīng)完成,開(kāi)始執(zhí)行該步驟工數(shù)據(jù)裝入數(shù)據(jù)倉(cāng)庫(kù)采用非依賴(lài)數(shù)據(jù)并行加載的策略,將待裝載數(shù)據(jù)區(qū)的數(shù)據(jù)裝入中心數(shù)據(jù)倉(cāng)庫(kù),如果標(biāo)準(zhǔn)代碼表發(fā)生變化,數(shù)據(jù)裝載程序?qū)?biāo)準(zhǔn)代碼的變化 情況增量加載到數(shù)據(jù)倉(cāng)庫(kù)代碼表中。數(shù)據(jù)加載情況報(bào)告記錄數(shù)據(jù)加載情況,并寫(xiě)入數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的參數(shù)表中。修改系統(tǒng)狀態(tài):待該步驟工作完成后,將系統(tǒng)狀態(tài)改為數(shù)據(jù)轉(zhuǎn)換工作完成。第六步:加載時(shí)間維1. 狀態(tài)檢查查詢(xún)參數(shù)表,如果數(shù)據(jù)加載工作已經(jīng)完成,開(kāi)

37、始執(zhí)行該步驟工作。2. 加載時(shí)間維根據(jù)當(dāng)前的時(shí)間,依據(jù)數(shù)據(jù)集市多 xx 模型,完成時(shí)間 xx 的加載工 作。3. 修改系統(tǒng)狀態(tài):待該步驟工作完成后,將系統(tǒng)狀態(tài)改為時(shí)間維加載工作完成。第七步:加載事實(shí)表1. 狀態(tài)檢查查詢(xún)參數(shù)表,如果時(shí)間維加載工作已經(jīng)完成,開(kāi)始執(zhí)行該步驟工作。2. 加載事實(shí)表以數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)為數(shù)據(jù)源,依據(jù)數(shù)據(jù)集市多維模型,完成事實(shí)表的 加載工作。3. 修改系統(tǒng)狀態(tài):待該步驟工作完成后,將系統(tǒng)狀態(tài)改為事實(shí)表加載工作完成。第八步:加載聚合表1. 狀態(tài)檢查查詢(xún)參數(shù)表,如果事實(shí)表加載工作已經(jīng)完成,開(kāi)始執(zhí)行該步驟工作。2. 加載聚合表以事實(shí)表為數(shù)據(jù)源,依據(jù)數(shù)據(jù)集市多維模型,完成聚合表的加載工

38、 作。3. 修改系統(tǒng)狀態(tài):待該步驟工作完成后,將系統(tǒng)狀態(tài)改為 ETL工作結(jié)束。3.2.3 ETL 時(shí)間約束數(shù)據(jù)抽取的范圍涉及財(cái)政核心業(yè)務(wù)系統(tǒng)數(shù)據(jù),主要是五大塊內(nèi)容:稅 收收入數(shù)據(jù)、非稅收入數(shù)據(jù)、部門(mén)預(yù)算、支出數(shù)據(jù)、專(zhuān)項(xiàng)支出數(shù)據(jù)、其他 系統(tǒng)數(shù)據(jù)。其中:其他系統(tǒng)數(shù)據(jù)包含固定資產(chǎn)、統(tǒng)發(fā)工資等相關(guān)財(cái)政業(yè)務(wù) 系統(tǒng)數(shù)據(jù)。平臺(tái)在數(shù)據(jù)抽取時(shí)根據(jù)用戶(hù)對(duì)數(shù)據(jù)的查詢(xún)需求,可以實(shí)時(shí)、按 天、按月取數(shù)。是指對(duì)在每天的特定時(shí)間必須要完成的事件進(jìn)行嚴(yán)格的控制。對(duì)時(shí) 間的限制建議可以表示為下圖:圖4-2 : ETL時(shí)間階段示意圖從上圖可以看出,為了保證每天業(yè)務(wù)人員及時(shí)使用數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),對(duì) ETL時(shí)間通常有如下要求:3:30之

39、前完成數(shù)據(jù)從源系統(tǒng)到數(shù)據(jù)轉(zhuǎn)換區(qū)的數(shù)據(jù)抽取工作。5:00之前完成數(shù)據(jù)轉(zhuǎn)換區(qū)內(nèi)的數(shù)據(jù)轉(zhuǎn)換工作。6:00之前完成轉(zhuǎn)換后數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)加載工作。8:00之前完成數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)集市多維數(shù)據(jù)庫(kù)的ETL工作。ETL的時(shí)間窗口通常在4-6小時(shí),考慮到將來(lái)系統(tǒng)數(shù)據(jù)的增長(zhǎng),ETL 工具的處理效率和擴(kuò)展性是關(guān)鍵。3.3后臺(tái)對(duì)應(yīng)規(guī)則的設(shè)置平臺(tái)中的數(shù)據(jù)由于來(lái)自不同的業(yè)務(wù)系統(tǒng),各數(shù)據(jù)的編碼可能不一致,系統(tǒng)能與后臺(tái)設(shè)置各編碼的進(jìn)行對(duì)應(yīng)關(guān)系管理;用戶(hù)對(duì)預(yù)算單位設(shè)置用戶(hù)與預(yù)算單位對(duì)應(yīng)關(guān)系;用戶(hù)對(duì)會(huì)計(jì)科目設(shè)置用戶(hù)與會(huì)計(jì)科目對(duì)應(yīng)關(guān)系;用戶(hù)對(duì)功能科目設(shè)置用戶(hù)與功能科目對(duì)應(yīng)關(guān)系;用戶(hù)對(duì)經(jīng)濟(jì)科目設(shè)置用戶(hù)與經(jīng)濟(jì)科目對(duì)應(yīng)關(guān)系;用戶(hù)對(duì)預(yù)

40、算項(xiàng)目設(shè)置用戶(hù)與預(yù)算項(xiàng)目對(duì)應(yīng)關(guān)系;用戶(hù)對(duì)收費(fèi)項(xiàng)目設(shè)置用戶(hù)與收費(fèi)項(xiàng)目對(duì)應(yīng)關(guān)系;用戶(hù)對(duì)指標(biāo)類(lèi)型設(shè)置用戶(hù)與指標(biāo)類(lèi)型對(duì)應(yīng)關(guān)系;用戶(hù)對(duì)資金來(lái)源設(shè)置用戶(hù)與資金來(lái)源對(duì)應(yīng)關(guān)系;單位對(duì)會(huì)計(jì)科目設(shè)置預(yù)算單位與會(huì)計(jì)科目對(duì)應(yīng)關(guān)系;單位對(duì)功能科目設(shè)置預(yù)算單位與功能科目對(duì)應(yīng)關(guān)系;單位對(duì)經(jīng)濟(jì)科目設(shè)置預(yù)算單位與經(jīng)濟(jì)科目對(duì)應(yīng)關(guān)系;單位對(duì)預(yù)算項(xiàng)目設(shè)置預(yù)算單位與預(yù)算項(xiàng)目對(duì)應(yīng)關(guān)系;處室對(duì)單位設(shè)置財(cái)政歸口部門(mén)與預(yù)算單位之間的對(duì)應(yīng)關(guān)系;用戶(hù)對(duì)歸口設(shè)置用戶(hù)與財(cái)政歸口部門(mén)之間的對(duì)應(yīng)關(guān)系;預(yù)算項(xiàng)目對(duì)執(zhí)行項(xiàng)目設(shè)置預(yù)算項(xiàng)目與執(zhí)行項(xiàng)目之間的對(duì)應(yīng)關(guān)系331數(shù)據(jù)抽取程序的設(shè)計(jì)原則數(shù)據(jù)倉(cāng)庫(kù)需要的數(shù)據(jù)存在于不同種類(lèi)、不同技術(shù)平臺(tái)的業(yè)務(wù)系統(tǒng)中, 數(shù)據(jù)抽取就是

41、從這些不同的數(shù)據(jù)源中抽取數(shù)據(jù)作為數(shù)據(jù)倉(cāng)庫(kù)的原材料。本 項(xiàng)目數(shù)據(jù)抽取設(shè)計(jì)時(shí),采用以下方法:1. 直接從源業(yè)務(wù)系統(tǒng)抽取最原始的數(shù)據(jù),不抽取派生數(shù)據(jù)。2. 只抽取源系統(tǒng)中本期項(xiàng)目需要的數(shù)據(jù)庫(kù)表。3.3.2數(shù)據(jù)抽取方式1. 初始抽取數(shù)據(jù)初始抽取指按照需求設(shè)計(jì)要求,把數(shù)據(jù)倉(cāng)庫(kù)要求的各業(yè)務(wù)系統(tǒng)的 數(shù)據(jù)源一次性抽取并加載到數(shù)據(jù)倉(cāng)庫(kù),本項(xiàng)目初始抽取的數(shù)據(jù)范圍為源業(yè) 務(wù)系統(tǒng)當(dāng)天日終后的數(shù)據(jù)。初次加載時(shí)間可定為投入運(yùn)行的當(dāng)月業(yè)務(wù)系統(tǒng)處理結(jié)束后進(jìn)行。2. 增量抽取在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)投入運(yùn)行后, 只抽取業(yè)務(wù)系統(tǒng)的增量數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù), 增量數(shù)據(jù)包括業(yè)務(wù)系統(tǒng)新增數(shù)據(jù)和變化數(shù)據(jù)兩部分,采用增量抽取的方法 確保每次最小的數(shù)據(jù)子集加載到數(shù)據(jù)倉(cāng)庫(kù)里。第四章 數(shù)據(jù)整理平臺(tái)建設(shè)數(shù)據(jù)整理平臺(tái)實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)中當(dāng)前數(shù)據(jù)、 綜合數(shù)據(jù)、 歷史數(shù)據(jù)的組織和 整理。通過(guò)數(shù)據(jù)抽取平臺(tái)獲取的各業(yè)務(wù)數(shù)據(jù), 從邏輯上和業(yè)務(wù)上是獨(dú)立的、 分

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論