IBM數(shù)據(jù)倉庫解決方案簡_第1頁
IBM數(shù)據(jù)倉庫解決方案簡_第2頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、技術(shù)架構(gòu)設(shè)計(jì)成功地實(shí)施一個(gè)倉庫項(xiàng)目,通常需要很長的時(shí)間。假如僅僅著眼于短期成果,缺乏整體考慮,接受一種不健全的體系結(jié)構(gòu),不僅會增加系統(tǒng)開發(fā)和維護(hù)成本,而 且必將對發(fā)揮數(shù)據(jù)倉庫的作用造成不利的影響。因此一個(gè)綜合,清楚的遠(yuǎn)景規(guī)劃及 技術(shù)實(shí)施藍(lán)圖將在整個(gè)項(xiàng)目的實(shí)施過程中起到重要作用。技術(shù)架構(gòu)必需具有高度先進(jìn)性和可擴(kuò)展性,以滿足業(yè)務(wù)需求的不斷變化。一個(gè)完整的數(shù)據(jù)倉庫系統(tǒng)包括數(shù)據(jù)源、數(shù)據(jù)轉(zhuǎn)換區(qū)、數(shù)據(jù)倉庫、數(shù)據(jù)集市、和數(shù)據(jù)呈現(xiàn)層,通過數(shù)據(jù)倉庫不同層次之間的加工過程,實(shí)現(xiàn)財(cái)政從數(shù)據(jù)資產(chǎn)向信息資產(chǎn)的轉(zhuǎn)化過程。在不同層次之間的數(shù)據(jù)加工過程需要通過 ETL 技術(shù)實(shí)現(xiàn),并對整個(gè)過程進(jìn)行有效的元數(shù)據(jù)管理。基于對需求的

2、理解,基于財(cái)政部的信息系統(tǒng)框架模型基礎(chǔ)之上的財(cái)政決策支持 系統(tǒng)技術(shù)架構(gòu)如下圖所示:如上圖所示意,通過搭建機(jī)敏的、可擴(kuò)展技術(shù)架構(gòu),在保持?jǐn)?shù)據(jù)集市穩(wěn)定性的同時(shí),可以不斷增加數(shù)據(jù)源,增加應(yīng)用數(shù)據(jù)層、增加應(yīng)用層,滿足不斷增加的業(yè)務(wù) 分析應(yīng)用需求。接受DW+ODS 的數(shù)據(jù)倉庫體系結(jié)構(gòu),使用全新的 ETL 模式對 ODS 進(jìn)程每日數(shù)據(jù)更新,按周或月周期對數(shù)據(jù)倉庫執(zhí)行 ETL 過程。使用 COGNOS BI 做為前端的查詢分析和數(shù)據(jù)挖掘工具,可滿足各種日常數(shù)據(jù)處理操作,從即時(shí)簡潔報(bào)表查詢到多維多級數(shù)據(jù)分析和挖掘,都能夠在統(tǒng)一 COGNOS BI 平臺上完成。數(shù)據(jù)源和數(shù)據(jù)接口數(shù)據(jù)源指存儲于財(cái)政各個(gè)業(yè)務(wù)系統(tǒng)的業(yè)

3、務(wù)數(shù)據(jù),以及將來的財(cái)政監(jiān)管和外部數(shù)據(jù)。數(shù)據(jù)倉庫系統(tǒng)將整合來自于這些系統(tǒng)的數(shù)據(jù),形成財(cái)政統(tǒng)一的、全都的基礎(chǔ)數(shù) 據(jù)集,并供應(yīng)應(yīng)不同的應(yīng)用主題形成數(shù)據(jù)集市。各個(gè)系統(tǒng)在體系架構(gòu)、開發(fā)平臺、 數(shù)據(jù)定義、接口標(biāo)準(zhǔn)都會存在不同程度的差異;另外由于業(yè)務(wù)的不斷變化,歷史數(shù) 據(jù)與當(dāng)前數(shù)據(jù)之間的含義也可能存在不同,因此數(shù)據(jù)整合必需充分考慮源系統(tǒng)在技 術(shù)和數(shù)據(jù)方面存在的差異。數(shù)據(jù)倉庫系統(tǒng)將接受文本文件的方式從源系統(tǒng)獵取數(shù)據(jù)。每個(gè)源系統(tǒng)會就與數(shù)據(jù)倉庫之間就傳輸數(shù)據(jù)接口文件(IFF)的格式和方法制定標(biāo)準(zhǔn),稱之為接口規(guī)范。每個(gè)數(shù)據(jù)源會首先通過各自的數(shù)據(jù)導(dǎo)出程序(Extractor)生成接口文件存儲在Extractor 負(fù)責(zé)

4、各自范圍內(nèi)導(dǎo)出數(shù)據(jù)的完備性和全都性,包括:依照各自的業(yè)務(wù)規(guī)章確定增量數(shù)據(jù)的導(dǎo)出方法保證導(dǎo)出文件的格式符合接口規(guī)范的要求保證導(dǎo)出文件的傳輸時(shí)間的準(zhǔn)時(shí)性保證接口文件的數(shù)據(jù)質(zhì)量,不錯(cuò)數(shù)、不丟數(shù)、不多數(shù)財(cái)政數(shù)據(jù)倉庫財(cái)政數(shù)據(jù)倉庫(EDW,存儲和管理來自源數(shù)據(jù)系統(tǒng)的數(shù)據(jù),依據(jù)數(shù)據(jù)模型分主題進(jìn)行組織和存放,包括當(dāng)期的和較長時(shí)間的歷史數(shù)據(jù)。數(shù)據(jù)倉庫的核心是企業(yè)級數(shù)據(jù)模型的規(guī)劃和設(shè)計(jì),是全部應(yīng)用的基礎(chǔ)。接下來我們分別對 EDW 每個(gè)數(shù)據(jù)區(qū)域做具體介紹。接口文件區(qū)接口文件區(qū)是存儲和處理接口文件的區(qū)域,如前面章節(jié)所述,接口文件區(qū)在系統(tǒng)下依據(jù)特定的名目結(jié)構(gòu)組織起來。用一些系統(tǒng)命令和工具來管理。對每 誰能改等。SSA(

5、SOR Staging Area)SSA 的主要目的是支持把接口文件的裝載到數(shù)據(jù)庫,對其進(jìn)行驗(yàn)證和處理, 然后把數(shù)據(jù)整合到 SORSOR 內(nèi)已有的數(shù)據(jù)進(jìn)行查找和比較。SSA 內(nèi)數(shù)據(jù)結(jié)構(gòu)的設(shè)計(jì)原則是最大限度的利用接口文件的數(shù)據(jù)結(jié)構(gòu),盡量降低實(shí)體的個(gè)數(shù),同時(shí)很好的支持后續(xù)的 ETL 過程。SOR(System Of Record)SOR 是基于模型開發(fā)的一套符合 3NF 范式規(guī)范的表結(jié)構(gòu)。SOR 存儲了數(shù)據(jù)倉庫內(nèi)最細(xì)節(jié)層次的數(shù)據(jù),依據(jù)不同的主題域進(jìn)一步分分類組織。此模型是整個(gè)數(shù)據(jù)倉庫數(shù)據(jù)模型的核心,其設(shè)計(jì)為具有足夠的機(jī)敏性,以能夠應(yīng)對添加 更多的數(shù)據(jù)源,支持更多分析需求,同時(shí)也能夠支持進(jìn)一步升級和

6、更新。SOR 在一些 關(guān)鍵的屬性值上會跟蹤變化(比如客戶的信用度、狀態(tài)等。跟蹤變化的常見方法就是利用漸變維的 Type 2 方法來處理記錄,在表內(nèi)增加一條記錄變化數(shù)據(jù)的新記錄。同時(shí)為了降低不必要的存儲空間的鋪張(相同數(shù)據(jù) 的重復(fù)存儲,我們可以把實(shí)體中動態(tài)變化的屬性與靜態(tài)不變或只需掩蓋不需跟蹤變化的屬性分開。比如對用戶,我們可以用一張表存放不變化的用戶 戶靜態(tài)表內(nèi)的數(shù)據(jù)也復(fù)制一份。匯總數(shù)據(jù)區(qū) Summary ETL由于 SOR 是高度規(guī)范化的數(shù)據(jù),因此要完成一個(gè)查詢需要大量的關(guān)聯(lián)操作;同時(shí)數(shù)據(jù)集市中的數(shù)據(jù)粒度往往要比 SOR 高很多,對要成生數(shù)據(jù)集市所需數(shù)據(jù)也需要大量的匯總計(jì)算,因此假如我們把常

7、用的數(shù)據(jù)預(yù)先關(guān)聯(lián)和匯總好, 并讓其盡量多在多個(gè)數(shù)據(jù)集市的計(jì)算中共享,就能大幅度的提高整個(gè) ETL 工作和數(shù)據(jù)倉庫查詢的性能。反饋數(shù)據(jù)區(qū)(FeedbackArea) 進(jìn)行比較。MDR(Meta Data Repository)( 配置信息等。由于各個(gè)工具和系統(tǒng)都會生成自己的元數(shù)據(jù),同時(shí)我們還利用元數(shù)據(jù)管理工具把這些元數(shù)據(jù)盡可能的集中存儲到數(shù)據(jù)倉庫中的 MDR 內(nèi), 因此 MDR 的維護(hù)地還是在生成這些元數(shù)據(jù)的系統(tǒng)或工具內(nèi)。數(shù)據(jù)集市數(shù)據(jù)集市設(shè)計(jì)用途是要滿足特定的目的,同時(shí)具有查詢、多維分析、報(bào)表和數(shù)據(jù)挖掘功能。這與企業(yè)數(shù)據(jù)倉庫截然不同,設(shè)計(jì)時(shí)企業(yè)數(shù)據(jù)倉庫在信息內(nèi)容與結(jié)構(gòu) 方面盡可能擁有開放性與機(jī)敏

8、性。數(shù)據(jù)集市有以下特征: 特定范圍的查詢。它以用戶所要求的方式供應(yīng)企業(yè)數(shù)據(jù)倉庫的細(xì)節(jié)匯總。優(yōu)化數(shù)據(jù)集市為了支持特定工具的訪問而優(yōu)化。依據(jù)工具、依據(jù)企業(yè)數(shù) 庫中的大型數(shù)據(jù)庫,這可以改善數(shù)據(jù)集市的性能。(虛擬數(shù)據(jù)集市可以避開存儲數(shù)據(jù)的多個(gè)副本, 簡化了數(shù)據(jù)管理。數(shù)據(jù)集市,即 Data Mart,指面對專項(xiàng)應(yīng)用領(lǐng)域的分析主題。Data Mart過 OLAP模型,大大提高了前端查詢訪問的效率,用戶能便利地實(shí)現(xiàn)機(jī)敏、動態(tài)、快速、多角度、多層次地分析企業(yè)數(shù)據(jù)。同時(shí),也可以通過定制機(jī)敏的OLTP 查詢來了解明細(xì)數(shù)據(jù)。數(shù)據(jù)的抽取、轉(zhuǎn)換、加載( ETL)數(shù)據(jù)倉庫的數(shù)據(jù)來源于業(yè)務(wù)處理系統(tǒng),但是數(shù)據(jù)倉庫的數(shù)據(jù)并不是

9、對源系統(tǒng)數(shù)據(jù)的簡潔疊加,它需要依據(jù)數(shù)據(jù)倉庫的規(guī)律模型和物理模型,在源系統(tǒng)數(shù)據(jù)分析的基礎(chǔ)上,依據(jù)源系統(tǒng)數(shù)據(jù)和數(shù)據(jù)倉庫數(shù)據(jù)之間的映射關(guān)系,經(jīng)過數(shù)據(jù)的抽取(Extraction(Transformation)和加載(Loading)等環(huán)節(jié)方可進(jìn)入數(shù)據(jù)倉庫,ETL數(shù)據(jù)經(jīng)過數(shù)據(jù)抽取、轉(zhuǎn)換和加載處理進(jìn)入數(shù)據(jù)倉庫的整個(gè)過程可以簡稱為 ETL過程。ETL實(shí)現(xiàn)。依據(jù)基于數(shù)據(jù)倉庫項(xiàng)目開發(fā)的閱歷,在大多數(shù)據(jù)倉庫的實(shí)施過程當(dāng)中, ETL都是一個(gè)格外簡單、耗時(shí)的過程,其工作量約占整個(gè)數(shù)據(jù)倉庫項(xiàng)目的 40-50%,占數(shù)據(jù)倉庫設(shè)計(jì)階段工作量的 70-80%,有很多緣由影響這一階段的時(shí)間和進(jìn)度。比如對原有業(yè)務(wù)系統(tǒng)和舊的操作環(huán)

10、境的了解有限,原系統(tǒng)文檔不全等。由于這些緣由,使ETLETL 實(shí)施困難另一個(gè)緣由是原有的系統(tǒng)平臺沒有足夠的容量/ 不足可能表現(xiàn)為:CPU、磁盤空間、I/O 帶寬或沒有一個(gè)有效的窗口去運(yùn)行抽取、轉(zhuǎn)換程序。ETL 特定(非確定)的時(shí)間抽取數(shù)據(jù),而且還必需要在特定的時(shí)間范圍內(nèi)把數(shù)據(jù)加載到數(shù)據(jù)倉庫。由于ETL 過程是數(shù)據(jù)倉庫應(yīng)用系統(tǒng)每天都要進(jìn)行的工作, ETL 設(shè)計(jì)的科學(xué)性和效率性是格外重要的,關(guān)系到數(shù)據(jù)倉庫項(xiàng)目的成敗。ETL機(jī)敏性:不同的時(shí)間段中能夠進(jìn)行數(shù)據(jù)獵取、轉(zhuǎn)換、裝載。 ETL模塊化:ETL 過程分步實(shí)施,每個(gè)過程通過不同的模塊組件來完成。并盡可ETL不斷開發(fā)實(shí)施。ETL 規(guī)律挨次:依靠業(yè)務(wù)系

11、統(tǒng)數(shù)據(jù)處理方式,來定義 ETL 處理流程把握。例如:在銀行的 ETL 過程中,交易記錄信息的數(shù)據(jù)裝載應(yīng)當(dāng)在賬戶信息進(jìn)入數(shù)據(jù)倉庫之后進(jìn)行。第一步:數(shù)據(jù)抽取在源系統(tǒng)上啟動數(shù)據(jù)抽取把握程序,完成以下工作: 1、數(shù)據(jù)采集考慮到數(shù)據(jù)來源的多樣性和簡單性,數(shù)據(jù)采集主要包括:對業(yè)務(wù)系統(tǒng)的數(shù)據(jù)采集:在日終結(jié)后,當(dāng)日數(shù)據(jù)自動、增量地轉(zhuǎn)儲到數(shù) 據(jù)備份機(jī)上,作為數(shù)據(jù)倉庫的數(shù)據(jù)源并成為數(shù)據(jù)備份策略的一部分。對于稅收方案、外部數(shù)據(jù)、納稅人財(cái)務(wù)報(bào)表的數(shù)據(jù)采集??梢罁?jù)實(shí)際需 要,接受多種途徑。2、數(shù)據(jù)發(fā)送在數(shù)據(jù)采集完成后,各系統(tǒng)上的抽取把握程序?qū)?shù)據(jù)文件和校驗(yàn)文件通過局 域網(wǎng)發(fā)送到數(shù)據(jù)轉(zhuǎn)換區(qū)。其次步:數(shù)據(jù)裝入轉(zhuǎn)換區(qū)檢查數(shù)據(jù)

12、是否到位依據(jù)校驗(yàn)文件,檢查源系統(tǒng)數(shù)據(jù)是否到位、是否存在傳輸錯(cuò)誤等特別狀況。 假如數(shù)據(jù)不全或傳輸消滅錯(cuò)誤,假如出錯(cuò),將出錯(cuò)結(jié)果寫入錯(cuò)誤日志,重新 執(zhí)行第一步。將外部數(shù)據(jù)文件裝入數(shù)據(jù)庫把來自外部源數(shù)據(jù)源的格式化數(shù)據(jù)轉(zhuǎn)化成數(shù)據(jù)庫、表結(jié)構(gòu)。修改系統(tǒng)狀態(tài):待該步驟工作完成后,將系統(tǒng)狀態(tài)改為抽取工作完成。注:若直接從業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫中抽取數(shù)據(jù),則無須數(shù)據(jù)轉(zhuǎn)換區(qū)步驟。第三步:數(shù)據(jù)質(zhì)量檢查和出錯(cuò)處理狀態(tài)檢查:查詢參數(shù)表,假如數(shù)據(jù)抽取工作已經(jīng)完成,開頭執(zhí)行該步驟工作。數(shù)據(jù)質(zhì)量檢查:依據(jù)檢查規(guī)章,數(shù)據(jù)質(zhì)量檢查程序掃描源數(shù)據(jù)數(shù)據(jù)表,依據(jù)規(guī)章檢查數(shù)據(jù)是 否合法,給出檢查報(bào)告和最終的數(shù)據(jù)質(zhì)量報(bào)告并寫入數(shù)據(jù)庫,數(shù)據(jù)質(zhì)量檢查

13、結(jié)果寫入質(zhì)量檢查報(bào)告。出錯(cuò)處理:假如消滅嚴(yán)峻出錯(cuò),停止 ETL 工作,需要系統(tǒng)維護(hù)人員現(xiàn)場做出相應(yīng)的處理,修改正確后,重新執(zhí)行該步驟工作;對于警告級出錯(cuò),連續(xù)進(jìn)行下述步驟。修改系統(tǒng)狀態(tài):待該步驟工作完成后,將系統(tǒng)狀態(tài)改為數(shù)據(jù)質(zhì)量檢查工作完成。第四步:數(shù)據(jù)轉(zhuǎn)換1、狀態(tài)檢查查詢參數(shù)表,假如數(shù)據(jù)質(zhì)量檢查工作已經(jīng)完成,開頭執(zhí)行該步工作。 2、數(shù)據(jù)轉(zhuǎn)換Staging Area 并將轉(zhuǎn)換的結(jié)果數(shù)據(jù)存放在待裝載數(shù)據(jù)存放區(qū)。3、生成轉(zhuǎn)換報(bào)告記錄數(shù)據(jù)轉(zhuǎn)換狀況,并寫入數(shù)據(jù)庫轉(zhuǎn)換日志中。 4、修改系統(tǒng)狀態(tài):待該步驟工作完成后,將系統(tǒng)狀態(tài)改為數(shù)據(jù)轉(zhuǎn)換工作完成。第五步:數(shù)據(jù)加載1、狀態(tài)檢查查詢參數(shù)表,假如數(shù)據(jù)質(zhì)量檢查工

14、作已經(jīng)完成,開頭執(zhí)行該步驟工作。 2、數(shù)據(jù)裝入數(shù)據(jù)倉庫接受非依靠數(shù)據(jù)并行加載的策略,將待裝載數(shù)據(jù)區(qū)的數(shù)據(jù)裝入中心數(shù)據(jù)倉庫,假如標(biāo)準(zhǔn)代碼表發(fā)生變化,數(shù)據(jù)裝載程序?qū)?biāo)準(zhǔn)代碼的變化狀況增量加 載到數(shù)據(jù)倉庫代碼表中。3、數(shù)據(jù)加載狀況報(bào)告記錄數(shù)據(jù)加載狀況,并寫入數(shù)據(jù)倉庫數(shù)據(jù)庫的參數(shù)表中。 4、修改系統(tǒng)狀態(tài):待該步驟工作完成后,將系統(tǒng)狀態(tài)改為數(shù)據(jù)轉(zhuǎn)換工作完成。第六步:加載時(shí)間維狀態(tài)檢查查詢參數(shù)表,假如數(shù)據(jù)加載工作已經(jīng)完成,開頭執(zhí)行該步驟工作。加載時(shí)間維依據(jù)當(dāng)前的時(shí)間,依據(jù)數(shù)據(jù)集市多維模型,完成時(shí)間維的加載工作。修改系統(tǒng)狀態(tài):待該步驟工作完成后,將系統(tǒng)狀態(tài)改為時(shí)間維加載工作完成。第七步:加載事實(shí)表狀態(tài)檢查查

15、詢參數(shù)表,假如時(shí)間維加載工作已經(jīng)完成,開頭執(zhí)行該步驟工作。加載事實(shí)表修改系統(tǒng)狀態(tài):待該步驟工作完成后,將系統(tǒng)狀態(tài)改為事實(shí)表加載工作完成。第八步:加載聚合表狀態(tài)檢查查詢參數(shù)表,假如事實(shí)表加載工作已經(jīng)完成,開頭執(zhí)行該步驟工作。加載聚合表以事實(shí)表為數(shù)據(jù)源,依據(jù)數(shù)據(jù)集市多維模型,完成聚合表的加載工作。修改系統(tǒng)狀態(tài):待該步驟工作完成后,將系統(tǒng)狀態(tài)改為 ETL 工作結(jié)束。數(shù)據(jù)呈現(xiàn) 政各類用戶。同時(shí)供應(yīng)數(shù)據(jù)分析結(jié)果的表達(dá)、共享與傳遞的功能,是信息服務(wù)的主要界面,主要包括信息呈現(xiàn)與人機(jī)交互、信息發(fā)布等。本次的呈現(xiàn)選擇*的報(bào)表分析平臺,具體功能見附件一。數(shù)據(jù)架構(gòu)設(shè)計(jì)數(shù)據(jù)倉庫的體系結(jié)構(gòu)包括 4 個(gè)層次的數(shù)據(jù)數(shù)據(jù)源

16、數(shù)據(jù)倉庫層和數(shù)據(jù)集市層。1)數(shù)據(jù)源(業(yè)務(wù)系統(tǒng))包含面對操作應(yīng)用的原始數(shù)據(jù)以及外部錄入數(shù)據(jù),主要服務(wù)于高性能的事務(wù)處理。數(shù)據(jù)倉庫層(包括 ODS 和 DW)存儲企業(yè)的歷史數(shù)據(jù),其數(shù)據(jù)是規(guī)范的、穩(wěn)定的。數(shù)據(jù)倉庫包含當(dāng)前數(shù)據(jù)、綜合數(shù)據(jù)、歷史數(shù)據(jù)的組織和整理。通過數(shù)據(jù)抽取平臺獵取的各業(yè)務(wù)數(shù)據(jù),從規(guī)律上和業(yè)務(wù)上是獨(dú)立的、分散的,要實(shí)現(xiàn)一體化的查詢功能,必需對分散的業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取和整合。如將分散的單位基礎(chǔ)信息、預(yù)算數(shù)據(jù)、支出數(shù)據(jù)通過肯定的策略,整理形成一套編碼統(tǒng)一、業(yè)務(wù)連貫的數(shù)據(jù)體系,這是一體化查詢系統(tǒng)成功的關(guān)鍵。數(shù)據(jù)集市層(Relational Data Mart 和 Star-Schema Data

17、 Mart 和OLAP)是面對部門的、滿足最終用戶需求的數(shù)據(jù),數(shù)據(jù)集市中的數(shù)據(jù)是反 規(guī)范的、匯總的。數(shù)據(jù)整理平臺基于各業(yè)務(wù)數(shù)據(jù),可以依據(jù)不同的用戶查詢需求,定制數(shù)據(jù)整理策略。依據(jù)查詢角度的不同,按決策的主題要求形成當(dāng)前的基本 數(shù)據(jù)層,按綜合決策的要求構(gòu)成綜合數(shù)據(jù)層,隨著時(shí)問的推移,由時(shí)間控 制機(jī)制將當(dāng)前基本數(shù)據(jù)層轉(zhuǎn)為歷史數(shù)據(jù)層。數(shù)據(jù)呈現(xiàn)層(前端呈現(xiàn))是面對業(yè)務(wù)用戶的需求呈現(xiàn),包括使用報(bào)表、多 維分析、即席查詢等基本功能,供應(yīng)告警、統(tǒng)計(jì)算法等高級功能。其次章基于基礎(chǔ)資料系統(tǒng)的數(shù)據(jù)模型設(shè)計(jì)基本緯度數(shù)據(jù)模型設(shè)計(jì) 的應(yīng)用支撐平臺作保障,通過本級財(cái)政業(yè)務(wù)流程的整合,實(shí)現(xiàn)對任一筆資金的跟蹤和回溯。為了實(shí)現(xiàn)

18、對數(shù)據(jù)的集中使用,就要從需求動身,在充分考慮到數(shù)據(jù)的可共享性、 系統(tǒng)將來的可擴(kuò)展性等因素,定義一套標(biāo)準(zhǔn)數(shù)據(jù)格式,為系統(tǒng)的建設(shè)打下一個(gè)良好的基礎(chǔ)。它包括各種涉及的基礎(chǔ)編碼表:如預(yù)算科目表、經(jīng)濟(jì)科目表、預(yù)算單位編碼表、企業(yè)登記表、稅種表、預(yù)算級次表等。 代碼集、基礎(chǔ)配置數(shù)據(jù)和相關(guān)命名規(guī)范的統(tǒng)稱。其中數(shù)據(jù)元又稱數(shù)據(jù)類型,包括定義、標(biāo)識、表示以及允許值等一系列屬性描述的數(shù)據(jù)單元。通常所說的業(yè)務(wù)要素就是財(cái)政業(yè)務(wù)系統(tǒng)中構(gòu)成業(yè)務(wù)數(shù)據(jù)的比較重要的數(shù)據(jù)元,該類數(shù)據(jù)元均有相應(yīng)的基礎(chǔ)代碼集。 代碼集;共用的用戶列表;相關(guān)配置數(shù)據(jù)及系統(tǒng)開發(fā)需遵循的命名規(guī)范。我們將依據(jù)省廳建設(shè)的基礎(chǔ)數(shù)據(jù)資料庫來進(jìn)行基本緯度模型的建設(shè)。

19、基礎(chǔ)資料系統(tǒng)維護(hù)功能模塊模塊功能模塊功能說明框架單點(diǎn)登錄多系統(tǒng)實(shí)現(xiàn)單點(diǎn)登錄權(quán)限把握統(tǒng)一的功能權(quán)限把握機(jī)制日志統(tǒng)一的系統(tǒng)級、功能級、數(shù)據(jù)級操作日志選擇所需要操作的年度和帳套,設(shè)置默認(rèn)的選擇年度年度;修改密碼修改當(dāng)前用戶的登錄系統(tǒng)密碼;注銷注銷當(dāng)前用戶,退出系統(tǒng),返回到登錄頁面;掛念隱蔽和顯示頁面上方軟件標(biāo)題欄和左方菜單隱蔽欄;基礎(chǔ)資料度系統(tǒng)設(shè)置 應(yīng)用設(shè)置設(shè)置應(yīng)用的名稱以及一些基礎(chǔ)信息;選項(xiàng)表設(shè)置設(shè)置選項(xiàng)表以及下拉菜單信息;設(shè)置各個(gè)應(yīng)用的所在服務(wù)器的 IP值以及一參數(shù)設(shè)置些其他的固定的參數(shù);設(shè)置數(shù)據(jù)授權(quán)中的用戶和單位對應(yīng)用中的要應(yīng)用權(quán)限設(shè)置 素的權(quán)限是否公有;用戶對賬本年 設(shè)置用戶與賬本年度對應(yīng)關(guān)

20、系,也即用戶訪度問賬本年度的權(quán)限;緩存管理刷新緩存的功能;要素維護(hù) 預(yù)算單位設(shè)置預(yù)算單位名稱以及基本信息;功能科目設(shè)置功能科目名稱以及基本信息;會計(jì)科目設(shè)置會計(jì)科目名稱以及基本信息;經(jīng)濟(jì)科目設(shè)置經(jīng)濟(jì)科目名稱以及基本信息;預(yù)算項(xiàng)目設(shè)置預(yù)算項(xiàng)目名稱以及基本信息;收費(fèi)項(xiàng)目設(shè)置收費(fèi)項(xiàng)目名稱以及基本信息;資金來源設(shè)置資金來源名稱以及基本信息;指標(biāo)類型設(shè)置指標(biāo)類型名稱以及基本信息;資金性質(zhì)設(shè)置資金性質(zhì)名稱以及基本信息;財(cái)政歸口部門 設(shè)置財(cái)政歸口部門名稱以及基本信息;用戶對預(yù)算單數(shù)據(jù)授權(quán) 位設(shè)置用戶與預(yù)算單位對應(yīng)關(guān)系;用戶對會計(jì)科目設(shè)置用戶與會計(jì)科目對應(yīng)關(guān)系;用戶對功能科目設(shè)置用戶與功能科目對應(yīng)關(guān)系;用戶對

21、經(jīng)濟(jì)科目設(shè)置用戶與經(jīng)濟(jì)科目對應(yīng)關(guān)系;用戶對預(yù)算項(xiàng)目設(shè)置用戶與預(yù)算項(xiàng)目對應(yīng)關(guān)系;用戶對收費(fèi)項(xiàng)目設(shè)置用戶與收費(fèi)項(xiàng)目對應(yīng)關(guān)系;用戶對指標(biāo)類型設(shè)置用戶與指標(biāo)類型對應(yīng)關(guān)系;用戶對資金來源設(shè)置用戶與資金來源對應(yīng)關(guān)系;單位對會計(jì)科目設(shè)置預(yù)算單位與會計(jì)科目對應(yīng)關(guān)系;單位對功能科目設(shè)置預(yù)算單位與功能科目對應(yīng)關(guān)系;單位對經(jīng)濟(jì)科目設(shè)置預(yù)算單位與經(jīng)濟(jì)科目對應(yīng)關(guān)系;單位對預(yù)算項(xiàng)目設(shè)置預(yù)算單位與預(yù)算項(xiàng)目對應(yīng)關(guān)系;處室對單位設(shè)置財(cái)政歸口部門與預(yù)算單位之間的對應(yīng)關(guān)系;用戶對歸口設(shè)置用戶與財(cái)政歸口部門之間的對應(yīng)關(guān)系;功能授權(quán)用戶設(shè)置用戶的基本信息以及用戶與財(cái)政歸口部門和預(yù)算單位之間的對應(yīng)關(guān)系;崗位設(shè)置崗位的基本信息;功能設(shè)置功

22、能(也即各個(gè)應(yīng)用的菜單和按鈕)的基本信息和鏈接地址等;功能轉(zhuǎn)授把當(dāng)前用戶的功能轉(zhuǎn)授給其他用戶的設(shè)置;用戶對崗位設(shè)置用戶與崗位的對應(yīng)關(guān)系;崗位對功能設(shè)置崗位與功能的對應(yīng)關(guān)系;權(quán)限轉(zhuǎn)授目把當(dāng)前用戶會計(jì)科目的數(shù)據(jù)權(quán)限轉(zhuǎn)授給其他用戶;用戶對經(jīng)濟(jì)科 把當(dāng)前用戶經(jīng)濟(jì)科目的數(shù)據(jù)權(quán)限轉(zhuǎn)授給其他用戶對經(jīng)濟(jì)科 把當(dāng)前用戶經(jīng)濟(jì)科目的數(shù)據(jù)權(quán)限轉(zhuǎn)授給其他目用戶;用戶對指標(biāo)類 把當(dāng)前用戶指標(biāo)類型的數(shù)據(jù)權(quán)限轉(zhuǎn)授給其他型用戶;用戶對收費(fèi)項(xiàng) 把當(dāng)前用戶收費(fèi)項(xiàng)目的數(shù)據(jù)權(quán)限轉(zhuǎn)授給其他目用戶;用戶對預(yù)算項(xiàng) 把當(dāng)前用戶預(yù)算項(xiàng)目的數(shù)據(jù)權(quán)限轉(zhuǎn)授給其他目用戶;用戶對資金來 把當(dāng)前用戶資金來源的數(shù)據(jù)權(quán)限轉(zhuǎn)授給其他源用戶;數(shù)據(jù)規(guī)律建模規(guī)律建模是

23、數(shù)據(jù)倉庫實(shí)施中的重要一環(huán) , 由于它能直接反映出決策者管理者的所謂的第三范式(3NF, 即 Third Normal Form)和星型模式 (Star-Schema),3NF 是數(shù)據(jù)庫設(shè)計(jì)的基礎(chǔ)理論,這里不再開放。星型模式是一種多維的數(shù)據(jù)關(guān)系 ,它由一個(gè)事實(shí)表 (Fact Table)(Dimension Table)組成。每個(gè)維表都有一個(gè)維作為主鍵,全部這些維的主鍵組合成事實(shí)表的主鍵。事實(shí)表的非主鍵屬性稱為事實(shí) (Fact),它們一般都是數(shù)值或其他可我們就可以依據(jù)不同的維(事實(shí)表的主鍵的部分或全部)來對這些事實(shí)數(shù)據(jù)進(jìn)行求和(summary)、求平均(average)、計(jì)數(shù)(count)、百分

24、比(percent)的聚集計(jì)算,甚至 可以做 20-80 分析。這樣就可以從不同的角度數(shù)字來分析業(yè)務(wù)主題的狀況,下面給出一個(gè)直觀的例子。功能分類維功能分類維時(shí)間維功能分類標(biāo)預(yù)算執(zhí)行狀況分時(shí)間代碼析功能分類標(biāo)準(zhǔn)碼單位維業(yè)務(wù)處室維單位編碼業(yè)務(wù)處室編圖8-3(PK, Primary Key),其中預(yù)算執(zhí)行狀況分析表是一個(gè)事實(shí)表,其中的指標(biāo)金額,方案業(yè)務(wù)處室、時(shí)間和單位這四個(gè)方面組合進(jìn)行,這些分析角度的有機(jī)組合,可以對指標(biāo)金額、方案金額和支付金額進(jìn)行多種組合的數(shù)據(jù)統(tǒng)計(jì)分析,以此實(shí)現(xiàn)對預(yù)算執(zhí)行狀況的多角度(維)多層次(數(shù)據(jù)不同的匯總程度)的分析,預(yù)算執(zhí)行狀況分析人員既 可以宏觀地看到財(cái)政業(yè)務(wù)的整體狀況,

25、又可以微觀地觀看到具體某預(yù)算單位某天支出的細(xì)節(jié)信息。多維分析的時(shí)候,維度選擇越多數(shù)據(jù)越細(xì)節(jié)(劃分得更細(xì)了),維度 選擇越少數(shù)據(jù)越匯總越宏觀。 星星和雪花的外形,星型模型是數(shù)據(jù)倉庫的數(shù)據(jù)模型與其他數(shù)據(jù)庫應(yīng)用相區(qū)分的一個(gè)重要特征。星型雪花星型雪花第三章數(shù)據(jù)抽取平臺建設(shè)分布式源數(shù)據(jù)庫中獵取對財(cái)政一體化查詢系統(tǒng)用戶有用的數(shù)據(jù)、過濾掉不需要的內(nèi)容、驗(yàn)證數(shù)據(jù)的質(zhì)量、數(shù)據(jù)清理、數(shù)據(jù)融合、到最終數(shù)據(jù)裝載入數(shù)據(jù)倉庫中。數(shù)據(jù)抽取是數(shù)據(jù)進(jìn)入倉庫的入口,財(cái)政一體化查詢系統(tǒng)涉及多個(gè)分布式數(shù)據(jù)源,需要通過抽取過程將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲介質(zhì)中導(dǎo)入到數(shù)據(jù)倉庫。依據(jù)源數(shù)據(jù)的不同性質(zhì),應(yīng)選用不同的數(shù)

26、據(jù)抽取方法。本系統(tǒng)中,對于 Oraclesybase 而對于其它半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),我們選用靜態(tài)數(shù)據(jù)、時(shí)間標(biāo)記、文件比較等方法實(shí)現(xiàn)數(shù)據(jù)抽取。設(shè)計(jì)原則高數(shù)據(jù)質(zhì)量原則:保證進(jìn)入數(shù)據(jù)倉庫數(shù)據(jù)的質(zhì)量,將垃圾數(shù)據(jù)排解在數(shù)據(jù)倉庫之外。 自動化原則:ETL 過程應(yīng)盡量自動完成,削減人為干預(yù)程度??勺匪菰瓌t:ETL 的相關(guān)工作結(jié)果,應(yīng)留有痕跡,給出相應(yīng)的報(bào)告,以便跟蹤和分析。參數(shù)化設(shè)計(jì)原則:接受參數(shù)化的設(shè)計(jì)思想,削減編程的工作量,增加系統(tǒng)的機(jī)敏性和可維護(hù)性。效率性原則:接受并行處理等設(shè)計(jì)方法,削減 ETL 時(shí)間,提高 ETL 效率。源系統(tǒng)不修改原則:盡量不對源系統(tǒng)進(jìn)行修改,將對源系統(tǒng)的影響降低到最低程度。

27、 便利性原則。設(shè)計(jì)應(yīng)充分考慮系統(tǒng)運(yùn)行后管理和維護(hù)的便利性和易用性。ETLETLCognosETLETLETL 程。ETL數(shù)據(jù)抽取:數(shù)據(jù)抽取就是將數(shù)據(jù)倉庫需要的業(yè)務(wù)數(shù)據(jù)抽取到數(shù)據(jù)轉(zhuǎn)換區(qū)的過程(這里的 數(shù)據(jù)轉(zhuǎn)換區(qū)也可以僅僅是一個(gè)規(guī)律的概念,即數(shù)據(jù)的抽取到轉(zhuǎn)換實(shí)行數(shù)據(jù)不落地的方式完成)數(shù)據(jù)檢查和出錯(cuò)處理:在數(shù)據(jù)轉(zhuǎn)換區(qū)中,對源系統(tǒng)數(shù)據(jù)質(zhì)量進(jìn)行檢查,形成檢查報(bào)告,并進(jìn)行相應(yīng) 的出錯(cuò)處理,對于嚴(yán)峻錯(cuò)誤,需要系統(tǒng)維護(hù)人員現(xiàn)場做出相應(yīng)的處理。數(shù)據(jù)轉(zhuǎn)換:數(shù)據(jù)轉(zhuǎn)換包括對源系統(tǒng)數(shù)據(jù)進(jìn)行整理、剔除、合并、驗(yàn)證等一系列轉(zhuǎn)換工作, 最終形成數(shù)據(jù)倉庫物理數(shù)據(jù)結(jié)構(gòu)所需的數(shù)據(jù),存放在轉(zhuǎn)換區(qū)的數(shù)據(jù)表中。數(shù)據(jù)加載:數(shù)據(jù)加載將數(shù)據(jù)轉(zhuǎn)

28、換的結(jié)果數(shù)據(jù)加載到數(shù)據(jù)倉庫,并形成數(shù)據(jù)加載狀況的報(bào)告。ETL第一步: 數(shù)據(jù)抽取在源系統(tǒng)上啟動數(shù)據(jù)抽取把握程序,完成以下工作: 1、數(shù)據(jù)采集考慮到數(shù)據(jù)來源的多樣性和簡單性,數(shù)據(jù)采集主要包括: 份機(jī)上,作為數(shù)據(jù)倉庫的數(shù)據(jù)源并成為數(shù)據(jù)備份策略的一部分。對于稅收方案、外部數(shù)據(jù)、納稅人財(cái)務(wù)報(bào)表的數(shù)據(jù)采集??梢罁?jù)實(shí)際需要, 接受多種途徑。2、數(shù)據(jù)發(fā)送 域網(wǎng)發(fā)送到數(shù)據(jù)轉(zhuǎn)換區(qū)。其次步:數(shù)據(jù)裝入轉(zhuǎn)換區(qū)檢查數(shù)據(jù)是否到位依據(jù)校驗(yàn)文件,檢查源系統(tǒng)數(shù)據(jù)是否到位、是否存在傳輸錯(cuò)誤等特別狀況。 執(zhí)行第一步。將外部數(shù)據(jù)文件裝入 oracle 數(shù)據(jù)庫把來自外部源數(shù)據(jù)源的格式化數(shù)據(jù)轉(zhuǎn)化成oracle數(shù)據(jù)庫、表結(jié)構(gòu)。修改系統(tǒng)狀態(tài):

29、待該步驟工作完成后,將系統(tǒng)狀態(tài)改為抽取工作完成。注:若直接從業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫中抽取數(shù)據(jù),則無須數(shù)據(jù)轉(zhuǎn)換區(qū)步驟。第三步:數(shù)據(jù)質(zhì)量檢查和出錯(cuò)處理狀態(tài)檢查:查詢參數(shù)表,假如數(shù)據(jù)抽取工作已經(jīng)完成,開頭執(zhí)行該步驟工作。數(shù)據(jù)質(zhì)量檢查:依據(jù)檢查規(guī)章,數(shù)據(jù)質(zhì)量檢查程序掃描源數(shù)據(jù)數(shù)據(jù)表,依據(jù)規(guī)章檢查數(shù)據(jù)是 否合法,給出檢查報(bào)告和最終的數(shù)據(jù)質(zhì)量報(bào)告并寫入數(shù)據(jù)庫,數(shù)據(jù)質(zhì)量檢查結(jié)果 寫入質(zhì)量檢查報(bào)告。出錯(cuò)處理:假如消滅嚴(yán)峻出錯(cuò),停止ETL工作,需要系統(tǒng)維護(hù)人員現(xiàn)場做出相應(yīng)的處理, 修改正確后,重新執(zhí)行該步驟工作;對于警告級出錯(cuò),連續(xù)進(jìn)行下述步驟。修改系統(tǒng)狀態(tài):待該步驟工作完成后,將系統(tǒng)狀態(tài)改為數(shù)據(jù)質(zhì)量檢查工作完成。 第

30、四步:數(shù)據(jù)轉(zhuǎn)換1、狀態(tài)檢查查詢參數(shù)表,假如數(shù)據(jù)質(zhì)量檢查工作已經(jīng)完成,開頭執(zhí)行該步工作。 2、數(shù)據(jù)轉(zhuǎn)換依據(jù)數(shù)據(jù)倉庫要求的數(shù)據(jù)源格式在 Staging Area中進(jìn)行并行轉(zhuǎn)換處理,并將轉(zhuǎn)換的結(jié)果數(shù)據(jù)存放在待裝載數(shù)據(jù)存放區(qū)。3、生成轉(zhuǎn)換報(bào)告記錄數(shù)據(jù)轉(zhuǎn)換狀況,并寫入數(shù)據(jù)庫轉(zhuǎn)換日志中。 4、修改系統(tǒng)狀態(tài):待該步驟工作完成后,將系統(tǒng)狀態(tài)改為數(shù)據(jù)轉(zhuǎn)換工作完成。 第五步:數(shù)據(jù)加載狀態(tài)檢查查詢參數(shù)表,假如數(shù)據(jù)質(zhì)量檢查工作已經(jīng)完成,開頭執(zhí)行該步驟工作。 數(shù)據(jù)裝入數(shù)據(jù)倉庫接受非依靠數(shù)據(jù)并行加載的策略,將待裝載數(shù)據(jù)區(qū)的數(shù)據(jù)裝入中心數(shù)據(jù)倉庫, 假如標(biāo)準(zhǔn)代碼表發(fā)生變化,數(shù)據(jù)裝載程序?qū)?biāo)準(zhǔn)代碼的變化狀況增量加載到數(shù)據(jù)倉庫代

31、碼表中。數(shù)據(jù)加載狀況報(bào)告記錄數(shù)據(jù)加載狀況,并寫入數(shù)據(jù)倉庫數(shù)據(jù)庫的參數(shù)表中。 修改系統(tǒng)狀態(tài):待該步驟工作完成后,將系統(tǒng)狀態(tài)改為數(shù)據(jù)轉(zhuǎn)換工作完成。 第六步:加載時(shí)間維狀態(tài)檢查查詢參數(shù)表,假如數(shù)據(jù)加載工作已經(jīng)完成,開頭執(zhí)行該步驟工作。加載時(shí)間維依據(jù)當(dāng)前的時(shí)間,依據(jù)數(shù)據(jù)集市多維模型,完成時(shí)間維的加載工作。修改系統(tǒng)狀態(tài):待該步驟工作完成后,將系統(tǒng)狀態(tài)改為時(shí)間維加載工作完成。 第七步:加載事實(shí)表狀態(tài)檢查查詢參數(shù)表,假如時(shí)間維加載工作已經(jīng)完成,開頭執(zhí)行該步驟工作。加載事實(shí)表以數(shù)據(jù)倉庫數(shù)據(jù)為數(shù)據(jù)源,依據(jù)數(shù)據(jù)集市多維模型,完成事實(shí)表的加載工作。修改系統(tǒng)狀態(tài):待該步驟工作完成后,將系統(tǒng)狀態(tài)改為事實(shí)表加載工作完成。

32、第八步:加載聚合表狀態(tài)檢查查詢參數(shù)表,假如事實(shí)表加載工作已經(jīng)完成,開頭執(zhí)行該步驟工作。加載聚合表以事實(shí)表為數(shù)據(jù)源,依據(jù)數(shù)據(jù)集市多維模型,完成聚合表的加載工作。修改系統(tǒng)狀態(tài):待該步驟工作完成后,將系統(tǒng)狀態(tài)改為ETL工作結(jié)束。ETL數(shù)據(jù)抽取的范圍涉及財(cái)政核心業(yè)務(wù)系統(tǒng)數(shù)據(jù),主要是五大塊內(nèi)容:稅收收入數(shù) 據(jù)、非稅收入數(shù)據(jù)、部門預(yù)算、支出數(shù)據(jù)、專項(xiàng)支出數(shù)據(jù)、其他系統(tǒng)數(shù)據(jù)。其中: 其他系統(tǒng)數(shù)據(jù)包含固定資產(chǎn)、統(tǒng)發(fā)工資等相關(guān)財(cái)政業(yè)務(wù)系統(tǒng)數(shù)據(jù)。平臺在數(shù)據(jù)抽取 時(shí)依據(jù)用戶對數(shù)據(jù)的查詢需求,可以實(shí)時(shí)、按天、按月取數(shù)。是指對在每天的特定時(shí)間必需要完成的大事進(jìn)行嚴(yán)格的把握。對時(shí)間的限 制建議可以表示為下圖:抽取數(shù)據(jù)集市

33、ETL0:01:002:003:004:0006:008:00圖4-2:ETL時(shí)間階段示意圖從上圖可以看出,為了保證每天業(yè)務(wù)人員準(zhǔn)時(shí)使用數(shù)據(jù)倉庫系統(tǒng),對 ETL時(shí)間通常有如下要求:3:30 之前完成數(shù)據(jù)從源系統(tǒng)到數(shù)據(jù)轉(zhuǎn)換區(qū)的數(shù)據(jù)抽取工作。5:006:008:00ETLETL的時(shí)間窗口通常在4-6小時(shí),考慮到將來系統(tǒng)數(shù)據(jù)的增長,ETL工具的處理效率 和擴(kuò)展性是關(guān)鍵。后臺對應(yīng)規(guī)章的設(shè)置平臺中的數(shù)據(jù)由于來自不同的業(yè)務(wù)系統(tǒng),各數(shù)據(jù)的編碼可能不全都,系統(tǒng)能與后臺設(shè)置各編碼的進(jìn)行對應(yīng)關(guān)系管理;用戶對預(yù)算單位 設(shè)置用戶與預(yù)算單位對應(yīng)關(guān)系;用戶對會計(jì)科目 設(shè)置用戶與會計(jì)科目對應(yīng)關(guān)系;用戶對功能科目 設(shè)置用戶與

34、功能科目對應(yīng)關(guān)系;用戶對經(jīng)濟(jì)科目 設(shè)置用戶與經(jīng)濟(jì)科目對應(yīng)關(guān)系;用戶對預(yù)算項(xiàng)目 設(shè)置用戶與預(yù)算項(xiàng)目對應(yīng)關(guān)系;用戶對收費(fèi)項(xiàng)目 設(shè)置用戶與收費(fèi)項(xiàng)目對應(yīng)關(guān)系;用戶對指標(biāo)類型 設(shè)置用戶與指標(biāo)類型對應(yīng)關(guān)系;用戶對資金來源 設(shè)置用戶與資金來源對應(yīng)關(guān)系;單位對會計(jì)科目 設(shè)置預(yù)算單位與會計(jì)科目對應(yīng)關(guān)系;單位對功能科目 設(shè)置預(yù)算單位與功能科目對應(yīng)關(guān)系;單位對經(jīng)濟(jì)科目單位對經(jīng)濟(jì)科目設(shè)置預(yù)算單位與經(jīng)濟(jì)科目對應(yīng)關(guān)系;單位對預(yù)算項(xiàng)目設(shè)置預(yù)算單位與預(yù)算項(xiàng)目對應(yīng)關(guān)系;處室對單位設(shè)置財(cái)政歸口部門與預(yù)算單位之間的對應(yīng)關(guān)系;用戶對歸口設(shè)置用戶與財(cái)政歸口部門之間的對應(yīng)關(guān)系;預(yù)算項(xiàng)目對執(zhí)行項(xiàng)目設(shè)置預(yù)算項(xiàng)目與執(zhí)行項(xiàng)目之間的對應(yīng)關(guān)系.數(shù)據(jù)

35、抽取程序的設(shè)計(jì)原則數(shù)據(jù)倉庫需要的數(shù)據(jù)存在于不同種類、不同技術(shù)平臺的業(yè)務(wù)系統(tǒng)中,數(shù)據(jù)抽取 就是從這些不同的數(shù)據(jù)源中抽取數(shù)據(jù)作為數(shù)據(jù)倉庫的原材料。本項(xiàng)目數(shù)據(jù)抽取設(shè)計(jì) 時(shí),接受以下方法:直接從源業(yè)務(wù)系統(tǒng)抽取最原始的數(shù)據(jù),不抽取派生數(shù)據(jù)。只抽取源系統(tǒng)中本期項(xiàng)目需要的數(shù)據(jù)庫表。數(shù)據(jù)抽取方式初始抽取數(shù)據(jù)初始抽取指依據(jù)需求設(shè)計(jì)要求,把數(shù)據(jù)倉庫要求的各業(yè)務(wù)系統(tǒng)的數(shù)據(jù)源一 次性抽取并加載到數(shù)據(jù)倉庫,本項(xiàng)目初始抽取的數(shù)據(jù)范圍為源業(yè)務(wù)系統(tǒng)當(dāng)天日終后 的數(shù)據(jù)。初次加載時(shí)間可定為投入運(yùn)行的當(dāng)月業(yè)務(wù)系統(tǒng)處理結(jié)束后進(jìn)行。增量抽取在數(shù)據(jù)倉庫系統(tǒng)投入運(yùn)行后,只抽取業(yè)務(wù)系統(tǒng)的增量數(shù)據(jù)到數(shù)據(jù)倉庫,增量數(shù) 據(jù)包括業(yè)務(wù)系統(tǒng)新增數(shù)據(jù)和變化數(shù)據(jù)兩部分,接受增量抽取的方法確保每次最小的 數(shù)據(jù)子集加載到數(shù)據(jù)倉庫里。第四章數(shù)據(jù)整理平臺建設(shè) 過數(shù)據(jù)抽取平臺獵取的各業(yè)務(wù)數(shù)據(jù),從規(guī)律上和業(yè)務(wù)上是獨(dú)立的、分散的,要實(shí)現(xiàn)一體化的查詢功能,必需對分散的業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取和整合。如將分散的單位基礎(chǔ)信息、預(yù)算數(shù)據(jù)、支出數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論