智慧銀行數(shù)據(jù)中心應(yīng)用平臺項目-方案建議書_第1頁
智慧銀行數(shù)據(jù)中心應(yīng)用平臺項目-方案建議書_第2頁
智慧銀行數(shù)據(jù)中心應(yīng)用平臺項目-方案建議書_第3頁
智慧銀行數(shù)據(jù)中心應(yīng)用平臺項目-方案建議書_第4頁
智慧銀行數(shù)據(jù)中心應(yīng)用平臺項目-方案建議書_第5頁
已閱讀5頁,還剩179頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

智慧銀行數(shù)據(jù)中心應(yīng)用平臺項目方案建議書TIME\@"yyyy年M月"2021年1月目錄TOC\o"1-3"\h\z第1章 項目概述 51.1 項目背景 51.2 項目目標(biāo) 61.3 項目需求 71.3.1 數(shù)據(jù)中心 71.3.2 金融數(shù)據(jù)模型 81.3.3 數(shù)據(jù)分析及業(yè)務(wù)應(yīng)用展現(xiàn) 9第2章 解決方案概述 112.1 數(shù)據(jù)中心應(yīng)用平臺 112.2 解決方案體系架構(gòu) 11第3章 系統(tǒng)規(guī)劃方案 133.1 總體規(guī)劃 133.1.1 數(shù)據(jù)中心應(yīng)用平臺規(guī)劃藍(lán)圖 133.1.2 銀行數(shù)據(jù)中心實施路線圖 143.2 分步實施應(yīng)用系統(tǒng),快速實現(xiàn)業(yè)務(wù)價值 163.2.1 支持CRM建設(shè)的360°客戶視圖 163.2.2 基于經(jīng)濟(jì)資本的績效考核 173.2.3 風(fēng)險管理項目群 193.2.4 流動性分析 21第4章 技術(shù)解決方案 234.1 數(shù)據(jù)中心整體架構(gòu)設(shè)計 234.1.1 系統(tǒng)設(shè)計原則 234.1.2 總體邏輯架構(gòu) 254.1.3 數(shù)據(jù)中心邏輯架構(gòu)與產(chǎn)品部署架構(gòu) 294.2 數(shù)據(jù)中心平臺方案詳細(xì)設(shè)計 304.2.1 數(shù)據(jù)中心應(yīng)用平臺模型設(shè)計 304.2.2 數(shù)據(jù)源分析方案 384.2.3 數(shù)據(jù)流程設(shè)計(DataCentricView) 414.2.4 ETL架構(gòu)設(shè)計 454.2.5 元數(shù)據(jù)管理 534.2.6 數(shù)據(jù)質(zhì)量管理 584.2.7 數(shù)據(jù)生命周期管理 614.2.8 數(shù)據(jù)備份與恢復(fù) 634.3 綜合報表平臺技術(shù)方案 644.3.1 綜合報表系統(tǒng)整體功能概述 644.3.2 普通報表的實現(xiàn) 654.3.3 OLAP分析應(yīng)用的實現(xiàn) 664.3.4 即席查詢平臺應(yīng)用的實現(xiàn) 674.3.5 集成到統(tǒng)一展現(xiàn)平臺 684.3.6 移動BI 694.3.7 其它技術(shù)實現(xiàn) 724.3.8 統(tǒng)一展現(xiàn) 734.3.9 基于門戶技術(shù)制定統(tǒng)一展現(xiàn)規(guī)范并實現(xiàn)報表的集成 744.3.10 制定統(tǒng)一展現(xiàn)規(guī)范 744.3.11 需求分析的流程和方法 754.3.12 整體測試方案 754.4 物理架構(gòu)設(shè)計 774.4.1 數(shù)據(jù)倉庫配置方法(BCU) 774.4.2 數(shù)據(jù)量估算 804.4.3 服務(wù)器選型 824.4.4 物理部署架構(gòu) 824.4.5 數(shù)據(jù)中心系統(tǒng)擴(kuò)展建議 83第5章 產(chǎn)品解決方案 855.1 軟件配置列表 855.2 產(chǎn)品介紹 855.2.1 InfoSphereWarehouse產(chǎn)品 855.2.2 ETL集成工具IBMInformationServer 975.2.3 BI分析和報表工具Cognos 115第6章 項目實施方案 1536.1 項目進(jìn)度計劃 1536.1.1 項目一期進(jìn)度計劃 1536.1.2 項目階段的工作內(nèi)容及提交成果 1546.2 項目培訓(xùn) 1546.3 項目組織構(gòu)架 1556.3.1 項目組織架構(gòu) 1556.4 項目溝通計劃 1586.4.1 每周項目例會 1586.4.2 項目進(jìn)展匯報(會) 1586.4.3 問題處理流程 1596.5 質(zhì)量管理計劃 1606.5.1 目的 1606.5.2 范圍 1606.5.3 質(zhì)量保證組織 1606.5.4 質(zhì)量控制過程 1606.6 風(fēng)險管理計劃和控制 161第7章 整體解決方案的優(yōu)勢和特點 1637.1.1 豐富的實施經(jīng)驗 1637.1.2 高性能 1667.1.3 可擴(kuò)展性 1687.1.4 開放性 1697.1.5 系統(tǒng)可靠性 1707.1.6 數(shù)據(jù)安全 171第8章 成功案例 1738.1 國內(nèi)銀行成功案例列表 1738.2 近期實施的案例列表 1748.3 實施案例介紹 1758.3.1 浙商銀行企業(yè)數(shù)據(jù)倉庫項目 1758.3.2 齊魯銀行企業(yè)級數(shù)據(jù)倉庫 1778.3.3 龍江銀行數(shù)據(jù)倉庫項目 1778.3.4 上海銀行企業(yè)信息架構(gòu)咨詢項目 178附錄1交付品清單 179附錄2培訓(xùn)建議書 180附錄3建議的硬件配置 182項目概述項目背景目前,銀行已經(jīng)建立了可以覆蓋全省的網(wǎng)絡(luò)中心,1個營業(yè)部33個機(jī)構(gòu)網(wǎng)點主要分布在德陽市、成都市、廣漢市、什邡市、綿竹市、羅江縣、中江縣。并且,隨著業(yè)務(wù)的發(fā)展,行內(nèi)已擁有28個業(yè)務(wù)系統(tǒng),目前有28個業(yè)務(wù)系統(tǒng):信貸系統(tǒng)、核心系統(tǒng)(改造中)、財務(wù)系統(tǒng)、中間業(yè)務(wù)、大額支付、小額支付、銀聯(lián)前置、微貸系統(tǒng)、網(wǎng)上銀行系統(tǒng)、ATM&POS&CC、黃金交易系統(tǒng)、短信系統(tǒng)、第三方存管、支付寶前置、實物票據(jù)管理系統(tǒng)、網(wǎng)銀跨行轉(zhuǎn)賬、電票系統(tǒng)、工商行政驗資、支票影像、財稅庫銀、身份核查、柜面通、城商行清算中心、電子回單柜系統(tǒng)、同城票據(jù)交換、銀醫(yī)聯(lián)名卡系統(tǒng)、理財業(yè)務(wù)系統(tǒng)、渠道平臺。業(yè)務(wù)系統(tǒng)現(xiàn)狀核心系統(tǒng)目前正在改造,綜合報表系統(tǒng)(包含1104報表、人行支付報表、反洗錢報表、行內(nèi)監(jiān)管報表)待建。信息技術(shù)部針對目前應(yīng)用系統(tǒng)對業(yè)務(wù)系統(tǒng)的數(shù)據(jù)使用情況出臺了一套數(shù)據(jù)使用標(biāo)準(zhǔn)、規(guī)范,目前還沒有進(jìn)入到具體實施階段。數(shù)據(jù)使用現(xiàn)狀目前行內(nèi)所使用的各種應(yīng)用和來源數(shù)據(jù)之間交叉成網(wǎng)狀。眾多業(yè)務(wù)系統(tǒng)的建立使我行的業(yè)務(wù)在準(zhǔn)確性、實時性上得到了極大的提高,同時也降低了業(yè)務(wù)人員的辦公出錯概率。雖然,電子化系統(tǒng)能極大的提高業(yè)務(wù)效率,但是,隨著電子化系統(tǒng)的不斷增多,其存在的缺點也逐漸的暴露出來:數(shù)據(jù)孤島,使得各業(yè)務(wù)系統(tǒng)之間數(shù)據(jù)共享困難。不同業(yè)務(wù)系統(tǒng)的相同指標(biāo)數(shù)據(jù)有可能不一致,使得系統(tǒng)之間的銜接困難,不能滿足后續(xù)應(yīng)用系統(tǒng)的快速構(gòu)建的需要。大量數(shù)據(jù)冗余。為滿足多個應(yīng)用系統(tǒng),需要同時對多個源系統(tǒng)進(jìn)行頻繁數(shù)據(jù)采集,且每個應(yīng)用系統(tǒng)都會向源系統(tǒng)采數(shù),效率不高,對源系統(tǒng)的壓力較大。不能滿足后續(xù)應(yīng)用系統(tǒng)快速構(gòu)建的需要。每個系統(tǒng)的開發(fā)商不同,其數(shù)據(jù)模型和標(biāo)準(zhǔn)也不同,數(shù)據(jù)的可用程度降低。這些缺點,降低了行內(nèi)數(shù)據(jù)的數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)整合、數(shù)據(jù)加載、數(shù)據(jù)歸檔、數(shù)據(jù)監(jiān)控調(diào)度等,影響了相關(guān)部門對數(shù)據(jù)的管理分析。項目目標(biāo)數(shù)據(jù)中心應(yīng)用平臺項目的目標(biāo)是:解決目前我行各業(yè)務(wù)系統(tǒng)數(shù)據(jù)間存在的數(shù)據(jù)孤島、數(shù)據(jù)冗余、數(shù)據(jù)標(biāo)準(zhǔn)化的問題。整合所有的業(yè)務(wù)系統(tǒng)(不僅包括我行現(xiàn)有的系統(tǒng),還需要考慮到我行以后將要建設(shè)的系統(tǒng))源數(shù)據(jù)準(zhǔn)確完整地分析我行現(xiàn)有的數(shù)據(jù)及其流向,為各個業(yè)務(wù)部門的管理分析提供統(tǒng)一而且完整的數(shù)據(jù)支持(如數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)整合、數(shù)據(jù)加載、數(shù)據(jù)歸檔、數(shù)據(jù)監(jiān)控調(diào)度等)為今后各個面向主題的分析型應(yīng)用系統(tǒng)的開發(fā)建設(shè)提供數(shù)據(jù)基礎(chǔ)和技術(shù)基礎(chǔ)。通過實現(xiàn)統(tǒng)一數(shù)據(jù)視圖和數(shù)據(jù)的服務(wù)和共享,提高銀行企業(yè)管理電子化水平。符合銀監(jiān)會《銀行監(jiān)管統(tǒng)計數(shù)據(jù)質(zhì)量管理良好標(biāo)準(zhǔn)》的相關(guān)要求,并配合人行金融統(tǒng)計標(biāo)準(zhǔn)化試點工作的建設(shè)。項目需求項目要完成以下功能需求:數(shù)據(jù)中心能夠方便完成數(shù)據(jù)處理、數(shù)據(jù)存儲、數(shù)據(jù)使用、數(shù)據(jù)備份、恢復(fù)等工作的全程管理。提供自動化處理管理機(jī)制,能夠管理任務(wù)調(diào)度和查詢?nèi)罩尽?shù)據(jù)源整合數(shù)據(jù)中心應(yīng)整合的源系統(tǒng)數(shù)據(jù)有(但不限于)信貸系統(tǒng)、核心系統(tǒng)、財務(wù)系統(tǒng)、中間業(yè)務(wù)、大額支付、小額支付、銀聯(lián)前置、微貸系統(tǒng)、網(wǎng)上銀行系統(tǒng)、ATM&POS前置、黃金交易系統(tǒng)、短信系統(tǒng)、第三方存管、支付寶前置、實物票據(jù)管理系統(tǒng)、網(wǎng)銀跨行轉(zhuǎn)賬、電票系統(tǒng)、工商行政驗資、支票影像、財稅庫銀、身份核查、柜面通、城商行清算中心、電子回單柜系統(tǒng)、同城票據(jù)交換、銀醫(yī)聯(lián)名卡系統(tǒng)、理財業(yè)務(wù)系統(tǒng)、渠道平臺。能基于數(shù)據(jù)中心管理業(yè)務(wù)系統(tǒng)產(chǎn)生的新的數(shù)據(jù)。針對缺失的數(shù)據(jù)能提供手工補(bǔ)錄功能。能夠分析缺失數(shù)據(jù)的源頭并針對數(shù)據(jù)源提出合理的改造方案。數(shù)據(jù)抽取采用先進(jìn)的ETL工具,將不同數(shù)據(jù)平臺、不同源數(shù)據(jù)形式、不同性能要求的源數(shù)據(jù)數(shù)據(jù)抽取到數(shù)據(jù)中心系統(tǒng)中。在數(shù)據(jù)抽取時需要重點考慮數(shù)據(jù)抽取的效率,以及對現(xiàn)有業(yè)務(wù)系統(tǒng)性能及安全的影響。數(shù)據(jù)采集過程應(yīng)該是自動化的,在每天業(yè)務(wù)系統(tǒng)日結(jié)完成后立即自動化進(jìn)行數(shù)據(jù)采集,不需手動出發(fā)。避免抽取過程中源系統(tǒng)發(fā)生業(yè)務(wù)而導(dǎo)致抽取數(shù)據(jù)差異問題。數(shù)據(jù)轉(zhuǎn)換對從不同數(shù)據(jù)源采集到的數(shù)據(jù),根據(jù)數(shù)據(jù)模型的要求,進(jìn)行數(shù)據(jù)的轉(zhuǎn)換、清洗、拆分、匯總等處理,保證來自不同系統(tǒng)、不同格式的數(shù)據(jù)的一致性和完整性,為應(yīng)用平臺提供高質(zhì)量的數(shù)據(jù)服務(wù)。項目前期確定數(shù)據(jù)轉(zhuǎn)換的粒度和規(guī)則。數(shù)據(jù)加載采用高效的加載性能數(shù)據(jù)加載工具,將處理加工后的數(shù)據(jù)載入數(shù)據(jù)中心。歷史數(shù)據(jù)歸檔數(shù)據(jù)中心的建設(shè)應(yīng)充分考慮行內(nèi)至少20年的歷史數(shù)據(jù)的存儲及在線查詢。統(tǒng)一監(jiān)控調(diào)度數(shù)據(jù)中心做為全行的數(shù)據(jù)交換中心,是一個非常龐大的系統(tǒng),其投產(chǎn)后的運(yùn)轉(zhuǎn)情況均是自動化的,那么必然需要一套合理的、健全的、成熟的、統(tǒng)一的監(jiān)控調(diào)度策略,以保證整個系統(tǒng)安全、穩(wěn)定、簡單的運(yùn)行。金融數(shù)據(jù)模型建立高度抽象、實用的數(shù)據(jù)中心模型:數(shù)據(jù)中心項目對數(shù)據(jù)模型要求較高,數(shù)據(jù)模型的合理與否將關(guān)系到項目的成敗,因此必須選擇先進(jìn)合理的建模理念,緊密契合已有業(yè)務(wù)系統(tǒng),深刻了解銀行業(yè)務(wù)和核心系統(tǒng),建立高度抽象、實用的數(shù)據(jù)中心模型。建立適合銀行的指標(biāo)庫體系。數(shù)據(jù)中心模型的建立應(yīng)充分考慮下列應(yīng)用(但不限于)對數(shù)據(jù)的使用:綜合報表系統(tǒng)(1104報表、人行大集中報表、人行利率報表、人行金融穩(wěn)定報表、人行理財產(chǎn)品統(tǒng)計報表、人行反洗錢報表、人行支付報表、國際收支申報報表、其他監(jiān)管類報表以及行內(nèi)報表)行長決策系統(tǒng)(領(lǐng)導(dǎo)駕駛艙)財務(wù)管理系統(tǒng)管理會計系統(tǒng)績效管理系統(tǒng)非現(xiàn)場審計系統(tǒng)操作型客戶信息系統(tǒng)(OCRM)分析型客戶關(guān)系管理系統(tǒng)(ACRM)銀行風(fēng)險管理系統(tǒng)數(shù)據(jù)分析及業(yè)務(wù)應(yīng)用展現(xiàn)通過先進(jìn)的展現(xiàn)工具及多樣化的展現(xiàn)方式,向用戶提供靈活而強(qiáng)大的查詢、統(tǒng)計、分析功能,并按要求生成報表。在數(shù)據(jù)中心基礎(chǔ)上需要建立的業(yè)務(wù)應(yīng)用包括:綜合報表系統(tǒng)(1104報表、人行大集中報表、人行利率報表、人行金融穩(wěn)定報表、人行理財產(chǎn)品統(tǒng)計報表、人行反洗錢報表、人行支付報表、國際收支申報報表、其他監(jiān)管類報表以及行內(nèi)報表)行長決策系統(tǒng)(領(lǐng)導(dǎo)駕駛艙)(要求支持移動應(yīng)用)元數(shù)據(jù)管理建立有效的元數(shù)據(jù)管理平臺,保證系統(tǒng)與業(yè)務(wù)的運(yùn)作保持同步并且根據(jù)市場和業(yè)務(wù)需求的變化隨時作出調(diào)整,一旦業(yè)務(wù)需求發(fā)生改變,用戶可以通過對元數(shù)據(jù)的維護(hù)使系統(tǒng)的運(yùn)行作出快速的響應(yīng)。數(shù)據(jù)質(zhì)量管理建立有效的、可視化的數(shù)據(jù)質(zhì)量管理平臺,能夠通過建立檢驗規(guī)則,對源數(shù)據(jù)質(zhì)量進(jìn)行持續(xù)監(jiān)測,并自動生成數(shù)據(jù)質(zhì)量管理報告;能夠?qū)崿F(xiàn)可視化的數(shù)據(jù)追溯展示,清晰展示數(shù)據(jù)指標(biāo)與源數(shù)據(jù)之間的邏輯關(guān)系。解決方案概述數(shù)據(jù)中心應(yīng)用平臺我們建議銀行以業(yè)界通用的數(shù)據(jù)倉庫理論來建設(shè)數(shù)據(jù)中心應(yīng)用平臺項目,數(shù)據(jù)倉庫之父H·W·Inmon是這樣定義數(shù)據(jù)倉庫的:數(shù)據(jù)倉庫是一個面向主題的、集成的、不可更新的且隨時間不斷變化的數(shù)據(jù)集合。數(shù)據(jù)倉庫是基于大規(guī)模數(shù)據(jù)庫的決策支持系統(tǒng)環(huán)境的核心。它具有以下特征:海量數(shù)據(jù)(TB級):包括來自于不同數(shù)據(jù)源的不同粒度的信息面向主題:面向業(yè)務(wù)分析人員、管理決策者關(guān)注的主題(或者說分析目標(biāo))集成性:將多個數(shù)據(jù)源異構(gòu)數(shù)據(jù)按統(tǒng)一的結(jié)構(gòu)和規(guī)則進(jìn)行數(shù)據(jù)抽取、轉(zhuǎn)換、清洗、裝載時序性:數(shù)據(jù)倉庫中的時間期限要遠(yuǎn)遠(yuǎn)長于操作型系統(tǒng)中的時間期限,比如一些應(yīng)用數(shù)據(jù)保留5~10年。數(shù)據(jù)倉庫中的數(shù)據(jù)是一系列某一時刻生成的復(fù)雜的快照。持久性:除了記錄變化時間的之外,一般不對業(yè)務(wù)數(shù)據(jù)做修改。而獨立的ODS或者數(shù)據(jù)集市是為滿足已定義的用戶組或業(yè)務(wù)領(lǐng)域?qū)τ谔囟I(yè)務(wù)信息的需求而創(chuàng)建的。它們比數(shù)據(jù)倉庫更小且更關(guān)注在數(shù)據(jù)中構(gòu)建復(fù)雜的業(yè)務(wù)規(guī)則來支持功能強(qiáng)大的分析。我們建議的數(shù)據(jù)中心應(yīng)用平臺是由ODS,數(shù)據(jù)倉庫和數(shù)據(jù)集市統(tǒng)一構(gòu)成,建立在企業(yè)級的數(shù)據(jù)模型之上的。ODS是數(shù)據(jù)倉庫的數(shù)據(jù)準(zhǔn)備區(qū)域,重點完成數(shù)據(jù)的整合與轉(zhuǎn)換,數(shù)據(jù)倉庫完成數(shù)據(jù)的內(nèi)容整合與統(tǒng)一,保留數(shù)據(jù)變化的歷史,并按照業(yè)務(wù)需求進(jìn)行匯總等加工運(yùn)算。數(shù)據(jù)集市就是企業(yè)級數(shù)據(jù)倉庫的一個子集,數(shù)據(jù)集市的數(shù)據(jù)來源數(shù)據(jù)倉庫,但是數(shù)據(jù)粒度上看,都是匯總數(shù)據(jù),它主要是面向某個特定的分析主題解決方案體系架構(gòu)根據(jù)IBM對數(shù)據(jù)倉庫的建設(shè)經(jīng)驗,在充分理解銀行的項目需求的基礎(chǔ)上,我們制定出符合銀行實際的整體解決方案,包括以下四個部分:系統(tǒng)規(guī)劃方案:規(guī)劃銀行未來幾年內(nèi)數(shù)據(jù)中心應(yīng)用平臺系統(tǒng)建設(shè),包含應(yīng)用規(guī)劃、技術(shù)規(guī)劃、實施規(guī)劃等內(nèi)容技術(shù)解決方案:從技術(shù)實現(xiàn)角度說明銀行數(shù)據(jù)中心應(yīng)用平臺系統(tǒng)的解決方案,包括總體邏輯架構(gòu)、物理架構(gòu)、方案詳細(xì)設(shè)計等內(nèi)容產(chǎn)品解決方案:對實現(xiàn)技術(shù)解決方案中所采用的軟硬件產(chǎn)品配置進(jìn)行說明實施方案:介紹IBM在項目實施中的方法論,在本次項目實施中的組織架構(gòu)、時間計劃等內(nèi)容系統(tǒng)規(guī)劃方案總體規(guī)劃數(shù)據(jù)中心應(yīng)用平臺規(guī)劃藍(lán)圖數(shù)據(jù)中心系統(tǒng)建設(shè)是一項循序漸進(jìn),迭代上升的系統(tǒng)工程;需要協(xié)調(diào)不同業(yè)務(wù)線價值釋放及不同業(yè)務(wù)應(yīng)用的優(yōu)先級。一個完整的數(shù)據(jù)中心建設(shè)應(yīng)包括規(guī)劃設(shè)計、平臺建設(shè)以及應(yīng)用建設(shè)等幾個部分。數(shù)據(jù)中心建設(shè)的內(nèi)容和優(yōu)先級可以參考下圖:數(shù)據(jù)中心建設(shè)從長遠(yuǎn)看,要達(dá)到如下的目標(biāo):建立統(tǒng)一的數(shù)據(jù)、業(yè)務(wù)視圖,完成基于數(shù)據(jù)倉庫的企業(yè)信息整合,建立完善的基礎(chǔ)數(shù)據(jù)平臺,為數(shù)據(jù)分析和數(shù)據(jù)分發(fā)奠定基礎(chǔ)。建立綜合報表系統(tǒng),解決業(yè)務(wù)上急需的各種業(yè)務(wù)報表。建立主題分析應(yīng)用,比如資產(chǎn)負(fù)債分析、利潤分析、客戶關(guān)系管理、風(fēng)險分析等。逐步實現(xiàn)對銀行日常操作流程的支持,分析系統(tǒng)成為業(yè)務(wù)流程的不可或缺的一部分,實現(xiàn)業(yè)務(wù)系統(tǒng)和分析應(yīng)用之間的閉環(huán)。銀行數(shù)據(jù)中心實施路線圖數(shù)據(jù)中心規(guī)劃實際上是一個確定應(yīng)用優(yōu)先級的過程,業(yè)務(wù)需求是確定優(yōu)先級的標(biāo)準(zhǔn)。數(shù)據(jù)中心建設(shè)歷程建議劃分成為幾個階段,根據(jù)實際情況可以適當(dāng)調(diào)整。各個階段中的應(yīng)用建議迭代周期不要超過8個月,這樣最有利于項目實施過程中的質(zhì)量控制、風(fēng)險控制,而且在短的時間內(nèi)不斷的取得應(yīng)用成效。根據(jù)銀行的項目需求,結(jié)合我們對銀行的理解,建議的項目實施路線如下:項目一期建設(shè)內(nèi)容需求調(diào)研、規(guī)劃、建模階段以當(dāng)前數(shù)據(jù)源系統(tǒng)和報表集市為主要調(diào)研對象,詳細(xì)分析加載到數(shù)據(jù)中心平臺的數(shù)據(jù)源信息、對數(shù)據(jù)的加工處理、數(shù)據(jù)中心平臺之上實現(xiàn)的應(yīng)用功能根據(jù)需求調(diào)研結(jié)果,給出數(shù)據(jù)中心平臺的架構(gòu)設(shè)計完成數(shù)據(jù)源分析,結(jié)合數(shù)據(jù)源分析結(jié)果,對IBM的BDM模型進(jìn)行客戶化,完成銀行數(shù)據(jù)中心應(yīng)用平臺建模工作根據(jù)銀行IT和業(yè)務(wù)的現(xiàn)狀及戰(zhàn)略規(guī)劃,針對數(shù)據(jù)中心應(yīng)用平臺系統(tǒng)及基于該平臺的業(yè)務(wù)應(yīng)用的長期建設(shè)給出詳細(xì)規(guī)劃項目實施階段(在需求調(diào)研與規(guī)劃階段評審結(jié)束后進(jìn)入該實施階段)數(shù)據(jù)中心應(yīng)用平臺建設(shè)數(shù)據(jù)倉庫及ODS,數(shù)據(jù)集市搭建元數(shù)據(jù)管理平臺數(shù)據(jù)質(zhì)量管理平臺企業(yè)統(tǒng)一調(diào)度平臺綜合報表平臺建立搭建統(tǒng)一技術(shù)架構(gòu)的報表平臺,實現(xiàn)T+1報表的展現(xiàn)由于核心系統(tǒng)正在改造過程中,因此綜合報表系統(tǒng)部分可以先完成需要遷移的報表的設(shè)計和開發(fā);逐步完成1104報表、人行大集中報表、人行利率報表、人行金融穩(wěn)定報表、人行理財產(chǎn)品統(tǒng)計報表、人行反洗錢報表、人行支付報表、國際收支申報報表、其他監(jiān)管類報表以及行內(nèi)報表向綜合報表平臺上的遷移。針對需要遷移的報表對源系統(tǒng)(核心系統(tǒng)除外)進(jìn)行整合。視數(shù)據(jù)源狀況逐步完善目前28個業(yè)務(wù)系統(tǒng)的數(shù)據(jù)整合。按主題完成面向報表應(yīng)用的集市區(qū)數(shù)據(jù)的分析與加工。統(tǒng)一數(shù)據(jù)展現(xiàn)門戶綜合報表展現(xiàn)都按照統(tǒng)一的展現(xiàn)規(guī)范集成到該門戶中實現(xiàn)統(tǒng)一登錄、統(tǒng)一認(rèn)證、統(tǒng)一權(quán)限管理實現(xiàn)頁面?zhèn)€性化定制,不同角色的用戶可以自行根據(jù)自己的喜好、習(xí)慣及關(guān)注的內(nèi)容定制不同的展現(xiàn)頁面項目二期建設(shè)內(nèi)容項目二期主要是應(yīng)用的遷移和豐富過程。在項目一期數(shù)據(jù)中心應(yīng)用平臺上線后,本期項目的主要目標(biāo)就是快速完成舊有的應(yīng)用遷移和擴(kuò)展建設(shè)適合銀行的KPI體系,梳理、分析銀行的關(guān)鍵績效指標(biāo),建設(shè)完整的KPI體系綜合報表系統(tǒng)(1104報表、人行大集中報表、人行利率報表、人行金融穩(wěn)定報表、人行理財產(chǎn)品統(tǒng)計報表、人行反洗錢報表、人行支付報表、國際收支申報報表、其他監(jiān)管類報表以及行內(nèi)報表)領(lǐng)導(dǎo)駕駛艙。經(jīng)營分析決策支持系統(tǒng)經(jīng)營決策分析績效考核數(shù)據(jù)歸檔平臺項目三期建設(shè)內(nèi)容本階段為建議內(nèi)容,視具體需求而定,項目三期深化數(shù)據(jù)平臺的應(yīng)用效果,并在數(shù)據(jù)積累達(dá)到足夠成熟度的情況下,建設(shè)如下基于數(shù)據(jù)平臺的應(yīng)用系統(tǒng):資產(chǎn)負(fù)債管理產(chǎn)品創(chuàng)新平臺實現(xiàn)高層次的客戶洞察分析深化決策支持系統(tǒng)應(yīng)用分步實施應(yīng)用系統(tǒng),快速實現(xiàn)業(yè)務(wù)價值數(shù)據(jù)中心的業(yè)務(wù)價值最終是通過應(yīng)用實施來體現(xiàn)的。我們建議在本期項目中,依托先進(jìn)的金融數(shù)據(jù)模型進(jìn)行數(shù)據(jù)內(nèi)容整合,提升數(shù)據(jù)的內(nèi)容價值,為后續(xù)高階應(yīng)用進(jìn)行數(shù)據(jù)積累,我們?nèi)缦陆ㄗh的基于經(jīng)濟(jì)資本的績效考核、風(fēng)險管理項目群、流動性分析等解決方案,都屬于前瞻性需求,規(guī)劃在數(shù)據(jù)中心應(yīng)用平臺的二期或三期進(jìn)行實施。支持CRM建設(shè)的360°客戶視圖360°客戶視圖的概念360°客戶視圖本身是一個平臺層面的概念,其核心是把客戶自然屬性信息、客戶的賬戶信息、交易信息、偏好等信息整合到一個統(tǒng)一的平臺中,并且在此平臺上建立一系列的操作型和分析型的應(yīng)用,幫助銀行提升客戶服務(wù)質(zhì)量,制定合適的產(chǎn)品策略等。360°客戶視圖的需求是隨著銀行加強(qiáng)個性化服務(wù)而提出的。隨著中國金融市場的快速發(fā)展和競爭加劇,中小銀行在目標(biāo)客戶選擇和營銷服務(wù)戰(zhàn)略上面臨著新的決策,如何建立自身的競爭優(yōu)勢,確立市場地位成為關(guān)鍵。而這一任務(wù)的重心和基石就是如何分析客戶特性并與自身特點相結(jié)合,進(jìn)行針對性服務(wù)和營銷,從而成功建立細(xì)分優(yōu)勢,真正形成以客戶為中心的銀行。隨著近年來客戶關(guān)系管理的成熟,現(xiàn)在普遍認(rèn)為360°客戶視圖是CRM應(yīng)用建設(shè)前必需的一個過程。國內(nèi)銀行目前正處于從傳統(tǒng)的以賬戶為中心模式向以客戶為中心的業(yè)務(wù)模式轉(zhuǎn)變的過程中,對于中小銀行來說,這個過程需要更快地完成,才能發(fā)揮自己的靈活的優(yōu)勢,建立忠誠的客戶群體;但是,許多銀行對CRM解決方案進(jìn)行了巨額投入,但很多未能提供預(yù)期回報,重要原因在于傳統(tǒng)CRM雖然在支持某個既定渠道或銷售功能(例如呼叫中心或銷售隊伍)方面表現(xiàn)出色,但它并非是為滿足全行客戶管理的復(fù)雜性需求設(shè)計的;因此,CRM計劃不得不設(shè)法克服數(shù)據(jù)同步、多渠道集成和可擴(kuò)展性等問題,許多銀行被迫進(jìn)行昂貴的修改和擴(kuò)展??蛻絷P(guān)系管理應(yīng)該包含操作型和分析型兩個部分,同時360°客戶視圖也分為操作型和分析型兩種。在客戶關(guān)系管理過程中,銷售、市場和客服人員可以在分析型和操作型360°客戶視圖上進(jìn)行合作,完成銷售、客戶分析和銷售策略的制定。如下圖所示:客服人員和銷售可以通過操作型的360°客戶視圖迅速完成客戶信息、偏好、歷史交易的查詢,同時操作型的360°客戶視圖具備數(shù)據(jù)寫入的功能,可以支撐業(yè)務(wù)人員完成銷售流程。市場部可以根據(jù)客服和銷售人員的信息在數(shù)據(jù)中心應(yīng)用平臺中的分析型的360°客戶視圖中進(jìn)行客戶細(xì)分,從而制定市場活動或者銷售策略,反饋給服務(wù)和銷售人員?;诮?jīng)濟(jì)資本的績效考核績效考核是銀行經(jīng)營管理重要的風(fēng)向儀和導(dǎo)向器。銀行可以根據(jù)企業(yè)資信等因素對各項業(yè)務(wù)、產(chǎn)品分別設(shè)定風(fēng)險系數(shù)或權(quán)重,對各項資產(chǎn)進(jìn)行風(fēng)險計量,并測算各分支行的經(jīng)濟(jì)資本占用額,核算經(jīng)濟(jì)資本增加值,從而計算經(jīng)濟(jì)資本回報率。然后,將經(jīng)濟(jì)資本回報率與其業(yè)務(wù)費(fèi)用、工資獎勵進(jìn)行掛鉤考核。同時,設(shè)定目標(biāo)經(jīng)濟(jì)資本回報率,對實際回報率較低的機(jī)構(gòu)減少經(jīng)濟(jì)資本配置,促使其調(diào)整資產(chǎn)業(yè)務(wù)結(jié)構(gòu)。經(jīng)營業(yè)績考核系統(tǒng)實際上是貫穿銀行實行價值管理的兩個核心機(jī)制,一個是以經(jīng)濟(jì)資本為核心的風(fēng)險和效益約束機(jī)制,另一個是以經(jīng)濟(jì)增加值為核心的績效評價和激勵機(jī)制。新的績效考核漸行漸近績效考核不僅是銀行對一定階段經(jīng)營管理狀況和戰(zhàn)略執(zhí)行的檢驗和價值判斷,同時其制度設(shè)計本身也反映了銀行在特定時期的經(jīng)營發(fā)展理念。我國商業(yè)銀行正在從追求規(guī)模最大化的“跑馬圈地”向平衡風(fēng)險與利潤的“價值最大化”的經(jīng)營模式轉(zhuǎn)變,因此,其績效考核體制總體上也呈現(xiàn)出從過去的以利潤最大化為核心的盈利能力考核,逐步轉(zhuǎn)變?yōu)橐詢r值管理為核心的綜合效益考核,即從管理利潤提升到管理價值。以管理利潤為指向的績效考核,核心任務(wù)是規(guī)模的擴(kuò)張或既定規(guī)模下的利潤最大化,從投入/產(chǎn)出角度分析,主要實現(xiàn)對產(chǎn)出水平的結(jié)果考核;以管理價值為指向的績效考核,核心任務(wù)是在合理運(yùn)用資本的基礎(chǔ)上,通過調(diào)整各部門、各業(yè)務(wù)、產(chǎn)品、客戶等內(nèi)部結(jié)構(gòu)的投入/產(chǎn)出關(guān)系,實現(xiàn)整體的價值最大化。這種績效考核方法更關(guān)注與銀行的資本結(jié)構(gòu)的合理配置,提高銀行的利潤率。以經(jīng)濟(jì)資本為核心的績效考核起點較高,建設(shè)的難度較大,需要專業(yè)的實施團(tuán)隊參與,表現(xiàn)在以下幾個方面:經(jīng)濟(jì)資本的計量復(fù)雜。現(xiàn)在國內(nèi)普遍采用系數(shù)法計算,也就是BaselII中的基本法,這種方法的關(guān)鍵在于需要制定大量的系數(shù),系數(shù)的準(zhǔn)確性要求很高,我們建議采用進(jìn)一步細(xì)化系數(shù)類別的方法,從區(qū)域、行業(yè)、產(chǎn)品、客戶等不同維度細(xì)化經(jīng)濟(jì)資本系數(shù)。經(jīng)濟(jì)增加值計算的準(zhǔn)確性。經(jīng)濟(jì)增加值的計算是盈利減去經(jīng)濟(jì)資本的最低回報率,最低資本回報率一般采用市場的拆借利率或者長期國債利率等,這種方法比實際值低,有待進(jìn)一步提高。我們建議在績效考核的實施過程中,逐步建立適合本行的最低資本回報率的預(yù)算辦法,使經(jīng)濟(jì)增加值的計算更準(zhǔn)確。過于偏重財務(wù)指標(biāo)。基于管理價值的績效考核統(tǒng)一也需要關(guān)注非財務(wù)指標(biāo),比如客戶服務(wù)質(zhì)量、員工發(fā)展、內(nèi)部管理等KPI,這樣更統(tǒng)一把企業(yè)的長期戰(zhàn)略和員工的績效關(guān)聯(lián),減少短視的行為,確保企業(yè)的持續(xù)發(fā)展。與長期戰(zhàn)略聯(lián)系不緊。以下就如何使得績效考核與長期戰(zhàn)略相結(jié)合給予詳細(xì)的描述。風(fēng)險管理項目群IBM風(fēng)險管理整體解決方案商業(yè)銀行遵循巴塞爾新資本協(xié)議滿足最低資本要求的第一步即是實行定量風(fēng)險計算和管理。商業(yè)銀行不僅通過定量風(fēng)險管理來滿足監(jiān)管機(jī)構(gòu)的要求,獲得更低的資本金要求,也通過控制自身風(fēng)險在提高資金運(yùn)營效率的同時減少風(fēng)險損失。IBM公司基于其多年在數(shù)學(xué)和分析優(yōu)化方面的積累,結(jié)合其在銀行領(lǐng)域的客戶經(jīng)驗和行業(yè)知識,提出了IBM端到端的BaselII銀行全面風(fēng)險管理解決方案。上述架構(gòu)包含一下幾個關(guān)鍵模塊:數(shù)據(jù)分析、BaselII差距分析模塊。數(shù)據(jù)整合模塊。進(jìn)行數(shù)據(jù)的整合、元數(shù)據(jù)定義、數(shù)據(jù)質(zhì)量管理、清洗、轉(zhuǎn)換、裝載。數(shù)據(jù)平臺。采用數(shù)據(jù)倉庫技術(shù)建設(shè)風(fēng)險平臺。計算引擎。數(shù)據(jù)集市。為外部風(fēng)險報表和應(yīng)用提供數(shù)據(jù)。展現(xiàn)模塊。包括和風(fēng)險相關(guān)的報表和分析型應(yīng)用。針對我國中小銀行風(fēng)險管理案面臨的挑戰(zhàn),我們的解決方案使用了如下措施應(yīng)對:其中,風(fēng)險計量模塊的架構(gòu)如下所示:上述計量模塊具有如下特點:此模塊中,使用了仿真技術(shù)在一定程度上彌補(bǔ)了國內(nèi)嚴(yán)重的數(shù)據(jù)差距問題。通過業(yè)務(wù)建模和規(guī)則錄入的方式,把業(yè)務(wù)條件的變化通過建模的方式提供給風(fēng)險引擎,從而使得風(fēng)險引擎可以根據(jù)外部條件的變化選擇合適的算法完成風(fēng)險的計量通過流程建模的形式分析操作風(fēng)險。通過對建模后的流程的執(zhí)行進(jìn)行仿真,結(jié)合專家知識、活動與風(fēng)險因子的關(guān)系等,識別出來高風(fēng)險的活動和風(fēng)險因子的管理關(guān)系。流動性分析流動性分析的功能流動性分析是資產(chǎn)負(fù)債管理領(lǐng)域中非常重要的一個應(yīng)用。商業(yè)銀行的流動性意味著商業(yè)銀行滿足存款人提取現(xiàn)金和借款人合理貸款需求的能力,保持流動性是商業(yè)銀行的生命之本。如銀行不能保持一定的流動性,即使從技術(shù)上講,該銀行仍然有清償能力,也會被強(qiáng)制關(guān)閉。傳統(tǒng)的流動性分析是采用資產(chǎn)和負(fù)債的比例管理的方法,給資產(chǎn)和負(fù)債規(guī)定一系列的比例,通過對比例的值的限定,使得銀行不能過度使用自己的資金,從而達(dá)到一個合理的規(guī)模。例如下述比例指標(biāo):資產(chǎn)流動性比例指標(biāo)本外幣合并:流動性資產(chǎn)期末余額/流動性負(fù)債期末余額≥25%外匯:流動性資產(chǎn)期末余額/流動性負(fù)債期末余額≥60%中長期貸款的比例指標(biāo)人民幣:余期一年期以上(不含一年期)的中長期貸款期末余額/余期一年期以上(不含一年期)的存款期末余額≤120%外匯:余期一年期以上(不含一年期)的中長期貸款期末余額/外匯貸款期末余額≤60%存貸款比例指標(biāo)(分別本、外幣兩類按月考核)人民幣:各項貸款期末余額/各項存款期末余額≤75%外匯:各項貸款期末余額/各項存款期末余額≤85%國際商業(yè)借款比例指標(biāo)(僅對外匯進(jìn)行按季考核)(自借國際商業(yè)借款+境外發(fā)行債券)期末余額/資本凈額≤100%可以看出,上述方法可以確保銀行的流動性風(fēng)險在可控的范圍內(nèi),但是計財人員無法得到準(zhǔn)確缺口的值,所以,在建設(shè)完成數(shù)據(jù)中心后,我們建議采用基于現(xiàn)金流的方法進(jìn)行流動性的分析。技術(shù)解決方案數(shù)據(jù)中心整體架構(gòu)設(shè)計數(shù)據(jù)中心應(yīng)用平臺的數(shù)據(jù)沉淀和分析功能的開發(fā)伴隨著銀行的成長甚至轉(zhuǎn)型,所以平臺需要具備足夠的穩(wěn)定性,以應(yīng)對源系統(tǒng)和外部分析需求的不斷變化。因為源系統(tǒng)改造或者重建,而導(dǎo)致數(shù)據(jù)倉庫重建往往會引起數(shù)據(jù)倉庫項目的失敗。從整體上數(shù)據(jù)倉庫的架構(gòu)具備足夠的穩(wěn)定性,能夠適應(yīng)數(shù)據(jù)源的不斷變化。數(shù)據(jù)中心的設(shè)計應(yīng)當(dāng)充分考慮數(shù)據(jù)質(zhì)量的問題,準(zhǔn)確的、業(yè)務(wù)人員可信的分析結(jié)果建立在準(zhǔn)確的數(shù)據(jù)基礎(chǔ)之上,數(shù)據(jù)倉庫應(yīng)該有良好的機(jī)制確保數(shù)據(jù)的準(zhǔn)確性。能夠盡早發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題,定位數(shù)據(jù)質(zhì)量問題,在數(shù)據(jù)倉庫的范圍內(nèi)盡可能提高數(shù)據(jù)的質(zhì)量。在架構(gòu)和技術(shù)層面,數(shù)據(jù)倉庫和外圍業(yè)務(wù)系統(tǒng)應(yīng)保持松耦合的關(guān)系,確保數(shù)據(jù)倉庫的數(shù)據(jù)運(yùn)行不會對關(guān)鍵業(yè)務(wù)系統(tǒng)的性能和穩(wěn)定性有影響,最重要的就是體現(xiàn)在數(shù)據(jù)倉庫如何從源系統(tǒng)抽取數(shù)據(jù),既要保證對源系統(tǒng)的影響最小,同時也可適應(yīng)源系統(tǒng)的數(shù)據(jù)源的變化,這就要求數(shù)據(jù)抽取這一層的設(shè)計具備足夠的靈活性、穩(wěn)定性和源系統(tǒng)的無關(guān)性。隨著數(shù)據(jù)量的增加,數(shù)據(jù)倉庫應(yīng)該提供有效的數(shù)據(jù)生命周期管理策略,和高性價比的水平擴(kuò)展和垂直擴(kuò)展能力,確保數(shù)據(jù)倉庫的效率和成本的可控。大量數(shù)據(jù)倉庫的失敗是因為董事會不愿意承擔(dān)因數(shù)據(jù)量的增長導(dǎo)致巨額的平臺擴(kuò)展成本。支撐數(shù)據(jù)中心的數(shù)據(jù)源和應(yīng)用非常豐富,隨著數(shù)據(jù)中心的發(fā)展,會有不同機(jī)構(gòu)的數(shù)據(jù)進(jìn)入數(shù)據(jù)中心或者需要在數(shù)據(jù)中心上部署不同廠商的應(yīng)用,所以數(shù)據(jù)中心平臺應(yīng)該采用開放的技術(shù)系統(tǒng)設(shè)計原則優(yōu)秀的系統(tǒng)設(shè)計需要滿足很多要求,例如開放性、擴(kuò)展性、安全性等等。基于IBM的數(shù)據(jù)倉庫實施方法以及IBM的軟硬件產(chǎn)品架構(gòu),我們的系統(tǒng)設(shè)計符合以下原則:開放性與先進(jìn)性:基于開放式標(biāo)準(zhǔn),遵循國際標(biāo)準(zhǔn),提供開放的數(shù)據(jù)接口,可以進(jìn)行數(shù)據(jù)的轉(zhuǎn)入和傳出,實現(xiàn)系統(tǒng)間互連。采用先進(jìn)成熟的設(shè)備和技術(shù),確保系統(tǒng)的技術(shù)先進(jìn)性,保證投資的有效性和延續(xù)性;靈活性與可維護(hù)性:系統(tǒng)應(yīng)易于擴(kuò)展、升級和移植,并具備支持業(yè)務(wù)處理的靈活的參數(shù)化配置,業(yè)務(wù)功能的重組與更新的靈活性,新的業(yè)務(wù)應(yīng)用可靈活增加,不影響系統(tǒng)原有業(yè)務(wù)流程。具有靈活的、可進(jìn)化的數(shù)據(jù)體系結(jié)構(gòu),允許任何數(shù)據(jù)被有序引入,并與原有的數(shù)據(jù)保持一致和集成;可擴(kuò)展性與可伸縮性:具有開放的、可擴(kuò)展的系統(tǒng)結(jié)構(gòu),允許系統(tǒng)與其它應(yīng)用系統(tǒng)集成,新的功能模塊可以被迅速增加或定制出來。具有平滑分布和升級、靈活的可伸縮能力,允許將不同的計算任務(wù)分布到不同的機(jī)器上去,而不妨礙其它部分的運(yùn)行;完整性:對整個系統(tǒng)進(jìn)行統(tǒng)一規(guī)劃和設(shè)計,確保統(tǒng)計應(yīng)用、數(shù)據(jù)中心系統(tǒng)和第三方工具緊密集成,共同構(gòu)成一個達(dá)到目標(biāo)的系統(tǒng),并且在數(shù)據(jù)、應(yīng)用、服務(wù)、風(fēng)格、操作方面,都能夠做到一致性和完整性;安全性與可靠性:提供良好的數(shù)據(jù)安全可靠性策略,采用多種安全可靠的技術(shù)手段,保證系統(tǒng)及數(shù)據(jù)的安全與可靠;可用性和容錯能力:系統(tǒng)具有安全運(yùn)行的管理措施,即使在系統(tǒng)遭到非人為破壞,也能夠在最短的時間內(nèi)恢復(fù)使用;準(zhǔn)確性與實時性:保證系統(tǒng)數(shù)據(jù)處理的準(zhǔn)確性,提供多種數(shù)據(jù)審查手段,數(shù)據(jù)的傳輸要及時、準(zhǔn)確、可靠和安全;易用性:系統(tǒng)設(shè)計面向最終用戶,必須保證易操作、易理解、易控制;系統(tǒng)所出現(xiàn)的問題能夠及時預(yù)報并迅速解決。總體邏輯架構(gòu)在該總體邏輯架構(gòu)中,我們根據(jù)應(yīng)用架構(gòu)的設(shè)計,結(jié)合IBM整體數(shù)據(jù)倉庫平臺方案來滿足銀行的需求。源系統(tǒng)層收集和存貯操作數(shù)據(jù)以對業(yè)務(wù)現(xiàn)狀進(jìn)行分析。數(shù)據(jù)源指存儲于各系統(tǒng)中的數(shù)據(jù)及外部數(shù)據(jù),包括:核心系統(tǒng)以及信貸系統(tǒng)、中間業(yè)務(wù)、國際結(jié)算等業(yè)務(wù)系統(tǒng)。ETL層提取/Extract,轉(zhuǎn)換/Transform和裝載/Load(ETL),ETL層解決跨系統(tǒng)的數(shù)據(jù)收集與整合。抽取是指識別最佳的數(shù)據(jù)源,并從中獲得所需的數(shù)據(jù)。它是將數(shù)據(jù)導(dǎo)入數(shù)據(jù)中心的第一步。抽取意味著讀取并理解源數(shù)據(jù),并復(fù)制數(shù)據(jù)中心所需要的部分。轉(zhuǎn)換泛指使數(shù)據(jù)中心數(shù)據(jù)適合于終端使用的過程。這一過程包括那些將源數(shù)據(jù)格式變?yōu)槟繕?biāo)數(shù)據(jù)庫格式的模塊。一般而言,轉(zhuǎn)換包括映射、清洗、匯總、重排和排序等步驟。從源系統(tǒng)到數(shù)據(jù)倉庫之間的ETL將需要完成對源數(shù)據(jù)的清洗和整合,最終在數(shù)據(jù)倉庫中形成企業(yè)范圍內(nèi)的統(tǒng)一的、一致的數(shù)據(jù)集;ETL還包括數(shù)據(jù)倉庫到數(shù)據(jù)集市的分發(fā)。從數(shù)據(jù)倉庫到各數(shù)據(jù)集市之間的ETL過程主要是根據(jù)不同主題數(shù)據(jù)集市分析的需要,從數(shù)據(jù)倉庫中提取數(shù)據(jù)經(jīng)過轉(zhuǎn)換生成主題特定的數(shù)據(jù)集。這一部分的處理往往也是最為復(fù)雜的。企業(yè)級數(shù)據(jù)整合策略,或者稱之為我們熟悉的ETL,不過這里的ETL是經(jīng)過擴(kuò)展的,數(shù)據(jù)處理的過程和手段更為豐富,整個數(shù)據(jù)流程的處理更有策略性數(shù)據(jù)抽取和轉(zhuǎn)換,后面會介紹到,我們采用信息集成總線的思想來處理數(shù)據(jù)抽取,這樣數(shù)據(jù)集成收取采用模塊化的方式設(shè)計,同時又能支持源數(shù)據(jù)的多樣性和異構(gòu)性,集成總線內(nèi)最主要的功能CDC用來做實時的數(shù)據(jù)抽取,聯(lián)邦可加速數(shù)據(jù)集成開發(fā)的效率和易用性,同時可便捷的實施數(shù)據(jù)質(zhì)量相應(yīng)的管理應(yīng)用。數(shù)據(jù)倉庫層中央數(shù)據(jù)倉庫存儲輸入的數(shù)據(jù)和結(jié)果數(shù)據(jù),數(shù)據(jù)倉庫做為所有分析功能的單一數(shù)據(jù)源。數(shù)據(jù)倉庫的數(shù)據(jù)存儲要保持穩(wěn)定性、靈活性、擴(kuò)展性。一般的,數(shù)據(jù)倉庫會采用成熟的數(shù)據(jù)倉庫模型進(jìn)行構(gòu)建。數(shù)據(jù)倉庫中的數(shù)據(jù)按照數(shù)據(jù)模型分主題進(jìn)行組織和存放,包括當(dāng)期的和較長時間的歷史數(shù)據(jù)。數(shù)據(jù)倉庫的核心是企業(yè)級數(shù)據(jù)模型的規(guī)劃和設(shè)計,是所有應(yīng)用的基礎(chǔ)。數(shù)據(jù)倉庫,數(shù)據(jù)的核心存儲區(qū)域,以面向主題的方式,細(xì)粒度的保存原子數(shù)據(jù),即屏蔽數(shù)據(jù)源的多樣性和變化,又可方便的為BI應(yīng)用提供數(shù)據(jù)支持ODS(OperationalDataStore)操作型數(shù)據(jù)存儲通過ODS提供單一的主數(shù)據(jù)管理,比如客戶主信息管理、產(chǎn)品主信息管理等等。另外,通過ODS可以完成實時數(shù)據(jù)倉庫要求。對于高價值客戶的一些信息,可以通過復(fù)制的方式,實時或者近實時地復(fù)制到ODS系統(tǒng)中?;蛘咄ㄟ^ODS完成為其它的系統(tǒng)提供數(shù)據(jù)源的任務(wù)。ODS,可操作數(shù)據(jù)存儲區(qū)域,身兼二職,一方面保持與源系統(tǒng)的業(yè)務(wù)數(shù)據(jù)同步以滿足一些實時性應(yīng)用的數(shù)據(jù)需求,另外作為一個與源系統(tǒng)近似的數(shù)據(jù)加工區(qū)為倉庫提供數(shù)據(jù)加工服務(wù)數(shù)據(jù)集市層數(shù)據(jù)集市的數(shù)據(jù)為最終的前端分析、報告提供支持?jǐn)?shù)據(jù)集市的數(shù)據(jù)是面向最終應(yīng)用的,比如CRM、績效、反洗錢等等。數(shù)據(jù)集市的數(shù)據(jù)基于數(shù)據(jù)倉庫之上進(jìn)行匯總加工而成。數(shù)據(jù)集市設(shè)計用途是要滿足特定的目的,同時具有查詢、分析和報表功能。這與企業(yè)數(shù)據(jù)倉庫截然不同,企業(yè)數(shù)據(jù)倉庫在信息內(nèi)容與結(jié)構(gòu)方面要盡可能擁有開放性與靈活性。數(shù)據(jù)集市有以下特征:為特定用途而設(shè)計——數(shù)據(jù)集市設(shè)計的目的,是支持特定用戶對數(shù)據(jù)子集的特定范圍的查詢。它以用戶所要求的方式提供企業(yè)數(shù)據(jù)倉庫的細(xì)節(jié)匯總。優(yōu)化——數(shù)據(jù)集市為了支持特定工具的訪問而優(yōu)化。根據(jù)工具、根據(jù)企業(yè)數(shù)據(jù)倉庫提供的信息子集來設(shè)計數(shù)據(jù)集市,而不是讓用戶直接訪問企業(yè)數(shù)據(jù)倉庫中的大型數(shù)據(jù)庫,這可以改善數(shù)據(jù)集市的性能。虛擬或物理數(shù)據(jù)集市——數(shù)據(jù)集市可以是物理的實現(xiàn),也可以是企業(yè)數(shù)據(jù)倉庫表的各種視圖。使用視圖(虛擬數(shù)據(jù)集市)可以避免存儲數(shù)據(jù)的多個副本,簡化了數(shù)據(jù)管理。數(shù)據(jù)集市,在設(shè)計得時候往往通過OLAP技術(shù),利用數(shù)據(jù)倉庫的數(shù)據(jù)根據(jù)用戶需求建立的多維分析模型(多維立方體),模型以特定的方式存儲,大大提高了前端查詢訪問的效率,用戶能方便地實現(xiàn)靈活、動態(tài)、快速、多角度、多層次地分析企業(yè)數(shù)據(jù)。同時,也可以通過定制靈活的OLTP查詢來了解明細(xì)數(shù)據(jù)。數(shù)據(jù)應(yīng)用集市,數(shù)據(jù)經(jīng)過加工和匯總,數(shù)據(jù)粒度要粗于數(shù)據(jù)倉庫,為前端應(yīng)用提供數(shù)據(jù),相比數(shù)據(jù)倉庫這里一般不會保留細(xì)節(jié)數(shù)據(jù)。以集成的方式展示查詢、報表、分析的結(jié)果通過搭建靈活的、可擴(kuò)展技術(shù)架構(gòu),在保持?jǐn)?shù)據(jù)集市穩(wěn)定性的同時,可以不斷增加數(shù)據(jù)源,增加應(yīng)用數(shù)據(jù)層,滿足不斷增加的業(yè)務(wù)分析應(yīng)用需求。目前有很多業(yè)界靈活的報表工具,提供很多預(yù)先定義的模版,快速開發(fā),從而把時間更多的放在業(yè)務(wù)需求定義上。數(shù)據(jù)中心基礎(chǔ)管理平臺數(shù)據(jù)中心的基礎(chǔ),包括元數(shù)據(jù)、數(shù)據(jù)質(zhì)量和數(shù)據(jù)生命周期管理,這些基礎(chǔ)組件貫穿數(shù)據(jù)倉庫整個生命周期,是數(shù)據(jù)倉庫的基石,基于此之上的數(shù)據(jù)倉庫平臺的管理應(yīng)用,使整個倉庫系統(tǒng)更好的受控運(yùn)行。元數(shù)據(jù)管理是數(shù)據(jù)中心建設(shè)的一個重要一環(huán)。數(shù)據(jù)中心建設(shè)涉及到方方面面:大量的數(shù)據(jù)源表、數(shù)據(jù)倉庫表、業(yè)務(wù)需求、數(shù)據(jù)映射關(guān)系、ETL任務(wù)、ETL調(diào)度等等。一個可實施的、良好的元數(shù)據(jù)管理構(gòu)架是數(shù)據(jù)中心成功的基礎(chǔ)。完整的數(shù)據(jù)質(zhì)量管理方案可以確保數(shù)據(jù)中心數(shù)據(jù)的準(zhǔn)確性。數(shù)據(jù)質(zhì)量是數(shù)據(jù)中心的生命,要保證數(shù)據(jù)中心的可用性必須保證數(shù)中心內(nèi)的數(shù)據(jù)質(zhì)量,建立數(shù)據(jù)質(zhì)量問題平臺,使數(shù)據(jù)質(zhì)量控制過程規(guī)則化、具體化。通過數(shù)據(jù)質(zhì)量平臺做到具體問題具體分析,并跟蹤問題直至問題解決。數(shù)據(jù)中心邏輯架構(gòu)與產(chǎn)品部署架構(gòu) 在該總體邏輯架構(gòu)中,我們根據(jù)應(yīng)用架構(gòu)的設(shè)計,以IBM整體數(shù)據(jù)倉庫平臺方案滿足銀行的需求。其中,以DataStage為核心來實現(xiàn)數(shù)據(jù)ETL平臺,實現(xiàn)數(shù)據(jù)分發(fā),處理流轉(zhuǎn),質(zhì)量提升,清洗轉(zhuǎn)換等要求。InfomationServer平臺作為企業(yè)級的ETL平臺,專門用于企業(yè)級數(shù)據(jù)中心平臺的應(yīng)用,不僅具有強(qiáng)大的ETL功能,還包括了統(tǒng)一的Metadata元數(shù)據(jù)平臺MetadataServer,數(shù)據(jù)質(zhì)量提升的工具等。通過統(tǒng)一的元數(shù)據(jù)平臺MetadataServer對銀行數(shù)據(jù)中心項目中的技術(shù)元數(shù)據(jù)和其他元數(shù)據(jù)進(jìn)行管理。通過DataStage可以很好的集成銀行現(xiàn)有的異構(gòu)的數(shù)據(jù)源,進(jìn)行數(shù)據(jù)的采集。在數(shù)據(jù)存儲層和核心的數(shù)據(jù)中心平臺上,我們建議采用IBMInfoSphereWarehouse數(shù)據(jù)中心平臺構(gòu)建基礎(chǔ)架構(gòu),InfoSphereWarehouse數(shù)據(jù)中心平臺中包含了DB2數(shù)據(jù)倉庫引擎,和數(shù)據(jù)倉庫管理開發(fā)工具,以及多維分析,數(shù)據(jù)挖掘等工具,可以滿足銀行在數(shù)據(jù)平臺上的技術(shù)要求,并符合長期發(fā)展和應(yīng)用擴(kuò)展的要求。利用InforSphereWarehouse,在將來通過該平臺不斷擴(kuò)展EDW的功能,并且可以集成現(xiàn)有的ODS平臺,實現(xiàn)統(tǒng)一數(shù)據(jù)管理。在應(yīng)用服務(wù)層,針對本次項目主要為報表應(yīng)用和多維分析應(yīng)用,我們建議基于WAS應(yīng)用服務(wù)器平臺,使用IBMCognos作為BI分析展現(xiàn)和報表工具,對應(yīng)用提供支撐,IBMCongnosBI分析工具,具備了完整了BI分析,報表功能,還具有績效考核,財務(wù)分析等擴(kuò)展能力。WAS應(yīng)用服務(wù)器平臺符合銀行整體應(yīng)用的規(guī)劃和現(xiàn)有的環(huán)境,便于以后的擴(kuò)展,滿足大用戶量的訪問要求。以上是本次數(shù)據(jù)中心項目整體邏輯架構(gòu)的產(chǎn)品映射圖,對應(yīng)了應(yīng)用架構(gòu)中各個層次的產(chǎn)品支撐。數(shù)據(jù)中心平臺方案詳細(xì)設(shè)計數(shù)據(jù)中心應(yīng)用平臺模型設(shè)計數(shù)據(jù)倉庫建模業(yè)務(wù)建模業(yè)務(wù)建模階段將對業(yè)務(wù)需求定義階段客戶化得到的業(yè)務(wù)需求進(jìn)行建模,在對業(yè)務(wù)需求進(jìn)行建模的時候,不用關(guān)注數(shù)據(jù)訪問和性能等設(shè)計方面的考慮。業(yè)務(wù)建模階段的目標(biāo)是,用理想的方式、從業(yè)務(wù)角度將數(shù)據(jù)倉庫需要的信息結(jié)構(gòu)化。這樣做,可以確認(rèn)業(yè)務(wù)需求被正確理解,并且在下一個階段,數(shù)據(jù)倉庫設(shè)計師得到可靠的、業(yè)務(wù)驅(qū)動的數(shù)據(jù)結(jié)構(gòu),大大減少近期、中期和遠(yuǎn)期維護(hù)數(shù)據(jù)倉庫邏輯和物理結(jié)構(gòu)的成本。因為模型具有很高的通用性,我們建議在業(yè)務(wù)建模階段,要求相關(guān)參與人員應(yīng)遵循IBMIFW的實施方法論原則。業(yè)務(wù)建模過程中,使用建模工具最終生成業(yè)務(wù)方案模型(BusinessSolutionModel)。使用視圖的概念來把需要的業(yè)務(wù)方案模版(BusinessSolutionTemplate)涵蓋進(jìn)來,一個視圖可作為一個OLAPCUBE和Erwin模型的單位,在視圖中,定義了所有的需要的維度和度量信息。出于范圍定義的簡單性,每個用戶部門可能需要不同的視圖定義?;蛘撸總€業(yè)務(wù)方案模版都會定義自己的視圖。模型映射根據(jù)數(shù)據(jù)源分析的結(jié)果利用工具進(jìn)行從數(shù)據(jù)源到數(shù)據(jù)模型的Mapping,最終生成ETLMapping,使數(shù)據(jù)模型符合實際業(yè)務(wù)技術(shù)需求。并在裁減過程中充分考慮今后的擴(kuò)展性與穩(wěn)定性。Mapping人員通常是參與數(shù)據(jù)源分析的人員,熟悉數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)質(zhì)量等信息,同時也掌握了建模的知識。在Mapping過程中的幾個重點:數(shù)據(jù)整合,(統(tǒng))單一視圖整合各個系統(tǒng)的數(shù)據(jù),如核心業(yè)務(wù)系統(tǒng)的貸款分戶帳與信貸管理系統(tǒng)中的借據(jù)整合客戶信息,核心業(yè)務(wù)系統(tǒng)的客戶信息,信貸管理系統(tǒng)中的客戶信息數(shù)據(jù)源分析結(jié)果作為M1Mapping的輸入Mapping按照數(shù)據(jù)源,多人協(xié)同Mapping同時做ETLMapping多個數(shù)據(jù)源,多個項目視圖統(tǒng)一,多個目標(biāo)視圖MappingRule,包含ETLMapping,作為DataStageJob的輸入標(biāo)示出數(shù)據(jù)之間的業(yè)務(wù)關(guān)系根據(jù)實際業(yè)務(wù)需求,適當(dāng)修改模型邏輯數(shù)據(jù)建模傳統(tǒng)的應(yīng)用系統(tǒng)大多是一些業(yè)務(wù)系統(tǒng),從數(shù)據(jù)和應(yīng)用的角度來看,它們具有以下一些特征:面向特定的應(yīng)用由事務(wù)處理驅(qū)動實時性要求高數(shù)據(jù)檢索量少主要處理當(dāng)前數(shù)據(jù)數(shù)據(jù)按照處理流程進(jìn)行組織與傳統(tǒng)業(yè)務(wù)系統(tǒng)不同,目前正在建設(shè)的分析型應(yīng)用系統(tǒng)大多有以下特征:存儲大量的歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù)面向分析主題(如關(guān)系人、產(chǎn)品、機(jī)構(gòu)等)數(shù)據(jù)來源廣泛,可能會跨不同的業(yè)務(wù)系統(tǒng)。實時性要求不是特別高數(shù)據(jù)檢索量大主要做一些綜合分析處理數(shù)據(jù)需要按照分析主題進(jìn)行組織因此,為了能夠更方便快捷地從分析應(yīng)用系統(tǒng)中抽取所需要的信息進(jìn)行全面、綜合、靈活多樣的查詢和分析,支持決策分析,就需要重新有效地組織原有業(yè)務(wù)系統(tǒng)中的數(shù)據(jù),滿足以下要求,這就是邏輯數(shù)據(jù)模型的引入。用圖形的方式體現(xiàn)業(yè)務(wù)規(guī)則成為IT人員和業(yè)務(wù)人員溝通的工具獨立于技術(shù)是集成當(dāng)前數(shù)據(jù)的有效手段為未來數(shù)據(jù)的組織提供藍(lán)圖建立邏輯數(shù)據(jù)模型的意義邏輯數(shù)據(jù)模型(LogicalDataModel)是一種圖形的展現(xiàn)方式,采用面向主題的方法有效組織來源多樣的各種業(yè)務(wù)數(shù)據(jù),同時能全面反映復(fù)雜的業(yè)務(wù)規(guī)則,支持大量的分析應(yīng)用。邏輯數(shù)據(jù)模型使用統(tǒng)一的邏輯語言描述業(yè)務(wù),是數(shù)據(jù)管理的分析工具和交流的有力手段;同時還能夠很好地保證數(shù)據(jù)的一致性,是實現(xiàn)業(yè)務(wù)智能(BusinessIntelligence)的重要基礎(chǔ)。數(shù)據(jù)方面因為分析型應(yīng)用系統(tǒng)的數(shù)據(jù)來源非常多樣化,作為源數(shù)據(jù)的業(yè)務(wù)系統(tǒng)都有自己的一些特點,同時它們的部分?jǐn)?shù)據(jù)之間還存在或多或少的聯(lián)系,所以建立邏輯數(shù)據(jù)模型的一個重要的任務(wù)就是“整合”,對數(shù)據(jù)進(jìn)行統(tǒng)一有效的管理,效益主要體現(xiàn)在:整合了不同業(yè)務(wù)系統(tǒng)和業(yè)務(wù)平臺的數(shù)據(jù)有效地避免了數(shù)據(jù)冗余保證了數(shù)據(jù)的一致性規(guī)范數(shù)據(jù)的命名和使用是建立物理數(shù)據(jù)模型的重要基礎(chǔ)應(yīng)用方面從上述幾點不難看出,邏輯數(shù)據(jù)模型搭建了一個靈活的數(shù)據(jù)組織框架,為不同人員(包括業(yè)務(wù)人員和IT人員)都提供了一個統(tǒng)一的數(shù)據(jù)平臺,使大家都可以得到同樣的數(shù)據(jù)信息,并據(jù)此開發(fā)相關(guān)的應(yīng)用。建立“單一視圖”是業(yè)務(wù)人員和開發(fā)人員的橋梁體現(xiàn)不同業(yè)務(wù)之間的關(guān)系,表達(dá)相應(yīng)的業(yè)務(wù)規(guī)則。幫助業(yè)務(wù)用戶對數(shù)據(jù)有一致的、統(tǒng)一的理解物理數(shù)據(jù)建模針對DB2數(shù)據(jù)庫,考慮數(shù)據(jù)倉庫的數(shù)據(jù)量、性能要求、安全要求等方面的因素,對數(shù)據(jù)庫表結(jié)構(gòu)、約束、索引等數(shù)據(jù)庫物理特性進(jìn)行設(shè)計和規(guī)劃。物理設(shè)計原則物理模型——物理化是基于模型工具導(dǎo)出的RDA物理模型。制定統(tǒng)一的命名規(guī)范,標(biāo)準(zhǔn)字段、根據(jù)DB2/DPF特性指定表實體的存儲空間、分區(qū)鍵、主鍵、索引。物理化后提交的模型和DDL都保存在RDA模型中。物理化方法物理化方法在邏輯模型的物理化時,不同的物理化方法得到的模型對數(shù)據(jù)庫的性能也有較大的影響。其中主要體現(xiàn)在表的合并即超類、子類的合并,以及屬性表以及主要實體的合并。如果超類屬性的字段很少,此時建議把超類的屬性,合并到每個子類上。稱為ROLLDOWN。反過來,如果子類的屬性很少,此時建議把子類的屬性,合并到超類上。稱為ROLLUP。為了提高數(shù)據(jù)裝載和訪問的性能,保持物理模型的簡單性,在物理化SOR模型時我們將權(quán)衡使用如下3種方法:關(guān)系合并到父實體子類實體歸并到超類實體超類實體屬性拆分到子類實體命名規(guī)范首先,在物理化設(shè)計過程中,表的命名遵循模型的實體和屬性的命名原則。然后,在基于物理模型進(jìn)行完善和修改。標(biāo)準(zhǔn)字段處理標(biāo)識鍵每個鍵值代表一個ETL處理過程,標(biāo)識每個表的每條記錄的生成處理流程ID。比如數(shù)據(jù)在從數(shù)據(jù)源經(jīng)過DataStage處理到SSA的轉(zhuǎn)換過程中都會記錄一個處理標(biāo)識。在ETL日志表內(nèi)會記錄每個鍵值的含義。每個表內(nèi)要添加一個PhysicalOnly的int類型的ETL_SEQ_ID的字段來記錄此值。源系統(tǒng)標(biāo)識在物理模型中都有一個能夠標(biāo)識數(shù)據(jù)業(yè)務(wù)系統(tǒng)來源的int型字段:SRC_STM_ID。后期數(shù)據(jù)源的擴(kuò)充,基于以上系統(tǒng)ID往上遞增。主外鍵由于主外鍵表示的是對數(shù)據(jù)的一種完整性約束,保證數(shù)據(jù)的完整性,但同時也會在修改數(shù)據(jù)時要求DB2做一些額外的工作來保證這種約束,比如主鍵的唯一性檢查,外鍵的存在性檢查等,作為一個經(jīng)驗準(zhǔn)則,為每一個物理表指定一個業(yè)務(wù)主鍵,由于模型中添加主鍵會影響很多關(guān)聯(lián)關(guān)系的表,所以在模型物理化階段中根據(jù)實際需要添加改主鍵,這些會在doc文檔中寫明。一般來說數(shù)據(jù)的完整性約束已經(jīng)在我們的ETL程序內(nèi)完成了,因此對于數(shù)據(jù)倉庫這種特殊的應(yīng)用,我們一般在主外鍵上遵循如下原則:邏輯實體的主鍵轉(zhuǎn)化為物理表的主鍵,這時DB2會自動為此表的鍵值創(chuàng)建一個唯一性索引,此索引在與其它表Join時可以提高運(yùn)算速度。分區(qū)鍵DB2/DPF數(shù)據(jù)的分區(qū)有如下2個原則層面:數(shù)據(jù)在不同數(shù)據(jù)庫分區(qū)之間的劃分:利用表的分區(qū)鍵(partitionkey)DB2自動完成。通過一個hash函數(shù),DB2把每條記錄依據(jù)其分區(qū)鍵的值映射到不同的數(shù)據(jù)庫分區(qū)內(nèi)。數(shù)據(jù)存儲區(qū)域的劃分:人為的指定把一部分?jǐn)?shù)據(jù)放在一起,另一部分放在另外一塊存儲區(qū)域,這樣在訪問數(shù)據(jù)時DB2可以快速的定位數(shù)據(jù)的位置,從而提高數(shù)據(jù)訪問性能。(這塊物理架構(gòu)設(shè)計中考慮)。當(dāng)定義分區(qū)鍵時,我們不僅從數(shù)據(jù)存儲分布上考慮,同時還要從業(yè)務(wù)處理能力上考慮。在這兩者之間找到均衡點。有如下原則:數(shù)據(jù)均勻分布原則:為避免某個特定的分區(qū)數(shù)據(jù)量過大而成為整個系統(tǒng)的性能瓶頸,分區(qū)鍵的Cardinality最好要足夠大,并且數(shù)據(jù)在不同分區(qū)鍵值的分布是均勻的,因此表的主鍵或作為唯一索引的鍵是比較好的選擇。數(shù)據(jù)同步分布原則:由于DB2的Share-Nothing特性,為最大限度的利用DB2的并行特性,避免Share-Nothing導(dǎo)致的不利因素(不同分區(qū)的數(shù)據(jù)關(guān)聯(lián)時大量的網(wǎng)絡(luò)數(shù)據(jù)傳輸),分區(qū)鍵最好也是常用于表之間關(guān)聯(lián)的鍵。性能原則:用于計算分區(qū)的hash函數(shù)也需要計算量,為提高此函數(shù)的性能,分區(qū)鍵最好是運(yùn)算速度較快的數(shù)據(jù)類型,比如整型,避免使用字符串、浮點、Decimal等數(shù)據(jù)類型。例如:比如對于IP表,會考慮選擇IP_ID作為分區(qū)鍵。考慮因素:由于IP_ID的cardinality高,hash后數(shù)據(jù)會均勻的分布到每個分區(qū)上從應(yīng)用上看,和其他相關(guān)表的連接大多使用IP_id,這樣會使大部分的join都是collate的,效率最高。分區(qū)鍵選擇參考數(shù)據(jù)庫建表分區(qū)原則,模型物理化時,需要考慮到實體的數(shù)據(jù)業(yè)務(wù)應(yīng)用和數(shù)據(jù)均勻分布、長遠(yuǎn)數(shù)據(jù)量增加上,有下面幾個標(biāo)準(zhǔn):數(shù)據(jù)量比較小的表(一般小于10萬行),物理化時建立在單節(jié)點的數(shù)據(jù)庫表空間上。如:Cl數(shù)據(jù)量比較大的建立上多分區(qū)上。同時要注意以下幾個方面:有單個主鍵的實體表,直接以主鍵作為分區(qū)鍵。對于聯(lián)合主鍵實體表,選擇關(guān)聯(lián)查詢次數(shù)最多的字段作為分區(qū)鍵。根據(jù)DPF特性,只有在查詢中包含分區(qū)鍵時,才能體現(xiàn)出DB2性能。否則會影響到DB2處理性能。所以考慮到RDWM模型中的關(guān)系表,以最多的查詢的字段作為分區(qū)鍵。索引索引是DB2改善SQL效率的最主要工具,選擇創(chuàng)建索引的時候可以基于如下原則:主鍵自動建立唯一索引,本模型中主鍵確定,索引將自動生成。對于快速排序操作,在頻繁用于排序數(shù)據(jù)的列上創(chuàng)建索引要提高多列索引的連接性能,如果第一個鍵列有多項選擇,則使用最常用“=”(等值連接)謂詞指定的那一列,或使用如第一個鍵那樣具有最多特異值的那些列。要提高數(shù)據(jù)檢索速度,可在唯一索引中用INCLUDE的方式增加其它字段。合適的列為:根據(jù)對鍵的使用是正序還是逆序,可以當(dāng)在CREATEINDEX語句中指定是否使用ALLOWREVERSESCANS參數(shù)。該參數(shù)可逆向搜索索引值,但是,執(zhí)行按指定索引順序的掃描比執(zhí)行逆向掃描稍微更快一些。要保證索引維護(hù)成本和空間:要提高涉及到IMMEDIATE和INCREMENTALMQT的DELETE和UPDATE操作的性能,對MQT的隱含唯一鍵創(chuàng)建唯一索引,它是MQT定義的GROUPBY子句中的列。要幫助新插入的行根據(jù)索引進(jìn)行群集并避免頁分割,定義一個群集索引(MDC)。群集索引應(yīng)顯著減少重組表的需要。當(dāng)定義索引時可以使用PCTFREE關(guān)鍵字來指定頁上應(yīng)該留下多少可用空間,合理的設(shè)定PCTFREE可以保證IO的性能,同時減少數(shù)據(jù)頁分裂的機(jī)會。要啟用聯(lián)機(jī)索引整理碎片,創(chuàng)建索引時使用MINPCTUSED選項。MINPCTUSED指定索引葉子頁中最小使用空間量的閾值并啟用聯(lián)機(jī)索引整理碎片。如果這些刪除實際上從索引頁除去鍵,則這可以在鍵刪除期間以性能損失為代價而減少重組的需要。除此之外,由于DB2維護(hù)索引需要占有空間和CPU,因此在創(chuàng)建索引的時只在必需的時候創(chuàng)建索引(只在證明索引能改善性能的時候再創(chuàng)建,否則不要創(chuàng)建)。創(chuàng)建MDC索引由于分表會增大管理和使用的復(fù)雜度,對于數(shù)據(jù)量不大的表,可以用MDC索引來提高Roll-in/Roll-out和查詢的性能。在時間和代碼維上創(chuàng)建MDC索引,可以使數(shù)據(jù)嚴(yán)格遵守相同時間、相同代碼的數(shù)據(jù)放在一起,從而提高性能。由于MDC索引必須在創(chuàng)建的時候指定,因此在做物理化時需要指定用于做MDC索引的列。表物理屬性包含每個表的PCTFREE置為0、APPEND模式、LOCKSIZE等。數(shù)據(jù)源分析方案數(shù)據(jù)源分析數(shù)據(jù)源分析是數(shù)據(jù)中心平臺建設(shè)的第一組任務(wù)之一,是一個對需要進(jìn)入數(shù)據(jù)中心的業(yè)務(wù)數(shù)據(jù)庫中數(shù)據(jù)結(jié)構(gòu)的分析過程。通過數(shù)據(jù)源分析,我們可以對進(jìn)入數(shù)據(jù)中心的業(yè)務(wù)數(shù)據(jù)有一個清楚的認(rèn)識,這種認(rèn)識可以簡單劃分為“表級別”和“字段級別”。表級別的數(shù)據(jù)源分析可以幫助我們了解表的業(yè)務(wù)含義、業(yè)務(wù)功能以及數(shù)據(jù)的特征,有利于確定數(shù)據(jù)源的范圍;而字段級別的分析可以幫助我們了解數(shù)據(jù)本身的特征,如主鍵、數(shù)據(jù)類型等,從而掌握詳盡的數(shù)據(jù)質(zhì)量,對后期的接口設(shè)計、數(shù)據(jù)模型映射以及ETL的開發(fā)都有著重要的指導(dǎo)和借鑒意義。IBM的數(shù)據(jù)倉庫建設(shè)解決方案將將數(shù)據(jù)源分析分為兩部分來進(jìn)行,即數(shù)據(jù)源物理分析和數(shù)據(jù)源業(yè)務(wù)分析。對數(shù)據(jù)源物理特征進(jìn)行的分析主要集中在字段級別,在分析中,要求對數(shù)據(jù)源中的數(shù)據(jù)結(jié)構(gòu)獲取詳細(xì)信息,對數(shù)據(jù)變化進(jìn)行準(zhǔn)確統(tǒng)計,包括:字段的明確含義字段的特殊的代碼意義數(shù)據(jù)類型、長度、是否可空、默認(rèn)值、有效值等數(shù)據(jù)的唯一性數(shù)據(jù)如何變化更新頻率數(shù)據(jù)質(zhì)量和稀疏程度對數(shù)據(jù)源業(yè)務(wù)特征進(jìn)行的分析主要集中在表級別,在分析中,要求對數(shù)據(jù)源的業(yè)務(wù)邏輯與業(yè)務(wù)概念進(jìn)行準(zhǔn)確定義,收集非常細(xì)節(jié)的業(yè)務(wù)含義與較高層次的關(guān)系信息,包括:數(shù)據(jù)表的明確業(yè)務(wù)含義和對應(yīng)的業(yè)務(wù)功能模塊,如卡、現(xiàn)金等。數(shù)據(jù)表的使用情況說明,如未使用,代碼表等。表中數(shù)據(jù)的產(chǎn)生方式,如直接更新、記錄歷史等。源系統(tǒng)內(nèi)部數(shù)據(jù)業(yè)務(wù)關(guān)系,如參照關(guān)系,約束關(guān)系等。多個源系統(tǒng)間數(shù)據(jù)的業(yè)務(wù)邏輯關(guān)系。多個源系統(tǒng)間數(shù)據(jù)整合時的數(shù)據(jù)唯一視圖的建立規(guī)則和數(shù)據(jù)準(zhǔn)確獲取標(biāo)準(zhǔn)。數(shù)據(jù)質(zhì)量驗證規(guī)則整理,如系統(tǒng)內(nèi)表間關(guān)系數(shù)據(jù)質(zhì)量規(guī)則以及跨系統(tǒng)表間關(guān)系數(shù)據(jù)質(zhì)量規(guī)則,該規(guī)則用來后續(xù)數(shù)據(jù)清洗和數(shù)據(jù)檢查的參考。按照以上方法進(jìn)行的數(shù)據(jù)源分析示例如下:數(shù)據(jù)源分析協(xié)同工作模式通常,數(shù)據(jù)中心涵蓋的數(shù)據(jù)源來源于多個業(yè)務(wù)系統(tǒng),需要進(jìn)入中心的數(shù)據(jù)表有少則幾百張,這就導(dǎo)致數(shù)據(jù)源分析工作是一個復(fù)雜的大工作量任務(wù)。為了在保證質(zhì)量的前提下盡快完成數(shù)據(jù)源的分析,IBM在進(jìn)行數(shù)據(jù)源分析階段任務(wù)的時候采取多人協(xié)作共同完成的并行工作模式。但這樣的并行模式存在以下不足:多人工做下,工作任務(wù)容易重疊。多人工作下,工作結(jié)果不容易合并。多人工作下,工作風(fēng)格很難統(tǒng)一,工作結(jié)果很難保證。針對以上的問題,IBM將數(shù)據(jù)源分析的結(jié)果看作是一種“業(yè)務(wù)元數(shù)據(jù)”,并將該元數(shù)據(jù)保存到元數(shù)據(jù)管理數(shù)據(jù)庫(MDR)中,借用元數(shù)據(jù)管理思想來管理數(shù)據(jù)源分析工作,既能達(dá)到快速的目的,又能夠保證質(zhì)量。下圖是MDR管理下的協(xié)同數(shù)據(jù)源分析工作模板:首先,將所有需要分析的數(shù)據(jù)表和字段信息錄入到MDR的“業(yè)務(wù)元數(shù)據(jù)”對應(yīng)的表中,為表中的每個數(shù)據(jù)項加上權(quán)限信息,權(quán)限信息精確到每一行數(shù)據(jù)記錄(每個字段對應(yīng)一行)。其次,為每一個參加數(shù)據(jù)源分析的人員建立一個賬戶,該賬戶被設(shè)置嚴(yán)格的權(quán)限,該權(quán)限不僅僅是登錄MDR數(shù)據(jù)庫,而是能夠訪問那張表,以及那個表上的哪條記錄。每個記錄只有owner才有權(quán)限進(jìn)行修改,否則對于其他任何人員都是具有只讀的權(quán)限。最后要求每個參加數(shù)據(jù)源分析的人員共同遵守如下數(shù)據(jù)源分析規(guī)范:嚴(yán)格遵循模版格式,每個人都必須通過數(shù)據(jù)源分析模板進(jìn)行分析。每個人只能使用自己的用戶名登錄MDR。每個人只能檢出屬于自己的數(shù)據(jù)表和字段進(jìn)行分析,不能檢出他人的數(shù)據(jù)。每個人在工作結(jié)束當(dāng)天必須檢入自己檢出的所有分析結(jié)果,包括沒有修改過的數(shù)據(jù)。按照這樣的協(xié)同工作模式和方法,IBM數(shù)據(jù)倉庫開發(fā)團(tuán)隊能夠縮短開發(fā)周期,提高分析質(zhì)量,并成功的為后續(xù)工作提供方便的接口。數(shù)據(jù)流程設(shè)計(DataCentricView)數(shù)據(jù)流程描述數(shù)據(jù)在數(shù)據(jù)中心系統(tǒng)內(nèi)如何組織和流動。根據(jù)我們的總體架構(gòu)我們的數(shù)據(jù)流程圖如下圖所示:ODS、數(shù)據(jù)倉庫和數(shù)據(jù)集市都存儲在相應(yīng)的DB2數(shù)據(jù)庫內(nèi),其它接口數(shù)據(jù)以文件的方式存放在文件系統(tǒng)中,下面逐一介紹數(shù)據(jù)流的各個Staging區(qū)域:接口文件區(qū)接口文件區(qū)是存儲和處理接口文件的區(qū)域,如前面章節(jié)所述,接口文件區(qū)在Unix系統(tǒng)下按照特定的目錄結(jié)構(gòu)組織起來。用Unix的一些系統(tǒng)命令和工具來管理。對每個目錄按照其特定的用途設(shè)定對不同用戶的訪問權(quán)限,比如誰能讀,誰能寫,誰能改等。接口文件區(qū)數(shù)據(jù)的處理工具主要是DataStage(或自己開發(fā)的ETL處理程序),附加以Unix腳本和一些自己開發(fā)的特定程序。操作型數(shù)據(jù)存儲ODS(OperationalDataStore)操作數(shù)據(jù)存儲(ODS)的數(shù)據(jù)具有面向主題、集成的、可變的和數(shù)據(jù)是當(dāng)前的或是接近當(dāng)前的4個基本特征,它是介于數(shù)據(jù)源業(yè)務(wù)系統(tǒng)和數(shù)據(jù)倉庫之間的一種數(shù)據(jù)存儲技術(shù),和原來面向應(yīng)用的分散的數(shù)據(jù)源業(yè)務(wù)系統(tǒng)相比,ODS中的數(shù)據(jù)組織方式和數(shù)據(jù)倉庫(DW)一樣也是面向主題的和集成的。但ODS只是存放當(dāng)前或接近當(dāng)前的數(shù)據(jù),且數(shù)據(jù)結(jié)構(gòu)接近數(shù)據(jù)源業(yè)務(wù)系統(tǒng)。ODS主要作用可以體現(xiàn)在以下幾個方面:在業(yè)務(wù)系統(tǒng)和數(shù)據(jù)倉庫之間形成一個隔離緩沖層轉(zhuǎn)移一部分業(yè)務(wù)細(xì)節(jié)數(shù)據(jù)的查詢功能通過復(fù)制的方式,將業(yè)務(wù)系統(tǒng)數(shù)據(jù)實時或者近實時的復(fù)制到ODS系統(tǒng),支持實時數(shù)據(jù)倉庫功能支持操作型報表物理部署時,可以考慮與數(shù)據(jù)倉庫放在一起。細(xì)節(jié)數(shù)據(jù)暫存區(qū)SSA(SORStagingArea)SSA的主要目的是支持把接口文件的裝載到數(shù)據(jù)庫,對其進(jìn)行驗證和處理,然后把數(shù)據(jù)整合到SOR內(nèi)。驗證的方法主要是將新轉(zhuǎn)載的數(shù)據(jù)與SOR內(nèi)已有的數(shù)據(jù)進(jìn)行查找和比較。SSA內(nèi)數(shù)據(jù)結(jié)構(gòu)的設(shè)計原則是最大限度的利用接口文件的數(shù)據(jù)結(jié)構(gòu),盡量降低實體的個數(shù),同時很好的支持后續(xù)的ETL過程。當(dāng)然在物理表的設(shè)計上一些DB2的特性也要考慮,比如合理的選擇表的分區(qū)鍵,以最大限度的發(fā)揮DB2的并行特性。SSA里面的表的用途基本都是臨時的,每次數(shù)據(jù)裝載都會清空,因此對這些表的處理可以不記日志,以加快處理速度。細(xì)節(jié)數(shù)據(jù)SOR(SystemOfRecord)SOR是基于IFW開發(fā)的一套符合3NF范式規(guī)范的表結(jié)構(gòu)。SOR存儲了數(shù)據(jù)倉庫內(nèi)最細(xì)節(jié)層次的數(shù)據(jù),按照不同的主題域進(jìn)一步分分類組織。此模型是整個數(shù)據(jù)倉庫數(shù)據(jù)模型的核心,其設(shè)計為具有足夠的靈活性,以能夠應(yīng)對添加更多的數(shù)據(jù)源,支持更多分析需求,同時也能夠支持?jǐn)?shù)據(jù)倉庫進(jìn)一步升級和更新。為了能夠在數(shù)據(jù)倉庫內(nèi)記錄數(shù)據(jù)的變化以支持歷史趨勢和變化分析,SOR在一些關(guān)鍵的屬性值上會跟蹤變化(比如客戶的信用度、狀態(tài)等)。跟蹤變化的常見方法就是利用漸變維的Type2方法來處理記錄,在表內(nèi)增加一條記錄變化數(shù)據(jù)的新記錄。同時為了降低不必要的存儲空間的浪費(fèi)(相同數(shù)據(jù)的重復(fù)存儲),我們可以把實體中動態(tài)變化的屬性與靜態(tài)不變或只需覆蓋不需跟蹤變化的屬性分開。比如對用戶,我們可以用一張表存放不變化的用戶靜態(tài)屬性,用另一張表存放經(jīng)常變化的用戶行為屬性,當(dāng)跟蹤用戶行為的變化時我們只需在用戶行為表內(nèi)添加記錄就行了,沒必要把沒有發(fā)生變化的用戶靜態(tài)表內(nèi)的數(shù)據(jù)也復(fù)制一份。匯總數(shù)據(jù)區(qū)(Summary)匯總數(shù)據(jù)區(qū)是為了方便查詢和后續(xù)多維數(shù)據(jù)的更新,創(chuàng)建一些常用的中間匯總表,以提高性能和降低后續(xù)ETL工作的復(fù)雜性。由于SOR是高度規(guī)范化的數(shù)據(jù),因此要完成一個查詢需要大量的關(guān)聯(lián)操作;同時數(shù)據(jù)集市中的數(shù)據(jù)粒度往往要比SOR高很多,對要成生數(shù)據(jù)集市所需數(shù)據(jù)也需要大量的匯總計算,因此如果我們把常用的數(shù)據(jù)預(yù)先關(guān)聯(lián)和匯總好,并讓其盡量多在多個數(shù)據(jù)集市的計算中共享,就能大幅度的提高整個ETL工作和數(shù)據(jù)倉庫查詢的性能。反饋數(shù)據(jù)區(qū)(FeedbackArea)反饋數(shù)據(jù)區(qū)主要記錄的是數(shù)據(jù)倉庫自身生成的結(jié)果。比如用戶對營銷活動的反饋等。另外此區(qū)域還可以作為數(shù)據(jù)集市之間共享運(yùn)算結(jié)果的區(qū)域,或者暫存復(fù)雜的ETL中間運(yùn)算結(jié)果,以提高數(shù)據(jù)集市的性能,進(jìn)而提供整個倉庫的數(shù)據(jù)供給效率。數(shù)據(jù)倉庫的特性決定了用戶在原則上不能直接修改數(shù)據(jù)倉庫中的數(shù)據(jù),因此用戶的修改數(shù)據(jù)和其它生成數(shù)據(jù)必須單獨記錄,以便于追蹤歷史和進(jìn)行比較。元數(shù)據(jù)存儲MDR(MetaDataRepository)元數(shù)據(jù)存儲用來保存關(guān)于數(shù)據(jù)倉庫中的過程、數(shù)據(jù)的信息(日志、數(shù)據(jù)詞典、配置信息等)。由于各個工具和系統(tǒng)都會生成自己的元數(shù)據(jù),同時我們還利用元數(shù)據(jù)管理工具把這些元數(shù)據(jù)盡可能的集中存儲到數(shù)據(jù)倉庫中的MDR內(nèi),因此MDR總的來說只是一個共享元數(shù)據(jù)供用戶集中訪問的地方,真正元數(shù)據(jù)的維護(hù)地還是在生成這些元數(shù)據(jù)的系統(tǒng)或工具內(nèi)。數(shù)據(jù)集市(DataMart)和多維立方體多維數(shù)據(jù)存儲包含一系列多維數(shù)據(jù)模型(符合星型模式或雪花模式的關(guān)系表)。每個多維數(shù)據(jù)模型由一個數(shù)據(jù)表和幾個外鍵表組成,一個稱為事實表,英文稱為”FactTable”,其他的表稱為維度表。每個維度表含有單一的主鍵,這個主鍵和事實表里一個鍵相對應(yīng)。這個類似于星形的結(jié)構(gòu)通常被稱作星形模型。一個事實表經(jīng)常包含一個或多個數(shù)字指標(biāo),或“事實,英文稱為Fact”,定義每個記錄的鍵值組合。在事實表最有用的東西是數(shù)字和可以相加的東西。相加是很重要的,因為數(shù)據(jù)倉庫的應(yīng)用程序不會檢索單個的事實表,相反,他們會同時取回上百、上萬、甚至上億條記錄,唯一有用的事情是把這些記錄相加。通過對比,維度表通常含有描述信息。維度屬性被用于在數(shù)據(jù)倉庫查詢里大部分有用約束的來源,實際上他們是SQL查詢返回結(jié)果集的行表頭。ETL架構(gòu)設(shè)計ETL在整個數(shù)據(jù)倉庫建設(shè)中起著舉足輕重的作用,一般ETL的工作量在整個數(shù)據(jù)倉庫建設(shè)過程中占到50%以上的比例,所以好的ETL設(shè)計能夠大大提高數(shù)據(jù)倉庫建設(shè)的效率。ETL設(shè)計遵循如下原則:靈活性,不同的時間段中能夠進(jìn)行數(shù)據(jù)獲取、轉(zhuǎn)換、裝載可重復(fù)性,支持失敗的ETL任務(wù)行數(shù)據(jù)重新裝載模塊化,ETL過程分步實施,每個過程通過不同的模塊組件來完成。并盡可能復(fù)用這些組件。從而提高ETL實施效率,增加數(shù)據(jù)倉庫的可維護(hù)性。迭代方法,滿足當(dāng)前的業(yè)務(wù)需求,盡可能搭建滿足未來的業(yè)務(wù)需求的平臺上不斷開發(fā)實施。ETL邏輯依賴關(guān)系,依賴業(yè)務(wù)系統(tǒng)數(shù)據(jù)處理方式,來定義ETL處理流程控制。例如:在銀行的ETL過程中,交易記錄信息的數(shù)據(jù)裝載應(yīng)該在賬戶信息進(jìn)入數(shù)據(jù)倉庫之后進(jìn)行。ETL架構(gòu)IBM推薦的組件式的ETL架構(gòu)如下所示:ETL架構(gòu)的靈活性體現(xiàn)在組件化的設(shè)計,不同的ETL組件之間定義清晰的接口,每次的變化限定在有限的組件之內(nèi);ETL架構(gòu)中的每個組件都是可以替換的。 IBM推薦ELT整體方案基于業(yè)界領(lǐng)先的IBMInformationServer產(chǎn)品套裝實現(xiàn)。IBMInformationServer產(chǎn)品所提供高度并發(fā)性和擴(kuò)展性,將大大提升數(shù)據(jù)倉庫ETL過程的整體性能。IBMInformationServer是業(yè)界首個全面統(tǒng)一的企業(yè)信息體系結(jié)構(gòu)基礎(chǔ),能夠進(jìn)行伸縮以滿足任何信息量需求,以使公司可以在這些創(chuàng)新活動中更快地交付具有更高質(zhì)量的業(yè)務(wù)成功。IBMInformationServer將IBM信息集成解決方案中的技術(shù)整合到一個統(tǒng)一的平臺,包括WebSphereDataStage、WebSphereQualityStage、WebSphereInformationAnalyzer和WebSphereInformationIntegrator,使得公司能夠了解、清理、變化和交付可信任且上下文豐富的信息。具體產(chǎn)品組件介紹見第五章‘產(chǎn)品介紹’部分。數(shù)據(jù)抽取過程首先從各個生產(chǎn)系統(tǒng)上根據(jù)約定的采集周期采集全量或增量數(shù)據(jù),生成相應(yīng)的文本文件。在采集過程中可能涉及系統(tǒng)內(nèi)或跨系統(tǒng)的數(shù)據(jù)關(guān)聯(lián)獲取。這些文本文件的結(jié)構(gòu)與源數(shù)據(jù)基本相同(根據(jù)具體需求可能要濾掉一些字段信息),我們稱這些存放源數(shù)據(jù)的文本文件為EXF(ExtractFormat)。數(shù)據(jù)抽取需要注意如下事項:為提高ETL效率,數(shù)據(jù)在進(jìn)入ETL系統(tǒng)后的EXF文件將轉(zhuǎn)換為系統(tǒng)內(nèi)部文件格式從ETL程序設(shè)計的靈活性和整體結(jié)構(gòu)的一致性考慮,盡量采用Pull的方式,減少對源系統(tǒng)的影響和對其他開發(fā)隊伍的依賴,并減少網(wǎng)絡(luò)壓力,目前最先進(jìn)的方式是基于LOG捕獲純增量。EXF的文件格式接近數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)定義如果業(yè)務(wù)需求清晰明確,在Extract過程中可以過濾數(shù)據(jù)倉庫不需要的數(shù)據(jù)記錄和字段數(shù)據(jù)轉(zhuǎn)換過程上圖是我們基于DS設(shè)計的數(shù)據(jù)轉(zhuǎn)換流程,數(shù)據(jù)轉(zhuǎn)換過程中數(shù)據(jù)載體為文件,這樣充分發(fā)揮DS處理文件的強(qiáng)大性能和穩(wěn)定性,根據(jù)數(shù)據(jù)抽取過程生成的CIF文件,經(jīng)過數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)聚合、復(fù)雜計算以及數(shù)據(jù)匹配等處理過程,生成與目標(biāo)數(shù)據(jù)結(jié)構(gòu)相同的PLF(Pre-LoadFormat)文件。具體包含以下過程:數(shù)據(jù)內(nèi)容數(shù)值的檢查代碼轉(zhuǎn)換。包含轉(zhuǎn)換為數(shù)據(jù)倉庫系統(tǒng)自己語言數(shù)據(jù)內(nèi)容數(shù)據(jù)格式的規(guī)范化代理鍵的生成 數(shù)據(jù)內(nèi)容Merge在整個數(shù)據(jù)轉(zhuǎn)換過程中需要記錄很多諸如出錯日志、處理流程監(jiān)控日志以及一些統(tǒng)計信息。這主要由一些公用的DS程序模塊來完成,保證無論數(shù)據(jù)是否非法都會在我們的ETL處理范圍之內(nèi)數(shù)據(jù)清洗數(shù)據(jù)轉(zhuǎn)換的另一個方面就是對非法數(shù)據(jù)的處理,這里的非法主要是根據(jù)具體系統(tǒng)數(shù)據(jù)需求確定清洗原則,包括數(shù)據(jù)檢查與稽核、數(shù)據(jù)類型統(tǒng)一轉(zhuǎn)換、空數(shù)據(jù)賦缺省值、數(shù)據(jù)排序、數(shù)據(jù)拆分、臟數(shù)據(jù)處理等。數(shù)據(jù)清洗過程中尤為需要注意的是Reject過程,對Reject數(shù)據(jù)需要按照Reject方式分類并記錄,做到有據(jù)可查,因為從整個數(shù)據(jù)流程來講,Reject也是一個輸出,我們必須保證數(shù)據(jù)的輸入和輸出是匹配的。Load和Merge過程Load數(shù)據(jù)的過程相對簡單,就是把數(shù)據(jù)轉(zhuǎn)換清洗過程生成的PLF文件導(dǎo)入到數(shù)據(jù)庫臨時表中。但是由于不同的數(shù)據(jù)庫和操作系統(tǒng)在導(dǎo)入數(shù)據(jù)時所涉及到的步驟或者方式都是不一樣的。所以數(shù)據(jù)的導(dǎo)入是由工具完成還是通過編寫腳本或程序來完成可能要根據(jù)具體情況而定。Load充分利用了數(shù)據(jù)庫加載數(shù)據(jù)的高效和可并行的特性。因為Load的不可逆特性所以我們會將數(shù)據(jù)Load到一個臨時區(qū)域保存,我們稱之為SSA,利用SSA區(qū)域即可做到Load過程的可重復(fù)性,同時可提高對數(shù)據(jù)倉庫核心數(shù)據(jù)區(qū)域SOR的更新效率。Merge過程完成將SSA的數(shù)據(jù)加載更新到SOR區(qū)域,Load和Merge都利用了數(shù)據(jù)庫的高效引擎快速完成數(shù)據(jù)處理功能,與DS的文件處理不一樣,這里完成更多的是數(shù)據(jù)的插入和更新,我們可以將其理解為在數(shù)據(jù)庫內(nèi)部的數(shù)據(jù)轉(zhuǎn)換過程。Merge過程利用歷史數(shù)據(jù)表來保存每一次的數(shù)據(jù)變化,做到Merge過程的可重復(fù)性,歷史表的保留時間根據(jù)具體項目需求而定。當(dāng)日錯誤重跑機(jī)制Merge過程將臨時區(qū)SSA中的數(shù)據(jù)合并到最終的數(shù)據(jù)倉庫存儲區(qū)SOR.在合并的過程中,加入了數(shù)據(jù)恢復(fù)機(jī)制.當(dāng)發(fā)現(xiàn)源系統(tǒng)接口數(shù)據(jù)文件有問題,可首先清除該任務(wù)已加載到倉庫中的數(shù)據(jù),然后從一個存放數(shù)據(jù)變化的表中恢復(fù)上個批次的數(shù)據(jù),通過這種機(jī)制,實現(xiàn)了當(dāng)批次任務(wù)的重跑機(jī)制,保證了數(shù)據(jù)的準(zhǔn)確性.具體處理流程如下:刪除數(shù)據(jù)倉庫存儲區(qū)SOR中和該任務(wù)相關(guān)的數(shù)據(jù),條件為處理日期為當(dāng)批的會計日期.將存放數(shù)據(jù)變化的表HIS中的上個批次的數(shù)據(jù)恢復(fù)到SOR中.HIS中存儲了每個批次中新增/更新/刪除的數(shù)據(jù),其表結(jié)構(gòu)和SOR中表結(jié)構(gòu)基本相同,只是多了一個記錄上個批次任務(wù)ID的字段.刪除HIS中和該任務(wù)相關(guān)的數(shù)據(jù),條件為任務(wù)ID為當(dāng)批次的任務(wù)ID將當(dāng)批次中新增/更新/刪除的數(shù)據(jù)插入到HIS中.ETL調(diào)度ETL調(diào)度模塊負(fù)責(zé)所有數(shù)據(jù)處理任務(wù)的調(diào)度及順序邏輯控制,在功能上具有如下功能:任務(wù)觸發(fā)-當(dāng)Job的啟動條件滿足用戶預(yù)先設(shè)定的條件時,自動加載Job并運(yùn)行。Job的觸發(fā)條件包括時間條件和任務(wù)條件兩種,ETL調(diào)度模塊應(yīng)同時具有這兩種任務(wù)觸發(fā)機(jī)制:時間觸發(fā)-指定Job在特定的時間點開始運(yùn)行。比如每天的凌晨1點;或每月的5號的凌晨1點。事件觸發(fā)-發(fā)生特定的事件后Job自動運(yùn)行。比如接口處理Job要在其依賴的接口文件全部到達(dá)后自動啟動;或一個Job其所有前置Job成功運(yùn)行完成后自動啟動。時間和事件的結(jié)合-多個條件組合都滿足后自動運(yùn)行Job。比如要求月接口文件處理Job在其所有接口文件全部到達(dá)并且時間在每月的5號的下午6點之后運(yùn)行。對于不同時間序列的源系統(tǒng),可采用事件觸發(fā)任務(wù)的方式,在所依賴源系統(tǒng)數(shù)據(jù)文件和標(biāo)識文件到達(dá)且校驗無誤的情況下觸發(fā)后續(xù)任務(wù)高效執(zhí)行.若任務(wù)依賴于多個不同時間序列的源系統(tǒng),則僅當(dāng)所有依賴的源文件到達(dá)時才會觸發(fā)后續(xù)任務(wù).任務(wù)排序-對ETLJob運(yùn)行的先后順序進(jìn)行排序,任務(wù)排序體現(xiàn)在如下2個方面:依賴關(guān)系-任務(wù)之間具有邏輯上絕對的先后關(guān)系,一個任務(wù)的啟動必須依賴于其前置任務(wù)的成功完成。對其前置任務(wù)主要考慮與的關(guān)系,也即只有當(dāng)其所有前置任務(wù)完成后才啟動任務(wù)。優(yōu)先級-如果兩個或多個任務(wù)同時滿足啟動條件,任務(wù)的執(zhí)行先后順序可以通過任務(wù)的優(yōu)先級來決定,具有較高優(yōu)先級的Job將優(yōu)先運(yùn)行。全局任務(wù)同步-對于運(yùn)行在不同機(jī)器和系統(tǒng)上的ETL任務(wù),調(diào)度模塊可以對其進(jìn)行同步。比如機(jī)器1上的任務(wù)1完成后觸發(fā)機(jī)器2上的任務(wù)2。并行執(zhí)行-同時允許多個任務(wù)并行執(zhí)行??梢栽O(shè)置各類Job的并行度。并行度有如下2個層次:不同機(jī)器任務(wù)之間的并行-比如要求不同機(jī)器上的任務(wù)如果沒有相關(guān)性的話,其運(yùn)行應(yīng)該相互不影響。機(jī)器1上的任務(wù)1和機(jī)器2上的任務(wù)2可以同時運(yùn)行。同一機(jī)器內(nèi)部任務(wù)的并行-對于運(yùn)行在同一個機(jī)器上的任務(wù),如果沒有相關(guān)性的話可以并行運(yùn)行。比如數(shù)據(jù)集市的兩個Cube裝載任務(wù),沒有相關(guān)性,并且優(yōu)先級相同,可以設(shè)置為兩個任務(wù)同時啟動。任務(wù)管理-允許用戶靈活的添加新的任務(wù)、設(shè)置任務(wù)的觸發(fā)條件、和依賴關(guān)系。能方便的重置任務(wù)狀態(tài),重啟和結(jié)束任務(wù)運(yùn)行等。管理任務(wù)如下:方便配置任務(wù)元數(shù)據(jù),包括任務(wù)類型、任務(wù)調(diào)度的命令、優(yōu)先級方便配置任務(wù)的依賴性根據(jù)需要和系統(tǒng)資源利用情況靈活配置任務(wù)的并行度可根據(jù)任務(wù)運(yùn)行的頻度來動態(tài)的確定當(dāng)日需要運(yùn)行的任務(wù)列表,并進(jìn)行任務(wù)的觸發(fā),實現(xiàn)任務(wù)的循環(huán)周期調(diào)度.可使用數(shù)據(jù)庫視圖或報表來統(tǒng)一監(jiān)控管理任務(wù)的運(yùn)行.包括重置任務(wù)狀態(tài),重啟和結(jié)束任務(wù)運(yùn)行.可對運(yùn)行的任務(wù)進(jìn)行統(tǒng)計,查找運(yùn)行最慢的任務(wù),以方便有針對性的調(diào)優(yōu),保證任務(wù)的高效執(zhí)行.具有校驗點重啟機(jī)制.任務(wù)在功能上都具有獨立性,可確保單個任務(wù)在當(dāng)批次可重復(fù)運(yùn)行多次,這樣即使任務(wù)失敗,也可從失敗的任務(wù)重新運(yùn)行,而不必從頭開始運(yùn)行.ETL監(jiān)控數(shù)據(jù)倉庫系統(tǒng)的維護(hù)中最重要的就是隨時監(jiān)控ETL任務(wù)的運(yùn)行情況,因此為了降低系統(tǒng)維護(hù)人員的勞動強(qiáng)度,提供友好的ETL監(jiān)控功能是必要的。在功能上,ETL監(jiān)控應(yīng)提供如下功能:全程全方位監(jiān)控查看ETLJob運(yùn)行結(jié)果,如finished,finishedwithwaring,abort等;控制ETLJob的運(yùn)行,如啟動,停止,重置Job等;查看ETLJob運(yùn)行詳細(xì)日志,導(dǎo)出詳細(xì)日志到文本。通過JobMonitor可以實時監(jiān)控ETLJob的運(yùn)行狀態(tài)管理MessengerHandler,讓DataStage忽略特定的日志信息。s郵件通知-通過DataStageNotificationActivity,Job運(yùn)行情況可以通過Email通知管理員,主要用于每日指定的時間檢查當(dāng)日的Job運(yùn)行狀況并通過Email的形式將檢查結(jié)果發(fā)送給運(yùn)行維護(hù)人員.ETL調(diào)度與監(jiān)控的友好界面在ETL的調(diào)度與監(jiān)控的操作界面上,本項目組正在與提供專業(yè)系統(tǒng)監(jiān)控IBMTivoli團(tuán)隊緊密合作,改善原解決方案中功能界面不夠友好的問題。下圖是通過瀏覽器定制ETL調(diào)度的示意:下圖是通過瀏覽器監(jiān)控ETL作業(yè)運(yùn)行情況:下圖是通過瀏覽器以圖形的方式分析ETL作業(yè)運(yùn)行狀態(tài):元數(shù)據(jù)管理元數(shù)據(jù)是數(shù)據(jù)質(zhì)量管理

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論