版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、.:.;一、概述1.1背景安徽省地稅在2006年全省上線運(yùn)轉(zhuǎn)了安徽征收管理系統(tǒng)ahtax2005,全省的信息化任務(wù)曾經(jīng)全面展開。但是系統(tǒng)是在各地市獨(dú)立運(yùn)轉(zhuǎn)的,對(duì)于省地稅來說,無法及時(shí)準(zhǔn)確地了解全省的稅收情況。另外,稅務(wù)數(shù)據(jù)的省級(jí)集中也是一個(gè)大的趨勢(shì)。為了執(zhí)行國(guó)家稅務(wù)總局要求稅務(wù)數(shù)據(jù)全省集中,以及實(shí)踐的需求,必需建立一致的數(shù)據(jù)中心,集合全省的數(shù)據(jù)。目前,安徽省全省共有17個(gè)地市,加上省屬直接單位,共有18個(gè)業(yè)務(wù)數(shù)據(jù)庫在運(yùn)轉(zhuǎn),各地?cái)?shù)據(jù)都在本地效力器存放,雖然全省曾經(jīng)實(shí)現(xiàn)17個(gè)地市的2M帶寬的銜接,但是要對(duì)全省的數(shù)據(jù)進(jìn)展查詢分析還是比較費(fèi)事的。而且,由于各地稅的數(shù)據(jù)是相對(duì)獨(dú)立的,雖然運(yùn)用的是同一套系
2、統(tǒng),但是由于各地的情況比較復(fù)雜,數(shù)據(jù)存在不一致的風(fēng)險(xiǎn)。因此,必需建立一致的數(shù)據(jù)模型,經(jīng)過建立數(shù)據(jù)倉(cāng)庫整合數(shù)據(jù),支撐全省查詢分析的需求。1.2系統(tǒng)建立目的安徽地稅數(shù)據(jù)中心的建立目的是:1、經(jīng)過一致的數(shù)據(jù)存儲(chǔ)平臺(tái),對(duì)數(shù)據(jù)進(jìn)展規(guī)范化處置和規(guī)范化管理,實(shí)現(xiàn)數(shù)據(jù)透明和共享。目前各地市運(yùn)用系統(tǒng)在線數(shù)據(jù)保管在不同的數(shù)據(jù)庫中,各數(shù)據(jù)構(gòu)造大致一樣,但數(shù)據(jù)的一致性、一致性和規(guī)范性較差,數(shù)據(jù)共享非常困難。因此,經(jīng)過數(shù)據(jù)中心構(gòu)建安徽地稅一致的數(shù)據(jù)效力平臺(tái),實(shí)現(xiàn)企業(yè)數(shù)據(jù)的一致規(guī)劃、集中采集、集中處置和一致管理,構(gòu)成地稅數(shù)據(jù)的一致視圖,實(shí)現(xiàn)數(shù)據(jù)透明和共享,充分發(fā)揚(yáng)地稅數(shù)據(jù)資源的價(jià)值。2、有效支撐統(tǒng)計(jì)分析及查詢運(yùn)用等功能。
3、經(jīng)過數(shù)據(jù)中心的建立,整合各地市、各業(yè)務(wù)系統(tǒng)等多種數(shù)據(jù)源,構(gòu)成一致的業(yè)務(wù)數(shù)據(jù)視圖,并采用統(tǒng)計(jì)分析、查詢等方式滿足各級(jí)專業(yè)和管理部門人員的不同要求。3、在完成前兩步目的的根底上,進(jìn)一步建立全省的數(shù)據(jù)倉(cāng)庫,支撐更多的業(yè)務(wù)查詢、統(tǒng)計(jì)分析、數(shù)據(jù)發(fā)掘功能,提升管理和整體決策才干。1.3系統(tǒng)建立原那么系統(tǒng)建立遵照以下原那么:整體規(guī)劃,分步實(shí)施, 循序漸進(jìn),步步見效;有效控制工程風(fēng)險(xiǎn);維護(hù)投資的長(zhǎng)期有效性,資源能得到有效利用;為數(shù)據(jù)和運(yùn)用大集中做好預(yù)備。二、技術(shù)方案數(shù)據(jù)倉(cāng)庫體系構(gòu)造如以下圖所示:整個(gè)數(shù)據(jù)倉(cāng)庫系統(tǒng)是一個(gè)包含四個(gè)層次的體系構(gòu)造:數(shù)據(jù)源:是數(shù)據(jù)倉(cāng)庫系統(tǒng)的根底,是整個(gè)系統(tǒng)的數(shù)據(jù)源泉。通常包括內(nèi)部信息和
4、外部信息。內(nèi)部信息包括存放于關(guān)系數(shù)據(jù)庫中的各種業(yè)務(wù)處置數(shù)據(jù)和各類文檔數(shù)據(jù),外部信息包括各類法律法規(guī)、經(jīng)濟(jì)統(tǒng)計(jì)信息等等。數(shù)據(jù)存儲(chǔ)與管理:是整個(gè)數(shù)據(jù)倉(cāng)庫系統(tǒng)的中心。數(shù)據(jù)倉(cāng)庫的真正關(guān)鍵是數(shù)據(jù)的存儲(chǔ)和管理。數(shù)據(jù)倉(cāng)庫的組織管理方式?jīng)Q議了它有別于傳統(tǒng)數(shù)據(jù)庫,同時(shí)也決議了其對(duì)外部數(shù)據(jù)的表現(xiàn)方式。要決議采用什么產(chǎn)品和技術(shù)來建立數(shù)據(jù)倉(cāng)庫的中心,那么需求從數(shù)據(jù)倉(cāng)庫的技術(shù)特點(diǎn)著手分析。針對(duì)現(xiàn)有各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進(jìn)展抽取、清理,并有效集成,按照主題進(jìn)展組織。其中,數(shù)據(jù)的存儲(chǔ)與管理在數(shù)據(jù)倉(cāng)庫中通常按照三個(gè)層面進(jìn)展存儲(chǔ)和管理:操作數(shù)據(jù)存儲(chǔ)區(qū)ODS、數(shù)據(jù)倉(cāng)庫DW、數(shù)據(jù)集市DM。在線分析效力器OLAP:對(duì)分析需求的數(shù)據(jù)進(jìn)展有
5、效集成,按多維模型予以組織,以便進(jìn)展多角度、多層次的分析,并發(fā)現(xiàn)趨勢(shì)。其詳細(xì)實(shí)現(xiàn)可以分為:關(guān)系型在線分析ROLAP、多維在線分析MOLAP和混合在線分析HOLAP。ROLAP根本數(shù)據(jù)和聚合數(shù)據(jù)均存放在關(guān)系數(shù)據(jù)庫之中;MOLAP根本數(shù)據(jù)和聚合數(shù)據(jù)均存放于多維數(shù)據(jù)庫中;HOLAP根本數(shù)據(jù)存放于RDBMS之中,聚合數(shù)據(jù)存放于多維數(shù)據(jù)庫中。前端工具:主要包括各種報(bào)表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)發(fā)掘工具以及各種基于數(shù)據(jù)倉(cāng)庫或數(shù)據(jù)集市的運(yùn)用開發(fā)工具。其中數(shù)據(jù)分析工具主要針對(duì)OLAP效力器,報(bào)表工具、數(shù)據(jù)發(fā)掘工具主要針對(duì)數(shù)據(jù)倉(cāng)庫。2.1操作數(shù)據(jù)存儲(chǔ)區(qū)ODS2.1.1ODS的定位操作數(shù)據(jù)存儲(chǔ)ODS是運(yùn)用
6、數(shù)據(jù)庫與數(shù)據(jù)倉(cāng)庫之間的橋梁,在ODS中系統(tǒng)地進(jìn)展數(shù)據(jù)整合使數(shù)據(jù)倉(cāng)庫系統(tǒng)的時(shí)效性缺乏得以彌補(bǔ),提供一致完好的企業(yè)視圖和準(zhǔn)確的運(yùn)營(yíng)數(shù)據(jù)信息;經(jīng)過集中簡(jiǎn)化的信息提取過程,提高業(yè)務(wù)運(yùn)轉(zhuǎn)效率;更有效地統(tǒng)計(jì)分析稅務(wù)信息,為實(shí)現(xiàn)安徽地稅內(nèi)部自動(dòng)化的信息和業(yè)務(wù)流程提供便利條件。ODS的建立實(shí)現(xiàn)對(duì)稅務(wù)數(shù)據(jù)的清理整合,構(gòu)筑一個(gè)一致的、完好的數(shù)據(jù)平臺(tái),確定數(shù)據(jù)一切者,建立數(shù)據(jù)同步機(jī)制,一致數(shù)據(jù)編碼定義,建立數(shù)據(jù)訪問機(jī)制,實(shí)現(xiàn)業(yè)務(wù)系統(tǒng)數(shù)據(jù)共享,完成運(yùn)用與數(shù)據(jù)分別,實(shí)現(xiàn)數(shù)據(jù)從地市到省級(jí)的提升。ODS在安徽地稅數(shù)據(jù)集中方案中可以發(fā)揚(yáng)以下幾個(gè)方面的作用:作為數(shù)據(jù)倉(cāng)庫的主要數(shù)據(jù)源ODS數(shù)據(jù)庫對(duì)運(yùn)用系統(tǒng)的數(shù)據(jù)進(jìn)展了清洗、轉(zhuǎn)換和
7、整合,存儲(chǔ)了較為詳細(xì)和全面的業(yè)務(wù)運(yùn)轉(zhuǎn)數(shù)據(jù),ODS數(shù)據(jù)庫中的數(shù)據(jù)不僅具有較高的數(shù)據(jù)質(zhì)量,而且比運(yùn)用系統(tǒng)更有利于數(shù)據(jù)倉(cāng)庫對(duì)數(shù)據(jù)進(jìn)展獲取和進(jìn)一步轉(zhuǎn)換,是數(shù)據(jù)倉(cāng)庫的主要數(shù)據(jù)來源。提供報(bào)表和查詢統(tǒng)計(jì)功能ODS從不同的運(yùn)用系統(tǒng)中采集數(shù)據(jù),整合各個(gè)運(yùn)用系統(tǒng)的共享數(shù)據(jù),構(gòu)成企業(yè)級(jí)數(shù)據(jù)的整體視圖,實(shí)現(xiàn)綜合統(tǒng)計(jì)和報(bào)表查詢功能。進(jìn)一步引導(dǎo)需求經(jīng)過ODS的建立及建立在其上的運(yùn)用,進(jìn)一步啟發(fā)新的業(yè)務(wù)需求,為數(shù)據(jù)倉(cāng)庫的建立打下根底。2.1.2數(shù)據(jù)抽取、轉(zhuǎn)換與加載ETL 數(shù)據(jù)源安徽省地稅數(shù)據(jù)中心需求采集的業(yè)務(wù)根本數(shù)據(jù)包括:稅務(wù)登記核定管理申報(bào)征收發(fā)票管理票證管理行政執(zhí)法稅費(fèi)檢查會(huì)統(tǒng)管理這些數(shù)據(jù)主要從以下一些消費(fèi)作業(yè)系統(tǒng)獲得
8、:安徽地稅征收管理系統(tǒng)ahtax2005.1稅務(wù)登記1、目的:獲取納稅人信息等。納稅人根本登記信息,應(yīng)繳稅種信息,納稅人當(dāng)前情況,證照信息等。2、信息交換方式:直接訪問數(shù)據(jù)庫。3、通訊呼叫方式:納稅人新信息每日定時(shí)上傳訪問一次,假設(shè)當(dāng)日沒有數(shù)據(jù)那么不需求上傳。4、數(shù)據(jù)文件稱號(hào)與內(nèi)容:1稅務(wù)登記信息:納稅人稱號(hào),運(yùn)營(yíng)地址,行業(yè)信息,開業(yè)時(shí)間,納稅人形狀,所屬稅務(wù)機(jī)關(guān),科室代碼,注冊(cè)類型代碼,主營(yíng)范圍,兼營(yíng)范圍,運(yùn)營(yíng)方式,注冊(cè)資本,工商登記等。2納稅人繳稅信息稅種代碼、稅目代碼、繳稅頻率按月、季、半年、年等,限繳期限。3納稅人形狀信息停復(fù)業(yè)登記,注銷登記、非正常戶確認(rèn),納稅人遷移。4證照信息證件打
9、印,封存、繳銷、作廢、遺失。.2核定管理1、目的:獲取定期定額納稅人的稅收信息。核定稅款信息,核定社保費(fèi)信息。2、信息交換方式:FTP訪問數(shù)據(jù)庫。3、通訊呼叫方式:本地核定操作后,每月定時(shí)往數(shù)據(jù)中心系統(tǒng)ETL效力器傳送本地網(wǎng)的一切核定信息;或經(jīng)過各本地網(wǎng)接口效力器直接訪問。4、數(shù)據(jù)文件稱號(hào)與內(nèi)容:1核定稅款信息核定時(shí)期,核定所屬期,申報(bào)年月,核定的稅種、稅目,核定稅額。2社保費(fèi)核定信息核定時(shí)期,核定所屬期,申報(bào)年月,核定的稅種、稅目,核定費(fèi)額。.3申報(bào)征收1、目的:各地市的申報(bào)征收開票信息。2、信息交換方式:FTP訪問、直接訪問數(shù)據(jù)庫。由于涉及較大的數(shù)據(jù)量,思索到效力器的壓力,建議經(jīng)過FTP的
10、方式間接訪問數(shù)據(jù)局庫。3、通訊呼叫方式:每月定時(shí)傳送訪問二次。征收期過后一次,月末一次。4、數(shù)據(jù)文件稱號(hào)與內(nèi)容:1申報(bào)信息企業(yè)編碼,申報(bào)日期,申報(bào)稅種、申報(bào)稅目,申報(bào)日期,限期申報(bào)日期,申報(bào)所屬期,申報(bào)類型,預(yù)算級(jí)次,預(yù)算科目,記稅金額,申報(bào)稅款,減免稅款,能否零申報(bào),金庫編碼2開票信息企業(yè)編碼,開票日期,入庫日期,欠稅屬性編碼,限繳日期,開票稅金,減免稅金,計(jì)納稅金,稅率、金庫編碼,預(yù)算級(jí)次,款項(xiàng)類別,稅票號(hào)碼,開戶銀行,銀行賬號(hào)3減免稅信息企業(yè)編碼,減免稅種、稅目,減免類型,減免期限,減免比率或減免金額4延期申報(bào)信息企業(yè)編碼,延期稅種、稅目、稅款所屬期、延期交納時(shí)間、延期理由5欠稅信息 企
11、業(yè)編碼,稅種編碼、稅目編碼、稅款所屬期,欠稅金額,欠稅屬性編碼.4發(fā)票管理1、目的:各地市發(fā)票方案、印制、庫存等信息2、信息交換方式:直接訪問數(shù)據(jù)庫。3、通訊呼叫方式:每日定時(shí)上傳訪問一次。4、數(shù)據(jù)文件稱號(hào)與內(nèi)容:1發(fā)票方案信息發(fā)票稱號(hào),方案領(lǐng)購(gòu)數(shù)量2發(fā)票印制信息承印單位,發(fā)票代碼,印制數(shù)量、印制價(jià)錢。3發(fā)票操作信息發(fā)票發(fā)出數(shù)量,發(fā)票入庫數(shù)量,發(fā)票核銷等。4發(fā)票賬務(wù)信息發(fā)票記賬信息、結(jié)賬信息。.5票證管理1、目的:各地稅票信息2、信息交換方式:直接訪問數(shù)據(jù)庫。3、通訊呼叫方式:每月定時(shí)上傳訪問一次。4、數(shù)據(jù)文件稱號(hào)與內(nèi)容:1票證領(lǐng)單票證編碼,發(fā)出機(jī)關(guān),領(lǐng)入機(jī)關(guān),字軌,票號(hào),數(shù)量。2票證領(lǐng)據(jù)票證
12、編碼,發(fā)出機(jī)關(guān),用票人編碼,領(lǐng)用數(shù)量,字軌,票證號(hào)碼范圍,數(shù)量。3票證結(jié)報(bào)票證編碼,用票人,結(jié)報(bào)類型,結(jié)報(bào)數(shù)量,字軌,票證號(hào)碼范圍。4票證上繳票證編碼、用票人,上繳單位,數(shù)量、字軌,票證號(hào)碼范圍。.6行政執(zhí)法1、目的:各地行政處分?jǐn)?shù)據(jù)2、信息交換方式:FTP訪問。3、通訊呼叫方式:每日定時(shí)上傳訪問一次。4、數(shù)據(jù)文件稱號(hào)與內(nèi)容:1處分案件登記案件稱號(hào),納稅人編碼,處分緣由,案件來源,處分類型,處分方式,違章緣由。2處分案件情況表案件編碼,處分根據(jù),處分金額,處分時(shí)間,處分類型。.7稅費(fèi)檢查1、目的:各地稽查和稅費(fèi)檢查情況數(shù)據(jù):2、信息交換方式:直接訪問數(shù)據(jù)庫。3、通訊呼叫方式:每日定時(shí)上傳訪問一
13、次。4、數(shù)據(jù)文件稱號(hào)與內(nèi)容:1案件情況表案件編號(hào),企業(yè)編碼,企業(yè)稱號(hào),行業(yè)編碼,檢稽查所屬期,檢稽查時(shí)間,案件檢稽查單位,案件形狀,結(jié)案時(shí)間,立卷時(shí)間,能否立案,能否大要案,檢查人員,審理人員,執(zhí)行人員。2案件檢查情況案件編號(hào),查處稅種,查處稅目,查處期間,查處金額,稅款類型,預(yù)算級(jí)次,款項(xiàng)類型,所屬金庫編碼,處分機(jī)關(guān),征收機(jī)關(guān)編碼。 數(shù)據(jù)源分析數(shù)據(jù)源可以做如下分類:1按照數(shù)據(jù)類型:流水型數(shù)據(jù)記錄增量產(chǎn)生,原記錄不能修正的數(shù)據(jù),該類數(shù)據(jù)通常按照一定的周期,根據(jù)時(shí)間戳傳送特定的紀(jì)錄。例如:系統(tǒng)的字典表和關(guān)鍵的輔助表:BM_SZ,BM_SM等。混合型數(shù)據(jù)記錄既可以增量產(chǎn)生,原記錄又可以修正的數(shù)據(jù),
14、該類數(shù)據(jù)通常按照一定的周期,對(duì)數(shù)據(jù)進(jìn)展整表傳送。稅收數(shù)據(jù)大部分都是這種類型的數(shù)據(jù)。稅收的大部分?jǐn)?shù)據(jù)都是這種類型:比如登記信息表,征收表等。2按照數(shù)據(jù)量:大數(shù)據(jù)量數(shù)據(jù)量到達(dá)每天百萬條記錄以上。從全省的角度來講,申報(bào)表和開票表接近這個(gè)數(shù)據(jù)量。中等數(shù)據(jù)量數(shù)據(jù)量為每天一萬條記錄以上。其他業(yè)務(wù)數(shù)據(jù)。小數(shù)據(jù)量數(shù)據(jù)量低于每天萬條條記錄。根本上比較少,如部分文書表等。3按照數(shù)據(jù)周期:實(shí)時(shí)、日周期、月周期、年周期、不定周期。 數(shù)據(jù)抽取、轉(zhuǎn)換、加載ETL即數(shù)據(jù)抽取、轉(zhuǎn)換和加載,是數(shù)據(jù)中心實(shí)現(xiàn)過程中,將數(shù)據(jù)由數(shù)據(jù)源系統(tǒng)向數(shù)據(jù)中心加載的主要過程。從功能上看,整個(gè)ETL包括三個(gè)部分: 數(shù)據(jù)抽?。簭臄?shù)據(jù)源系統(tǒng)抽取數(shù)據(jù)中心
15、系統(tǒng)需求的數(shù)據(jù);數(shù)據(jù)轉(zhuǎn)換:將從數(shù)據(jù)源獲取的數(shù)據(jù)轉(zhuǎn)換成數(shù)據(jù)中心要求的方式,對(duì)數(shù)據(jù)進(jìn)展轉(zhuǎn)換;數(shù)據(jù)加載:將數(shù)據(jù)裝入數(shù)據(jù)中心。ETL實(shí)現(xiàn)過程的流程圖如以下圖所示:在ETL的整個(gè)過程中,還必需充分思索異常情況的處置。.1 數(shù)據(jù)抽取.1.1 數(shù)據(jù)抽取接口1、直接訪問接口直接訪問方式是在對(duì)方數(shù)據(jù)庫上建立接口表或視圖,本系統(tǒng)經(jīng)過數(shù)據(jù)鏈接直接獲取對(duì)方數(shù)據(jù),然后進(jìn)展處置的數(shù)據(jù)通訊方法。該方法適用于雙方數(shù)據(jù)庫在同一臺(tái)效力器上或在同一個(gè)局域網(wǎng)內(nèi)。2、FTP方式在省中心配置ETL效力器,在ETL效力器上安裝并啟動(dòng)FTP效力,外部系統(tǒng)需求發(fā)送給本系統(tǒng)的數(shù)據(jù)由相關(guān)外部系統(tǒng)定期或按需將需求傳送的數(shù)據(jù)按要求組織成文本格式文件,
16、經(jīng)過FTP上傳到本系統(tǒng)的ETL效力器。FTP文件存放位置在省級(jí)ETL效力器中,一致建立針對(duì)外圍不同系統(tǒng)存放文件的總目錄,并以本地網(wǎng)為單位設(shè)置相應(yīng)子目錄,子目錄稱號(hào)為各本地網(wǎng)稱號(hào)的全拼拼音字母,用來存放各本地網(wǎng)上傳的文件;FTP文件命名規(guī)那么用文件擴(kuò)展名區(qū)分?jǐn)?shù)據(jù)文件類型,構(gòu)造類型不同的數(shù)據(jù)文件其擴(kuò)展名將不同。文件擴(kuò)展名長(zhǎng)兩位,每位取值范圍從0-9、A-Z;文件名前半部分分兩種情況:對(duì)于每天生成的數(shù)據(jù)文件,取文件內(nèi)數(shù)據(jù)發(fā)生的日期,詳細(xì)文件格式:yyyy年mm月dd日.?。對(duì)于每月生成的數(shù)據(jù)文件,那么取文件內(nèi)數(shù)據(jù)所屬的帳務(wù)月或統(tǒng)計(jì)月,詳細(xì)文件格式:yyyy年mm月.?。FTP文件格式可以按照各系統(tǒng)和
17、實(shí)踐情況,靈敏設(shè)置FTP文件的格式,如:文本文件的分隔符采用逗號(hào)方式,記錄終了標(biāo)識(shí)為換行/回車;或采用字段定長(zhǎng),記錄定長(zhǎng)的方式。FTP文件傳送完成確認(rèn)方法由于數(shù)據(jù)文件能夠很大,F(xiàn)TP傳送能夠是個(gè)漫長(zhǎng)的過程,本系統(tǒng)接口處置程序不知道數(shù)據(jù)文件什么時(shí)候傳送終了。因此,在此要求每個(gè)數(shù)據(jù)文件傳送完成之后,再傳送一個(gè)數(shù)據(jù)文件傳輸完成確實(shí)認(rèn)文件,該確認(rèn)文件以要確認(rèn)傳送終了的數(shù)據(jù)文件擴(kuò)展名后加字符A,文件類容僅僅包含要確認(rèn)傳送終了的數(shù)據(jù)文件名。一批傳送多個(gè)數(shù)據(jù)文件時(shí),每一個(gè)數(shù)據(jù)文件對(duì)應(yīng)一個(gè)確認(rèn)文件。例如:要上傳一個(gè)20021024.A1的數(shù)據(jù)文件,確認(rèn)文件名為20021024.A1A,確認(rèn)文件內(nèi)容為:2002
18、1024.A1。.1.2 數(shù)據(jù)抽取戰(zhàn)略數(shù)據(jù)的抽取必需可以充分滿足數(shù)據(jù)中心的需求,又能保證不影響業(yè)務(wù)系統(tǒng)的性能,所以進(jìn)展數(shù)據(jù)抽取時(shí)應(yīng)制定相應(yīng)的戰(zhàn)略,包括抽取方式、抽取時(shí)機(jī)、抽取周期等內(nèi)容。抽取方式:增量抽取、完全抽取等。抽取時(shí)機(jī):盡能夠避開業(yè)務(wù)系統(tǒng)的頂峰時(shí)段,可選擇在夜間業(yè)務(wù)系統(tǒng)比較閑時(shí)進(jìn)展。抽取周期:對(duì)不同類型的數(shù)據(jù)源,應(yīng)綜合思索業(yè)務(wù)需求和系統(tǒng)代價(jià),制定合理的抽取周期。在制定抽取戰(zhàn)略時(shí),需求對(duì)以上各項(xiàng)要素綜合思索。通常情況下,流水型增長(zhǎng)且數(shù)據(jù)量大的數(shù)據(jù)適宜采用增量抽取的方式;變化更新的數(shù)據(jù)適宜采用完全抽取的方式;對(duì)于兩者結(jié)合的數(shù)據(jù),假設(shè)能提取增量信息,那么進(jìn)展增量抽取,否那么采用完全抽取的方式
19、進(jìn)展。此外,對(duì)于抽取周期要思索實(shí)踐業(yè)務(wù)的需求和抽取進(jìn)展的系統(tǒng)代價(jià),在能夠的情況下,盡量縮短抽取周期。.2 數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換是指對(duì)從業(yè)務(wù)系統(tǒng)中抽取的源數(shù)據(jù)根據(jù)數(shù)據(jù)中心模型的要求,進(jìn)展數(shù)據(jù)的轉(zhuǎn)換、清洗、拆分、匯總等處置,保證不同系統(tǒng)、不同格式的數(shù)據(jù)的一致性和完好性,并按要求裝入數(shù)據(jù)中心。.2.1 數(shù)據(jù)轉(zhuǎn)換的主要功能數(shù)據(jù)轉(zhuǎn)換主要完成由于以下緣由呵斥的數(shù)據(jù)不一致性問題:源數(shù)據(jù)系統(tǒng)同數(shù)據(jù)中心系統(tǒng)在模型上的差別性;源數(shù)據(jù)系統(tǒng)平臺(tái)不一致:數(shù)據(jù)中心系統(tǒng)的數(shù)據(jù)源能夠包括基于不同平臺(tái)的數(shù)據(jù)庫的數(shù)據(jù),能夠會(huì)存在大量的轉(zhuǎn)碼任務(wù)。;源數(shù)據(jù)構(gòu)造的不一致:有些數(shù)據(jù)源由于歷史的緣由,導(dǎo)致同一個(gè)表在不同的時(shí)期數(shù)據(jù)構(gòu)造不一致;源
20、數(shù)據(jù)定義不規(guī)范導(dǎo)致錯(cuò)誤數(shù)據(jù);對(duì)數(shù)據(jù)的約束不嚴(yán)厲,導(dǎo)致無意義數(shù)據(jù);存在反復(fù)記錄。.2.2 數(shù)據(jù)轉(zhuǎn)換技術(shù)和戰(zhàn)略根據(jù)實(shí)踐情況,數(shù)據(jù)轉(zhuǎn)換任務(wù)普通會(huì)在以下幾個(gè)環(huán)節(jié)中詳細(xì)實(shí)現(xiàn):在抽取過程中進(jìn)展數(shù)據(jù)處置;運(yùn)用異步數(shù)據(jù)加載,以文件的方式處置;在數(shù)據(jù)加載過程中進(jìn)展數(shù)據(jù)處置;進(jìn)入數(shù)據(jù)中心以后再進(jìn)展數(shù)據(jù)處置。采用在數(shù)據(jù)抽取過程中進(jìn)展數(shù)據(jù)轉(zhuǎn)換時(shí),必需思索抽取的性能以及對(duì)業(yè)務(wù)系統(tǒng)性能的影響;采用異步數(shù)據(jù)加載需求以文件方式處置時(shí),必需充分思索中間磁盤的存儲(chǔ)量以及ETL整個(gè)流程的協(xié)調(diào)性任務(wù),以及大量的非SQL語句的編程;采用在數(shù)據(jù)加載過程中進(jìn)展數(shù)據(jù)轉(zhuǎn)換時(shí),必需思索加載性能;采用先將數(shù)據(jù)裝載到數(shù)據(jù)中心后再處置時(shí),必需思索數(shù)據(jù)
21、中心引擎的海量數(shù)據(jù)處置才干。.3 數(shù)據(jù)加載.3.1 數(shù)據(jù)加載主要功能數(shù)據(jù)加載就是將從數(shù)據(jù)源系統(tǒng)中抽取、轉(zhuǎn)換后的數(shù)據(jù)加載到操作數(shù)據(jù)存儲(chǔ)區(qū)或數(shù)據(jù)倉(cāng)庫系統(tǒng)中。要求數(shù)據(jù)加載工具必需具有高效的加載性能。.3.2 數(shù)據(jù)加載技術(shù)及戰(zhàn)略主要加載技術(shù):運(yùn)用數(shù)據(jù)倉(cāng)庫引擎廠商提供的數(shù)據(jù)加載工具進(jìn)展數(shù)據(jù)加載;經(jīng)過數(shù)據(jù)倉(cāng)庫引擎廠商提供的API編程進(jìn)展數(shù)據(jù)加載。數(shù)據(jù)加載戰(zhàn)略要思索加載周期及數(shù)據(jù)追加戰(zhàn)略兩方面的內(nèi)容。根據(jù)安徽地稅業(yè)務(wù)數(shù)據(jù)的實(shí)踐情況,加載周期要綜合思索業(yè)務(wù)分析需求和系統(tǒng)加載的代價(jià),對(duì)不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)采用不同的加載周期,但必需堅(jiān)持同一時(shí)間業(yè)務(wù)數(shù)據(jù)的完好性。數(shù)據(jù)的追加戰(zhàn)略根據(jù)數(shù)據(jù)的抽取戰(zhàn)略以及業(yè)務(wù)規(guī)那么確定,普
22、通有以下三種類型:直接追加、全部覆蓋、更新追加。直接追加:是指每次加載時(shí)直接將數(shù)據(jù)追加到目的表中。對(duì)于典型的流水?dāng)?shù)據(jù),普通采用此方法;全部覆蓋:對(duì)于抽取數(shù)據(jù)本身已包括了數(shù)據(jù)的當(dāng)前和一切歷史情況,對(duì)目的表采用全部覆蓋方式。更新追加:對(duì)于需求延續(xù)記錄業(yè)務(wù)的形狀變化,用當(dāng)前的最新形狀同歷史形狀數(shù)據(jù)進(jìn)展對(duì)比的情況采用更新追加的方式。詳細(xì)采取何種方式,要綜合思索效率、業(yè)務(wù)虛現(xiàn)等要素。 數(shù)據(jù)審計(jì)每個(gè)數(shù)據(jù)加載周期中,如何保證數(shù)據(jù)中心中數(shù)據(jù)同業(yè)務(wù)系統(tǒng)中數(shù)據(jù)在業(yè)務(wù)意義上的一致性及數(shù)據(jù)的準(zhǔn)確性極其重要。因此,必需引進(jìn)數(shù)據(jù)審計(jì)功能。數(shù)據(jù)正確性的審計(jì)任務(wù)是在數(shù)據(jù)加載任務(wù)完成以后,一方面要從設(shè)計(jì)到實(shí)施的整個(gè)過程中確保算
23、法的正確性,另一方面要經(jīng)過事后的檢驗(yàn)來檢查ETL的正確性。理想的情況是,審計(jì)任務(wù)必需在數(shù)據(jù)抽取、轉(zhuǎn)換、加載等一切的階段都要進(jìn)展,比如,假設(shè)采用異步數(shù)據(jù)抽取和加載,那么在數(shù)據(jù)抽取傳輸終了后,要從記錄數(shù)、文件大小等角度檢驗(yàn)抽取和傳輸?shù)恼_性。數(shù)據(jù)加載終了后,一方面經(jīng)過加載日志檢驗(yàn)加載過程的正確性,另一方面要經(jīng)過業(yè)務(wù)規(guī)那么來校驗(yàn)數(shù)據(jù)的正確性。2.2數(shù)據(jù)倉(cāng)庫DW數(shù)據(jù)倉(cāng)庫Data Warehouse是一個(gè)面向主題的Subject Oriented、集成的Integrate、相對(duì)穩(wěn)定的Non-Volatile、反映歷史變化Time Variant的數(shù)據(jù)集合,用于支持管理決策。對(duì)于數(shù)據(jù)倉(cāng)庫的概念我們可以從兩
24、個(gè)層次予以了解,首先,數(shù)據(jù)倉(cāng)庫用于支持決策,面向分析型數(shù)據(jù)處置,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫;其次,數(shù)據(jù)倉(cāng)庫是對(duì)多個(gè)異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進(jìn)展了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉(cāng)庫中的數(shù)據(jù)普通不再修正。根據(jù)數(shù)據(jù)倉(cāng)庫概念的含義,數(shù)據(jù)倉(cāng)庫擁有以下四個(gè)特點(diǎn):面向主題。操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處置義務(wù),各個(gè)業(yè)務(wù)系統(tǒng)之間各自分別,而數(shù)據(jù)倉(cāng)庫中的數(shù)據(jù)是按照一定的主題域進(jìn)展組織。主題是一個(gè)籠統(tǒng)的概念,是指用戶運(yùn)用數(shù)據(jù)倉(cāng)庫進(jìn)展決策時(shí)所關(guān)懷的重點(diǎn)方面,一個(gè)主題通常與多個(gè)操作型信息系統(tǒng)相關(guān)。集成的。面向事務(wù)處置的操作型數(shù)據(jù)庫通常與某些特定的運(yùn)用相關(guān),數(shù)據(jù)庫之間相互獨(dú)立,并且往往是異構(gòu)的。
25、而數(shù)據(jù)倉(cāng)庫中的數(shù)據(jù)是在對(duì)原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的根底上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必需消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉(cāng)庫內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。相對(duì)穩(wěn)定的。操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實(shí)時(shí)更新,數(shù)據(jù)根據(jù)需求及時(shí)發(fā)生變化。數(shù)據(jù)倉(cāng)庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫以后,普通情況下將被長(zhǎng)期保管,也就是數(shù)據(jù)倉(cāng)庫中普通有大量的查詢操作,但修正和刪除操作很少,通常只需求定期的加載、刷新。反映歷史變化。操作型數(shù)據(jù)庫主要關(guān)懷當(dāng)前某一個(gè)時(shí)間段內(nèi)的數(shù)據(jù),而數(shù)據(jù)倉(cāng)庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時(shí)點(diǎn)(如開場(chǎng)運(yùn)用數(shù)據(jù)
26、倉(cāng)庫的時(shí)點(diǎn))到目前的各個(gè)階段的信息,經(jīng)過這些信息,可以對(duì)企業(yè)的開展歷程和未來趨勢(shì)做出定量分析和預(yù)測(cè)。企業(yè)數(shù)據(jù)倉(cāng)庫的建立,是以現(xiàn)有企業(yè)業(yè)務(wù)系統(tǒng)和大量業(yè)務(wù)數(shù)據(jù)的積累為根底。數(shù)據(jù)倉(cāng)庫不是靜態(tài)的概念,只需把信息及時(shí)交給需求這些信息的運(yùn)用者,供他們做出改善其業(yè)務(wù)運(yùn)營(yíng)的決策,信息才干發(fā)揚(yáng)作用,信息才有意義。而把信息加以整理歸納和重組,并及時(shí)提供應(yīng)相應(yīng)的管理決策人員,是數(shù)據(jù)倉(cāng)庫的根本義務(wù)。因此,從產(chǎn)業(yè)界的角度看,數(shù)據(jù)倉(cāng)庫建立是一個(gè)工程,是一個(gè)過程。2.2.1主題數(shù)據(jù)庫數(shù)據(jù)倉(cāng)庫里的數(shù)據(jù)都是按照業(yè)務(wù)主題進(jìn)展組織的。主題數(shù)據(jù)庫的根本特征如下:1面向業(yè)務(wù)主題(不是面向單個(gè)報(bào)表)。主題數(shù)據(jù)庫是面向業(yè)務(wù)主題的數(shù)據(jù)組織存
27、儲(chǔ),例如,對(duì)于安徽地稅來講,需求建立的典型的主題數(shù)據(jù)庫包括:稅務(wù)、申報(bào)、發(fā)票、票證、行政執(zhí)法、稅費(fèi)等數(shù)據(jù)庫的構(gòu)造,是對(duì)有關(guān)稅務(wù)、發(fā)票、稅費(fèi)的數(shù)據(jù)項(xiàng)進(jìn)展分析整理而設(shè)計(jì)的,不是按稅務(wù)、發(fā)票、稅費(fèi)的原樣建立的。這些主題數(shù)據(jù)庫與稅務(wù)管理中要處理的主要問題相關(guān)聯(lián),而不是與通常的計(jì)算機(jī)運(yùn)用工程相關(guān)聯(lián)。2信息共享(不是信息私有或部門一切)。主題數(shù)據(jù)庫是對(duì)各個(gè)運(yùn)用系統(tǒng)“自建自用的數(shù)據(jù)庫的徹底否認(rèn),強(qiáng)調(diào)建立各個(gè)運(yùn)用系統(tǒng)“共建共用的共享數(shù)據(jù)庫。不同的運(yùn)用系統(tǒng)的計(jì)算機(jī)程序調(diào)用這些主題數(shù)據(jù)庫。3一次一處輸入系統(tǒng)(不是多次多處輸入系統(tǒng))。主題數(shù)據(jù)庫要求調(diào)研分析各業(yè)務(wù)層次上的數(shù)據(jù)源,強(qiáng)調(diào)數(shù)據(jù)的就地采集、就地處置、運(yùn)用和存
28、儲(chǔ),以及必要的傳輸、匯總和集中存儲(chǔ)。同一數(shù)據(jù)必需一次、一處進(jìn)入系統(tǒng),保證其準(zhǔn)確性、及時(shí)性和完好性,經(jīng)由網(wǎng)絡(luò)-計(jì)算機(jī)-數(shù)據(jù)庫系統(tǒng),可以多次、多處運(yùn)用。4由根本表組成。一個(gè)主題數(shù)據(jù)庫的科學(xué)的數(shù)據(jù)構(gòu)造,是由多個(gè)到達(dá)“根本表(BaseTable)規(guī)范的數(shù)據(jù)實(shí)體構(gòu)成的,這些根本表具有如下的特性:原子性根本表中的數(shù)據(jù)項(xiàng)是數(shù)據(jù)元素即最小的、不能再分解的信息單元;演繹性可由根本表中的數(shù)據(jù)生成全部輸出數(shù)據(jù)即這些根本表是精練的,經(jīng)過計(jì)算處置可以產(chǎn)生全部企業(yè)管理所需求的數(shù)據(jù);規(guī)范性根本表中數(shù)據(jù)滿足三范式(3-NF)要求,這是科學(xué)的、能滿足演繹性要求、并能保證快捷存取的數(shù)據(jù)構(gòu)造。在設(shè)計(jì)的同時(shí),關(guān)鍵是要做好數(shù)據(jù)字典的維
29、護(hù)任務(wù),以使他對(duì)本人的數(shù)據(jù)庫了如指掌。2.2.2數(shù)據(jù)存儲(chǔ)數(shù)據(jù)倉(cāng)庫為安徽地稅各級(jí)管理部門、分析人員的分析、決策操作提供一致、集成的根底數(shù)據(jù),包括安徽地稅各個(gè)業(yè)務(wù)部門當(dāng)前及其歷史的細(xì)節(jié)性業(yè)務(wù)數(shù)據(jù),以及為了進(jìn)展分析決策操作而生成的分析型數(shù)據(jù),是一個(gè)一致、集成、穩(wěn)定、基于歷史數(shù)據(jù)的龐大數(shù)據(jù)集合,需求借助成熟的數(shù)據(jù)庫技術(shù)對(duì)其進(jìn)展存儲(chǔ)管理,即利用改造過的關(guān)系數(shù)據(jù)庫系統(tǒng)來組織和管理面向主題的數(shù)據(jù)倉(cāng)庫中的數(shù)據(jù)。 整合業(yè)務(wù)數(shù)據(jù)的根底數(shù)據(jù)層數(shù)據(jù)倉(cāng)庫系統(tǒng)的根底數(shù)據(jù)是按照主題來組織的。根底數(shù)據(jù)層只思索數(shù)據(jù)本身的來源與屬性,按照業(yè)務(wù)本身的數(shù)據(jù)之間的相互關(guān)系來組織數(shù)據(jù),而不思索數(shù)據(jù)的運(yùn)用,即“整合數(shù)據(jù),其目的在于減少數(shù)據(jù)
30、的冗余,提高系統(tǒng)的靈敏性,能快速的實(shí)現(xiàn)新增主題和功能。 面向決策支持的分析數(shù)據(jù)層運(yùn)用數(shù)據(jù)層與詳細(xì)的運(yùn)用需求嚴(yán)密結(jié)合,按照運(yùn)用的要求來組織根底數(shù)據(jù)層的數(shù)據(jù)。面向運(yùn)用,其目的就是針對(duì)面向主題,面向詳細(xì)的運(yùn)用,提高訪問、執(zhí)行、查詢的效率,即“面向決策支持。 數(shù)據(jù)倉(cāng)庫信息模型數(shù)據(jù)倉(cāng)庫信息主題,主要包括:稅務(wù)登記、核定管理、申報(bào)征收、發(fā)票管理、票證管理、行政執(zhí)法、稅費(fèi)檢查、會(huì)統(tǒng)管理等,按照安徽地稅信息的組成進(jìn)展前瞻性的構(gòu)造設(shè)計(jì)。2.2.3數(shù)據(jù)展現(xiàn)數(shù)據(jù)倉(cāng)庫系統(tǒng)應(yīng)提供靈敏多樣的展現(xiàn)方式。目前常用的展現(xiàn)方式有:固定預(yù)定義報(bào)表、圖表、即席查詢Ad-Hoc、多維動(dòng)態(tài)分析等。各主題分析的展現(xiàn)方式除了可以經(jīng)過以上方式
31、進(jìn)展展現(xiàn),對(duì)于異常的分析結(jié)果還可以經(jīng)過短音訊、或其他告警方式進(jìn)展預(yù)警。表格和圖表可以轉(zhuǎn)換為Excel等格式,分析人員可以根據(jù)需求排序、分組數(shù)據(jù)并改動(dòng)圖表的類型直方圖、餅形圖、折線圖、堆積圖等,可在任何維度上經(jīng)過“鉆取和“切片生成報(bào)表及圖形。復(fù)合報(bào)表要“所見即所得。2.2.4數(shù)據(jù)發(fā)掘數(shù)據(jù)發(fā)掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。隨著信息技術(shù)的高速開展,人們積累的數(shù)據(jù)量急劇增長(zhǎng),動(dòng)輒以TB計(jì),如何從海量的數(shù)據(jù)中提取有用的知識(shí)成為當(dāng)務(wù)之急。數(shù)據(jù)發(fā)掘就是為順應(yīng)這種需求應(yīng)運(yùn)而生開展起來的數(shù)據(jù)處置
32、技術(shù)。是知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database)的關(guān)鍵步驟。數(shù)據(jù)發(fā)掘步驟普通包括定義問題、數(shù)據(jù)預(yù)備、數(shù)據(jù)發(fā)掘、結(jié)果分析和知識(shí)運(yùn)用等步驟。1、定義問題:明晰地定義出業(yè)務(wù)問題,確定數(shù)據(jù)發(fā)掘的目的。2、數(shù)據(jù)預(yù)備:包括:選擇數(shù)據(jù):在大型數(shù)據(jù)庫和數(shù)據(jù)倉(cāng)庫目的中提取數(shù)據(jù)發(fā)掘的目的數(shù)據(jù)集;數(shù)據(jù)預(yù)處置:進(jìn)展數(shù)據(jù)再加工,包括檢查數(shù)據(jù)的完好性及數(shù)據(jù)的一致性、去噪聲,填補(bǔ)喪失的域,刪除無效數(shù)據(jù)等。3、數(shù)據(jù)發(fā)掘:根據(jù)數(shù)據(jù)功能的類型和和數(shù)據(jù)的特點(diǎn)選擇相應(yīng)的算法,在凈化和轉(zhuǎn)換過的數(shù)據(jù)集上進(jìn)展數(shù)據(jù)發(fā)掘。4、結(jié)果分析:對(duì)數(shù)據(jù)發(fā)掘的結(jié)果進(jìn)展解釋和評(píng)價(jià),轉(zhuǎn)換成為可以最終被用戶了解的知識(shí)。5、知識(shí)
33、運(yùn)用:將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織構(gòu)造中去。2.3系統(tǒng)平臺(tái)要求2.3.1 系統(tǒng)容量規(guī)劃 用戶數(shù)據(jù)量的估算用戶數(shù)據(jù)量的估算與用戶數(shù)、業(yè)務(wù)量、系統(tǒng)中數(shù)據(jù)保管期限、業(yè)務(wù)系統(tǒng)中單個(gè)數(shù)據(jù)記錄容量有關(guān)。設(shè)數(shù)據(jù)量為T,估算公式如下:T=U*N*R*Ti其中:U:為安徽省地市稅務(wù)局的數(shù)量;N:為某個(gè)地市年業(yè)務(wù)量。對(duì)于不同的地市可取業(yè)務(wù)量最大值進(jìn)展估算;R:為單個(gè)數(shù)據(jù)記錄的容量;Ti:為數(shù)據(jù)存儲(chǔ)期限。 數(shù)據(jù)倉(cāng)庫磁盤容量估算數(shù)據(jù)倉(cāng)庫系統(tǒng)的存儲(chǔ)主要由三部分構(gòu)成,按照數(shù)據(jù)倉(cāng)庫系統(tǒng)功能構(gòu)造,自上而下分別是:多維數(shù)據(jù)存儲(chǔ),數(shù)據(jù)倉(cāng)庫存儲(chǔ),接口文件存儲(chǔ)。總的存儲(chǔ)是這三部分的和。令T為系統(tǒng)的存儲(chǔ)總量,Ta為多維數(shù)
34、據(jù)存儲(chǔ)所需的存儲(chǔ)量,Td為數(shù)據(jù)倉(cāng)庫存儲(chǔ)所需的存儲(chǔ)量,Ti為接口文件存儲(chǔ)所需的存儲(chǔ)量,三者單位均為GB,那么 TTa +Td +Ti一接口文件存儲(chǔ)所需的存儲(chǔ)量Ti接口文件存儲(chǔ)區(qū)主要用于存放消費(fèi)系統(tǒng)傳送到數(shù)據(jù)倉(cāng)庫系統(tǒng)的數(shù)據(jù)文件和一些數(shù)據(jù)倉(cāng)庫系統(tǒng)從其他系統(tǒng)抽取的部分?jǐn)?shù)據(jù)文檔。估算時(shí)可取存儲(chǔ)空間最大的接口文件,其它類型的文件數(shù)據(jù)量可以按該最大接口文件數(shù)據(jù)量的一定比例來計(jì)算。由此可得出如下公式:TiU*(1+Pi)*Ni *Nu 其中,U為最大接口文件數(shù)據(jù)量,單位為GB Pi為其他類型文件所占比例因子,通常可取0.05 Ni為接口文件在數(shù)據(jù)倉(cāng)庫系統(tǒng)中的保管天數(shù) Nu為用戶數(shù)量二數(shù)據(jù)倉(cāng)庫所需存儲(chǔ)量Td計(jì)算
35、數(shù)據(jù)倉(cāng)庫所需的存儲(chǔ)量,主要思索操作數(shù)據(jù)存儲(chǔ)區(qū)、數(shù)據(jù)倉(cāng)庫層和數(shù)據(jù)集市層存儲(chǔ)所需的磁盤空間,其中數(shù)據(jù)倉(cāng)庫層占用絕大部分。這里需求思索承載數(shù)據(jù)的數(shù)據(jù)庫系統(tǒng)、文件系統(tǒng)、RAID、數(shù)據(jù)冗余等對(duì)存儲(chǔ)的影響。這些系統(tǒng)所占用的空間都將折合成所需存儲(chǔ)的純數(shù)據(jù)量的比例因子。這里的純數(shù)據(jù)由兩部分構(gòu)成:用戶詳單數(shù)據(jù)和客戶資料數(shù)據(jù)。其中用戶詳單數(shù)據(jù)量可以由用戶數(shù),存儲(chǔ)時(shí)間和單用戶每天數(shù)據(jù)量得到,單用戶每天數(shù)據(jù)量的計(jì)算公式曾經(jīng)在上節(jié)得出。那么有如下公式:TdU*Nu*Nd*1+Pdb+Praid+Pfs+Predu其中,U為單個(gè)地市數(shù)據(jù)量的平均值或最大值,Nu為地市局?jǐn)?shù)量,Nd為存儲(chǔ)時(shí)間,Pdb為數(shù)據(jù)庫相關(guān)因子,Prai
36、d為RAID相關(guān)因子,Pfs為文件系統(tǒng)和軟件相關(guān)因子,Predu為系統(tǒng)冗余因子。三多維數(shù)據(jù)存儲(chǔ)所需存儲(chǔ)量Ta這部分所占的存儲(chǔ)空間和運(yùn)用相關(guān),主要是多維分析所需求的磁盤空間??臻g的大小取決于分析的業(yè)務(wù)數(shù)量、維度數(shù)量和層次、分類等要素,還和詳細(xì)采用的產(chǎn)品相關(guān)。凡是和時(shí)間相關(guān)的多維分析,其所占用的空間計(jì)算公式如下:Ta(Dmea+Ddim*Ndim)*Nserv*Nfact*(NserdimNlevNtype)*Ptdim*Nkp*Ncpr其中:Dmea為現(xiàn)實(shí)表中度量字段的平均數(shù)據(jù)量,單位為GBDdim為現(xiàn)實(shí)表中維度字段的平均數(shù)據(jù)量,單位為GBNdim為現(xiàn)實(shí)表中維度字段的平均個(gè)數(shù)Nserv為多維分析
37、業(yè)務(wù)類型平均個(gè)數(shù)Nfact為每個(gè)業(yè)務(wù)類型分析的現(xiàn)實(shí)表平均個(gè)數(shù)Nserdim為現(xiàn)實(shí)表中除時(shí)間維外的維度個(gè)數(shù),普通為Ndim-1Nlev為現(xiàn)實(shí)表中維度的平均層次數(shù)Ntype為現(xiàn)實(shí)表中每個(gè)維度層次的平均類型個(gè)數(shù)Ptdim為時(shí)間維因子,假設(shè)分析到日,那么為365,到月為12Nkp 為數(shù)據(jù)保管周期,單位是年Ncpr為多維數(shù)據(jù)緊縮因子,和詳細(xì)的產(chǎn)品有關(guān)四數(shù)據(jù)庫緊縮技術(shù)某些數(shù)據(jù)倉(cāng)庫產(chǎn)品中引入了獨(dú)特的數(shù)據(jù)緊縮技術(shù),用于數(shù)據(jù)存儲(chǔ)。對(duì)于分區(qū)表,可以選擇緊縮全部或部分分區(qū)。緊縮屬性可以在表空間、表或分區(qū)上聲明。假設(shè)在表空間上聲明,那么該表空間中建的一切表都被緊縮存儲(chǔ)。大型數(shù)據(jù)倉(cāng)庫的緊縮比例通常為2:1到4:1,某些
38、業(yè)務(wù)的數(shù)據(jù)有能夠獲得更高的緊縮比,詳細(xì)的緊縮比與數(shù)據(jù)的類型和存儲(chǔ)的順序有關(guān)。2.3.2 配置要求數(shù)據(jù)倉(cāng)庫系統(tǒng)主機(jī)效力器與存儲(chǔ)設(shè)備假設(shè)安徽地稅的數(shù)據(jù)倉(cāng)庫效力器和ETL效力器是分別的,并且不包括對(duì)固定報(bào)表的訪問,由于這部分報(bào)表曾經(jīng)以靜態(tài)數(shù)據(jù)的方式存放在WEB效力器上,對(duì)數(shù)據(jù)庫不產(chǎn)生壓力。那么對(duì)數(shù)據(jù)倉(cāng)庫效力器的處置才干要求主要于對(duì)數(shù)據(jù)庫的實(shí)時(shí)查詢。假設(shè):安徽地稅數(shù)據(jù)倉(cāng)庫系統(tǒng)的用戶數(shù)為Nu系統(tǒng)的最大并發(fā)數(shù)為用戶總數(shù)的10每次查詢平均調(diào)用100個(gè)目的每查詢5個(gè)目的折合成1個(gè)規(guī)范買賣系統(tǒng)在3秒中內(nèi)完成處置那么數(shù)據(jù)倉(cāng)庫主機(jī)所需求的TPMC為:100/5Nu1060/3 ETL系統(tǒng)主機(jī)效力器與存儲(chǔ)設(shè)備ETL效
39、力器主要的處置任務(wù)包括以下方面:接納消費(fèi)系統(tǒng)提供的源數(shù)據(jù)或從其他系統(tǒng)抽取數(shù)據(jù)。(我們將這個(gè)任務(wù)簡(jiǎn)稱為W1)將接口文件包含的數(shù)據(jù)進(jìn)展格式轉(zhuǎn)換,進(jìn)展數(shù)據(jù)清洗,重新整理,生成新格式的記錄插入數(shù)據(jù)庫中或構(gòu)成文件,裝載入數(shù)據(jù)倉(cāng)庫中,整個(gè)過程要求在一定的時(shí)間內(nèi)完成。我們將這個(gè)任務(wù)簡(jiǎn)稱為W2以上的任務(wù)流程為串行關(guān)系,數(shù)據(jù)倉(cāng)庫效力器的處置才干要求為:MAXW1處置才干要求;W2處置才干要求。一W1處置才干需求分析我們運(yùn)用以下的條件對(duì)W1進(jìn)展處置才干需求分析:一切任務(wù)每日要求在1小時(shí)內(nèi)完成;平均抽取150條記錄所需的事務(wù)數(shù)為1;思索四處置過程中能夠遇到的業(yè)務(wù)頂峰期和用戶數(shù)不可預(yù)料的增長(zhǎng)情況,效力器的處置才干冗余
40、30%。那么,W1需求的TPMC為:TPMCW1每日抽取的記錄數(shù)/處置時(shí)間*60*處置一條記錄所需的事務(wù)數(shù) * 30%二W2處置才干需求分析我們運(yùn)用以下的條件對(duì)W2進(jìn)展處置才干需求分析:一切任務(wù)每日要求在2小時(shí)內(nèi)完成;平均處置6條記錄所需的事務(wù)數(shù)為1。那么,W2需求的TPMC為:TPMCW2記錄數(shù)/處置時(shí)間*60*處置一條記錄所需的事務(wù)數(shù)根據(jù)以上的分析,ETL效力器的處置才干要求為:MAXW1處置才干要求;W2處置才干要求同時(shí)我們需求思索以下要素:添加效力器處置才干的20%,需運(yùn)轉(zhuǎn)數(shù)據(jù)倉(cāng)庫管理等運(yùn)用;思索四處置過程中能夠遇到的頂峰期和用戶數(shù)不可預(yù)料的增長(zhǎng)情況,效力器的處置才干冗余30%。根據(jù)實(shí)
41、踐系統(tǒng)閱歷,接口系統(tǒng)有時(shí)接口文件的生成時(shí)間會(huì)延遲,為了保證數(shù)據(jù)處置的及時(shí)性,以及未來業(yè)務(wù)的開展和系統(tǒng)擴(kuò)展性的保證,建議TPMC實(shí)踐思索時(shí)適當(dāng)擴(kuò)展。網(wǎng)絡(luò)帶寬網(wǎng)絡(luò)帶寬可以根據(jù)每分鐘的業(yè)務(wù)量、每筆業(yè)務(wù)占多少流量、并發(fā)用戶數(shù)來進(jìn)展估算:網(wǎng)絡(luò)帶寬每分鐘的業(yè)務(wù)量*每筆業(yè)務(wù)所占流量*并發(fā)用戶數(shù)實(shí)踐計(jì)算時(shí)思索系統(tǒng)網(wǎng)絡(luò)流量冗余30%。三、建議實(shí)施方案業(yè)務(wù)數(shù)據(jù)量估算一年:5G/地市*18地市90G3.1 只建立操作數(shù)據(jù)存儲(chǔ)區(qū)ODS該方案只建立操作數(shù)據(jù)存儲(chǔ)區(qū)ODS,不建立數(shù)據(jù)倉(cāng)庫。此時(shí),在數(shù)據(jù)倉(cāng)庫體系中的操作數(shù)據(jù)存儲(chǔ)區(qū)實(shí)踐上起著安徽地稅數(shù)據(jù)中心的作用,擔(dān)任將各地市業(yè)務(wù)數(shù)據(jù)集中到省局?jǐn)?shù)據(jù)中心,并在此根底上提供根本的統(tǒng)
42、計(jì)、查詢功能。3.1.1硬件方案主機(jī)采用小型機(jī),建議IBM P595或同等檔次機(jī)型。數(shù)據(jù)存儲(chǔ)存儲(chǔ)2-3年的數(shù)據(jù)量:90G*3270G網(wǎng)絡(luò)省局?jǐn)?shù)據(jù)中心的網(wǎng)絡(luò)環(huán)境,主干網(wǎng)帶寬支持100M以上,省局?jǐn)?shù)據(jù)中心同各地市之間的網(wǎng)絡(luò)帶寬支持10M以上,數(shù)據(jù)批量ETL占用2M網(wǎng)絡(luò)銜接。3.1.2工具平臺(tái)數(shù)據(jù)庫運(yùn)用Sybase數(shù)據(jù)庫。ETL工具建議自行開發(fā)。3.1.3軟件方案固定報(bào)表:提供固定預(yù)定義報(bào)表及模板、圖形展現(xiàn)、導(dǎo)入導(dǎo)出等功能。綜合查詢:提供自定義報(bào)表、圖形展現(xiàn)、導(dǎo)入導(dǎo)出等功能。3.1.4任務(wù)量及費(fèi)用估算任務(wù)量估算如下:建立內(nèi)容任務(wù)量估算人*月ODS建立開發(fā)調(diào)研3ETL過程設(shè)計(jì)6數(shù)據(jù)庫設(shè)計(jì)5軟件開發(fā)30
43、試點(diǎn)1-2地市數(shù)據(jù)抽取、加工3數(shù)據(jù)質(zhì)量審核3軟件功能完善10推行全省范圍推行30培訓(xùn)和維護(hù)20合計(jì)110費(fèi)用估算如下:110人月*2萬/人月220萬RMB3.1.5 進(jìn)度方案初步方案工程啟動(dòng)時(shí)間為4月初,進(jìn)度方案如下:3.2 同時(shí)建立操作數(shù)據(jù)存儲(chǔ)區(qū)ODS和數(shù)據(jù)倉(cāng)庫DW該方案先建立操作數(shù)據(jù)存儲(chǔ)區(qū),將各地市業(yè)務(wù)數(shù)據(jù)集中到省局?jǐn)?shù)據(jù)中心,并提供簡(jiǎn)單的統(tǒng)計(jì)和查詢功能。同時(shí),在此根底上建立數(shù)據(jù)倉(cāng)庫,以支持更豐富的業(yè)務(wù)查詢、綜合統(tǒng)計(jì)、多維分析、數(shù)據(jù)發(fā)掘等功能。此方案中的操作數(shù)據(jù)存儲(chǔ)區(qū)是實(shí)踐意義上的數(shù)據(jù)倉(cāng)庫的一部分,其作為數(shù)據(jù)倉(cāng)庫與數(shù)據(jù)源之間的一個(gè)暫時(shí)數(shù)據(jù)緩沖區(qū),存儲(chǔ)少量的、短期的數(shù)據(jù),一切的數(shù)據(jù)最終都加載到數(shù)據(jù)倉(cāng)庫中。3.2.1硬件方案主機(jī)數(shù)據(jù)倉(cāng)庫采用小型機(jī),建議IBM P595或同等檔次機(jī)型。操作數(shù)據(jù)存儲(chǔ)區(qū)ODS可以與數(shù)據(jù)倉(cāng)庫物理獨(dú)立,也可以與數(shù)據(jù)倉(cāng)庫物理在一同。假設(shè)操作數(shù)據(jù)存儲(chǔ)區(qū)與數(shù)據(jù)倉(cāng)庫物理獨(dú)立,那么操作數(shù)據(jù)存儲(chǔ)區(qū)也可以采用PC效力器。數(shù)據(jù)存儲(chǔ)操作數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024至2030年中國(guó)納米活性防水劑數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2024至2030年中國(guó)紅薯精淀粉行業(yè)投資前景及策略咨詢研究報(bào)告
- 2024至2030年中國(guó)離心成型機(jī)數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 小學(xué)二年級(jí)班主任安全工作總結(jié)
- 2024至2030年中國(guó)無線防凍探測(cè)器數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2024至2030年中國(guó)平臺(tái)手動(dòng)注射機(jī)行業(yè)投資前景及策略咨詢研究報(bào)告
- 2024至2030年中國(guó)全自動(dòng)飛鏢機(jī)數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 域名注冊(cè)合同
- 2024年中國(guó)雕刻機(jī)花崗石底座市場(chǎng)調(diào)查研究報(bào)告
- 2024年中國(guó)氯硝西泮注射液市場(chǎng)調(diào)查研究報(bào)告
- 融媒體綜藝節(jié)目制作學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 期中 (試題) -2024-2025學(xué)年譯林版(三起)(2024)英語三年級(jí)上冊(cè)
- 2024年《形勢(shì)與政策》知識(shí)考試題庫(含答案)
- Unit 3 My School教學(xué)設(shè)計(jì)2024年秋人教版新教材七年級(jí)英語上冊(cè)
- DB11-T 854-2023 占道作業(yè)交通安全設(shè)施設(shè)置技術(shù)要求
- 秀場(chǎng)內(nèi)外-走進(jìn)服裝表演藝術(shù)智慧樹知到期末考試答案章節(jié)答案2024年武漢紡織大學(xué)
- MOOC 新時(shí)代中國(guó)特色社會(huì)主義理論與實(shí)踐-武漢理工大學(xué) 中國(guó)大學(xué)慕課答案
- 四年級(jí)語文 部編版四上21《古詩三首》4 全國(guó)公開課一等獎(jiǎng)
- (完整版)農(nóng)業(yè)經(jīng)濟(jì)學(xué)試題及參考答案
- 除氧器拆除作業(yè)指導(dǎo)書
- 父親的草原母親的河-正譜-降B調(diào)
評(píng)論
0/150
提交評(píng)論