![安徽地稅數據集中方案_第1頁](http://file4.renrendoc.com/view/585e8442c717c900aab96a97faac1cf2/585e8442c717c900aab96a97faac1cf21.gif)
![安徽地稅數據集中方案_第2頁](http://file4.renrendoc.com/view/585e8442c717c900aab96a97faac1cf2/585e8442c717c900aab96a97faac1cf22.gif)
![安徽地稅數據集中方案_第3頁](http://file4.renrendoc.com/view/585e8442c717c900aab96a97faac1cf2/585e8442c717c900aab96a97faac1cf23.gif)
![安徽地稅數據集中方案_第4頁](http://file4.renrendoc.com/view/585e8442c717c900aab96a97faac1cf2/585e8442c717c900aab96a97faac1cf24.gif)
![安徽地稅數據集中方案_第5頁](http://file4.renrendoc.com/view/585e8442c717c900aab96a97faac1cf2/585e8442c717c900aab96a97faac1cf25.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、.:.;一、概述1.1背景安徽省地稅在2006年全省上線運轉了安徽征收管理系統(tǒng)ahtax2005,全省的信息化任務曾經全面展開。但是系統(tǒng)是在各地市獨立運轉的,對于省地稅來說,無法及時準確地了解全省的稅收情況。另外,稅務數據的省級集中也是一個大的趨勢。為了執(zhí)行國家稅務總局要求稅務數據全省集中,以及實踐的需求,必需建立一致的數據中心,集合全省的數據。目前,安徽省全省共有17個地市,加上省屬直接單位,共有18個業(yè)務數據庫在運轉,各地數據都在本地效力器存放,雖然全省曾經實現17個地市的2M帶寬的銜接,但是要對全省的數據進展查詢分析還是比較費事的。而且,由于各地稅的數據是相對獨立的,雖然運用的是同一套系
2、統(tǒng),但是由于各地的情況比較復雜,數據存在不一致的風險。因此,必需建立一致的數據模型,經過建立數據倉庫整合數據,支撐全省查詢分析的需求。1.2系統(tǒng)建立目的安徽地稅數據中心的建立目的是:1、經過一致的數據存儲平臺,對數據進展規(guī)范化處置和規(guī)范化管理,實現數據透明和共享。目前各地市運用系統(tǒng)在線數據保管在不同的數據庫中,各數據構造大致一樣,但數據的一致性、一致性和規(guī)范性較差,數據共享非常困難。因此,經過數據中心構建安徽地稅一致的數據效力平臺,實現企業(yè)數據的一致規(guī)劃、集中采集、集中處置和一致管理,構成地稅數據的一致視圖,實現數據透明和共享,充分發(fā)揚地稅數據資源的價值。2、有效支撐統(tǒng)計分析及查詢運用等功能。
3、經過數據中心的建立,整合各地市、各業(yè)務系統(tǒng)等多種數據源,構成一致的業(yè)務數據視圖,并采用統(tǒng)計分析、查詢等方式滿足各級專業(yè)和管理部門人員的不同要求。3、在完成前兩步目的的根底上,進一步建立全省的數據倉庫,支撐更多的業(yè)務查詢、統(tǒng)計分析、數據發(fā)掘功能,提升管理和整體決策才干。1.3系統(tǒng)建立原那么系統(tǒng)建立遵照以下原那么:整體規(guī)劃,分步實施, 循序漸進,步步見效;有效控制工程風險;維護投資的長期有效性,資源能得到有效利用;為數據和運用大集中做好預備。二、技術方案數據倉庫體系構造如以下圖所示:整個數據倉庫系統(tǒng)是一個包含四個層次的體系構造:數據源:是數據倉庫系統(tǒng)的根底,是整個系統(tǒng)的數據源泉。通常包括內部信息和
4、外部信息。內部信息包括存放于關系數據庫中的各種業(yè)務處置數據和各類文檔數據,外部信息包括各類法律法規(guī)、經濟統(tǒng)計信息等等。數據存儲與管理:是整個數據倉庫系統(tǒng)的中心。數據倉庫的真正關鍵是數據的存儲和管理。數據倉庫的組織管理方式決議了它有別于傳統(tǒng)數據庫,同時也決議了其對外部數據的表現方式。要決議采用什么產品和技術來建立數據倉庫的中心,那么需求從數據倉庫的技術特點著手分析。針對現有各業(yè)務系統(tǒng)的數據,進展抽取、清理,并有效集成,按照主題進展組織。其中,數據的存儲與管理在數據倉庫中通常按照三個層面進展存儲和管理:操作數據存儲區(qū)ODS、數據倉庫DW、數據集市DM。在線分析效力器OLAP:對分析需求的數據進展有
5、效集成,按多維模型予以組織,以便進展多角度、多層次的分析,并發(fā)現趨勢。其詳細實現可以分為:關系型在線分析ROLAP、多維在線分析MOLAP和混合在線分析HOLAP。ROLAP根本數據和聚合數據均存放在關系數據庫之中;MOLAP根本數據和聚合數據均存放于多維數據庫中;HOLAP根本數據存放于RDBMS之中,聚合數據存放于多維數據庫中。前端工具:主要包括各種報表工具、查詢工具、數據分析工具、數據發(fā)掘工具以及各種基于數據倉庫或數據集市的運用開發(fā)工具。其中數據分析工具主要針對OLAP效力器,報表工具、數據發(fā)掘工具主要針對數據倉庫。2.1操作數據存儲區(qū)ODS2.1.1ODS的定位操作數據存儲ODS是運用
6、數據庫與數據倉庫之間的橋梁,在ODS中系統(tǒng)地進展數據整合使數據倉庫系統(tǒng)的時效性缺乏得以彌補,提供一致完好的企業(yè)視圖和準確的運營數據信息;經過集中簡化的信息提取過程,提高業(yè)務運轉效率;更有效地統(tǒng)計分析稅務信息,為實現安徽地稅內部自動化的信息和業(yè)務流程提供便利條件。ODS的建立實現對稅務數據的清理整合,構筑一個一致的、完好的數據平臺,確定數據一切者,建立數據同步機制,一致數據編碼定義,建立數據訪問機制,實現業(yè)務系統(tǒng)數據共享,完成運用與數據分別,實現數據從地市到省級的提升。ODS在安徽地稅數據集中方案中可以發(fā)揚以下幾個方面的作用:作為數據倉庫的主要數據源ODS數據庫對運用系統(tǒng)的數據進展了清洗、轉換和
7、整合,存儲了較為詳細和全面的業(yè)務運轉數據,ODS數據庫中的數據不僅具有較高的數據質量,而且比運用系統(tǒng)更有利于數據倉庫對數據進展獲取和進一步轉換,是數據倉庫的主要數據來源。提供報表和查詢統(tǒng)計功能ODS從不同的運用系統(tǒng)中采集數據,整合各個運用系統(tǒng)的共享數據,構成企業(yè)級數據的整體視圖,實現綜合統(tǒng)計和報表查詢功能。進一步引導需求經過ODS的建立及建立在其上的運用,進一步啟發(fā)新的業(yè)務需求,為數據倉庫的建立打下根底。2.1.2數據抽取、轉換與加載ETL 數據源安徽省地稅數據中心需求采集的業(yè)務根本數據包括:稅務登記核定管理申報征收發(fā)票管理票證管理行政執(zhí)法稅費檢查會統(tǒng)管理這些數據主要從以下一些消費作業(yè)系統(tǒng)獲得
8、:安徽地稅征收管理系統(tǒng)ahtax2005.1稅務登記1、目的:獲取納稅人信息等。納稅人根本登記信息,應繳稅種信息,納稅人當前情況,證照信息等。2、信息交換方式:直接訪問數據庫。3、通訊呼叫方式:納稅人新信息每日定時上傳訪問一次,假設當日沒有數據那么不需求上傳。4、數據文件稱號與內容:1稅務登記信息:納稅人稱號,運營地址,行業(yè)信息,開業(yè)時間,納稅人形狀,所屬稅務機關,科室代碼,注冊類型代碼,主營范圍,兼營范圍,運營方式,注冊資本,工商登記等。2納稅人繳稅信息稅種代碼、稅目代碼、繳稅頻率按月、季、半年、年等,限繳期限。3納稅人形狀信息停復業(yè)登記,注銷登記、非正常戶確認,納稅人遷移。4證照信息證件打
9、印,封存、繳銷、作廢、遺失。.2核定管理1、目的:獲取定期定額納稅人的稅收信息。核定稅款信息,核定社保費信息。2、信息交換方式:FTP訪問數據庫。3、通訊呼叫方式:本地核定操作后,每月定時往數據中心系統(tǒng)ETL效力器傳送本地網的一切核定信息;或經過各本地網接口效力器直接訪問。4、數據文件稱號與內容:1核定稅款信息核定時期,核定所屬期,申報年月,核定的稅種、稅目,核定稅額。2社保費核定信息核定時期,核定所屬期,申報年月,核定的稅種、稅目,核定費額。.3申報征收1、目的:各地市的申報征收開票信息。2、信息交換方式:FTP訪問、直接訪問數據庫。由于涉及較大的數據量,思索到效力器的壓力,建議經過FTP的
10、方式間接訪問數據局庫。3、通訊呼叫方式:每月定時傳送訪問二次。征收期過后一次,月末一次。4、數據文件稱號與內容:1申報信息企業(yè)編碼,申報日期,申報稅種、申報稅目,申報日期,限期申報日期,申報所屬期,申報類型,預算級次,預算科目,記稅金額,申報稅款,減免稅款,能否零申報,金庫編碼2開票信息企業(yè)編碼,開票日期,入庫日期,欠稅屬性編碼,限繳日期,開票稅金,減免稅金,計納稅金,稅率、金庫編碼,預算級次,款項類別,稅票號碼,開戶銀行,銀行賬號3減免稅信息企業(yè)編碼,減免稅種、稅目,減免類型,減免期限,減免比率或減免金額4延期申報信息企業(yè)編碼,延期稅種、稅目、稅款所屬期、延期交納時間、延期理由5欠稅信息 企
11、業(yè)編碼,稅種編碼、稅目編碼、稅款所屬期,欠稅金額,欠稅屬性編碼.4發(fā)票管理1、目的:各地市發(fā)票方案、印制、庫存等信息2、信息交換方式:直接訪問數據庫。3、通訊呼叫方式:每日定時上傳訪問一次。4、數據文件稱號與內容:1發(fā)票方案信息發(fā)票稱號,方案領購數量2發(fā)票印制信息承印單位,發(fā)票代碼,印制數量、印制價錢。3發(fā)票操作信息發(fā)票發(fā)出數量,發(fā)票入庫數量,發(fā)票核銷等。4發(fā)票賬務信息發(fā)票記賬信息、結賬信息。.5票證管理1、目的:各地稅票信息2、信息交換方式:直接訪問數據庫。3、通訊呼叫方式:每月定時上傳訪問一次。4、數據文件稱號與內容:1票證領單票證編碼,發(fā)出機關,領入機關,字軌,票號,數量。2票證領據票證
12、編碼,發(fā)出機關,用票人編碼,領用數量,字軌,票證號碼范圍,數量。3票證結報票證編碼,用票人,結報類型,結報數量,字軌,票證號碼范圍。4票證上繳票證編碼、用票人,上繳單位,數量、字軌,票證號碼范圍。.6行政執(zhí)法1、目的:各地行政處分數據2、信息交換方式:FTP訪問。3、通訊呼叫方式:每日定時上傳訪問一次。4、數據文件稱號與內容:1處分案件登記案件稱號,納稅人編碼,處分緣由,案件來源,處分類型,處分方式,違章緣由。2處分案件情況表案件編碼,處分根據,處分金額,處分時間,處分類型。.7稅費檢查1、目的:各地稽查和稅費檢查情況數據:2、信息交換方式:直接訪問數據庫。3、通訊呼叫方式:每日定時上傳訪問一
13、次。4、數據文件稱號與內容:1案件情況表案件編號,企業(yè)編碼,企業(yè)稱號,行業(yè)編碼,檢稽查所屬期,檢稽查時間,案件檢稽查單位,案件形狀,結案時間,立卷時間,能否立案,能否大要案,檢查人員,審理人員,執(zhí)行人員。2案件檢查情況案件編號,查處稅種,查處稅目,查處期間,查處金額,稅款類型,預算級次,款項類型,所屬金庫編碼,處分機關,征收機關編碼。 數據源分析數據源可以做如下分類:1按照數據類型:流水型數據記錄增量產生,原記錄不能修正的數據,該類數據通常按照一定的周期,根據時間戳傳送特定的紀錄。例如:系統(tǒng)的字典表和關鍵的輔助表:BM_SZ,BM_SM等?;旌闲蛿祿涗浖瓤梢栽隽慨a生,原記錄又可以修正的數據,
14、該類數據通常按照一定的周期,對數據進展整表傳送。稅收數據大部分都是這種類型的數據。稅收的大部分數據都是這種類型:比如登記信息表,征收表等。2按照數據量:大數據量數據量到達每天百萬條記錄以上。從全省的角度來講,申報表和開票表接近這個數據量。中等數據量數據量為每天一萬條記錄以上。其他業(yè)務數據。小數據量數據量低于每天萬條條記錄。根本上比較少,如部分文書表等。3按照數據周期:實時、日周期、月周期、年周期、不定周期。 數據抽取、轉換、加載ETL即數據抽取、轉換和加載,是數據中心實現過程中,將數據由數據源系統(tǒng)向數據中心加載的主要過程。從功能上看,整個ETL包括三個部分: 數據抽?。簭臄祿聪到y(tǒng)抽取數據中心
15、系統(tǒng)需求的數據;數據轉換:將從數據源獲取的數據轉換成數據中心要求的方式,對數據進展轉換;數據加載:將數據裝入數據中心。ETL實現過程的流程圖如以下圖所示:在ETL的整個過程中,還必需充分思索異常情況的處置。.1 數據抽取.1.1 數據抽取接口1、直接訪問接口直接訪問方式是在對方數據庫上建立接口表或視圖,本系統(tǒng)經過數據鏈接直接獲取對方數據,然后進展處置的數據通訊方法。該方法適用于雙方數據庫在同一臺效力器上或在同一個局域網內。2、FTP方式在省中心配置ETL效力器,在ETL效力器上安裝并啟動FTP效力,外部系統(tǒng)需求發(fā)送給本系統(tǒng)的數據由相關外部系統(tǒng)定期或按需將需求傳送的數據按要求組織成文本格式文件,
16、經過FTP上傳到本系統(tǒng)的ETL效力器。FTP文件存放位置在省級ETL效力器中,一致建立針對外圍不同系統(tǒng)存放文件的總目錄,并以本地網為單位設置相應子目錄,子目錄稱號為各本地網稱號的全拼拼音字母,用來存放各本地網上傳的文件;FTP文件命名規(guī)那么用文件擴展名區(qū)分數據文件類型,構造類型不同的數據文件其擴展名將不同。文件擴展名長兩位,每位取值范圍從0-9、A-Z;文件名前半部分分兩種情況:對于每天生成的數據文件,取文件內數據發(fā)生的日期,詳細文件格式:yyyy年mm月dd日.?。對于每月生成的數據文件,那么取文件內數據所屬的帳務月或統(tǒng)計月,詳細文件格式:yyyy年mm月.?。FTP文件格式可以按照各系統(tǒng)和
17、實踐情況,靈敏設置FTP文件的格式,如:文本文件的分隔符采用逗號方式,記錄終了標識為換行/回車;或采用字段定長,記錄定長的方式。FTP文件傳送完成確認方法由于數據文件能夠很大,FTP傳送能夠是個漫長的過程,本系統(tǒng)接口處置程序不知道數據文件什么時候傳送終了。因此,在此要求每個數據文件傳送完成之后,再傳送一個數據文件傳輸完成確實認文件,該確認文件以要確認傳送終了的數據文件擴展名后加字符A,文件類容僅僅包含要確認傳送終了的數據文件名。一批傳送多個數據文件時,每一個數據文件對應一個確認文件。例如:要上傳一個20021024.A1的數據文件,確認文件名為20021024.A1A,確認文件內容為:2002
18、1024.A1。.1.2 數據抽取戰(zhàn)略數據的抽取必需可以充分滿足數據中心的需求,又能保證不影響業(yè)務系統(tǒng)的性能,所以進展數據抽取時應制定相應的戰(zhàn)略,包括抽取方式、抽取時機、抽取周期等內容。抽取方式:增量抽取、完全抽取等。抽取時機:盡能夠避開業(yè)務系統(tǒng)的頂峰時段,可選擇在夜間業(yè)務系統(tǒng)比較閑時進展。抽取周期:對不同類型的數據源,應綜合思索業(yè)務需求和系統(tǒng)代價,制定合理的抽取周期。在制定抽取戰(zhàn)略時,需求對以上各項要素綜合思索。通常情況下,流水型增長且數據量大的數據適宜采用增量抽取的方式;變化更新的數據適宜采用完全抽取的方式;對于兩者結合的數據,假設能提取增量信息,那么進展增量抽取,否那么采用完全抽取的方式
19、進展。此外,對于抽取周期要思索實踐業(yè)務的需求和抽取進展的系統(tǒng)代價,在能夠的情況下,盡量縮短抽取周期。.2 數據轉換數據轉換是指對從業(yè)務系統(tǒng)中抽取的源數據根據數據中心模型的要求,進展數據的轉換、清洗、拆分、匯總等處置,保證不同系統(tǒng)、不同格式的數據的一致性和完好性,并按要求裝入數據中心。.2.1 數據轉換的主要功能數據轉換主要完成由于以下緣由呵斥的數據不一致性問題:源數據系統(tǒng)同數據中心系統(tǒng)在模型上的差別性;源數據系統(tǒng)平臺不一致:數據中心系統(tǒng)的數據源能夠包括基于不同平臺的數據庫的數據,能夠會存在大量的轉碼任務。;源數據構造的不一致:有些數據源由于歷史的緣由,導致同一個表在不同的時期數據構造不一致;源
20、數據定義不規(guī)范導致錯誤數據;對數據的約束不嚴厲,導致無意義數據;存在反復記錄。.2.2 數據轉換技術和戰(zhàn)略根據實踐情況,數據轉換任務普通會在以下幾個環(huán)節(jié)中詳細實現:在抽取過程中進展數據處置;運用異步數據加載,以文件的方式處置;在數據加載過程中進展數據處置;進入數據中心以后再進展數據處置。采用在數據抽取過程中進展數據轉換時,必需思索抽取的性能以及對業(yè)務系統(tǒng)性能的影響;采用異步數據加載需求以文件方式處置時,必需充分思索中間磁盤的存儲量以及ETL整個流程的協(xié)調性任務,以及大量的非SQL語句的編程;采用在數據加載過程中進展數據轉換時,必需思索加載性能;采用先將數據裝載到數據中心后再處置時,必需思索數據
21、中心引擎的海量數據處置才干。.3 數據加載.3.1 數據加載主要功能數據加載就是將從數據源系統(tǒng)中抽取、轉換后的數據加載到操作數據存儲區(qū)或數據倉庫系統(tǒng)中。要求數據加載工具必需具有高效的加載性能。.3.2 數據加載技術及戰(zhàn)略主要加載技術:運用數據倉庫引擎廠商提供的數據加載工具進展數據加載;經過數據倉庫引擎廠商提供的API編程進展數據加載。數據加載戰(zhàn)略要思索加載周期及數據追加戰(zhàn)略兩方面的內容。根據安徽地稅業(yè)務數據的實踐情況,加載周期要綜合思索業(yè)務分析需求和系統(tǒng)加載的代價,對不同業(yè)務系統(tǒng)的數據采用不同的加載周期,但必需堅持同一時間業(yè)務數據的完好性。數據的追加戰(zhàn)略根據數據的抽取戰(zhàn)略以及業(yè)務規(guī)那么確定,普
22、通有以下三種類型:直接追加、全部覆蓋、更新追加。直接追加:是指每次加載時直接將數據追加到目的表中。對于典型的流水數據,普通采用此方法;全部覆蓋:對于抽取數據本身已包括了數據的當前和一切歷史情況,對目的表采用全部覆蓋方式。更新追加:對于需求延續(xù)記錄業(yè)務的形狀變化,用當前的最新形狀同歷史形狀數據進展對比的情況采用更新追加的方式。詳細采取何種方式,要綜合思索效率、業(yè)務虛現等要素。 數據審計每個數據加載周期中,如何保證數據中心中數據同業(yè)務系統(tǒng)中數據在業(yè)務意義上的一致性及數據的準確性極其重要。因此,必需引進數據審計功能。數據正確性的審計任務是在數據加載任務完成以后,一方面要從設計到實施的整個過程中確保算
23、法的正確性,另一方面要經過事后的檢驗來檢查ETL的正確性。理想的情況是,審計任務必需在數據抽取、轉換、加載等一切的階段都要進展,比如,假設采用異步數據抽取和加載,那么在數據抽取傳輸終了后,要從記錄數、文件大小等角度檢驗抽取和傳輸的正確性。數據加載終了后,一方面經過加載日志檢驗加載過程的正確性,另一方面要經過業(yè)務規(guī)那么來校驗數據的正確性。2.2數據倉庫DW數據倉庫Data Warehouse是一個面向主題的Subject Oriented、集成的Integrate、相對穩(wěn)定的Non-Volatile、反映歷史變化Time Variant的數據集合,用于支持管理決策。對于數據倉庫的概念我們可以從兩
24、個層次予以了解,首先,數據倉庫用于支持決策,面向分析型數據處置,它不同于企業(yè)現有的操作型數據庫;其次,數據倉庫是對多個異構的數據源有效集成,集成后按照主題進展了重組,并包含歷史數據,而且存放在數據倉庫中的數據普通不再修正。根據數據倉庫概念的含義,數據倉庫擁有以下四個特點:面向主題。操作型數據庫的數據組織面向事務處置義務,各個業(yè)務系統(tǒng)之間各自分別,而數據倉庫中的數據是按照一定的主題域進展組織。主題是一個籠統(tǒng)的概念,是指用戶運用數據倉庫進展決策時所關懷的重點方面,一個主題通常與多個操作型信息系統(tǒng)相關。集成的。面向事務處置的操作型數據庫通常與某些特定的運用相關,數據庫之間相互獨立,并且往往是異構的。
25、而數據倉庫中的數據是在對原有分散的數據庫數據抽取、清理的根底上經過系統(tǒng)加工、匯總和整理得到的,必需消除源數據中的不一致性,以保證數據倉庫內的信息是關于整個企業(yè)的一致的全局信息。相對穩(wěn)定的。操作型數據庫中的數據通常實時更新,數據根據需求及時發(fā)生變化。數據倉庫的數據主要供企業(yè)決策分析之用,所涉及的數據操作主要是數據查詢,一旦某個數據進入數據倉庫以后,普通情況下將被長期保管,也就是數據倉庫中普通有大量的查詢操作,但修正和刪除操作很少,通常只需求定期的加載、刷新。反映歷史變化。操作型數據庫主要關懷當前某一個時間段內的數據,而數據倉庫中的數據通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時點(如開場運用數據
26、倉庫的時點)到目前的各個階段的信息,經過這些信息,可以對企業(yè)的開展歷程和未來趨勢做出定量分析和預測。企業(yè)數據倉庫的建立,是以現有企業(yè)業(yè)務系統(tǒng)和大量業(yè)務數據的積累為根底。數據倉庫不是靜態(tài)的概念,只需把信息及時交給需求這些信息的運用者,供他們做出改善其業(yè)務運營的決策,信息才干發(fā)揚作用,信息才有意義。而把信息加以整理歸納和重組,并及時提供應相應的管理決策人員,是數據倉庫的根本義務。因此,從產業(yè)界的角度看,數據倉庫建立是一個工程,是一個過程。2.2.1主題數據庫數據倉庫里的數據都是按照業(yè)務主題進展組織的。主題數據庫的根本特征如下:1面向業(yè)務主題(不是面向單個報表)。主題數據庫是面向業(yè)務主題的數據組織存
27、儲,例如,對于安徽地稅來講,需求建立的典型的主題數據庫包括:稅務、申報、發(fā)票、票證、行政執(zhí)法、稅費等數據庫的構造,是對有關稅務、發(fā)票、稅費的數據項進展分析整理而設計的,不是按稅務、發(fā)票、稅費的原樣建立的。這些主題數據庫與稅務管理中要處理的主要問題相關聯(lián),而不是與通常的計算機運用工程相關聯(lián)。2信息共享(不是信息私有或部門一切)。主題數據庫是對各個運用系統(tǒng)“自建自用的數據庫的徹底否認,強調建立各個運用系統(tǒng)“共建共用的共享數據庫。不同的運用系統(tǒng)的計算機程序調用這些主題數據庫。3一次一處輸入系統(tǒng)(不是多次多處輸入系統(tǒng))。主題數據庫要求調研分析各業(yè)務層次上的數據源,強調數據的就地采集、就地處置、運用和存
28、儲,以及必要的傳輸、匯總和集中存儲。同一數據必需一次、一處進入系統(tǒng),保證其準確性、及時性和完好性,經由網絡-計算機-數據庫系統(tǒng),可以多次、多處運用。4由根本表組成。一個主題數據庫的科學的數據構造,是由多個到達“根本表(BaseTable)規(guī)范的數據實體構成的,這些根本表具有如下的特性:原子性根本表中的數據項是數據元素即最小的、不能再分解的信息單元;演繹性可由根本表中的數據生成全部輸出數據即這些根本表是精練的,經過計算處置可以產生全部企業(yè)管理所需求的數據;規(guī)范性根本表中數據滿足三范式(3-NF)要求,這是科學的、能滿足演繹性要求、并能保證快捷存取的數據構造。在設計的同時,關鍵是要做好數據字典的維
29、護任務,以使他對本人的數據庫了如指掌。2.2.2數據存儲數據倉庫為安徽地稅各級管理部門、分析人員的分析、決策操作提供一致、集成的根底數據,包括安徽地稅各個業(yè)務部門當前及其歷史的細節(jié)性業(yè)務數據,以及為了進展分析決策操作而生成的分析型數據,是一個一致、集成、穩(wěn)定、基于歷史數據的龐大數據集合,需求借助成熟的數據庫技術對其進展存儲管理,即利用改造過的關系數據庫系統(tǒng)來組織和管理面向主題的數據倉庫中的數據。 整合業(yè)務數據的根底數據層數據倉庫系統(tǒng)的根底數據是按照主題來組織的。根底數據層只思索數據本身的來源與屬性,按照業(yè)務本身的數據之間的相互關系來組織數據,而不思索數據的運用,即“整合數據,其目的在于減少數據
30、的冗余,提高系統(tǒng)的靈敏性,能快速的實現新增主題和功能。 面向決策支持的分析數據層運用數據層與詳細的運用需求嚴密結合,按照運用的要求來組織根底數據層的數據。面向運用,其目的就是針對面向主題,面向詳細的運用,提高訪問、執(zhí)行、查詢的效率,即“面向決策支持。 數據倉庫信息模型數據倉庫信息主題,主要包括:稅務登記、核定管理、申報征收、發(fā)票管理、票證管理、行政執(zhí)法、稅費檢查、會統(tǒng)管理等,按照安徽地稅信息的組成進展前瞻性的構造設計。2.2.3數據展現數據倉庫系統(tǒng)應提供靈敏多樣的展現方式。目前常用的展現方式有:固定預定義報表、圖表、即席查詢Ad-Hoc、多維動態(tài)分析等。各主題分析的展現方式除了可以經過以上方式
31、進展展現,對于異常的分析結果還可以經過短音訊、或其他告警方式進展預警。表格和圖表可以轉換為Excel等格式,分析人員可以根據需求排序、分組數據并改動圖表的類型直方圖、餅形圖、折線圖、堆積圖等,可在任何維度上經過“鉆取和“切片生成報表及圖形。復合報表要“所見即所得。2.2.4數據發(fā)掘數據發(fā)掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。隨著信息技術的高速開展,人們積累的數據量急劇增長,動輒以TB計,如何從海量的數據中提取有用的知識成為當務之急。數據發(fā)掘就是為順應這種需求應運而生開展起來的數據處置
32、技術。是知識發(fā)現(Knowledge Discovery in Database)的關鍵步驟。數據發(fā)掘步驟普通包括定義問題、數據預備、數據發(fā)掘、結果分析和知識運用等步驟。1、定義問題:明晰地定義出業(yè)務問題,確定數據發(fā)掘的目的。2、數據預備:包括:選擇數據:在大型數據庫和數據倉庫目的中提取數據發(fā)掘的目的數據集;數據預處置:進展數據再加工,包括檢查數據的完好性及數據的一致性、去噪聲,填補喪失的域,刪除無效數據等。3、數據發(fā)掘:根據數據功能的類型和和數據的特點選擇相應的算法,在凈化和轉換過的數據集上進展數據發(fā)掘。4、結果分析:對數據發(fā)掘的結果進展解釋和評價,轉換成為可以最終被用戶了解的知識。5、知識
33、運用:將分析所得到的知識集成到業(yè)務信息系統(tǒng)的組織構造中去。2.3系統(tǒng)平臺要求2.3.1 系統(tǒng)容量規(guī)劃 用戶數據量的估算用戶數據量的估算與用戶數、業(yè)務量、系統(tǒng)中數據保管期限、業(yè)務系統(tǒng)中單個數據記錄容量有關。設數據量為T,估算公式如下:T=U*N*R*Ti其中:U:為安徽省地市稅務局的數量;N:為某個地市年業(yè)務量。對于不同的地市可取業(yè)務量最大值進展估算;R:為單個數據記錄的容量;Ti:為數據存儲期限。 數據倉庫磁盤容量估算數據倉庫系統(tǒng)的存儲主要由三部分構成,按照數據倉庫系統(tǒng)功能構造,自上而下分別是:多維數據存儲,數據倉庫存儲,接口文件存儲??偟拇鎯κ沁@三部分的和。令T為系統(tǒng)的存儲總量,Ta為多維數
34、據存儲所需的存儲量,Td為數據倉庫存儲所需的存儲量,Ti為接口文件存儲所需的存儲量,三者單位均為GB,那么 TTa +Td +Ti一接口文件存儲所需的存儲量Ti接口文件存儲區(qū)主要用于存放消費系統(tǒng)傳送到數據倉庫系統(tǒng)的數據文件和一些數據倉庫系統(tǒng)從其他系統(tǒng)抽取的部分數據文檔。估算時可取存儲空間最大的接口文件,其它類型的文件數據量可以按該最大接口文件數據量的一定比例來計算。由此可得出如下公式:TiU*(1+Pi)*Ni *Nu 其中,U為最大接口文件數據量,單位為GB Pi為其他類型文件所占比例因子,通??扇?.05 Ni為接口文件在數據倉庫系統(tǒng)中的保管天數 Nu為用戶數量二數據倉庫所需存儲量Td計算
35、數據倉庫所需的存儲量,主要思索操作數據存儲區(qū)、數據倉庫層和數據集市層存儲所需的磁盤空間,其中數據倉庫層占用絕大部分。這里需求思索承載數據的數據庫系統(tǒng)、文件系統(tǒng)、RAID、數據冗余等對存儲的影響。這些系統(tǒng)所占用的空間都將折合成所需存儲的純數據量的比例因子。這里的純數據由兩部分構成:用戶詳單數據和客戶資料數據。其中用戶詳單數據量可以由用戶數,存儲時間和單用戶每天數據量得到,單用戶每天數據量的計算公式曾經在上節(jié)得出。那么有如下公式:TdU*Nu*Nd*1+Pdb+Praid+Pfs+Predu其中,U為單個地市數據量的平均值或最大值,Nu為地市局數量,Nd為存儲時間,Pdb為數據庫相關因子,Prai
36、d為RAID相關因子,Pfs為文件系統(tǒng)和軟件相關因子,Predu為系統(tǒng)冗余因子。三多維數據存儲所需存儲量Ta這部分所占的存儲空間和運用相關,主要是多維分析所需求的磁盤空間??臻g的大小取決于分析的業(yè)務數量、維度數量和層次、分類等要素,還和詳細采用的產品相關。凡是和時間相關的多維分析,其所占用的空間計算公式如下:Ta(Dmea+Ddim*Ndim)*Nserv*Nfact*(NserdimNlevNtype)*Ptdim*Nkp*Ncpr其中:Dmea為現實表中度量字段的平均數據量,單位為GBDdim為現實表中維度字段的平均數據量,單位為GBNdim為現實表中維度字段的平均個數Nserv為多維分析
37、業(yè)務類型平均個數Nfact為每個業(yè)務類型分析的現實表平均個數Nserdim為現實表中除時間維外的維度個數,普通為Ndim-1Nlev為現實表中維度的平均層次數Ntype為現實表中每個維度層次的平均類型個數Ptdim為時間維因子,假設分析到日,那么為365,到月為12Nkp 為數據保管周期,單位是年Ncpr為多維數據緊縮因子,和詳細的產品有關四數據庫緊縮技術某些數據倉庫產品中引入了獨特的數據緊縮技術,用于數據存儲。對于分區(qū)表,可以選擇緊縮全部或部分分區(qū)。緊縮屬性可以在表空間、表或分區(qū)上聲明。假設在表空間上聲明,那么該表空間中建的一切表都被緊縮存儲。大型數據倉庫的緊縮比例通常為2:1到4:1,某些
38、業(yè)務的數據有能夠獲得更高的緊縮比,詳細的緊縮比與數據的類型和存儲的順序有關。2.3.2 配置要求數據倉庫系統(tǒng)主機效力器與存儲設備假設安徽地稅的數據倉庫效力器和ETL效力器是分別的,并且不包括對固定報表的訪問,由于這部分報表曾經以靜態(tài)數據的方式存放在WEB效力器上,對數據庫不產生壓力。那么對數據倉庫效力器的處置才干要求主要于對數據庫的實時查詢。假設:安徽地稅數據倉庫系統(tǒng)的用戶數為Nu系統(tǒng)的最大并發(fā)數為用戶總數的10每次查詢平均調用100個目的每查詢5個目的折合成1個規(guī)范買賣系統(tǒng)在3秒中內完成處置那么數據倉庫主機所需求的TPMC為:100/5Nu1060/3 ETL系統(tǒng)主機效力器與存儲設備ETL效
39、力器主要的處置任務包括以下方面:接納消費系統(tǒng)提供的源數據或從其他系統(tǒng)抽取數據。(我們將這個任務簡稱為W1)將接口文件包含的數據進展格式轉換,進展數據清洗,重新整理,生成新格式的記錄插入數據庫中或構成文件,裝載入數據倉庫中,整個過程要求在一定的時間內完成。我們將這個任務簡稱為W2以上的任務流程為串行關系,數據倉庫效力器的處置才干要求為:MAXW1處置才干要求;W2處置才干要求。一W1處置才干需求分析我們運用以下的條件對W1進展處置才干需求分析:一切任務每日要求在1小時內完成;平均抽取150條記錄所需的事務數為1;思索四處置過程中能夠遇到的業(yè)務頂峰期和用戶數不可預料的增長情況,效力器的處置才干冗余
40、30%。那么,W1需求的TPMC為:TPMCW1每日抽取的記錄數/處置時間*60*處置一條記錄所需的事務數 * 30%二W2處置才干需求分析我們運用以下的條件對W2進展處置才干需求分析:一切任務每日要求在2小時內完成;平均處置6條記錄所需的事務數為1。那么,W2需求的TPMC為:TPMCW2記錄數/處置時間*60*處置一條記錄所需的事務數根據以上的分析,ETL效力器的處置才干要求為:MAXW1處置才干要求;W2處置才干要求同時我們需求思索以下要素:添加效力器處置才干的20%,需運轉數據倉庫管理等運用;思索四處置過程中能夠遇到的頂峰期和用戶數不可預料的增長情況,效力器的處置才干冗余30%。根據實
41、踐系統(tǒng)閱歷,接口系統(tǒng)有時接口文件的生成時間會延遲,為了保證數據處置的及時性,以及未來業(yè)務的開展和系統(tǒng)擴展性的保證,建議TPMC實踐思索時適當擴展。網絡帶寬網絡帶寬可以根據每分鐘的業(yè)務量、每筆業(yè)務占多少流量、并發(fā)用戶數來進展估算:網絡帶寬每分鐘的業(yè)務量*每筆業(yè)務所占流量*并發(fā)用戶數實踐計算時思索系統(tǒng)網絡流量冗余30%。三、建議實施方案業(yè)務數據量估算一年:5G/地市*18地市90G3.1 只建立操作數據存儲區(qū)ODS該方案只建立操作數據存儲區(qū)ODS,不建立數據倉庫。此時,在數據倉庫體系中的操作數據存儲區(qū)實踐上起著安徽地稅數據中心的作用,擔任將各地市業(yè)務數據集中到省局數據中心,并在此根底上提供根本的統(tǒng)
42、計、查詢功能。3.1.1硬件方案主機采用小型機,建議IBM P595或同等檔次機型。數據存儲存儲2-3年的數據量:90G*3270G網絡省局數據中心的網絡環(huán)境,主干網帶寬支持100M以上,省局數據中心同各地市之間的網絡帶寬支持10M以上,數據批量ETL占用2M網絡銜接。3.1.2工具平臺數據庫運用Sybase數據庫。ETL工具建議自行開發(fā)。3.1.3軟件方案固定報表:提供固定預定義報表及模板、圖形展現、導入導出等功能。綜合查詢:提供自定義報表、圖形展現、導入導出等功能。3.1.4任務量及費用估算任務量估算如下:建立內容任務量估算人*月ODS建立開發(fā)調研3ETL過程設計6數據庫設計5軟件開發(fā)30
43、試點1-2地市數據抽取、加工3數據質量審核3軟件功能完善10推行全省范圍推行30培訓和維護20合計110費用估算如下:110人月*2萬/人月220萬RMB3.1.5 進度方案初步方案工程啟動時間為4月初,進度方案如下:3.2 同時建立操作數據存儲區(qū)ODS和數據倉庫DW該方案先建立操作數據存儲區(qū),將各地市業(yè)務數據集中到省局數據中心,并提供簡單的統(tǒng)計和查詢功能。同時,在此根底上建立數據倉庫,以支持更豐富的業(yè)務查詢、綜合統(tǒng)計、多維分析、數據發(fā)掘等功能。此方案中的操作數據存儲區(qū)是實踐意義上的數據倉庫的一部分,其作為數據倉庫與數據源之間的一個暫時數據緩沖區(qū),存儲少量的、短期的數據,一切的數據最終都加載到數據倉庫中。3.2.1硬件方案主機數據倉庫采用小型機,建議IBM P595或同等檔次機型。操作數據存儲區(qū)ODS可以與數據倉庫物理獨立,也可以與數據倉庫物理在一同。假設操作數據存儲區(qū)與數據倉庫物理獨立,那么操作數據存儲區(qū)也可以采用PC效力器。數據存儲操作數
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年個人門面房屋租賃合同標準樣本(2篇)
- 2025年鄉(xiāng)村農副產品采購合同協(xié)議模板(2篇)
- 2025年交易會攤位制作協(xié)議樣本(2篇)
- 2025年個人挖掘機買賣合同(2篇)
- 2025年個人機械租賃合同協(xié)議(4篇)
- 2025年事業(yè)單位臨時工合同樣本(2篇)
- 寫字樓裝修解除合同協(xié)議書
- 2025年度安全設施完善租賃住宅合同示例
- 旗艦店品牌形象裝修合同
- 寵物店裝修承攬協(xié)議
- 設備日常維護及保養(yǎng)培訓
- 設計院個人年終總結
- 鋼結構實習報告
- 2024年建房四鄰協(xié)議范本
- FTTR-H 全光組網解決方案裝維理論考試復習試題
- 2024年安全生產月主題2024年學校安全生產月活動方案
- 2024年廣東佛山市中醫(yī)院三水醫(yī)院招聘61人歷年高頻考題難、易錯點模擬試題(共500題)附帶答案詳解
- 測繪保密協(xié)議書保密協(xié)議(2024版)
- 中級半導體分立器件和集成電路裝調工技能鑒定考試題庫(含答案)
- HG20202-2014 脫脂工程施工及驗收規(guī)范
- 固定資產培訓課件共-51張
評論
0/150
提交評論