數(shù)據(jù)整合方案_第1頁
數(shù)據(jù)整合方案_第2頁
數(shù)據(jù)整合方案_第3頁
數(shù)據(jù)整合方案_第4頁
數(shù)據(jù)整合方案_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、1 .信息資源標(biāo)準化數(shù)據(jù)標(biāo)準化主要實現(xiàn)了數(shù)據(jù)格式、內(nèi)容和語義的映射、轉(zhuǎn)換,實現(xiàn)編碼一致化、面向主題集成、數(shù)據(jù)聚合等功能。通過數(shù)據(jù)交換、采集,形成的基礎(chǔ)業(yè)務(wù)數(shù)據(jù),通過數(shù)據(jù)整合進一步的數(shù)據(jù)ETL(數(shù)據(jù)抽取、轉(zhuǎn)換、加載),按照定制的標(biāo)準信息規(guī)范進行匹配映射(Match)、數(shù)據(jù)格式轉(zhuǎn)換(Transform),并對重復(fù)數(shù)據(jù)進行數(shù)據(jù)清洗(Cleanse)、過濾(Filtrate)、聚合(Aggregate),最后多維加載(Load)后形成標(biāo)準化數(shù)據(jù)。采用數(shù)據(jù)同步工具和ETL工具完成數(shù)據(jù)抽取、同步等整合工作,并通過任務(wù)調(diào)度管理實現(xiàn)對整合工具的集中管理和執(zhí)行。數(shù)據(jù)采集時可以按信息資源平臺的要求將數(shù)據(jù)標(biāo)準化。在

2、采集抽取數(shù)據(jù)時沒有按信息資源平臺轉(zhuǎn)換為標(biāo)準數(shù)據(jù)的數(shù)據(jù),需要按信息資源平臺的要求轉(zhuǎn)換成標(biāo)準的數(shù)據(jù)如字典的統(tǒng)一。2 .數(shù)據(jù)加工管理2.1. 數(shù)據(jù)抽取數(shù)據(jù)抽取是利用抽取工具,建立抽取模型,將多個數(shù)據(jù)源數(shù)據(jù)匯總到一個數(shù)據(jù)庫的過程。2.2. 數(shù)據(jù)清洗由于數(shù)據(jù)來自多個業(yè)務(wù)系統(tǒng),而且包含歷史數(shù)據(jù),需要按照一定的規(guī)劃把數(shù)據(jù)進行清洗,整個數(shù)據(jù)清洗的對象應(yīng)包括不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)、重復(fù)的數(shù)據(jù)等三大類。2.3. 數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換主要實現(xiàn)數(shù)據(jù)標(biāo)準化的過程,信息資源平臺的數(shù)據(jù),來自多個業(yè)務(wù)系統(tǒng),有些數(shù)據(jù)源沒有按照統(tǒng)一的標(biāo)準規(guī)范設(shè)計,因此會造成數(shù)據(jù)難以與其他數(shù)據(jù)共享。數(shù)據(jù)轉(zhuǎn)換應(yīng)實現(xiàn)按照統(tǒng)一的數(shù)據(jù)標(biāo)準和既定的格式轉(zhuǎn)換規(guī)

3、則,對數(shù)據(jù)的整理和格式統(tǒng)一。2.4. 數(shù)據(jù)裝載數(shù)據(jù)裝載操作效率是數(shù)據(jù)資源平臺需要考慮的重要環(huán)節(jié)。投標(biāo)人應(yīng)詳細描述針對本項目的不同數(shù)據(jù)資源所應(yīng)采用的數(shù)據(jù)裝載策略。2.5. 數(shù)據(jù)標(biāo)識數(shù)據(jù)標(biāo)識主要為了突出數(shù)據(jù)的關(guān)鍵性信息,便于實時的統(tǒng)計和更有效的比對,進而獲取符合用戶業(yè)務(wù)辦理相關(guān)的結(jié)果。3 .數(shù)據(jù)整合處理系統(tǒng)3.1. 數(shù)據(jù)處理流程數(shù)據(jù)中心的構(gòu)建,基礎(chǔ)和核心的工作是需要對來自各方的數(shù)據(jù)進行充分的整合和處理,對獲取的各類源數(shù)據(jù),需要進行大量的數(shù)據(jù)梳理、分析,并作相關(guān)的數(shù)據(jù)整理工作,通過數(shù)據(jù)梳理和轉(zhuǎn)換工作,把不同來源的數(shù)據(jù)基于數(shù)據(jù)標(biāo)準,轉(zhuǎn)換成標(biāo)準化數(shù)據(jù)后,再進行入庫,從而保證進入數(shù)據(jù)中心的數(shù)據(jù)質(zhì)量,不產(chǎn)生

4、垃圾數(shù)據(jù),從而為數(shù)據(jù)中心的全局應(yīng)用奠定基礎(chǔ)。數(shù)據(jù)處理的流程如下圖所示:基礎(chǔ)數(shù)據(jù)企業(yè)基礎(chǔ)數(shù)據(jù)£三二二=-產(chǎn)品基礎(chǔ)數(shù)據(jù)、三三三三二從業(yè)人員基礎(chǔ)數(shù)據(jù)企業(yè)關(guān)鍵碼標(biāo)準化處理其他政府部門數(shù)據(jù)整合處理數(shù)據(jù)中心業(yè)務(wù)數(shù)據(jù)許可信息一口日常監(jiān)管信息企業(yè)信用信息行政執(zhí)法信息抽樣檢驗信息其他信息企業(yè)基礎(chǔ)信息整合處理企業(yè)許可數(shù)據(jù)整合處理企業(yè)監(jiān)管數(shù)據(jù)整合處理電子統(tǒng)計報表數(shù)據(jù)導(dǎo)入處理歷史數(shù)據(jù)整合處理其他數(shù)據(jù)整合處理數(shù)據(jù)緩沖庫共享交換管理和對接實施市政府網(wǎng)辦市局內(nèi)部電子數(shù)據(jù)工商部門其他數(shù)據(jù)農(nóng)業(yè)部門其他政府部門數(shù)據(jù)的處理流程主要如下:1、獲取源數(shù)據(jù)通過數(shù)據(jù)共享交換對接和實施,獲取各單位的原始數(shù)據(jù),并暫存在數(shù)據(jù)緩沖庫中,

5、這部分的數(shù)據(jù)結(jié)構(gòu)和原始數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)相同2、數(shù)據(jù)整合處理對緩沖庫中存儲的數(shù)據(jù),基于數(shù)據(jù)標(biāo)準,對原始的數(shù)據(jù)進行整合處理,包括企業(yè)關(guān)鍵碼標(biāo)準化處理、企業(yè)基礎(chǔ)數(shù)據(jù)整合處理、企業(yè)許可數(shù)據(jù)整合處理、企業(yè)監(jiān)管數(shù)據(jù)整合處理、其他政府部門數(shù)據(jù)整合處理、電子統(tǒng)計報表數(shù)據(jù)導(dǎo)入處理、歷史數(shù)據(jù)整合處理等。通過整合處理,把非標(biāo)準化的原始數(shù)據(jù)轉(zhuǎn)換成標(biāo)準化的數(shù)據(jù)。3、數(shù)據(jù)中心數(shù)據(jù)入庫對整合處理后的數(shù)據(jù)按照數(shù)據(jù)的性質(zhì),分別進入到基礎(chǔ)數(shù)據(jù)庫和業(yè)務(wù)數(shù)據(jù)庫中。3.2. 食品安全監(jiān)管數(shù)據(jù)整合處理分析3.2.1, 企業(yè)關(guān)鍵碼標(biāo)準化處理目前,有關(guān)企業(yè)的各類信息都分散在XX省XX監(jiān)管平臺、網(wǎng)上辦事大廳XX分廳以及相關(guān)部門的行政審批系統(tǒng),不

6、同的系統(tǒng)對企業(yè)的唯一編碼各不相同,目前存在三種方式:企業(yè)組織機構(gòu)代碼企業(yè)工商登記注冊號統(tǒng)一社會信用代碼企業(yè)XX行業(yè)相關(guān)許可證號由于不同的業(yè)務(wù)系統(tǒng)是由不同的開發(fā)商開發(fā)的,在企業(yè)編碼的標(biāo)識上各不統(tǒng)一的,為了實現(xiàn)基于企業(yè)為主線,首先需要以企業(yè)關(guān)鍵碼為關(guān)聯(lián),對各方匯聚的有關(guān)企業(yè)的各類信息進行關(guān)聯(lián)整合,形成企業(yè)綜合資源,為后續(xù)的企業(yè)綜合分析提供數(shù)據(jù)支撐。因此,需要基于企業(yè)編碼標(biāo)準,對采集的原始企業(yè)業(yè)務(wù)數(shù)據(jù)的企業(yè)編碼進行標(biāo)準化處理。企業(yè)關(guān)鍵碼標(biāo)準化處理涉及的工作包括:1、基礎(chǔ)數(shù)據(jù)獲取通過共享交換對接、文件導(dǎo)入等多種方式,獲取有關(guān)企業(yè)的基礎(chǔ)數(shù)據(jù)等。2、企業(yè)關(guān)鍵碼梳理分析根據(jù)調(diào)研情況,針對XX市企業(yè)基礎(chǔ)數(shù)據(jù)的

7、實際情況和國家推行三碼合一的政策,采用依次以信用代碼、組織機構(gòu)代碼、工商登記注冊號、許可證號對從各方獲取的企業(yè)信息進行梳理分析,和企業(yè)關(guān)鍵碼進行比對,制定企業(yè)關(guān)鍵碼標(biāo)準化的處理規(guī)則。3、企業(yè)關(guān)鍵碼數(shù)據(jù)標(biāo)準化對各方匯聚的企業(yè)關(guān)鍵碼數(shù)據(jù)按照標(biāo)準化處理規(guī)則進行轉(zhuǎn)換、補充等處理。3.2.2, 企業(yè)基礎(chǔ)信息整合處理在不同的業(yè)務(wù)系統(tǒng)中,對企業(yè)基礎(chǔ)信息描述有有差異、包括企業(yè)字段和相關(guān)的數(shù)據(jù)結(jié)構(gòu)的設(shè)計等,因此,需要對各方匯聚的企業(yè)基礎(chǔ)信息按照統(tǒng)一的企業(yè)基礎(chǔ)數(shù)據(jù)標(biāo)準,進行整合處理,構(gòu)建企業(yè)基礎(chǔ)數(shù)據(jù)庫。3.2.3, 企業(yè)許可數(shù)據(jù)整合處理目前,XX市相關(guān)企業(yè)許可數(shù)據(jù)主要分布在兩個渠道:網(wǎng)上辦事大廳XX分廳XX省XX

8、監(jiān)管平臺等。1、網(wǎng)上辦事大廳XX分廳許可數(shù)據(jù)整合處理通過網(wǎng)上辦事大廳XX分廳進行受理和審批,則通過和網(wǎng)上辦事大廳XX分廳進行對接,獲取相關(guān)的企業(yè)許可數(shù)據(jù)。對獲取的企業(yè)許可數(shù)據(jù)按照統(tǒng)一的數(shù)據(jù)標(biāo)準進行整合處理,經(jīng)過規(guī)則轉(zhuǎn)換后形成標(biāo)準的企業(yè)許可數(shù)據(jù)導(dǎo)入到數(shù)據(jù)中心。2、XX省XX監(jiān)管平臺企業(yè)許可數(shù)據(jù)導(dǎo)入若屬于XX省監(jiān)督管理局辦理的許可事項,則對接XX省監(jiān)督管理局的數(shù)據(jù)中心,獲取XX市XX相關(guān)企業(yè)的許可信息,按照企業(yè)的許可標(biāo)準導(dǎo)入到市局數(shù)據(jù)中心。3.2.4, 企業(yè)監(jiān)管數(shù)據(jù)整合處理以企業(yè)為主線,對分散在不同渠道的企業(yè)監(jiān)管數(shù)據(jù)進行梳理,按照數(shù)據(jù)標(biāo)準要求,對和企業(yè)相關(guān)的監(jiān)管數(shù)據(jù)進行整合處理并入庫。需要進行整合

9、處理的監(jiān)管數(shù)據(jù)大類包括:四品一械企業(yè)日常監(jiān)管數(shù)據(jù)四品一械企業(yè)行政執(zhí)法數(shù)據(jù)四品一械企業(yè)抽樣檢驗數(shù)據(jù)四品一械企業(yè)信用數(shù)據(jù)食品追溯數(shù)據(jù)廣告監(jiān)管系統(tǒng)的抓取視頻、抓拍圖片和抓取音頻等廣告監(jiān)測數(shù)據(jù)其他3.2.5, 電子統(tǒng)計報表數(shù)據(jù)導(dǎo)入處理對XX市XX監(jiān)督管理局上報省局的統(tǒng)計報表數(shù)據(jù)(以電子表格方式),對這部分數(shù)據(jù)也需要導(dǎo)入到數(shù)據(jù)中心,提供全局應(yīng)用的數(shù)據(jù)支撐。3.3. 數(shù)據(jù)整合處理功能3.3.1, 數(shù)據(jù)抽取在融合數(shù)據(jù)庫中,必須從不同的操作型數(shù)據(jù)庫系統(tǒng)以及其它形式外部數(shù)據(jù)源中有選擇地抽取數(shù)據(jù),而不應(yīng)該將所有源數(shù)據(jù)全部塞入融合數(shù)據(jù)庫。在具體的抽取過程中,還必須根據(jù)是增量裝載工作還是初始完全裝載等不同情況的變化規(guī)

10、劃抽取任務(wù)。有效的數(shù)據(jù)抽取對于數(shù)據(jù)倉庫的成功很關(guān)鍵,需要合理細致地制訂數(shù)據(jù)抽取策略。數(shù)據(jù)抽取的要點主要有:數(shù)據(jù)源確認:確認數(shù)據(jù)的源系統(tǒng)(或文件)和結(jié)構(gòu);列出對事實表的每一個數(shù)據(jù)項和事實對于每個目標(biāo)數(shù)據(jù)項,找出源數(shù)據(jù)項一個數(shù)據(jù)元素有多個來源,選擇最好的來源確認一個目標(biāo)字段的多個源字段,建立合并規(guī)則確認一個目標(biāo)字段的多個源字段,建立分離規(guī)則確定默認值檢查缺失值的源數(shù)據(jù)抽取方法:針對每個數(shù)據(jù)源,定義抽取過程是人工抽取還是基于工具抽??;抽取頻率:對于每個數(shù)據(jù)源,確定數(shù)據(jù)抽取的頻率,每天、每星期、每季度,基礎(chǔ)數(shù)據(jù)裝載等等;時間窗口:對于每個數(shù)據(jù)源,表示出抽取過程進行的時間窗口;工作順序:決定抽取任務(wù)中某

11、項工作是否必須等到前面的工作成功完成,才能開始;異常處理:決定如何處理無法抽取的輸入記錄。3.3.2, 數(shù)據(jù)轉(zhuǎn)換抽取得到的數(shù)據(jù)是沒有經(jīng)過加工的數(shù)據(jù),不能直接應(yīng)用于融合數(shù)據(jù)中心。首先,所有抽取的數(shù)據(jù)必須按照標(biāo)準數(shù)據(jù)集轉(zhuǎn)換為融合數(shù)據(jù)庫可以使用的數(shù)據(jù)。擁有可以用來后續(xù)建立數(shù)據(jù)倉庫進行戰(zhàn)略決策的信息,并且提供對外數(shù)據(jù)共享與服務(wù),而操作型系統(tǒng)的數(shù)據(jù)不能滿足這個要求;其次,抽取得到的數(shù)據(jù)其質(zhì)量可能還達不到融合數(shù)據(jù)中心的要求,所以必須在進入融合數(shù)據(jù)庫之前提高數(shù)據(jù)的質(zhì)量。在將抽取的數(shù)據(jù)載入庫之前,不可避免地要執(zhí)行各種類型的數(shù)據(jù)轉(zhuǎn)換。必須保證在所有的數(shù)據(jù)整合到一起之后,數(shù)據(jù)的組合不能違反任何商業(yè)規(guī)則。這期間需要

12、考慮融合數(shù)據(jù)庫中需要的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)元素,結(jié)合源數(shù)據(jù)格式、數(shù)據(jù)取值和質(zhì)量要求可以知道如何綜合采用多種類型的轉(zhuǎn)換工作來符合融合數(shù)據(jù)庫的要求。數(shù)據(jù)轉(zhuǎn)換的基本任務(wù)包括:數(shù)據(jù)或記錄的選擇對所選擇的數(shù)據(jù)或記錄進行分離或合并處理轉(zhuǎn)化:包括多種對數(shù)據(jù)記錄的單獨字段的基本轉(zhuǎn)化,以對不同源系統(tǒng)數(shù)據(jù)進行標(biāo)準化,并使這些字段對用戶來說可用和可理解豐富:對單個字段數(shù)據(jù)進行重新分配和簡化其中主要的轉(zhuǎn)換類型有格式修正、字段的解碼、計算值和導(dǎo)出值、單個字段的分離、信息的合并、特征集合轉(zhuǎn)化、度量單位的轉(zhuǎn)化、日期/時間轉(zhuǎn)化、匯總、鍵的重構(gòu)等等。實施數(shù)據(jù)轉(zhuǎn)換的過程中,要結(jié)合使用轉(zhuǎn)換工具和手工技術(shù)。使用自動的工具可以提高效率和準確

13、性,更重要的是,自動轉(zhuǎn)換工具可以記錄元數(shù)據(jù),確定的轉(zhuǎn)換參數(shù)和規(guī)則都會作為元數(shù)據(jù)被工具存儲起來,成為數(shù)據(jù)倉庫整個元數(shù)據(jù)組成的一部分,可以被其他部分共享,當(dāng)由于商業(yè)規(guī)則或者數(shù)據(jù)定義發(fā)生變化而帶來轉(zhuǎn)換功能變化時,可以將這些變化輸入工具,轉(zhuǎn)換的元數(shù)據(jù)會由工具自動進行調(diào)整。使用轉(zhuǎn)換工具的理想目標(biāo)當(dāng)然是徹底排除手工的方法,但在實際中卻是不可能實現(xiàn)的。即使是使用最精良的轉(zhuǎn)換工作組合,也會存在必須使用手工開發(fā)內(nèi)部程序的需要,需要進行復(fù)雜的手工編碼和人工測試工作。采用手工技術(shù),不但成本和錯誤率攀升,也會在數(shù)據(jù)庫環(huán)境中產(chǎn)生一些相互獨立的程序,手工方法最大的缺點是所帶來的元數(shù)據(jù)的記錄、管理、維護問題。清洗的過程中可

14、以檢查錯誤的拼寫,檢查多個數(shù)據(jù)源之間編碼,或者補充數(shù)據(jù)的錯誤值,也可以排除從多個數(shù)據(jù)源系統(tǒng)中取同一個數(shù)值時出現(xiàn)的重復(fù)問題。對數(shù)據(jù)元素的標(biāo)準化也是數(shù)據(jù)轉(zhuǎn)換過程的一個很重要的組成部分。要對數(shù)據(jù)類型進行標(biāo)準化,并且對不同數(shù)據(jù)源的相同數(shù)值的長度進行補充。語義的標(biāo)準化也是一個重要的任務(wù)。你要解決同義和同音異義的問題。當(dāng)相同的字段名在不同的數(shù)據(jù)源系統(tǒng)中代表不同的意義的時候,需要解決這個同音異義的問題。數(shù)據(jù)轉(zhuǎn)換過程解決了從不同數(shù)據(jù)源提取數(shù)據(jù)的解決方法。你要組合一個源記錄中提取的數(shù)據(jù),或者對很多源記錄中提取的數(shù)據(jù)進行組合。另一方面,數(shù)據(jù)轉(zhuǎn)換還包括了清洗沒有用的源數(shù)據(jù),并將它們進行新的組合。在數(shù)據(jù)準備階段,對數(shù)

15、據(jù)的分類和聚類是很重要的部分?;竟δ芊N類解釋選擇:從源系統(tǒng)中選擇整個記錄或者部分記錄。分離/合并:對源系統(tǒng)中的數(shù)據(jù)進行分離操作或者合并操作。轉(zhuǎn)化:對源系統(tǒng)進行標(biāo)準化和可理解化。匯總:將最低粒度數(shù)據(jù)進行匯總。清晰:對單個字段數(shù)據(jù)進行重新分配和簡化轉(zhuǎn)換類型(1)格式修正(2)字段的解碼(3)計算值和導(dǎo)出值(4)單個字段的分離(5)信息的合并(6)特征集合轉(zhuǎn)化(7)度量單位的轉(zhuǎn)化(8)關(guān)鍵字重新構(gòu)造(9)匯總(10)日期/時間轉(zhuǎn)化數(shù)據(jù)整合和合并數(shù)據(jù)整合和合并是將相關(guān)的源數(shù)據(jù)組合成一致的數(shù)據(jù)結(jié)構(gòu),裝入整合層數(shù)據(jù)庫。(1)實體識別問題數(shù)據(jù)來源于多個不同的客戶系統(tǒng),對相同客戶可能分別后不同的鍵碼,將它們組合成一條單獨的記錄(2)多數(shù)據(jù)源相同屬性不同值不同系統(tǒng)中得到的值存在一些差別,需要給出的問題合理的值3.3.3, 數(shù)據(jù)裝載向融合數(shù)據(jù)庫中轉(zhuǎn)移數(shù)據(jù)的過程中存在多種情況,一般存在三種類型的數(shù)據(jù)裝載:初始裝載:第一次對所有的數(shù)據(jù)庫表進行遷移;增量裝載:根據(jù)需要定期裝載應(yīng)用運行過程中發(fā)生的變化;完全刷新:完全刷新是指完全刷新一個或多個表的內(nèi)容,并重新裝載新的數(shù)據(jù)。在裝載過程中,一般會用到四種方式:裝載:如果要裝載的目標(biāo)表已經(jīng)存在,而且也有數(shù)據(jù)存在于表中,裝載過程就會抹去已有的數(shù)據(jù),應(yīng)用輸入文件中

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論