版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
信息資源原則化數(shù)據(jù)原則化重要實現(xiàn)了數(shù)據(jù)格式、內(nèi)容和語義的映射、轉(zhuǎn)換,實現(xiàn)編碼一致化、面對主題集成、數(shù)據(jù)聚合等功效。通過數(shù)據(jù)交換、采集,形成的基礎(chǔ)業(yè)務(wù)數(shù)據(jù),通過數(shù)據(jù)整合進一步的數(shù)據(jù)ETL(數(shù)據(jù)抽取、轉(zhuǎn)換、加載),按照定制的原則信息規(guī)范進行匹配映射(Match)、數(shù)據(jù)格式轉(zhuǎn)換(Transform),并對重復(fù)數(shù)據(jù)進行數(shù)據(jù)清洗(Cleanse)、過濾(Filtrate)、聚合(Aggregate),最后多維加載(Load)后形成原則化數(shù)據(jù)。采用數(shù)據(jù)同時工具和ETL工具完畢數(shù)據(jù)抽取、同時等整合工作,并通過任務(wù)調(diào)度管理實現(xiàn)對整合工具的集中管理和執(zhí)行。數(shù)據(jù)采集時能夠按信息資源平臺的規(guī)定將數(shù)據(jù)原則化。在采集抽取數(shù)據(jù)時沒有按信息資源平臺轉(zhuǎn)換為原則數(shù)據(jù)的數(shù)據(jù),需要按信息資源平臺的規(guī)定轉(zhuǎn)換成原則的數(shù)據(jù)如字典的統(tǒng)一。數(shù)據(jù)加工管理數(shù)據(jù)抽取數(shù)據(jù)抽取是運用抽取工具,建立抽取模型,將多個數(shù)據(jù)源數(shù)據(jù)匯總到一種數(shù)據(jù)庫的過程。數(shù)據(jù)清洗由于數(shù)據(jù)來自多個業(yè)務(wù)系統(tǒng),并且包含歷史數(shù)據(jù),需要按照一定的規(guī)劃把數(shù)據(jù)進行清洗,整個數(shù)據(jù)清洗的對象應(yīng)涉及不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)、重復(fù)的數(shù)據(jù)等三大類。數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換重要實現(xiàn)數(shù)據(jù)原則化的過程,信息資源平臺的數(shù)據(jù),來自多個業(yè)務(wù)系統(tǒng),有些數(shù)據(jù)源沒有按照統(tǒng)一的原則規(guī)范設(shè)計,因此會造成數(shù)據(jù)難以與其它數(shù)據(jù)共享。數(shù)據(jù)轉(zhuǎn)換應(yīng)實現(xiàn)按照統(tǒng)一的數(shù)據(jù)原則和既定的格式轉(zhuǎn)換規(guī)則,對數(shù)據(jù)的整頓和格式統(tǒng)一。數(shù)據(jù)裝載數(shù)據(jù)裝載操作效率是數(shù)據(jù)資源平臺需要考慮的重要環(huán)節(jié)。投標(biāo)人應(yīng)具體描述針對本項目的不同數(shù)據(jù)資源所應(yīng)采用的數(shù)據(jù)裝載方略。數(shù)據(jù)標(biāo)記數(shù)據(jù)標(biāo)記重要為了突出數(shù)據(jù)的核心性信息,便于實時的統(tǒng)計和更有效的比對,進而獲取符合顧客業(yè)務(wù)辦理有關(guān)的成果。數(shù)據(jù)整合解決系統(tǒng)數(shù)據(jù)解決流程數(shù)據(jù)中心的構(gòu)建,基礎(chǔ)和核心的工作是需要對來自各方的數(shù)據(jù)進行充足的整合和解決,對獲取的各類源數(shù)據(jù),需要進行大量的數(shù)據(jù)梳理、分析,并作有關(guān)的數(shù)據(jù)整頓工作,通過數(shù)據(jù)梳理和轉(zhuǎn)換工作,把不同來源的數(shù)據(jù)基于數(shù)據(jù)原則,轉(zhuǎn)換成原則化數(shù)據(jù)后,再進行入庫,從而確保進入數(shù)據(jù)中心的數(shù)據(jù)質(zhì)量,不產(chǎn)生垃圾數(shù)據(jù),從而為數(shù)據(jù)中心的全局應(yīng)用奠定基礎(chǔ)。數(shù)據(jù)解決的流程以下圖所示:數(shù)據(jù)的解決流程重要以下:1、獲取源數(shù)據(jù)通過數(shù)據(jù)共享交換對接和實施,獲取各單位的原始數(shù)據(jù),并暫存在數(shù)據(jù)緩沖庫中,這部分的數(shù)據(jù)構(gòu)造和原始數(shù)據(jù)的數(shù)據(jù)構(gòu)造相似。2、數(shù)據(jù)整合解決對緩沖庫中存儲的數(shù)據(jù),基于數(shù)據(jù)原則,對原始的數(shù)據(jù)進行整合解決,涉及公司核心碼原則化解決、公司基礎(chǔ)數(shù)據(jù)整合解決、公司許可數(shù)據(jù)整合解決、公司監(jiān)管數(shù)據(jù)整合解決、其它政府部門數(shù)據(jù)整合解決、電子統(tǒng)計報表數(shù)據(jù)導(dǎo)入解決、歷史數(shù)據(jù)整合解決等。通過整合解決,把非原則化的原始數(shù)據(jù)轉(zhuǎn)換成原則化的數(shù)據(jù)。3、數(shù)據(jù)中心數(shù)據(jù)入庫對整合解決后的數(shù)據(jù)按照數(shù)據(jù)的性質(zhì),分別進入到基礎(chǔ)數(shù)據(jù)庫和業(yè)務(wù)數(shù)據(jù)庫中。食品安全監(jiān)管數(shù)據(jù)整合解決分析公司核心碼原則化解決現(xiàn)在,有關(guān)公司的各類信息都分散在XX省XX監(jiān)管平臺、網(wǎng)上辦事大廳XX分廳以及有關(guān)部門的行政審批系統(tǒng),不同的系統(tǒng)對公司的唯一編碼各不相似,現(xiàn)在存在三種方式:公司組織機構(gòu)代碼公司工商登記注冊號統(tǒng)一社會信用代碼公司XX行業(yè)有關(guān)許可證號由于不同的業(yè)務(wù)系統(tǒng)是由不同的開發(fā)商開發(fā)的,在公司編碼的標(biāo)記上各不統(tǒng)一的,為了實現(xiàn)基于公司為根本,首先需要以公司核心碼為關(guān)聯(lián),對各方匯聚的有關(guān)公司的各類信息進行關(guān)聯(lián)整合,形成公司綜合資源,為后續(xù)的公司綜合分析提供數(shù)據(jù)支撐。因此,需要基于公司編碼原則,對采集的原始公司業(yè)務(wù)數(shù)據(jù)的公司編碼進行原則化解決。公司核心碼原則化解決涉及的工作涉及:1、基礎(chǔ)數(shù)據(jù)獲取通過共享交換對接、文獻導(dǎo)入等多個方式,獲取有關(guān)公司的基礎(chǔ)數(shù)據(jù)等。2、公司核心碼梳理分析根據(jù)調(diào)研狀況,針對XX市公司基礎(chǔ)數(shù)據(jù)的實際狀況和國家推行三碼合一的政策,采用依次以信用代碼、組織機構(gòu)代碼、工商登記注冊號、許可證號對從各方獲取的公司信息進行梳理分析,和公司核心碼進行比對,制訂公司核心碼原則化的解決規(guī)則。3、公司核心碼數(shù)據(jù)原則化對各方匯聚的公司核心碼數(shù)據(jù)按照原則化解決規(guī)則進行轉(zhuǎn)換、補充等解決。公司基礎(chǔ)信息整合解決在不同的業(yè)務(wù)系統(tǒng)中,對公司基礎(chǔ)信息描述有有差別、涉及公司字段和有關(guān)的數(shù)據(jù)構(gòu)造的設(shè)計等,因此,需要對各方匯聚的公司基礎(chǔ)信息按照統(tǒng)一的公司基礎(chǔ)數(shù)據(jù)原則,進行整合解決,構(gòu)建公司基礎(chǔ)數(shù)據(jù)庫。公司許可數(shù)據(jù)整合解決現(xiàn)在,XX市有關(guān)公司許可數(shù)據(jù)重要分布在兩個渠道:網(wǎng)上辦事大廳XX分廳XX省XX監(jiān)管平臺等。1、網(wǎng)上辦事大廳XX分廳許可數(shù)據(jù)整合解決通過網(wǎng)上辦事大廳XX分廳進行受理和審批,則通過和網(wǎng)上辦事大廳XX分廳進行對接,獲取有關(guān)的公司許可數(shù)據(jù)。對獲取的公司許可數(shù)據(jù)按照統(tǒng)一的數(shù)據(jù)原則進行整合解決,通過規(guī)則轉(zhuǎn)換后形成原則的公司許可數(shù)據(jù)導(dǎo)入到數(shù)據(jù)中心。2、XX省XX監(jiān)管平臺公司許可數(shù)據(jù)導(dǎo)入若屬于XX省監(jiān)督管理局辦理的許可事項,則對接XX省監(jiān)督管理局的數(shù)據(jù)中心,獲取XX市XX有關(guān)公司的許可信息,按照公司的許可原則導(dǎo)入到市局?jǐn)?shù)據(jù)中心。公司監(jiān)管數(shù)據(jù)整合解決以公司為根本,對分散在不同渠道的公司監(jiān)管數(shù)據(jù)進行梳理,按照數(shù)據(jù)原則規(guī)定,對和公司有關(guān)的監(jiān)管數(shù)據(jù)進行整合解決并入庫。需要進行整合解決的監(jiān)管數(shù)據(jù)大類涉及:四品一械公司日常監(jiān)管數(shù)據(jù)四品一械公司行政執(zhí)法數(shù)據(jù)四品一械公司抽樣檢查數(shù)據(jù)四品一械公司信用數(shù)據(jù)食品追溯數(shù)據(jù)廣告監(jiān)管系統(tǒng)的抓取視頻、抓拍圖片和抓取音頻等廣告監(jiān)測數(shù)據(jù)其它電子統(tǒng)計報表數(shù)據(jù)導(dǎo)入解決對XX市XX監(jiān)督管理局上報省局的統(tǒng)計報表數(shù)據(jù)(以電子表格方式),對這部分?jǐn)?shù)據(jù)也需要導(dǎo)入到數(shù)據(jù)中心,提供全局應(yīng)用的數(shù)據(jù)支撐。數(shù)據(jù)整合解決功效數(shù)據(jù)抽取在融合數(shù)據(jù)庫中,必須從不同的操作型數(shù)據(jù)庫系統(tǒng)以及其它形式外部數(shù)據(jù)源中有選擇地抽取數(shù)據(jù),而不應(yīng)當(dāng)將全部源數(shù)據(jù)全部塞入融合數(shù)據(jù)庫。在具體的抽取過程中,還必須根據(jù)是增量裝載工作還是初始完全裝載等不同狀況的變化規(guī)劃抽取任務(wù)。有效的數(shù)據(jù)抽取對于數(shù)據(jù)倉庫的成功很核心,需要合理細(xì)致地制訂數(shù)據(jù)抽取方略。數(shù)據(jù)抽取的要點重要有:數(shù)據(jù)源確認(rèn):確認(rèn)數(shù)據(jù)的源系統(tǒng)(或文獻)和構(gòu)造;列出對事實表的每一種數(shù)據(jù)項和事實對于每個目的數(shù)據(jù)項,找出源數(shù)據(jù)項一種數(shù)據(jù)元素有多個來源,選擇最佳的來源確認(rèn)一種目的字段的多個源字段,建立合并規(guī)則確認(rèn)一種目的字段的多個源字段,建立分離規(guī)則擬定默認(rèn)值檢查缺失值的源數(shù)據(jù)抽取辦法:針對每個數(shù)據(jù)源,定義抽取過程是人工抽取還是基于工具抽??;抽取頻率:對于每個數(shù)據(jù)源,擬定數(shù)據(jù)抽取的頻率,每天、每星期、每季度,基礎(chǔ)數(shù)據(jù)裝載等等;時間窗口:對于每個數(shù)據(jù)源,表達出抽取過程進行的時間窗口;工作次序:決定抽取任務(wù)中某項工作與否必須等到前面的工作成功完畢,才干開始;異常解決:決定如何解決無法抽取的輸入統(tǒng)計。數(shù)據(jù)轉(zhuǎn)換抽獲得到的數(shù)據(jù)是沒有通過加工的數(shù)據(jù),不能直接應(yīng)用于融合數(shù)據(jù)中心。首先,全部抽取的數(shù)據(jù)必須按照原則數(shù)據(jù)集轉(zhuǎn)換為融合數(shù)據(jù)庫能夠使用的數(shù)據(jù)。擁有能夠用來后續(xù)建立數(shù)據(jù)倉庫進行戰(zhàn)略決策的信息,并且提供對外數(shù)據(jù)共享與服務(wù),而操作型系統(tǒng)的數(shù)據(jù)不能滿足這個規(guī)定;另首先,抽獲得到的數(shù)據(jù)其質(zhì)量可能還達不到融合數(shù)據(jù)中心的規(guī)定,因此必須在進入融合數(shù)據(jù)庫之前提高數(shù)據(jù)的質(zhì)量。在將抽取的數(shù)據(jù)載入庫之前,不可避免地要執(zhí)行多個類型的數(shù)據(jù)轉(zhuǎn)換。必須確保在全部的數(shù)據(jù)整合到一起之后,數(shù)據(jù)的組合不能違反任何商業(yè)規(guī)則。這期間需要考慮融合數(shù)據(jù)庫中需要的數(shù)據(jù)構(gòu)造和數(shù)據(jù)元素,結(jié)合源數(shù)據(jù)格式、數(shù)據(jù)取值和質(zhì)量規(guī)定能夠懂得如何綜合采用多個類型的轉(zhuǎn)換工作來符合融合數(shù)據(jù)庫的規(guī)定。數(shù)據(jù)轉(zhuǎn)換的基本任務(wù)涉及:數(shù)據(jù)或統(tǒng)計的選擇對所選擇的數(shù)據(jù)或統(tǒng)計進行分離或合并解決轉(zhuǎn)化:涉及多個對數(shù)據(jù)統(tǒng)計的單獨字段的基本轉(zhuǎn)化,以對不同源系統(tǒng)數(shù)據(jù)進行原則化,并使這些字段對顧客來說可用和可理解豐富:對單個字段數(shù)據(jù)進行重新分派和簡化其中重要的轉(zhuǎn)換類型有格式修正、字段的解碼、計算值和導(dǎo)出值、單個字段的分離、信息的合并、特性集合轉(zhuǎn)化、度量單位的轉(zhuǎn)化、日期/時間轉(zhuǎn)化、匯總、鍵的重構(gòu)等等。實施數(shù)據(jù)轉(zhuǎn)換的過程中,要結(jié)合使用轉(zhuǎn)換工具和手工技術(shù)。使用自動的工具能夠提高效率和精確性,更重要的是,自動轉(zhuǎn)換工具能夠統(tǒng)計元數(shù)據(jù),擬定的轉(zhuǎn)換參數(shù)和規(guī)則都會作為元數(shù)據(jù)被工具存儲起來,成為數(shù)據(jù)倉庫整個元數(shù)據(jù)構(gòu)成的一部分,能夠被其它部分共享,當(dāng)由于商業(yè)規(guī)則或者數(shù)據(jù)定義發(fā)生變化而帶來轉(zhuǎn)換功效變化時,能夠?qū)⑦@些變化輸入工具,轉(zhuǎn)換的元數(shù)據(jù)會由工具自動進行調(diào)節(jié)。使用轉(zhuǎn)換工具的抱負(fù)目的固然是徹底排除手工的辦法,但在實際中卻是不可能實現(xiàn)的。即使是使用最精良的轉(zhuǎn)換工作組合,也會存在必須使用手工開發(fā)內(nèi)部程序的需要,需要進行復(fù)雜的手工編碼和人工測試工作。采用手工技術(shù),不僅成本和錯誤率攀升,也會在數(shù)據(jù)庫環(huán)境中產(chǎn)生某些互相獨立的程序,手工辦法最大的缺點是所帶來的元數(shù)據(jù)的統(tǒng)計、管理、維護問題。清洗的過程中能夠檢查錯誤的拼寫,檢查多個數(shù)據(jù)源之間編碼,或者補充數(shù)據(jù)的錯誤值,也能夠排除從多個數(shù)據(jù)源系統(tǒng)中取同一種數(shù)值時出現(xiàn)的重復(fù)問題。對數(shù)據(jù)元素的原則化也是數(shù)據(jù)轉(zhuǎn)換過程的一種很重要的構(gòu)成部分。要對數(shù)據(jù)類型進行原則化,并且對不同數(shù)據(jù)源的相似數(shù)值的長度進行補充。語義的原則化也是一種重要的任務(wù)。你要解決同義和同音異義的問題。當(dāng)相似的字段名在不同的數(shù)據(jù)源系統(tǒng)中代表不同的意義的時候,需要解決這個同音異義的問題。數(shù)據(jù)轉(zhuǎn)換過程解決了從不同數(shù)據(jù)源提取數(shù)據(jù)的解決辦法。你要組合一種源統(tǒng)計中提取的數(shù)據(jù),或者對諸多源統(tǒng)計中提取的數(shù)據(jù)進行組合。另首先,數(shù)據(jù)轉(zhuǎn)換還涉及了清洗沒有用的源數(shù)據(jù),并將它們進行新的組合。在數(shù)據(jù)準(zhǔn)備階段,對數(shù)據(jù)的分類和聚類是很重要的部分。基本功效種類解釋選擇:從源系統(tǒng)中選擇整個統(tǒng)計或者部分統(tǒng)計。分離/合并:對源系統(tǒng)中的數(shù)據(jù)進行分離操作或者合并操作。轉(zhuǎn)化:對源系統(tǒng)進行原則化和可理解化。匯總:將最低粒度數(shù)據(jù)進行匯總。清晰:對單個字段數(shù)據(jù)進行重新分派和簡化轉(zhuǎn)換類型(1)格式修正(2)字段的解碼(3)計算值和導(dǎo)出值(4)單個字段的分離(5)信息的合并(6)特性集合轉(zhuǎn)化(7)度量單位的轉(zhuǎn)化(8)核心字重新構(gòu)造(9)匯總(10)日期/時間轉(zhuǎn)化數(shù)據(jù)整合和合并數(shù)據(jù)整合和合并是將有關(guān)的源數(shù)據(jù)組合成一致的數(shù)據(jù)構(gòu)造,裝入整合層數(shù)據(jù)庫。(1)實體識別問題數(shù)據(jù)來源于多個不同的客戶系統(tǒng),對相似客戶可能分別有不同的鍵碼,將它們組合成一條單獨的統(tǒng)計(2)多數(shù)據(jù)源相似屬性不同值的問題不同系統(tǒng)中得到的值存在某些差別,需要給出合理的值數(shù)據(jù)裝載向融合數(shù)據(jù)庫中轉(zhuǎn)移數(shù)據(jù)的過程中存在多個狀況,普通存在三種類型的數(shù)據(jù)裝載:初始裝載:第一次對全部的數(shù)據(jù)庫表進行遷移;增量裝載:根據(jù)需要定時裝載應(yīng)用運行過程中發(fā)生的變化;完全刷新:完全刷新是指完全刷新一種或多個表的內(nèi)容,并重新裝載新的數(shù)據(jù)。在裝載過程中,普通會用到四種方式:裝載:如果要裝載的目的表已經(jīng)存在,并且也有數(shù)據(jù)存在于表中,裝載過程就會抹去已有的數(shù)據(jù),應(yīng)用輸入文獻中新的數(shù)據(jù)。如果裝載的目的是個空
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)職業(yè)健康安全管理與培訓(xùn)服務(wù)合同
- 共享經(jīng)濟平臺運營管理合同
- 數(shù)據(jù)采集與整合分析服務(wù)合同
- 辦公室設(shè)備采購及使用說明
- 智慧城市交通管理與運輸優(yōu)化方案設(shè)計
- 農(nóng)產(chǎn)品銷售質(zhì)量免責(zé)協(xié)議
- 石油鉆機開孔施工方案
- 醫(yī)療行業(yè)醫(yī)療企業(yè)營銷策略方案
- 中山柔性布袋風(fēng)管施工方案
- 智能科技展覽活動免責(zé)承諾書
- 2024新教科版四年級上冊科學(xué)知識點總結(jié)精簡版
- (完整)北京版小學(xué)英語1至6年級詞匯(帶音標(biāo))
- 《朝花夕拾》閱讀推進課 教學(xué)設(shè)計-2023-2024學(xué)年統(tǒng)編版語文七年級下冊
- 項目駐場服務(wù)合同協(xié)議書
- 終止合同告知函 委婉
- 0-3歲嬰幼兒基礎(chǔ)護理智慧樹知到期末考試答案章節(jié)答案2024年杭州師范大學(xué)
- 11SG102-3 鋼吊車梁系統(tǒng)設(shè)計圖平面表示方法和構(gòu)造詳圖
- DL∕T 1901-2018 水電站大壩運行安全應(yīng)急預(yù)案編制導(dǎo)則
- 三年級上冊100道口算練習(xí)題(各類齊全)
- 電動叉車充電區(qū)安全規(guī)程
- 全球與中國電動旋轉(zhuǎn)夾爪市場格局分析及前景深度研究報告2024-2030年
評論
0/150
提交評論