數(shù)據(jù)治理系統(tǒng)實(shí)施方案_第1頁
數(shù)據(jù)治理系統(tǒng)實(shí)施方案_第2頁
數(shù)據(jù)治理系統(tǒng)實(shí)施方案_第3頁
數(shù)據(jù)治理系統(tǒng)實(shí)施方案_第4頁
數(shù)據(jù)治理系統(tǒng)實(shí)施方案_第5頁
已閱讀5頁,還剩65頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)治理系統(tǒng)實(shí)施方案目錄1、數(shù)據(jù)治理行業(yè)背景2、數(shù)據(jù)治理頂層設(shè)計(jì)3、數(shù)據(jù)治理實(shí)施流程4、數(shù)據(jù)治理模型設(shè)計(jì)5、數(shù)據(jù)治理未來展望前言隨著信息技術(shù)的普及,人類產(chǎn)生的數(shù)據(jù)量正在以指數(shù)級(jí)的速度增長(zhǎng),如此海量的數(shù)據(jù)就要求利用新的方法來管理.數(shù)據(jù)治理是將一個(gè)機(jī)構(gòu)(企業(yè)或政府部門)的數(shù)據(jù)作為戰(zhàn)略資產(chǎn)來管理,需要從數(shù)據(jù)收集到處理應(yīng)用的一套管理機(jī)制,以期提高數(shù)據(jù)質(zhì)量,實(shí)現(xiàn)廣泛的數(shù)據(jù)共享,最終實(shí)現(xiàn)數(shù)據(jù)價(jià)值最大化.目前,各行各業(yè)對(duì)大數(shù)據(jù)的研究比較火熱,但對(duì)于大數(shù)據(jù)治理的研究還處于起步階段,一個(gè)組織的正確決策離不開良好的數(shù)據(jù)治理.首先介紹數(shù)據(jù)治理和大數(shù)據(jù)治理的概念、發(fā)展以及應(yīng)用的必要性;其次,對(duì)已有的數(shù)據(jù)治理技術(shù)數(shù)據(jù)規(guī)

2、范、數(shù)據(jù)清洗、數(shù)據(jù)交換和數(shù)據(jù)集成進(jìn)行具體的分析,并介紹了數(shù)據(jù)治理成熟度和數(shù)據(jù)治理框架設(shè)計(jì);在此基礎(chǔ)上,提出了大數(shù)據(jù)HAO治理模型.該模型以支持人類智能(HI)、人工智能(AI)和組織智能(OI)的三者協(xié)同為目標(biāo)。前言大多數(shù)組織不考慮數(shù)據(jù)質(zhì)量對(duì)大數(shù)據(jù)平臺(tái)建設(shè)、分析應(yīng)用等方面的重要影響而盲目投入, 缺乏對(duì)大數(shù)據(jù)資源的整體規(guī)劃和綜合治理, 最終導(dǎo)致一些項(xiàng)目實(shí)施的終止和失敗.項(xiàng)目的失敗和數(shù)據(jù)量的激增, 使得數(shù)據(jù)治理的重要性逐步得到工業(yè)界和學(xué)術(shù)界的共識(shí).隨著國家政策支持以及產(chǎn)業(yè)實(shí)際需求的增長(zhǎng), 如何通過數(shù)據(jù)治理提升組織數(shù)據(jù)管理能力、消除數(shù)據(jù)孤島、挖掘數(shù)據(jù)潛在的價(jià)值, 將成為重點(diǎn)發(fā)展領(lǐng)域.前言數(shù)據(jù)治理的重

3、要前提是建設(shè)統(tǒng)一共享的數(shù)據(jù)平臺(tái), 信息系統(tǒng)的建設(shè)發(fā)展到一定階段, 數(shù)據(jù)資源將成為戰(zhàn)略資產(chǎn), 而有效的數(shù)據(jù)治理才是數(shù)據(jù)資產(chǎn)形成的必要條件.同時(shí), 在數(shù)據(jù)共享的時(shí)代, 享受大數(shù)據(jù)帶來便利的同時(shí), 也帶來如個(gè)人隱私泄露的問題.個(gè)人隱私信息泄露事件頻繁發(fā)生, 使得人們更加注重保護(hù)個(gè)人的隱私信息, 通常采取一些措施, 如在進(jìn)行網(wǎng)站注冊(cè)時(shí)故意填寫虛假信息, 這將會(huì)嚴(yán)重的影響數(shù)據(jù)的質(zhì)量和完整性, 低質(zhì)量的數(shù)據(jù)將導(dǎo)致低質(zhì)量的挖掘結(jié)果.數(shù)據(jù)治理不僅要規(guī)范數(shù)據(jù), 實(shí)現(xiàn)數(shù)據(jù)的價(jià)值和管控風(fēng)險(xiǎn), 還要做到隱私保護(hù).數(shù)據(jù)治理的定義至今為止, 數(shù)據(jù)治理還沒有統(tǒng)一標(biāo)準(zhǔn)的定義.IBM對(duì)于數(shù)據(jù)治理的定義是, 數(shù)據(jù)治理是一種質(zhì)量控

4、制規(guī)程, 用于在管理、使用、改進(jìn)和保護(hù)組織信息的過程中添加新的嚴(yán)謹(jǐn)性和紀(jì)律性.DGI則認(rèn)為, 數(shù)據(jù)治理是指在企業(yè)數(shù)據(jù)管理中分配決策權(quán)和相關(guān)職責(zé).數(shù)據(jù)治理的目標(biāo), 總體來說就是提高數(shù)據(jù)質(zhì)量, 在降低企業(yè)風(fēng)險(xiǎn)的同時(shí), 實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)價(jià)值的最大化, 包括: 構(gòu)筑適配靈活、標(biāo)準(zhǔn)化、模塊化的多源異構(gòu)數(shù)據(jù)資源接入體系; 建設(shè)規(guī)范化、流程化、智能化的數(shù)據(jù)處理體系; 打造數(shù)據(jù)精細(xì)化治理體系、組織的數(shù)據(jù)資源融合分類體系; 構(gòu)建統(tǒng)一調(diào)度、精準(zhǔn)服務(wù)、安全可用的信息共享服務(wù)體系.數(shù)據(jù)治理的職責(zé)數(shù)據(jù)治理提供了將數(shù)據(jù)作為資產(chǎn)進(jìn)行管理所需的指導(dǎo).最后, 我們要把握數(shù)據(jù)治理的核心數(shù)據(jù)資產(chǎn)管理的決策權(quán)分配和指責(zé)分工。由此, 數(shù)據(jù)

5、治理從本質(zhì)上看就是對(duì)一個(gè)機(jī)構(gòu)(企業(yè)或政府部門)的數(shù)據(jù)從收集融合到分析管理和利用進(jìn)行評(píng)估、指導(dǎo)和監(jiān)督(EDM)的過程, 通過提供不斷創(chuàng)新的數(shù)據(jù)服務(wù), 為企業(yè)創(chuàng)造價(jià)值。管理是按照治理機(jī)構(gòu)設(shè)定的方向開展計(jì)劃、建設(shè)、運(yùn)營(yíng)和監(jiān)控活動(dòng)來實(shí)現(xiàn)企業(yè)目標(biāo).所以, 治理過程是對(duì)管理活動(dòng)的評(píng)估、指導(dǎo)和監(jiān)督, 而管理過程是對(duì)治理決策的計(jì)劃、建設(shè)和運(yùn)營(yíng).具體分析:首先, 數(shù)據(jù)治理與數(shù)據(jù)管理包含不同的活動(dòng)即職能, 數(shù)據(jù)治理包括評(píng)估指導(dǎo)和監(jiān)督, 數(shù)據(jù)管理包括計(jì)劃建設(shè)和運(yùn)營(yíng); 其次, 數(shù)據(jù)治理是回答企業(yè)決策的相關(guān)問題并制定數(shù)據(jù)規(guī)范, 而數(shù)據(jù)管理是實(shí)現(xiàn)數(shù)據(jù)治理提出的決策并給予反饋; 最后, 數(shù)據(jù)治理和數(shù)據(jù)管理的責(zé)任主體也是不同

6、的, 前者是董事會(huì), 后者是管理層。數(shù)據(jù)治理新趨勢(shì)目前基本上采用IBM的5V模型描述大數(shù)據(jù)的特征:第1個(gè)V(volume)是數(shù)據(jù)量大, 包括采集、存儲(chǔ)和計(jì)算的量都非常大; 第2個(gè)V(velocity)是數(shù)據(jù)增長(zhǎng)速度快, 處理速度也快, 時(shí)效性要求高; 第3個(gè)V(variety)是種類和來源多樣化, 包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù); 第4個(gè)V(value)是數(shù)據(jù)價(jià)值密度相對(duì)較低, 可以說是浪里淘沙卻又彌足珍貴; 第五個(gè)V(veracity)是各個(gè)數(shù)據(jù)源的質(zhì)量良莠不齊, 需要精心甄別.隨著數(shù)據(jù)量的激增, 可以“5V+I/O”體量、速度、多樣性、數(shù)據(jù)價(jià)值和質(zhì)量以及數(shù)據(jù)在線來概括其特征.這里的“I

7、/O”是指數(shù)據(jù)永遠(yuǎn)在線, 可以隨時(shí)調(diào)用和計(jì)算, 這個(gè)特征是大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)最大的區(qū)別.數(shù)據(jù)治理新趨勢(shì)面對(duì)大數(shù)據(jù)興起帶來的挑戰(zhàn), 為了促進(jìn)大數(shù)據(jù)治理的發(fā)展和變革, 目前業(yè)界比較權(quán)威的大數(shù)據(jù)治理定義是:大數(shù)據(jù)治理是廣義信息治理計(jì)劃的一部分, 它通過協(xié)調(diào)多個(gè)職能部門的目標(biāo), 來制定與大數(shù)據(jù)優(yōu)化、隱私與貨幣化相關(guān)的策略.此定義指出:大數(shù)據(jù)的優(yōu)化、隱私保護(hù)以及商業(yè)價(jià)值是大數(shù)據(jù)治理的重點(diǎn)關(guān)注領(lǐng)域, 大數(shù)據(jù)治理是數(shù)據(jù)治理發(fā)展的一個(gè)新階段, 與數(shù)據(jù)治理相比, 各種需求的解決在大數(shù)據(jù)治理中變得更加重要和富有挑戰(zhàn)性。數(shù)據(jù)治理新趨勢(shì)海量數(shù)據(jù)存儲(chǔ):根據(jù)本地實(shí)際數(shù)據(jù)量級(jí)和存儲(chǔ)處理能力, 結(jié)合集中式或分布式等數(shù)據(jù)資源的存

8、儲(chǔ)方式進(jìn)行構(gòu)建, 為大數(shù)據(jù)平臺(tái)提供PB級(jí)數(shù)據(jù)的存儲(chǔ)及備份能力支撐.云計(jì)算作為一種新型的商業(yè)模式, 它所提供的存儲(chǔ)服務(wù)具有專業(yè)、經(jīng)濟(jì)和按需分配的特點(diǎn), 可以滿足大數(shù)據(jù)的存儲(chǔ)需求;處理效率:大數(shù)據(jù)治理提供多樣化的海量數(shù)據(jù)接入及處理能力, 包括對(duì)各類批量、實(shí)時(shí)、準(zhǔn)實(shí)時(shí)及流式的結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)提供快速的計(jì)算能力和搜索能力, 比如數(shù)據(jù)加載能力130MB/s、億級(jí)數(shù)據(jù)秒級(jí)檢索、百億數(shù)據(jù)實(shí)時(shí)分析10s、千億數(shù)據(jù)離線分析30m等等.對(duì)于大數(shù)據(jù)的搜索能力方面, 為了保證數(shù)據(jù)安全, 大數(shù)據(jù)在云計(jì)算平臺(tái)上的存儲(chǔ)方式一般為密文存儲(chǔ),。數(shù)據(jù)治理新趨勢(shì)數(shù)據(jù)可靠性:圍繞行業(yè)數(shù)據(jù)元相關(guān)標(biāo)準(zhǔn)規(guī)定, 基于行業(yè)元數(shù)據(jù)體系打造大

9、數(shù)據(jù)平臺(tái)采集匯聚、加工整合、共享服務(wù)等全過程的、端到端的數(shù)據(jù)質(zhì)量稽核管控體系, 確保數(shù)據(jù)準(zhǔn)確可靠;數(shù)據(jù)安全性:數(shù)據(jù)價(jià)值是大數(shù)據(jù)平臺(tái)的核心價(jià)值, 所以數(shù)據(jù)的安全是保證平臺(tái)運(yùn)行的基礎(chǔ).數(shù)據(jù)安全包括數(shù)據(jù)存儲(chǔ)的安全、數(shù)據(jù)傳輸過程中的安全, 數(shù)據(jù)的一致性、數(shù)據(jù)訪問安全等.數(shù)據(jù)安全的總體目標(biāo)是保證數(shù)據(jù)的存儲(chǔ)、傳輸、訪問、展示和導(dǎo)出安全.數(shù)據(jù)安全措施主要有數(shù)據(jù)脫敏控制、數(shù)據(jù)加密控制、防拷貝管理、防泄漏管理、數(shù)據(jù)權(quán)限管理、數(shù)據(jù)安全等級(jí)管理等.目錄1、數(shù)據(jù)治理行業(yè)背景2、數(shù)據(jù)治理頂層設(shè)計(jì)3、數(shù)據(jù)治理實(shí)施流程4、數(shù)據(jù)治理模型設(shè)計(jì)5、數(shù)據(jù)治理未來展望數(shù)據(jù)治理成熟度模型一個(gè)機(jī)構(gòu)的數(shù)據(jù)治理能力越高, 所享受到數(shù)據(jù)治理帶

10、來的價(jià)值也會(huì)越多, 如增加收入、減少成本、降低風(fēng)險(xiǎn)等.于是, 很多機(jī)構(gòu)想要準(zhǔn)確地評(píng)估本公司的數(shù)據(jù)治理能力, 可以利用數(shù)據(jù)治理成熟度模型方法, 包括DQM, Dataflux和IBM在內(nèi)的一些組織都開發(fā)了相類似的數(shù)據(jù)治理成熟度模型.DQM數(shù)據(jù)治理成熟度模型(1) 意識(shí)階段:當(dāng)公司數(shù)據(jù)不統(tǒng)一的情況隨處可見, 數(shù)據(jù)質(zhì)量很差卻難以提高, 數(shù)據(jù)模型的梳理難以進(jìn)行時(shí), 公司會(huì)意識(shí)到數(shù)據(jù)治理對(duì)于數(shù)據(jù)平臺(tái)的建設(shè)發(fā)揮著至關(guān)重要的作用, 但并沒有定義數(shù)據(jù)規(guī)則和策略, 基本不采取行動(dòng);(2) 被動(dòng)的反應(yīng)階段:公司在出現(xiàn)數(shù)據(jù)上的問題時(shí), 會(huì)去采取措施解決問題, 但并不會(huì)尋其根源解決根本問題, 也就是說, 公司的行動(dòng)通

11、常是由危機(jī)驅(qū)動(dòng)的.該類反應(yīng)性組織的數(shù)據(jù)仍然是“孤立”存在的, 很少進(jìn)行數(shù)據(jù)共享, 只是努力達(dá)到監(jiān)管的要求;(3) 主動(dòng)的應(yīng)對(duì)階段:處在這個(gè)階段的組織最終可以識(shí)別和解決根本原因, 并可以在問題出現(xiàn)之前將其化解.這個(gè)階段的組織將數(shù)據(jù)視為整個(gè)企業(yè)的戰(zhàn)略資產(chǎn), 而不是像第1階段將數(shù)據(jù)作為一種成本開銷;(4) 成熟的管理階段:這個(gè)階段的組織擁有一組成熟的數(shù)據(jù)流程, 可以識(shí)別出現(xiàn)的問題, 并以專注于數(shù)據(jù)開發(fā)的方式定義策略;(5) 最佳階段:一個(gè)組織把數(shù)據(jù)和數(shù)據(jù)開發(fā)作為人員、流程和技術(shù)的核心競(jìng)爭(zhēng)力.IBM的數(shù)據(jù)治理成熟度模型1) IBM的初始階段是指企業(yè)缺乏數(shù)據(jù)治理流程, 沒有跟蹤管理, 也沒有一個(gè)穩(wěn)定的數(shù)

12、據(jù)治理的環(huán)境, 僅僅只能體現(xiàn)個(gè)人的努力和成果, 工作尚未開展;(2) 基本管理階段是指該階段有了初始的流程定義, 開展了基本的數(shù)據(jù)治理工作, 但仍然存在很多問題;(3) 定義階段是指企業(yè)在相關(guān)成功案例的基礎(chǔ)上積累了相關(guān)的經(jīng)驗(yàn), 形成了部分標(biāo)準(zhǔn)但仍不完善的流程;(4) 量化管理階段的企業(yè)能夠運(yùn)用先進(jìn)的工具對(duì)數(shù)據(jù)治理的效果進(jìn)行量化, 數(shù)據(jù)治理已經(jīng)能取得持續(xù)的效果, 并且能根據(jù)既定的目標(biāo)進(jìn)行一致的績(jī)效評(píng)估;(5) 最佳階段是持續(xù)地關(guān)注流程的優(yōu)化, 達(dá)到了此階段的企業(yè)已經(jīng)具有創(chuàng)新能力, 成為行業(yè)的領(lǐng)導(dǎo)者.數(shù)據(jù)治理框架IBM的數(shù)據(jù)治理委員會(huì)以支撐域、核心域、促成因素和成果這4個(gè)層次來構(gòu)建數(shù)據(jù)治理框架。數(shù)

13、據(jù)治理框架所包含的11個(gè)域并不是相互獨(dú)立運(yùn)行的而是相關(guān)聯(lián)的, 例如, 數(shù)據(jù)的質(zhì)量和安全/隱私要求需要在整個(gè)信息生命周期中進(jìn)行評(píng)估和管理.IBM的數(shù)據(jù)治理框架注重?cái)?shù)據(jù)治理的方法以及過程, IBM數(shù)據(jù)治理委員會(huì)最關(guān)鍵的命題是數(shù)據(jù)治理的成果, 在下面3層的支撐作用下, 組織最終實(shí)現(xiàn)數(shù)據(jù)治理的目標(biāo)提升數(shù)據(jù)價(jià)值.數(shù)據(jù)治理框架從原則、核心域、實(shí)施與評(píng)估這3個(gè)方面來對(duì)大數(shù)據(jù)治理全面地進(jìn)行描述, 企業(yè)數(shù)據(jù)治理應(yīng)該遵循戰(zhàn)略一致、風(fēng)險(xiǎn)管理、運(yùn)營(yíng)合規(guī)以及價(jià)值創(chuàng)造這4個(gè)基本的指導(dǎo)性原則, 治理的核心域或者說叫決策域包括戰(zhàn)略、組織、數(shù)據(jù)生命周期管理、數(shù)據(jù)質(zhì)量管理、大數(shù)據(jù)服務(wù)創(chuàng)新、大數(shù)據(jù)安全以及大數(shù)據(jù)架構(gòu)這7個(gè)部分, 實(shí)

14、施與評(píng)估維度指出大數(shù)據(jù)治理在實(shí)施評(píng)估時(shí)重點(diǎn)需要關(guān)注促成因素、實(shí)施過程、成熟度評(píng)估以及審計(jì)這4個(gè)方面.一個(gè)大數(shù)據(jù)治理組織要在4個(gè)基本原則下對(duì)7個(gè)核心域進(jìn)行數(shù)據(jù)治理, 不斷地推進(jìn)大數(shù)據(jù)治理的工作.數(shù)據(jù)治理成熟度模型數(shù)據(jù)治理框架框架頂部的4個(gè)原則是數(shù)據(jù)治理自上而下的頂層設(shè)計(jì), 對(duì)大數(shù)據(jù)治理的實(shí)施具有指導(dǎo)作用, 它為所有其他的管理決策確定方向.戰(zhàn)略一致是指數(shù)據(jù)治理的戰(zhàn)略要和企業(yè)的整體戰(zhàn)略保持一致, 在制定數(shù)據(jù)治理戰(zhàn)略時(shí)要融合企業(yè)的整體戰(zhàn)略、企業(yè)的文化制度以及業(yè)務(wù)需要, 來繪制數(shù)據(jù)治理實(shí)現(xiàn)藍(lán)圖; 大數(shù)據(jù)的到來不僅伴隨著價(jià)值同時(shí)也會(huì)帶來風(fēng)險(xiǎn), 企業(yè)要保持風(fēng)險(xiǎn)可控有計(jì)劃地對(duì)風(fēng)險(xiǎn)進(jìn)行不定期的評(píng)估工作; 運(yùn)營(yíng)合

15、規(guī)是指企業(yè)在數(shù)據(jù)治理過程中要遵守法律法規(guī)和行業(yè)規(guī)范; 企業(yè)的數(shù)據(jù)治理要不斷地為企業(yè)提供創(chuàng)新服務(wù)創(chuàng)造價(jià)值.數(shù)據(jù)治理框架框架的核心域也可以叫做決策域, 指出數(shù)據(jù)治理需要治理的核心對(duì)象, 下面對(duì)數(shù)據(jù)治理的7個(gè)核心域進(jìn)行一一介紹, 其中:戰(zhàn)略制定要根據(jù)大數(shù)據(jù)治理目標(biāo)來制定, 根據(jù)戰(zhàn)略的制定, 企業(yè)應(yīng)該設(shè)置對(duì)應(yīng)的組織架構(gòu)把戰(zhàn)略實(shí)施落到實(shí)處, 明確各個(gè)部門相關(guān)職責(zé); 數(shù)據(jù)生命周期管理是從數(shù)據(jù)的采集、存儲(chǔ)、集成、分析、歸檔、銷毀的全過程進(jìn)行監(jiān)督和管理, 根據(jù)出現(xiàn)的問題及時(shí)優(yōu)化的過程; 數(shù)據(jù)質(zhì)量管理不僅要保障數(shù)據(jù)的完整性、準(zhǔn)確性、及時(shí)性以及一致性, 而且還包括問題追蹤和合規(guī)性監(jiān)控.大數(shù)據(jù)安全防護(hù) 大數(shù)據(jù)加密技

16、術(shù):對(duì)平臺(tái)中的核心敏感數(shù)據(jù)進(jìn)行加密保護(hù), 結(jié)合訪問控制技術(shù), 利用用戶權(quán)限和數(shù)據(jù)權(quán)限的比較來防止非授權(quán)用戶訪問數(shù)據(jù); 大數(shù)據(jù)安全漏洞檢測(cè):該技術(shù)可以采用白/黑/灰盒測(cè)試或者動(dòng)態(tài)跟蹤分析等方法, 對(duì)大數(shù)據(jù)平臺(tái)和程序進(jìn)行安全漏洞檢測(cè), 減少由于設(shè)計(jì)缺陷或人為因素留下的問題; 威脅預(yù)測(cè)技術(shù):利用大數(shù)據(jù)分析技術(shù), 對(duì)平臺(tái)的各類信息資產(chǎn)進(jìn)行安全威脅檢測(cè), 在攻擊發(fā)生前進(jìn)行識(shí)別預(yù)測(cè)并實(shí)施預(yù)防措施; 大數(shù)據(jù)認(rèn)證技術(shù):利用大數(shù)據(jù)技術(shù)收集用戶行為和設(shè)備行為數(shù)據(jù), 根據(jù)這些數(shù)據(jù)的特征對(duì)使用者進(jìn)行身份判斷;數(shù)據(jù)治理隱私保護(hù) 匿名保護(hù)技術(shù):針對(duì)結(jié)構(gòu)化數(shù)據(jù), 一般采用數(shù)據(jù)發(fā)布匿名保護(hù)技術(shù); 而對(duì)于類似圖的非結(jié)構(gòu)化數(shù)據(jù),

17、 則一般采用社交網(wǎng)絡(luò)匿名保護(hù)技術(shù); 數(shù)據(jù)水印技術(shù):水印技術(shù)一般用于多媒體數(shù)據(jù)的版權(quán)保護(hù), 但多用于靜態(tài)數(shù)據(jù)的保護(hù), 在大數(shù)據(jù)動(dòng)態(tài)性的特點(diǎn)下需要改進(jìn); 數(shù)據(jù)溯源技術(shù):由于數(shù)據(jù)的來源不同, 對(duì)數(shù)據(jù)的來源和傳播進(jìn)行標(biāo)記, 為使用者判斷信息真?zhèn)翁峁┍憷? 數(shù)據(jù)審計(jì)技術(shù):對(duì)數(shù)據(jù)存儲(chǔ)前后的完整性和系統(tǒng)日志信息進(jìn)行審計(jì).數(shù)據(jù)治理成熟度大數(shù)據(jù)架構(gòu)是從系統(tǒng)架構(gòu)層面進(jìn)行描述, 不僅關(guān)心大數(shù)據(jù)的存儲(chǔ), 還關(guān)心大數(shù)據(jù)的管理和分析.我們首先要明確元數(shù)據(jù)和主數(shù)據(jù)的含義:元數(shù)據(jù)是對(duì)數(shù)據(jù)的描述信息, 而主數(shù)據(jù)就是業(yè)務(wù)的實(shí)體信息.所以對(duì)于元數(shù)據(jù)和主數(shù)據(jù)的管理是對(duì)基礎(chǔ)數(shù)據(jù)的管理.數(shù)據(jù)治理不僅要降低企業(yè)成本, 還要應(yīng)用數(shù)據(jù)創(chuàng)新服務(wù)

18、為企業(yè)增加價(jià)值, 大數(shù)據(jù)服務(wù)創(chuàng)新也是大數(shù)據(jù)治理的核心價(jià)值.大數(shù)據(jù)治理的實(shí)施與評(píng)估主要包括促成因素、實(shí)施過程、成熟度評(píng)估和審計(jì):促成因素包括企業(yè)的內(nèi)外部環(huán)境和數(shù)據(jù)治理過程中采用的技術(shù)工具; 大數(shù)據(jù)治理是一個(gè)長(zhǎng)期的、閉環(huán)的、循序漸進(jìn)的過程, 在每一個(gè)階段需要解決不同的問題, 有不同的側(cè)重點(diǎn), 所以應(yīng)該對(duì)數(shù)據(jù)生命周期的每個(gè)階段有一個(gè)很好的規(guī)劃, 這就是實(shí)施過程的內(nèi)涵所在; 成熟度評(píng)估主要是對(duì)數(shù)據(jù)的安全性、一致性、準(zhǔn)確性、可獲取性、可共享性以及大數(shù)據(jù)的存儲(chǔ)和監(jiān)管進(jìn)行評(píng)估; 審計(jì)是第三方對(duì)企業(yè)數(shù)據(jù)治理進(jìn)行評(píng)價(jià)和給出審計(jì)意見, 促進(jìn)有關(guān)數(shù)據(jù)治理工作內(nèi)容的改進(jìn), 對(duì)于企業(yè)的持續(xù)發(fā)展意義重大.在企業(yè)的數(shù)據(jù)治理

19、過程中, 治理主體對(duì)數(shù)據(jù)治理的需求進(jìn)行評(píng)估來設(shè)定數(shù)據(jù)治理的目標(biāo)和發(fā)展方向, 為數(shù)據(jù)治理戰(zhàn)略準(zhǔn)備與實(shí)施提供指導(dǎo), 并全程監(jiān)督數(shù)據(jù)治理的實(shí)施過程.通過對(duì)實(shí)施成果的評(píng)估, 全面了解本公司數(shù)據(jù)治理的水平和狀態(tài), 更好地改進(jìn)和優(yōu)化數(shù)據(jù)治理過程, 以致達(dá)到組織的預(yù)期目標(biāo).目錄1、數(shù)據(jù)治理行業(yè)背景2、數(shù)據(jù)治理頂層設(shè)計(jì)3、數(shù)據(jù)治理實(shí)施流程4、數(shù)據(jù)治理模型設(shè)計(jì)5、數(shù)據(jù)治理未來展望數(shù)據(jù)規(guī)范數(shù)據(jù)治理的處理對(duì)象是海量分布在各個(gè)系統(tǒng)中的數(shù)據(jù), 這些不同系統(tǒng)的數(shù)據(jù)往往存在一定的差異:數(shù)據(jù)代碼標(biāo)準(zhǔn)、數(shù)據(jù)格式、數(shù)據(jù)標(biāo)識(shí)都不一樣, 甚至可能存在錯(cuò)誤的數(shù)據(jù).這就需要建立一套標(biāo)準(zhǔn)化的體系, 對(duì)這些存在差異的數(shù)據(jù)統(tǒng)一標(biāo)準(zhǔn), 符合行業(yè)

20、的規(guī)范, 使得在同樣的指標(biāo)下進(jìn)行分析, 保證數(shù)據(jù)分析結(jié)果的可靠性.例如, 對(duì)于數(shù)據(jù)庫的屬性值而言, 可以建立唯一性規(guī)則、連續(xù)性規(guī)則以及空值規(guī)則等來對(duì)數(shù)據(jù)進(jìn)行檢驗(yàn)和約束:唯一性規(guī)則一般是指為主鍵或其他屬性填寫unique約束, 使得給定屬性的每個(gè)值與該屬性的其他值不同; 連續(xù)性規(guī)則是指屬性的最大值和最小值之間沒有缺失值并且每個(gè)值也是唯一的, 一般用于檢驗(yàn)數(shù); 空值規(guī)則是指使用其他特殊符號(hào)來代替空值, 以及對(duì)于這樣的值應(yīng)該如何處理.數(shù)據(jù)的規(guī)范化能夠提高數(shù)據(jù)的通用性、共享性、可移植性及數(shù)據(jù)分析的可靠性.所以, 在建立數(shù)據(jù)規(guī)范時(shí)要具有通用性, 遵循行業(yè)的或者國家的標(biāo)準(zhǔn).數(shù)據(jù)規(guī)范方法數(shù)據(jù)治理過程中可使用

21、的數(shù)據(jù)規(guī)范方法有:規(guī)則處理引擎、標(biāo)準(zhǔn)代碼庫映射.(1) 規(guī)則處理引擎數(shù)據(jù)治理為每個(gè)數(shù)據(jù)項(xiàng)制定相關(guān)聯(lián)的數(shù)據(jù)元標(biāo)準(zhǔn), 并為每個(gè)標(biāo)準(zhǔn)數(shù)據(jù)元定義一定的處理規(guī)則, 這些處理邏輯包括數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)校驗(yàn)、數(shù)據(jù)拼接賦值等.基于機(jī)器學(xué)習(xí)等技術(shù), 對(duì)數(shù)據(jù)字段進(jìn)行認(rèn)知和識(shí)別, 通過數(shù)據(jù)自動(dòng)對(duì)標(biāo)技術(shù), 解決在數(shù)據(jù)處理過程中遇到的數(shù)據(jù)不規(guī)范的問題. 根據(jù)數(shù)據(jù)項(xiàng)標(biāo)準(zhǔn)定義規(guī)則模板, 圖中“出生日期”的規(guī)則如下所示。 值域稽核規(guī)則:YYYY:MM:DD或YYYY-MM-DD;取值范圍規(guī)則:1900 YYYY =2018, 1 =MM =12, 1 =DD “男”,“男性” = “男”,“male” = “男”,“man” =

22、 “男”,“1” = ”男”使用數(shù)據(jù)轉(zhuǎn)換規(guī)則時(shí)查找數(shù)據(jù)字典, 將所有不同的表示方式統(tǒng)一成一種表示方式.數(shù)據(jù)清洗基本方法從微觀層面來看, 數(shù)據(jù)清洗的對(duì)象分為模式層數(shù)據(jù)清洗和實(shí)例層數(shù)據(jù)清洗.數(shù)據(jù)清洗識(shí)別并修復(fù)的“臟數(shù)據(jù)”主要有錯(cuò)誤數(shù)據(jù)、不完整的數(shù)據(jù)以及相似重復(fù)的數(shù)據(jù), 根據(jù)“臟數(shù)據(jù)”分類, 數(shù)據(jù)清洗也可以分為3類:屬性錯(cuò)誤清洗、不完整數(shù)據(jù)清洗以及相似重復(fù)記錄的清洗, 下面分別對(duì)每種情況進(jìn)行具體分析.屬性錯(cuò)誤檢測(cè)數(shù)據(jù)庫中很多數(shù)據(jù)違反最初定義的完整性約束, 存在大量不一致的、有沖突的數(shù)據(jù)和噪聲數(shù)據(jù), 我們應(yīng)該識(shí)別出這些錯(cuò)誤數(shù)據(jù), 然后進(jìn)行錯(cuò)誤清洗.(1) 屬性錯(cuò)誤檢測(cè)屬性錯(cuò)誤檢測(cè)有基于定量的方法和基于

23、定性的方法. 定量的誤差檢測(cè)一般在離群點(diǎn)檢測(cè)的基礎(chǔ)上采用統(tǒng)計(jì)方法來識(shí)別異常行為和誤差, 離群點(diǎn)檢測(cè)是找出與其他觀察結(jié)果偏離太多的點(diǎn), Aggarwal將關(guān)于離群點(diǎn)檢測(cè)方法又分為6種類型:極值分析、聚類模型、基于距離的模型、基于密度的模型、概率模型、信息理論模型44, 并對(duì)這幾種模型進(jìn)行了詳盡的介紹; 定性的誤差檢測(cè)一般依賴于描述性方法指定一個(gè)合法的數(shù)據(jù)實(shí)例的模式或約束, 因此確定違反這些模式或者約束的就是錯(cuò)誤數(shù)據(jù).描述了定性誤差檢測(cè)技術(shù)在3個(gè)不同方面的不同分類, 下面我們對(duì)圖中提出的3個(gè)問題進(jìn)行分析.屬性錯(cuò)誤檢測(cè)首先, 錯(cuò)誤類型是指要檢測(cè)什么.定性誤差檢測(cè)技術(shù)可以根據(jù)捕捉到的錯(cuò)誤類型來進(jìn)行分類

24、, 目前, 大量的工作都是使用完整性約束來捕獲數(shù)據(jù)庫應(yīng)該遵守的數(shù)據(jù)質(zhì)量規(guī)則, 雖然重復(fù)值也違反了完整性約束, 但是重復(fù)值的識(shí)別與清洗是數(shù)據(jù)清洗的一個(gè)核心。 其次, 自動(dòng)化檢測(cè).根據(jù)人類的參與與否以及參與步驟來對(duì)定性誤差檢測(cè)技術(shù)進(jìn)行分類, 大部分的檢測(cè)過程都是全自動(dòng)化的, 個(gè)別技術(shù)涉及到人類參與; 最后, 商業(yè)智能層是指在哪里檢測(cè).錯(cuò)誤可以發(fā)生在數(shù)據(jù)治理的任何階段, 大部分的檢測(cè)都是針對(duì)原始數(shù)據(jù)庫的, 但是有些錯(cuò)誤只能在數(shù)據(jù)治理后獲得更多的語義和業(yè)務(wù)邏輯才能檢測(cè)出來.不僅可以使用統(tǒng)計(jì)方法來對(duì)屬性錯(cuò)誤進(jìn)行檢測(cè), 使用一些商業(yè)工具也可以進(jìn)行異常檢測(cè), 如數(shù)據(jù)清洗工具以及數(shù)據(jù)審計(jì)工具等.Potters

25、 Wheel是一種公開的數(shù)據(jù)清洗工具, 不僅支持異常檢測(cè), 還支持后面數(shù)據(jù)不一致清洗所用到的數(shù)據(jù)變換功能.屬性錯(cuò)誤清洗屬性錯(cuò)誤清洗包括噪聲數(shù)據(jù)以及不一致的數(shù)據(jù)清洗. 噪聲數(shù)據(jù)的清洗也叫光滑噪聲技術(shù), 主要方法有分箱以及回歸等方法:分箱方法是通過周圍鄰近的值來光滑有序的數(shù)據(jù)值但是只是局部光滑, 回歸方法是使用回歸函數(shù)擬合數(shù)據(jù)來光滑噪聲; 不一致數(shù)據(jù)的清洗在某些情況下可以參照其他材料使用人工進(jìn)行修改, 可以借助知識(shí)工程工具來找到違反限制的數(shù)據(jù), 例如:如果知道數(shù)據(jù)的函數(shù)依賴關(guān)系, 通過函數(shù)關(guān)系修改屬性值.但是大部分的不一致情況都需要進(jìn)行數(shù)據(jù)變換, 即定義一系列的變換糾正數(shù)據(jù), 也有很多商業(yè)工具提供

26、數(shù)據(jù)變換的功能, 例如數(shù)據(jù)遷移工具和ETL工具等, 但是這些功能都是有限的.不完整數(shù)據(jù)清洗有很多情況下會(huì)造成數(shù)據(jù)值的缺失, 例如填寫某些表格時(shí)需要填寫配偶信息, 那沒有結(jié)婚的人就無法填寫此字段, 或者在業(yè)務(wù)處理的稍后步驟提供值, 字段也可能缺失.處理缺失值目前有以下幾種方法. 忽略元組:一般情況下, 當(dāng)此元組缺少多個(gè)屬性值時(shí)常采用此方法, 否則該方法不是很有效.當(dāng)忽略了此條元組之后, 元組內(nèi)剩下的有值的屬性也不能被采用, 這些數(shù)據(jù)可能是有用的; 人工填寫缺失值:這種方法最大的缺點(diǎn)就是需要大量的時(shí)間和人力, 數(shù)據(jù)清理技術(shù)需要做到最少的人工干預(yù), 并且在數(shù)據(jù)集很大、缺失很多屬性值時(shí), 這種方法行不

27、通; 全局變量填充缺失值:使用同一個(gè)常量來填充屬性的缺失值.這種方法雖然使用起來較為簡(jiǎn)單, 但是有時(shí)不可靠.例如, 用統(tǒng)一的常量“NULL”來填寫缺失值, 在后續(xù)的數(shù)據(jù)挖掘中, 可能會(huì)認(rèn)為它們形成了一個(gè)有趣的概念; 中心度量填充缺失值:使用屬性的中心度量來填充缺失值.中心度量是指數(shù)據(jù)分布的“中間”值, 例如均值或者中位數(shù), 數(shù)據(jù)對(duì)稱分布使用均值、傾斜分布使用中位數(shù); 使用最可能的值填充:相當(dāng)于數(shù)值預(yù)測(cè)的概念.回歸分析是數(shù)值預(yù)測(cè)最常用的統(tǒng)計(jì)學(xué)方法, 此外也可以使用貝葉斯形式化方法的基于推理的工具或決策樹歸納確定缺失值.相似重復(fù)記錄清洗相似重復(fù)記錄識(shí)別消除相似重復(fù)記錄, 首先應(yīng)該識(shí)別出相同或不同數(shù)

28、據(jù)集中的兩個(gè)實(shí)體是否指向同一實(shí)體, 這個(gè)過程也叫實(shí)體對(duì)齊或?qū)嶓w匹配.文本相似度度量是實(shí)體對(duì)齊的最基礎(chǔ)方法, 大致分為4種:基于字符的(例如編輯距離、仿射間隙距離、Smith-Waterman距離、Jaro距離度量、Q-gram距離)、基于單詞的(例如Jaccard系數(shù))、混合型(例如softTF-IDF)和基于語義的(例如WordNet).隨著知識(shí)表示學(xué)習(xí)在各個(gè)領(lǐng)域的發(fā)展, 一些研究人員提出了基于表示學(xué)習(xí)的實(shí)體匹配算法, 但均是以TransE系列模型為基礎(chǔ)構(gòu)建的.TransE首次提出基于翻譯的方法, 將關(guān)系解釋為實(shí)體的低維向量之間的翻譯操作, 隨之涌現(xiàn)出一些擴(kuò)展的典型算法, 下面對(duì)這些算法進(jìn)行

29、簡(jiǎn)單介紹.a) MTransE算法:基于轉(zhuǎn)移的方法解決多語言知識(shí)圖譜中的實(shí)體對(duì)齊.首先, 使用TransE對(duì)單個(gè)的知識(shí)圖譜進(jìn)行表示學(xué)習(xí); 接著, 學(xué)習(xí)不同空間的線性變換來進(jìn)行實(shí)體對(duì)齊.轉(zhuǎn)移方法有基于距離的軸校準(zhǔn)、翻譯向量、線性變換這3種.該知識(shí)模型簡(jiǎn)單復(fù)用TransE, 對(duì)于提高實(shí)體對(duì)齊的精度仍存在很大局限;相似重復(fù)記錄清洗b) JAPE算法是針對(duì)跨語言實(shí)體對(duì)齊的聯(lián)合屬性保護(hù)模型, 利用屬性及文字描述信息來增強(qiáng)實(shí)體表示學(xué)習(xí), 分為結(jié)構(gòu)表示、屬性表示.IPTransE算法使用聯(lián)合表示的迭代對(duì)齊, 即使用迭代的方式不斷更新實(shí)體匹配.該方法分為3部分:知識(shí)表示、聯(lián)合表示、迭代對(duì)齊.但這兩種算法都是基

30、于先驗(yàn)實(shí)體匹配, 將不同知識(shí)圖譜中的實(shí)體和關(guān)系嵌入到統(tǒng)一的向量空間, 然后將匹配過程轉(zhuǎn)換成向量表示間距離的過程;c) SEEA算法分為兩部分:屬性三元組學(xué)習(xí)、關(guān)系三元組學(xué)習(xí).該模型能夠自學(xué)習(xí), 不需要對(duì)齊種子的輸入.每次迭代, 根據(jù)前面迭代過程所得到的表示模型, 計(jì)算實(shí)體向量間的余弦相似度.并選取前對(duì)添加到關(guān)系三元組中更新本次表示模型, 直到收斂.收斂條件:無法選取前對(duì)實(shí)體對(duì).實(shí)體對(duì)齊方法不僅應(yīng)用于數(shù)據(jù)清洗過程中, 對(duì)后續(xù)的數(shù)據(jù)集成以及數(shù)據(jù)挖掘也起到重要的作用.除此之外, 也有很多重復(fù)檢測(cè)的工具可以使用, 如Febrl系統(tǒng)、TAILOR工具、WHIRL系統(tǒng)、BigMatch等, 但是很多匹配算

31、法只適用于英文不適合中文, 所以中文數(shù)據(jù)清洗工具的開發(fā)還需要進(jìn)一步的研究.相似重復(fù)記錄清洗 相似重復(fù)記錄的清洗一般都采用先排序再合并的思想, 代表算法有優(yōu)先隊(duì)列算法、近鄰排序算法、多趟近鄰排序算法.優(yōu)先隊(duì)列算法比較復(fù)雜, 先將表中所有記錄進(jìn)行排序后, 排好的記錄被優(yōu)先隊(duì)列進(jìn)行順序掃描并動(dòng)態(tài)地將它們聚類, 減少記錄比較的次數(shù), 匹配效率得以提高, 該算法還可以很好地適應(yīng)數(shù)據(jù)規(guī)模的變化.近鄰排序算法是相似重復(fù)記錄清洗的經(jīng)典算法, 近鄰排序算法是采用滑動(dòng)窗口機(jī)制進(jìn)行相似重復(fù)記錄的匹配, 每次只對(duì)進(jìn)入窗口的w條記錄進(jìn)行比較, 只需要比較wN次, 提高了匹配的效率.但是它有兩個(gè)很大的缺點(diǎn):首先是該算法的

32、優(yōu)劣對(duì)排序關(guān)鍵字的依賴性很大, 如果排序關(guān)鍵字選擇得不好, 相似的兩條記錄一直沒有出現(xiàn)在滑動(dòng)窗口上就無法識(shí)別相似重復(fù)記錄, 導(dǎo)致很多條相似重復(fù)記錄得不到清洗; 其次是滑動(dòng)窗口的值w也很難把控,w值太大可能會(huì)產(chǎn)生沒必要的比較次數(shù),w值太小又可能會(huì)遺漏重復(fù)記錄的匹配.多趟近鄰排序算法是針對(duì)近鄰排序算法進(jìn)行改進(jìn)的算法, 它是進(jìn)行多次近鄰排序算法每次選取的滑動(dòng)窗口值可以不同, 且每次匹配的相似記錄采用傳遞閉包, 雖然可以減少很多遺漏記錄, 但也會(huì)產(chǎn)生誤識(shí)別的情況.這兩個(gè)算法的滑動(dòng)窗口值和屬性值的權(quán)重都是固定的, 所以也有一些學(xué)者提出基于可變的滑動(dòng)窗口值和不同權(quán)重的屬性值來進(jìn)行相似重復(fù)記錄的清洗.以上算

33、法都有一些缺陷, 如都要進(jìn)行排序, 多次的外部排序會(huì)引起輸入/輸出代價(jià)過大; 其次, 由于字符位置敏感性, 排序時(shí)相似重復(fù)的記錄不一定排在鄰近的位置, 對(duì)算法的準(zhǔn)確性有影響.數(shù)據(jù)交換數(shù)據(jù)交換是將符合一個(gè)源模式的數(shù)據(jù)轉(zhuǎn)換為符合目標(biāo)模式數(shù)據(jù)的問題, 該目標(biāo)模式盡可能準(zhǔn)確并且以與各種依賴性一致的方式反映源數(shù)據(jù)。早期數(shù)據(jù)交換的一個(gè)主要方向是在關(guān)系模式之間從數(shù)據(jù)交換的上下文中尋求一階查詢的語義和復(fù)雜性. 2008年, Afrati等人開始系統(tǒng)地研究數(shù)據(jù)交換中聚合查詢的語義和復(fù)雜性, 給出一些概念并做出了技術(shù)貢獻(xiàn).在一篇具有里程碑意義的論文中, Fagin等人提出了一種純粹邏輯的方法來完成這項(xiàng)任務(wù).從這時(shí)

34、起, 在數(shù)據(jù)庫研究界已經(jīng)對(duì)數(shù)據(jù)交換進(jìn)行了深入研究.近年, Xiao等人指出, 跨越不同實(shí)體的數(shù)據(jù)交換是實(shí)現(xiàn)智能城市的重要手段, 設(shè)計(jì)了一種新穎的后端計(jì)算架構(gòu)數(shù)據(jù)隱私保護(hù)自動(dòng)化架構(gòu)(DPA), 促進(jìn)在線隱私保護(hù)處理自動(dòng)化, 以無中斷的方式與公司的主要應(yīng)用系統(tǒng)無縫集成, 允許適應(yīng)靈活的模型和交叉的服務(wù)質(zhì)量保證實(shí)體數(shù)據(jù)交換.隨著云計(jì)算和Web服務(wù)的快速發(fā)展, Wu等人將基于特征的數(shù)據(jù)交換應(yīng)用于基于云的設(shè)計(jì)與制造的協(xié)作產(chǎn)品開發(fā)上, 并提出了一種面向服務(wù)的基于云的設(shè)計(jì)和制造數(shù)據(jù)交換架構(gòu).完善合理的數(shù)據(jù)交換服務(wù)建設(shè), 關(guān)系到大數(shù)據(jù)平臺(tái)是否具有高效、穩(wěn)定的處理數(shù)據(jù)能力.數(shù)據(jù)交換的實(shí)現(xiàn)模式數(shù)據(jù)整合是平臺(tái)建設(shè)的

35、基礎(chǔ), 涉及到多種數(shù)據(jù)的整合手段, 其中, 數(shù)據(jù)交換、消息推送、通過服務(wù)總線實(shí)現(xiàn)應(yīng)用對(duì)接等都需要定義一套通用的數(shù)據(jù)交換標(biāo)準(zhǔn), 基于此標(biāo)準(zhǔn)實(shí)現(xiàn)各個(gè)系統(tǒng)間數(shù)據(jù)的共享和交換, 并支持未來更多系統(tǒng)與平臺(tái)的對(duì)接.平臺(tái)數(shù)據(jù)交換標(biāo)準(zhǔn)的設(shè)計(jì), 充分借鑒國內(nèi)外現(xiàn)有的各類共享交換系統(tǒng)的建設(shè)經(jīng)驗(yàn), 采用基于可擴(kuò)展標(biāo)記語言(XML)的信息交換框架.XML定義了一組規(guī)則, 用于以人類可讀和機(jī)器可讀的格式編碼文檔, 它由國際萬維網(wǎng)聯(lián)盟設(shè)計(jì).XML文檔格式良好且結(jié)構(gòu)化, 因此它們更易于解析和編寫.由于它具有簡(jiǎn)化、跨平臺(tái)、可擴(kuò)展性和自我描述等特征, XML成為通過Internet進(jìn)行數(shù)據(jù)傳輸?shù)耐ㄓ谜Z言.XML關(guān)心的重點(diǎn)是數(shù)據(jù)

36、, 而其他的因素如數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)類型、表現(xiàn)以及操作, 都是有其他的以XML為核心的相關(guān)技術(shù)完成.基于基本的XML語言, 通過定義一套數(shù)據(jù)元模型(語義字典)和一套基于XML Schema的描述規(guī)范來實(shí)現(xiàn)對(duì)信息的共同理解, 基于此套交換標(biāo)準(zhǔn)完成數(shù)據(jù)的交換.數(shù)據(jù)交換概括地說有以下兩種實(shí)現(xiàn)模式. 協(xié)議式交換協(xié)議式數(shù)據(jù)交換是源系統(tǒng)和目標(biāo)系統(tǒng)之間定義一個(gè)數(shù)據(jù)交換交互協(xié)議, 遵循制定的協(xié)議, 通過將一個(gè)系統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)移植到另一個(gè)系統(tǒng)的數(shù)據(jù)庫來完成數(shù)據(jù)交換.Tyagi等人于2017年提出一種通用的交互式通信協(xié)議, 稱為遞歸數(shù)據(jù)交換協(xié)議(RDE), 它可以獲得各方觀察到的任何數(shù)據(jù)序列, 并提供單獨(dú)的性能序列保

37、證; 并于2018年提出了一種新的數(shù)據(jù)交換交互協(xié)議, 它可以逐步增加通信大小, 直到任務(wù)完成, 還導(dǎo)出了基于將數(shù)據(jù)交換問題與秘密密鑰協(xié)議問題相關(guān)聯(lián)的最小位數(shù)的下限.這種交換模式的優(yōu)點(diǎn)在于:它無需對(duì)底層數(shù)據(jù)庫的應(yīng)用邏輯和數(shù)據(jù)結(jié)構(gòu)做任何改變, 可以直接用于開發(fā)在數(shù)據(jù)訪問層.但是編程人員基于底層數(shù)據(jù)庫進(jìn)行直接修改也是這種模式的缺點(diǎn)之一, 編程人員首先要對(duì)雙方數(shù)據(jù)庫的底層設(shè)計(jì)有清楚的了解, 需要承擔(dān)較高的安全風(fēng)險(xiǎn); 其次, 編程人員在修改原有的數(shù)據(jù)訪問層時(shí)需要保證數(shù)據(jù)的完整性和一致性.此外, 這種模式的另一個(gè)缺點(diǎn)在于系統(tǒng)的可重用性很低, 每次對(duì)于不同應(yīng)用的數(shù)據(jù)交換都需要做不同的設(shè)計(jì).標(biāo)準(zhǔn)化交換標(biāo)準(zhǔn)化數(shù)

38、據(jù)交換是指在網(wǎng)絡(luò)環(huán)境中建立一個(gè)可供多方共享的方法作為統(tǒng)一的標(biāo)準(zhǔn), 使得跨平臺(tái)應(yīng)用程序之間實(shí)現(xiàn)數(shù)據(jù)共享和交換. 為了解決雙方無法溝通的困境, 雙方約定每次見面交易都使用普通話這種標(biāo)準(zhǔn)來交流, 當(dāng)下次即使遇到全國各地的人, 也可以使用普通話來交流, 而且大家只需要熟悉普通話的語法規(guī)則即可, 不需要精通各地的語言.這種交換模式的優(yōu)點(diǎn)顯而易見, 系統(tǒng)對(duì)于不同的應(yīng)用只需要提供一個(gè)多方共享的標(biāo)準(zhǔn)即可, 具有很高的可重用性.實(shí)現(xiàn)基于XML的數(shù)據(jù)交換平臺(tái)確實(shí)需要一系列的努力和資源來創(chuàng)建/管理交換, 但它不是對(duì)現(xiàn)有系統(tǒng)的大規(guī)模改變而是有限的改變, 所以使用基于XML數(shù)據(jù)交換的關(guān)鍵優(yōu)勢(shì)是信息共享的組織不需要更改其

39、現(xiàn)有的數(shù)據(jù)存儲(chǔ)或標(biāo)準(zhǔn), 使得異構(gòu)系統(tǒng)之間可以實(shí)現(xiàn)最大限度的協(xié)同, 并能在現(xiàn)有數(shù)據(jù)交換應(yīng)用的基礎(chǔ)上擴(kuò)展更多新的應(yīng)用, 從而對(duì)不同企業(yè)間發(fā)展應(yīng)用集成起到促進(jìn)作用.數(shù)據(jù)集成信息化建設(shè)初期, 由于缺乏有效合理的規(guī)劃和協(xié)作, 信息孤島的現(xiàn)象普遍存在, 大量的冗余數(shù)據(jù)和垃圾數(shù)據(jù)存在于信息系統(tǒng)中, 數(shù)據(jù)質(zhì)量得不到保證, 信息的利用效率明顯低下.為了解決這個(gè)問題, 數(shù)據(jù)集成技術(shù)應(yīng)運(yùn)而生.數(shù)據(jù)集成技術(shù)是協(xié)調(diào)數(shù)據(jù)源之間不匹配問題, 將異構(gòu)、分布、自治的數(shù)據(jù)集成在一起, 為用戶提供單一視圖, 使得可以透明地訪問數(shù)據(jù)源.系統(tǒng)數(shù)據(jù)集成主要指異構(gòu)數(shù)據(jù)集成, 重點(diǎn)是數(shù)據(jù)標(biāo)準(zhǔn)化和元數(shù)據(jù)中心的建立. 數(shù)據(jù)標(biāo)準(zhǔn)化:數(shù)據(jù)標(biāo)準(zhǔn)化的作

40、用在于提高系統(tǒng)的可移植性、互操作性、可伸縮性、通用性和共享性.數(shù)據(jù)集成依據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)包括屬性數(shù)據(jù)標(biāo)準(zhǔn)、網(wǎng)絡(luò)應(yīng)用標(biāo)準(zhǔn)和系統(tǒng)元數(shù)據(jù)標(biāo)準(zhǔn).名詞術(shù)語詞典、數(shù)據(jù)文件屬性字典、菜單詞典及各類代碼表等為系統(tǒng)公共數(shù)據(jù), 在此基礎(chǔ)上促成系統(tǒng)間的術(shù)語、名稱、代碼的統(tǒng)一, 促成屬性數(shù)據(jù)統(tǒng)一的維護(hù)管理;數(shù)據(jù)集成元數(shù)據(jù)中心的建立:在建立元數(shù)據(jù)標(biāo)準(zhǔn)的基礎(chǔ)上, 統(tǒng)一進(jìn)行數(shù)據(jù)抽取、格式轉(zhuǎn)換、重組、儲(chǔ)存, 實(shí)現(xiàn)對(duì)各業(yè)務(wù)系統(tǒng)數(shù)據(jù)的整合.經(jīng)處理的數(shù)據(jù)保存在工作數(shù)據(jù)庫中, 庫中所有屬性數(shù)據(jù)文件代碼及各數(shù)據(jù)文件中的屬性項(xiàng)代碼均按標(biāo)準(zhǔn)化要求編制, 在整個(gè)系統(tǒng)中保持唯一性, 可以迅速、準(zhǔn)確定位.各屬性項(xiàng)的文字值及代碼, 也都通過詞庫建設(shè)進(jìn)

41、行標(biāo)準(zhǔn)化處理, 實(shí)現(xiàn)一詞一義.建立元數(shù)據(jù)中心的基本流程如圖:數(shù)據(jù)集成方法數(shù)據(jù)規(guī)范和數(shù)據(jù)交換的完成, 對(duì)數(shù)據(jù)集成的有效進(jìn)行提供了很大的幫助, 但在數(shù)據(jù)集成時(shí)仍然需要解決以下難題.首先是異構(gòu)性.數(shù)據(jù)異構(gòu)分為兩個(gè)方面:其一, 不同數(shù)據(jù)源數(shù)據(jù)的結(jié)構(gòu)不同, 此為結(jié)構(gòu)性異構(gòu); 其二, 不同數(shù)據(jù)源的數(shù)據(jù)項(xiàng)在含義上有差別, 此為語義性異構(gòu); 其次是數(shù)據(jù)源的異地分布性; 最后是數(shù)據(jù)源的自治性.數(shù)據(jù)源可以改變自身的結(jié)構(gòu)和數(shù)據(jù), 這就要求數(shù)據(jù)集成系統(tǒng)應(yīng)具有魯棒性.為了解決這些難題, 現(xiàn)在有模式集成方法、數(shù)據(jù)復(fù)制方法和基于本體的方法這幾種典型的數(shù)據(jù)集成方法:(1) 模式集成方法模式集成方法為用戶提供統(tǒng)一的查詢接口,

42、通過中介模式訪問實(shí)時(shí)數(shù)據(jù), 該模式直接從原始數(shù)據(jù)庫檢索信息該方法的實(shí)現(xiàn)共分為4個(gè)主要步驟:源數(shù)據(jù)庫的發(fā)現(xiàn)、查詢接口模式的抽取、領(lǐng)域源數(shù)據(jù)庫的分類和全局查詢接口集成。數(shù)據(jù)集成方法模式集成方法依賴于中介模式與原始源模式之間的映射, 并將查詢轉(zhuǎn)換為專用查詢, 以匹配原始數(shù)據(jù)庫的模式.這種映射可以用兩種方式指定:作為從中介模式中的實(shí)體到原始數(shù)據(jù)源中的實(shí)體的映射全局視圖(GAV)方法, 或者作為從原始源中的實(shí)體到中介模式本地視圖(LAV)方法的映射.后一種方法需要更復(fù)雜的推理來解析對(duì)中介模式的查詢, 但是可以更容易地將新數(shù)據(jù)源添加到穩(wěn)定中介模式中.模式集成方法的優(yōu)點(diǎn)是為用戶提供了統(tǒng)一的訪問接口和全局?jǐn)?shù)據(jù)

43、視圖; 缺點(diǎn)是用戶使用該方法時(shí)經(jīng)常需要訪問多個(gè)數(shù)據(jù)源, 存在很大的網(wǎng)絡(luò)延遲, 數(shù)據(jù)源之間沒有進(jìn)行交互.如果被集成的數(shù)據(jù)源規(guī)模比較大且數(shù)據(jù)實(shí)時(shí)性比較高更新頻繁, 則一般采用模式集成方法.數(shù)據(jù)復(fù)制方法數(shù)據(jù)復(fù)制方法是將用戶可能用到的其他數(shù)據(jù)源的數(shù)據(jù)預(yù)先復(fù)制到統(tǒng)一的數(shù)據(jù)源中, 用戶使用時(shí), 僅需訪問單一的數(shù)據(jù)源或少量的數(shù)據(jù)源.數(shù)據(jù)復(fù)制方法提供了緊密耦合的體系結(jié)構(gòu), 數(shù)據(jù)已經(jīng)在單個(gè)可查詢的存儲(chǔ)庫中進(jìn)行物理協(xié)調(diào), 因此解析查詢通常需要很少的時(shí)間, 系統(tǒng)處理用戶請(qǐng)求的效率顯著提升; 但在使用該方法時(shí), 數(shù)據(jù)復(fù)制需要一定的時(shí)間, 所以數(shù)據(jù)的實(shí)時(shí)一致性不好保證.數(shù)據(jù)倉庫方法是數(shù)據(jù)復(fù)制方法的一種常見方式, 該方法

44、的過程是:先提取各個(gè)異構(gòu)數(shù)據(jù)源中的數(shù)據(jù), 然后轉(zhuǎn)換、加載到數(shù)據(jù)倉庫中, 用戶在訪問數(shù)據(jù)倉庫查找數(shù)據(jù)時(shí), 類似訪問普通數(shù)據(jù)庫.對(duì)于經(jīng)常更新的數(shù)據(jù)集, 數(shù)據(jù)倉庫方法不太可行, 需要連續(xù)重新執(zhí)行提取、轉(zhuǎn)換、加載(ETL)過程以進(jìn)行同步.根據(jù)數(shù)據(jù)復(fù)制方法的優(yōu)缺點(diǎn)可以看出:數(shù)據(jù)源相對(duì)穩(wěn)定或者用戶查詢模式已知或有限的時(shí)候, 適合采用數(shù)據(jù)復(fù)制方法.數(shù)據(jù)倉庫方法示意圖如圖所示.數(shù)據(jù)復(fù)制方法目前我們想要設(shè)計(jì)一個(gè)應(yīng)用程序, 該應(yīng)用程序的功能為用戶可以利用該程序查詢到自己所在城市的任何信息, 包括天氣信息、人口統(tǒng)計(jì)信息等.傳統(tǒng)的思想是, 把所有這些信息保存在一個(gè)后臺(tái)數(shù)據(jù)庫中, 但是這種廣度的信息收集起來難度大且成本

45、高, 即使收集到這些資源, 它們也可能會(huì)復(fù)制已有數(shù)據(jù)庫中的數(shù)據(jù), 不具備實(shí)時(shí)性.此時(shí), 我們選擇模式集成方法解決該應(yīng)用程序面臨的問題, 讓開發(fā)人員構(gòu)建虛擬模式全局模式, 然后對(duì)各個(gè)單獨(dú)的數(shù)據(jù)源進(jìn)行“包裝”, 這些“包裝”只是將本地查詢結(jié)果(實(shí)際上是由相對(duì)應(yīng)的網(wǎng)站或數(shù)據(jù)庫返回的結(jié)果)轉(zhuǎn)換為易于處理的表單, 當(dāng)使用該應(yīng)用程序的用戶查詢數(shù)據(jù)時(shí), 看似是本地查詢, 實(shí)則數(shù)據(jù)集成系統(tǒng)會(huì)將此查詢轉(zhuǎn)換為相應(yīng)數(shù)據(jù)源上的相應(yīng)查詢.最后, 虛擬數(shù)據(jù)庫將這些查詢的結(jié)果反饋給用戶.如果我們選擇使用數(shù)據(jù)復(fù)制方法來解決此問題的話, 首先, 我們需要把所有的數(shù)據(jù)信息復(fù)制到數(shù)據(jù)倉庫中, 每當(dāng)數(shù)據(jù)(如天氣情況)有所更新時(shí), 我

46、們也要手動(dòng)集成到系統(tǒng)中.所以, 兩種數(shù)據(jù)集成方法的使用需根據(jù)具體的情形來選擇. 基于本體的數(shù)據(jù)集成根據(jù)上述介紹, 數(shù)據(jù)異構(gòu)有兩個(gè)方面:前兩種方法都是針對(duì)解決結(jié)構(gòu)異構(gòu)而提出的解決方案; 而本體技術(shù)致力于解決語義性異構(gòu)問題.語義集成過程中, 一般通過沖突檢測(cè)、真值發(fā)現(xiàn)等技術(shù)來解決沖突, 常見的沖突解決策略有如下3類:沖突忽略、沖突避免和沖突消解.沖突忽略是人工干預(yù)把沖突留給用戶解決; 沖突避免是對(duì)所有的情形使用統(tǒng)一的約束規(guī)則; 沖突消解又分為3類:一是基于投票的方法采用簡(jiǎn)單的少數(shù)服從多數(shù)策略; 二是基于質(zhì)量的方法, 此方法在第1種方法的基礎(chǔ)上考慮數(shù)據(jù)來源的可信度; 三是基于關(guān)系的方法, 此方法在第

47、2種方法的基礎(chǔ)上考慮不同數(shù)據(jù)來源之間的關(guān)系. 基于本體的數(shù)據(jù)集成本體是對(duì)某一領(lǐng)域中的概念及其之間關(guān)系的顯式描述, 基于本體的數(shù)據(jù)集成系統(tǒng)允許用戶通過對(duì)本體描述的全局模式的查詢來有效地訪問位于多個(gè)數(shù)據(jù)源中的數(shù)據(jù).陶春等人針對(duì)基于本體的XML數(shù)據(jù)集成的查詢處理提出了優(yōu)化算法.目前, 基于本體技術(shù)的數(shù)據(jù)集成方法有3種, 分別為:單本體方法、多本體方法和混合本體方法.由于單本體方法所有的數(shù)據(jù)源都要與共享詞匯庫全局本體關(guān)聯(lián), 應(yīng)用范圍很小, 且數(shù)據(jù)源的改變會(huì)影響全局本體的改變.為了解決單本體方法的缺陷, 多本體方法應(yīng)運(yùn)而生.多本體方法的每個(gè)數(shù)據(jù)源都由各自的本體進(jìn)行描述, 它的優(yōu)點(diǎn)是數(shù)據(jù)源的改變對(duì)本體的影

48、響小, 但是由于缺少共享的詞匯庫, 不同的數(shù)據(jù)源之間難以比較, 數(shù)據(jù)源之間的共享性和交互性相對(duì)較差.混合本體方法的提出, 解決了單本體和多本體方法的不足:混合本體的每個(gè)數(shù)據(jù)源的語義都由它們各自的本體進(jìn)行描述, 解決了單本體方法的缺點(diǎn).混合本體還建立了一個(gè)全局共享詞匯庫以解決多本體方法的缺點(diǎn), 如圖所示.混合本體方法有效地解決了數(shù)據(jù)源間的語義異構(gòu)問題.數(shù)據(jù)復(fù)制方法目前我們想要設(shè)計(jì)一個(gè)應(yīng)用程序, 該應(yīng)用程序的功能為用戶可以利用該程序查詢到自己所在城市的任何信息, 包括天氣信息、人口統(tǒng)計(jì)信息等.傳統(tǒng)的思想是, 把所有這些信息保存在一個(gè)后臺(tái)數(shù)據(jù)庫中, 但是這種廣度的信息收集起來難度大且成本高, 即使收

49、集到這些資源, 它們也可能會(huì)復(fù)制已有數(shù)據(jù)庫中的數(shù)據(jù), 不具備實(shí)時(shí)性.此時(shí), 我們選擇模式集成方法解決該應(yīng)用程序面臨的問題, 讓開發(fā)人員構(gòu)建虛擬模式全局模式, 然后對(duì)各個(gè)單獨(dú)的數(shù)據(jù)源進(jìn)行“包裝”, 這些“包裝”只是將本地查詢結(jié)果(實(shí)際上是由相對(duì)應(yīng)的網(wǎng)站或數(shù)據(jù)庫返回的結(jié)果)轉(zhuǎn)換為易于處理的表單, 當(dāng)使用該應(yīng)用程序的用戶查詢數(shù)據(jù)時(shí), 看似是本地查詢, 實(shí)則數(shù)據(jù)集成系統(tǒng)會(huì)將此查詢轉(zhuǎn)換為相應(yīng)數(shù)據(jù)源上的相應(yīng)查詢.最后, 虛擬數(shù)據(jù)庫將這些查詢的結(jié)果反饋給用戶.如果我們選擇使用數(shù)據(jù)復(fù)制方法來解決此問題的話, 首先, 我們需要把所有的數(shù)據(jù)信息復(fù)制到數(shù)據(jù)倉庫中, 每當(dāng)數(shù)據(jù)(如天氣情況)有所更新時(shí), 我們也要手動(dòng)集

50、成到系統(tǒng)中.所以, 兩種數(shù)據(jù)集成方法的使用需根據(jù)具體的情形來選擇.數(shù)據(jù)復(fù)制方法目前我們想要設(shè)計(jì)一個(gè)應(yīng)用程序, 該應(yīng)用程序的功能為用戶可以利用該程序查詢到自己所在城市的任何信息, 包括天氣信息、人口統(tǒng)計(jì)信息等.傳統(tǒng)的思想是, 把所有這些信息保存在一個(gè)后臺(tái)數(shù)據(jù)庫中, 但是這種廣度的信息收集起來難度大且成本高, 即使收集到這些資源, 它們也可能會(huì)復(fù)制已有數(shù)據(jù)庫中的數(shù)據(jù), 不具備實(shí)時(shí)性.此時(shí), 我們選擇模式集成方法解決該應(yīng)用程序面臨的問題, 讓開發(fā)人員構(gòu)建虛擬模式全局模式, 然后對(duì)各個(gè)單獨(dú)的數(shù)據(jù)源進(jìn)行“包裝”, 這些“包裝”只是將本地查詢結(jié)果(實(shí)際上是由相對(duì)應(yīng)的網(wǎng)站或數(shù)據(jù)庫返回的結(jié)果)轉(zhuǎn)換為易于處理的

51、表單, 當(dāng)使用該應(yīng)用程序的用戶查詢數(shù)據(jù)時(shí), 看似是本地查詢, 實(shí)則數(shù)據(jù)集成系統(tǒng)會(huì)將此查詢轉(zhuǎn)換為相應(yīng)數(shù)據(jù)源上的相應(yīng)查詢.最后, 虛擬數(shù)據(jù)庫將這些查詢的結(jié)果反饋給用戶.如果我們選擇使用數(shù)據(jù)復(fù)制方法來解決此問題的話, 首先, 我們需要把所有的數(shù)據(jù)信息復(fù)制到數(shù)據(jù)倉庫中, 每當(dāng)數(shù)據(jù)(如天氣情況)有所更新時(shí), 我們也要手動(dòng)集成到系統(tǒng)中.所以, 兩種數(shù)據(jù)集成方法的使用需根據(jù)具體的情形來選擇.目錄1、數(shù)據(jù)治理行業(yè)背景2、數(shù)據(jù)治理頂層設(shè)計(jì)3、數(shù)據(jù)治理實(shí)施流程4、數(shù)據(jù)治理模型設(shè)計(jì)5、數(shù)據(jù)治理未來展望數(shù)據(jù)治理模型設(shè)計(jì)(1) 建立全面、動(dòng)態(tài)、可配置的數(shù)據(jù)接入機(jī)制, 滿足數(shù)據(jù)采集、數(shù)據(jù)匯聚、任務(wù)配置、任務(wù)調(diào)度、數(shù)據(jù)加密

52、、斷點(diǎn)續(xù)傳等需求;(2) 建立標(biāo)準(zhǔn)化的數(shù)據(jù)處理流程, 形成面向數(shù)據(jù)內(nèi)容的數(shù)據(jù)規(guī)范、清洗、關(guān)聯(lián)、比對(duì)、標(biāo)識(shí)等轉(zhuǎn)換處理規(guī)范模式, 為一個(gè)組織的數(shù)據(jù)融合建庫提供支撐;(3) 統(tǒng)籌建設(shè)多元集成、融合建庫的數(shù)據(jù)組織模式, 按照業(yè)務(wù)類型、敏感程度、隱私內(nèi)容等關(guān)鍵要素分級(jí)分類推進(jìn)云建庫和存儲(chǔ)管理, 采用特征標(biāo)簽、歸一集成等多種手段實(shí)現(xiàn)不同來源的數(shù)據(jù)資源關(guān)聯(lián)融合;(4) 構(gòu)建知識(shí)圖譜分類, 建設(shè)多渠道、多維度的數(shù)據(jù)服務(wù)模式, 面向使用者提供查詢檢索、比對(duì)排序等基礎(chǔ)數(shù)據(jù)服務(wù), 面向?qū)I(yè)人員提供挖掘分析、專家建模等智能數(shù)據(jù)服務(wù);(5)HI和AI通過知識(shí)圖譜和OI實(shí)現(xiàn)交互和協(xié)同, 存取和共享治理過的集成數(shù)據(jù), 并利

53、用大數(shù)據(jù)處理模型(以HACE定理開始的三級(jí)結(jié)構(gòu), 如圖所示)、云計(jì)算和霧計(jì)算機(jī)制來實(shí)現(xiàn)數(shù)據(jù)服務(wù)和隱私保護(hù).數(shù)據(jù)治理模型設(shè)計(jì)(1) 建立全面、動(dòng)態(tài)、可配置的數(shù)據(jù)接入機(jī)制, 滿足數(shù)據(jù)采集、數(shù)據(jù)匯聚、任務(wù)配置、任務(wù)調(diào)度、數(shù)據(jù)加密、斷點(diǎn)續(xù)傳等需求;(2) 建立標(biāo)準(zhǔn)化的數(shù)據(jù)處理流程, 形成面向數(shù)據(jù)內(nèi)容的數(shù)據(jù)規(guī)范、清洗、關(guān)聯(lián)、比對(duì)、標(biāo)識(shí)等轉(zhuǎn)換處理規(guī)范模式, 為一個(gè)組織的數(shù)據(jù)融合建庫提供支撐;(3) 統(tǒng)籌建設(shè)多元集成、融合建庫的數(shù)據(jù)組織模式, 按照業(yè)務(wù)類型、敏感程度、隱私內(nèi)容等關(guān)鍵要素分級(jí)分類推進(jìn)云建庫和存儲(chǔ)管理, 采用特征標(biāo)簽、歸一集成等多種手段實(shí)現(xiàn)不同來源的數(shù)據(jù)資源關(guān)聯(lián)融合;(4) 構(gòu)建知識(shí)圖譜分類,

54、建設(shè)多渠道、多維度的數(shù)據(jù)服務(wù)模式, 面向使用者提供查詢檢索、比對(duì)排序等基礎(chǔ)數(shù)據(jù)服務(wù), 面向?qū)I(yè)人員提供挖掘分析、專家建模等智能數(shù)據(jù)服務(wù);(5)HI和AI通過知識(shí)圖譜和OI實(shí)現(xiàn)交互和協(xié)同, 存取和共享治理過的集成數(shù)據(jù), 并利用大數(shù)據(jù)處理模型(以HACE定理開始的三級(jí)結(jié)構(gòu), 如圖所示)、云計(jì)算和霧計(jì)算機(jī)制來實(shí)現(xiàn)數(shù)據(jù)服務(wù)和隱私保護(hù).數(shù)據(jù)治理模型設(shè)計(jì)數(shù)據(jù)治理模型設(shè)計(jì)該模型具備以下功能.支持不同種類、不同數(shù)據(jù)源、不同目標(biāo)庫的數(shù)據(jù)抽取傳輸.常用數(shù)據(jù)源、目標(biāo)庫類型包括Oracle, SqlServer, MySql, Hbase, Hive, GreenPlum, Gbase, PostgreSQL, SO

55、LR, Redis, ODPS, OTS, GDS等主流數(shù)據(jù)庫, 常用文件類型包括FTP, XML, CSV, JSON, EXCEL等, 常見消息處理類型包括Kafka和Webservice;支持不同類型的抽取匯聚任務(wù)配置, 主要包括異構(gòu)數(shù)據(jù)庫之間數(shù)據(jù)傳輸匯聚, 不同類型、跨服務(wù)器的文件型數(shù)據(jù)傳輸, 數(shù)據(jù)庫和文件類、服務(wù)接口間相互傳輸?shù)?支持?jǐn)?shù)據(jù)清洗和數(shù)據(jù)規(guī)范的規(guī)則自定義, 主要包括NULL值替換、字符串操作、數(shù)據(jù)類型轉(zhuǎn)換、函數(shù)依賴、正則處理、組合字段、數(shù)據(jù)比對(duì)、自定義SQL腳本執(zhí)行、JSON輸出等數(shù)據(jù)轉(zhuǎn)換規(guī)則, 以及對(duì)相似重復(fù)記錄和屬性值異常等問題數(shù)據(jù)清洗規(guī)則, 以及MD5加密規(guī)則;實(shí)現(xiàn)基

56、于數(shù)據(jù)元的異構(gòu)數(shù)據(jù)自動(dòng)解析, 并能按照業(yè)務(wù)場(chǎng)景進(jìn)行自定義配置, 實(shí)現(xiàn)智能化、可視化、組件式數(shù)據(jù)匯聚整合任務(wù)構(gòu)建;通過構(gòu)建知識(shí)圖譜實(shí)現(xiàn)作業(yè)流程的可視化設(shè)計(jì), 各組件、連接線等以圖形控件形式提供, 并按不同功能分組, 支持復(fù)制、粘貼、剪切、撤銷等功能, 數(shù)據(jù)整合任務(wù)在流程設(shè)計(jì)器中可直觀顯示;支持插件二次開發(fā):提供第三方開發(fā)平臺(tái), 方便根據(jù)現(xiàn)場(chǎng)實(shí)際業(yè)務(wù)需求, 定制項(xiàng)目插件.HAO治理模型的設(shè)計(jì)準(zhǔn)則包括:(1)數(shù)據(jù)源和治理功能的模塊化; (2)模型的可分解性; (3)快速原型系統(tǒng)構(gòu)建; (4)數(shù)據(jù)更新和融合能力; (5)交互的靈活性和(6)實(shí)時(shí)反應(yīng).數(shù)據(jù)接入模塊數(shù)據(jù)接入模塊大數(shù)據(jù)工程的數(shù)據(jù)來源包含企業(yè)

57、內(nèi)部數(shù)據(jù)和企業(yè)外部數(shù)據(jù), 其中:企業(yè)內(nèi)部數(shù)據(jù)由資源服務(wù)平臺(tái)、綜合資源庫、各業(yè)務(wù)系統(tǒng)生產(chǎn)庫中的結(jié)構(gòu)化數(shù)據(jù)和文件服務(wù)器上的文本、圖片等非結(jié)構(gòu)化數(shù)據(jù)組成, 其中包括人財(cái)物記錄、財(cái)物報(bào)表、原材料、顧客信息、氣測(cè)數(shù)據(jù)以及企業(yè)的文化和規(guī)章制度等; 企業(yè)外部數(shù)據(jù)由社會(huì)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)和設(shè)備采集數(shù)據(jù)組成, 外部數(shù)據(jù)一般包括地理環(huán)境、人口數(shù)據(jù)、經(jīng)濟(jì)市場(chǎng)、金融數(shù)據(jù)、社會(huì)關(guān)系、社交數(shù)據(jù)等等.在數(shù)據(jù)接入之前, 首先需要進(jìn)行數(shù)據(jù)采集, 如圖 所示.數(shù)據(jù)采集基于云計(jì)算和分布存儲(chǔ)之上的采集工具, 采用標(biāo)準(zhǔn)化、規(guī)范化的抽取模式, 實(shí)現(xiàn)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化資源的統(tǒng)一抽取、整合、加工、轉(zhuǎn)換和裝載.數(shù)據(jù)采集工具主要包括了數(shù)據(jù)

58、層、接入層、交互層和監(jiān)控層.其中, 工具的數(shù)據(jù)層即涉及整個(gè)采集平臺(tái)中總體架構(gòu)的數(shù)據(jù)層即數(shù)據(jù)支撐層, 工具背后的接入層是采集邏輯處理部分, 交互層即對(duì)應(yīng)總體架構(gòu)的采集門戶.數(shù)據(jù)接入模塊數(shù)據(jù)層指出企業(yè)內(nèi)部和企業(yè)外部數(shù)據(jù)的主要數(shù)據(jù)來源方式, 數(shù)據(jù)庫可以是指業(yè)務(wù)系統(tǒng)的Oracle; 文件方式是各種文件或FTP接入的文件包; 接口主要是用來企業(yè)對(duì)接外部系統(tǒng)使用的; 數(shù)據(jù)流是指可以使用Kafka平臺(tái)處理的實(shí)時(shí)數(shù)據(jù)流式方式這種來源.接入層主要提供豐富的工具集, 針對(duì)不同的數(shù)據(jù)接入方式提供相應(yīng)的工具組件, 依賴作業(yè)配置引擎和作業(yè)調(diào)度引擎實(shí)現(xiàn)數(shù)據(jù)抽取.監(jiān)控層可監(jiān)控作業(yè)執(zhí)行情況, 采集作業(yè)日志, 對(duì)問題作業(yè)及時(shí)告

59、警, 方便后期用戶排除故障、維護(hù)作業(yè).交互層提供可視化頁面便捷地實(shí)現(xiàn)數(shù)據(jù)接入與作業(yè)管理.對(duì)采集后各種類型的源數(shù)據(jù)進(jìn)行數(shù)據(jù)抽取, 該模型的數(shù)據(jù)抽取支持3種方式:全量抽取、增量抽取、實(shí)時(shí)抽取, 將經(jīng)過數(shù)據(jù)抽取后的數(shù)據(jù)匯入到匯聚庫中; 對(duì)于其他的數(shù)據(jù)庫系統(tǒng), 可以直接通過數(shù)據(jù)交換平臺(tái), 把數(shù)據(jù)匯入到匯聚庫中.數(shù)據(jù)治理模塊數(shù)據(jù)治理模塊主要包括對(duì)匯聚庫中的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和數(shù)據(jù)規(guī)范, 必要時(shí)進(jìn)行主題劃分和數(shù)據(jù)關(guān)聯(lián), 然后進(jìn)行數(shù)據(jù)集成, 治理完成后的數(shù)據(jù)匯聚到數(shù)據(jù)共享中心中.數(shù)據(jù)清洗是對(duì)數(shù)據(jù)進(jìn)行審查和校驗(yàn), 過濾不合規(guī)數(shù)據(jù)、刪除重復(fù)數(shù)據(jù)、糾正錯(cuò)誤數(shù)據(jù)、完成格式轉(zhuǎn)換, 并進(jìn)行清洗前后的數(shù)據(jù)一致性檢查, 保證

60、清洗結(jié)果集的質(zhì)量.數(shù)據(jù)清洗的方法除了以上介紹的幾種基本方法以外, 該模型還支持自定義清洗規(guī)則, 數(shù)據(jù)清洗規(guī)則是由業(yè)務(wù)需求人員與開發(fā)人員配合制定數(shù)據(jù)處理邏輯, 經(jīng)過這些規(guī)則進(jìn)行數(shù)據(jù)清洗后, 保證數(shù)據(jù)的一致性、準(zhǔn)確性和規(guī)范性更能滿足業(yè)務(wù)上的需求.數(shù)據(jù)服務(wù)模塊數(shù)據(jù)服務(wù)模塊以數(shù)據(jù)共享中心構(gòu)建知識(shí)圖譜為起點(diǎn), 早在2006年, Web創(chuàng)始人Berners-Lee就提出數(shù)據(jù)鏈接的思想, 隨后掀起了語義網(wǎng)絡(luò)的狂潮, 知識(shí)圖譜在此基礎(chǔ)上形成.但是直到2012年, 知識(shí)圖譜的概念才被谷歌正式提出.知識(shí)圖譜是由節(jié)點(diǎn)和邊組成的巨型知識(shí)網(wǎng)絡(luò), 節(jié)點(diǎn)代表實(shí)體, 邊代表實(shí)體之間的關(guān)系, 每個(gè)實(shí)體還由(key-value)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論