《數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)》第9章-數(shù)據(jù)治理_第1頁
《數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)》第9章-數(shù)據(jù)治理_第2頁
《數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)》第9章-數(shù)據(jù)治理_第3頁
《數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)》第9章-數(shù)據(jù)治理_第4頁
《數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)》第9章-數(shù)據(jù)治理_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論杜小勇主編數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)系列規(guī)劃教材第9章數(shù)據(jù)治理9.1數(shù)據(jù)治理的業(yè)務(wù)驅(qū)動(dòng)力

企業(yè)總是追求營收的增長和降低成本,在組織機(jī)構(gòu)方面,通過定義清晰的數(shù)據(jù)管理的角色及其責(zé)任,把數(shù)據(jù)管理的任務(wù)、責(zé)任落實(shí)到具體責(zé)任人身上,可以提高企業(yè)的運(yùn)營效率,降低管理成本。好的數(shù)據(jù)治理可以保證數(shù)據(jù)的正確性和高質(zhì)量,保證基于數(shù)據(jù)做出的報(bào)告是準(zhǔn)確的,決策的依據(jù)是可靠的,從而能夠幫助決策者做出及時(shí)和合理的經(jīng)營決策。

2015年,我國發(fā)布了《數(shù)據(jù)治理白皮書》國家標(biāo)準(zhǔn)研究報(bào)告,在報(bào)告中提出了數(shù)據(jù)治理框架模型。該模型由三個(gè)子框架組成:原則框架、范圍框架、實(shí)施和評估框架。該報(bào)告從國家意志層面強(qiáng)調(diào)了數(shù)據(jù)治理的重要性,指出數(shù)據(jù)治理是一個(gè)重要趨勢。9.2數(shù)據(jù)治理的概念

數(shù)據(jù)治理是集中人(People)、過程(Process)和技術(shù)(Technology)的規(guī)范化的數(shù)據(jù)管護(hù)過程。它能夠保證數(shù)據(jù)作為一種資產(chǎn)(BusinessAsset)得到有效的保護(hù)(Protection)、適當(dāng)?shù)墓芾砗褪褂茫≒roperUseandManagement),以及共享(Share),為業(yè)務(wù)目標(biāo)(BusinessObjective)服務(wù)。

數(shù)據(jù)治理是為了實(shí)現(xiàn)更好的數(shù)據(jù)管理,而定義的一系列活動(dòng)規(guī)范。人們按照這些活動(dòng)規(guī)范來開展工作,就能夠很好地實(shí)現(xiàn)數(shù)據(jù)管理,讓數(shù)據(jù)發(fā)揮價(jià)值,數(shù)據(jù)不會(huì)受到侵害,并且可以把相關(guān)數(shù)據(jù)共享出來,讓全社會(huì)都受益。

數(shù)據(jù)治理是為了有效管理而做出的決策,偏向決策的制定、責(zé)任分配、執(zhí)行監(jiān)督,以及評價(jià);而數(shù)據(jù)管理,則根據(jù)數(shù)據(jù)治理的決策來執(zhí)行具體的事務(wù),僅僅涉及這些決策的執(zhí)行部分,包括計(jì)劃、建設(shè)、運(yùn)營等。9.3數(shù)據(jù)治理的目標(biāo)

9.3.1實(shí)現(xiàn)價(jià)值

人們把數(shù)據(jù)界定為一種重要資產(chǎn),既然是資產(chǎn),就需要很好地管理、應(yīng)用起來,發(fā)揮它的價(jià)值。若要發(fā)揮數(shù)據(jù)的價(jià)值,則數(shù)據(jù)首先必須是準(zhǔn)確的、高質(zhì)量的,如果我們的基礎(chǔ)數(shù)據(jù)包含很多的錯(cuò)誤、不完整、不及時(shí),那么,我們基于這些數(shù)據(jù)生成的各種報(bào)表的準(zhǔn)確性、基于這些數(shù)據(jù)進(jìn)行的各種預(yù)測的可靠性就不能得到保證。數(shù)據(jù)治理的引入,就是要解決這樣的問題。9.3.2管控風(fēng)險(xiǎn)

控制與數(shù)據(jù)相關(guān)的風(fēng)險(xiǎn),主要涉及數(shù)據(jù)的保護(hù)和數(shù)據(jù)的合規(guī)性兩個(gè)方面。數(shù)據(jù)的保護(hù),其目的是只允許特定的人(主體)對特定的數(shù)據(jù)進(jìn)行特定的操作,避免敏感信息泄露和受到篡改。9.4數(shù)據(jù)治理的要素和框架

數(shù)據(jù)治理是一個(gè)體系,它通過一定的組織機(jī)構(gòu)和人員的保障,按照一定的管理規(guī)范和流程(Procedure),對數(shù)據(jù)進(jìn)行一系列的管理,實(shí)現(xiàn)過程管控,發(fā)揮數(shù)據(jù)的價(jià)值,保護(hù)數(shù)據(jù)不受非法訪問和破壞,同時(shí)促進(jìn)數(shù)據(jù)的共享。

DGI的數(shù)據(jù)治理框架模型,把規(guī)則與系統(tǒng)工作規(guī)范、組織機(jī)構(gòu)與人員、過程三大部分中的10個(gè)要素有機(jī)地結(jié)合起來。該模型的主要特點(diǎn)是突出治理順序和流程,條理清晰,易于實(shí)踐。DAMA數(shù)據(jù)治理模型,則包含兩個(gè)子模型,分別是功能子模型和環(huán)境要素子模型。它試圖解決數(shù)據(jù)治理功能和環(huán)境要素的匹配問題。

包冬梅等學(xué)者提出了我國高校圖書館數(shù)據(jù)治理的框架模型CALib,該框架模型從3個(gè)維度出發(fā),描述了數(shù)據(jù)治理的成功要素、決策范圍、具體實(shí)施辦法與績效評估方法,并且初步探討了數(shù)據(jù)治理成熟度評估的意義,為各高校圖書館數(shù)據(jù)治理工作,提供了一個(gè)模板和路線圖。

IBM公司提出的數(shù)據(jù)治理框架模型,包括4個(gè)領(lǐng)域11個(gè)要素。具體為:目標(biāo)領(lǐng)域——規(guī)避風(fēng)險(xiǎn)、創(chuàng)造價(jià)值;驅(qū)動(dòng)領(lǐng)域——組織機(jī)構(gòu)(Organization)/流程、管理制度、角色和責(zé)任(Role&Responsibility);核心領(lǐng)域——數(shù)據(jù)質(zhì)量(DataQuality)/數(shù)據(jù)質(zhì)量報(bào)告、數(shù)據(jù)的安全性(DataSecurity)、生命周期管理(LifeCycle)、合規(guī)性(Compliance);支撐領(lǐng)域——元數(shù)據(jù)管理(MetaDataManagement)、主數(shù)據(jù)管理(MasterDataManagement)。圖9.1數(shù)據(jù)治理框架模型及其要素9.4.1人員要素

人員要素包括戰(zhàn)略/政策和工作流程、組織機(jī)構(gòu)、相關(guān)責(zé)任人(即角色和責(zé)任)。為了實(shí)施數(shù)據(jù)治理,需要制定數(shù)據(jù)治理的戰(zhàn)略、政策和具體的工作流程。為了完成這些流程,需要建立相關(guān)的組織機(jī)構(gòu),指定角色,給各個(gè)角色分配具體的責(zé)任。

數(shù)據(jù)治理委員會(huì)的任務(wù),主要是制定數(shù)據(jù)治理戰(zhàn)略(Strategy)、相關(guān)的政策(Policy)和標(biāo)準(zhǔn)(Standard),并且監(jiān)督具體的數(shù)據(jù)治理過程,保證數(shù)據(jù)治理工作不要跑偏了。這些戰(zhàn)略、政策的執(zhí)行,需要各個(gè)工作小組來承擔(dān)。

數(shù)據(jù)治理委員會(huì)還需要邀請數(shù)據(jù)管理團(tuán)隊(duì)的人員參加,這是因?yàn)閿?shù)據(jù)治理的要求制定出來后,需要他們來承擔(dān)具體的任務(wù)。

數(shù)據(jù)管家(DataSteward)是數(shù)據(jù)治理中非常重要的一個(gè)角色(見圖9.2)。圖9.2

數(shù)據(jù)治理中的組織機(jī)構(gòu)和角色9.4.2技術(shù)要素

技術(shù)要素分為兩個(gè)層次,分別是核心要素和支撐要素。技術(shù)要素的上層為數(shù)據(jù)治理的核心要素,包括數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)的安全和隱私、數(shù)據(jù)的合規(guī)性、數(shù)據(jù)的生命周期管理等,可以看作是數(shù)據(jù)治理的主要任務(wù)。支撐要素包括主數(shù)據(jù)管理、元數(shù)據(jù)管理等,這些要素的實(shí)現(xiàn),是為完成核心要素服務(wù)的。1.?dāng)?shù)據(jù)質(zhì)量管理

數(shù)據(jù)質(zhì)量決定了基于數(shù)據(jù)的決策的可靠性。沒有準(zhǔn)確、完備、及時(shí)的數(shù)據(jù)支撐,我們很難做出合理有效的決策;低質(zhì)量的數(shù)據(jù),通常會(huì)產(chǎn)生誤導(dǎo)(Misleading)或者有失偏頗的分析結(jié)果和決策。在某種程度上,數(shù)據(jù)質(zhì)量關(guān)乎企業(yè)的生死存亡。

在數(shù)據(jù)治理模型中,數(shù)據(jù)質(zhì)量是一個(gè)非常重要的組成要素。

提高數(shù)據(jù)質(zhì)量,一般按照如下的流程完成。首先,需要評估現(xiàn)有數(shù)據(jù)質(zhì)量,得出數(shù)據(jù)質(zhì)量報(bào)告。

接著,需要確定提高數(shù)據(jù)質(zhì)量的方法,借助工具的幫助,進(jìn)行數(shù)據(jù)清洗,以提高其質(zhì)量。

最后,需要對數(shù)據(jù)質(zhì)量的治理工作加以評估,以直觀的圖表的形式(也稱為儀表板,Dashboard)展示出來,讓我們可以了解到,通過數(shù)據(jù)治理以后,數(shù)據(jù)質(zhì)量有什么樣的提高,還有哪些方面可以繼續(xù)改進(jìn)等。

在大數(shù)據(jù)時(shí)代,大量異構(gòu)的、非結(jié)構(gòu)化數(shù)據(jù)的出現(xiàn),“信息孤島”問題更加突出,使得數(shù)據(jù)質(zhì)量管理受到全新的挑戰(zhàn),需要研究人員從語義層面對數(shù)據(jù)質(zhì)量,進(jìn)行更為深入的研究。2.?dāng)?shù)據(jù)的安全與隱私

數(shù)據(jù)的安全和隱私,是關(guān)于數(shù)據(jù)的存儲、傳輸和使用的保護(hù)問題。在人們提出的一系列數(shù)據(jù)治理框架模型中,數(shù)據(jù)的安全和隱私都是其中一個(gè)重要的要素。

在操作系統(tǒng)和數(shù)據(jù)庫管理系統(tǒng)里,都有認(rèn)證和授權(quán)模塊。用戶只有通過認(rèn)證以后,才可以對系統(tǒng)進(jìn)行訪問,并且只能訪問經(jīng)過授權(quán)可以訪問的對象。數(shù)據(jù)安全(DataSecurity)是防止數(shù)據(jù)被非法訪問和破壞的控制策略和方法,涉及認(rèn)證(Authentication)、授權(quán)(Authorization)、加密(Encryption)、審計(jì)(Audit)等重要的內(nèi)容。授權(quán)一般通過訪問控制列表(AccessControlList,ACL)實(shí)現(xiàn),它描述了誰可以對什么數(shù)據(jù)對象進(jìn)行什么操作。審計(jì)的目的是登記用戶對數(shù)據(jù)的歷次訪問,不管是合法的還是非法的,以便出現(xiàn)問題的時(shí)候,可以對問題進(jìn)行溯源。

數(shù)據(jù)的隱私(DataPrivacy)是指對數(shù)據(jù)進(jìn)行保密的策略、方法,涉及隱私倫理、隱私策略、隱私保護(hù)和評價(jià)等重要內(nèi)容。隱私和安全是密切相關(guān)的,在我們確定了哪些數(shù)據(jù)是敏感的、私密的之后,借助成熟的安全技術(shù),使信息得到受控的訪問,杜絕非法訪問,就保護(hù)了隱私。3.?dāng)?shù)據(jù)的合規(guī)性

企業(yè)或者單位的數(shù)據(jù),包括采集、保護(hù)和使用,是否符合國際、國家的法律法規(guī),是否符合行業(yè)標(biāo)準(zhǔn),能否滿足跨國、跨行業(yè)、跨企業(yè)的數(shù)據(jù)交換等,都牽涉到數(shù)據(jù)的合規(guī)性控制和檢查。

在數(shù)據(jù)采集方面,什么數(shù)據(jù)可以采集,什么數(shù)據(jù)不可以采集,需要合法、合規(guī)。

數(shù)據(jù)的使用,更需要合法、合規(guī)。淘寶的電商交易數(shù)據(jù)、新浪的微博數(shù)據(jù)、騰訊的微信數(shù)據(jù),所有權(quán)都是隸屬用戶的,淘寶、新浪和騰訊所扮演的角色,只能是數(shù)據(jù)管家。4.?dāng)?shù)據(jù)的生命周期管理

數(shù)據(jù)的生命周期,包括數(shù)據(jù)的采集、保存和使用(為了各種分析目的的使用,也包括分享給第三方使用)、歸檔、銷毀等重要的階段。數(shù)據(jù)治理中的生命周期管理,對數(shù)據(jù)資產(chǎn)的上述各個(gè)階段,制定了操作規(guī)范,保證必要的數(shù)據(jù)被采集下來;數(shù)據(jù)能夠被方便地使用,發(fā)揮其價(jià)值,這里所說的使用包括一個(gè)企業(yè)或者單位內(nèi)部對數(shù)據(jù)的使用,也包括把數(shù)據(jù)開放出來,供企業(yè)或者單位外部來共享;過期的數(shù)據(jù),被歸檔起來;需要銷毀的數(shù)據(jù),被正確地、完全地銷毀。5.主數(shù)據(jù)管理

主數(shù)據(jù)是關(guān)于業(yè)務(wù)實(shí)體(BusinessEntities)的數(shù)據(jù),是企業(yè)/單位范圍內(nèi)各個(gè)子系統(tǒng)需要共享的數(shù)據(jù),包括客戶、賬號、產(chǎn)品、廠商等信息。這些數(shù)據(jù)支撐企業(yè)的在線事務(wù)處理、在線分析處理和數(shù)據(jù)挖掘等復(fù)雜分析應(yīng)用。

主數(shù)據(jù)管理給出一個(gè)技術(shù)和管理方案,把相關(guān)數(shù)據(jù)整合起來,形成一個(gè)主拷貝(MainCopy),這個(gè)主拷貝也被稱為SingleVersionofTruth(唯一版本的真實(shí)數(shù)據(jù))。整合的過程涉及必要的數(shù)據(jù)清洗(Cleans)和數(shù)據(jù)增強(qiáng)(EnrichorAugment),修正數(shù)據(jù)的不一致,剔除重復(fù)數(shù)據(jù)。這個(gè)主拷貝可供企業(yè)(或者單位)范圍內(nèi)的相關(guān)應(yīng)用程序參考,或者復(fù)制使用。我們通過實(shí)例來說明參考和復(fù)制。

圖9.3所示為一個(gè)主數(shù)據(jù)管理的實(shí)例,可以看到,主數(shù)據(jù)管理遵循了“集成(Integrate)→共享(Share)”的技術(shù)范式。圖9.3主數(shù)據(jù)管理示例

在主數(shù)據(jù)管理中,把企業(yè)的客戶、賬號、產(chǎn)品、廠商等信息,從各個(gè)“信息孤島”中,集成到一起,實(shí)施統(tǒng)一的管理,保證各個(gè)子系統(tǒng)的共享和訪問,保證了數(shù)據(jù)的完備性和正確性,以提高數(shù)據(jù)質(zhì)量,進(jìn)而提高決策的質(zhì)量。當(dāng)我們從各個(gè)數(shù)據(jù)源集成數(shù)據(jù)的時(shí)候,數(shù)據(jù)中可能出現(xiàn)不一致(Inconsistency)以及重復(fù)(Redundancy)的問題。這兩個(gè)問題屬于數(shù)據(jù)質(zhì)量問題,需要采取適當(dāng)?shù)拇胧┘右越鉀Q。

Oracle公司提出的主數(shù)據(jù)管理框架和流程如圖9.4所示,讓我們可以了解到完成主數(shù)據(jù)管理的流程和模式。圖9.4主數(shù)據(jù)管理的框架和流程

在這個(gè)框架中,主要的流程簡述如下。(1)了解數(shù)據(jù)源(Profile

theDataSources)(2)整合(Consolidate)(3)治理(Govern)(4)共享(Share)(5)利用(Leverage)6.元數(shù)據(jù)管理

元數(shù)據(jù)(Metadata)是關(guān)于數(shù)據(jù)的數(shù)據(jù),元數(shù)據(jù)保存在數(shù)據(jù)字典(DataDictionary)里。數(shù)據(jù)治理中的元數(shù)據(jù)管理,描述了企業(yè)范圍內(nèi)所有數(shù)據(jù)資產(chǎn)的數(shù)據(jù)模型、數(shù)據(jù)格式、數(shù)據(jù)域(Domain)、數(shù)據(jù)的存取權(quán)限、數(shù)據(jù)的血緣關(guān)系和版本等。9.5數(shù)據(jù)治理的實(shí)踐

9.5.1各個(gè)業(yè)務(wù)子系統(tǒng)的建設(shè)和數(shù)據(jù)治理同步推進(jìn)

數(shù)據(jù)治理的目的,是發(fā)揮數(shù)據(jù)價(jià)值和防控?cái)?shù)據(jù)風(fēng)險(xiǎn)。

數(shù)據(jù)治理和子系統(tǒng)的建設(shè),需要同步進(jìn)行,包括已有子系統(tǒng)的適當(dāng)改造,按照數(shù)據(jù)治理的要求建設(shè)新的子系統(tǒng)等。9.5.2建立數(shù)據(jù)治理的組織機(jī)構(gòu),確定數(shù)據(jù)治理戰(zhàn)略/政策和標(biāo)準(zhǔn)

建立數(shù)據(jù)治理的組織機(jī)構(gòu),包括建立數(shù)據(jù)治理委員會(huì)(領(lǐng)導(dǎo)小組)、工作小組,以及指定具體的崗位(角色)及其責(zé)任。數(shù)據(jù)治理委員會(huì)應(yīng)有高層管理人員參加,高層管理人員作為數(shù)據(jù)治理委員會(huì)的執(zhí)行長發(fā)揮作用。9.5.3規(guī)劃具體的數(shù)據(jù)治理任務(wù)

一個(gè)企業(yè)的數(shù)據(jù)治理工作,千頭萬緒,需要我們選擇影響力最大的業(yè)務(wù)痛點(diǎn)(BusinessProblem,BusinessPainPoint),重點(diǎn)突破。治理的目標(biāo)要做到精細(xì)化,著重治理有助于極大地改善業(yè)務(wù)的關(guān)鍵數(shù)據(jù)(CriticalData)。9.5.4開展數(shù)據(jù)治理工作

開展數(shù)據(jù)治理工作,需要建立一個(gè)數(shù)據(jù)資產(chǎn)中心庫(Repository),給出一個(gè)業(yè)務(wù)詞匯表(BusinessGlossary),對主要概念進(jìn)行定義(Definition),以便人們對這些概念達(dá)成共識。對數(shù)據(jù)資產(chǎn)登記造冊,建立數(shù)據(jù)元信息,對關(guān)鍵數(shù)據(jù)的格式、取值范圍、重要的語義約束(也可以稱為業(yè)務(wù)約束規(guī)則,BusinessRule)、存取權(quán)限、敏感信息、數(shù)據(jù)集之間的血脈關(guān)系(Lineage)等進(jìn)行描述。這些工作是進(jìn)行數(shù)據(jù)治理的必要的準(zhǔn)備工作。準(zhǔn)備工作做好以后,可以針對性地進(jìn)行具體的主數(shù)據(jù)管理、數(shù)據(jù)清洗(提高數(shù)據(jù)質(zhì)量)、數(shù)據(jù)安全和隱私保護(hù)的實(shí)施工作。

對于眾多的、具體的數(shù)據(jù)治理任務(wù),經(jīng)過數(shù)據(jù)治理委員會(huì)的評估以后,給出了一個(gè)實(shí)施的優(yōu)先順序。即便是主數(shù)據(jù)管理,也包含不同數(shù)據(jù)的主數(shù)據(jù)管理。為了保證數(shù)據(jù)治理工作的質(zhì)量和效率,人們一般借助成熟的技術(shù)和軟件,輔助完成數(shù)據(jù)治理。9.5.5數(shù)據(jù)治理的評價(jià)

對于數(shù)據(jù)質(zhì)量的治理,就需要評價(jià)數(shù)據(jù)質(zhì)量提高到了什么程度,包括數(shù)據(jù)里面的錯(cuò)誤率是否降低了,數(shù)據(jù)的重復(fù)率是否降低了等等,這些都需要設(shè)計(jì)相關(guān)的度量指標(biāo)(Metric)來度量和評價(jià)。9.6大數(shù)據(jù)時(shí)代數(shù)據(jù)治理的挑戰(zhàn)

大數(shù)據(jù)時(shí)代,不僅要解決好企業(yè)內(nèi)部數(shù)據(jù)的治理問題,還要考慮企業(yè)內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)的融合問題。我們可以把企業(yè)掌握的數(shù)據(jù)包裝成數(shù)據(jù)產(chǎn)品,投放

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論