版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
-7-大數(shù)據(jù)時代如何做好數(shù)據(jù)治理談大數(shù)據(jù)時代的數(shù)據(jù)治理企業(yè)在建制大數(shù)據(jù)平臺的同時,對進入數(shù)據(jù)湖的數(shù)據(jù)進行梳理,并根據(jù)數(shù)據(jù)資產(chǎn)名目的形式對外發(fā)布。在發(fā)布數(shù)據(jù)資產(chǎn)之后,則對進出數(shù)據(jù)湖的數(shù)據(jù)進行嚴格的出入庫管理,保證數(shù)據(jù)可信度,并定期進行數(shù)據(jù)質(zhì)量剖析檢查,確保數(shù)據(jù)資產(chǎn)完善、平安、可信,避開“不治理便破產(chǎn)”的讖言。
企業(yè)數(shù)據(jù)分析系統(tǒng)的數(shù)據(jù)來源是各個業(yè)務(wù)系統(tǒng)或手工數(shù)據(jù),這些數(shù)據(jù)的格式、內(nèi)容等都有可能不同。假如不進行數(shù)據(jù)治理,數(shù)據(jù)的價值難以發(fā)揮。只有對數(shù)據(jù)標準進行規(guī)范,管理元數(shù)據(jù)、數(shù)據(jù)監(jiān)控等,才能得到高質(zhì)量的數(shù)據(jù)。得到規(guī)范的數(shù)據(jù)后,才可在此基礎(chǔ)上進行主題化的數(shù)據(jù)建模、數(shù)據(jù)挖掘、數(shù)據(jù)分析等。
2022年被眾多的IT人定義為中國的大數(shù)據(jù)元年,這一年國內(nèi)的大數(shù)據(jù)項目開頭在交通、電信、金融部門被廣泛推動。各大銀行對Hadoop的規(guī)劃、POC尤其風(fēng)生水起,帶動了一波大數(shù)據(jù)應(yīng)用的熱潮,這個熱潮和當(dāng)時數(shù)據(jù)倉庫進入中國時的2000年左右很相像:應(yīng)用還沒有想好,先歸集一下數(shù)據(jù),供應(yīng)一些查詢和報表,以技術(shù)建設(shè)為主,業(yè)務(wù)推動為輔。這就導(dǎo)致了這股Hadoop熱潮起來的時候,傳統(tǒng)企業(yè)都是以數(shù)據(jù)歸集為主的,而BAT這樣的企業(yè)則天生以數(shù)據(jù)為生,早早進入了數(shù)據(jù)驅(qū)動技術(shù)和業(yè)務(wù)創(chuàng)新的階段。
隨著Hadoop技術(shù)的提升,數(shù)據(jù)如何進來,如何整合,開展什么樣的應(yīng)用都已經(jīng)有了成熟的案例,可是,同傳統(tǒng)數(shù)倉時代一樣,垃圾進垃圾出,如何破?相比傳統(tǒng)數(shù)倉時代,進入Hadoop集群的數(shù)據(jù)更加的多樣、更加的簡單、量更足,這個數(shù)倉時代都沒有處理好的事情,如何能夠在大數(shù)據(jù)時代處理好,這是全部大數(shù)據(jù)應(yīng)用者最最期盼的轉(zhuǎn)變,也是大數(shù)據(jù)平臺建設(shè)者最有挑戰(zhàn)的難題:數(shù)據(jù)治理難的不是技術(shù),而是流程,是協(xié)同,是管理。
數(shù)據(jù)治理平臺平臺架構(gòu)
元數(shù)據(jù):采集匯總企業(yè)系統(tǒng)數(shù)據(jù)屬性的信息,關(guān)心各行各業(yè)用戶獲得更好的數(shù)據(jù)洞察力,通過元數(shù)據(jù)之間的關(guān)系和影響挖掘隱蔽在資源中的價值。
數(shù)據(jù)標準:對分散在各系統(tǒng)中的數(shù)據(jù)供應(yīng)一套統(tǒng)一的數(shù)據(jù)命名、數(shù)據(jù)定義、數(shù)據(jù)類型、賦值規(guī)章等的定義基準,并通過標準評估確保數(shù)據(jù)在簡單數(shù)據(jù)環(huán)境中維持企業(yè)數(shù)據(jù)模型的全都性、規(guī)范性,從源頭確保數(shù)據(jù)的正確性及質(zhì)量,并可以提升開發(fā)和數(shù)據(jù)管理的一貫性和效率性。
數(shù)據(jù)質(zhì)量:有效識別各類數(shù)據(jù)質(zhì)量問題,建立數(shù)據(jù)監(jiān)管,形成數(shù)據(jù)質(zhì)量管理體系,監(jiān)控并揭示數(shù)據(jù)質(zhì)量問題,供應(yīng)問題明細查詢和質(zhì)量改進建議,全面提升數(shù)據(jù)的完整性、精確?????性、準時性,全都性以及合法性,降低數(shù)據(jù)管理成本,削減因數(shù)據(jù)不行靠導(dǎo)致的決策偏差和損失。
數(shù)據(jù)集成:可對數(shù)據(jù)進行清洗、轉(zhuǎn)換、整合、模型管理等處理工作。既可以用于問題數(shù)據(jù)的修正,也可以用于為數(shù)據(jù)應(yīng)用供應(yīng)牢靠的數(shù)據(jù)模型。
主數(shù)據(jù):關(guān)心企業(yè)創(chuàng)建并維護內(nèi)部共享數(shù)據(jù)的單一視圖,從而提高數(shù)據(jù)質(zhì)量,統(tǒng)一商業(yè)實體定義,簡化改進商業(yè)流程并提高業(yè)務(wù)的響應(yīng)速度。
數(shù)據(jù)資產(chǎn):匯合企業(yè)全部能夠產(chǎn)生價值的數(shù)據(jù)資源,為用戶供應(yīng)資產(chǎn)視圖,快速了解企業(yè)資產(chǎn),發(fā)覺不良資產(chǎn),為管理員供應(yīng)決策依據(jù),提升數(shù)據(jù)資產(chǎn)的價值。
數(shù)據(jù)交換:用于實現(xiàn)不同機構(gòu)不同系統(tǒng)之間進行數(shù)據(jù)或者文件的傳輸和共享,提高信息資源的利用率,保證了分布在異構(gòu)系統(tǒng)之間的信息的互聯(lián)互通,完成數(shù)據(jù)的收集、集中、處理、分發(fā)、加載、傳輸,構(gòu)造統(tǒng)一的數(shù)據(jù)及文件的傳輸交換。
生命周期:管理數(shù)據(jù)生老病死,建立數(shù)據(jù)自動歸檔和銷毀,全面監(jiān)控呈現(xiàn)數(shù)據(jù)的生命過程。
數(shù)據(jù)平安:供應(yīng)數(shù)據(jù)加密、脫敏、模糊化處理、賬號監(jiān)控等各種數(shù)據(jù)平安策略,確保數(shù)據(jù)在使用過程中有恰當(dāng)?shù)恼J證、授權(quán)、訪問和審計等措施。
建立完整的、科學(xué)的、平安的、高質(zhì)量的數(shù)據(jù)管控技術(shù)體系,是首要的任務(wù)。作為數(shù)據(jù)管控的基石,為了更好支撐后續(xù)工作的開展,技術(shù)體系必需一步到位,是功能完備、高質(zhì)量、高擴展性的,而不是僅實現(xiàn)部分功能,或者功能不完善的"半成品'。
疊加更多業(yè)務(wù)數(shù)據(jù)、細化數(shù)據(jù)業(yè)務(wù)屬性與管理屬性、優(yōu)化與調(diào)整數(shù)據(jù)管控流程,尤其是適應(yīng)將來的現(xiàn)代企業(yè)數(shù)據(jù)管掌握度的建立完善,是逐步積累推廣、不斷磨合改進的長期過程。這些工作應(yīng)及早啟動,并成為后續(xù)大數(shù)據(jù)平臺建設(shè)工作的重點。
談大數(shù)據(jù)時代的數(shù)據(jù)治理當(dāng)前要做的是功能框架的完善,而完善的著力點則是"數(shù)據(jù)資產(chǎn)名目':用資產(chǎn)化的視角來管理一個企業(yè)的數(shù)據(jù),只有把數(shù)據(jù)作為資產(chǎn)來熟悉和管理,大數(shù)據(jù)項目才能達成預(yù)期,也能夠治理好。大數(shù)據(jù)時代帶來的價值,個人認為主要有兩個,一個是技術(shù)架構(gòu),主要是架構(gòu)理念的進步,另外一個更重要的則是對數(shù)據(jù)的重視。大數(shù)據(jù)時代是數(shù)據(jù)的時代,IT向DT轉(zhuǎn)型,不單單是BAT,全部的IT公司,將來都在數(shù)據(jù)這兩個字上。
對于一個企業(yè)來說,把數(shù)據(jù)作為資產(chǎn),才是建設(shè)大數(shù)據(jù)的最終目的,而不是僅僅是由于Hadoop架構(gòu)帶來性價比和將來的擴展性。當(dāng)一個企業(yè)把數(shù)據(jù)作為資產(chǎn),他就像管理自己名下存折、信用卡一樣,定期梳理,無時無刻不關(guān)懷資產(chǎn)的變化狀況,關(guān)注資產(chǎn)的質(zhì)量。
而資產(chǎn)名目就是管理資產(chǎn)的形式和手段,他像菜單一樣對企業(yè)的資產(chǎn)進行梳理、分門別類,供應(yīng)給使用者;使用者通過菜單,點選自己需要的數(shù)據(jù),認可菜單對應(yīng)的后端處理價值,后廚通過適當(dāng)?shù)募庸ぃ瞥鱿鄳?yīng)的數(shù)據(jù)服務(wù);這是一個標準的流程,而這些流程之上,附著一整套數(shù)據(jù)管理目標和流程。
大數(shù)據(jù)平臺以數(shù)據(jù)資產(chǎn)名目為核心,將元數(shù)據(jù)、數(shù)據(jù)標準、主數(shù)據(jù)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)生命周期、數(shù)據(jù)輪廓等信息在規(guī)律層面關(guān)聯(lián)起來,在管理層面上整合成統(tǒng)一的整體,構(gòu)建起數(shù)據(jù)管理體系,全面的支持數(shù)據(jù)服務(wù)等詳細應(yīng)用。
大數(shù)據(jù)平臺實現(xiàn)了數(shù)據(jù)存儲、清洗和應(yīng)用。在數(shù)據(jù)匯入和匯出的過程中,需要對數(shù)據(jù)的元數(shù)據(jù)進行統(tǒng)一記錄和管理,以利于后續(xù)的數(shù)據(jù)應(yīng)用和數(shù)據(jù)血緣分析。數(shù)據(jù)質(zhì)量始終是數(shù)據(jù)集成系統(tǒng)的基礎(chǔ)工作,對數(shù)據(jù)的各個環(huán)節(jié)設(shè)置數(shù)據(jù)質(zhì)量檢查點,對數(shù)據(jù)質(zhì)量進行剖析、評估,以保證后續(xù)應(yīng)用的可信度。
在數(shù)據(jù)收集的過程中,隨著數(shù)據(jù)維度、指標的聚集,如何找到所需的業(yè)務(wù)指標及屬性,并且評估相關(guān)屬性的業(yè)務(wù)及技術(shù)細節(jié),需要對收集的全部數(shù)據(jù)進行業(yè)務(wù)屬性,并進行分類,建立完善的數(shù)據(jù)資產(chǎn)名目。
數(shù)據(jù)資產(chǎn)名目是整個大數(shù)據(jù)平臺的數(shù)據(jù)管理基礎(chǔ),而數(shù)據(jù)資產(chǎn)名目由于數(shù)據(jù)的多樣性,在使用的過程中,必定涉及數(shù)據(jù)權(quán)限的申請、審批管控流程,而管控流程的建立依靠于相應(yīng)崗位的設(shè)立和對應(yīng)職責(zé)的建立。
大數(shù)據(jù)平臺的數(shù)據(jù)管理架構(gòu)規(guī)劃,通過數(shù)據(jù)物理集中和數(shù)據(jù)規(guī)律整合,徹底擺脫企業(yè)"數(shù)據(jù)豎井'的逆境。大數(shù)據(jù)平臺數(shù)據(jù)管理架構(gòu)分為功能架構(gòu)、流向規(guī)劃和數(shù)據(jù)架構(gòu)三個層面。
數(shù)據(jù)管理功能架構(gòu):借鑒DAMA數(shù)據(jù)管理和DMM數(shù)據(jù)成熟度理論,著眼于數(shù)據(jù)管理技術(shù)和數(shù)據(jù)管理流程融合,組織數(shù)據(jù)管理功能。
數(shù)據(jù)流向規(guī)劃架構(gòu):規(guī)劃整個大數(shù)據(jù)平臺的數(shù)據(jù)流向,并在數(shù)據(jù)流入、數(shù)據(jù)整合、數(shù)據(jù)服務(wù)的詳細環(huán)節(jié)實現(xiàn)精細化管理。
數(shù)據(jù)管理的數(shù)據(jù)架構(gòu):以數(shù)據(jù)資產(chǎn)名目為核心,數(shù)據(jù)項為最小管理單元,將技術(shù)元數(shù)據(jù)(實體、屬性和關(guān)系)、業(yè)務(wù)元數(shù)據(jù)和管理元數(shù)據(jù)(數(shù)據(jù)標準、主數(shù)據(jù)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)平安)融合為彼此緊密聯(lián)系、密不行分的整體,共同構(gòu)成精細化管理的數(shù)據(jù)基礎(chǔ)。
數(shù)據(jù)管理在整個大數(shù)據(jù)平臺不僅僅是一個主要功能模塊,它還是整個企業(yè)層面數(shù)據(jù)治理的重要組成部分,它是技術(shù)和管理流程的融合,也需要合理管控流程框架下組織機構(gòu)之前的協(xié)調(diào)合作。如何利用統(tǒng)一的數(shù)據(jù)管理模塊對企業(yè)全部進入到數(shù)據(jù)湖的數(shù)據(jù)進行有效管控,不單單取決于數(shù)據(jù)管理模塊本身,也取決于元數(shù)據(jù)的合理采集、維護,組織結(jié)構(gòu)及制度的強力支持保證。
談大數(shù)據(jù)時代的數(shù)據(jù)治理大數(shù)據(jù)平臺數(shù)據(jù)管理參照了DAMA對于數(shù)據(jù)管理的九個管理目標,并進行裁剪,并對部分管理目標進行了合并,并參照了CMMI制定DMM數(shù)據(jù)成熟度目標,采納循序漸進,逐步完善的策略對管理目標進行分階段完成,制定完整的管控流程和數(shù)據(jù)治理規(guī)范,以便持續(xù)的對數(shù)據(jù)進行管理,遞進實現(xiàn)DMM定義的成熟度目標。
談大數(shù)據(jù)時代的數(shù)據(jù)治理大數(shù)據(jù)平臺數(shù)據(jù)管理的核心內(nèi)容是數(shù)據(jù)資產(chǎn)名目,圍繞數(shù)據(jù)資產(chǎn)名目的數(shù)據(jù)流入、數(shù)據(jù)整合、數(shù)據(jù)服務(wù)都是數(shù)據(jù)管理的核心。數(shù)據(jù)管理主要管理數(shù)據(jù)的流淌,以及管理流淌帶來的數(shù)據(jù)變化,并對數(shù)據(jù)底層的數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)定義、業(yè)務(wù)規(guī)律進行采集和管理,以利于當(dāng)前和將來的數(shù)據(jù)使用。為了更好的對數(shù)據(jù)進行管理和使用,制度層面的建設(shè)、流程的設(shè)立必不行少,同時也兼顧到數(shù)據(jù)在流淌過程中產(chǎn)生的平安風(fēng)險和數(shù)據(jù)隱私風(fēng)險。
因此數(shù)據(jù)管理介入到完整的數(shù)據(jù)流
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024橋梁加固工程承包合同范本3篇
- 2024年高端養(yǎng)殖場土地租賃及合作開發(fā)合同3篇
- 2024年采沙場租賃協(xié)議3篇
- 2025標識牌生產(chǎn)與安裝一體化工程合同范本3篇
- 2024年網(wǎng)絡(luò)劇制作剪輯師招聘與管理協(xié)議3篇
- 公路車知識培訓(xùn)課件
- 《現(xiàn)代物流管理教程》課件
- 2024年采購協(xié)議:原材料及產(chǎn)品3篇
- 2024校秋季春季學(xué)期小賣部飲品及零食供應(yīng)與營銷合同3篇
- 鄭州工業(yè)應(yīng)用技術(shù)學(xué)院《互換性與公差配合》2023-2024學(xué)年第一學(xué)期期末試卷
- 東風(fēng)集團新能源汽車培訓(xùn)
- 2024-2030年中國廣電技術(shù)行業(yè)現(xiàn)狀分析及未來發(fā)展趨勢預(yù)測報告
- 廣東省廣州市天河區(qū)2023-2024學(xué)年高一上學(xué)期期末考試數(shù)學(xué)試卷(解析版)
- 鋼構(gòu)樓板合同范例
- 2024-2025學(xué)年人教版(2024)信息技術(shù)四年級上冊 第11課 嘀嘀嗒嗒的秘密 說課稿
- 造影劑過敏的護理
- 物流管理概論 課件全套 王皓 第1-10章 物流與物流管理的基礎(chǔ)知識 - 物流系統(tǒng)
- 蘇教版六年級上冊分數(shù)四則混合運算100題帶答案
- 潛水員潛水作業(yè)安全2024
- 以案促改心得體會
- 2024年公文寫作基礎(chǔ)知識競賽試題庫及答案(共130題)
評論
0/150
提交評論