版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、 Page * MERGEFORMAT 28基于數(shù)據(jù)湖架構(gòu)下的數(shù)據(jù)治理體系目 錄 TOC o 1-3 h z u HYPERLINK l _Toc44532802 前言 PAGEREF _Toc44532802 h 4 HYPERLINK l _Toc44532803 一、數(shù)據(jù)處理技術(shù)的發(fā)展趨勢與挑戰(zhàn) PAGEREF _Toc44532803 h 4 HYPERLINK l _Toc44532804 1.1數(shù)據(jù)管理面臨的挑戰(zhàn)和轉(zhuǎn)變 PAGEREF _Toc44532804 h 5 HYPERLINK l _Toc44532805 1.2數(shù)據(jù)湖的定義及發(fā)展需求 PAGEREF _Toc44532
2、805 h 6 HYPERLINK l _Toc44532806 1.3從數(shù)據(jù)庫、數(shù)據(jù)倉庫到數(shù)據(jù)湖演變趨勢 PAGEREF _Toc44532806 h 8 HYPERLINK l _Toc44532807 1.4數(shù)據(jù)倉庫與數(shù)據(jù)湖差異 PAGEREF _Toc44532807 h 9 HYPERLINK l _Toc44532808 二、數(shù)據(jù)湖的架構(gòu)體系 PAGEREF _Toc44532808 h 11 HYPERLINK l _Toc44532809 2.1數(shù)據(jù)湖架構(gòu)體系 PAGEREF _Toc44532809 h 11 HYPERLINK l _Toc44532810 2.2以AWS數(shù)
3、據(jù)湖產(chǎn)品為例,實現(xiàn)數(shù)據(jù)管理4個能力 PAGEREF _Toc44532810 h 14 HYPERLINK l _Toc44532811 2.3數(shù)據(jù)湖數(shù)據(jù)管理4個能力 PAGEREF _Toc44532811 h 18 HYPERLINK l _Toc44532812 三、如何通過數(shù)據(jù)治理實現(xiàn)數(shù)據(jù)湖商業(yè)價值 PAGEREF _Toc44532812 h 19 HYPERLINK l _Toc44532813 3.1數(shù)據(jù)湖遇到挑戰(zhàn) PAGEREF _Toc44532813 h 20 HYPERLINK l _Toc44532814 3.2避免數(shù)據(jù)沼澤 PAGEREF _Toc44532814 h
4、 20 HYPERLINK l _Toc44532815 3.3數(shù)據(jù)智能化治理是數(shù)據(jù)湖實現(xiàn)價值必有之路 PAGEREF _Toc44532815 h 21 HYPERLINK l _Toc44532816 3.4構(gòu)建數(shù)據(jù)湖的數(shù)據(jù)治理體系相關(guān)思考 PAGEREF _Toc44532816 h 22 HYPERLINK l _Toc44532817 四、Amazon Athena和AWS Glue中國區(qū)域?qū)嵺`案例 PAGEREF _Toc44532817 h 25 HYPERLINK l _Toc44532818 4.1ETL服務(wù)為數(shù)據(jù)分析準(zhǔn)備工作的自動化,大幅縮短數(shù)據(jù)準(zhǔn)備時間 PAGEREF _
5、Toc44532818 h 25 HYPERLINK l _Toc44532819 4.2數(shù)據(jù)資源目錄為數(shù)據(jù)湖提供智能化數(shù)據(jù)管理能力 PAGEREF _Toc44532819 h 26 HYPERLINK l _Toc44532820 4.3交互式查詢服務(wù)為數(shù)據(jù)湖提供高效、便捷服務(wù)能力 PAGEREF _Toc44532820 h 26 HYPERLINK l _Toc44532821 五、數(shù)據(jù)湖的未來展望 PAGEREF _Toc44532821 h 27 HYPERLINK l _Toc44532822 六、結(jié)束語 PAGEREF _Toc44532822 h 27前言隨著大數(shù)據(jù)、人工智能
6、、云計算、物聯(lián)網(wǎng)等數(shù)字化技術(shù)的普及和廣泛應(yīng)用,傳統(tǒng)的數(shù)據(jù)倉庫模式,在快速發(fā)展的企業(yè)面前已然顯的力不從心。數(shù)據(jù)湖,是可以容納大量的原始數(shù)據(jù)的存儲庫和處理系統(tǒng),已經(jīng)成為企業(yè)應(yīng)用大數(shù)據(jù)的重要工具。數(shù)據(jù)湖可以更好地支撐數(shù)據(jù)預(yù)測分析、跨領(lǐng)域分析、主動分析、實時分析以及多元化結(jié)構(gòu)化數(shù)據(jù)分析,可以加速從數(shù)據(jù)到價值的過程,打造相應(yīng)業(yè)務(wù)能力。而有效的數(shù)據(jù)治理才是數(shù)據(jù)資產(chǎn)形成的必要條件,同時數(shù)據(jù)治理是一個持續(xù)性過程,也是數(shù)據(jù)湖逐步實現(xiàn)數(shù)據(jù)價值的過程。未來在多方技術(shù)趨于融合,落地場景將不斷創(chuàng)新,數(shù)據(jù)湖、數(shù)據(jù)治理或?qū)⒊蔀樾碌募夹g(shù)熱點。本文第一章從數(shù)據(jù)管理面臨的挑戰(zhàn)與發(fā)展趨勢分析了數(shù)據(jù)管理面臨的三重挑戰(zhàn)和三個轉(zhuǎn)變以及數(shù)
7、據(jù)管理技術(shù)的演進(jìn)路線,引出了數(shù)據(jù)湖的概念;第二章給出了數(shù)據(jù)湖的定義及特點,分析了數(shù)據(jù)倉庫與數(shù)據(jù)湖的異同并介紹了數(shù)據(jù)湖的架構(gòu)體系;第三章分析了數(shù)據(jù)湖遇到的挑戰(zhàn),指出通過數(shù)據(jù)智能化治理是實現(xiàn)數(shù)據(jù)湖價值的必由之路,對構(gòu)建數(shù)據(jù)湖治理體系進(jìn)行了詳細(xì)的分析;第四章給出了Amazon Athena和AWS Glue中國區(qū)域最佳實踐案例,并以具體產(chǎn)品為例說明數(shù)據(jù)湖數(shù)據(jù)管理的4個能力,以幫助讀者對數(shù)據(jù)湖管理技術(shù)有更為深入詳細(xì)的認(rèn)識;第五章對數(shù)據(jù)湖未來的發(fā)展進(jìn)行了展望。希望對相關(guān)領(lǐng)域從業(yè)人員有所借鑒和幫助。數(shù)據(jù)處理技術(shù)的發(fā)展趨勢與挑戰(zhàn)在數(shù)字經(jīng)濟(jì)時代,應(yīng)用程序在不斷地產(chǎn)生并儲存大量數(shù)據(jù),而這些數(shù)據(jù)卻無法及時被其他程
8、序使用,導(dǎo)致“數(shù)據(jù)孤島”產(chǎn)生。數(shù)據(jù)湖的誕生,不僅解決了“數(shù)據(jù)孤島”的問題,還使企業(yè)獲得更強(qiáng)的數(shù)據(jù)使用能力。作為存儲企業(yè)原始數(shù)據(jù)的“大型倉庫”,數(shù)據(jù)湖結(jié)合先進(jìn)的數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)技術(shù),不但能幫助企業(yè)構(gòu)建更多優(yōu)化后的運(yùn)營模型,還能為企業(yè)提供預(yù)測分析、推薦模型等能力,促進(jìn)企業(yè)增長。1.1數(shù)據(jù)管理面臨的挑戰(zhàn)和轉(zhuǎn)變隨著大數(shù)據(jù)技術(shù)日益成熟,企業(yè)對經(jīng)營管理風(fēng)險防控、可視化監(jiān)控、預(yù)測性分析和精細(xì)化管理提出了更高的要求,企業(yè)需要打破不同業(yè)務(wù)領(lǐng)域之間的壁壘,真正做到數(shù)據(jù)和業(yè)務(wù)流程的融會貫通,進(jìn)一步挖掘數(shù)據(jù)價值,提升企業(yè)綜合決策的能力,提高企業(yè)工作和管理效率。(1)數(shù)據(jù)管理面臨的三個挑戰(zhàn)1)數(shù)據(jù)倉庫模式導(dǎo)致的煙囪式
9、建設(shè)與數(shù)據(jù)需跨業(yè)務(wù)線廣泛連接之間的挑戰(zhàn);2)傳統(tǒng)數(shù)據(jù)庫不能應(yīng)對數(shù)據(jù)的增長,數(shù)據(jù)ETL、數(shù)據(jù)建模工作的響應(yīng)速度與數(shù)據(jù)反哺業(yè)務(wù)迭代創(chuàng)新之間的挑戰(zhàn);例如:移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)時代,產(chǎn)生了大量的網(wǎng)站數(shù)據(jù),社交媒體數(shù)據(jù),物聯(lián)網(wǎng)設(shè)備數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)。導(dǎo)致數(shù)據(jù)倉庫無法滿足這些多元化的數(shù)據(jù)結(jié)構(gòu)的存儲和查詢,以及非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)的交叉分析。3)數(shù)據(jù)賦能與業(yè)務(wù)場景探索脫節(jié)的挑戰(zhàn)。(2)“數(shù)據(jù)+平臺+應(yīng)用”的新生態(tài)模式,實現(xiàn)數(shù)據(jù)分析三個方面的轉(zhuǎn)變1)從統(tǒng)計分析向預(yù)測分析轉(zhuǎn)變從利用報表、圖像展示等方式顯示當(dāng)前數(shù)據(jù)的內(nèi)容概況,轉(zhuǎn)變?yōu)槔萌斯ぶ悄?、機(jī)器學(xué)習(xí)等手段預(yù)測數(shù)據(jù)的未來變化規(guī)律。2)從非實時向?qū)崟r分析轉(zhuǎn)變經(jīng)營決
10、策者需更及時、快速的獲取業(yè)務(wù)數(shù)據(jù),以便及時根據(jù)市場變化調(diào)整經(jīng)營策略。采用內(nèi)存計算、消息隊列等大數(shù)據(jù)分析方式實現(xiàn)實時分析。3)從結(jié)構(gòu)化數(shù)據(jù)向多元化轉(zhuǎn)變利用自然語言處理、語音識別、圖像識別等技術(shù),將非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)相結(jié)合,完善客戶、供應(yīng)商畫像、設(shè)備的精準(zhǔn)度,實現(xiàn)精準(zhǔn)營銷、物資供應(yīng)和預(yù)防性維修等。1.2數(shù)據(jù)湖的定義及發(fā)展需求數(shù)據(jù)湖(Data Lake)是Pentaho的CTO James Dixon提出來的,是一種數(shù)據(jù)存儲理念即在系統(tǒng)或存儲庫中以自然格式存儲數(shù)據(jù)的方法。目前,Hadoop是最常用的部署數(shù)據(jù)湖的技術(shù),所以很多人會覺得數(shù)據(jù)湖就是Hadoop集群。數(shù)據(jù)湖是一個概念,而Hadoop是
11、用于實現(xiàn)這個概念的技術(shù)。數(shù)據(jù)湖到底是什么?業(yè)內(nèi)并沒有達(dá)成共識定義。我們先看看Amazon AWS把數(shù)據(jù)湖定義為: Amazon S3存儲、數(shù)據(jù)目錄、數(shù)據(jù)冷備;并輔之以數(shù)據(jù)移動工具、數(shù)據(jù)分析工具、機(jī)器學(xué)習(xí)工具。注:為了維持定義的精確性, 看英文原文如何描述。從Amazon AWS得到的解釋:A data lake is a centralized repository that allows you to store all your structured and unstructured data at any scale. You can store your data as-is, wit
12、hout having to first structure the data, and run different types of analyticsfrom dashboards and visualizations to big data processing, real-time analytics, and machine learning to guide better decisions. 圖1.數(shù)據(jù)湖存儲數(shù)據(jù)類型數(shù)據(jù)湖是一個存儲企業(yè)的各種各樣原始數(shù)據(jù)的大型倉庫,其中的數(shù)據(jù)可供存取、處理、分析及傳輸。數(shù)據(jù)湖從企業(yè)的多個數(shù)據(jù)源獲取原始數(shù)據(jù),并且針對不同的目的,同一份原始數(shù)據(jù)還可能
13、有多種滿足特定內(nèi)部模型格式的數(shù)據(jù)副本。圖2.未經(jīng)處理和包裝的原生狀態(tài)“水庫”(1)數(shù)據(jù)湖是有一個中心化的存儲,所有的數(shù)據(jù)以它本來的形式【包括結(jié)構(gòu)化數(shù)據(jù)(關(guān)系數(shù)據(jù)庫數(shù)據(jù)),半結(jié)構(gòu)化數(shù)據(jù)(CSV、XML、JSON等),非結(jié)構(gòu)化數(shù)據(jù)(電子郵件,文檔,PDF)和二進(jìn)制數(shù)據(jù)(圖像、音頻、視頻)】從而形成一個容納所有形式數(shù)據(jù)的集中式數(shù)據(jù)存儲,進(jìn)而為后續(xù)的報表、可視化分析、實時分析、以至于機(jī)器學(xué)習(xí)提供數(shù)據(jù)支撐。(2)數(shù)據(jù)湖就像一個大型容器,與真正的湖泊和河流非常相似。就像在湖中你有多個支流進(jìn)來一樣,數(shù)據(jù)湖有結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù),機(jī)器到機(jī)器,實時流動的日志。(3)數(shù)據(jù)湖是一種經(jīng)濟(jì)有效的方式來存儲組織的所有
14、數(shù)據(jù)以供以后處理。研究分析師可以專注于在數(shù)據(jù)中找到意義模式而不是數(shù)據(jù)本身。1.3從數(shù)據(jù)庫、數(shù)據(jù)倉庫到數(shù)據(jù)湖演變趨勢從1960年開始,數(shù)據(jù)管理經(jīng)歷了數(shù)據(jù)收集、數(shù)據(jù)庫、數(shù)據(jù)倉庫的階段,2001年后隨著互聯(lián)網(wǎng)的迅速發(fā)展,大數(shù)據(jù)時代來臨,對數(shù)據(jù)管理技術(shù)提出了全新的要求,未來朝著數(shù)據(jù)湖的方向演進(jìn)。圖3.數(shù)據(jù)庫、數(shù)據(jù)倉庫到數(shù)據(jù)湖發(fā)展歷程數(shù)據(jù)庫的數(shù)據(jù)有對齊的要求,數(shù)據(jù)庫是面向應(yīng)用的,每個應(yīng)用可能需要一個數(shù)據(jù)庫。如果一個公司有幾十個應(yīng)用,就會有幾十個數(shù)據(jù)庫。幾十個數(shù)據(jù)庫之間怎么去連接分析、統(tǒng)一分析?是沒有辦法的。隨后就由數(shù)據(jù)庫發(fā)展成了一個數(shù)據(jù)倉庫,數(shù)據(jù)倉庫不面向任何應(yīng)用。但是,它對接到數(shù)據(jù)庫,如果需要每天定時
15、有些 ETL 的批處理的任務(wù),將不同應(yīng)用和數(shù)據(jù)匯總起來,按照一些范式模型去做連接分析,得到一定時間段的總體數(shù)據(jù)視圖。這個前提是很多數(shù)據(jù)庫要給數(shù)倉供應(yīng)數(shù)據(jù)。而隨著數(shù)據(jù)量的增加及數(shù)據(jù)類型的變化,很多非結(jié)構(gòu)化的數(shù)據(jù),比如視頻、音頻及文檔等占據(jù)數(shù)據(jù)總量的比例越來越多。原來的數(shù)據(jù)倉庫已經(jīng)很難繼續(xù)支撐,因此越來越多的企業(yè)希望把原始數(shù)據(jù)以真實的初始狀態(tài)保留下來。在這種需求的推動下,數(shù)據(jù)湖的理念便開始成形,其可以把數(shù)據(jù)保存在原始狀態(tài),以便于企業(yè)從多個維度進(jìn)行更多分析。數(shù)據(jù)可以很輕松進(jìn)入數(shù)據(jù)湖,用戶也可以延遲數(shù)據(jù)的采集、數(shù)據(jù)清洗、規(guī)范化的處理,可以把這些延遲到業(yè)務(wù)需求來了之后再進(jìn)行處理。傳統(tǒng)的數(shù)倉,因為模型范式
16、的要求,業(yè)務(wù)不能隨便的變遷,變遷涉及到底層數(shù)據(jù)的各種變化。相對來說,數(shù)據(jù)湖就更加的靈活,能更快速的適應(yīng)上層數(shù)據(jù)應(yīng)用的變化。1.4數(shù)據(jù)倉庫與數(shù)據(jù)湖差異數(shù)據(jù)湖是按原始數(shù)據(jù)格式存儲,旨在任何數(shù)據(jù)可以以最原始的形態(tài)儲存,可是結(jié)構(gòu)化或者非結(jié)構(gòu)化數(shù)據(jù),以確保數(shù)據(jù)在使用時可以不丟失任何細(xì)節(jié),所有的實時數(shù)據(jù)和批量數(shù)據(jù),都匯總到數(shù)據(jù)湖當(dāng)中,然后從湖中取相關(guān)數(shù)據(jù)用于機(jī)器學(xué)習(xí)或者數(shù)據(jù)分析。(1)相關(guān)差異點在儲存方面上,數(shù)據(jù)湖中所有數(shù)據(jù)都保持原始形式,僅在分析時再進(jìn)行轉(zhuǎn)換。數(shù)據(jù)倉庫就是數(shù)據(jù)通常從業(yè)務(wù)系統(tǒng)中提取。在將數(shù)據(jù)加載到數(shù)據(jù)倉庫之前,會對數(shù)據(jù)進(jìn)行清理與轉(zhuǎn)換。在數(shù)據(jù)抓取中,數(shù)據(jù)湖就是捕獲半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。而數(shù)
17、據(jù)倉庫則是捕獲結(jié)構(gòu)化數(shù)據(jù)并將其按模型來組織。數(shù)據(jù)湖的目的就是數(shù)據(jù)湖適合深入分析的非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)科學(xué)家可能會用具有預(yù)測建模和統(tǒng)計分析等功能的高級分析工具。而數(shù)據(jù)倉庫就是數(shù)據(jù)倉庫非常適用于數(shù)據(jù)指標(biāo)、報表、報告等分析用途,因為它具有高度結(jié)構(gòu)化。數(shù)據(jù)湖通常在存儲數(shù)據(jù)之后定義架構(gòu),較少的初始工作并提供更大的靈活性。而在數(shù)據(jù)倉庫中存儲數(shù)據(jù)之前需定義架構(gòu)。圖4.數(shù)據(jù)倉庫和數(shù)據(jù)湖的差異和聯(lián)系(2) 數(shù)據(jù)湖主要特點數(shù)據(jù)湖與數(shù)據(jù)倉庫的理念不同,相對于數(shù)據(jù)倉庫的注重數(shù)據(jù)管控,數(shù)據(jù)湖更傾向于數(shù)據(jù)服務(wù)。數(shù)據(jù)湖對數(shù)據(jù)從業(yè)人員的素質(zhì)要求更高;對數(shù)據(jù)系統(tǒng)的要求更高,要防止數(shù)據(jù)湖變數(shù)據(jù)沼澤,此時就需要借助現(xiàn)代化的數(shù)據(jù)治理能
18、力。數(shù)據(jù)湖與數(shù)據(jù)倉庫不是互斥的。當(dāng)前條件下,數(shù)據(jù)湖并不能完全替代數(shù)據(jù)倉庫。尤其是對于已經(jīng)使用數(shù)據(jù)倉庫的公司,這種情況下數(shù)據(jù)倉庫可以作為數(shù)據(jù)湖的一個數(shù)據(jù)來源。與數(shù)據(jù)存儲在文件和文件夾中的分層數(shù)據(jù)倉庫不同,數(shù)據(jù)湖具有扁平的架構(gòu)。數(shù)據(jù)湖中的每個數(shù)據(jù)元素都被賦予唯一標(biāo)識符,并標(biāo)記有一組元數(shù)據(jù)信息。數(shù)據(jù)湖的三個層次,分為數(shù)據(jù)庫等底層存儲、元數(shù)據(jù)管理、跨不同數(shù)據(jù)源的 SQL 引擎。數(shù)據(jù)湖也是數(shù)據(jù)倉庫發(fā)展的高級階段,對于數(shù)據(jù)倉庫來說,數(shù)據(jù)湖有很多擴(kuò)展能力。數(shù)據(jù)倉庫解決的核心問題,數(shù)據(jù)湖也解決了一遍,而且涉及面更廣。數(shù)據(jù)湖的架構(gòu)體系2.1數(shù)據(jù)湖架構(gòu)體系數(shù)據(jù)、算法和算力三大因素正在全力推動數(shù)據(jù)湖應(yīng)用快速發(fā)展。企
19、業(yè)建立統(tǒng)一的數(shù)據(jù)湖平臺,完成數(shù)據(jù)的采集、存儲、處理、治理,提供數(shù)據(jù)集成共享服務(wù)、高性能計算能力和大數(shù)據(jù)分析算法模型,支撐經(jīng)營管理數(shù)據(jù)分析應(yīng)用的全面開展。為規(guī)?;瘮?shù)據(jù)應(yīng)用賦能。數(shù)據(jù)湖技術(shù)架構(gòu)涉及了數(shù)據(jù)接入(轉(zhuǎn)移)、數(shù)據(jù)存儲、數(shù)據(jù)計算、數(shù)據(jù)應(yīng)用、數(shù)據(jù)治理、元數(shù)據(jù)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)資源目錄、數(shù)據(jù)安全及數(shù)據(jù)審計等10個方面領(lǐng)域,以下簡要作一介紹:圖5.數(shù)據(jù)湖包含技術(shù)體系1)數(shù)據(jù)接入(移動)數(shù)據(jù)提取允許連接器從不同的數(shù)據(jù)源獲取數(shù)據(jù)并加載到數(shù)據(jù)湖中。數(shù)據(jù)提取支持:所有類型的結(jié)構(gòu)化,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。批量,實時,一次性負(fù)載等多次攝取;在數(shù)據(jù)接入方面,需提供適配的多源異構(gòu)數(shù)據(jù)資源接入方式,為企業(yè)數(shù)據(jù)湖的數(shù)
20、據(jù)抽取匯聚提供通道。2)數(shù)據(jù)存儲數(shù)據(jù)存儲應(yīng)是可擴(kuò)展的,提供經(jīng)濟(jì)高效的存儲并允許快速訪問數(shù)據(jù)探索。它應(yīng)該支持各種數(shù)據(jù)格式。3)數(shù)據(jù)計算數(shù)據(jù)湖需要提供多種數(shù)據(jù)分析引擎,來滿足數(shù)據(jù)計算需求。需要滿足批量、實時、流式等特定計算場景。此外,向下還需要提供海量數(shù)據(jù)的訪問能力,可滿足高并發(fā)讀取需求,提高實時分析效率。并需要兼容各種開源的數(shù)據(jù)格式,直接訪問以這些格式存儲的數(shù)據(jù)。4)數(shù)據(jù)治理數(shù)據(jù)治理是管理數(shù)據(jù)湖中使用的數(shù)據(jù)的可用性,安全性和完整性的過程。數(shù)據(jù)治理是一項持續(xù)的工作,通過闡明戰(zhàn)略、建立框架、制定方 針以及實現(xiàn)數(shù)據(jù)共享,為所有其他數(shù)據(jù)管理職能提供指導(dǎo)和監(jiān)督。5)元數(shù)據(jù)元數(shù)據(jù)管理是數(shù)據(jù)湖整個數(shù)據(jù)生命周期
21、中需要做的基礎(chǔ)性工作,企業(yè)需要對元數(shù)據(jù)的生命周期進(jìn)行管理。元數(shù)據(jù)管理本身并不是目的,它是組織從其數(shù)據(jù)中獲得更多價值的一種手段,要達(dá)到數(shù)據(jù)驅(qū)動,組織必須先是由元數(shù)據(jù)驅(qū)動的。6)數(shù)據(jù)資源目錄數(shù)據(jù)資源目錄的初始構(gòu)建,通常會掃描大量數(shù)據(jù)以收集元數(shù)據(jù)。目錄的數(shù)據(jù)范圍可能包括全部數(shù)據(jù)湖中被確定為有價值和可共享的數(shù)據(jù)資產(chǎn)。數(shù)據(jù)資源目錄使用算法和機(jī)器學(xué)習(xí)自動完成查找和掃描數(shù)據(jù)集、提取元數(shù)據(jù)以支持?jǐn)?shù)據(jù)集發(fā)現(xiàn)、暴露數(shù)據(jù)沖突、推斷語義和業(yè)務(wù)術(shù)語、給數(shù)據(jù)打標(biāo)簽以支持搜索、以及標(biāo)識隱私、安全性和敏感數(shù)據(jù)的合規(guī)性。7)隱私與安全數(shù)據(jù)安全是安全政策和安全程序的規(guī)劃、開發(fā)和執(zhí)行、以提供對數(shù)據(jù)和信息資產(chǎn)的身份驗證、授權(quán)、訪問和
22、審核。需要在數(shù)據(jù)湖的每個層中實現(xiàn)安全性。它始于存儲,發(fā)掘和消耗,基本需求是停止未授權(quán)用戶的訪問。身份驗證、審計、授權(quán)和數(shù)據(jù)保護(hù)是數(shù)據(jù)湖安全的一些重要特性。8)數(shù)據(jù)質(zhì)量數(shù)據(jù)質(zhì)量是數(shù)據(jù)湖架構(gòu)的重要組成部分。數(shù)據(jù)用于確定商業(yè)價值,從劣質(zhì)數(shù)據(jù)中提取洞察力將導(dǎo)致質(zhì)量差的洞察力。數(shù)據(jù)質(zhì)量重點關(guān)注需求、檢查、分析和提升的實現(xiàn)能力,對數(shù)據(jù)從計劃、獲取、存儲、共享、維護(hù)、應(yīng)用、消亡生命周期的每個階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題進(jìn)行識別、度量、監(jiān)控、預(yù)警等一系列活動,并通過改善和提高組織的管理水平使得數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高。9) 數(shù)據(jù)審計兩個主要的數(shù)據(jù)審計任務(wù)是跟蹤對關(guān)鍵數(shù)據(jù)集的更改:跟蹤重要數(shù)據(jù)集元素的更改;捕
23、獲如何/何時/以及更改這些元素的人員。數(shù)據(jù)審計有助于評估風(fēng)險和合規(guī)性。10) 數(shù)據(jù)應(yīng)用數(shù)據(jù)應(yīng)用是指通過對數(shù)據(jù)湖的數(shù)據(jù)進(jìn)行統(tǒng)一的管理、加工和應(yīng)用,對內(nèi)支持業(yè)務(wù)運(yùn)營、流程優(yōu)化、營銷推廣、風(fēng)險管理、渠道整合等活動,對外支持?jǐn)?shù)據(jù)開放共享、數(shù)據(jù)服務(wù)等活動,從而提升數(shù)據(jù)在組織運(yùn)營管理過程中的支撐輔助作用,同時實現(xiàn)數(shù)據(jù)價值的變現(xiàn)。在基本的計算能力之上,數(shù)據(jù)湖需提供批量報表、即席查詢、交互式分析、數(shù)據(jù)倉庫、機(jī)器學(xué)習(xí)等上層應(yīng)用,還需要提供自助式數(shù)據(jù)探索能力。2.2以AWS數(shù)據(jù)湖產(chǎn)品為例,實現(xiàn)數(shù)據(jù)管理4個能力AWS數(shù)據(jù)湖方案主要是基于AWS云服務(wù),該方案提出在AWS云上部署高可用的數(shù)據(jù)湖架構(gòu),并提供用戶友好的數(shù)據(jù)
24、集搜索和請求控制臺。AWS數(shù)據(jù)湖方案主要借助了Amazon S3、AWS Glue、Amazon Athena等AWS 服務(wù)來提供諸如數(shù)據(jù)提交、接收處理、數(shù)據(jù)集管理、數(shù)據(jù)轉(zhuǎn)換和分析、構(gòu)建和部署機(jī)器學(xué)習(xí)工具、搜索、發(fā)布及可視化等功能。建立以上基礎(chǔ)后,再由用戶選擇其它大數(shù)據(jù)工具來擴(kuò)充數(shù)據(jù)湖。圖6.AWS數(shù)據(jù)湖解決方案圖圖6 AWS數(shù)據(jù)湖解決方案提供了完整的數(shù)據(jù)架構(gòu)支持,為企業(yè)構(gòu)建一站式數(shù)據(jù)處理體驗,目前已在多個行業(yè)和客戶中使用。例如:數(shù)據(jù)湖解決方案支撐平安城市“一云一湖一平臺”系統(tǒng)架構(gòu),為公安客戶構(gòu)建了物理分散(分散在各地市、區(qū)縣的數(shù)據(jù))、邏輯統(tǒng)一的數(shù)據(jù)治理架構(gòu)。圖7.AWS整個大數(shù)據(jù)分析服務(wù)的全
25、景圖AWS數(shù)據(jù)湖的一個典型架構(gòu),我們看到數(shù)據(jù)湖并不是一個產(chǎn)品、也不是一項技術(shù),而是由多個大數(shù)據(jù)組件、云服務(wù)組成的一個解決方案??梢匀轿坏目梢蕴峁┳钕冗M(jìn)的數(shù)據(jù)湖的大數(shù)據(jù)分析。(1)數(shù)據(jù)移動組件數(shù)據(jù)遷移和移動的工具,有AWS Database Migration Service (AWS DMS)數(shù)據(jù)庫遷移服務(wù),還有AWS Snowball (雪球),像快遞一樣,可以把數(shù)據(jù)放在一個專用的硬盤類似的裝置里面來快遞的服務(wù)。還有像混合云里面,AWS Storage Gateway通過一個數(shù)據(jù)的門戶網(wǎng)關(guān)來轉(zhuǎn)換數(shù)據(jù),同時推出了AWS Backup數(shù)據(jù)備份服務(wù),這一類的服務(wù)是更底層的作為數(shù)據(jù)移動的服務(wù)。在數(shù)
26、據(jù)移動組件中,還有Amazon Kinesis和Amazon Managed Streaming of Apache Kafka這些消息隊列和流計算工具,其中Amazon Kinesis能夠輕松收集、處理和分析實時流數(shù)據(jù),可以使用Kinesis Data Firehose將流式數(shù)據(jù)持續(xù)加載到Amazon S3數(shù)據(jù)湖中。近期在中國上線的AWS Glue一項全托管的數(shù)據(jù)提取、轉(zhuǎn)換和加載 (ETL) 服務(wù)及元數(shù)據(jù)目錄服務(wù)。它能提供完全托管的提取、轉(zhuǎn)換和加載 (ETL)服務(wù),可以用來登記、清理和豐富數(shù)據(jù),并可以在數(shù)據(jù)存儲之間可靠地移動數(shù)據(jù),顯著降低創(chuàng)建ETL任務(wù)所花費(fèi)的費(fèi)用和時間以及其復(fù)雜性。(2)數(shù)
27、據(jù)湖組件數(shù)據(jù)湖最主要的元素是三大元素:一個是Amazon S3/Glacier,一個是AWS Glue和Amazon Athena,一個是AWS Lake Formation。最核心的組件是Amazon S3,它可以存儲二進(jìn)位為基礎(chǔ)的任何信息,包含結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),例如:企業(yè)信息系統(tǒng)MES、SRM等系統(tǒng)中的關(guān)系型數(shù)據(jù),從手機(jī)、攝像頭拍來的照片、音視頻文件,從火力發(fā)電機(jī)等各種設(shè)備產(chǎn)生的數(shù)據(jù)文件等。借助Amazon S3,可以通過經(jīng)濟(jì)高效的方式構(gòu)建和擴(kuò)展任何規(guī)模的數(shù)據(jù)湖。上面提及到的AWS Glue服務(wù),還是可以提供數(shù)據(jù)目錄服務(wù)的功能。因為數(shù)據(jù)都存在數(shù)據(jù)湖里面,在這個過程中,要對這些數(shù)據(jù)打上
28、標(biāo)簽,把它做分類的工作。Glue就像爬蟲一樣對數(shù)據(jù)湖里的海量數(shù)據(jù),進(jìn)行自動爬取,生成數(shù)據(jù)目錄的功能。而Amazon Athena是一種交互式查詢服務(wù),讓您能夠輕松使用標(biāo)準(zhǔn) SQL 直接分析Amazon S3中的數(shù)據(jù)。AWS Lake Formation:把建立數(shù)據(jù)湖操作的步驟通過工具自動化管理起來,幫助企業(yè)在短短的幾天的時間完成數(shù)據(jù)湖的建設(shè)工作。(3)數(shù)據(jù)分析組件Amazon Redshift是數(shù)據(jù)倉庫,Amazon EMR是大數(shù)據(jù)分析,AWS Glue在里面仍起關(guān)鍵作用,來實現(xiàn)無服務(wù)器的數(shù)據(jù)分析,然后是Amazon Athena (雅典娜) 是做交互式的分析,Amazon Elasticse
29、arch是做一些運(yùn)維分析,還有Amazon Kinesis做實時的數(shù)據(jù)分析。Amazon Redshift 是世界上速度最快的云數(shù)據(jù)倉庫,并且速度每年都在提高。對于性能密集型工作負(fù)載,您可以使用新的RA3實例將任何云數(shù)據(jù)倉庫的性能提高多達(dá)3倍。Redshift Spectrum直接在Amazon S3數(shù)據(jù)湖中查詢數(shù)據(jù)的功能,客戶只需數(shù)小時而不是數(shù)天或數(shù)周,就能輕松整合新的數(shù)據(jù)源。Amazon Athena 是一種交互式查詢服務(wù),讓您能夠輕松使用標(biāo)準(zhǔn)SQL分析Amazon S3中的數(shù)據(jù)。只需指向存儲在 Amazon S3中的數(shù)據(jù),定義架構(gòu)并使用標(biāo)準(zhǔn)SQL開始查詢。就可在數(shù)秒內(nèi)獲取最多的結(jié)果。使用
30、Athena,無需執(zhí)行復(fù)雜的ETL作業(yè)來為數(shù)據(jù)分析做準(zhǔn)備。(4)機(jī)器學(xué)習(xí)組件Amazon SageMaker是一個人工智能的服務(wù),把這些大數(shù)據(jù)用來做機(jī)器學(xué)習(xí)、人工智能的數(shù)據(jù)分析,做更多的自動的預(yù)測性的分析。Amazon SageMaker也是一項完全托管的服務(wù),可以幫助開發(fā)人員和數(shù)據(jù)科學(xué)家快速構(gòu)建、訓(xùn)練和部署機(jī)器學(xué)習(xí)(ML)模型。SageMaker完全消除了機(jī)器學(xué)習(xí)過程中每個步驟的繁重工作,讓開發(fā)高質(zhì)量模型變得更加輕松。2.3數(shù)據(jù)湖數(shù)據(jù)管理4個能力AWS數(shù)據(jù)湖在數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)服務(wù)和安全管控四個方面能力。(1)數(shù)據(jù)處理層面在AWS上輕松運(yùn)行Spark, Hadoop, Hive, Pr
31、esto, Hbase等大數(shù)據(jù)分析,更多要使用實時的數(shù)據(jù),原來更多的是批量的歷史數(shù)據(jù),處理實時數(shù)據(jù)服務(wù)叫Amazon Kinesis,還有四個不同的類型,有的是直接處理視頻的數(shù)據(jù)流,有的是可以把數(shù)據(jù)直接導(dǎo)到關(guān)鍵的服務(wù),每個各自都有不同的用法。端到端實時建模、跨引擎建模、流式建模等能力優(yōu)化存儲效率,提升存儲能力、高效的內(nèi)存計算能力和高并發(fā)數(shù)據(jù)處理能力。(2)數(shù)據(jù)分析層面AWS Glue來實現(xiàn)無服務(wù)器的數(shù)據(jù)分析, Amazon Athena是做交互式的分析,Amazon Elasticsearch是做一些運(yùn)維分析,Amazon Kinesis做實時的數(shù)據(jù)分析。實現(xiàn)六個轉(zhuǎn)變:無服務(wù)器分析,提供按需數(shù)
32、據(jù)湖分析轉(zhuǎn)變、從統(tǒng)計分析向預(yù)測分析轉(zhuǎn)變、從被動分析向主動分析轉(zhuǎn)變、從非實時向?qū)崟r分析轉(zhuǎn)變、從結(jié)構(gòu)化數(shù)據(jù)向多元化轉(zhuǎn)變。(3)提供多種數(shù)據(jù)服務(wù)提供統(tǒng)一的、標(biāo)準(zhǔn)的數(shù)據(jù)服務(wù),數(shù)據(jù)資產(chǎn)可知、可查、可用,要有資產(chǎn)清單、數(shù)據(jù)資產(chǎn)共享需要授權(quán)和流程的管控。ETL和數(shù)據(jù)目錄服務(wù);人工智能服務(wù):幫助開發(fā)人員將預(yù)先構(gòu)建的人工智能功能插入到他們的應(yīng)用程序中;機(jī)器學(xué)習(xí)平臺服務(wù):幫助所有開發(fā)人員輕松入手并深入了解機(jī)器學(xué)習(xí)。(4)數(shù)據(jù)安全及管控層面Amazon S3、Amazon DynamoDB、Amazon Redshift具備很好的數(shù)據(jù)安全機(jī)制,數(shù)據(jù)的傳輸和存儲都是加密的,加密密鑰只有客戶自己掌握,防止數(shù)據(jù)泄露帶來的
33、風(fēng)險,保障數(shù)據(jù)共享的安全。另外,還有Amazon VPC安全策略、AWS IAM、AWS KMS等安全組件為AWS數(shù)據(jù)湖保駕護(hù)航,為企業(yè)數(shù)據(jù)的存儲、處理、使用提供一個安全、合規(guī)的數(shù)據(jù)環(huán)境,平臺管控要可視化,提高運(yùn)維效率,實現(xiàn)統(tǒng)一的數(shù)據(jù)流監(jiān)控,降低運(yùn)維成本。如何通過數(shù)據(jù)治理實現(xiàn)數(shù)據(jù)湖商業(yè)價值數(shù)據(jù)湖對一個企業(yè)的數(shù)字化轉(zhuǎn)型和可持續(xù)發(fā)展起著至關(guān)重要的作用。構(gòu)建開放、靈活、可擴(kuò)展的企業(yè)級統(tǒng)一數(shù)據(jù)管理和分析平臺, 將企業(yè)內(nèi)、外部數(shù)據(jù)隨需關(guān)聯(lián),打破了數(shù)據(jù)的系統(tǒng)界限。1)利用數(shù)據(jù)湖智能分析、數(shù)據(jù)可視化等技術(shù),實現(xiàn)了數(shù)據(jù)共享、日常報表自動生成、快速和智能分析,滿足企業(yè)各級數(shù)據(jù)分析應(yīng)用需求。2)深度挖掘數(shù)據(jù)價值,
34、助力企業(yè)數(shù)字化轉(zhuǎn)型落地。實現(xiàn)了數(shù)據(jù)的目錄、模型、標(biāo)準(zhǔn)、認(rèn)責(zé)、安全、可視化、共享等管理,實現(xiàn)數(shù)據(jù)集中存儲、處理、分類與管理,實現(xiàn)報表生成自動化、數(shù)據(jù)分析敏捷化、數(shù)據(jù)挖掘可視化,實現(xiàn)數(shù)據(jù)質(zhì)量評估、落地管理流程。3.1數(shù)據(jù)湖遇到挑戰(zhàn)數(shù)據(jù)湖本身是一個中心化的存儲,能夠存儲任意規(guī)模的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)湖的優(yōu)勢就是數(shù)據(jù)可以先作為資產(chǎn)存放起來,問題就在于如何把這些數(shù)據(jù)在業(yè)務(wù)中利用起來。當(dāng)部署了數(shù)據(jù)湖之后,數(shù)據(jù)治理問題將會接踵而至,比如從數(shù)據(jù)湖到數(shù)據(jù)湖,如何將數(shù)據(jù)進(jìn)行分流、湖的數(shù)據(jù)如何進(jìn)行整理等。數(shù)據(jù)倉庫里的數(shù)據(jù)是經(jīng)過過整理、清晰易懂的。而數(shù)據(jù)湖的概念是不經(jīng)處理直接進(jìn)行堆砌,那么數(shù)據(jù)湖就有可能會變成“
35、數(shù)據(jù)沼澤”,篩選難度會變大。由于定義不正確、信息不完整、數(shù)據(jù)陳舊或無法找到所需信息,它需要更多的元數(shù)據(jù)來理解存儲在數(shù)據(jù)湖中的數(shù)據(jù)資產(chǎn),包括數(shù)據(jù)內(nèi)容、數(shù)據(jù)資產(chǎn)圖譜、數(shù)據(jù)敏感性、用戶喜好、數(shù)據(jù)質(zhì)量、上下文(缺乏上下文將無法用于分析)和數(shù)據(jù)價值等業(yè)務(wù)層面的理解。另外這些系統(tǒng)和應(yīng)用是技術(shù)人員開發(fā)的,由于技術(shù)人員和業(yè)務(wù)人員的思維和“語言”存在差異,這使得業(yè)務(wù)用戶獲取數(shù)據(jù)變得更加復(fù)雜和困難。3.2避免數(shù)據(jù)沼澤如何讓數(shù)據(jù)湖的水保持清亮不會成為數(shù)據(jù)沼澤?“數(shù)據(jù)湖的數(shù)據(jù)不被有效使用就會成為大垃圾場。”中國有句諺語:“流水不腐,戶樞不蠹”。數(shù)據(jù)只有流動起來,才可以不成為數(shù)據(jù)沼澤,湖泊只是暫存數(shù)據(jù)河流的基地。數(shù)據(jù)流
36、動就意味著所有的數(shù)據(jù)產(chǎn)生,最終要有它的耕種者和使用者。要讓數(shù)據(jù)有效流動起來,就要建立有效的“數(shù)據(jù)河”(Data River)。業(yè)界在數(shù)據(jù)湖的嘗試上一般都會忽視數(shù)據(jù)治理的重要性,這是很危險的,由它導(dǎo)致的數(shù)據(jù)沼澤也是企業(yè)對數(shù)據(jù)湖持續(xù)觀望的原因之一。3.3數(shù)據(jù)智能化治理是數(shù)據(jù)湖實現(xiàn)價值必有之路對數(shù)據(jù)治理的需求實際更強(qiáng)了。因為與“預(yù)建?!狈绞降臄?shù)倉不同,湖中的數(shù)據(jù)更加分散、無序、不規(guī)則化等,需要通過治理工作達(dá)到數(shù)據(jù)“可用”狀態(tài),否則數(shù)據(jù)湖很可能會“腐化”成數(shù)據(jù)沼澤,浪費(fèi)大量的IT資源。平臺化的數(shù)據(jù)湖架構(gòu)能否驅(qū)動企業(yè)業(yè)務(wù)發(fā)展,數(shù)據(jù)治理至關(guān)重要,沒有數(shù)據(jù)湖治理,企業(yè)可能失去有意義的商業(yè)智能。這也是對數(shù)據(jù)湖
37、建設(shè)的最大挑戰(zhàn)之一。數(shù)據(jù)湖以數(shù)據(jù)治理為基礎(chǔ)、建立一套自助服務(wù)為抓手的工具鏈來賦能業(yè)務(wù)發(fā)展。數(shù)據(jù)湖能給企業(yè)帶來多種能力,例如,能實現(xiàn)數(shù)據(jù)的集中式管理,在此之上,企業(yè)能挖掘出很多之前所不具備的能力。另外,數(shù)據(jù)湖結(jié)合先進(jìn)的數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)技術(shù),能幫助企業(yè)構(gòu)建更多優(yōu)化后的運(yùn)營模型,也能為企業(yè)提供其他能力,如預(yù)測分析、推薦模型等,這些模型能刺激企業(yè)能力的后續(xù)增長。圖8.數(shù)據(jù)湖中數(shù)據(jù)全生命周期管理當(dāng)數(shù)據(jù)從采集點流入數(shù)據(jù)湖時,它的元數(shù)據(jù)被捕獲,并根據(jù)其生命周期中的數(shù)據(jù)敏感度從數(shù)據(jù)可追溯性、數(shù)據(jù)全生命周期和數(shù)據(jù)安全等方面進(jìn)行管理。在數(shù)據(jù)大爆發(fā)的背景下,數(shù)據(jù)治理對數(shù)據(jù)湖起到關(guān)鍵作用,因為數(shù)據(jù)治理涉及組織中跨功
38、能和跨業(yè)務(wù)的所有決策機(jī)制。數(shù)據(jù)智能在提供數(shù)據(jù)支持和數(shù)據(jù)治理應(yīng)用方面至關(guān)重要,因為它為企業(yè)提供了在最佳時間內(nèi)將正確的數(shù)據(jù)交付給正確的對象所需的知識。數(shù)據(jù)智能也在幫助專業(yè)人士在工作中變得更高效、更有效,在可靠數(shù)據(jù)的支持下做出更好的數(shù)據(jù)驅(qū)動決策。3.4構(gòu)建數(shù)據(jù)湖的數(shù)據(jù)治理體系相關(guān)思考筆者認(rèn)為,數(shù)據(jù)湖的數(shù)據(jù)治理體系包括元數(shù)據(jù)管控、數(shù)據(jù)資源目錄、主數(shù)據(jù)管控、數(shù)據(jù)服務(wù)、數(shù)據(jù)全生命周期管理、數(shù)據(jù)質(zhì)量提升及隱私與安全管理等內(nèi)容。而這只是數(shù)據(jù)湖管理難題的一部分??紤]全面的數(shù)據(jù)湖治理,包括是誰引入的數(shù)據(jù)、誰負(fù)責(zé)數(shù)據(jù),以及數(shù)據(jù)的定義,以確保數(shù)據(jù)的妥善標(biāo)記和使用,實現(xiàn)對企業(yè)數(shù)據(jù)資源內(nèi)容層面的優(yōu)化改造和有效管控。(1)
39、元數(shù)據(jù)管控傳統(tǒng)的數(shù)據(jù)倉庫將數(shù)據(jù)存儲在關(guān)系表中,而數(shù)據(jù)湖則使用平面結(jié)構(gòu)。每個數(shù)據(jù)元素被分配唯一標(biāo)識符,并用一組元數(shù)據(jù)標(biāo)簽進(jìn)行標(biāo)記。這就是說,數(shù)據(jù)湖沒有數(shù)據(jù)倉庫那么結(jié)構(gòu)化。設(shè)計元數(shù)據(jù)標(biāo)準(zhǔn)及采集方案、元數(shù)據(jù)應(yīng)用、管理流程等,形成企業(yè)級數(shù)據(jù)資源目錄與全鏈?zhǔn)綌?shù)據(jù)流通追蹤,實現(xiàn)對企業(yè)數(shù)據(jù)資源的清晰掌握和數(shù)據(jù)流通全流程的監(jiān)控,滿足分布式部署模式下數(shù)據(jù)資源完整性管理及應(yīng)用的需求。數(shù)據(jù)湖解決方案為企業(yè)中海量的數(shù)據(jù)集提供了一套集中的元數(shù)據(jù)管理系統(tǒng),提供全局的數(shù)據(jù)資源目錄、完整的數(shù)據(jù)元數(shù)據(jù)描述、數(shù)據(jù)血緣關(guān)系,方便員工快速查找了解數(shù)據(jù),更好的支撐數(shù)據(jù)分析。(2)數(shù)據(jù)資源目錄數(shù)據(jù)資源目錄包含業(yè)務(wù)術(shù)語表關(guān)聯(lián)、標(biāo)簽管理、數(shù)
40、據(jù)分類、數(shù)據(jù)來源和全文檢索。通過最大限度的自動化和有限的人工操作,可以從構(gòu)建的數(shù)據(jù)資產(chǎn)目錄中獲得更多價值。例如利用機(jī)器學(xué)習(xí)可以實現(xiàn)數(shù)據(jù)自動分類和打標(biāo)簽。再如,有監(jiān)督學(xué)習(xí)技術(shù)是基于已經(jīng)打上標(biāo)簽的樣本數(shù)據(jù)上訓(xùn)練一個模型,然后將該模型應(yīng)用于所有未打標(biāo)的數(shù)據(jù),在這些數(shù)據(jù)中,實例根據(jù)預(yù)測中的信任度進(jìn)行排序。最自信的預(yù)測然后被添加到標(biāo)記的例子中。這個過程不斷重復(fù),直到所有未標(biāo)記的例子都被標(biāo)記。(3)主數(shù)據(jù)管控面向數(shù)據(jù)湖內(nèi)全量數(shù)據(jù),基于數(shù)據(jù)關(guān)系,實現(xiàn)自動化的主數(shù)據(jù)識別映射、主數(shù)據(jù)一致性維護(hù)、主數(shù)據(jù)關(guān)系發(fā)布等功能,搭建企業(yè)核心業(yè)務(wù)對象數(shù)據(jù)的管理體系,支撐跨業(yè)務(wù)的數(shù)據(jù)聯(lián)動以及基于數(shù)據(jù)驅(qū)動的業(yè)務(wù)協(xié)同。(4)數(shù)據(jù)質(zhì)
41、量提升針對企業(yè)缺乏對全部數(shù)據(jù)資源進(jìn)行系統(tǒng)質(zhì)量控制的現(xiàn)狀,設(shè)計企業(yè)級數(shù)據(jù)質(zhì)量規(guī)則定義、控制管理流程和手段,提高和確保數(shù)據(jù)質(zhì)量,為業(yè)務(wù)應(yīng)用提供規(guī)范、準(zhǔn)確的數(shù)據(jù)支撐。有效的數(shù)據(jù)湖部署需要數(shù)據(jù)質(zhì)量分析師、工程師與數(shù)據(jù)治理團(tuán)隊、數(shù)據(jù)管理員密切合作,以部署數(shù)據(jù)質(zhì)量策略、分析數(shù)據(jù)并采取必要的措施來提高其質(zhì)量。(5)數(shù)據(jù)全生命周期管理數(shù)據(jù)的生命周期,包括數(shù)據(jù)的起源以及數(shù)據(jù)是如何隨時間移動的。它描述了數(shù)據(jù)在各種處理過程中發(fā)生了哪些變化,有助于提供數(shù)據(jù)分析流水線的可見性,并簡化了錯誤溯源。通過對元數(shù)據(jù)的關(guān)系解析和血緣分析,構(gòu)建全維關(guān)系圖譜,實現(xiàn)關(guān)系融合。通過對數(shù)據(jù)的血緣分析、數(shù)據(jù)標(biāo)簽等方法,實現(xiàn)數(shù)據(jù)多版本共存條件
42、下的統(tǒng)一身份和可控的數(shù)據(jù)歸一化,最終實現(xiàn)的數(shù)據(jù)全生命周期管理和追蹤。(6)數(shù)據(jù)服務(wù)1)主題數(shù)據(jù)服務(wù)面向企業(yè)分析應(yīng)用,提供按業(yè)務(wù)主題的數(shù)據(jù)組織能力,支企業(yè)生產(chǎn)管理與經(jīng)營決策的業(yè)務(wù)主題構(gòu)建和分析需求。2)AI數(shù)據(jù)服務(wù)為AI分析引擎創(chuàng)建探索數(shù)據(jù),構(gòu)建基礎(chǔ)標(biāo)簽體系,提供快速、全量的數(shù)據(jù)支撐。3)微服務(wù)數(shù)據(jù)服務(wù)按照云端SaaS應(yīng)用的開發(fā)部署模式和彈性部署需求,構(gòu)建微服務(wù)數(shù)據(jù)組織能力,發(fā)布數(shù)據(jù)服務(wù)API,實現(xiàn)應(yīng)用與數(shù)據(jù)的松耦合。(7)數(shù)據(jù)質(zhì)量提升有效的數(shù)據(jù)治理使企業(yè)能夠提高數(shù)據(jù)湖中的數(shù)據(jù)質(zhì)量,并利用數(shù)據(jù)進(jìn)行業(yè)務(wù)決策,從而可以改善業(yè)務(wù)規(guī)劃和財務(wù)績效,因此定義數(shù)據(jù)源以及管理和使用數(shù)據(jù)至關(guān)重要。企業(yè)還可以考慮在
43、消費(fèi)方而不是采購方應(yīng)用數(shù)據(jù)質(zhì)量檢查。因為,單個數(shù)據(jù)質(zhì)量體系結(jié)構(gòu)可能不適用于所有類型的數(shù)據(jù)。必須注意的是,如果數(shù)據(jù)被“清理”,用于分析的結(jié)果可能會產(chǎn)生影響。修復(fù)數(shù)據(jù)集中值的字段級數(shù)據(jù)質(zhì)量規(guī)則可以影響預(yù)測模型結(jié)果,因為這些修復(fù)可以影響異常值。(8)隱私與安全數(shù)據(jù)安全標(biāo)準(zhǔn)和策略未被正確納入治理流程中,可能會導(dǎo)致無法訪問受隱私法規(guī)和其他類型的敏感數(shù)據(jù)保護(hù)的個人數(shù)據(jù)。健康數(shù)據(jù)湖的關(guān)鍵組成部分是隱私和安全性,包括基于角色的訪問控制、身份驗證、授權(quán)以及靜態(tài)和動態(tài)數(shù)據(jù)加密等。從純數(shù)據(jù)湖和數(shù)據(jù)管理的角度來看,最重要的往往是數(shù)據(jù)混淆,包括標(biāo)記化和數(shù)據(jù)屏蔽。應(yīng)該使用這兩個概念來幫助數(shù)據(jù)遵守最小特權(quán)的安全概念。限制數(shù)
44、據(jù)訪問也對許多希望遵守法規(guī)的企業(yè)具有意義。盡管數(shù)據(jù)湖旨在成為相當(dāng)開放的數(shù)據(jù)源,但仍需要安全性和訪問控制措施,數(shù)據(jù)治理和數(shù)據(jù)安全團(tuán)隊?wèi)?yīng)攜手完成數(shù)據(jù)湖設(shè)計和加載過程,以及持續(xù)的數(shù)據(jù)治理工作。Amazon Athena和AWS Glue中國區(qū)域?qū)嵺`案例AWS Glue現(xiàn)已在由光環(huán)新網(wǎng)運(yùn)營的 AWS 中國(北京)區(qū)域和由西云數(shù)據(jù)運(yùn)營的 AWS 中國(寧夏)區(qū)域正式上線。AWS Glue是一項全托管的數(shù)據(jù)提取、轉(zhuǎn)換和加載 (ETL) 服務(wù)及元數(shù)據(jù)目錄服務(wù)。它讓客戶更容易準(zhǔn)備數(shù)據(jù),加載數(shù)據(jù)到數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)湖,用于數(shù)據(jù)分析。使用AWS Glue,在幾分鐘之內(nèi)便可以準(zhǔn)備好數(shù)據(jù)用于分析。由于AWS Glue是無服務(wù)器服務(wù),客戶在執(zhí)行ETL任務(wù)時,只需要為他們所消耗的計算資源付費(fèi)。同時在中國上線的還有Amazon Athena,它是一種交互式查詢服務(wù),讓客戶可以使用標(biāo)準(zhǔn)SQL語言、輕松分析Amazon S3中的數(shù)據(jù)。由于Athena是一種無服務(wù)器服務(wù),因此客戶不需要管理基礎(chǔ)設(shè)施,而且只為他們運(yùn)行的查詢付費(fèi)。Athena可以自動擴(kuò)展,并行執(zhí)行查詢,所以即便是大
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 汽修行業(yè)安全操作規(guī)范
- 推動管理培訓(xùn)
- 機(jī)械制造行業(yè)工藝創(chuàng)新培訓(xùn)心得
- 《護(hù)士條例解析周紅》課件
- 2024年河南省濮陽市公開招聘警務(wù)輔助人員輔警筆試自考題2卷含答案
- 2024年安徽省宿州市公開招聘警務(wù)輔助人員輔警筆試自考題2卷含答案
- 2022年河南省焦作市公開招聘警務(wù)輔助人員輔警筆試自考題1卷含答案
- 2024年湖北省宜昌市公開招聘警務(wù)輔助人員輔警筆試自考題2卷含答案
- 2022年內(nèi)蒙古自治區(qū)巴彥淖爾市公開招聘警務(wù)輔助人員輔警筆試自考題2卷含答案
- 2022年陜西省渭南市公開招聘警務(wù)輔助人員輔警筆試自考題1卷含答案
- 房屋無償使用協(xié)議書(8篇)
- 中央銀行理論與實務(wù)期末復(fù)習(xí)題
- 國家開放大學(xué)電大本科《國際私法》案例題題庫及答案(b試卷號:1020)
- 喜慶中國節(jié)春節(jié)習(xí)俗文化PPT模板
- 測井儀器設(shè)計規(guī)范--電子設(shè)計
- 北師大版小學(xué)五年級上冊數(shù)學(xué)第六單元《組合圖形的面積》單元測評培優(yōu)試卷
- 用特征方程求數(shù)列的通項
- 四年級奧數(shù)題(一)找規(guī)律
- 素材庫管理系統(tǒng)架構(gòu)(共13頁)
- 監(jiān)理平行檢驗記錄表
- 縣領(lǐng)導(dǎo)在新錄用公務(wù)員培訓(xùn)班開班典禮上的講話
評論
0/150
提交評論