大數(shù)據(jù)湖體系規(guī)劃與建設(shè)方案_第1頁(yè)
大數(shù)據(jù)湖體系規(guī)劃與建設(shè)方案_第2頁(yè)
大數(shù)據(jù)湖體系規(guī)劃與建設(shè)方案_第3頁(yè)
大數(shù)據(jù)湖體系規(guī)劃與建設(shè)方案_第4頁(yè)
大數(shù)據(jù)湖體系規(guī)劃與建設(shè)方案_第5頁(yè)
已閱讀5頁(yè),還剩46頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)湖體系規(guī)大數(shù)據(jù)湖體系規(guī)劃劃 與建設(shè)方案與建設(shè)方案目目錄錄背背景:大數(shù)據(jù)湖的發(fā)展背景與建設(shè)理景:大數(shù)據(jù)湖的發(fā)展背景與建設(shè)理念念體體系:系:大數(shù)據(jù)湖體系規(guī)劃與建設(shè)思路生態(tài)圈:生態(tài)圈:探索新興業(yè)務(wù)入湖建設(shè)模式共共享:享:大數(shù)據(jù)湖統(tǒng)一訪問(wèn)共享規(guī)劃 運(yùn)運(yùn)營(yíng):營(yíng):大數(shù)據(jù)湖一體化運(yùn)營(yíng)管理建設(shè)12345數(shù)據(jù)架構(gòu)與承載體系的演變過(guò)數(shù)據(jù)架構(gòu)與承載體系的演變過(guò)程程完整性、一致性、交互穩(wěn)定性完整性、一致性、交互穩(wěn)定性, 并發(fā)性,異??苫謴?fù)并發(fā)性,異常可恢復(fù)性性數(shù)據(jù)庫(kù)時(shí)代關(guān)系型數(shù)據(jù)庫(kù)解決了信息時(shí)代的數(shù)據(jù)資源存 儲(chǔ)和管理,實(shí)現(xiàn)了電子化的文件柜 采用數(shù)據(jù)模型表示數(shù)據(jù)結(jié)構(gòu),冗余小 面向事務(wù)管理,具有ACID特性 數(shù)據(jù)統(tǒng)

2、一管理和控制,易維護(hù)和擴(kuò)充 程序與數(shù)據(jù)獨(dú)立,具有良好用戶接口1數(shù)據(jù)倉(cāng)庫(kù)時(shí)代DW研究和解決了從數(shù)據(jù)庫(kù)中獲取信息的問(wèn) 題,通過(guò)OLAP、數(shù)據(jù)挖掘等幫助企業(yè)決策 分析,構(gòu)建商業(yè)智能(BI) 面向主題的,關(guān)注用戶重點(diǎn)業(yè)務(wù) 集成的,跨越歷史、區(qū)域、系統(tǒng) 穩(wěn)定的,具有只讀性質(zhì),以查詢?yōu)橹?以時(shí)間序列存儲(chǔ),非規(guī)范化管理2大數(shù)據(jù)平臺(tái)時(shí)代面對(duì)大數(shù)據(jù)5V特點(diǎn),采用分布式、并行化 的存儲(chǔ)和計(jì)算架構(gòu),提升數(shù)據(jù)處理能力 對(duì)象:PB級(jí),80%以上非結(jié)構(gòu)化數(shù)據(jù) 技術(shù):分布式架構(gòu)、云計(jì)算、虛擬化等 CAP原理:CAP BASE 目標(biāo):線性擴(kuò)展、彈性計(jì)算、實(shí)時(shí)響應(yīng)、 動(dòng)態(tài)調(diào)節(jié)31970 s1990 sBill Inmon提出D

3、W概念E.F.Codd發(fā)明DBMS2000 sGoogle發(fā)布三篇論文存儲(chǔ)經(jīng)濟(jì)性、高性能、高擴(kuò)展存儲(chǔ)經(jīng)濟(jì)性、高性能、高擴(kuò)展、 高并發(fā)、靈活模型適配高并發(fā)、靈活模型適配性性企業(yè)級(jí)跨域整合、業(yè)務(wù)擴(kuò)展性企業(yè)級(jí)跨域整合、業(yè)務(wù)擴(kuò)展性、 架構(gòu)設(shè)計(jì)合理性、流程規(guī)范架構(gòu)設(shè)計(jì)合理性、流程規(guī)范性性背景:數(shù)據(jù)快速入湖,分析更加智能,應(yīng)用更加多樣,服務(wù)更加開(kāi)背景:數(shù)據(jù)快速入湖,分析更加智能,應(yīng)用更加多樣,服務(wù)更加開(kāi)放放數(shù)據(jù)數(shù)據(jù) 應(yīng)用應(yīng)用數(shù)據(jù)數(shù)據(jù) 分析分析數(shù)據(jù)數(shù)據(jù) 平臺(tái)平臺(tái)數(shù)據(jù)數(shù)據(jù)以更加深度的數(shù)據(jù)開(kāi)放,跨行業(yè)大數(shù)據(jù)關(guān)聯(lián)。服務(wù)服務(wù)以更多樣的應(yīng)用能力,構(gòu)建針對(duì)性行業(yè)解決方案。數(shù)據(jù)數(shù)據(jù)入湖即治理,針對(duì)性對(duì)數(shù)據(jù)源系統(tǒng)輸入數(shù)據(jù)制

4、定入湖標(biāo)準(zhǔn)治理治理數(shù)據(jù)驅(qū)動(dòng)治理規(guī)范,以數(shù)據(jù)為核心實(shí)時(shí)制定治理規(guī)范。數(shù)據(jù)平臺(tái)存儲(chǔ)方式向數(shù)據(jù)湖模式轉(zhuǎn)變,多數(shù)據(jù)匯聚。支持結(jié)構(gòu)化,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)多數(shù)據(jù)入湖。從深度學(xué)習(xí)到機(jī)器學(xué)習(xí),從機(jī)器學(xué)習(xí)到人工智能?;跀?shù)據(jù)湖的大量的原始數(shù)據(jù),深度訓(xùn)練,快速分析智能應(yīng)用,基于AI與機(jī)器學(xué)習(xí)分析,個(gè)性化服務(wù)提供。應(yīng)用快速構(gòu)建,基于數(shù)據(jù)湖進(jìn)行細(xì)粒度的收集、探索和分析數(shù)據(jù)湖數(shù)據(jù)治理數(shù)據(jù)分析數(shù)據(jù)應(yīng)用數(shù)據(jù)服務(wù)數(shù)據(jù)驅(qū)動(dòng)規(guī)范,入湖標(biāo)準(zhǔn)制定人工智能分析,直引湖中數(shù)據(jù) 更多企業(yè)數(shù)據(jù)將進(jìn)入數(shù)據(jù)湖,來(lái)自傳統(tǒng)系統(tǒng)的數(shù)據(jù)和傳感器等新型數(shù)據(jù)資源不斷融合,數(shù)據(jù)孤島將繼續(xù)被打破。 隨著大數(shù)據(jù)分析能力的不斷提高,人工智能的重要性被逐步提升。

5、當(dāng)今最先進(jìn)的機(jī)器學(xué)習(xí)和人工智能系統(tǒng)正在超越傳統(tǒng)的基于 規(guī)則的算法,創(chuàng)建出能夠理解、學(xué)習(xí)、預(yù)測(cè)、適應(yīng),甚至可以自主操作的系統(tǒng)。大數(shù)據(jù)發(fā)展趨勢(shì)分析應(yīng)用更加智能,構(gòu)建更加快速深度數(shù)據(jù)開(kāi)放,針對(duì)方案制定數(shù)據(jù)湖產(chǎn)生背景及概念提數(shù)據(jù)湖產(chǎn)生背景及概念提出出企業(yè)現(xiàn)在正處于大數(shù)據(jù)的企業(yè)現(xiàn)在正處于大數(shù)據(jù)的“焦慮期焦慮期”存儲(chǔ)成本問(wèn)題:海量數(shù)據(jù)需要在多環(huán)境、多級(jí)下重復(fù)存儲(chǔ),存儲(chǔ)開(kāi)銷大數(shù)據(jù)形態(tài)問(wèn)題:應(yīng)用大多聚焦在經(jīng)過(guò)加工后的再生數(shù)據(jù),原始數(shù)據(jù)無(wú)法得到充分利用業(yè)務(wù)響應(yīng)問(wèn)題:必須事先進(jìn)行充分規(guī)劃和較長(zhǎng)周期加工,欠缺運(yùn)營(yíng)所需的靈活性和時(shí)效性數(shù)據(jù)集市數(shù)據(jù)湖問(wèn)題 ? 挑戰(zhàn) ? 變革 !數(shù)據(jù)湖一詞是2011年由Pentaho首席

6、技術(shù)官詹姆斯 迪克森最初提出的,參照“數(shù)據(jù)集市”得來(lái)。較小的數(shù)據(jù)存儲(chǔ)庫(kù)如同瓶裝水,經(jīng)過(guò)過(guò)濾包裝 結(jié)構(gòu)化后以供使用數(shù)據(jù)來(lái)源于不同地方如同湖泊,存儲(chǔ)更自然狀態(tài)下 的大量的水 預(yù)先設(shè)定問(wèn)題 使用方式單一 集中存儲(chǔ)+無(wú)限能力 用戶各取所需把不同結(jié)構(gòu)的數(shù)據(jù)統(tǒng)一存儲(chǔ),使不同數(shù)據(jù)有一致 的存儲(chǔ)方式,在使用時(shí)方便連接,真正解決數(shù)據(jù) 集成問(wèn)題。全部采集(Collect Everything)隨處研究(Dive In Anywhere)靈活訪問(wèn)(Flexible Access)數(shù)據(jù)湖的定義與特?cái)?shù)據(jù)湖的定義與特性性存儲(chǔ)一切,分析一切,創(chuàng)建所需數(shù)據(jù)湖(Data Lake) 核心思想把你以前在磁帶上擁有的東西倒入到數(shù)據(jù)

7、湖,然后開(kāi)始探索該數(shù)據(jù)。重要的 只把需要的數(shù)據(jù)倒入到Hadoop;如果你想結(jié)合來(lái)自數(shù)據(jù)湖的信息和客戶關(guān)系 管理系統(tǒng)(CRM)里面的信息,我們就進(jìn)行連接,只有需要時(shí)才執(zhí)行這番數(shù) 據(jù)結(jié)合。數(shù)據(jù)湖是一種在系統(tǒng)或存儲(chǔ)庫(kù)中以自然格式存儲(chǔ)數(shù)據(jù)的方法,它有助于以各種 模式和結(jié)構(gòu)形式配置數(shù)據(jù),通常是對(duì)象塊或文件。湖中的數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù) 從關(guān)系數(shù)據(jù)庫(kù)(行和列),半結(jié)構(gòu)化數(shù)據(jù)(CSV、XML、JSON的日志),非結(jié)構(gòu)化數(shù)據(jù)(電子郵件,文檔,PDF)和二進(jìn)制數(shù)據(jù)(圖像、音頻、視頻)從 而形成一個(gè)集中式數(shù)據(jù)存儲(chǔ)容納所有形式的數(shù)據(jù)。詹姆斯迪克森維基百科從對(duì)比中理解數(shù)據(jù)湖概從對(duì)比中理解數(shù)據(jù)湖概念念 優(yōu)勢(shì)優(yōu)勢(shì)篇篇對(duì)比項(xiàng)對(duì)

8、比項(xiàng)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)湖數(shù)據(jù)湖支持?jǐn)?shù)據(jù)類支持?jǐn)?shù)據(jù)類型型有限的數(shù)據(jù)類型支持,以結(jié)構(gòu)化為結(jié)構(gòu)化為主主支持結(jié)構(gòu)化,半結(jié)構(gòu)化和非結(jié)構(gòu)化半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)采集方數(shù)據(jù)采集方式式過(guò)程開(kāi)始于業(yè)務(wù)流程識(shí)別業(yè)務(wù)流程識(shí)別,通常由數(shù)據(jù)管理者和業(yè)務(wù)負(fù)責(zé)人基 于數(shù)據(jù)和業(yè)務(wù)的某種假數(shù)據(jù)和業(yè)務(wù)的某種假設(shè)設(shè)在數(shù)據(jù)湖世界里,沒(méi)有關(guān)于已經(jīng)取得的數(shù)據(jù)假設(shè)。一旦數(shù) 據(jù)發(fā)生,即開(kāi)始在細(xì)粒度級(jí)別收集數(shù)據(jù)細(xì)粒度級(jí)別收集數(shù)據(jù)。業(yè)務(wù)流程發(fā)現(xiàn)業(yè)務(wù)流程發(fā)現(xiàn)基基 于數(shù)據(jù)與輸入數(shù)于數(shù)據(jù)與輸入數(shù)據(jù)據(jù)數(shù)據(jù)處理能數(shù)據(jù)處理能力力寫入模式寫入模式,建立模型對(duì)數(shù)據(jù)進(jìn)行某類格式和結(jié)構(gòu)的處理,為了 減少數(shù)據(jù)的復(fù)雜性,比較難于實(shí)現(xiàn)上卷(Roll up)和鉆取(

9、Drill down)分析,該設(shè)計(jì)可能需要妥協(xié)一定粒度的數(shù)據(jù)讀取模式讀取模式,接受原始形式的數(shù)據(jù),在數(shù)據(jù)細(xì)粒度級(jí)別收集 探索和分析非常簡(jiǎn)單架構(gòu)重建能架構(gòu)重建能力力數(shù)據(jù)庫(kù)架構(gòu)演變需要謹(jǐn)慎,過(guò)程耗時(shí),成本較高,影響較大, 需要對(duì)原有數(shù)據(jù)進(jìn)行重構(gòu)不存在結(jié)構(gòu)問(wèn)題,支持復(fù)雜數(shù)據(jù)類型,便于重置數(shù)據(jù)模型 查詢和應(yīng)用,并具有簡(jiǎn)單的重建關(guān)系的能力動(dòng)態(tài)動(dòng)態(tài)性性敏捷性差,采用靜態(tài)固定配置靜態(tài)固定配置,基于業(yè)務(wù)流程驅(qū)動(dòng)而設(shè)計(jì)系統(tǒng)高度敏捷,動(dòng)態(tài)靈活配置敏捷,動(dòng)態(tài)靈活配置,基于數(shù)據(jù)的業(yè)務(wù)流程定義擴(kuò)展擴(kuò)展性性提供預(yù)定義的業(yè)務(wù)需求點(diǎn)燃創(chuàng)新和新的商業(yè)機(jī)會(huì)、從對(duì)比中理解數(shù)據(jù)湖概從對(duì)比中理解數(shù)據(jù)湖概念念 劣勢(shì)劣勢(shì)篇篇對(duì)比對(duì)比項(xiàng)項(xiàng)數(shù)

10、據(jù)倉(cāng)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)數(shù)據(jù)數(shù)據(jù)湖湖數(shù)據(jù)規(guī)劃體系數(shù)據(jù)規(guī)劃體系具有周密的數(shù)據(jù)發(fā)現(xiàn)、采集、探索和轉(zhuǎn)換的數(shù)據(jù)計(jì)劃周密的數(shù)據(jù)發(fā)現(xiàn)、采集、探索和轉(zhuǎn)換的數(shù)據(jù)計(jì)劃,易于突顯數(shù)據(jù)價(jià)值不太重視事先的數(shù)據(jù)規(guī)劃,允許存儲(chǔ)任何數(shù)據(jù),難以抓取數(shù)據(jù)價(jià)難以抓取數(shù)據(jù)價(jià)值值數(shù)據(jù)利用效率數(shù)據(jù)利用效率數(shù)據(jù)利用率高數(shù)據(jù)利用率高,按數(shù)據(jù)優(yōu)先級(jí)和數(shù)據(jù)可用性的大小進(jìn)行組織,可以快速快速定定 位所需數(shù)位所需數(shù)據(jù)據(jù)數(shù)據(jù)利用率低,缺少數(shù)據(jù)優(yōu)先級(jí)排序缺少數(shù)據(jù)優(yōu)先級(jí)排序,需要花費(fèi)大量時(shí)間查找和分 析前的準(zhǔn)備數(shù)據(jù)需求響應(yīng)能力需求響應(yīng)能力具有較高的需求響應(yīng)能力較高的需求響應(yīng)能力,可以保證平穩(wěn)高效的數(shù)據(jù)訪問(wèn)數(shù)據(jù)響應(yīng)延遲較高響應(yīng)延遲較高,整個(gè)分析過(guò)程容易中斷復(fù)雜性和

11、難度復(fù)雜性和難度較低,建設(shè)規(guī)模與成本可控很高,建設(shè)難度與規(guī)模呈線性增長(zhǎng)趨勢(shì),隱性成本較高邏輯可解釋性邏輯可解釋性數(shù)據(jù)組織邏輯性強(qiáng),數(shù)據(jù)關(guān)系可解釋性較高欠缺語(yǔ)義一致性和嚴(yán)格的元數(shù)據(jù),數(shù)據(jù)關(guān)系較為松散,難以解釋安全性安全性多年發(fā)展歷程,保護(hù)數(shù)據(jù)的能力比較成熟比較新的技術(shù),需要持續(xù)完善適用對(duì)象適用對(duì)象企業(yè)的業(yè)務(wù)行家和專業(yè)人員,技術(shù)門檻技術(shù)門檻低低面向熟練用戶、科學(xué)領(lǐng)域的數(shù)據(jù)科學(xué)家,技術(shù)門檻技術(shù)門檻高高潛在風(fēng)險(xiǎn)潛在風(fēng)險(xiǎn)數(shù)據(jù)數(shù)據(jù)湖湖數(shù)據(jù)沼數(shù)據(jù)沼澤澤數(shù)據(jù)湖是大數(shù)據(jù)概念的延數(shù)據(jù)湖是大數(shù)據(jù)概念的延伸伸 多樣化的數(shù)據(jù)存儲(chǔ) 高效的數(shù)據(jù)處理 存儲(chǔ)全部數(shù)據(jù) 處理任何數(shù)據(jù) 訪問(wèn)任何數(shù)據(jù)數(shù) 據(jù) 能 力 要 求 支持所有用

12、戶 更容易適應(yīng)變化 更快的洞悉能力IT能 力 要 求數(shù)據(jù)湖的能力視圖數(shù)據(jù)湖的能力視圖數(shù)據(jù)湖并非是個(gè)全新概數(shù)據(jù)湖并非是個(gè)全新概念念1. “數(shù)據(jù)湖”是關(guān)于企業(yè)應(yīng)用大數(shù)據(jù)的概念,是面向企業(yè)的最 佳的大數(shù)據(jù)的解決方案2. “數(shù)據(jù)湖”不僅是數(shù)據(jù)存儲(chǔ)和處理的單元,也是釋放數(shù)據(jù)價(jià) 值的過(guò)程3. 企業(yè)大數(shù)據(jù)應(yīng)用成功的關(guān)鍵并不是存儲(chǔ)所有的數(shù)據(jù),而是 要?jiǎng)?chuàng)建一個(gè)更有意義的“數(shù)據(jù)湖”,幫助企業(yè)加速提取高價(jià) 值數(shù)據(jù)的速度-公眾號(hào)行業(yè)調(diào)研報(bào)告4. 數(shù)據(jù)湖是大數(shù)據(jù)發(fā)展方向上的高級(jí)階段大數(shù)據(jù)發(fā)展方向上的高級(jí)階段,是一種建設(shè)一種建設(shè)理理 念,念,而不是一種特定的實(shí)施方法5. “數(shù)據(jù)湖”是個(gè)架構(gòu)概念,是數(shù)據(jù)倉(cāng)庫(kù)的一種演進(jìn),是一

13、種 大數(shù)據(jù)概念下的延大數(shù)據(jù)概念下的延伸伸數(shù)據(jù)湖概念上的甄數(shù)據(jù)湖概念上的甄別別1、用于安置企業(yè)所有數(shù)據(jù)的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù) 集市2、替代運(yùn)營(yíng)數(shù)據(jù)存儲(chǔ)(ODS)3、高性能的生產(chǎn)環(huán)境4、生產(chǎn)型報(bào)表的應(yīng)用程序5、一個(gè)專門建立的系統(tǒng)來(lái)解決一個(gè)特定的問(wèn)題(盡管專門建立的數(shù)據(jù)集市可以從數(shù)據(jù)湖中提供)1、用戶可以訪問(wèn)大量原始數(shù)據(jù)的環(huán)境2、一個(gè)開(kāi)發(fā)和驗(yàn)證分析模型的環(huán)境,然后將其轉(zhuǎn) 化為生產(chǎn)3、用于探索數(shù)據(jù)以獲得洞察力的分析沙箱4、企業(yè)級(jí)目錄,可幫助用戶查找數(shù)據(jù)并將業(yè)務(wù)術(shù) 語(yǔ)與技術(shù)元數(shù)據(jù)鏈接起來(lái)5、一個(gè)支持重用數(shù)據(jù)轉(zhuǎn)換和查詢的環(huán)境數(shù)據(jù)湖是數(shù)據(jù)湖是數(shù)據(jù)湖不是數(shù)據(jù)湖不是數(shù)據(jù)湖體系的架構(gòu)規(guī)數(shù)據(jù)湖體系的架構(gòu)規(guī)劃劃H a

14、d o o pH a d o o p 不 一 定 是 數(shù) 據(jù) 湖 的 組 成 部 分 , 只 是 它 是 目 前 最 理 想 的 選 擇不 一 定 是 數(shù) 據(jù) 湖 的 組 成 部 分 , 只 是 它 是 目 前 最 理 想 的 選 擇 !數(shù)據(jù)湖的邏輯架構(gòu)數(shù)據(jù)湖的邏輯架構(gòu)數(shù)據(jù)湖的數(shù)據(jù)架構(gòu)數(shù)據(jù)湖的數(shù)據(jù)架構(gòu) 持久層(Persitent Layer):存放所有從內(nèi)部和外部獲取的 結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù) 分析沙箱(Analytics Sandbox):數(shù)據(jù)科學(xué)家和分析師被 授予持久層的訪問(wèn)權(quán)限并使用進(jìn)行數(shù)據(jù)研究和實(shí)驗(yàn) 探索數(shù)據(jù)源(Curated):數(shù)據(jù)分析師會(huì)將有商業(yè)價(jià)值的數(shù) 據(jù)進(jìn)行處理并創(chuàng)建新

15、的數(shù)據(jù)源以提供給業(yè)務(wù)分析師 可操作層(Operational layer):業(yè)務(wù)分析師繼續(xù)精煉已 處理過(guò)的數(shù)據(jù),和數(shù)據(jù)管理團(tuán)隊(duì)一起將這些數(shù)據(jù)轉(zhuǎn)換為更 為容易操作和使用的數(shù)據(jù),存放之以便得到更廣泛的使用數(shù)據(jù)湖建設(shè)的四個(gè)階數(shù)據(jù)湖建設(shè)的四個(gè)階段段 整合數(shù)據(jù)湖基礎(chǔ)設(shè)施 可擴(kuò)展的數(shù)據(jù)處理和攝入 數(shù)據(jù)目錄管理趨于完善 EDW與Data Lake協(xié)作 對(duì)外生產(chǎn)價(jià)值輸送能力 數(shù)據(jù)服務(wù)和運(yùn)營(yíng)管理能力 端到端的業(yè)務(wù)支撐能力 穩(wěn)定的成熟度服務(wù)架構(gòu) 靈活完善的企業(yè)運(yùn)營(yíng)模式 分析能力增強(qiáng) 優(yōu)化探索環(huán)境 豐富價(jià)值發(fā)現(xiàn)模型價(jià)值挖掘階價(jià)值挖掘階段段基礎(chǔ)架構(gòu)階基礎(chǔ)架構(gòu)階段段成熟運(yùn)營(yíng)階成熟運(yùn)營(yíng)階段段協(xié)作交互階協(xié)作交互階段段010

16、20304大 多 數(shù) 企 業(yè) 處 于 前 三 個(gè) 階 段 的 建 設(shè) 和 完 善 過(guò) 程 中建設(shè)難點(diǎn)與風(fēng)建設(shè)難點(diǎn)與風(fēng)險(xiǎn)險(xiǎn)數(shù)據(jù)湖關(guān)鍵數(shù)據(jù)湖關(guān)鍵點(diǎn)點(diǎn)數(shù)據(jù)湖體系的建設(shè)要點(diǎn)與風(fēng)險(xiǎn)分?jǐn)?shù)據(jù)湖體系的建設(shè)要點(diǎn)與風(fēng)險(xiǎn)分析析靈活自動(dòng)化的采集與存儲(chǔ)組織和編目數(shù)據(jù)管理統(tǒng)一的透明訪問(wèn)方式數(shù)據(jù)質(zhì)量和可靠性無(wú)感知的分布式架構(gòu)(存儲(chǔ)、計(jì)算、網(wǎng)絡(luò))企業(yè)全局?jǐn)?shù)據(jù)的掌握與預(yù)測(cè)統(tǒng)一元數(shù)據(jù)規(guī)范和管控能力業(yè)務(wù)關(guān)聯(lián)場(chǎng)景的數(shù)據(jù)理解系統(tǒng)化的質(zhì)量管控體系分布技術(shù)的規(guī)劃和擴(kuò)展能力參 考 : 來(lái) 自 實(shí) 踐 中 數(shù) 據(jù) 湖 建 設(shè) 內(nèi)參 考 : 來(lái) 自 實(shí) 踐 中 數(shù) 據(jù) 湖 建 設(shè) 內(nèi) 容容業(yè)界主流公司的數(shù)據(jù)湖規(guī)業(yè)界主流公司的數(shù)據(jù)湖規(guī)劃劃 Hor

17、tonworksHortonworks 公司基基于于 Hadoop 生態(tài)生態(tài)構(gòu)建的數(shù)據(jù)湖提出的現(xiàn) 代化數(shù)據(jù)架構(gòu)(Morden Data Architecture),從南向北包含 四個(gè)層面:數(shù)據(jù)采集層數(shù)據(jù)采集層(Data Acquisition Layer)數(shù)據(jù)采集層負(fù)責(zé)從數(shù)據(jù)源抽取和移動(dòng)數(shù)據(jù),并將數(shù)據(jù)存放到數(shù)據(jù)湖中。采集的 數(shù)據(jù)源包括傳統(tǒng)的關(guān)系型或事務(wù)型系統(tǒng)、用戶獲取的數(shù)據(jù)、非結(jié)構(gòu)化或半結(jié)構(gòu) 化數(shù)據(jù)、外部數(shù)據(jù)或流數(shù)據(jù)等。數(shù)據(jù)監(jiān)管層數(shù)據(jù)監(jiān)管層(Data Curation Layer)數(shù)據(jù)監(jiān)管層負(fù)責(zé)數(shù)據(jù)湖中的數(shù)據(jù)組織、定型并為其他層提供消費(fèi),包含數(shù)據(jù)標(biāo) 準(zhǔn)化流程制定,數(shù)據(jù)創(chuàng)建、脫敏、清洗、轉(zhuǎn)換、維

18、護(hù)、管理和展現(xiàn)等工作。數(shù)據(jù)供應(yīng)層數(shù)據(jù)供應(yīng)層(Data Provisioning Layer)數(shù)據(jù)供應(yīng)層采用更適用于業(yè)務(wù)報(bào)表和分析的傳統(tǒng)數(shù)據(jù)儲(chǔ)存方式,使用OLAP、 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市降低數(shù)據(jù)消費(fèi)的復(fù)雜度并提供快速的交互式查詢和分析。數(shù)據(jù)消費(fèi)層數(shù)據(jù)消費(fèi)層(Data Consumption Layer)數(shù)據(jù)消費(fèi)層提供所有最終用戶的接口,對(duì)于不同用戶對(duì)數(shù)據(jù)的需求,大量和多 元化的工具和技術(shù)會(huì)被用于該層。業(yè)界主流公司對(duì)于數(shù)據(jù)湖的規(guī)業(yè)界主流公司對(duì)于數(shù)據(jù)湖的規(guī)劃劃 IBMIBM 公司提出的數(shù)據(jù)湖架構(gòu),包括六大關(guān)鍵部件六大關(guān)鍵部件: 一一 數(shù)據(jù)湖資源數(shù)據(jù)湖資源庫(kù)庫(kù)按照數(shù)據(jù)特點(diǎn)進(jìn)行原始格式的分類存儲(chǔ)庫(kù)二二 企

19、業(yè)企業(yè)IT交交互互統(tǒng)一提供企業(yè)生產(chǎn)側(cè)系統(tǒng)與數(shù)據(jù)湖資源庫(kù) 的靈活交互,快速配置能力三三 原始數(shù)據(jù)交原始數(shù)據(jù)交互互為數(shù)據(jù)價(jià)值發(fā)現(xiàn)提供安全的資源分析訪問(wèn) 接口與試驗(yàn)環(huán)境四四 目錄接目錄接口口唯一權(quán)威的數(shù)據(jù)湖元數(shù)據(jù)發(fā)布和訪問(wèn)模式五五 基于可視化的交基于可視化的交互互統(tǒng)一可視化的業(yè)務(wù)應(yīng)用交互接口和沙箱環(huán) 境六六 信息集成與治信息集成與治理理集成的數(shù)據(jù)湖運(yùn)營(yíng)管理工具與環(huán)境目目錄錄背背景:景:大數(shù)據(jù)湖的發(fā)展背景與建設(shè)理念體體系:大數(shù)據(jù)湖體系規(guī)劃與建設(shè)思系:大數(shù)據(jù)湖體系規(guī)劃與建設(shè)思路路生態(tài)圈:生態(tài)圈:探索新興業(yè)務(wù)入湖建設(shè)模式共共享:享:大數(shù)據(jù)湖統(tǒng)一訪問(wèn)共享規(guī)劃 運(yùn)運(yùn)營(yíng):營(yíng):大數(shù)據(jù)湖一體化運(yùn)營(yíng)管理建設(shè)12345

20、生產(chǎn)型系統(tǒng)分析型系統(tǒng)內(nèi)部?jī)?nèi)部 應(yīng)用應(yīng)用結(jié)構(gòu)化數(shù)據(jù)(數(shù)據(jù)庫(kù)/格式文件等)半結(jié)構(gòu)化數(shù)據(jù)(XML/TXT等)非結(jié)構(gòu)化數(shù)據(jù)(語(yǔ)音、視頻等)統(tǒng)一索引層計(jì)算側(cè)cache生態(tài)圈 系統(tǒng)數(shù)據(jù)存數(shù)據(jù)存儲(chǔ)儲(chǔ)P B 級(jí) 存 儲(chǔ)計(jì)算處計(jì)算處理理T B 級(jí) 計(jì) 算訪問(wèn)共訪問(wèn)共享享同 源 異 構(gòu) 訪 問(wèn)交互分析OLAP挖掘工具應(yīng)用構(gòu) 建工具存 儲(chǔ) 計(jì) 算 加 速BSSOSSMSS網(wǎng)絡(luò)/平臺(tái)生態(tài)圈采集接入規(guī)范源數(shù)據(jù)提供規(guī)范數(shù)據(jù)分類 規(guī)范數(shù)據(jù)模型 規(guī)范元字典 規(guī)范資源申請(qǐng)規(guī)范計(jì)算調(diào)度規(guī)范運(yùn)營(yíng)管運(yùn)營(yíng)管控控訪問(wèn)接入規(guī)范數(shù)據(jù)共享標(biāo)準(zhǔn)生產(chǎn)模型規(guī)范數(shù)據(jù)沙箱統(tǒng)一數(shù)據(jù)服務(wù)代理(Data Broker)數(shù)據(jù)湖統(tǒng)一目數(shù)據(jù)湖統(tǒng)一目錄錄API統(tǒng) 一

21、 數(shù) 據(jù) 接 入邏 輯 化 視 圖訪問(wèn)接口(JDBC、ODBC)跨 架 構(gòu) 數(shù) 據(jù) 聯(lián) 邦緩 存 加 速存儲(chǔ)規(guī)范數(shù)據(jù)安全規(guī)范角色權(quán)限規(guī)范運(yùn)營(yíng)管理規(guī)范協(xié)同計(jì)算引擎實(shí)時(shí)檢索和流處理引擎離線批處理引擎交互式查詢引擎資源池化 彈性伸縮計(jì)算資源調(diào)計(jì)算資源調(diào)度度自動(dòng)調(diào)度 按需使用應(yīng)用應(yīng)用 專區(qū)專區(qū)省分 專區(qū)生態(tài)圈 專區(qū)源端系源端系統(tǒng)統(tǒng)平臺(tái)平臺(tái) 工具工具外部外部 系統(tǒng)系統(tǒng)互聯(lián)網(wǎng)合作伙伴數(shù)據(jù)接數(shù)據(jù)接入入大 吞 吐 管 道服務(wù)對(duì)服務(wù)對(duì)象象外部系統(tǒng)互聯(lián)網(wǎng)生產(chǎn)直采前置采集同步鏡像網(wǎng)絡(luò)爬蟲IOT接入生產(chǎn)系統(tǒng)駐留可視化定義 即配即用統(tǒng)一接入配統(tǒng)一接入配置置透明化部署 實(shí)時(shí)接入調(diào)度生產(chǎn)數(shù)據(jù)生產(chǎn)數(shù)據(jù)(1+N) 操 作 /

22、臨 時(shí) 存 儲(chǔ)原生數(shù)據(jù)原生數(shù)據(jù)(1+N) 就 近分 域 存 儲(chǔ)主數(shù)據(jù)主數(shù)據(jù)(1) 全 網(wǎng) 統(tǒng) 一整合數(shù)據(jù)整合數(shù)據(jù)(1) 全 網(wǎng)分 層 支 撐應(yīng)用數(shù)據(jù)應(yīng)用數(shù)據(jù)(N) 分 區(qū) 建 設(shè)TXTOracleMySqlHDFSHbaseGreenplum大數(shù)據(jù)湖體系規(guī)劃大數(shù)據(jù)湖體系規(guī)劃大數(shù)據(jù)湖存儲(chǔ)能力規(guī)劃大數(shù)據(jù)湖存儲(chǔ)能力規(guī)劃統(tǒng)一標(biāo)準(zhǔn)統(tǒng)一標(biāo)準(zhǔn)/分區(qū)存分區(qū)存儲(chǔ)儲(chǔ)制定全集團(tuán)統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn),采取分域分類的數(shù)據(jù)入湖策略制定全集團(tuán)統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn),采取分域分類的數(shù)據(jù)入湖策略,構(gòu)建生產(chǎn)、原生、整合/應(yīng)用、專區(qū)等分區(qū)數(shù)據(jù)存儲(chǔ)及計(jì)算能力,實(shí) 現(xiàn)數(shù)據(jù)原生入湖、按需使用的宗旨,為全國(guó)1+31省提供應(yīng)用數(shù)據(jù)服務(wù)能力,注智生產(chǎn)激發(fā)生產(chǎn)力

23、。數(shù)數(shù) 據(jù)據(jù) 存存 儲(chǔ)儲(chǔ)數(shù)據(jù)接數(shù)據(jù)接入入數(shù)據(jù)訪數(shù)據(jù)訪問(wèn)問(wèn)運(yùn)運(yùn) 營(yíng)營(yíng) 管管 理理數(shù)數(shù)據(jù)據(jù) 計(jì)計(jì) 算算計(jì)算資源管理資 源 池 化 , 彈 性 技資 源 池 化 , 彈 性 技 術(shù)術(shù)自 動(dòng) 調(diào) 度 , 按 需 使自 動(dòng) 調(diào) 度 , 按 需 使 用用實(shí)時(shí)流式實(shí)時(shí)流式離線批量離線批量?jī)?nèi)存計(jì)算及緩存內(nèi)存計(jì)算及緩存機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)交互式查詢交互式查詢協(xié)同計(jì)算協(xié)同計(jì)算非結(jié)構(gòu)化計(jì)算非結(jié)構(gòu)化計(jì)算存儲(chǔ)資源管理結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)(日志/XML文件等)非結(jié)構(gòu)化數(shù)據(jù)(文件/圖片/音頻/視頻等)省份省份 專區(qū)專區(qū)生產(chǎn)數(shù)據(jù)生產(chǎn)數(shù)據(jù)區(qū)區(qū)原生數(shù)據(jù)原生數(shù)據(jù)區(qū)區(qū)整合數(shù)據(jù)整合數(shù)據(jù)區(qū)區(qū)主數(shù)據(jù)區(qū)主數(shù)據(jù)區(qū)省份B/O側(cè) 生產(chǎn)系統(tǒng)集團(tuán)橫向系

24、統(tǒng)生態(tài)圈生產(chǎn)系 統(tǒng)網(wǎng)絡(luò)/平臺(tái) 生產(chǎn)系統(tǒng)(前 置預(yù)處理)編碼統(tǒng)一轉(zhuǎn)換實(shí)體對(duì)齊實(shí)體關(guān)聯(lián)視圖客 產(chǎn) 渠 營(yíng) 資 服 自 然 戶 品 道 銷 源 務(wù)人內(nèi)蒙貴州河北遼寧寧夏生態(tài)圈生態(tài)圈 互聯(lián)網(wǎng)專區(qū)專區(qū)金融智能 連接智慧 家庭物聯(lián) 網(wǎng)新興 ICT人員組織資源產(chǎn)品客戶BSS原OSS原 MSS原生數(shù)據(jù) 生數(shù)據(jù) 生數(shù)據(jù)網(wǎng)絡(luò)/平臺(tái)數(shù)據(jù)集團(tuán)橫 生態(tài)圈 向數(shù)據(jù)-ICT生態(tài)圈-金融存儲(chǔ)分區(qū)原則存儲(chǔ)分區(qū)原則:生產(chǎn)數(shù)據(jù)區(qū):生產(chǎn)數(shù)據(jù)區(qū):遵循電信集團(tuán)數(shù)據(jù) 建模標(biāo)準(zhǔn)及主數(shù)據(jù)規(guī)范要求;規(guī)范 層面屬于大數(shù)據(jù)湖范疇,物理資源 層面可采用湖資源也可自建; 原生數(shù)據(jù)區(qū):原生數(shù)據(jù)區(qū):分域分類存儲(chǔ)生產(chǎn)數(shù)據(jù);將非標(biāo)準(zhǔn)數(shù)據(jù)做標(biāo)準(zhǔn)化轉(zhuǎn)化;整合數(shù)據(jù)區(qū)

25、:整合數(shù)據(jù)區(qū):采用大數(shù)據(jù)挖掘等 技術(shù)進(jìn)行實(shí)體歸集補(bǔ)全;構(gòu)建實(shí)體 關(guān)聯(lián)視圖;主數(shù)據(jù)區(qū):主數(shù)據(jù)區(qū):存儲(chǔ)企業(yè)級(jí)全網(wǎng)主數(shù) 據(jù),大數(shù)據(jù)主數(shù)據(jù)唯一提供者;應(yīng)用專區(qū):應(yīng)用專區(qū):本著數(shù)據(jù)不出湖,充 分挖掘數(shù)據(jù)價(jià)值原則,為使用者提 供基于自有、原生、整合數(shù)據(jù)的處 理空間,面向應(yīng)用開(kāi)展數(shù)據(jù)處理工 作;大數(shù)據(jù)湖原生數(shù)據(jù)區(qū)規(guī)劃大數(shù)據(jù)湖原生數(shù)據(jù)區(qū)規(guī)劃原生入湖原生入湖/分類存儲(chǔ)分類存儲(chǔ)/按需使按需使用用以原生入湖分類存儲(chǔ)按需使用為宗旨以原生入湖分類存儲(chǔ)按需使用為宗旨,分域分類存儲(chǔ)按周期存儲(chǔ)原生數(shù)據(jù),為云公司、集團(tuán)ODS、省份大數(shù)據(jù)平臺(tái)提供原生數(shù)據(jù) 共享服務(wù),為湖內(nèi)整合數(shù)據(jù)區(qū)、應(yīng)用數(shù)據(jù)區(qū)提供原生數(shù)據(jù)服務(wù)。生態(tài)圈 數(shù)據(jù)網(wǎng)絡(luò)/

26、平 臺(tái)數(shù)據(jù)集團(tuán)數(shù)據(jù)OSS數(shù)據(jù)EDA數(shù)據(jù)共享服務(wù)數(shù)共享服務(wù)數(shù)據(jù)據(jù)生產(chǎn)系生產(chǎn)系統(tǒng)統(tǒng)BSS系統(tǒng)OSS系統(tǒng)MSS系統(tǒng)EDA系統(tǒng)集團(tuán)橫 向系統(tǒng)生態(tài)圈系 統(tǒng)網(wǎng)絡(luò)/平臺(tái) 系統(tǒng)原生 入湖預(yù)處 理入 湖數(shù)據(jù)共享原生數(shù) 據(jù)專區(qū) 共享原生數(shù) 據(jù)整合 共享數(shù)據(jù)整合數(shù)據(jù)整合區(qū)區(qū)數(shù)據(jù)專數(shù)據(jù)專區(qū)區(qū)實(shí)體關(guān)聯(lián) 視圖共享互聯(lián)網(wǎng)金融互聯(lián)網(wǎng)金融智能連智能連接接智慧家智慧家庭庭物聯(lián)物聯(lián)網(wǎng)網(wǎng)新興新興ICT應(yīng)應(yīng)用用翼支付甜橙欺詐盾IWIFINFC產(chǎn)品云堤海洋 衛(wèi)星統(tǒng)一賬號(hào) 4G-QoS流量控寬帶天翼 網(wǎng)關(guān)智能 視頻 聚車管 組網(wǎng) 通話 精彩 專家樂(lè)駕愛(ài)音樂(lè)枝繁葉茂枝繁葉茂類類天翼視訊天翼閱讀愛(ài)游戲愛(ài)動(dòng)漫天翼空間易信天翼云盤 189郵箱翼機(jī)

27、通+ 旺鋪助手 號(hào)簿助手企業(yè)云翼校通天翼對(duì)講 外勤助手 手機(jī)看店新視通 4G安全辦公 加密通道21CN語(yǔ)音云家庭云專屬云影像云地產(chǎn)大數(shù) 據(jù)旅游大數(shù)據(jù)DPI固網(wǎng)DPI 日志留存OIDD移動(dòng)感知 DPIMR/C4G分組域話 DR單PM/CM 智能網(wǎng)管橫向 行業(yè)短信集約積分渠道電渠悅商機(jī)微信易信號(hào)百4G數(shù)據(jù)終端 MEOD量政企MS化KPICRM計(jì)費(fèi)客戶服務(wù)BSS數(shù)據(jù)PPMVSOPMSS 采購(gòu)輔助數(shù)據(jù)ERP原生數(shù)據(jù)原生數(shù)據(jù)區(qū)區(qū)財(cái)務(wù)輔助工程輔助人力久其綜合裝資源維EDA直采省 + 集 團(tuán)電渠 服務(wù)量省份專區(qū)生態(tài)圈專區(qū)實(shí)體關(guān)聯(lián)視圖編碼標(biāo)準(zhǔn)化實(shí)體對(duì)齊移動(dòng)/固網(wǎng) DPIOIDDMR/CDRCM/CP計(jì)費(fèi)詳單H

28、ANA數(shù)據(jù)ODMS翼支付集約積分主主 數(shù)數(shù) 據(jù)據(jù) 區(qū)區(qū)大數(shù)據(jù)湖整合數(shù)據(jù)區(qū)規(guī)劃大數(shù)據(jù)湖整合數(shù)據(jù)區(qū)規(guī)劃構(gòu)建企業(yè)級(jí)核心實(shí)體關(guān)聯(lián)視構(gòu)建企業(yè)級(jí)核心實(shí)體關(guān)聯(lián)視圖圖 保存原子性:保存原子性:整合數(shù)據(jù)區(qū)數(shù) 據(jù)不做聚合操作,保持?jǐn)?shù)據(jù) 原子性,不影響專區(qū)應(yīng)用指 標(biāo)加工處理; 實(shí)體補(bǔ)齊性:實(shí)體補(bǔ)齊性:對(duì)核心實(shí)體根 據(jù)不同原生數(shù)據(jù)進(jìn)行屬性補(bǔ) 齊; 實(shí)體關(guān)聯(lián)性:實(shí)體關(guān)聯(lián)性:面向?qū)嶓w全業(yè) 務(wù)流程數(shù)據(jù),整合各域數(shù)據(jù) 實(shí)現(xiàn)實(shí)體跨域關(guān)聯(lián)視圖; 共享一致性:共享一致性:按照湖應(yīng)用的 使用需求進(jìn)行共性提煉,實(shí) 現(xiàn)統(tǒng)一的公共寬表建設(shè);整合數(shù)據(jù)區(qū)完成數(shù)據(jù)清洗、編碼轉(zhuǎn)換、實(shí)體對(duì)齊及構(gòu)建企業(yè)級(jí)核心實(shí)體關(guān)聯(lián)視圖整合數(shù)據(jù)區(qū)完成數(shù)據(jù)清洗、編碼轉(zhuǎn)

29、換、實(shí)體對(duì)齊及構(gòu)建企業(yè)級(jí)核心實(shí)體關(guān)聯(lián)視圖,為應(yīng)用專區(qū)提供整合數(shù)據(jù)服務(wù)。整合數(shù)據(jù) 區(qū)保持?jǐn)?shù)據(jù)原子性粒度,不對(duì)數(shù)據(jù)做聚合處理,不影響業(yè)務(wù)專區(qū)業(yè)務(wù)指標(biāo)加工處理。實(shí)體關(guān)聯(lián)視實(shí)體關(guān)聯(lián)視圖圖參與營(yíng) 銷活動(dòng)資源配 給用戶投 訴用戶使 用存量經(jīng) 營(yíng)產(chǎn)品訂 購(gòu)上門服 務(wù)修障維 護(hù)用戶出 賬產(chǎn)品產(chǎn)品 實(shí)體實(shí)體 跨域跨域 關(guān)聯(lián)關(guān)聯(lián) 視圖視圖 構(gòu)建構(gòu)建BSS數(shù)據(jù)數(shù)據(jù) 客戶信息 訂購(gòu)信息OSS數(shù)據(jù)數(shù)據(jù)MSS數(shù)據(jù)數(shù)據(jù)網(wǎng)絡(luò)網(wǎng)絡(luò)/ 平臺(tái)平臺(tái) 裝維信息 開(kāi)通信息 傭金結(jié)算 成本信息 用戶投訴率 行為數(shù)據(jù) 質(zhì)量數(shù)據(jù)消費(fèi)信息服務(wù)信息資源數(shù)據(jù)報(bào)障數(shù)據(jù)財(cái)務(wù)收入補(bǔ)貼數(shù)據(jù)客戶產(chǎn)品渠道營(yíng)銷資源服務(wù)合作伙伴核心核心 實(shí)體實(shí)體自然人CP/SP訂

30、購(gòu)位置信息自然人員工組織地域政企客戶合作伙伴數(shù)據(jù)清洗規(guī)則管理實(shí)體沉淀聚合管理實(shí)體對(duì)實(shí)體對(duì)齊齊沖突管理外部數(shù)據(jù)管理大數(shù)據(jù)湖應(yīng)用數(shù)據(jù)專區(qū)規(guī)劃大數(shù)據(jù)湖應(yīng)用數(shù)據(jù)專區(qū)規(guī)劃面向應(yīng)用的自建自維數(shù)據(jù)專面向應(yīng)用的自建自維數(shù)據(jù)專區(qū)區(qū) 獨(dú)立性:獨(dú)立性:保證資源獨(dú)立性、 數(shù)據(jù)獨(dú)立性、應(yīng)用獨(dú)立性; 可用性:可用性:保證存儲(chǔ)、計(jì)算、 數(shù)據(jù)資源高可用性及穩(wěn)定 性;確保專區(qū)資源可在線、 平滑擴(kuò)展; 易用性:易用性:提供豐富的可視 化開(kāi)發(fā)及專區(qū)運(yùn)營(yíng)工具; 可管理性:可管理性:大數(shù)據(jù)湖對(duì)專 區(qū)具備監(jiān)控、審計(jì)能力; 數(shù)據(jù)服務(wù)性:數(shù)據(jù)服務(wù)性:專區(qū)數(shù)據(jù)可 以數(shù)據(jù)形式服務(wù),也可開(kāi) 發(fā)應(yīng)用直接鏈接調(diào)用;大數(shù)據(jù)湖為業(yè)務(wù)應(yīng)用場(chǎng)景提供具有數(shù)據(jù)存

31、儲(chǔ)、數(shù)據(jù)計(jì)算、數(shù)據(jù)服務(wù)及數(shù)據(jù)應(yīng)用訪問(wèn)能力的應(yīng)用專區(qū)大數(shù)據(jù)湖為業(yè)務(wù)應(yīng)用場(chǎng)景提供具有數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)計(jì)算、數(shù)據(jù)服務(wù)及數(shù)據(jù)應(yīng)用訪問(wèn)能力的應(yīng)用專區(qū),用戶可自行獲取數(shù)據(jù), 面向特定應(yīng)用場(chǎng)景完成數(shù)據(jù)加工處理;大數(shù)據(jù)湖提供專區(qū)申請(qǐng)及監(jiān)控管理,以保證專區(qū)健康、有價(jià)運(yùn)營(yíng)。數(shù)據(jù)接入源端生產(chǎn)系統(tǒng)/數(shù)據(jù)倉(cāng)庫(kù)省份專區(qū) 應(yīng)用生態(tài)圈專 區(qū)應(yīng)用其它專 區(qū)應(yīng)用應(yīng)用數(shù)據(jù)專應(yīng)用數(shù)據(jù)專區(qū)區(qū)整 合 數(shù) 據(jù) 區(qū)主 數(shù) 據(jù) 區(qū)自有數(shù)據(jù)原生數(shù)據(jù)整合區(qū)數(shù)據(jù)省份專區(qū)-內(nèi)蒙 應(yīng)用數(shù)據(jù)專區(qū)申請(qǐng)專區(qū)審批專區(qū)管理專區(qū)劃分專區(qū)變更專區(qū)回收運(yùn)營(yíng)監(jiān)控資源利用率數(shù)據(jù)處理規(guī)范性使用頻度應(yīng)用成果評(píng) 估安全性監(jiān)控省份 專區(qū)-生 態(tài) 圈 專 區(qū)-原 生 數(shù) 據(jù) 區(qū)實(shí)時(shí)采

32、集 批量采集 消息采集共享訪問(wèn)大數(shù)據(jù)湖主數(shù)據(jù)區(qū)規(guī)劃大數(shù)據(jù)湖主數(shù)據(jù)區(qū)規(guī)劃 企業(yè)級(jí)核心企業(yè)級(jí)核心/統(tǒng)一運(yùn)營(yíng)保統(tǒng)一運(yùn)營(yíng)保障障主數(shù)據(jù)區(qū)主數(shù)據(jù)區(qū)負(fù)責(zé)存儲(chǔ)全域主數(shù)據(jù)負(fù)責(zé)存儲(chǔ)全域主數(shù)據(jù),并確保與主數(shù)據(jù)生產(chǎn)者保持同步,為大數(shù)據(jù)湖各區(qū)提供唯一主數(shù)據(jù)源,以保證湖中企企業(yè)業(yè) 級(jí)核心實(shí)體級(jí)核心實(shí)體數(shù)據(jù)的一致性和完整性,提升大數(shù)據(jù)湖運(yùn)營(yíng)效率及效果。 統(tǒng)一主數(shù)據(jù)標(biāo)準(zhǔn):統(tǒng)一主數(shù)據(jù)標(biāo)準(zhǔn):面向全 國(guó)各域各生產(chǎn)系統(tǒng)提供主 數(shù)據(jù)標(biāo)準(zhǔn); 統(tǒng)一主數(shù)據(jù)存儲(chǔ):統(tǒng)一主數(shù)據(jù)存儲(chǔ):面向大 數(shù)據(jù)湖提供統(tǒng)一主數(shù)據(jù)存 儲(chǔ)能力; 統(tǒng)一主數(shù)據(jù)整合:統(tǒng)一主數(shù)據(jù)整合:清洗整 合各域主數(shù)據(jù),形成統(tǒng)一、 標(biāo)準(zhǔn)、唯一主數(shù)據(jù); 統(tǒng)一主數(shù)據(jù)服務(wù):統(tǒng)一主數(shù)據(jù)服務(wù):為大數(shù)

33、 據(jù)湖中各區(qū)提供主數(shù)據(jù)服 務(wù);數(shù)據(jù)接數(shù)據(jù)接入入主數(shù)據(jù)主數(shù)據(jù)區(qū)區(qū)主數(shù)據(jù)整合主數(shù)據(jù)管理主數(shù)據(jù)目錄主數(shù)據(jù)共享主數(shù)據(jù)評(píng)估客戶產(chǎn)品渠道訂單主數(shù)據(jù)組織集團(tuán)橫向 生產(chǎn)系統(tǒng)省份BMO 生產(chǎn)系統(tǒng)網(wǎng)絡(luò)/平臺(tái) 系統(tǒng)生態(tài)圈 生產(chǎn)系統(tǒng)其他系統(tǒng)整合整合數(shù)數(shù) 據(jù)據(jù)區(qū)區(qū)原生數(shù)據(jù)原生數(shù)據(jù)區(qū)區(qū)生產(chǎn)數(shù)據(jù)入湖原 生 數(shù) 據(jù) 服 務(wù) 專 區(qū)主 數(shù) 據(jù) 入 湖主數(shù)據(jù)主數(shù)據(jù)整合數(shù)據(jù)原生數(shù)據(jù)數(shù)據(jù)專數(shù)據(jù)專區(qū)區(qū)生態(tài)圈生態(tài)圈 專區(qū)專區(qū)省省 份份 內(nèi)專專 區(qū)區(qū) 蒙貴 州河 北遼 寧寧 夏金融智能 連接智慧 家庭物聯(lián) 網(wǎng)新興 ICT目目錄錄背背景:景:大數(shù)據(jù)湖的發(fā)展背景與建設(shè)理念體體系:系:大數(shù)據(jù)湖體系規(guī)劃與建設(shè)思路生態(tài)圈:探索新興業(yè)務(wù)入湖建設(shè)模生態(tài)

34、圈:探索新興業(yè)務(wù)入湖建設(shè)模式式共共享:享:大數(shù)據(jù)湖統(tǒng)一訪問(wèn)共享規(guī)劃 運(yùn)運(yùn)營(yíng):營(yíng):大數(shù)據(jù)湖一體化運(yùn)營(yíng)管理建設(shè)12345生態(tài)圈系生態(tài)圈系統(tǒng)統(tǒng)已建新建大大 數(shù)數(shù) 據(jù)據(jù) 湖湖數(shù)據(jù)接數(shù)據(jù)接入入生產(chǎn)系統(tǒng)駐留生產(chǎn)直采前置采集IOT接入同步鏡像iWIFI海洋寬帶天翼高清 天翼網(wǎng)關(guān)智能組網(wǎng)翼支付甜橙欺詐盾天翼云盤 189郵箱家庭云地產(chǎn)大數(shù)據(jù)物聯(lián)網(wǎng)卡車管專家數(shù)據(jù)湖采集一站式配數(shù)據(jù)湖采集一站式配置置采集源連接 / 采集方式(FTP/API/流式/)采集類型(全量/增量)/ 采集計(jì)劃 / 采集存儲(chǔ)數(shù)據(jù)存數(shù)據(jù)存儲(chǔ)儲(chǔ)生產(chǎn)副本(已建)生產(chǎn)正本(新建)原生 數(shù)據(jù)智慧 家庭智能 連接互聯(lián)網(wǎng) 金融物聯(lián)網(wǎng)新興ICT整合 數(shù)據(jù)統(tǒng)一客

35、戶行為 賬號(hào)特征軌跡應(yīng)用 數(shù)據(jù)地產(chǎn)大金融欺詐 數(shù)據(jù)專區(qū)分析專區(qū)車管專家云盤客戶家庭圈 營(yíng)銷洞察畫像計(jì)算處計(jì)算處理理Strom實(shí)時(shí)流處理引擎Sparkstreaming離線批處理引擎HiveMPP機(jī)器學(xué)習(xí)引擎R圖數(shù)據(jù)庫(kù)協(xié)同計(jì)算引擎Data Broker內(nèi)存計(jì)算引擎Redis計(jì)算資源按需動(dòng)態(tài)調(diào)計(jì)算資源按需動(dòng)態(tài)調(diào)配配計(jì)算需求分類 / 資源隊(duì)列管控 / 租戶任務(wù)管理計(jì)算規(guī)模 / 優(yōu)先級(jí)別 / 時(shí)間窗規(guī)劃訪問(wèn)共訪問(wèn)共享享智慧 家庭新興 ICT智能 連接IPTV用戶流量軌跡客戶感知數(shù)據(jù)金融互聯(lián)網(wǎng) 翼支付合作商戶客戶金融特征支付風(fēng)險(xiǎn)識(shí)別物聯(lián)網(wǎng) 終端設(shè)備列表客戶故障記錄生態(tài)圈統(tǒng)一共享目生態(tài)圈統(tǒng)一共享目錄錄生態(tài)

36、圈客戶數(shù)據(jù) / 特征畫像數(shù)據(jù) / 客戶感知數(shù)據(jù) / 生態(tài)圈原生數(shù)據(jù) / 主數(shù)據(jù) / 整合數(shù)據(jù) / 專區(qū)數(shù)據(jù)生態(tài)運(yùn)營(yíng)協(xié)同生態(tài)資源互換生態(tài)精準(zhǔn)營(yíng)銷生態(tài)創(chuàng)新發(fā)現(xiàn)生態(tài)圈應(yīng)生態(tài)圈應(yīng)用用APIJDBCODBC沙箱共 性 基 礎(chǔ) 數(shù) 據(jù)專 業(yè) 應(yīng) 用 數(shù) 據(jù)基于大數(shù)據(jù)湖的生態(tài)圈建設(shè)?;诖髷?shù)據(jù)湖的生態(tài)圈建設(shè)模式式生態(tài)圈入湖指導(dǎo)原則生態(tài)圈入湖指導(dǎo)原則 核心生態(tài)圈數(shù)據(jù)量龐大、繁雜,同時(shí)入庫(kù)對(duì)計(jì)算資源、并行處理能力、運(yùn)營(yíng)效率提出了極大的要求,基于此,應(yīng)構(gòu)建科學(xué)、完核心生態(tài)圈數(shù)據(jù)量龐大、繁雜,同時(shí)入庫(kù)對(duì)計(jì)算資源、并行處理能力、運(yùn)營(yíng)效率提出了極大的要求,基于此,應(yīng)構(gòu)建科學(xué)、完整整 的入湖流程及標(biāo)準(zhǔn),保證生態(tài)圈數(shù)據(jù)能夠

37、順利、高效的入湖并發(fā)揮效的入湖流程及標(biāo)準(zhǔn),保證生態(tài)圈數(shù)據(jù)能夠順利、高效的入湖并發(fā)揮效果果 貼近實(shí)際:充分融合業(yè)務(wù)貼近實(shí)際:充分融合業(yè)務(wù)需需 求,遵循業(yè)務(wù)優(yōu)先原求,遵循業(yè)務(wù)優(yōu)先原則則 計(jì)算效率:充分保證數(shù)據(jù)計(jì)算效率:充分保證數(shù)據(jù)質(zhì)質(zhì) 量,讓計(jì)算效率顯著提量,讓計(jì)算效率顯著提升升 邊際效益:合理控制數(shù)據(jù)邊際效益:合理控制數(shù)據(jù)入入 湖速度、在成本控制的湖速度、在成本控制的前提前提 下,實(shí)現(xiàn)效益最大下,實(shí)現(xiàn)效益最大化化 生態(tài)創(chuàng)新:數(shù)據(jù)、業(yè)務(wù)、生態(tài)創(chuàng)新:數(shù)據(jù)、業(yè)務(wù)、需需 求間的融會(huì)貫通,實(shí)現(xiàn)求間的融會(huì)貫通,實(shí)現(xiàn)生態(tài)生態(tài) 圈的關(guān)聯(lián)及衍生場(chǎng)圈的關(guān)聯(lián)及衍生場(chǎng)景景目標(biāo)驅(qū)動(dòng)入湖原則目標(biāo)驅(qū)動(dòng)入湖原則業(yè)務(wù)驅(qū)動(dòng)數(shù)據(jù)分類

38、業(yè)務(wù)驅(qū)動(dòng)數(shù)據(jù)分類1 了解生態(tài) 業(yè)務(wù)關(guān)鍵概念掌握生態(tài)整體經(jīng)營(yíng)狀況生態(tài)核心核心資料生態(tài)經(jīng)營(yíng)經(jīng)營(yíng)數(shù)據(jù)2生態(tài)營(yíng)銷營(yíng)銷數(shù)據(jù)3 開(kāi)展生態(tài)業(yè) 務(wù)數(shù)字化營(yíng)銷生態(tài)管理管理數(shù)據(jù)4實(shí)現(xiàn)生態(tài)管 理運(yùn)營(yíng)一體化生態(tài)協(xié)同協(xié)同數(shù)據(jù)5 開(kāi)拓生態(tài)業(yè) 務(wù)智慧創(chuàng)新價(jià)值驅(qū)動(dòng)入湖邏輯價(jià)值驅(qū)動(dòng)入湖邏輯維維度度說(shuō)說(shuō)明明權(quán)重權(quán)重系系 數(shù)數(shù)優(yōu)先優(yōu)先級(jí)級(jí)準(zhǔn)確性數(shù)據(jù)準(zhǔn)確無(wú)誤0.282高完整性數(shù)據(jù)完整0.213中一致性數(shù)據(jù)記錄規(guī)范0.087低及時(shí)性數(shù)據(jù)獲取及時(shí)0.234中價(jià)值性數(shù)據(jù)價(jià)值0.235高復(fù)用性關(guān)聯(lián)性0.347高生態(tài)圈數(shù)據(jù)入湖原生態(tài)圈數(shù)據(jù)入湖原則則 優(yōu)先滿足日常運(yùn)營(yíng)管理優(yōu)先滿足日常運(yùn)營(yíng)管理 業(yè)務(wù)價(jià)值雙驅(qū)動(dòng)同步業(yè)務(wù)價(jià)值雙驅(qū)動(dòng)同步 先核心后邊際再

39、全貌先核心后邊際再全貌 先難后易先難后易 先生態(tài)高于業(yè)務(wù)次高于運(yùn)營(yíng)管理先生態(tài)高于業(yè)務(wù)次高于運(yùn)營(yíng)管理主數(shù)主數(shù)據(jù)據(jù) 客戶數(shù)據(jù) 產(chǎn)品數(shù)據(jù) 賬戶數(shù)據(jù) .經(jīng)營(yíng)數(shù)經(jīng)營(yíng)數(shù)據(jù)據(jù) 收入數(shù)據(jù) 發(fā)展數(shù)據(jù) 繳費(fèi)數(shù)據(jù) .營(yíng)銷數(shù)營(yíng)銷數(shù)據(jù)據(jù) 業(yè)務(wù)訂購(gòu)數(shù)據(jù) 紅包數(shù)據(jù) 金融消費(fèi)數(shù)據(jù) .管理數(shù)管理數(shù)據(jù)據(jù) 財(cái)務(wù)數(shù)據(jù) 成本/補(bǔ)貼數(shù)據(jù) 資源/庫(kù)存數(shù)據(jù) 業(yè)態(tài)生產(chǎn)數(shù)業(yè)態(tài)生產(chǎn)數(shù)據(jù)據(jù) 原始數(shù)據(jù) 生態(tài)協(xié)同數(shù)據(jù) 業(yè)務(wù)流程數(shù)據(jù) .解決生產(chǎn)經(jīng)營(yíng)看數(shù)解決生產(chǎn)經(jīng)營(yíng)看數(shù):以生態(tài)圈應(yīng)用和價(jià)值提升需求為導(dǎo)向,優(yōu)先將客戶、經(jīng)營(yíng)、 營(yíng)銷、管理、生產(chǎn)方面的核心主數(shù)據(jù)入湖,滿足當(dāng)前業(yè)務(wù)發(fā)展和管理需求階段階段一一主數(shù)主數(shù)據(jù)據(jù) 渠道數(shù)據(jù) 供應(yīng)商數(shù)據(jù) 商客數(shù)據(jù) .經(jīng)營(yíng)數(shù)經(jīng)營(yíng)

40、數(shù)據(jù)據(jù) 活動(dòng)數(shù)據(jù) 交易類數(shù)據(jù) .營(yíng)銷數(shù)營(yíng)銷數(shù)據(jù)據(jù) 業(yè)務(wù)感知數(shù)據(jù) 卡券數(shù)據(jù) 保險(xiǎn)數(shù)據(jù) .管理數(shù)管理數(shù)據(jù)據(jù) 人力資源數(shù)據(jù) 運(yùn)維數(shù)據(jù) 網(wǎng)絡(luò)數(shù)據(jù) .業(yè)態(tài)生產(chǎn)數(shù)業(yè)態(tài)生產(chǎn)數(shù)據(jù)據(jù) 互聯(lián)網(wǎng)數(shù)據(jù) 用戶行為數(shù)據(jù) 活動(dòng)數(shù)據(jù) .補(bǔ)充采集數(shù)據(jù)補(bǔ)充采集數(shù)據(jù) . .階段階段二二開(kāi)展大數(shù)據(jù)價(jià)值挖掘:開(kāi)展大數(shù)據(jù)價(jià)值挖掘:將各模塊未導(dǎo)入的全量數(shù)據(jù)入湖,同時(shí)豐富生態(tài)邊際和互 聯(lián)網(wǎng)數(shù)據(jù),拓展應(yīng)用場(chǎng)景,實(shí)現(xiàn)大數(shù)據(jù)精準(zhǔn)營(yíng)銷和管理數(shù)據(jù)深度拓展:數(shù)據(jù)深度拓展:不斷豐富和拓展數(shù)據(jù)湖的數(shù)據(jù),包含數(shù)據(jù)的橫向范圍和縱向深度階段階段三三缺失的原生態(tài)數(shù)據(jù)缺失的原生態(tài)數(shù)據(jù) . .其他數(shù)據(jù)其他數(shù)據(jù) . .生態(tài)圈入湖建設(shè)思路與步生態(tài)圈入湖建設(shè)思路與步驟驟生態(tài)

41、圈入湖建設(shè)要求與規(guī)生態(tài)圈入湖建設(shè)要求與規(guī)范范入湖建設(shè)演入湖建設(shè)演進(jìn)進(jìn)生態(tài)圈入生態(tài)圈入湖湖規(guī)規(guī) 范范 價(jià)價(jià) 值值 靈靈 活活生態(tài)數(shù)據(jù)運(yùn)生態(tài)數(shù)據(jù)運(yùn)營(yíng)營(yíng) 原生數(shù)據(jù)規(guī)范保原生數(shù)據(jù)規(guī)范保障障 業(yè)務(wù)規(guī)范:業(yè)務(wù)指導(dǎo)、流程、制度等文檔 主數(shù)據(jù):范圍、內(nèi)容及管理規(guī)范 數(shù)據(jù)字典:數(shù)據(jù)模型、編碼約束、元數(shù)據(jù)等 數(shù)據(jù)流圖(DFD):生產(chǎn)數(shù)據(jù)流、加工數(shù)據(jù)流等 指標(biāo)口徑:術(shù)語(yǔ)定義、報(bào)表指標(biāo)說(shuō)明等 生態(tài)能力入湖規(guī)生態(tài)能力入湖規(guī)劃劃 數(shù)據(jù)規(guī)模:生態(tài)全量、核心資料、經(jīng)營(yíng)數(shù)據(jù)等大小 更新頻率:交易頻率、業(yè)務(wù)變更頻率等 存儲(chǔ)結(jié)構(gòu):生產(chǎn)數(shù)據(jù)存儲(chǔ)模式、存儲(chǔ)周期、分層結(jié)構(gòu)等 接入要求:I/O帶寬、接入約束、生產(chǎn)備份情況等 生態(tài)入湖步生態(tài)

42、入湖步驟驟 依據(jù)數(shù)據(jù)價(jià)值推進(jìn)生態(tài)數(shù)據(jù)入湖 生態(tài)圈需求驅(qū)動(dòng)原生數(shù)據(jù)的入湖 原生入湖演原生入湖演進(jìn)進(jìn) 原則上遵循生態(tài)數(shù)據(jù)原生入湖 當(dāng)原生入湖存在海量采集(性價(jià)比低),理解/支撐困難等 情況,允許按照如下原則進(jìn)行非原生數(shù)據(jù)入湖:核心和經(jīng)營(yíng)入湖:非原生采集,匯入整合層營(yíng)銷和運(yùn)營(yíng)入湖:根據(jù)需要采集原生并逐步替換生態(tài)協(xié)同入湖:完全實(shí)現(xiàn)原生數(shù)據(jù)入湖 生態(tài)業(yè)務(wù)變動(dòng)大且原生結(jié)果滯后數(shù)據(jù),允許前瞻性獲取生產(chǎn)變化 過(guò)程表,避免數(shù)據(jù)模型的大幅調(diào)整 交易類: 主數(shù)據(jù)/編碼類:實(shí)時(shí)全量同步 運(yùn)營(yíng)規(guī)范要求(聯(lián)動(dòng)同步運(yùn)營(yíng)規(guī)范要求(聯(lián)動(dòng)同步) 業(yè)務(wù)調(diào)整通知:新業(yè)務(wù)定義,生產(chǎn)約束變更、業(yè)務(wù)流程變更等 數(shù)據(jù)運(yùn)營(yíng)同步:模型結(jié)構(gòu)變更、

43、歷史數(shù)據(jù)調(diào)整、口徑新增/調(diào)整等 生產(chǎn)模型建設(shè)規(guī)范:新增/變更模型遵循大數(shù)據(jù)湖整體規(guī)范要求 原生數(shù)據(jù)入湖方原生數(shù)據(jù)入湖方案案資料類: 初始化全量上傳歷史全量同步后續(xù)變更采集周期增量采集全量合并整合全量合并整合 生態(tài)圈入湖要求生態(tài)圈入湖要求立足中國(guó)電信企業(yè)級(jí)視角生產(chǎn)側(cè)與數(shù)據(jù)側(cè)建設(shè)協(xié)同生產(chǎn):原生接入保障數(shù)據(jù):共享服務(wù)保障生產(chǎn)源端規(guī)生產(chǎn)源端規(guī)范范 運(yùn)營(yíng)原則運(yùn)營(yíng)原則前瞻性全面性科學(xué)性合理性生態(tài)圈數(shù)據(jù)整合處理原則及關(guān)鍵生態(tài)圈數(shù)據(jù)整合處理原則及關(guān)鍵點(diǎn)點(diǎn)交費(fèi)助手用戶綁卡用戶代金券用戶甜橙白條用戶手手機(jī)機(jī) 號(hào)號(hào)碼碼統(tǒng)一 客戶ID手機(jī) 號(hào)碼交費(fèi)助手 用戶ID綁卡 用戶ID代金券 用戶ID甜橙白條 用戶ID與BSS

44、一致定期?;钇诒L硪鎸毣甬a(chǎn)品申購(gòu)表統(tǒng)一客戶ID理財(cái)類型理財(cái)產(chǎn)品支付類型理財(cái)金額與BSS一致 動(dòng)態(tài)屬性分離動(dòng)態(tài)屬性分離: 采用實(shí)體屬性分 解的模型設(shè)計(jì)方 式,滿足業(yè)務(wù)多 變的發(fā)展需求IDProductIDLoadDTSREC_SRC1PDT0012014.3.14理財(cái)2PDT0022014.3.15交費(fèi)助手IDCustomerIDProductIDChannelIDLoadDTSREC_SRC1ABC123456PDT001CNL0012014.3.14基金產(chǎn)品申購(gòu)表2DFGSG768PDT002CNL0012014.3.15通訊繳費(fèi)3C00011PDT001CNL0022014.3.14添益

45、寶4C12484PDT002CNL0022014.5.14生活繳費(fèi)IDCustomerIDLoadDTSREC_SRC1ABC1234562014.3.14理財(cái)2DFGSG7682014.3.15交費(fèi)助手客戶客戶 實(shí)實(shí)體體產(chǎn)品產(chǎn)品 實(shí)實(shí)體體客戶產(chǎn)品客戶產(chǎn)品 訂購(gòu)關(guān)訂購(gòu)關(guān)系系IDChannelIDLoadDTSREC_SRC1CNL0012014.3.14o2o商戶2CNL0022014.3.15網(wǎng)關(guān)商戶渠道渠道 實(shí)實(shí)體體IDProductID結(jié)算方式LoadDTS REC_SRC1PDT003全額2014.3.14代金券配置2PDT003差額2014.3.15代金券配置IDProductID生

46、效方式LoadDTSREC_SRC1PDT003自動(dòng)設(shè)置2014.3.14代金券配置2PDT003發(fā)放設(shè)置2014.3.15代金券配置產(chǎn)品屬性產(chǎn)品屬性- 生效方生效方式式產(chǎn)品屬性產(chǎn)品屬性- 結(jié)算方結(jié)算方式式 生態(tài)業(yè)務(wù)聚合:生態(tài)業(yè)務(wù)聚合:聚焦各 類業(yè)務(wù)應(yīng)用,規(guī)劃生態(tài) 整合視圖 核心實(shí)體對(duì)齊:核心實(shí)體對(duì)齊:跨業(yè)務(wù)的實(shí)體數(shù) 據(jù)一致性關(guān)聯(lián)大數(shù)據(jù)湖整合區(qū)建設(shè)原大數(shù)據(jù)湖整合區(qū)建設(shè)原則則 基于共性化共性化數(shù)據(jù)處理,支撐廣泛、穩(wěn)定的共享應(yīng)用; 支撐湖標(biāo)準(zhǔn)化標(biāo)準(zhǔn)化的數(shù)據(jù)規(guī)范轉(zhuǎn)換; 跨域數(shù)據(jù)的關(guān)聯(lián)性關(guān)聯(lián)性和橫向?qū)R;生態(tài)圈數(shù)據(jù)整合關(guān)鍵生態(tài)圈數(shù)據(jù)整合關(guān)鍵點(diǎn)點(diǎn)統(tǒng)統(tǒng) 一一 ID生態(tài)圈自然人實(shí)體歸集與對(duì)生態(tài)圈自然人實(shí)體歸

47、集與對(duì)齊齊客戶資料歸集應(yīng)具備基于資料信息的規(guī)則匹配識(shí)別和基于客戶海量的通信相關(guān)信息的挖掘識(shí)別方法:1通過(guò)規(guī)則匹配識(shí)別技術(shù),高效地完成準(zhǔn)確性較高的資料信息自然人識(shí)別;公眾號(hào)行業(yè)調(diào)研報(bào)告2基于大數(shù)據(jù)技術(shù)構(gòu)建自然人識(shí)別模式,作為規(guī)則識(shí)別的有效補(bǔ)充,提高自然人識(shí)別成功率,減少人工核查確認(rèn)工作量。關(guān)鍵能力要求關(guān)鍵能力要求: 規(guī)則識(shí)別和大數(shù)據(jù)技術(shù)識(shí)別配合完成資料聚合;深度應(yīng)用大數(shù)據(jù)識(shí)別技術(shù),通過(guò)照片留存、交際圈、位置軌跡、虛擬身份等信息,識(shí)別出 從資料層面不能反映出的同一自然人。 大數(shù)據(jù)技術(shù)識(shí)別應(yīng)用到的技術(shù):文本分詞、文本匹配、似度計(jì)算、多音字庫(kù)、象形字庫(kù)、網(wǎng)絡(luò)圖譜算法、指紋權(quán)重、關(guān)系傳遞等;聚合規(guī)則識(shí)物

48、聯(lián)網(wǎng)互聯(lián)網(wǎng)金融智能連接智慧家庭原生數(shù)據(jù)自然人識(shí)別自然人沉淀大數(shù)據(jù)識(shí)別照片留存 交際圈 位置軌跡虛擬身份繳費(fèi)信息終端信息客戶接觸 自然人自然人:客戶客戶A 移動(dòng)A套餐 Iphone用戶 客戶A1省分省分1 移動(dòng)C套餐 預(yù)付費(fèi) 用戶 客戶A1省分省分2證件號(hào)碼姓名別地址 聯(lián)系人 工作單位 規(guī)則庫(kù)綜 合 評(píng) 價(jià)實(shí)體歸集過(guò)實(shí)體歸集過(guò)程程基于實(shí)體 完整性基于業(yè)務(wù) 邏輯自頂向下自頂向下自底向上自底向上數(shù)據(jù)整合數(shù)據(jù)整合/加工規(guī)則加工規(guī)則原生數(shù)據(jù)用戶信息用戶產(chǎn)表品訂購(gòu)客戶 信息客戶實(shí) 名認(rèn)證客戶聯(lián)系人 信用度用戶積分 郵寄信息專區(qū)應(yīng)用自然人基本 自然人有效移網(wǎng) 信息戶數(shù)信息保證上層覆蓋保證上層覆蓋性性自然人黑

49、名單 信息自然人用戶360信息差異數(shù) 據(jù)下發(fā)編碼標(biāo)準(zhǔn)化自然人基本信息自然人擴(kuò)展信息模型轉(zhuǎn)化模型轉(zhuǎn)化/編碼統(tǒng)編碼統(tǒng)一一自然人用戶信息自然人用戶 擴(kuò)展屬性表整合歸集自然人基本信自然人擴(kuò)展息信息自然人 用戶信息自然人用戶 擴(kuò)展信息差異數(shù)據(jù)實(shí)體歸集數(shù)據(jù)流實(shí)體歸集數(shù)據(jù)流程程新興ICT生態(tài)圈數(shù)據(jù)接入與存儲(chǔ)生態(tài)圈數(shù)據(jù)接入與存儲(chǔ)通過(guò)對(duì)五大生態(tài)圈 數(shù)據(jù)采集入湖,統(tǒng)一規(guī) 范轉(zhuǎn)換后,為各類專區(qū) 應(yīng)用提供數(shù)據(jù)支撐。 生態(tài)圈入生態(tài)圈入湖湖根據(jù)生態(tài)圈系統(tǒng)的建設(shè)情 況,科學(xué)規(guī)劃多種采集方 式入湖 生態(tài)圈數(shù)據(jù)規(guī)生態(tài)圈數(shù)據(jù)規(guī)范范圍繞大數(shù)據(jù)湖功能分區(qū), 探索各類數(shù)據(jù)的存儲(chǔ)要求 和能力建設(shè) 生態(tài)應(yīng)用服生態(tài)應(yīng)用服務(wù)務(wù)針對(duì)生態(tài)業(yè)務(wù)應(yīng)用

50、需求, 確定大數(shù)據(jù)湖的應(yīng)用支撐 模式,構(gòu)建專區(qū)建設(shè)規(guī)范智能連接物聯(lián)網(wǎng)智慧家庭互聯(lián)網(wǎng)金融新興ICT原生數(shù)據(jù)原生數(shù)據(jù)區(qū)區(qū)大數(shù)據(jù)大數(shù)據(jù)湖湖五大生態(tài)五大生態(tài) 圈數(shù)圈數(shù)據(jù)據(jù)批量采集批量采集 實(shí) 時(shí) 采 集實(shí) 時(shí) 采 集 準(zhǔn)實(shí)時(shí)采集準(zhǔn)實(shí)時(shí)采集應(yīng)用數(shù)據(jù)應(yīng)用數(shù)據(jù)區(qū)區(qū)互聯(lián)網(wǎng)金 融專區(qū)物聯(lián)網(wǎng) 專區(qū)生態(tài)創(chuàng)新 專區(qū)用戶行為軌跡智能連接物聯(lián)網(wǎng)智慧家庭互聯(lián)網(wǎng)金融新興ICT主主數(shù)數(shù) 據(jù)據(jù)區(qū)區(qū)統(tǒng)一客戶信息生態(tài)業(yè)務(wù)產(chǎn)品統(tǒng)一帳戶信息標(biāo)準(zhǔn)編碼信息整合數(shù)據(jù)整合數(shù)據(jù)區(qū)區(qū)生態(tài)收入貢獻(xiàn) 互金業(yè)務(wù)訂購(gòu)用戶關(guān)聯(lián)信息新 業(yè) 務(wù) 采新 業(yè) 務(wù) 采 集集入 湖 模 式 探入 湖 模 式 探 索索對(duì) 接 應(yīng) 用 需對(duì) 接 應(yīng) 用 需 求求專 區(qū) 規(guī)

51、范 制專 區(qū) 規(guī) 范 制 定定數(shù) 據(jù) 分 區(qū) 規(guī)數(shù) 據(jù) 分 區(qū) 規(guī) 劃劃湖 存 儲(chǔ) 功 能 定湖 存 儲(chǔ) 功 能 定 義義生 態(tài) 采 集 支生 態(tài) 采 集 支 撐撐入 湖 采 集 能 力 驗(yàn)入 湖 采 集 能 力 驗(yàn) 證證目目錄錄背背景:景:大數(shù)據(jù)湖的發(fā)展背景與建設(shè)理念體體系:系:大數(shù)據(jù)湖體系規(guī)劃與建設(shè)思路生態(tài)圈:生態(tài)圈:探索新興業(yè)務(wù)入湖建設(shè)模式共共享:大數(shù)據(jù)湖統(tǒng)一訪問(wèn)共享規(guī)享:大數(shù)據(jù)湖統(tǒng)一訪問(wèn)共享規(guī)劃劃 運(yùn)運(yùn)營(yíng):營(yíng):大數(shù)據(jù)湖一體化運(yùn)營(yíng)管理建設(shè)12345大數(shù)據(jù)場(chǎng)景下數(shù)據(jù)服務(wù)的能力建設(shè)要大數(shù)據(jù)場(chǎng)景下數(shù)據(jù)服務(wù)的能力建設(shè)要求求大數(shù)據(jù)場(chǎng)景:混搭架構(gòu)平臺(tái)、多系統(tǒng)共存、不同數(shù)據(jù)體系、各種應(yīng)用場(chǎng)景需大數(shù)據(jù)場(chǎng)

52、景:混搭架構(gòu)平臺(tái)、多系統(tǒng)共存、不同數(shù)據(jù)體系、各種應(yīng)用場(chǎng)景需求求統(tǒng)統(tǒng)一一 標(biāo)準(zhǔn)標(biāo)準(zhǔn)化化 透明透明化化 安安全全 高高效效 外部應(yīng)用的便捷接外部應(yīng)用的便捷接入入 靈活安全的權(quán)限管控機(jī)靈活安全的權(quán)限管控機(jī)制制 跨底層數(shù)據(jù)存儲(chǔ)平跨底層數(shù)據(jù)存儲(chǔ)平臺(tái)臺(tái)混搭架構(gòu)平臺(tái),如 HDFS、MPP、SMP等多種數(shù)據(jù)存儲(chǔ)體系,如關(guān)系 型DB、KV-DB、文件系統(tǒng)等 統(tǒng)一標(biāo)準(zhǔn)化數(shù)據(jù)查統(tǒng)一標(biāo)準(zhǔn)化數(shù)據(jù)查詢?cè)兺ㄓ玫臄?shù)據(jù)查詢語(yǔ)言,支持跨平 臺(tái)訪問(wèn),如PL/SQL,HQL等 跨數(shù)據(jù)結(jié)構(gòu)的邏輯化訪跨數(shù)據(jù)結(jié)構(gòu)的邏輯化訪問(wèn)問(wèn)多應(yīng)用系統(tǒng)的物理結(jié)構(gòu)透明化 邏輯封裝,如OLTP、OLAP等多種數(shù)據(jù)服務(wù)場(chǎng)景的權(quán)限 管控,如查詢、分析等多種應(yīng)用接

53、入能力,如 JDBC、Socket等大數(shù)據(jù)湖統(tǒng)一訪問(wèn)共享建設(shè)規(guī)劃大數(shù)據(jù)湖統(tǒng)一訪問(wèn)共享建設(shè)規(guī)劃 統(tǒng)一目錄統(tǒng)一目錄/透明訪透明訪問(wèn)問(wèn)訪訪 問(wèn)問(wèn) 共共 享享統(tǒng)一訪問(wèn)共享:統(tǒng)一訪問(wèn)共享:管、用、管、用、看看 管管:基于湖中數(shù)據(jù)構(gòu)建 統(tǒng)一數(shù)據(jù)目錄,屏蔽湖 中數(shù)據(jù)物理存儲(chǔ)地址, 提供實(shí)現(xiàn)湖中可共享數(shù) 據(jù)的管理 用用:數(shù)據(jù)服務(wù)中間件為 應(yīng)用提供多樣化數(shù)據(jù)接 口訪問(wèn)能力,如API、 JDBC/ODBC、消息、 訂閱等能力 看看:目錄視圖為開(kāi)發(fā)者 提供湖中可共享數(shù)據(jù)的 統(tǒng)一目錄視圖,并管理 湖中數(shù)據(jù)訪問(wèn)授權(quán)數(shù)據(jù)計(jì)算與存儲(chǔ)資數(shù)據(jù)計(jì)算與存儲(chǔ)資源源計(jì)算引擎數(shù)據(jù)存儲(chǔ)文本數(shù)據(jù)ORACLEHIVEHBASE統(tǒng)一數(shù)據(jù)目錄數(shù)據(jù)

54、讀取數(shù)數(shù) 據(jù)據(jù) 能能 力力數(shù)據(jù) 采集數(shù)據(jù) 加工數(shù)據(jù) 挖掘數(shù)據(jù) 可視化服務(wù) 封裝 數(shù)據(jù) 應(yīng)用數(shù)據(jù)訪問(wèn)接口數(shù)據(jù)訪問(wèn)接口數(shù)據(jù)服務(wù)中間件API接口JDBC/ODBC消息數(shù)據(jù)緩存內(nèi)存計(jì)算數(shù)據(jù)訪問(wèn)引擎函數(shù)計(jì)算統(tǒng)計(jì)分析規(guī)則配置接口鑒權(quán)數(shù)據(jù)授權(quán)目錄管控?cái)?shù)據(jù)開(kāi)放權(quán)限申請(qǐng)授權(quán)審批訪問(wèn)共享訪問(wèn)共享是湖中數(shù)據(jù)和應(yīng)用、能力之間的橋梁,任何功能/應(yīng)用模塊使用湖中數(shù)據(jù)時(shí),不需要關(guān)心數(shù)據(jù)的存儲(chǔ)方式、存儲(chǔ)介 質(zhì)、存儲(chǔ)位置等信息,只要和訪問(wèn)共享連接既可以實(shí)現(xiàn)湖中數(shù)據(jù)的訪問(wèn) 統(tǒng)一訪問(wèn)共享典型應(yīng)用場(chǎng)景統(tǒng)一訪問(wèn)共享典型應(yīng)用場(chǎng)景共享數(shù) 據(jù)訪問(wèn)數(shù)據(jù) 挖掘數(shù)據(jù)挖 掘結(jié)果數(shù)據(jù)探索數(shù)據(jù)訪問(wèn)生產(chǎn)生產(chǎn) 系統(tǒng)系統(tǒng)自有 數(shù)據(jù) 接口遵循入湖 規(guī)范統(tǒng)一數(shù)據(jù)

55、目錄統(tǒng)一數(shù)據(jù)目錄共享數(shù) 據(jù)訪問(wèn)專區(qū)數(shù) 據(jù)訪問(wèn)數(shù)據(jù) 加工數(shù)據(jù)訪問(wèn)數(shù)據(jù)計(jì)算與存儲(chǔ)資數(shù)據(jù)計(jì)算與存儲(chǔ)資源源原生數(shù)據(jù)原生數(shù)據(jù)整合數(shù)據(jù)整合數(shù)據(jù)專區(qū)數(shù)據(jù)專區(qū)數(shù)據(jù)生產(chǎn)數(shù)據(jù)生產(chǎn)數(shù)據(jù)共享數(shù) 據(jù)訪問(wèn)服務(wù)封裝服務(wù)訂閱服務(wù)網(wǎng)關(guān)數(shù)據(jù)訪問(wèn)訪問(wèn)共享訪問(wèn)共享數(shù)據(jù)可視化1數(shù)據(jù)挖數(shù)據(jù)挖掘掘3 能力開(kāi)放能力開(kāi)放(API)專區(qū)應(yīng)專區(qū)應(yīng)用用數(shù)據(jù)服務(wù)中間件數(shù)據(jù)服務(wù)中間件目錄管控目錄管控新建系統(tǒng)新建系統(tǒng)24專區(qū)應(yīng)用開(kāi)發(fā)者通過(guò)統(tǒng)一訪問(wèn)引擎訪問(wèn)湖中共享數(shù)據(jù),專區(qū)應(yīng)用直接訪問(wèn)自有專區(qū)數(shù)據(jù),實(shí)現(xiàn)湖中數(shù)據(jù)統(tǒng)一共享管控和應(yīng)用 訪問(wèn)靈活訪問(wèn)自有專區(qū)數(shù)據(jù)統(tǒng)一數(shù)據(jù)目錄統(tǒng)一數(shù)據(jù)目錄 共享列表共享列表/質(zhì)量保障質(zhì)量保障/安全可控安全可控?cái)?shù)據(jù)存數(shù)據(jù)存儲(chǔ)儲(chǔ)元數(shù)據(jù)管理

56、數(shù)據(jù)描述及統(tǒng)計(jì)信息數(shù)據(jù)稽核統(tǒng)一數(shù)據(jù)目統(tǒng)一數(shù)據(jù)目錄錄人工審人工審核核數(shù)據(jù)質(zhì)量審數(shù)據(jù)質(zhì)量審核核數(shù)據(jù)安全審數(shù)據(jù)安全審核核開(kāi)放范圍審開(kāi)放范圍審核核開(kāi)放流程定開(kāi)放流程定義義運(yùn)營(yíng)者審核通過(guò)表、視圖結(jié)合元數(shù)據(jù)及數(shù)據(jù)統(tǒng)計(jì)信息訪問(wèn)共享數(shù)據(jù)服務(wù)中間件目錄管控湖中數(shù)據(jù)湖中數(shù)據(jù)只有經(jīng)過(guò)質(zhì)量質(zhì)量和安全安全評(píng) 估,符合應(yīng)用開(kāi)發(fā)的條件后,在 明確開(kāi)放審批流程開(kāi)放審批流程的前提下,進(jìn) 入統(tǒng)一數(shù)據(jù)目錄對(duì)外共享基于湖中具備共享?xiàng)l件的數(shù)據(jù)構(gòu)建統(tǒng)一數(shù)據(jù)目錄,通過(guò)訪問(wèn)引擎為應(yīng)用開(kāi)發(fā)者、數(shù)據(jù)運(yùn)營(yíng)者提供湖中數(shù)據(jù)訪問(wèn)能力,是數(shù)據(jù) 應(yīng)用、運(yùn)營(yíng)和價(jià)值實(shí)現(xiàn)的基礎(chǔ)。大數(shù)據(jù)服務(wù)關(guān)鍵能力:統(tǒng)一數(shù)據(jù)接入大數(shù)據(jù)服務(wù)關(guān)鍵能力:統(tǒng)一數(shù)據(jù)接入/轉(zhuǎn)換轉(zhuǎn)換/服務(wù)對(duì)接

57、能服務(wù)對(duì)接能力力統(tǒng)一數(shù)據(jù)服務(wù)代理統(tǒng)一數(shù)據(jù)服務(wù)代理 Data Broker大數(shù)據(jù)系大數(shù)據(jù)系統(tǒng)統(tǒng) Hive、Hbase、 Impala、數(shù)據(jù)服務(wù)數(shù)據(jù)服務(wù)Query、API等能力開(kāi)放工具能力開(kāi)放工具查詢工具、挖掘工具、OLAP工具等數(shù)據(jù)應(yīng)用數(shù)據(jù)應(yīng)用報(bào)表、應(yīng)用等SMP數(shù)據(jù)數(shù)據(jù)庫(kù)庫(kù) Oracle、 Mysql、 DB2、解釋 查詢統(tǒng)一對(duì)外接入統(tǒng)一對(duì)外接入(JDBC、Socket、Restful)統(tǒng)一數(shù)據(jù)連接統(tǒng)一數(shù)據(jù)連接(Agent connector)OLAP引引擎擎 Apache Kylin、 Cognos、MPP數(shù)據(jù)數(shù)據(jù)庫(kù)庫(kù) GreenPlum、 Vertica、傳統(tǒng)文件系傳統(tǒng)文件系統(tǒng)統(tǒng) Excel

58、、XML、 Json、AQL數(shù)據(jù) 聯(lián)邦PL/SQLHQLPostgresSQL性能 安全性能 優(yōu)化數(shù)據(jù) 安全緩存內(nèi)存優(yōu)先轉(zhuǎn)換訪問(wèn)鑒 權(quán)脫敏加 密元數(shù)據(jù)數(shù)據(jù)集 關(guān)聯(lián)統(tǒng)一維表數(shù)據(jù)預(yù)覽格式 轉(zhuǎn)換源端連接統(tǒng)一數(shù)據(jù)服務(wù)中間件統(tǒng)一數(shù)據(jù)服務(wù)中間件 跨域聯(lián)邦跨域聯(lián)邦/標(biāo)準(zhǔn)查詢標(biāo)準(zhǔn)查詢/統(tǒng)一訪統(tǒng)一訪問(wèn)問(wèn)37 跨底層數(shù)據(jù)存儲(chǔ)平跨底層數(shù)據(jù)存儲(chǔ)平臺(tái)臺(tái)多種數(shù)據(jù)存儲(chǔ)體系,如關(guān)系 型DB、KV-DB、文件系統(tǒng) 等 統(tǒng)一標(biāo)準(zhǔn)化數(shù)據(jù)查統(tǒng)一標(biāo)準(zhǔn)化數(shù)據(jù)查詢?cè)兺ㄓ玫臄?shù)據(jù)查詢語(yǔ)言,支持 跨平臺(tái)訪問(wèn),如PL/SQL, HQL等 靈活安全的權(quán)限管控機(jī)靈活安全的權(quán)限管控機(jī) 制制多種數(shù)據(jù)服務(wù)場(chǎng)景的權(quán)限管控,如查詢、分析等 跨數(shù)據(jù)結(jié)構(gòu)的邏輯化訪

59、跨數(shù)據(jù)結(jié)構(gòu)的邏輯化訪 問(wèn)問(wèn)多應(yīng)用系統(tǒng)的物理結(jié)構(gòu)透明化邏輯封裝,如OLTP、 OLAP等 外部應(yīng)用的便捷接入外部應(yīng)用的便捷接入 多種應(yīng)用接入能力,如 JDBC、Socket等各類跨架構(gòu)數(shù)據(jù)源端連接與訪各類跨架構(gòu)數(shù)據(jù)源端連接與訪問(wèn)問(wèn)38靈活自主的數(shù)據(jù)服務(wù)集定靈活自主的數(shù)據(jù)服務(wù)集定義義39DataBroker查詢語(yǔ)法查詢語(yǔ)法40常用函數(shù):AQL語(yǔ)法(類SQL):示例1:在用戶增長(zhǎng)數(shù)據(jù)集中,查詢2018年10月比9月的入網(wǎng)用戶增 長(zhǎng)比例,按地區(qū)分組,按排序字段排序SELET ROUND(month_ten-month_nine)/ month_nine) as “增長(zhǎng)比例”, user_area as

60、 “地區(qū)”FROM user_in_month_detail GROUP BY user_area ORDER BY order_codeDataBroker查詢示例查詢示例示例2:按照省份,將流量按照100M為步長(zhǎng)分檔統(tǒng)計(jì),并忽略小于10 M的用戶數(shù)SELECT area_no,segm_step(data_flow,100,10) as 流量分檔,coun t(user_id) as 用戶數(shù)FROM user_used_flowGROUP BY area_no,SEGM_STEP(data_flow,100,10) as 流量分 檔”示例3:按照省,賬期,分組統(tǒng)計(jì)指標(biāo)1,指標(biāo)2值,同時(shí)統(tǒng)計(jì)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論