版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、云原生數(shù)據(jù)湖生態(tài)分析及選型建議技術創(chuàng)新,變革未來數(shù)據(jù)湖的定義離線任務管理流程編排質(zhì)量管理數(shù)據(jù)治理數(shù)據(jù)接入數(shù)據(jù)搬遷訪問控制資產(chǎn)目錄應用BI報表數(shù)據(jù)大屏數(shù)據(jù)挖掘機器學習IoT分析數(shù)據(jù)庫數(shù)倉APP數(shù)據(jù)湖存儲層OSS實時調(diào)用數(shù)據(jù)湖是面向大數(shù)據(jù)場景的創(chuàng)新解決方案早期,業(yè)界和用戶多把數(shù)據(jù)湖定義為一個儲存原始格式數(shù)據(jù)的系統(tǒng),可容納結構化、半結構化、非結構化及二進制的數(shù)據(jù)。 隨著大數(shù)據(jù)技術的融合發(fā)展,數(shù)據(jù)湖的邊界不斷擴展,內(nèi)涵也發(fā)生了變化。數(shù)據(jù)湖開始匯集各方面技術,逐步演進成為集 多源異構數(shù)據(jù)統(tǒng)一儲存、多范式計算分析及統(tǒng)一管理調(diào)用的大數(shù)據(jù)綜合解決方案。它可以更加高效率低成本地管理海量多 源異構數(shù)據(jù),打通數(shù)據(jù)孤
2、島,釋放數(shù)據(jù)價值,助力新時代下各行業(yè)企業(yè)的數(shù)字化轉型。數(shù)據(jù)湖典型構架及特性數(shù)據(jù)湖接入層數(shù)據(jù)湖調(diào)度層數(shù)據(jù)湖應用層統(tǒng) 一 的 API接 口數(shù)據(jù)科學 應用廣泛: 支持使用者通 過自助訪問業(yè) 務數(shù)據(jù), 支持 數(shù)據(jù)挖掘、機 器學習等未知 探索訴求。 Schema 后 置:數(shù)據(jù)湖存儲數(shù)據(jù) 不需要滿足特定 的范式,支持在 讀取數(shù)據(jù)的時候 schema。, 數(shù)據(jù)多源異構: 可容納海量數(shù)據(jù), 且無存儲格式要求 接收結構化、半結 構化、非結構化及 二進制數(shù)據(jù)入湖。, 多范式計算:支持多種計算引擎,滿足不同數(shù)據(jù)計算分 析需求,支持批處理、流處理、機器學習等。數(shù)據(jù)湖管理層元數(shù)據(jù)管理數(shù)據(jù)湖計算層離線計算MapReduc
3、eSpark實時計算StormFlinkSpark Streaming 數(shù)據(jù)統(tǒng)一存儲管理:對內(nèi)以OSS為中心,進行統(tǒng)一存儲 對接多范式計算引擎,對外提供統(tǒng)一的API接口4日志數(shù)據(jù)湖 vs 數(shù)據(jù)倉庫誕生背景、設計思路及使用場景各不相同數(shù)據(jù)倉庫是誕生于數(shù)據(jù)庫時代,應企業(yè)分析訴求而生的數(shù)據(jù)產(chǎn)品,它的核心思路是把數(shù)據(jù)庫中的數(shù)據(jù)進行一定格式轉換后, 定時地復制至另一個庫里做列式存儲,從而滿足企業(yè)查詢和數(shù)據(jù)分析的訴求。隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)量暴增,非結構化 數(shù)據(jù)越來越多,企業(yè)業(yè)務變化越來越快,傳統(tǒng)數(shù)據(jù)倉庫無法適應大數(shù)據(jù)和現(xiàn)代化企業(yè)對于實時、交互式分析等方面的訴求。 隨之,數(shù)據(jù)湖誕生。它選擇了“前松后緊”的
4、設計思路,初始化階段放棄嚴格的模式,后置schema,從而獲取更強的靈 活性;同時通過統(tǒng)一存儲管理和計算優(yōu)化來保證數(shù)據(jù)的一致性和性能。數(shù)據(jù)湖與數(shù)據(jù)倉庫對比數(shù)據(jù)源數(shù)據(jù)處理適用場景性價比數(shù)據(jù)倉庫支持處理過后的結構化/半結構 化數(shù)據(jù);來自業(yè)務系統(tǒng)寫時建模(Schema-on-write)傳統(tǒng)行業(yè),以及企業(yè)的穩(wěn)態(tài)業(yè)務;數(shù)據(jù)量少,數(shù)據(jù)結構化,穩(wěn)定可預測,對 執(zhí)行實時性要求不高建設成本低 擴容成本高高度監(jiān)管與嚴格事前控制,滿足企業(yè)級訴求;數(shù)據(jù)與模式穩(wěn)定,引擎優(yōu)化表現(xiàn)較好。BI數(shù)據(jù)源ETL數(shù)據(jù)倉庫報表數(shù)據(jù)湖支持未經(jīng)處理的結構化/半結構 化/非結構化數(shù)據(jù);來自IoT設備、Web、APP和業(yè)務系統(tǒng)等讀時建模(S
5、chema-on-read)泛互聯(lián)網(wǎng)行業(yè)以及傳統(tǒng)行業(yè)的互聯(lián)網(wǎng)場景; 海量數(shù)據(jù),迭代速度快,需要實時分析擴容成本低 建設成本高可針對特定業(yè)務需求進行重新配置,靈活性和可擴展性較強。數(shù)據(jù)源數(shù)據(jù)湖數(shù) 據(jù) 處 理BI報表56云原生數(shù)據(jù)湖云原生部署是數(shù)據(jù)湖未來的必然形態(tài)近年來,在數(shù)字經(jīng)濟的背景下,互聯(lián)網(wǎng)行業(yè)及傳統(tǒng)企業(yè)加速云化轉型,中國整體云服務市場的規(guī)模逐年擴增,云成為新一 代IT基礎設施已經(jīng)成為不爭的事實。其中,企業(yè)云化轉型的深入以及用云思維的轉變,驅動了PaaS市場份額的增長,基于 云的能力創(chuàng)新已成為基礎云發(fā)展新的增長引擎。云特有的“池化、彈性、成本、敏捷”等優(yōu)勢讓數(shù)據(jù)層與應用層的很多設 想得以實現(xiàn)
6、,擁抱云原生成為數(shù)據(jù)湖乃至大數(shù)據(jù)的必然選擇。來源:2021年中國基礎云服務行業(yè)發(fā)展洞察,研究院自主研究及繪制。來源:2021年中國基礎云服務行業(yè)發(fā)展洞察,研究院自主研究及繪制。2015-2024年中國整體云服務 市場規(guī)模及增速394521693102616122256324546906598928632.1% 33.2%48.1%57.1%39.9% 43.8% 44.5% 40.7% 40.7%20 15 20 16 20 17 20 18 20 19 20 20 20 21e 20 22e 20 23e 20 24e整體云服務市場規(guī)模(億元)整體云服務市場增速(%)241322424638
7、108816392285331442035527547110514518427240561391813742015-2024年中國整體IaaS和PaaS 市場規(guī)模及增速70.4%45.0%26.8%31.5%32.6%50.6%50.7%47.2%33.3% 31.7% 38.1%27.0%47.8%39.4%49.0% 51.5% 49.8%49.6%20 15 20 16 20 17 20 18 20 19 20 20 20 21e 20 22e 20 23e 20 24eIaaS市場規(guī)模(億元) IaaS市場增速(%)PaaS市場規(guī)模(億元) PaaS市場增速(%)大 數(shù) 據(jù) 技 術數(shù)
8、據(jù) 湖發(fā)展歷程來源:公開資料,專家訪談,研究院自主研究及繪制。數(shù)據(jù)庫時代1960s2000s20世紀60年代,計算機 開始廣泛地應用于數(shù)據(jù) 管理,能夠統(tǒng)一管理和 共享數(shù)據(jù)的數(shù)據(jù)庫管理 系統(tǒng)(DBMS)誕生。20世紀90年代,為滿足 企業(yè)數(shù)據(jù)分析的訴求, 數(shù)據(jù)倉庫誕生。2000s2010s:互聯(lián)網(wǎng)蓬勃發(fā)展,數(shù)據(jù)量 爆發(fā)式增長,數(shù)據(jù)庫/數(shù)倉 難以承載海量數(shù)據(jù),大數(shù) 據(jù)時代開啟;以Hadoop(開源)、 Google 、 Microsoft Cosmos 為代表的分布式 技術體系誕生,奠基了大 數(shù)據(jù)時代的基本技術框架。2010s2020s:數(shù)據(jù)倉庫不斷演進,在性能、成本、 數(shù)據(jù)管理能力等方面不斷優(yōu)化
9、, Google BigQuery、Snowflake等 優(yōu)秀產(chǎn)品面市;以開源 Hadoop 體系為代表的開放 式 HDFS 存儲、開放的文件格式、 開放的元數(shù)據(jù)服務以及多種引擎(Presto、Spark、Flink 等)協(xié)同 工作的模式,形成了數(shù)據(jù)湖的雛形。大數(shù)據(jù)技術的探索期2020s:大數(shù)據(jù)技術逐步滲透到下游各行業(yè),人們 對大數(shù)據(jù)產(chǎn)品提出了成本、安全、穩(wěn)定性 等更加全面的企業(yè)級生產(chǎn)的要求;云上純托管的存儲系統(tǒng)逐步取代HDFS, 引擎豐富度也不斷擴展,數(shù)據(jù)湖開始走向 “云湖共生”階段;數(shù)據(jù)倉庫和數(shù)據(jù)湖在云的體系下得以打通, 湖倉一體的解決方案在業(yè)界開始應用。阿里云推出業(yè)內(nèi)首個云原生企業(yè)級 數(shù)
10、據(jù)湖解決方案IBM推出面向數(shù)據(jù)湖的新一代存儲 解決方案百度云推出百度數(shù)據(jù)湖管理與分析 平臺EasyDAP華為云推出數(shù)據(jù)湖治理中心DGC,將 原FusionInsight HD與MRS結合, 全面升級到FusionInsight MRS云 原生架構2020年阿里云定義了數(shù)據(jù)湖3.0,為 用戶提供以OSS為中心,多種 元數(shù)據(jù)統(tǒng)一管理,并結合云原 生進一步實現(xiàn)實時化、AI化、 生態(tài)化的綜合性解決方案。騰訊云首次對外展示完整的云 端數(shù)據(jù)湖產(chǎn)品圖譜,并推出數(shù) 據(jù)湖計算DLC和數(shù)據(jù)湖構建 DLF產(chǎn)品2021年產(chǎn)品隨市場需求不斷演進,國內(nèi)數(shù)據(jù)湖尚處于發(fā)展初期中國數(shù)據(jù)湖技術正在逐年發(fā)展及突破,公有云廠商及其他
11、行業(yè)廠商紛紛在做嘗試。但目前在數(shù)據(jù)感知收集及歸類清洗方面 存在壁壘和難度,數(shù)據(jù)湖建模經(jīng)驗不足,因此我國數(shù)據(jù)湖市場整體發(fā)展處于初期階段,未來發(fā)展空間廣闊。中國云原生數(shù)據(jù)湖行業(yè)發(fā)展歷程亞馬遜云科技推出Lake Formation2018年基于數(shù)據(jù)湖戰(zhàn)略, EMC推出三款新的 Isilon軟件產(chǎn)品Isilon SD Edge、第8代 Isilon操作系統(tǒng)和 Isilon CloudPools2016年亞馬遜云科技宣布Lake Formation全面上市青 云 QingCloud 聯(lián) 合 HashData發(fā)布基于云模 式構建的數(shù)據(jù)湖解決方案122019年大數(shù)據(jù)技術的發(fā)展期大數(shù)據(jù)技術的普及期產(chǎn)業(yè)圖譜注釋
12、:此頁主要表現(xiàn)云原生數(shù)據(jù)湖及其生態(tài)的布局情況,僅展示部分典型企業(yè),圖譜中所展示的公司logo順序及大小并無實際意義。 公有云廠商+生態(tài)廠商的市場格局初現(xiàn)中國云原生數(shù)據(jù)湖產(chǎn)業(yè)圖譜數(shù)據(jù)湖綜合解決方案廠商云廠商大數(shù)據(jù)廠商其他廠商數(shù)據(jù)湖生態(tài)廠商及開源項目(部分)應用管理計算存儲(包括部分開源項目)19競爭格局注釋:獨立廠商包括大數(shù)據(jù)廠商、軟件廠商、以及其他提供云數(shù)據(jù)湖服務的IT廠商。注釋:此市占率統(tǒng)計口徑為2020自然年全年各廠商在中國內(nèi)地(不含港澳臺)銷售云原生數(shù)據(jù)湖解決方案的營業(yè)收入,合同簽署地點和交付地點都位于中國內(nèi)地區(qū)域。注釋:此市占率統(tǒng)計口徑不包含云原生數(shù)據(jù)湖組件發(fā)生于其他解決方案(例:數(shù)據(jù)
13、倉庫)的營收,不包含云原生數(shù)據(jù)湖生態(tài)支持廠商部分。 來源:長期基礎云服務數(shù)據(jù)監(jiān)測,結合公開資料、專家訪談,根據(jù)數(shù)據(jù)測算模型,自主研究及繪制。先發(fā)優(yōu)勢,云廠商市占率達82.4%整體來看,中國云原生數(shù)據(jù)湖還處于發(fā)展的早期,能夠提供整體解決方案的獨立廠商還較少,市場較為集中,競爭主要圍 繞頭部云廠商展開。以營收為核算口徑,2020年云廠商在中國云原生數(shù)據(jù)湖市場(不包含生態(tài)支持部分)的份額達到了 82.4%。一方面,于先發(fā)優(yōu)勢上,云計算具有彈性算力支持、數(shù)據(jù)聚合的特性,與數(shù)據(jù)湖思路天然契合;另一方面,于布 局實踐上,“春江水暖鴨先知”,出于服務自身或互聯(lián)網(wǎng)客戶的動因,云廠商率先基于云原生進行了能力的整
14、合,在對象 存儲、多范式計算、大數(shù)據(jù)管理等云原生數(shù)據(jù)湖核心技術上都更為成熟。2020年中國云原生數(shù)據(jù)湖市場(不含生態(tài)部分)競爭格局多云、混合云管理能力獨立廠商具有第三方中立性,可以支持多云部署管理,解決企業(yè)供應商綁定的后顧之憂。輕量與專注與云廠商從云出發(fā)到數(shù)據(jù)服務的視角不同,獨立廠商大多從數(shù)據(jù)服務出發(fā),業(yè)務更加輕量與專注。由于數(shù)據(jù)湖較其他大數(shù)據(jù)產(chǎn)品更強調(diào)“海量異構數(shù)據(jù)統(tǒng)一存儲、多源數(shù)據(jù)統(tǒng)一管理、多計算引擎統(tǒng)一調(diào)用”的能力,故而對于第三方獨立廠商而言,解決“海量存儲、計算優(yōu)化、生態(tài)建設”的成本都會更高,市場進入的難度也更大。云廠商獨立廠商基礎資源支持云基礎資源池化、存算分離的特性,可以最大程度上
15、彈性、低成本地支持數(shù)據(jù)湖的各種工作。數(shù)據(jù)聚合優(yōu)勢基于云的形式,企業(yè)可以更絲滑地實現(xiàn)各系統(tǒng)相通,解決數(shù)據(jù)孤島問題。能力統(tǒng)一調(diào)度在云原生的環(huán)境下,企業(yè)可以以統(tǒng)一視角,更優(yōu)雅地調(diào)用多種計算引擎。國內(nèi)市場環(huán)境復雜多變,在行業(yè)應用、客戶服務等領域,云廠商還需要更多的生態(tài)廠商的補足。2082.4%17.6%競爭要素剖析技術+解決方案+應用構成云原生數(shù)據(jù)湖的核心競爭力云原生數(shù)據(jù)湖是一套完整的云上大數(shù)據(jù)解決方案,可以服務企業(yè)的多種數(shù)據(jù)訴求,其競爭要素可以歸類為技術、解決方案、 應用三層。在技術層,云原生數(shù)據(jù)湖需要具備穩(wěn)定、高性價比的存儲服務、多引擎兼容的計算優(yōu)化服務以及全生命周期的 智能化數(shù)據(jù)管理服務;在解決
16、方案層,廠商需要貼近業(yè)務,面向特定場景和特定行業(yè)提供豐富、可落地的架構方案;在應 用層,廠商需要通過生態(tài)或自建等方式提供更多的應用服務,不斷擴大自己的服務半徑,向終端客戶展示更全面的能力。云原生數(shù)據(jù)湖競爭分析框架解決方案應用技術自身應用支持生態(tài)體系建設從終端客戶視角來看,數(shù)據(jù)湖是服務業(yè)務的綜合大數(shù)據(jù)解決方案。故 而落到實際實踐中,還需要豐富多樣的應用支持到業(yè)務側。供應商應 用層的競爭力主要體現(xiàn)在自身應用的豐富度以及生態(tài)體系建設的完整 度,自己+合作伙伴共同構成了客戶服務的能力半徑。行業(yè)解決方案場景解決方案除了存儲、計算、管理等核心技術外,作為面向市場的解決方案,數(shù) 據(jù)湖還具有產(chǎn)品屬性,需要通過
17、一定的架構將各種組件組織起來,從 而為用戶提供可用、易用的平臺。具體維度包括面向特定場景(推薦、 查詢、實時分析等)和特定行業(yè)(游戲、金融等)的解決方案。存儲管理計算透析數(shù)據(jù)湖產(chǎn)品,其核心技術主要包括存儲、計算和管理三個維度: 管理指對湖內(nèi)數(shù)據(jù)的全生命周期管理,具體包括一鍵入湖、元數(shù)據(jù)管 理、數(shù)據(jù)血緣、權限分級、質(zhì)量控制等;計算指對多范式計算引擎的統(tǒng)一管理、智能調(diào)用、性能優(yōu)化、智能化、開源兼容、成本優(yōu)化等;存儲指以OSS為中心的,穩(wěn)定、安全、彈性、高性價比的存儲服務。21競爭要素一:技術統(tǒng)一可靠存儲+多元彈性計算+一站式智能管理剖析云原生數(shù)據(jù)湖的核心技術,主要從存儲、計算和管理三個維度去評估市
18、面上的廠商。除了大數(shù)據(jù)產(chǎn)品通用的性能、可 用性、安全及成本外,云原生數(shù)據(jù)湖還需要關注一些特定的競爭要素,如:存儲層需要做前置的擴展性、性能和成本優(yōu)化, 以屏蔽硬件復雜性,支持多范式計算和大數(shù)據(jù)環(huán)境;計算層需要做多計算引擎優(yōu)化和智能駕駛艙來簡化企業(yè)使用流程;管 理層需要支持多源湖外數(shù)據(jù)兼容和湖內(nèi)數(shù)據(jù)全生命周期的一站式管理。云原生數(shù)據(jù)湖核心技術計算多元融合簡單智能成本優(yōu)化管理兼容一站式安全存儲穩(wěn)定擴展簡單高效性價比穩(wěn)定:具備成熟的物理冗余、傳輸校驗、角色權限、安全加密方案,確保存儲的最終穩(wěn)定性。擴展:數(shù)據(jù)湖承載的數(shù)據(jù)量每天都在持續(xù)增長,需要可以按容量靈活擴展的存儲系統(tǒng)進行支持。簡單:面對應用對持久
19、性、可用性和延遲的多樣化要求,以及物理硬件復雜性,需要從存儲層就著手進行優(yōu)化,減少處理硬件資源復雜性的相關難題,使各應用程序都可以輕松獲取和使用所需存儲。高效:面對海量數(shù)據(jù),需要智能的冷熱分層策略實現(xiàn)資源的均衡配置,提高服務效率、降低延遲。性價比:海量數(shù)據(jù)帶來對存儲資源的大量需求,需要配置以相應的成本優(yōu)化方案。多元融合:可以兼容多種開源/商業(yè)計算引擎,滿足企業(yè)數(shù)據(jù)處理的多種訴求,且進行了優(yōu)化工作, 使得多范式計算對客戶側表現(xiàn)為統(tǒng)一和簡單。簡單智能:通過AI和Serverless,實現(xiàn)自動預配和管理計算資源,智能彈性伸縮工作負載以最大化 資源利用率,簡化運營運維工作,讓團隊可以專注于編程,不必管
20、理服務器集群。成本優(yōu)化:資源自動伸縮疊加費用優(yōu)化的批流引擎調(diào)用處理方案,讓數(shù)據(jù)湖可以更為靈活地處理請求,在保證結果滿意的前提下實現(xiàn)成本最優(yōu)。兼容:提供足夠強大、豐富、高效(no-code)的連接器和轉換工具,支持更多數(shù)據(jù)源的接入,支 持更多種類的數(shù)據(jù)轉換,滿足各種場景訴求。一站式:具備入湖、元數(shù)據(jù)、權限、血緣、質(zhì)量、探索等數(shù)據(jù)湖所需的完備功能,提供一站式服務。安全:支持數(shù)據(jù)任務看板、作業(yè)進度統(tǒng)計、日志審計、資源消耗統(tǒng)計、數(shù)據(jù)全鏈路展示、數(shù)字字典 回溯追蹤等功能,確保數(shù)據(jù)全生命周期的安全。22競爭要素二:解決方案多場景挖掘+行業(yè)貼身服務從市場現(xiàn)狀來看,云原生數(shù)據(jù)湖并不是一個標準化的產(chǎn)品,而是一套
21、松耦合、多模塊、服務化的解決方案,在具體應用中 還需要根據(jù)企業(yè)具體需求,進行組件調(diào)整和架構設計。因而,客戶在選型采購時,除了關注廠商的技術實力,還會關注其 解決方案的成熟度。具體評估維度包括2個方面: 廠商對數(shù)據(jù)湖典型適用場景的提取能力和方法論總結,這可以幫助項 目更快速地實施; 廠商對具體行業(yè)業(yè)務的理解以及相應的實施思路,這可以幫助企業(yè)切實解決其痛點。云原生數(shù)據(jù)湖典型解決方案場景維度行業(yè)維度海量數(shù)據(jù)交互式查詢社交在一些業(yè)務環(huán)節(jié),如廣告投放、用戶運營、周報/月報 等,需要對來自各個渠道的實時數(shù)據(jù)和歷史數(shù)據(jù)進行交 互式查詢分析。云原生數(shù)據(jù)湖架構下,企業(yè)能夠調(diào)用分 布式的查詢引擎,更加靈活、快速、
22、準確的進行查詢分 析,支持業(yè)務決策。企業(yè)級大數(shù)據(jù)治理游戲隨著互聯(lián)網(wǎng)的發(fā)展,企業(yè)內(nèi)部積累了大量的數(shù)據(jù),數(shù)據(jù) 存儲的成本愈發(fā)高昂,但數(shù)據(jù)價值卻難以被全部釋放。 數(shù)據(jù)湖冷熱分層的存儲方案可以幫助企業(yè)將數(shù)據(jù)低成本 的“存下來”,統(tǒng)一管理的架構讓數(shù)據(jù)可以隨時“用的 到”,多種計算引擎兼容讓數(shù)據(jù)可以“用的好”。機器學習與AI探索汽車在風控、推薦、預測等場景,往往會需要機器學習加以 支持。然而機器學習與AI探索會消耗GPU等大量的算力 資源。云原生數(shù)據(jù)湖Serverless按需付費、自動擴容的 方案降低了企業(yè)進行機器學習的TCO;同時schema后基于移動互聯(lián)網(wǎng)的社交平臺近年來快速發(fā)展,短視 頻、直播、圖片
23、、資訊等構成了其服務的內(nèi)容,大 量非結構化數(shù)據(jù)的審核處理、實時分析、精準推薦 為其帶來挑戰(zhàn)與機遇。云原生數(shù)據(jù)湖冷熱分層存儲、 上下文關聯(lián)分析、實時推薦的功能大幅提升了其內(nèi) 容創(chuàng)新和用戶運營的效果,并降低了成本。5G、云、社會娛樂方式、出海等因素共同驅動了游 戲產(chǎn)業(yè)的快速發(fā)展。游戲大數(shù)據(jù)需要更智能、靈活、 低成本的數(shù)據(jù)湖解決方案來進行實時動態(tài)監(jiān)測、用 戶畫像和運營分析,從而降低獲客成本、改善游戲 體驗、留存現(xiàn)有玩家、提升付費轉換率。汽車正在成為未來生活的第三空間,車聯(lián)網(wǎng)產(chǎn)業(yè)進 入快車道,新型應用蓬勃發(fā)展,產(chǎn)業(yè)規(guī)模不斷擴大 。 云原生數(shù)據(jù)湖可以實時地接收和存儲車聯(lián)網(wǎng)PBEB 級的數(shù)據(jù),以低成本的方
24、式進行資源調(diào)度,支持自動駕駛、智能交通等業(yè)務需求。置的架構也讓未知探索變得更加靈活。23競爭要素三:應用自研深耕+生態(tài)補充就當今市場環(huán)境來看,大多廠商和企業(yè)都把數(shù)據(jù)湖定位為數(shù)據(jù)基座,但就實際使用來說,基座還需要配合具體的應用,才 能真正地賦能業(yè)務。出于發(fā)展初期或產(chǎn)業(yè)分工的原因,現(xiàn)在云原生數(shù)據(jù)湖綜合解決方案廠商還不具備提供完備應用服務的 能力。且由于市場環(huán)境復雜,企業(yè)需求多變,在未來一段時間內(nèi),也很難有“一應俱全”的廠商出現(xiàn)。故而,除了關注客 戶需求,不斷自研深耕外,廠商還需要通過生態(tài)建設,補足自己的服務半徑,增強企業(yè)服務的競爭力。云原生數(shù)據(jù)湖廠商的服務半徑服務半徑A自身能力B生態(tài)能力C客戶視角
25、下 廠商的能力C客戶視角下 廠商的能力MaxMaxA自身能力B生態(tài)能力24Max對于終端客戶來說,其關注的重點往往在于供應商最后提供的應 用服務,而非其服務內(nèi)容背后的關系分配。無論廠商是通過傳統(tǒng)招兵買馬的方式,還是借助開源社區(qū)力量, 或者發(fā)展生態(tài)合作體系,在客戶視角下,它們都共同包含在廠商 的服務能力半徑內(nèi)。關注客戶訴求,持續(xù)研發(fā)迭代:無論是對廠商還是對企業(yè)來說,云原生數(shù)據(jù)湖的應用都并非是一 蹴而就的事情。中國的數(shù)據(jù)湖產(chǎn)業(yè)還處于發(fā)展的前期,某種程度 上,廠商在與企業(yè)共同成長。未來,廠商還需要更加關注客戶訴 求,不斷打磨基礎平臺,豐富應用服務。明晰邊界定位,實現(xiàn)生態(tài)共贏:對于云原生數(shù)據(jù)湖來說,作
26、為企業(yè)級的大數(shù)據(jù)解決方案,具有價 值鏈長、工程復雜、周期長及金額高的特點,單獨廠商能力往往 難以支持全部工作。且在互聯(lián)網(wǎng)背景下,外部市場環(huán)境正在變得 越來越復雜?,F(xiàn)階段來看,明晰自己的邊界和定位,充分發(fā)揮生 態(tài)的力量對數(shù)據(jù)湖廠商來說,不妨是一條高效共贏的捷徑。25云原生數(shù)據(jù)湖概念界定1云原生數(shù)據(jù)湖市場現(xiàn)狀2云原生數(shù)據(jù)湖競爭分析3云原生數(shù)據(jù)湖行業(yè)應用與最佳實踐4云原生數(shù)據(jù)湖選型建議與典型企業(yè)5云原生數(shù)據(jù)湖發(fā)展趨勢6目錄行業(yè)分布注釋:此下游分布口徑為2020自然年全年各廠商在中國內(nèi)地(不含港澳臺)銷售云原生數(shù)據(jù)湖解決方案的營業(yè)收入,合同簽署地點和交付地點都位于中國內(nèi)地區(qū)域。 注釋:此下游分布統(tǒng)計口
27、徑不包含云原生數(shù)據(jù)湖組件發(fā)生于其他解決方案(例:數(shù)據(jù)倉庫)的營收,不包含云原生數(shù)據(jù)湖生態(tài)支持廠商部分。來源:長期基礎云服務數(shù)據(jù)監(jiān)測,結合公開資料、專家訪談,根據(jù)數(shù)據(jù)測算模型,自主研究及繪制。16.5%40.7%11.9%16.3%6.4%4.5%3.7%100.0%泛互聯(lián)網(wǎng)工業(yè)醫(yī)療汽車其他總計現(xiàn)階段主要應用于泛互聯(lián)網(wǎng)行業(yè)及傳統(tǒng)行業(yè)的互聯(lián)網(wǎng)場景據(jù)調(diào)研,中國云原生數(shù)據(jù)湖的下游應用主要分布于泛互聯(lián)網(wǎng)(電商、網(wǎng)絡廣告、社交媒體、游戲、互聯(lián)網(wǎng)金融等)、泛政 務(智慧城市、智慧政府、交通等)、金融(銀行、保險等)、工業(yè)(工業(yè)互聯(lián)網(wǎng)、能源、制造等)、醫(yī)療(基因、影像 治療、診斷等)、汽車(車聯(lián)網(wǎng)等)以及零售
28、、運營商等其他行業(yè)。其中,泛互聯(lián)網(wǎng)企業(yè)出于數(shù)據(jù)量大、非結構化數(shù)據(jù)多、 迭代速度快等原因,率先應用云原生數(shù)據(jù)湖架構于推薦、搜索、監(jiān)控等業(yè)務環(huán)節(jié),是現(xiàn)階段數(shù)據(jù)湖市場的主要客戶。2020年中國云原生數(shù)據(jù)湖市場(不含生態(tài)部分)下游行業(yè)分布73.5%包含混合云模式部署的數(shù)據(jù)湖泛政務金融26未來滲透時間數(shù)據(jù)海量成本上升數(shù)據(jù)量爆發(fā)式的增長,導致對存儲和算力資 源需求的上升,無論是縱向還是橫向擴張, 帶來成本的疊加都十分驚人。數(shù)據(jù)多源異構性能下降隨著互聯(lián)網(wǎng)的發(fā)展,企業(yè)外部鏈接愈發(fā)復雜, 內(nèi)部需要處理的數(shù)據(jù)也愈發(fā)多元,包括來自 媒體的非結構化數(shù)據(jù)、web的半結構化數(shù)據(jù)、 物聯(lián)網(wǎng)的IoT數(shù)據(jù)、以及來自企業(yè)業(yè)務系統(tǒng)
29、的 結構化數(shù)據(jù)等。多源異構環(huán)境下,數(shù)據(jù)處理 的性能下降,導致企業(yè)應用效果不佳。數(shù)據(jù)價值兩極化實時與聚合大數(shù)據(jù)背景下,數(shù)據(jù)價值愈發(fā)向兩極聚焦, 現(xiàn)有處理架構不能很好地滿足實時、聚合分 析的訴求,充分釋放數(shù)據(jù)價值。價值實時分析聚合分析業(yè)務具有大數(shù)據(jù)特性,現(xiàn)有架構 擴展具有局限性許多企業(yè)在數(shù)字化轉型的過程中,開始嘗 試信息流廣告、直播電商、遠程辦公等數(shù) 字化模式,但底層IT架構和數(shù)據(jù)架構不能 承載海量數(shù)據(jù),擴展也存在局限。大數(shù)據(jù)處理的成本愈發(fā)高昂,亟 需成本優(yōu)化解決方案企業(yè)通過增加硬件資源、中間件改造的方 式,對數(shù)據(jù)庫、數(shù)倉做橫向擴展或者縱向 優(yōu)化,成本都十分高昂,企業(yè)用于數(shù)據(jù)的 支出日益高企,難以
30、承擔。缺乏DT實力和人才,難以進行大 數(shù)據(jù)性能優(yōu)化,數(shù)據(jù)價值不能釋放企業(yè)缺乏完整的大數(shù)據(jù)和AI團隊,不具備 足夠的積累去應用前沿大數(shù)據(jù)和AI技術、 搭建面向未來的新架構,故而數(shù)據(jù)的價值 遲遲不能被完全釋放,無法實現(xiàn)賦能業(yè)務。向更多具有大數(shù)據(jù)和高價值屬性的行業(yè)拓展海量、高頻、多源異構的大數(shù)據(jù)為企業(yè)帶來了成本、性能和價值挖掘的問題,在現(xiàn)有OLTP數(shù)據(jù)庫+數(shù)倉的架構下,企業(yè) 難以實現(xiàn)底層架構的彈性和優(yōu)化,無法支持快速發(fā)展的業(yè)務。云原生數(shù)據(jù)湖云上部署、存算分離和事后schema的特性可 以幫助企業(yè)更好地應用數(shù)據(jù),未來有望在互聯(lián)網(wǎng)、汽車、政府、工業(yè)等具有大數(shù)據(jù)和高價值屬性的行業(yè)得到更廣泛的應用。云原生數(shù)
31、據(jù)湖的行業(yè)應用展望云原生數(shù)據(jù)湖解決了什么問題哪些企業(yè)痛點與之匹配未來行業(yè)滲透展望車聯(lián)網(wǎng)和自動駕駛的數(shù)據(jù)快速增長,資源擴容與處理速度跟不上業(yè)務發(fā) 展,數(shù)據(jù)湖應用空間廣。政府在政策的驅動下,以智慧城市/政 務為中心的信息化建設正在加速推 進,城市統(tǒng)一數(shù)據(jù)中心需求旺盛。工業(yè)工業(yè)數(shù)據(jù)價值高,標準與治理痛點 突出,基于云原生數(shù)據(jù)湖可以幫助 其在云上進行數(shù)據(jù)統(tǒng)一治理?;ヂ?lián)網(wǎng)互聯(lián)網(wǎng)企業(yè)天然具有大數(shù)據(jù)的特性,需要云原生數(shù)據(jù)湖架構來支持業(yè)務 的快速迭代發(fā)展。汽車高價值大數(shù)據(jù)27金融科技數(shù)禾計算性能與數(shù)據(jù)權限隔離能力共同提升,顯著降低成本數(shù)禾科技成立于2015年,公司以大數(shù)據(jù)和技術為驅動,為銀行、信托、消費金融公
32、司、保險、小貸公司等持牌金融機構 提供高效的智能零售金融解決方案,包括營銷獲客、風險防控、運營管理等服務,賦能金融機構數(shù)字化轉型,在消費信貸、 小微企業(yè)信貸、場景分期、財富管理等多個領域中均有應用。由于金融行業(yè)涉及的數(shù)據(jù)繁多,安全隱私要求程度高,在機 構數(shù)字化轉型過程中,存在運維成本高、數(shù)據(jù)權限隔離、性能要求高等一系列業(yè)務難點。通過與阿里云JindoFS的合作, 數(shù)禾對數(shù)據(jù)計算性能的需求得到了滿足;同時,圍繞Apache Ranger開發(fā)權限方案,數(shù)禾對數(shù)據(jù)湖數(shù)據(jù)權限進行嚴格管 控;利用EMR企業(yè)能力協(xié)助進行不同部門的資源隔離能力和分賬能力;并采用彈性伸縮成本節(jié)約模式,兼顧了穩(wěn)定性和成本?;?/p>
33、MaxCompute+DLF+EMR+OSS的湖倉一體架構需要同時運維兩套系統(tǒng),運維成本過大;基于HDFS的存儲和不夠靈活的計算資源,成本遇到極大挑戰(zhàn),需要根據(jù)任務自動大規(guī)模彈性擴縮容;客戶服務了大量內(nèi)部和外部用戶,且數(shù)據(jù)較為敏感,要求嚴格的數(shù)據(jù)權限隔離;大量OSS的rename等操作,性能要求高。數(shù)據(jù)湖存儲ossDLF數(shù)據(jù)湖構建元數(shù)據(jù)管理數(shù)據(jù)血緣管理數(shù)據(jù)權限管理JIndoFS+MC數(shù)據(jù)庫智能Cache冷熱分層冷熱緩存加速元數(shù)據(jù)管理+湖加速EMR(數(shù)據(jù)湖)數(shù)據(jù)同步即席查詢機器學習 EMREMREMR元數(shù)據(jù)統(tǒng)一計算流動MaxCompute(數(shù)據(jù)倉庫)ODS貼源層CDM數(shù)倉層 OneData建模A
34、DSVDM應用層沙箱層業(yè)務 RDS業(yè)務 OSS統(tǒng)一用數(shù) 交互式查詢Jupvter 機器學習智能數(shù)據(jù)構建與管理數(shù)據(jù)中臺解決方案&產(chǎn)品價值通過JindoFS與OSS配合,在存算分離的架 構下,滿足了用戶的數(shù)據(jù)計算性能需求;圍繞Apache Ranger開發(fā)權限方案,圍繞數(shù)據(jù)湖數(shù)據(jù)權限嚴格管控;利用EMR企業(yè)能力如資源組、標簽等的支 持,協(xié)助不同部門進行資源隔離能力和分 賬能力的建設;采用彈性伸縮成本節(jié)約模式,兼顧穩(wěn)定性 和成本,壓縮成本達20%。行業(yè)特性&業(yè)務難點來源:阿里云,研究院自主研究及繪制。28在線教育流利說EMR提供計算和存儲的彈性拓展能力,助力企業(yè)成本優(yōu)化流利說成立于2012年9月,是
35、由王翌博士和胡哲人、林暉博士共同創(chuàng)立的科技驅動的教育公司,2018年9月,流利說正式 掛牌紐交所,以其獨創(chuàng)的教育 3.0 模式,被譽為“AI+教育”第一股。企業(yè)希望提高數(shù)據(jù)質(zhì)量并完善數(shù)據(jù)處理方案,提高 計算效率。阿里云EMR+OSS云上數(shù)據(jù)湖架構為企業(yè)提供了計算彈性拓展與存儲彈性拓展能力,減少了流利說對底層基礎 建設運維的投入?;诎⒗镌艵MR,流利說搭建了Spark、Hive、Presto等大數(shù)據(jù)處理框架,對存儲的數(shù)據(jù)進行分析,通 過智能算法分析學生學習質(zhì)量,提供相應指導。此外,流利說基于阿里云OSS對在線教育場景下多種類型數(shù)據(jù)進行集中存儲,實現(xiàn)了最大程度的成本優(yōu)化。流利說基于EMR+OSS
36、的云上數(shù)據(jù)湖架構Apache AirflowossEMR ETLEMR EMR DWSworkerworkerworkerGatewayGatewayGatewayGatewayworkerGatewayGateway企業(yè)需求為了提升商業(yè)轉化效率和公司運營效率, 流利說需要打通多業(yè)務數(shù)據(jù)源,統(tǒng)一存儲 多種應用的各類數(shù)據(jù)??蛻羰芟抻跀?shù)據(jù)質(zhì) 量和計算成本,期望借助云計算廠商的能 力提高數(shù)據(jù)質(zhì)量,優(yōu)化數(shù)據(jù)處理方案。解決方案與效果數(shù)據(jù)入湖,從DataX全量Dump的方式 轉變?yōu)镈ataX與Delta相結合的方式, 成本節(jié)省70%以上;數(shù)據(jù)平臺計算集群成本下降50%;80%的平臺任務從Hive遷移到Sp
37、ark,整體任務時間提升30%。29智能營銷匯量科技開發(fā)者阿里云 ACK 容器引 擎ZeppelinJupyterAirflowSparkMindAlphaStarLakeIntegrated數(shù)據(jù)湖 阿里云 OSS阿里云writereadHelm chartsWeb IDE業(yè)務難點業(yè)務快速擴展,衍生數(shù)據(jù)爆發(fā)式增長,數(shù)據(jù) 處理分析需求迫切;傳統(tǒng)數(shù)據(jù)倉庫強調(diào)結構化數(shù)據(jù),在互聯(lián)網(wǎng)應 用中會導致建模繁瑣、流批架構復雜等問題;傳統(tǒng)的hive等方案不再適配云原生的演進趨 勢。解決方案云原生數(shù)據(jù)湖解決了傳統(tǒng)數(shù)倉部分問題,實 現(xiàn)非結構化數(shù)據(jù)的處理、流批一體化;計算和存儲實現(xiàn)分離,資源可快速擴展;以數(shù)據(jù)湖為“底
38、座”,具備元數(shù)據(jù)管理強拓 展性,同時優(yōu)化對象存儲訪問的性能,進而 優(yōu)化寬表的實時多流攝入能力,最終能夠統(tǒng) 一支撐分析和科學 AI 的應用場景。數(shù)據(jù)處理能力顯著提升,快速構建數(shù)據(jù)智能應用匯量科技有限公司(Mobvista)成立于2013年3月,是一個全球性技術平臺,通過為企業(yè)打造增長賦能的“SaaS工具生 態(tài)”,提供包括移動營銷、統(tǒng)計歸因、創(chuàng)意自動化、流量變現(xiàn)、云架構成本優(yōu)化等一系列產(chǎn)品和服務,助力企業(yè)在全球范 圍內(nèi)的增長。目前企業(yè)數(shù)字化轉型進入深水區(qū),營銷場景往往是轉型落地的第一目標。在此過程中,企業(yè)業(yè)務快速擴展, 衍生數(shù)據(jù)的爆發(fā)式增長帶來了迫切的數(shù)據(jù)處理分析需求;而傳統(tǒng)數(shù)據(jù)倉庫強調(diào)結構化數(shù)據(jù)
39、,這在互聯(lián)網(wǎng)應用中會導致建模 繁瑣、流批架構復雜等問題;同時,傳統(tǒng)的hive等方案也不再適配云原生的演進趨勢。通過與阿里云數(shù)據(jù)湖合作,匯量科 技實現(xiàn)了非結構化數(shù)據(jù)的處理、流批一體化;并且使得計算和存儲分離,實現(xiàn)了資源的快速擴展;另外,寬表的實時多流 攝入能力得以優(yōu)化,能夠統(tǒng)一支撐分析和科學 AI 的應用場景。匯量科技基于EMR+OSS的云上數(shù)據(jù)湖架構來源:阿里云,研究院自主研究及繪制。30新零售百草味,企業(yè)需求為了滿足不同場景對數(shù)據(jù)時效性和精準性的要求 百草味需要構建靈活、穩(wěn)定的大數(shù)據(jù)平臺??蛻?受限于運維難度及成本和系統(tǒng)安全性,期望借助 云計算廠商的能力實現(xiàn)成本優(yōu)化和多場景數(shù)據(jù)分 析。解決方
40、案與效果統(tǒng)一存儲:對象存儲 OSS,存儲任意規(guī)模的 數(shù)據(jù);對接業(yè)務應用、各類計算分析平臺。數(shù)據(jù)湖構建與管理:數(shù)據(jù)湖構建 DLF,解決統(tǒng) 一元數(shù)據(jù)管理、統(tǒng)一權限控制等關鍵問題;數(shù)據(jù)湖格式:Deltalake,支持數(shù)據(jù)的增量更 新和消費,從而避免了使用Lamda架構的兩條 鏈路來支持離線和實時的數(shù)據(jù)計算;數(shù)據(jù)分析計算引擎: DDI 數(shù)據(jù)洞察+EMR- Presto 交互式分析,保證軟件產(chǎn)品功能和性 能領先,并提供了全托管免運維的服務,同時 有極高的 SLA 保證;數(shù)據(jù)開發(fā)與調(diào)度:EMR提供交互式開發(fā)、作業(yè)提交、作業(yè)調(diào)試和工作流一站式數(shù)據(jù)開發(fā)體驗。銷售大屏決策中心會員中心監(jiān)控中心EMR Studio
41、DDI數(shù)據(jù)洞察EMR交互式分析云上關系數(shù)據(jù)庫MongoDB Oracle ADB RDSIDC自建 Hadoop集群HMS DBDLF數(shù)據(jù)湖構建權限控制緩存加速統(tǒng)一元數(shù)據(jù)湖數(shù)據(jù)治理全量/增量 入湖HDFS/Hive 一站式入湖OSS對象存儲標準低頻歸檔構建靈活穩(wěn)定的大數(shù)據(jù)平臺,實時精準響應不同場景需求百草味是以休閑食品研發(fā)、加工、生產(chǎn)、貿(mào)易、倉儲、物流為主體,集互聯(lián)網(wǎng)商務經(jīng)營模式、新零售為一體的全渠道品牌 和綜合型品牌,目前擁有全品類零食產(chǎn)品1000+SKU,致力于領跑中國休閑食品走向全新格局。企業(yè)希望對接多個第三方 系統(tǒng),滿足不同場景對數(shù)據(jù)時效性和精準性的要求,減輕團隊工作負擔。通過與阿里云
42、的合作,百草味利用對象存儲OSS, 構建 DLF,實現(xiàn)統(tǒng)一元數(shù)據(jù)管理和統(tǒng)一權限控制。同時,DDI數(shù)據(jù)洞察和EMR-Presto交互式分析在保證軟件產(chǎn)品功能和 性能領先的基礎上,還提供了全托管免運維服務,使百草味最終實現(xiàn)實時、精準對接各個場景,全面提高企業(yè)運行效率。百草味基于“ EMR+Databricks+DLF ”的云上數(shù)據(jù)湖架構來源:阿里云,研究院自主研究及繪制。31互聯(lián)網(wǎng)社交平臺Soul提高平臺穩(wěn)定性,降低運維難度,保障APP穩(wěn)定運營Soul成立于2016年,是基于興趣圖譜和游戲化玩法的產(chǎn)品設計,屬于新一代年輕人的虛擬社交網(wǎng)絡,致力于打造一個 “年輕人的社交元宇宙”。企業(yè)希望提高運維效率
43、,減少ETL任務耗時,建立穩(wěn)定的系統(tǒng)架構支撐APP在各個時段正常運 營。通過與阿里云的合作,Soul利用EMR Delta打造實時數(shù)倉,提升了業(yè)務指標的實時性;利用JindoFS從HDFS 3副本 的架構遷移到OSS,優(yōu)化了存儲成本;同時,通過計存分離降低運維難度和計算成本,最終實現(xiàn)APP的穩(wěn)定運營。Soul“ EMR+OSS”的云上數(shù)據(jù)湖架構企業(yè)需求為了滿足業(yè)務高速迭代和業(yè)務體量的上 漲,Soul需要構建低成本、穩(wěn)定的平臺 并降低運維難度??蛻羰芟抻谌肆?、工 具的短缺和架構的缺失,期望借助云計 算廠商的能力,在短期內(nèi)提升運維效率、 優(yōu)化成本及APP的穩(wěn)定運營。,解決方案與效果通過EMR De
44、lta打造實時數(shù)倉,提升 業(yè)務指標的實時性,滿足更多實時場 景對數(shù)據(jù)的需求;利用JindoFS從HDFS 3副本的架構遷移到OSS,以及基于OSS的歸檔能力降低20%的存儲成本;采用計存分離的架構,降低計算成本 和運維復雜度。阿里云OSS標準型 XPB低頻型 XPB歸檔型 XPBEMR JindoFS (熱數(shù)據(jù)緩存)大數(shù)據(jù)集群EMR HadoopMapReduceHiveTezHBaseSpark彈性伸縮EMR Hadoop推薦計算集群TensorFlow數(shù)據(jù)集群跨集群訪問EMR Gateway提交業(yè)務作業(yè)實時計算PAIDataWorks來源:阿里云,研究院自主研究及繪制。32自動駕駛小鵬汽車
45、數(shù)據(jù)上云數(shù)據(jù)采集閃電立方自動駕駛文件存儲 CPFS對象存儲OSS阿里云拉取訓練數(shù)據(jù)歸檔GPU集群云上歸檔清洗標注云上訓練EMRMaxCompute業(yè)務難點車輛每天產(chǎn)生大量采集數(shù)據(jù),這些分布在不同的地域數(shù)據(jù)需要及時完成合規(guī)存儲,讓采集設 備能投入下一個采集周期;存儲的數(shù)據(jù)需要能有便捷的方式與計算能力對接,應用到自動駕駛數(shù)據(jù)清洗、標注、訓練等 多種不同場景中;需要豐富的計算引擎和強大算力來全面覆蓋仿 真、訓練、標注等各種數(shù)據(jù)處理與分析場景。解決方案阿里云閃電立方解決了自動駕駛車輛終端采集 難題,通過阿里云多區(qū)域上傳節(jié)點,大批量采 集數(shù)據(jù)得以快速上傳到云上數(shù)據(jù)湖;進入到數(shù)據(jù)湖的采集數(shù)據(jù), 通過云上E
46、MR、Maxcompute進行大規(guī)模的數(shù)據(jù)處理和標注,處理后的數(shù)據(jù)持久存儲到OSS;數(shù)據(jù)湖通過與文件存儲CPFS數(shù)據(jù)流動,讓數(shù)據(jù) 湖中數(shù)據(jù)更加輕松地與GPU算力對接,實現(xiàn)各 種訓練,訓練后的數(shù)據(jù)再歸檔到OSS,高性能 文件存儲只需要存儲臨時少量熱數(shù)據(jù)。數(shù)據(jù)傳輸、處理、存儲能力同步提升,輕松實現(xiàn)各種訓練小鵬汽車正式成立于2015年,是一家專注未來出行的科技公司,目前已成為中國領先的智能電動汽車公司之一。公司一 直堅持飽和式研發(fā)投入,構建全棧自研的核心能力,致力于用科技為人類創(chuàng)造更便捷愉悅的出行生活。在智能化、網(wǎng)聯(lián)化、 電動化、共享化的背景下,自動駕駛成為智能網(wǎng)聯(lián)汽車行業(yè)的重點,也成為了下一代汽車
47、行業(yè)轉型升級的技術高地。自動 駕駛過程中,車輛每天會產(chǎn)生大量采集數(shù)據(jù)。對于這些分布在不同地域的數(shù)據(jù),如何及時合規(guī)地存儲以及高效便捷地計算 是一大業(yè)務難點。通過與阿里云閃電立方合作,多區(qū)域上傳節(jié)點,小鵬汽車實現(xiàn)了大批量采集數(shù)據(jù)快速上傳到云上數(shù)據(jù)湖; 進入湖中的采集數(shù)據(jù),通過云上EMR、Maxcompute進行大規(guī)模處理和標注,處理后的數(shù)據(jù)持久存儲到OSS;數(shù)據(jù)湖通 過與文件存儲CPFS數(shù)據(jù)流動,湖中數(shù)據(jù)更加輕松的與GPU算力對接,實現(xiàn)各種訓練。小鵬汽車云上數(shù)據(jù)湖架構33云原生數(shù)據(jù)湖選型建議與典型企業(yè)目錄建議一:戰(zhàn)略規(guī)劃來源:專家訪談,公開資料,研究院自主研究及繪制。建立統(tǒng)一的數(shù)據(jù)底座,支持企業(yè)向
48、數(shù)據(jù)驅動轉型對于現(xiàn)代化企業(yè)來說,需要面對愈發(fā)復雜多元、高頻迭代的內(nèi)外部環(huán)境,僅依靠人力難以跟上市場的發(fā)展,“數(shù)據(jù)驅動” 成為企業(yè)的必然選擇。而“數(shù)據(jù)驅動”落在實踐中還存在很多的問題,并非根據(jù)現(xiàn)在的業(yè)務需求,采購一些數(shù)字化工具即 可完成的轉型。針對具有“變化、挖掘、未知”特性的需求,企業(yè)需要建立統(tǒng)一、彈性、智能的數(shù)據(jù)底座,以“不變應萬 變”,從而支持數(shù)據(jù)驅動,讓數(shù)據(jù)釋放價值。建立基于統(tǒng)一底座的數(shù)據(jù)驅動策略現(xiàn)代化企業(yè)面臨來自內(nèi)外部的挑戰(zhàn)統(tǒng)一數(shù)據(jù)底座對“數(shù)據(jù)驅動”的重要性現(xiàn)代化企業(yè)面臨越發(fā)易變、模 糊、不確定、復雜的外部環(huán)境。 這從外部驅動企業(yè)業(yè)務和應用 也必須快速迭代,及時響應客 戶,才能在快速發(fā)
49、展的市場上 獲得優(yōu)勢。外部競爭:為了應對越來越多種類的數(shù) 據(jù), 以及越來復雜場景的訴 求, 大數(shù)據(jù)、AI 技術棧呈指 數(shù)增長。多種框架并存是未 來IT的必然狀態(tài),為企業(yè)帶來 了技術部署的挑戰(zhàn)。技術部署:隨著企業(yè)的發(fā)展和多輪信息化改造、 數(shù)字化升級,內(nèi)部IT部署很難保持一 致和清晰。無論是部署環(huán)境,數(shù)據(jù) 存算,還是業(yè)務應用都在某種程度 上呈現(xiàn)“混亂”的狀態(tài),造成了降 本增效的困難。內(nèi)部管理:除了基于現(xiàn)有IT資源和業(yè)務進行經(jīng) 營性的“降本提效”外,現(xiàn)代化企 業(yè)還需要考慮差異化競爭力的打造, 通過技術、產(chǎn)品、商業(yè)創(chuàng)新,發(fā)展 第二增長曲線。而通過數(shù)據(jù)驅動尋 找創(chuàng)新點,在為企業(yè)帶來機遇的同 時也提出了更
50、高的要求。發(fā)展創(chuàng)新:運營支持應用創(chuàng)新支持應用經(jīng)營型業(yè)務創(chuàng)新型業(yè)務統(tǒng)一、彈性、智能的數(shù)據(jù)底座統(tǒng)一統(tǒng)一的數(shù)據(jù)底座可以屏 蔽底層部署的復雜性, 為應用層帶來更一致的 體驗,無論是經(jīng)營型還 是創(chuàng)新型應用都能獲得 更高效的支持。彈性在業(yè)務應用多變的背景 下,靈活、可擴展的彈 性數(shù)據(jù)架構成為了剛需。智能在數(shù)據(jù)層解決上下復雜 性的問題需要更松耦合 的設計與更智能的調(diào)度 機制組合。35數(shù)據(jù)驅動型企業(yè)建議二:執(zhí)行路線站在長期視角,著重考慮DT能力的開放性、敏捷性與創(chuàng)新性在市場快速發(fā)展的背景下,企業(yè)進行DT能力建設時,需要更加看重技術路線的開放性和擴展性,為難以預測的未來探索 做好準備,去支持應用和業(yè)務的創(chuàng)新。在
51、應用實施及之后的運營時,企業(yè)開發(fā)者一方面可以以更開放的態(tài)度去擁抱云原生 與開源,另一方面可以對自身的技術進行抽象、分層和服務化,以更簡單的方式提升效率和效益。云原生數(shù)據(jù)湖架構開放、 敏捷,是企業(yè)建設DT能力很好的選擇之一。企業(yè)DT能力建設的執(zhí)行實踐如何保持DT能力的敏捷與創(chuàng)新?擁抱云原生云原生是后云計算時代新一輪生產(chǎn)力的釋放,包含容器、微服務、Serverless、DevOps等天然具有敏捷彈性 優(yōu)勢的技術、工具和方法論,是IT發(fā)展的必然趨勢?;谠圃?,進行數(shù)據(jù)存儲、計算、治理、架構等方面 的優(yōu)化和創(chuàng)新,是大數(shù)據(jù)發(fā)展的必然之路。擁抱開源開源是學習成本縮減、技術創(chuàng)新加速的高效生產(chǎn)方式,愈發(fā)被國
52、內(nèi)市場所接受。開發(fā)者可以通過開源社區(qū)快 速、低成本的學習前沿技術。對于缺乏IT積累和專業(yè)人才的企業(yè),可以選擇更開源兼容的服務商共同進步。抽象、分層與服務化站在開發(fā)者視角,需要意識到企業(yè)應用和大數(shù)據(jù)的標準在短時間內(nèi)是難以實現(xiàn)統(tǒng)一的,且很難回到過去一家 之言成為行業(yè)標準的時代。為了更好地應對標準和需求的復雜,企業(yè)可以對自己的IT能力進行抽象和分層, 通過模塊的標準化來實現(xiàn)效率,通過組合的創(chuàng)新來實現(xiàn)效益,通過交付服務化實現(xiàn)便捷。36建議三:具體選型生態(tài)能力生態(tài)能力生態(tài)能力選擇服務半徑更廣,發(fā)展路徑更契合的服務商云原生數(shù)據(jù)湖是企業(yè)級的綜合大數(shù)據(jù)解決方案,且實踐具有長期性,伴隨企業(yè)的長期IT能力升級。故
53、而除了內(nèi)部能力(技 術、產(chǎn)品、解決方案等)的評估外,云原生數(shù)據(jù)湖選型還需要格外關注廠商的外部能力和未來能力:是否有足夠豐富的生 態(tài)合作伙伴來滿足企業(yè)不同場景的需求?技術演進路線是否與企業(yè)匹配?是否能支持企業(yè)業(yè)務未來的拓展?企業(yè)需要更綜 合的考慮,選擇整體服務能力更廣的服務商。云原生數(shù)據(jù)湖的選型矩陣廠商A廠商B廠商C發(fā)展路徑發(fā)展路徑發(fā)展路徑選擇整體服務能力更廣的服務商。37選型矩陣闡述內(nèi)部能力評估評估廠商本身的能力,包括云原生數(shù)據(jù)湖核心技術組件(存儲、計算、管理等)的性能和功能,以及整體解決方案的成熟性和性價比。生態(tài)能力評估云原生數(shù)據(jù)湖不是單一的存儲或者數(shù)據(jù)庫產(chǎn)品,而是面向企業(yè)大數(shù)據(jù)應用的全生命
54、周期解決方案。故而,企業(yè)在進行選型時,除了廠商本身的能力,還需要關注廠商的生態(tài)能力,是否有足夠的生態(tài)合作伙伴來共同支持企業(yè)的多元需求。未來能力評估云原生數(shù)據(jù)湖的部署并非一次性結束的短期項目,涉及企業(yè)長期數(shù)據(jù)能力的發(fā)展,故而企業(yè)在選型時還需要關注廠商未來的發(fā)展路徑是否與自己的發(fā)展路線契合,是否能支持自身業(yè)務未來的拓展。38典型企業(yè)展示阿里云DatabricksClouderaAtlasRanger:用阿里云率先入局數(shù)據(jù)湖市場,持續(xù)迭代服務全行業(yè)客戶數(shù)字化升級面對企業(yè)數(shù)據(jù)治理挑戰(zhàn)嚴峻、產(chǎn)品部署成本高企、大數(shù)據(jù)管理實施復雜和落地效果不及預期的痛點,作為中國云計算與大 數(shù)據(jù)前瞻的踐行者,阿里云率先布局
55、數(shù)據(jù)湖領域?;谑嗄甏髷?shù)據(jù)技術的實踐與探索,阿里云云原生數(shù)據(jù)湖解決方案不 斷迭代升級,至今已經(jīng)歷了三代發(fā)展,實現(xiàn)了存儲服務化、管理智能化、計算多元化等方面的日益完善,具備松耦合、積 木化、廣兼容及低運維的優(yōu)勢。在演進的過程中,阿里云積累了互娛、社區(qū)、電商、金融、制造等多行業(yè)的服務案例,未 來將在serverless化、智能化、實時化、平臺化、生態(tài)化等方面繼續(xù)深耕,持續(xù)賦能全行業(yè)客戶的數(shù)字化轉型升級。阿里云云原生數(shù)據(jù)湖解決方案:發(fā)展歷程與演進路線Apache Hadoop 第一個版 本發(fā)布??商峁┖唵蔚腟QL查 詢功能。Flink:開 源流處理 框架。2020 2021線批處理、SQL 流式/
56、實時等計 算方式的引擎。Airflow:開源 的分布式任務調(diào) 度框架。Hive:基于E-MapReduce:Spark:支持離 平臺。Delta Lake:存 儲層,實現(xiàn)數(shù)據(jù)實時同步。Hudi:流式數(shù)據(jù) 湖平臺。Iceberg:提供于數(shù)據(jù)治理, 開放的通用表格可實現(xiàn)基于分 式。類的、跨組件JindoFS:云上的權限控制。大數(shù)據(jù)存算分離方案。201620172019DLF:業(yè)內(nèi) 首個云原生 企業(yè)級數(shù)據(jù) 湖解決方案202120062010201120132014數(shù)據(jù)湖1.02019數(shù)據(jù)湖2.0數(shù)據(jù)湖3.0存儲存算分離,冷熱分層,以Hadoop生態(tài)為主。引擎以Hadoop和Spark為主,初步實現(xiàn)云
57、原生化,但缺乏彈性及多樣性。熱數(shù)據(jù)存儲的Hadoop需要投入大量管理硬件運維和擴容任務。對象存儲為中心,統(tǒng)一存儲承載生產(chǎn)業(yè) 務,大規(guī)模、高性能。云原生化、彈性化,但用戶仍需在計算側進行自行搭建,且數(shù)據(jù)無法統(tǒng)一管理。元數(shù)據(jù)管理和協(xié)議轉換需用戶自行搭建, 數(shù)據(jù)管理無法和對象存儲實現(xiàn)無縫融合。對象存儲OSS為中心,構建企業(yè)級數(shù)據(jù)湖,全兼容、 多協(xié)議、統(tǒng)一元數(shù)據(jù)。與DLF、EMR等計算引擎無縫對接,不僅云原生化、彈性化,同時實時化、AI化、生態(tài)化。智能“建湖”和“治湖”:面向湖存儲+計算的一 站式湖構建和管理。計算管理Serverless化將一切狀態(tài)化、分散化、不利于用戶運維的產(chǎn)品繼續(xù)Serverle
58、ss化智能化產(chǎn)品部署、資源調(diào)用、后期運維更加智能平臺化抽象大數(shù)據(jù)平臺底座,兼容不同能力資源生態(tài)化以湖為中心,提供多范式、生態(tài)化產(chǎn)品來源:阿里云,研究院自主研究及繪制。39Presto:Hadoop的數(shù)倉工具, 開源的分開源大數(shù)據(jù)開發(fā)布式SQL查詢引擎。阿里云兼容、彈性、一站式的大數(shù)據(jù)架構,滿足企業(yè)多元洞察訴求基于云原生相關技術和計算存儲分離架構,阿里云推出了云原生企業(yè)級數(shù)據(jù)湖解決方案。在該架構下,數(shù)據(jù)湖直接對接企 業(yè)業(yè)務生產(chǎn)中心多源異構的海量數(shù)據(jù),統(tǒng)一存儲于阿里云對象存儲OSS,彈性調(diào)用阿里云EMR、MaxCompute、PAI, 以及Flink、Spark等主流開源計算引擎,一站式滿足企業(yè)實
59、時分析、交互查詢、智能探索等高價值數(shù)據(jù)洞察訴求。阿里云云原生數(shù)據(jù)湖解決方案:架構與優(yōu)勢管理DLF 數(shù)據(jù)湖構建存儲OSS 統(tǒng)一對象存儲安全、可擴展、高可用、低成本、兼容任何格式的統(tǒng)一存儲。DataWorks大數(shù)據(jù)開發(fā)與治理平臺提供一站式的入湖、元數(shù) 據(jù)、權限、血緣、質(zhì)量、 探索等服務。應用QuickBI數(shù)據(jù)可視化分析Quick Audience智能用戶增長DataV可視化應用搭建SLS日志服務AIRec智能推薦Link Analytics物聯(lián)網(wǎng)數(shù)據(jù)分析以數(shù)據(jù)湖為中心,不斷擴容生態(tài)化應用產(chǎn)品,滿足客戶數(shù)據(jù)洞察與業(yè)務賦能訴求。數(shù)據(jù)庫抽取數(shù)據(jù)庫數(shù)據(jù)遷移大數(shù)據(jù)平臺應用數(shù)據(jù)RESTful API日志日志服
60、務加速JindoFS (SDKCacheblock)Dataphin智能數(shù)據(jù)構建與管理計算EMR 開源大數(shù)據(jù)平臺MaxCompute 大數(shù)據(jù)計算Databricks 全托管SparkHologres 交互式分析開源、多引擎、松耦合、積木化、彈性的多范式計算框架。Flink 實時計算PAI 機器學習Cloudera Hadoop來源:阿里云,研究院自主研究及繪制。40靈活接入多源異構的數(shù)據(jù)Databricks湖倉一體架構,統(tǒng)一管理所有數(shù)據(jù)、分析和AI工作Databricks旗下的Lakehouse平臺基于湖倉一體架構,實現(xiàn)了數(shù)據(jù)湖和數(shù)據(jù)倉庫最佳實踐的結合。Lakehouse平臺由全 新的開放和標
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度個人面包車租賃合同車輛保養(yǎng)責任3篇
- 2025年度農(nóng)產(chǎn)品害蟲防治與質(zhì)量保障合同樣本4篇
- 二零二五年度電梯品牌代理銷售與推廣合同4篇
- 2025年度船舶租賃與船舶租賃風險評估合同范本4篇
- 2025年度個人虛擬貨幣交易合同樣本3篇
- 2025版美團打車城市交通擁堵緩解解決方案合同3篇
- 二零二五年度門窗安裝工程綠色建材采購合同4篇
- 2025年度廚房設備安裝與綠色環(huán)保認證合同8篇
- 2025年度個人二手車買賣交易合同(豪華型評估服務版)2篇
- 2025年度企業(yè)內(nèi)部員工退休住房安置合同3篇
- 運動技能學習與控制課件第十一章運動技能的練習
- 蟲洞書簡全套8本
- 射頻在疼痛治療中的應用
- 四年級數(shù)學豎式計算100道文檔
- “新零售”模式下生鮮電商的營銷策略研究-以盒馬鮮生為例
- 項痹病辨證施護
- 職業(yè)安全健康工作總結(2篇)
- 懷化市數(shù)字經(jīng)濟產(chǎn)業(yè)發(fā)展概況及未來投資可行性研究報告
- 07FD02 防空地下室電氣設備安裝
- 教師高中化學大單元教學培訓心得體會
- 彈簧分離問題經(jīng)典題目
評論
0/150
提交評論