2024海量數(shù)據(jù)處理技術(shù)金融應(yīng)用_第1頁
2024海量數(shù)據(jù)處理技術(shù)金融應(yīng)用_第2頁
2024海量數(shù)據(jù)處理技術(shù)金融應(yīng)用_第3頁
2024海量數(shù)據(jù)處理技術(shù)金融應(yīng)用_第4頁
2024海量數(shù)據(jù)處理技術(shù)金融應(yīng)用_第5頁
已閱讀5頁,還剩111頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

海量數(shù)據(jù)處理技術(shù)金融應(yīng)用研究報(bào)告20241海量數(shù)據(jù)處理技術(shù)金融應(yīng)用研究報(bào)告海量數(shù)據(jù)處理技術(shù)金融應(yīng)用研究報(bào)告目 錄一、發(fā)展概況 2(一) 法律法規(guī)和政策環(huán)境 2(二) 技術(shù)發(fā)展階段及特征 5(三) 技術(shù)框架與形態(tài) 9二、應(yīng)用情況 15(一) 平臺(tái)建設(shè)應(yīng)用情況 15(二) 技術(shù)應(yīng)用情況 20三、主要挑戰(zhàn) 28(一) 數(shù)據(jù)存儲(chǔ)的挑戰(zhàn) 28(二) 數(shù)據(jù)計(jì)算的挑戰(zhàn) 29(三) 云化計(jì)算的挑戰(zhàn) 31(四) 融合計(jì)算的挑戰(zhàn) 32(五) 研發(fā)運(yùn)營(yíng)一體化的挑戰(zhàn) 33四、關(guān)鍵技術(shù)與建設(shè)思路 36(一) 云數(shù)一體化 36(二) 存算分離化 44(三) 數(shù)據(jù)湖倉化 50(四) 計(jì)算融合化 59(五) 研發(fā)運(yùn)營(yíng)一體化 68五、發(fā)展趨勢(shì)和展望 78(一) 生成式人工智能驅(qū)動(dòng)數(shù)據(jù)技術(shù)方面 79(二) 實(shí)時(shí)數(shù)據(jù)湖倉方面 81(三) 數(shù)據(jù)網(wǎng)格方面 90(四) 數(shù)據(jù)編織方面 93六、實(shí)踐案例 95海量數(shù)據(jù)處理技術(shù)金融應(yīng)用研究報(bào)告海量數(shù)據(jù)處理技術(shù)金融應(yīng)用研究報(bào)告PAGEPAGE100摘要:一、發(fā)展概況(一)法律法規(guī)和政策環(huán)境(201550號(hào)化轉(zhuǎn)型,使金融業(yè)能夠更好地適應(yīng)現(xiàn)代經(jīng)濟(jì)的發(fā)展需求。智能化發(fā)展階段,是金融業(yè)數(shù)據(jù)處理技術(shù)發(fā)展的最新階段。2021610日2021820日第十三屆全2019222號(hào)(2022199號(hào)(JR/T0171—2020)(JR/T0197—2020)命周期安全規(guī)范》(JR/T0223—2021)、《金融大數(shù)據(jù)術(shù)語》(JR/T0236—2021)、《金融大數(shù)據(jù)平臺(tái)總體技術(shù)要求》5月25(GDPR)2022年63構(gòu)不斷加大數(shù)字化轉(zhuǎn)型投入,重回快速增長(zhǎng)軌道。傳統(tǒng)金融機(jī)構(gòu)在金融科技戰(zhàn)略定位上正在從“科技賦能”逐步向“科技引領(lǐng)”模和范圍不斷擴(kuò)展。(二)技術(shù)發(fā)展階段及特征從傳統(tǒng)數(shù)據(jù)庫到大數(shù)據(jù)體系的變革隨著數(shù)據(jù)在金融行業(yè)中的深度應(yīng)用,數(shù)據(jù)規(guī)模的不斷擴(kuò)大,ParallelProcessing數(shù)據(jù)處理技術(shù)開始被使用,以解決數(shù)據(jù)規(guī)模帶來的復(fù)雜性問題。Hadoop及其衍生技術(shù)作為經(jīng)典大數(shù)據(jù)方案來應(yīng)對(duì)新的數(shù)據(jù)處理挑戰(zhàn),并取得了很好的效果。從處理海量文本到高價(jià)值、多維度、多類型特征的轉(zhuǎn)變和數(shù)據(jù)分析等專業(yè)的技術(shù)團(tuán)隊(duì)逐步延展到業(yè)務(wù)團(tuán)隊(duì),業(yè)務(wù)分析與僅面向海量文本及結(jié)構(gòu)化類型的數(shù)據(jù)特性漸漸無法滿足業(yè)務(wù)需值、多維度和多類型的數(shù)據(jù)特征快速演進(jìn)。HadoopSDK70%戶仍舊是“沙中淘金”“金中煉金”“大”的維度之“多”。存算分離需求的萌芽年以上的存儲(chǔ)周期,參與計(jì)算的數(shù)據(jù)占總數(shù)據(jù)存儲(chǔ)量的比例大致約為23%左右。過將提供存儲(chǔ)能力和計(jì)算能力的相關(guān)組件角色分別部署在不同等各類衍生問題與風(fēng)險(xiǎn),并不適合作為生產(chǎn)環(huán)境的最佳實(shí)踐。易用性優(yōu)化推動(dòng)使用難度進(jìn)一步降低非SQL靈活和易用的技術(shù)平臺(tái)才被廣泛推入生產(chǎn)環(huán)境使用。OLAP(On-LineAnalyticalProcessing,OLAP)持類SQL易用性,最大程度地幫助從業(yè)者發(fā)現(xiàn)并利用數(shù)據(jù)價(jià)值。行級(jí)別的海量數(shù)據(jù)近實(shí)時(shí)更新能力需求“追加寫”的方式,的數(shù)據(jù)使用與資源利用模式進(jìn)行深度優(yōu)化,以應(yīng)對(duì)挑戰(zhàn)。更新能力支持是很好的實(shí)踐路徑。得之前需要全量數(shù)據(jù)參與才能實(shí)現(xiàn)的數(shù)據(jù)更新時(shí)效性提升到了近實(shí)時(shí),并極大減少了資源消耗,提升了資源利用效率。了數(shù)據(jù)冗余,同時(shí)也實(shí)現(xiàn)了數(shù)據(jù)湖和數(shù)據(jù)倉庫之間的優(yōu)勢(shì)互補(bǔ)。數(shù)據(jù)不必再進(jìn)行湖倉之間的傳遞,極大優(yōu)化了數(shù)據(jù)處理的時(shí)間。更高效的數(shù)據(jù)處理支持,更好地實(shí)現(xiàn)業(yè)務(wù)價(jià)值。(三)技術(shù)框架與形態(tài)一海量數(shù)據(jù)是指數(shù)據(jù)量大到用傳統(tǒng)的數(shù)據(jù)管理和處理技術(shù)難以有效存儲(chǔ)、管理和分析的數(shù)據(jù)集合。海量數(shù)據(jù)處理技術(shù)基本形態(tài)SQL交互語言支持、PythonFlink、Spark等計(jì)算引擎支持,TBPBEB級(jí)數(shù)據(jù)能力規(guī)模,以應(yīng)對(duì)當(dāng)下和未來的持續(xù)挑戰(zhàn),支1是一個(gè)典型的海量數(shù)據(jù)處理技術(shù)架構(gòu):1分布式存儲(chǔ)框架1場(chǎng)景的存儲(chǔ)需求,是金融業(yè)海量數(shù)據(jù)處理環(huán)節(jié)中的第一步。DistributedFilePBHDFS將導(dǎo)入的大數(shù)HDFSAPI,用以存儲(chǔ)與獲取文件內(nèi)容。Ozone是大數(shù)據(jù)場(chǎng)景中融合文件系統(tǒng)和對(duì)象存儲(chǔ)的較佳解決方案,能有效解決用戶在使用過程中各類存儲(chǔ)需求,并延續(xù)HadoopHadoop文件系統(tǒng)、對(duì)象存儲(chǔ)/S3K8SCSI等多種訪問方Ozone與Hadoop生態(tài)融合,如ApacheHiveApacheSpark等無縫對(duì)接。Ozone支持HadoopCompatibleFileSystemAPI(akaOzoneFS)OzoneFS,Hive,SparkOzone還同時(shí)支持?jǐn)?shù)據(jù)本地化,使得計(jì)算能夠盡可能地靠近數(shù)據(jù)。HBaseHDFS上的分布式存儲(chǔ)系統(tǒng),主要用于HBaseHDFS能夠支持靈活的列字段定義;另一方面,HBase利用LSM(Log-StructuredMerge-Tree,LSM)數(shù)據(jù)結(jié)構(gòu)模型,將數(shù)據(jù)HDFSHBaseHBase的高可靠性。HDFSRegionServerMaster22HBase數(shù)據(jù)組織方式與分析技術(shù)框架核心Iceberg是一個(gè)面向海量數(shù)據(jù)分析場(chǎng)景的開放表格式(TableFormat),有時(shí)也被認(rèn)為是新一代的數(shù)據(jù)湖倉組件。定義中所說的表格式(Table(Flink,Spark...)之下,數(shù)據(jù)文件之上。表格式(TableFormat)屬于數(shù)據(jù)庫系統(tǒng)在實(shí)現(xiàn)層面上的一API息、統(tǒng)計(jì)信息以及上層查詢引擎讀取、寫入表中文件的接口。數(shù)據(jù)編排與緩存加速核心Alluxio(Apache和(Alluxio端API和全局命名空間。消息隊(duì)列分布式計(jì)算框架與分析引擎Hive把存儲(chǔ)在HDFS并提供SQLHive來實(shí)現(xiàn)SQL查詢分析。Flink提供高吞吐量、低延遲的流數(shù)據(jù)引擎以及對(duì)“事件-時(shí)間”Flink應(yīng)用程序在發(fā)生機(jī)器故障時(shí)exactly-onceJava、ScalaPython和SQL代算法的執(zhí)行。TezDAGDAG于原始的MapReduce可以一次MapreduceIOIO和網(wǎng)絡(luò)IO,相對(duì)MapReduce,使用TEZ做計(jì)算引擎性能能提高很多。SparkSparkSparkSQLMLlibSpark支持豐富的編程語言如:Scala、Python、R、Java等等。PrestoSQL查詢引擎,適用于交互式分析查GBPB字節(jié)。Presto的設(shè)計(jì)和編寫主要是為了解決PBPresto支持多種數(shù)據(jù)源,比如Accumulo,HDFS,Redis,PostgreSQL,MySQLJOIN查詢。二、應(yīng)用情況(一)平臺(tái)建設(shè)應(yīng)用情況技術(shù)平臺(tái)上云情況金融業(yè)海量數(shù)據(jù)處理平臺(tái)上云已經(jīng)成為一個(gè)不可逆轉(zhuǎn)的趨勢(shì)。這一趨勢(shì)的出現(xiàn)主要是由于云計(jì)算技術(shù)的不斷發(fā)展和進(jìn)步,理數(shù)據(jù)處理平臺(tái)。網(wǎng)絡(luò)等資源進(jìn)行虛擬化,以提高資源利用率和管理效率。云平臺(tái)上,以實(shí)現(xiàn)更高效、靈活和低成本的數(shù)據(jù)管理和處理。多個(gè)不同的云平臺(tái)上,以實(shí)現(xiàn)更好的容災(zāi)、備份和安全性。1所示:表1云化部署的范圍序號(hào)名稱觀點(diǎn)內(nèi)容1淺上云僅將非核心或外圍系統(tǒng)遷移到私有云,核心系統(tǒng)仍采用物理機(jī)部署2核心上云將核心系統(tǒng)都遷移到私有云3以云為主保留部分傳統(tǒng)物理機(jī)部署,但將大部分業(yè)務(wù)遷移至私有云平臺(tái),并借助云平臺(tái)提供的技術(shù)創(chuàng)新推動(dòng)業(yè)務(wù)發(fā)展4深上云將所有業(yè)務(wù)遷移到私有云平臺(tái),借助云平臺(tái)提供的先進(jìn)技術(shù)推動(dòng)業(yè)務(wù)深度創(chuàng)新技術(shù)平臺(tái)規(guī)模情況2所示:2序號(hào)指標(biāo)指標(biāo)解釋1數(shù)據(jù)規(guī)模海量數(shù)據(jù)具有非常大的數(shù)據(jù)量,通常以TB甚至PB2數(shù)據(jù)速度海量數(shù)據(jù)的產(chǎn)生和接收速度極快,需要實(shí)時(shí)處理和分析3數(shù)據(jù)多樣性海量數(shù)據(jù)包括各種類型的數(shù)據(jù),如結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、實(shí)時(shí)數(shù)據(jù)等4數(shù)據(jù)價(jià)值為金融企業(yè)提供更好的業(yè)務(wù)決策支持此,金融業(yè)海量數(shù)據(jù)處理平臺(tái)一般采用多樣化的技術(shù)棧構(gòu)建。量?jī)蓚€(gè)主要維度來判斷一個(gè)組織的海量數(shù)據(jù)規(guī)模。有大行(工商銀行、中國(guó)銀行、建設(shè)銀行等)80002023100002000臺(tái)。在單集群節(jié)點(diǎn)規(guī)模方面,Hadoop集群已有超過2000臺(tái),MPPDB50080PB。這些數(shù)據(jù)反映了金融行業(yè)海量數(shù)據(jù)處理平臺(tái)的規(guī)模和實(shí)力,以及金融行業(yè)在數(shù)據(jù)處理方面的挑戰(zhàn)和發(fā)展趨勢(shì)。研發(fā)運(yùn)營(yíng)一體化應(yīng)用情況DataOps2014年由國(guó)外學(xué)者提出,隨后業(yè)界2018年DataOps正式被納入Gartner的數(shù)據(jù)管理技術(shù)成熟度曲線當(dāng)中,由此進(jìn)入了國(guó)際的視野當(dāng)中。2022DataOps能力標(biāo)準(zhǔn)工作組,DataOps3所示:3DataOps機(jī)構(gòu)定義GartnerDataOps織的數(shù)據(jù)管理者和消費(fèi)者之間的溝通、整合和數(shù)據(jù)流的自動(dòng)化IBMIBM將DataOps定義為DataOps維基百科DataOps的數(shù)據(jù)觀點(diǎn)與敏捷軟件工程中的自動(dòng)化和方法相結(jié)合,以DataOps一致性。(二)技術(shù)應(yīng)用情況存儲(chǔ)技術(shù)應(yīng)用情況的存儲(chǔ)選型,它們各自有不同的應(yīng)用情況:HDFS用于存儲(chǔ)大規(guī)模數(shù)據(jù)的分布式文件系統(tǒng)。它將數(shù)據(jù)劃HDFSMapReduce對(duì)象存儲(chǔ):對(duì)象存儲(chǔ)是一種數(shù)據(jù)存儲(chǔ)模型,將數(shù)據(jù)存儲(chǔ)為(API進(jìn)行訪問。這種存儲(chǔ)方式不僅適合存儲(chǔ)傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù),也適用存儲(chǔ)大規(guī)模的半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),如圖像、音頻、案包括AmazonS3、AzureBlobStorage等。HDFSHadoop技計(jì)算技術(shù)應(yīng)用情況Hive/SparkFlink式分析引擎Presto。ApacheSparkSpark批處RDD(ResilientDistributedAPI。ApacheFlinkSpark專FlinkFlinkPrestoSQL查詢引擎,專注于實(shí)時(shí)分Presto適用于數(shù)據(jù)探BIHive/SparkFlink實(shí)時(shí)風(fēng)控等場(chǎng)景中,Presto應(yīng)用于面向數(shù)據(jù)分析師的數(shù)據(jù)探索業(yè)務(wù),以及BI報(bào)表對(duì)應(yīng)。ClickHouseMPPDB等。HBaseHBaseHBase快速存取、隨機(jī)讀寫的場(chǎng)景。融行業(yè)越來越受到重視。ElasticsearchApacheLuceneElasticsearch的(AML)和客戶ClickHouseSQLSQL作為查詢語SQLSQLMPPDBMPPDB各類計(jì)算與存儲(chǔ)一體的數(shù)據(jù)庫技術(shù)都在金融業(yè)不同的場(chǎng)景中發(fā)揮著重要作用,如:廣泛應(yīng)用于金融機(jī)構(gòu)的明細(xì)高并(ClickHouse應(yīng)SQL數(shù)據(jù)湖倉技術(shù)應(yīng)用情況(Data(DataWarehouse)兩種數(shù)據(jù)存儲(chǔ)和管理模式結(jié)合起來的方法,旨在實(shí)Iceberg和Hudi(HadoopUpsertsDeletesandLakehouseHudi或Iceberg等從而實(shí)現(xiàn)更智能的決策制定和業(yè)務(wù)創(chuàng)新。推移,湖倉一體將逐步成為金融行業(yè)的主流形態(tài)。數(shù)據(jù)架構(gòu)應(yīng)用情況據(jù)需求。做了數(shù)據(jù)分層。典型的數(shù)據(jù)分層如下:理。撐快速查詢和報(bào)告。應(yīng)用層:為終端用戶或者應(yīng)用系統(tǒng)提供數(shù)據(jù)訪問服API接口。建,如HadoopDeltaLake或AWSS3MPPDB于高并發(fā)的OLAP數(shù)據(jù)庫和各類大數(shù)據(jù)技術(shù)組件比如HBase、ElasticSearh、Redis等構(gòu)建。領(lǐng)先的金融機(jī)構(gòu)已經(jīng)實(shí)現(xiàn)完全基于開放大數(shù)據(jù)技術(shù)棧來構(gòu)建整個(gè)數(shù)據(jù)架構(gòu),從而確保數(shù)據(jù)處理的高效、靈活和可擴(kuò)展性。三、主要挑戰(zhàn)(一)數(shù)據(jù)存儲(chǔ)的挑戰(zhàn)方面:的數(shù)據(jù)存儲(chǔ)和處理需求。題。后極可能會(huì)出現(xiàn)I/O瓶頸,影響系統(tǒng)性能。必須具備故障恢復(fù)機(jī)制,以防止數(shù)據(jù)丟失或業(yè)務(wù)中斷。(二)數(shù)據(jù)計(jì)算的挑戰(zhàn)PB平臺(tái)上高效地存儲(chǔ)、查詢、分析和處理各種類型的數(shù)據(jù)。SQL運(yùn)維成本。(三)云化計(jì)算的挑戰(zhàn)因此最近幾年許多金融機(jī)構(gòu)紛紛擁抱云原生計(jì)算并逐步開展了降低成本。力聚焦在業(yè)務(wù)和數(shù)據(jù)上即可。Kubernetes目前一些國(guó)內(nèi)主流的大型云廠商都會(huì)提供相對(duì)應(yīng)的學(xué)習(xí)路徑和外部組織的力量,以平穩(wěn)可靠地實(shí)現(xiàn)過渡與改造。(四)融合計(jì)算的挑戰(zhàn)術(shù)也面臨一些問題和挑戰(zhàn):一是異構(gòu)數(shù)據(jù)源處理,金融數(shù)據(jù)通常來自多個(gè)異構(gòu)數(shù)據(jù)源,(SparkHivePresto計(jì)算效率和準(zhǔn)確性。才熟悉融合計(jì)算的技術(shù)和最佳實(shí)踐,以便有效地管理和操作。融合計(jì)算的技術(shù)和理念幫助組織解決海量數(shù)據(jù)計(jì)算過程中的一些挑戰(zhàn),并取得了很好的效果。(五)研發(fā)運(yùn)營(yíng)一體化的挑戰(zhàn)數(shù)據(jù)研發(fā)運(yùn)營(yíng)一體化(DataOps)金融應(yīng)用的優(yōu)勢(shì)。數(shù)據(jù)研發(fā)運(yùn)營(yíng)一體化(DataOps),通過對(duì)數(shù)據(jù)相關(guān)人員、常明顯,對(duì)于金融行業(yè)來說至少帶來以下三點(diǎn)改善:一是采用DataOps利用數(shù)據(jù)資產(chǎn)。時(shí)處理問題。DataOps候這種運(yùn)營(yíng)體系的優(yōu)越性更為明顯。數(shù)據(jù)研發(fā)運(yùn)營(yíng)一體化(DataOps)金融應(yīng)用的問題。盡管數(shù)據(jù)研發(fā)運(yùn)營(yíng)一體化可以為金融業(yè)帶來許多的便捷和到落地?cái)?shù)據(jù)研發(fā)運(yùn)營(yíng)一體化帶來的金融科技進(jìn)步,問題如下:要面臨的首要問題。DataOps數(shù)據(jù)運(yùn)營(yíng)過程?;ぞ叩淖饔谩ataOpsIT供應(yīng)商企業(yè)組織、思維以及人才的變革與進(jìn)步。四、關(guān)鍵技術(shù)與建設(shè)思路(一)云數(shù)一體化建設(shè)思路隨著大數(shù)據(jù)使用場(chǎng)景的不斷豐富,數(shù)據(jù)使用強(qiáng)度逐步加深,——服務(wù)器?!扒岸恕?wù)端—數(shù)據(jù)庫跨系統(tǒng)API值。云的價(jià)值和意義2030357際的物理可靠性早已無法滿足商業(yè)生產(chǎn)的要求。DevOps展變化等挑戰(zhàn)。無需再將精力浪費(fèi)在硬件異常的處理。早期設(shè)計(jì)的海量數(shù)據(jù)處理技術(shù)為何不上云一次封裝和管理。絡(luò),以此節(jié)約網(wǎng)絡(luò)帶寬。成為一種通用做法。源浪費(fèi)情況。海量數(shù)據(jù)處理平臺(tái)的新挑戰(zhàn)云數(shù)一體化助力構(gòu)建了數(shù)據(jù)即服務(wù)(DataasaService)的理念,海量數(shù)據(jù)處理平臺(tái)迎來了更好的整體解決方案。首先,而不再有物理硬件方面的阻礙。才可被后續(xù)處理。MapReduce引擎被繼TEZ逐步替代,SparkFlink經(jīng)典的大數(shù)據(jù)架構(gòu)產(chǎn)品設(shè)計(jì)上很難完成版本間兼容,例如Spark2.X與Spark3.X要一種基于云的全局彈性調(diào)度能力。提高計(jì)算資源的利用效率。從而全部數(shù)據(jù)應(yīng)用推倒重來的窘困局面。據(jù)一致性。完成修復(fù)的過程仍舊是需要大數(shù)據(jù)近乎全部的技術(shù)知識(shí)體系才大數(shù)據(jù)的用戶可以將最大的精力關(guān)注在數(shù)據(jù)價(jià)值挖掘和利用方面等更有價(jià)值的地方,而非糾結(jié)于大數(shù)據(jù)平臺(tái)運(yùn)維。實(shí)現(xiàn)云和數(shù)的一體化據(jù)技術(shù)發(fā)展趨勢(shì)。Spark、Flink、Presto等,屏蔽底層各3所示:圖3典型的云原生大數(shù)據(jù)底座架構(gòu)保證在線服務(wù)質(zhì)量的同時(shí),盡可能提升資源利用率??蛻舳丝梢酝该鞯卦L問統(tǒng)一名稱空間內(nèi)的不同路徑對(duì)應(yīng)的存儲(chǔ)IO任何底層存儲(chǔ)系統(tǒng)中的數(shù)據(jù),并能夠帶來顯著的性能提升。業(yè)務(wù)應(yīng)用價(jià)值利用數(shù)據(jù),其業(yè)務(wù)應(yīng)用價(jià)值主要體現(xiàn)在以下幾方面:數(shù)據(jù)服務(wù)化。通過云原生及多租戶技術(shù),實(shí)現(xiàn)跨數(shù)據(jù)更大且更靈活的規(guī)模。早期的數(shù)據(jù)處理技術(shù)棧,當(dāng)集200800要配置31200節(jié)點(diǎn)以上時(shí),降本增效。如前文所述,一般的數(shù)據(jù)處理平臺(tái)雖然具技術(shù)示例技術(shù)融合。整個(gè)技術(shù)融合分為以下三大部分:心能力,包括各類計(jì)算引擎和框架,工作流調(diào)度等等。AI(二)存算分離化建設(shè)思路“不確定性”Hive發(fā)展到Spark從Spark1.xSpark3.x,相比于最初的框架的能力,整體“算引擎統(tǒng)一調(diào)度”HDFS成對(duì)數(shù)據(jù)的有效管理,避免出現(xiàn)數(shù)據(jù)碎片化與數(shù)據(jù)沼澤?!盎ハ嘀g的標(biāo)準(zhǔn)兼容”為4所示:圖4海量數(shù)據(jù)處理技術(shù)之存算分離架構(gòu)捷、池化、彈性、低成本等優(yōu)勢(shì)能力。Hadoop為主的存算一體集群,也可以部署以對(duì)象存儲(chǔ)為主的存SparkFlinkPrestoIceberg儲(chǔ)構(gòu)建了橋梁,可以大幅提升數(shù)據(jù)計(jì)算的性能。業(yè)務(wù)應(yīng)用價(jià)值/持續(xù)迭代的海量數(shù)據(jù)處理平臺(tái)。無論是橫向不同業(yè)務(wù)統(tǒng)一的存儲(chǔ),靈活地計(jì)算,一體化的數(shù)據(jù)開發(fā)和治理工具,快速滿足業(yè)務(wù)需求的同時(shí),避免碎片化。成本最優(yōu)解。避免了重復(fù)建設(shè)、循環(huán)建設(shè),以類似可實(shí)現(xiàn)“數(shù)據(jù)開發(fā)與治理”數(shù)據(jù)處理平臺(tái),持續(xù)動(dòng)態(tài)地滿足業(yè)務(wù)需求。技術(shù)示例控層。其中,統(tǒng)一管控實(shí)現(xiàn)全局資源管理、權(quán)限管理、用戶管理、即可適應(yīng)新架構(gòu)的平臺(tái)。距增大的挑戰(zhàn)——現(xiàn)所謂“數(shù)據(jù)本地化”HDFSNameNodeSSDHDD近乎內(nèi)存的速度支持計(jì)算任務(wù)的高效使用。組件Alluxio能夠用作分布式共享緩存服務(wù),這樣與Alluxio通信的計(jì)算應(yīng)用程序可以透明地緩存頻繁訪問(尤其是從遠(yuǎn)程位置I/OAlluxio(如列出目錄和重命名AlluxioAlluxio不是從底層云存儲(chǔ)或?qū)ο蟠鎯?chǔ)中檢索讀取。三是簡(jiǎn)化數(shù)據(jù)管理:Alluxio提供對(duì)多數(shù)據(jù)源的單點(diǎn)訪問。還允許用戶同時(shí)連接(三)數(shù)據(jù)湖倉化建設(shè)思路schema,數(shù)據(jù)湖也不會(huì)將特定的schema時(shí)候解析schema,當(dāng)處理相應(yīng)的數(shù)據(jù)時(shí),將轉(zhuǎn)換施加其上。相導(dǎo)入到目標(biāo)表中。在數(shù)據(jù)倉庫中,數(shù)據(jù)存儲(chǔ)的結(jié)構(gòu)與其定義的schema是強(qiáng)匹配的。問題:提供SQL習(xí)系統(tǒng)。此外,使用SQL和緩慢,這使得與其他技術(shù)的集成變得非常困難。多關(guān)于ML系統(tǒng),如TensorFlowPyTorch和XGBoost,能夠很好地在倉庫BI非SQL商建議將數(shù)據(jù)導(dǎo)出到文件中,這進(jìn)一步增加了系統(tǒng)的復(fù)雜性。90%的數(shù)據(jù)存ETLBI應(yīng)用。這種雙系統(tǒng)架構(gòu)需要對(duì)數(shù)據(jù)湖和數(shù)據(jù)倉庫之間的ETLETL步驟都有可能ETL支付費(fèi)用外,用戶還要為復(fù)制到倉庫的數(shù)據(jù)支付兩倍的存儲(chǔ)成本。Lakehouse技術(shù)可以有效解決以上三個(gè)問題,具體如下:一是Lakehouse技術(shù)使得海量數(shù)據(jù)處理技術(shù)所構(gòu)成的平臺(tái)來更多的便利。二是Lakehouse余。正因?yàn)閷?shù)據(jù)倉庫構(gòu)建在數(shù)據(jù)湖之上,數(shù)據(jù)湖采用的Parquet、ORC件和集群化部署等優(yōu)勢(shì),均會(huì)在數(shù)據(jù)湖倉上得到體現(xiàn)。三是Lakehouse等等。數(shù)據(jù)湖倉可以根據(jù)應(yīng)用的需求為絕大多數(shù)的數(shù)據(jù)施加業(yè)務(wù)應(yīng)用價(jià)值及統(tǒng)一管控等湖倉融合特性。通過構(gòu)建數(shù)據(jù)湖倉Lakehouse,不同角色的用戶可以基于統(tǒng)一的數(shù)據(jù)平臺(tái)簡(jiǎn)化整體的數(shù)據(jù)存儲(chǔ)、計(jì)算、管理的流程和需求。數(shù)據(jù)湖倉也可以拆除湖與倉庫之間的壁壘,無論是全局視角,還是利用存算分離技術(shù)與數(shù)據(jù)網(wǎng)格的架構(gòu)方式,實(shí)現(xiàn)在滿足不同使現(xiàn)數(shù)據(jù)利用的最大價(jià)值。數(shù)據(jù)湖倉化主要的業(yè)務(wù)應(yīng)用價(jià)值如下:Lakehouse的架構(gòu)Lakehouse其他關(guān)鍵管理元素等。Lakehouse數(shù)據(jù)緩存加速層優(yōu)化存儲(chǔ)資源與計(jì)算資源極度不均衡時(shí)帶來的技術(shù)示例數(shù)據(jù)湖倉LakehouseIoT的任務(wù)流程和數(shù)據(jù)關(guān)聯(lián)與流轉(zhuǎn),最終發(fā)揮數(shù)據(jù)的價(jià)值。DBMS的優(yōu)點(diǎn)。一方面,湖倉架構(gòu)提供低成本的彈性存儲(chǔ),支持存儲(chǔ)各類數(shù)據(jù)格式;另一方面,湖倉架構(gòu)也提供ACID(Atomicity原子性,ConsistencyIsolation隔離性,Durability持久性)Iceberg在設(shè)計(jì)之初的目標(biāo)就是提供一個(gè)開放通用表格式(TableFormat)來實(shí)現(xiàn)湖倉一體的方案。(FlinkSpark...)都可以接入Iceberg基于IcebergIceberg同時(shí)提供了流//鏈路。IcebergSQL的方式進(jìn)行表級(jí)別模式演進(jìn),即:數(shù)據(jù)表演化(TableEvolution),進(jìn)行這些操作的時(shí)候,Hive中,如果我們需要把一個(gè)按天分區(qū)Insert到新的小時(shí)分Rename的命令把新表的名字改為原修改SQL,這樣花費(fèi)的經(jīng)歷是非常繁瑣的。Iceberg一是分區(qū)演化(PartitionEvolution)Iceberg可以在一個(gè)Iceberg的查詢流程并不和分區(qū)信策略相互獨(dú)立,不重合。得益于Iceberg的隱藏分區(qū)(HiddenSQLSQL中特別指定分區(qū)過濾條件,IcebergIceberg二是列順序演化(SortOrderEvolution)。Iceberg可以在Iceberg里寫數(shù)據(jù)的計(jì)算引擎總是會(huì)選擇最新的排序策略,但是當(dāng)排序的代價(jià)極其高昂的時(shí)候,就不進(jìn)行排序了。三是隱藏分區(qū)(HiddenPartition)。Iceberg的分區(qū)信息并Hive的分區(qū)字段/(通過某一個(gè)字段計(jì)算出來Iceberg的分Iceberg的表分區(qū)可以被修改,而且不會(huì)涉及數(shù)據(jù)遷移。四是鏡像數(shù)據(jù)查詢(TimeTravel)。Iceberg提供了查詢表歷史某一時(shí)間點(diǎn)數(shù)據(jù)鏡像(snapshot)SQL邏輯,應(yīng)用到歷史數(shù)據(jù)上。五是支持事務(wù)(ACID)Iceberg通過提供事務(wù)(ACID)的機(jī)制,upsert的能力并且使得邊寫邊讀成為可能,從而數(shù)費(fèi)已commit的數(shù)據(jù),而不會(huì)讀到部分甚至未提交的數(shù)據(jù)。Iceberg個(gè)程序并發(fā)寫入的能力并且保證數(shù)據(jù)線性一致。IcebergCountSQL(四)計(jì)算融合化建設(shè)思路建設(shè)思路具體如下:語法自適應(yīng)(執(zhí)行Presto、LivyHveFlnkMySQLPosgrSQL、HiveSparkSQL/LivyOraclePhoenixHBase)ElasticSearch、KylinClickHouseDruidPresto所使用的SQLSQLSQL兼容轉(zhuǎn)換SQLSQL語SQL語法,自動(dòng)適配不同計(jì)算引擎和數(shù)據(jù)源語法。顧名思義,SQL兼容轉(zhuǎn)換功能SQLSQL轉(zhuǎn)換。SQLSQLSQLSQLSQL語法分為兩大類即通用型(SQLSparkHiveFlink等大數(shù)據(jù)查詢語法(SQL(SQL轉(zhuǎn)換SQL(如SparkHiveSQLSQL定引擎。SQL轉(zhuǎn)換:SQL選擇功能奠定基石。SQLSQL擎的切換,并且盡量最小程度地更改用戶的使用習(xí)慣。通過SQLSQL平臺(tái)組件,降低大數(shù)據(jù)系統(tǒng)使用的門檻和繁瑣程度。引擎選擇自適應(yīng)(PrestoSpark等((CPU。傳統(tǒng)基于RBO/CBO的SQL(History-BasedHBO目標(biāo)是分SQLHBO(非取代RBO/CBO動(dòng)學(xué)習(xí)SQLHBO和機(jī)器學(xué)(即錯(cuò)誤選擇引擎后執(zhí)行失敗SQLSQLHBO戶SQLHBO優(yōu)化的四個(gè)串行階段?;谝孢x擇(SQL優(yōu)化)HBO耗時(shí)必須控制在毫秒級(jí)。SQL語句(DQL/DML),Signature,QS)字段。SQL文本的“濃縮”表示,包含SQL(Filter/Join/GroupBy/Orderby)QS來匹配判斷當(dāng)前用戶SQL與哪些歷史SQL“HBO等價(jià)”SQL的執(zhí)行特征,來決定當(dāng)前SQL是否應(yīng)選某類引擎執(zhí)行。索引寬表:HBOSQL,從歷史流SQLHBO索引寬表來解決檢索的實(shí)時(shí)性能問shuffle歷史檢索:基于查詢簽名的完全匹配(exactmatch),調(diào)REST(如一周內(nèi)API(平均100ms)。選擇使用的某類計(jì)算引擎來執(zhí)行。計(jì)算運(yùn)行時(shí)自適應(yīng)以Presto的MPPCPU/內(nèi)存/CPU/(算力是隨Presto的原生任務(wù)調(diào)度策略并未將節(jié)點(diǎn)的算力考Presto做了針對(duì)性的優(yōu)化,Presto自適應(yīng)任務(wù)調(diào)度主要分為:TaskSplit自適應(yīng)調(diào)度,方案實(shí)Split和Task。PrestoCoordiantorWorker節(jié)點(diǎn)的算力變化情況,同時(shí)計(jì)算出對(duì)應(yīng)的節(jié)點(diǎn)可用算力權(quán)重,在TaskSplit計(jì)算出相應(yīng)的WorkerTask或SplitTaskSplit長(zhǎng)尾問題,從而做到自適應(yīng)的調(diào)度。TaskCPU5的執(zhí)行時(shí)間波動(dòng)很大。5Task在開啟自適應(yīng)調(diào)度后,TaskCPU6的執(zhí)行時(shí)間更加均衡,避免長(zhǎng)尾問題影響整個(gè)計(jì)算任務(wù)的性能。6Task資源自適應(yīng)資源管理的角度,多集群會(huì)帶來諸多問題:載不均衡的問題;透明化。K8S數(shù)據(jù)編排自適應(yīng)COS、HDFS、Ceph、Ozone等。面向異構(gòu)化的存統(tǒng)一的存儲(chǔ)Master節(jié)點(diǎn)(例如HDFSNameNode)極大壓力,造成性能抖動(dòng)。數(shù)據(jù)編排層會(huì)自適應(yīng)緩存存儲(chǔ)元數(shù)據(jù),以及自動(dòng)小文件合并,減輕MasterDC數(shù)據(jù)訪問時(shí),加速元數(shù)據(jù)訪問,提升數(shù)據(jù)訪問速度。業(yè)務(wù)應(yīng)用價(jià)值程中的計(jì)算融合化,其業(yè)務(wù)應(yīng)用價(jià)值如下:語法自適應(yīng):統(tǒng)一不同的計(jì)算入口,自動(dòng)適配不同的SQL語法和標(biāo)準(zhǔn),降低大數(shù)據(jù)系統(tǒng)使用門檻。SQL現(xiàn)SQL計(jì)算性能,降低失敗率。計(jì)算運(yùn)行時(shí)自適應(yīng):根據(jù)運(yùn)行時(shí)狀態(tài)和信息反饋,動(dòng)資源自適應(yīng):統(tǒng)一資源管理,屏蔽各類資源的性能差數(shù)據(jù)編排自適應(yīng):實(shí)現(xiàn)不同異構(gòu)存儲(chǔ)場(chǎng)景下的存儲(chǔ)加場(chǎng)景架構(gòu)自適應(yīng):適配多云混合架構(gòu),實(shí)現(xiàn)最優(yōu)的跨集群、跨DC、跨云計(jì)算路由,打通數(shù)據(jù)鏈路,解決數(shù)據(jù)孤島。技術(shù)示例引擎層、計(jì)算層、資源層、數(shù)據(jù)編排層。通用SQLSQL法做出SQL算參數(shù)調(diào)優(yōu)等重要決策,從而影響整個(gè)計(jì)算的生命周期。Spark負(fù)責(zé)ETL負(fù)責(zé)SQL特點(diǎn)和使用場(chǎng)景選擇最佳的計(jì)算引擎。為了保證計(jì)算在不同架構(gòu)下的計(jì)算穩(wěn)定性,RemoteShuffleShuffle服務(wù),實(shí)現(xiàn)計(jì)算執(zhí)行拓?fù)渥赃m應(yīng)。資源整體利用率。加速數(shù)據(jù)訪問性能,提升集群穩(wěn)定性。(五)研發(fā)運(yùn)營(yíng)一體化建設(shè)思路在數(shù)據(jù)驅(qū)動(dòng)的大背景下,組織內(nèi)的數(shù)據(jù)意識(shí)已經(jīng)逐漸成熟,(以下稱為DataOps)DataOps4所示:4DataOps序號(hào)名稱要求1組織數(shù)據(jù)思維納入組織通識(shí)教育,專注于效能與協(xié)同的崗位,決策層的戰(zhàn)略支持。2流程3工具DataOpsDataops概念意義、明確DataOpsDataOpsDataOps的建設(shè)方法;三是以評(píng)促建,通過自評(píng)或三方評(píng)估的方式,對(duì)DataOps能力查缺補(bǔ)漏。DataOps3個(gè)層次7示:7DataOpsDataOps35所示:5DataOps層次名稱說明基礎(chǔ)層多環(huán)境(集群)管理在基礎(chǔ)層支持多環(huán)境多集群管理,支持一套統(tǒng)一的MPP提供統(tǒng)一的開發(fā)與應(yīng)用體驗(yàn),具備跨云部署以及對(duì)跨云EMR(引擎)實(shí)現(xiàn)代碼及相關(guān)資源的無縫發(fā)布。開發(fā)層發(fā)44治理層管理治理層主要包括統(tǒng)一元數(shù)據(jù)及質(zhì)量管理兩塊能力,細(xì)分下還包括全域血緣打通、資產(chǎn)分析、質(zhì)量管理等。46所示:6DataOps4能力項(xiàng)說明統(tǒng)一調(diào)度編排統(tǒng)一監(jiān)控/告警API話告警等。安全保障主要包括系統(tǒng)安全、數(shù)據(jù)安全、安全審計(jì)等。團(tuán)隊(duì)協(xié)作責(zé)任人機(jī)制、鎖機(jī)制、用戶組。業(yè)務(wù)應(yīng)用價(jià)值的DataOpsCI/CD主要核心業(yè)務(wù)應(yīng)用價(jià)值如下:協(xié)同,圍繞數(shù)據(jù)價(jià)值鏈基于協(xié)作空間使數(shù)據(jù)團(tuán)隊(duì)不同作,無需多平臺(tái)多工具間來回切換。DataOps協(xié)作。DataOps升數(shù)據(jù)可靠性,加快數(shù)據(jù)生產(chǎn)和分析鏈路效率。視化圖拉拽方式進(jìn)行流程設(shè)計(jì),快速易用支持業(yè)務(wù)開發(fā)。編排后開發(fā)。高性能可擴(kuò)展:高性能調(diào)度引擎,支持日千萬級(jí)任務(wù)調(diào)度,JDBC接口的引擎。一體,服務(wù)企業(yè)數(shù)據(jù)管理、數(shù)據(jù)生產(chǎn)、數(shù)據(jù)應(yīng)用、數(shù)據(jù)運(yùn)營(yíng)多個(gè)角色,給予不同視角一體化的產(chǎn)品體驗(yàn)。和成本分析以及數(shù)據(jù)流通安全管控為數(shù)據(jù)的生產(chǎn)和消費(fèi)提供有力的質(zhì)量和安全保障。質(zhì)量,貫穿事前中后的數(shù)據(jù)質(zhì)量控制,融入DataOps管道式開發(fā)流程,全面保障數(shù)據(jù)質(zhì)量提升。數(shù)據(jù)任務(wù)/工作流提交版本前要求通過在線調(diào)試,在線調(diào)試會(huì)自動(dòng)拉起數(shù)據(jù)表對(duì)應(yīng)的質(zhì)量監(jiān)控任務(wù)。敏捷數(shù)倉建模工具在數(shù)據(jù)建模時(shí)支持直接引用事前定義好的數(shù)據(jù)標(biāo)準(zhǔn),在源頭上做到落標(biāo)。置零容忍閾值來做到貫標(biāo)。技術(shù)示例數(shù)據(jù)研發(fā)運(yùn)營(yíng)一體化(DataOps):是數(shù)據(jù)開發(fā)的新范式,將敏捷、精益等理念融入數(shù)據(jù)開發(fā)過程,通過對(duì)數(shù)據(jù)相關(guān)人員、量,實(shí)現(xiàn)高質(zhì)量數(shù)字化發(fā)展。其技術(shù)能力實(shí)現(xiàn)框架示例如下:研發(fā)管理理一體化能力,提升數(shù)據(jù)產(chǎn)品交付質(zhì)量。一是強(qiáng)化需求評(píng)價(jià),明確數(shù)據(jù)需求內(nèi)容,降低溝通成本。二是通過“”標(biāo)準(zhǔn)、質(zhì)量的設(shè)計(jì)。開發(fā)任務(wù)鏈中嵌入數(shù)據(jù)質(zhì)量稽核能力,及時(shí)解決質(zhì)量問題。自主探查,緩解需求響應(yīng)和交付壓力。交付管理CI/CT/CD自動(dòng)化流水線,提升測(cè)試與部署效率,降低人為風(fēng)險(xiǎn),提高數(shù)據(jù)交付效率與質(zhì)量。問題。行管理,保證各階段數(shù)據(jù)的實(shí)時(shí)可用性和可驗(yàn)證性。人為操作風(fēng)險(xiǎn)。數(shù)據(jù)運(yùn)維況等進(jìn)行時(shí)刻監(jiān)控預(yù)警。理分配相關(guān)資源,優(yōu)化運(yùn)維成本。變更場(chǎng)景。效率。平臺(tái)配置情況進(jìn)行調(diào)優(yōu),不斷提升開發(fā)流水線性能。價(jià)值運(yùn)營(yíng)效。投入,識(shí)別并減少浪費(fèi)。挖問題源頭并持續(xù)改進(jìn)。系統(tǒng)工具DataOps“”則。CI/CT/CD能力,支撐自動(dòng)化的測(cè)試流水線與部署流水線功能,能夠?qū)Υa和數(shù)據(jù)進(jìn)行版本控制。示等形式實(shí)時(shí)展現(xiàn)研發(fā)效能、質(zhì)量等信息。功能。組織管理規(guī)劃,借助敏捷方法持續(xù)優(yōu)化人員、工具的協(xié)同水平。一是合理配置企業(yè)內(nèi)部的數(shù)據(jù)技術(shù)架構(gòu)、數(shù)據(jù)人員架構(gòu)。二是設(shè)置相應(yīng)的崗位角色,明確晉升路線與考核方式。持續(xù)進(jìn)行優(yōu)化。安全管理在安全管控方面,構(gòu)建完善細(xì)致的安全風(fēng)險(xiǎn)管理體系,并在DataOps各個(gè)環(huán)節(jié)中全面嵌入安全屏障。一是加強(qiáng)對(duì)數(shù)據(jù)研發(fā)全生命周期中的風(fēng)險(xiǎn)識(shí)別,風(fēng)險(xiǎn)預(yù)測(cè)。提前制定風(fēng)險(xiǎn)預(yù)案,將風(fēng)險(xiǎn)的影響持續(xù)降低。全風(fēng)險(xiǎn)管理策略并不斷更新完善。問題、處理問題。五、發(fā)展趨勢(shì)和展望評(píng)估風(fēng)險(xiǎn)和發(fā)現(xiàn)投資機(jī)會(huì),這將幫助投資者做出更明智的決策,(一)生成式人工智能驅(qū)動(dòng)數(shù)據(jù)技術(shù)方面解決方案。模型和生成對(duì)抗網(wǎng)絡(luò)是生成式人工智能的代表性模型。數(shù)據(jù)增強(qiáng)與樣本生成數(shù)據(jù)清洗和修復(fù)數(shù)據(jù)質(zhì)量是影響人工智能模型性能的一個(gè)重要因素。然而,現(xiàn)實(shí)中的數(shù)據(jù)往往會(huì)受到噪聲、缺失或錯(cuò)誤等問題的影響。生成式人工智能為數(shù)據(jù)清洗和修復(fù)提供了新的解決思路。術(shù)在提高文本數(shù)據(jù)質(zhì)量和減輕數(shù)據(jù)預(yù)處理負(fù)擔(dān)方面具有巨大潛力。數(shù)據(jù)合成與擴(kuò)充成合成數(shù)據(jù),以替代真實(shí)數(shù)據(jù)進(jìn)行模型訓(xùn)練或測(cè)試。真實(shí)道路測(cè)試,從而降低了測(cè)試成本和風(fēng)險(xiǎn)。自動(dòng)數(shù)據(jù)標(biāo)注方案。生成數(shù)據(jù)模型與查詢語句通過接入最全面的企業(yè)內(nèi)部數(shù)據(jù)源及數(shù)據(jù)資產(chǎn)元數(shù)據(jù)目錄,內(nèi)部數(shù)據(jù)模型由提示詞驅(qū)動(dòng)AIGC(ArtificialIntelligenceGeneratedLanguage(二)實(shí)時(shí)數(shù)據(jù)湖倉方面ETLLakehouseOLAP組件近期紛紛加入湖倉StarRocksOLAPLakehouse分析,8所示:圖8實(shí)時(shí)湖倉架構(gòu)圖FlinkETL數(shù)據(jù)ETL始數(shù)據(jù)經(jīng)過Extract到達(dá)數(shù)倉貼源層(OperationDataStore,ODS),Transform轉(zhuǎn)換成數(shù)據(jù)明細(xì)層(DataWarehouseLoad到數(shù)倉服務(wù)層(DataWarehouseSummary,DWS)BI使用?;贔link構(gòu)建大數(shù)據(jù)實(shí)時(shí)鏈路是業(yè)界應(yīng)用最為廣泛的方案之一,2023年SIGMODFlink已經(jīng)證明。Iceberg的Lakehouse2020Lakehouselicense在當(dāng)時(shí)都是最適合應(yīng)用的一個(gè)項(xiàng)目。軟件架構(gòu)上:它的核心能力與存儲(chǔ)引擎、計(jì)算引擎解IcebergAPI有多個(gè)基于IcebergFileIOAPI構(gòu)造的存儲(chǔ)支持,其中貢獻(xiàn)到開源社區(qū)的有AWSS3FileIO、DellEcsFileIO、GoogleGCSFileIO、AliyunOSSFileIOCatalog、TableScan等。代碼質(zhì)量方面:基本上它的每一個(gè)PR都是經(jīng)過嚴(yán)格Review,整體UT的覆蓋率也比較高。合規(guī)方面:IcebergApache基金會(huì),商業(yè)使用上是較為安全的。9IcebergIcebergHive無法繼續(xù)服務(wù)的問題而立項(xiàng),HiveMetastore背后(ListHDFS或者對(duì)象存儲(chǔ)都有巨大開銷)Iceberg架構(gòu)的元數(shù)據(jù)組織方式(9所示)可以有效地解決這些問題。IcebergMVCC(Multi-VersionConcurrencyControl,MVCC),它在快照中保存了庫表的基礎(chǔ)Manifest(avro格式)記錄和組織了數(shù)snapshotManifestdatafile的組織的Flink流式入湖和流式增量讀取從而實(shí)現(xiàn)流式ETL(Extract,Transform,Load)commit間隔生產(chǎn)快照使得數(shù)據(jù)在較低延遲內(nèi)可見。通過快照ID獲取增量數(shù)據(jù)使得Flink流式增量讀取Iceberg智能湖倉服務(wù)(AutoOptimize)commit可以降低數(shù)據(jù)延遲,但也導(dǎo)致了Iceberg的元數(shù)據(jù)組織方式將元數(shù)據(jù)過多的的(AutoOpimze下面簡(jiǎn)稱排序和重分布等。AO10所示:圖10智能湖倉服務(wù)架構(gòu)圖AOscan,commit,schemachangepropertieschangeMQ,AO消費(fèi)這些事件并讓事件經(jīng)過預(yù)先定義好的一些優(yōu)化規(guī)則生成一些優(yōu)化任務(wù)放到MQtopic并根據(jù)資源、之前類似任務(wù)執(zhí)行效果調(diào)整參數(shù)后下發(fā)任務(wù)到調(diào)度系統(tǒng)??偟腁O不僅可以持久穩(wěn)定地工作,還能實(shí)現(xiàn)湖倉存儲(chǔ)數(shù)據(jù)的持續(xù)優(yōu)化。更多的湖倉場(chǎng)景展望些過去無法在數(shù)倉上實(shí)現(xiàn)的場(chǎng)景成為可能,例如,全鏈路(ChangeData特征工程等場(chǎng)景?;贐ranch的全鏈路CDCbinlogCDC方式進(jìn)行流式數(shù)據(jù)庫增量同步方能夠捕獲所有數(shù)據(jù)的變化,捕獲完整的變更記錄;2)每次DML(DataManipulationLanguage,DML)操作均有記錄無需發(fā)起全表掃描進(jìn)行過濾,擁有更高的效率和性能,具有低延遲,不增加數(shù)據(jù)庫負(fù)載的優(yōu)勢(shì);3)無需入CDC方式同另外一種是需要讀取更新前后的數(shù)據(jù),即changelogfeed模式。根據(jù)不同的消費(fèi)模式有兩種流式寫入方式,一種是通過MergeonRead模式upsert到Iceberg庫表,但是MergeOnRead模式在生成回溯ChangeLogFeed時(shí)性能較為一般。Iceberg從1.2.0版本后開始支持Branch&Tags功能,用戶可以像使用git一樣管理數(shù)據(jù)的版本和分支。未來我們會(huì)使用Branch&TagsCDC寫入和讀取邏輯,(ChangeLogFeed)Branch全鏈路CDC11所示:圖11Branch全鏈路CDC設(shè)計(jì)方案圖多流拼接KVHBaseFlinkJoin功能實(shí)KV引擎實(shí)現(xiàn)多流拼接的主要問題是成本比較大且無法scale而使用FlinkFlink13所示:12(1)13(2)力來執(zhí)行。DeepLake在機(jī)器學(xué)習(xí)領(lǐng)域,DeepLakegit-likeBranch&Tagsfeature14所示:14DeepLake(三)數(shù)據(jù)網(wǎng)格方面數(shù)據(jù)網(wǎng)格便是為了更好地適應(yīng)上述變化形成的一種數(shù)據(jù)架“數(shù)據(jù)自治”游提供符合標(biāo)準(zhǔn)的數(shù)據(jù)產(chǎn)品即可。數(shù)據(jù)網(wǎng)格將之前完全耦合的數(shù)據(jù)平臺(tái),升級(jí)為以標(biāo)準(zhǔn)進(jìn)行不同數(shù)據(jù)產(chǎn)品銜接的統(tǒng)一數(shù)據(jù)平臺(tái)。類似“流水線”的設(shè)計(jì)將有助于數(shù)據(jù)價(jià)值創(chuàng)新,只要確保數(shù)據(jù)產(chǎn)品之間的“標(biāo)準(zhǔn)”沒有變化,數(shù)據(jù)產(chǎn)品節(jié)點(diǎn)內(nèi)部的創(chuàng)新不會(huì)影響其他數(shù)據(jù)產(chǎn)品,最終避免因一個(gè)小變化卻牽一發(fā)而動(dòng)全身。數(shù)據(jù)碎片化。除此之外,數(shù)據(jù)網(wǎng)格的有效利用也會(huì)帶來下述優(yōu)勢(shì)。在復(fù)雜事件的處理和技術(shù)棧持續(xù)迭代優(yōu)化等任務(wù)。二是,更低的成本與更高的效率。采用分布式的數(shù)據(jù)架構(gòu),將粗曠的數(shù)據(jù)處理階段精細(xì)化;精細(xì)化的方式,使得我們不再需要等待全局或大流程中的某一個(gè)階段所有的數(shù)據(jù)處理完成后才(四)數(shù)據(jù)編織方面要么需要持續(xù)投入精力確保不同單元之間的數(shù)據(jù)交互可靠與可AIAI以及機(jī)器據(jù)自動(dòng)編排和動(dòng)態(tài)集成,形成動(dòng)態(tài)可持續(xù)的數(shù)據(jù)服務(wù)。這些敏感且高價(jià)值的數(shù)據(jù)。數(shù)據(jù)網(wǎng)格和數(shù)據(jù)編織均提供了跨越多種技術(shù)和平臺(tái)的數(shù)據(jù)據(jù)和數(shù)據(jù)之間、業(yè)務(wù)和數(shù)據(jù)之間的數(shù)據(jù)價(jià)值挖掘與利用。六、實(shí)踐案例(一)中國(guó)工商銀行實(shí)踐案例案例概況全的特點(diǎn)。15所示。15BI運(yùn)營(yíng)工作站提供資源調(diào)配、資源治理、服務(wù)運(yùn)維監(jiān)控服務(wù)。/分鐘保護(hù)解決方案??氐裙卜?wù)能力。案例成果400關(guān)鍵業(yè)務(wù)領(lǐng)域,如:損益預(yù)查詢業(yè)務(wù)通過大數(shù)據(jù)平臺(tái)批量計(jì)算服務(wù),大幅10(30分鐘)30輪(15分鐘)。信用卡交易實(shí)時(shí)反欺詐系統(tǒng)基于大數(shù)據(jù)平臺(tái)流計(jì)算服(平均響應(yīng)時(shí)間毫秒級(jí)),實(shí)現(xiàn)了事中風(fēng)險(xiǎn)攔截。法人客戶營(yíng)銷系統(tǒng)使用實(shí)時(shí)數(shù)倉服務(wù)實(shí)時(shí)統(tǒng)計(jì)資金流更好地幫助客戶合理管理資產(chǎn),拓展新的營(yíng)銷點(diǎn)。能力,不斷為各類決策提供更加實(shí)時(shí)、更加精準(zhǔn)的數(shù)據(jù)支持。經(jīng)驗(yàn)總結(jié)工商銀行大數(shù)據(jù)平臺(tái)在海量數(shù)據(jù)處理中數(shù)據(jù)架構(gòu)、數(shù)據(jù)處理時(shí)效、數(shù)云融合等方面的建設(shè)經(jīng)驗(yàn)如下:HudiClickHouse反饋。數(shù)云融合方面:通過建設(shè)云上統(tǒng)一存儲(chǔ)服務(wù),實(shí)現(xiàn)存算分離“全整體資源利用率。(二)中國(guó)銀行實(shí)踐案例案例概況Hadoop生態(tài)技術(shù)16

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論