2024海量數(shù)據(jù)處理技術(shù)金融應(yīng)用

上傳人：1*** IP屬地：山東上傳時(shí)間：2024-04-02 格式：DOCX 頁數(shù)：116 大?。?.08MB 積分：15 舉報(bào) 版權(quán)申訴

2024海量數(shù)據(jù)處理技術(shù)金融應(yīng)用_第2頁

2024海量數(shù)據(jù)處理技術(shù)金融應(yīng)用_第3頁

2024海量數(shù)據(jù)處理技術(shù)金融應(yīng)用_第4頁

2024海量數(shù)據(jù)處理技術(shù)金融應(yīng)用_第5頁

已閱讀5頁，還剩111頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

海量數(shù)據(jù)處理技術(shù)金融應(yīng)用研究報(bào)告20241海量數(shù)據(jù)處理技術(shù)金融應(yīng)用研究報(bào)告海量數(shù)據(jù)處理技術(shù)金融應(yīng)用研究報(bào)告目錄一、發(fā)展概況 2（一）法律法規(guī)和政策環(huán)境 2（二）技術(shù)發(fā)展階段及特征 5（三）技術(shù)框架與形態(tài) 9二、應(yīng)用情況 15（一）平臺(tái)建設(shè)應(yīng)用情況 15（二）技術(shù)應(yīng)用情況 20三、主要挑戰(zhàn) 28（一）數(shù)據(jù)存儲(chǔ)的挑戰(zhàn) 28（二）數(shù)據(jù)計(jì)算的挑戰(zhàn) 29（三）云化計(jì)算的挑戰(zhàn) 31（四）融合計(jì)算的挑戰(zhàn) 32（五）研發(fā)運(yùn)營(yíng)一體化的挑戰(zhàn) 33四、關(guān)鍵技術(shù)與建設(shè)思路 36（一）云數(shù)一體化 36（二）存算分離化 44（三）數(shù)據(jù)湖倉化 50（四）計(jì)算融合化 59（五）研發(fā)運(yùn)營(yíng)一體化 68五、發(fā)展趨勢(shì)和展望 78（一）生成式人工智能驅(qū)動(dòng)數(shù)據(jù)技術(shù)方面 79（二）實(shí)時(shí)數(shù)據(jù)湖倉方面 81（三）數(shù)據(jù)網(wǎng)格方面 90（四）數(shù)據(jù)編織方面 93六、實(shí)踐案例 95海量數(shù)據(jù)處理技術(shù)金融應(yīng)用研究報(bào)告海量數(shù)據(jù)處理技術(shù)金融應(yīng)用研究報(bào)告PAGEPAGE100摘要：一、發(fā)展概況（一）法律法規(guī)和政策環(huán)境（201550號(hào)化轉(zhuǎn)型，使金融業(yè)能夠更好地適應(yīng)現(xiàn)代經(jīng)濟(jì)的發(fā)展需求。智能化發(fā)展階段，是金融業(yè)數(shù)據(jù)處理技術(shù)發(fā)展的最新階段。2021610日2021820日第十三屆全2019222號(hào)（2022199號(hào)（JR/T0171—2020）（JR/T0197—2020）命周期安全規(guī)范》（JR/T0223—2021）、《金融大數(shù)據(jù)術(shù)語》（JR/T0236—2021）、《金融大數(shù)據(jù)平臺(tái)總體技術(shù)要求》5月25（GDPR）2022年63構(gòu)不斷加大數(shù)字化轉(zhuǎn)型投入，重回快速增長(zhǎng)軌道。傳統(tǒng)金融機(jī)構(gòu)在金融科技戰(zhàn)略定位上正在從“科技賦能”逐步向“科技引領(lǐng)”模和范圍不斷擴(kuò)展。（二）技術(shù)發(fā)展階段及特征從傳統(tǒng)數(shù)據(jù)庫到大數(shù)據(jù)體系的變革隨著數(shù)據(jù)在金融行業(yè)中的深度應(yīng)用，數(shù)據(jù)規(guī)模的不斷擴(kuò)大，ParallelProcessing數(shù)據(jù)處理技術(shù)開始被使用，以解決數(shù)據(jù)規(guī)模帶來的復(fù)雜性問題。Hadoop及其衍生技術(shù)作為經(jīng)典大數(shù)據(jù)方案來應(yīng)對(duì)新的數(shù)據(jù)處理挑戰(zhàn)，并取得了很好的效果。從處理海量文本到高價(jià)值、多維度、多類型特征的轉(zhuǎn)變和數(shù)據(jù)分析等專業(yè)的技術(shù)團(tuán)隊(duì)逐步延展到業(yè)務(wù)團(tuán)隊(duì)，業(yè)務(wù)分析與僅面向海量文本及結(jié)構(gòu)化類型的數(shù)據(jù)特性漸漸無法滿足業(yè)務(wù)需值、多維度和多類型的數(shù)據(jù)特征快速演進(jìn)。HadoopSDK70%戶仍舊是“沙中淘金”“金中煉金”“大”的維度之“多”。存算分離需求的萌芽年以上的存儲(chǔ)周期，參與計(jì)算的數(shù)據(jù)占總數(shù)據(jù)存儲(chǔ)量的比例大致約為23%左右。過將提供存儲(chǔ)能力和計(jì)算能力的相關(guān)組件角色分別部署在不同等各類衍生問題與風(fēng)險(xiǎn)，并不適合作為生產(chǎn)環(huán)境的最佳實(shí)踐。易用性優(yōu)化推動(dòng)使用難度進(jìn)一步降低非SQL靈活和易用的技術(shù)平臺(tái)才被廣泛推入生產(chǎn)環(huán)境使用。OLAP(On-LineAnalyticalProcessing，OLAP)持類SQL易用性，最大程度地幫助從業(yè)者發(fā)現(xiàn)并利用數(shù)據(jù)價(jià)值。行級(jí)別的海量數(shù)據(jù)近實(shí)時(shí)更新能力需求“追加寫”的方式，的數(shù)據(jù)使用與資源利用模式進(jìn)行深度優(yōu)化，以應(yīng)對(duì)挑戰(zhàn)。更新能力支持是很好的實(shí)踐路徑。得之前需要全量數(shù)據(jù)參與才能實(shí)現(xiàn)的數(shù)據(jù)更新時(shí)效性提升到了近實(shí)時(shí)，并極大減少了資源消耗，提升了資源利用效率。了數(shù)據(jù)冗余，同時(shí)也實(shí)現(xiàn)了數(shù)據(jù)湖和數(shù)據(jù)倉庫之間的優(yōu)勢(shì)互補(bǔ)。數(shù)據(jù)不必再進(jìn)行湖倉之間的傳遞，極大優(yōu)化了數(shù)據(jù)處理的時(shí)間。更高效的數(shù)據(jù)處理支持，更好地實(shí)現(xiàn)業(yè)務(wù)價(jià)值。（三）技術(shù)框架與形態(tài)一海量數(shù)據(jù)是指數(shù)據(jù)量大到用傳統(tǒng)的數(shù)據(jù)管理和處理技術(shù)難以有效存儲(chǔ)、管理和分析的數(shù)據(jù)集合。海量數(shù)據(jù)處理技術(shù)基本形態(tài)SQL交互語言支持、PythonFlink、Spark等計(jì)算引擎支持，TBPBEB級(jí)數(shù)據(jù)能力規(guī)模，以應(yīng)對(duì)當(dāng)下和未來的持續(xù)挑戰(zhàn)，支1是一個(gè)典型的海量數(shù)據(jù)處理技術(shù)架構(gòu)：1分布式存儲(chǔ)框架1場(chǎng)景的存儲(chǔ)需求，是金融業(yè)海量數(shù)據(jù)處理環(huán)節(jié)中的第一步。DistributedFilePBHDFS將導(dǎo)入的大數(shù)HDFSAPI，用以存儲(chǔ)與獲取文件內(nèi)容。Ozone是大數(shù)據(jù)場(chǎng)景中融合文件系統(tǒng)和對(duì)象存儲(chǔ)的較佳解決方案，能有效解決用戶在使用過程中各類存儲(chǔ)需求，并延續(xù)HadoopHadoop文件系統(tǒng)、對(duì)象存儲(chǔ)/S3K8SCSI等多種訪問方Ozone與Hadoop生態(tài)融合，如ApacheHiveApacheSpark等無縫對(duì)接。Ozone支持HadoopCompatibleFileSystemAPI(akaOzoneFS)OzoneFS，Hive，SparkOzone還同時(shí)支持?jǐn)?shù)據(jù)本地化，使得計(jì)算能夠盡可能地靠近數(shù)據(jù)。HBaseHDFS上的分布式存儲(chǔ)系統(tǒng)，主要用于HBaseHDFS能夠支持靈活的列字段定義；另一方面，HBase利用LSM(Log-StructuredMerge-Tree，LSM)數(shù)據(jù)結(jié)構(gòu)模型，將數(shù)據(jù)HDFSHBaseHBase的高可靠性。HDFSRegionServerMaster22HBase數(shù)據(jù)組織方式與分析技術(shù)框架核心Iceberg是一個(gè)面向海量數(shù)據(jù)分析場(chǎng)景的開放表格式(TableFormat)，有時(shí)也被認(rèn)為是新一代的數(shù)據(jù)湖倉組件。定義中所說的表格式(Table(Flink，Spark...)之下，數(shù)據(jù)文件之上。表格式(TableFormat)屬于數(shù)據(jù)庫系統(tǒng)在實(shí)現(xiàn)層面上的一API息、統(tǒng)計(jì)信息以及上層查詢引擎讀取、寫入表中文件的接口。數(shù)據(jù)編排與緩存加速核心Alluxio（Apache和（Alluxio端API和全局命名空間。消息隊(duì)列分布式計(jì)算框架與分析引擎Hive把存儲(chǔ)在HDFS并提供SQLHive來實(shí)現(xiàn)SQL查詢分析。Flink提供高吞吐量、低延遲的流數(shù)據(jù)引擎以及對(duì)“事件-時(shí)間”Flink應(yīng)用程序在發(fā)生機(jī)器故障時(shí)exactly-onceJava、ScalaPython和SQL代算法的執(zhí)行。TezDAGDAG于原始的MapReduce可以一次MapreduceIOIO和網(wǎng)絡(luò)IO，相對(duì)MapReduce，使用TEZ做計(jì)算引擎性能能提高很多。SparkSparkSparkSQLMLlibSpark支持豐富的編程語言如：Scala、Python、R、Java等等。PrestoSQL查詢引擎，適用于交互式分析查GBPB字節(jié)。Presto的設(shè)計(jì)和編寫主要是為了解決PBPresto支持多種數(shù)據(jù)源，比如Accumulo，HDFS，Redis，PostgreSQL，MySQLJOIN查詢。二、應(yīng)用情況（一）平臺(tái)建設(shè)應(yīng)用情況技術(shù)平臺(tái)上云情況金融業(yè)海量數(shù)據(jù)處理平臺(tái)上云已經(jīng)成為一個(gè)不可逆轉(zhuǎn)的趨勢(shì)。這一趨勢(shì)的出現(xiàn)主要是由于云計(jì)算技術(shù)的不斷發(fā)展和進(jìn)步，理數(shù)據(jù)處理平臺(tái)。網(wǎng)絡(luò)等資源進(jìn)行虛擬化，以提高資源利用率和管理效率。云平臺(tái)上，以實(shí)現(xiàn)更高效、靈活和低成本的數(shù)據(jù)管理和處理。多個(gè)不同的云平臺(tái)上，以實(shí)現(xiàn)更好的容災(zāi)、備份和安全性。1所示：表1云化部署的范圍序號(hào)名稱觀點(diǎn)內(nèi)容1淺上云僅將非核心或外圍系統(tǒng)遷移到私有云，核心系統(tǒng)仍采用物理機(jī)部署2核心上云將核心系統(tǒng)都遷移到私有云3以云為主保留部分傳統(tǒng)物理機(jī)部署，但將大部分業(yè)務(wù)遷移至私有云平臺(tái)，并借助云平臺(tái)提供的技術(shù)創(chuàng)新推動(dòng)業(yè)務(wù)發(fā)展4深上云將所有業(yè)務(wù)遷移到私有云平臺(tái)，借助云平臺(tái)提供的先進(jìn)技術(shù)推動(dòng)業(yè)務(wù)深度創(chuàng)新技術(shù)平臺(tái)規(guī)模情況2所示：2序號(hào)指標(biāo)指標(biāo)解釋1數(shù)據(jù)規(guī)模海量數(shù)據(jù)具有非常大的數(shù)據(jù)量，通常以TB甚至PB2數(shù)據(jù)速度海量數(shù)據(jù)的產(chǎn)生和接收速度極快，需要實(shí)時(shí)處理和分析3數(shù)據(jù)多樣性海量數(shù)據(jù)包括各種類型的數(shù)據(jù)，如結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、實(shí)時(shí)數(shù)據(jù)等4數(shù)據(jù)價(jià)值為金融企業(yè)提供更好的業(yè)務(wù)決策支持此，金融業(yè)海量數(shù)據(jù)處理平臺(tái)一般采用多樣化的技術(shù)棧構(gòu)建。量?jī)蓚€(gè)主要維度來判斷一個(gè)組織的海量數(shù)據(jù)規(guī)模。有大行（工商銀行、中國(guó)銀行、建設(shè)銀行等）80002023100002000臺(tái)。在單集群節(jié)點(diǎn)規(guī)模方面，Hadoop集群已有超過2000臺(tái)，MPPDB50080PB。這些數(shù)據(jù)反映了金融行業(yè)海量數(shù)據(jù)處理平臺(tái)的規(guī)模和實(shí)力，以及金融行業(yè)在數(shù)據(jù)處理方面的挑戰(zhàn)和發(fā)展趨勢(shì)。研發(fā)運(yùn)營(yíng)一體化應(yīng)用情況DataOps2014年由國(guó)外學(xué)者提出，隨后業(yè)界2018年DataOps正式被納入Gartner的數(shù)據(jù)管理技術(shù)成熟度曲線當(dāng)中，由此進(jìn)入了國(guó)際的視野當(dāng)中。2022DataOps能力標(biāo)準(zhǔn)工作組，DataOps3所示：3DataOps機(jī)構(gòu)定義GartnerDataOps織的數(shù)據(jù)管理者和消費(fèi)者之間的溝通、整合和數(shù)據(jù)流的自動(dòng)化IBMIBM將DataOps定義為DataOps維基百科DataOps的數(shù)據(jù)觀點(diǎn)與敏捷軟件工程中的自動(dòng)化和方法相結(jié)合，以DataOps一致性。（二）技術(shù)應(yīng)用情況存儲(chǔ)技術(shù)應(yīng)用情況的存儲(chǔ)選型，它們各自有不同的應(yīng)用情況：HDFS用于存儲(chǔ)大規(guī)模數(shù)據(jù)的分布式文件系統(tǒng)。它將數(shù)據(jù)劃HDFSMapReduce對(duì)象存儲(chǔ)：對(duì)象存儲(chǔ)是一種數(shù)據(jù)存儲(chǔ)模型，將數(shù)據(jù)存儲(chǔ)為（API進(jìn)行訪問。這種存儲(chǔ)方式不僅適合存儲(chǔ)傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)，也適用存儲(chǔ)大規(guī)模的半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)，如圖像、音頻、案包括AmazonS3、AzureBlobStorage等。HDFSHadoop技計(jì)算技術(shù)應(yīng)用情況Hive/SparkFlink式分析引擎Presto。ApacheSparkSpark批處RDD（ResilientDistributedAPI。ApacheFlinkSpark專FlinkFlinkPrestoSQL查詢引擎，專注于實(shí)時(shí)分Presto適用于數(shù)據(jù)探BIHive/SparkFlink實(shí)時(shí)風(fēng)控等場(chǎng)景中，Presto應(yīng)用于面向數(shù)據(jù)分析師的數(shù)據(jù)探索業(yè)務(wù)，以及BI報(bào)表對(duì)應(yīng)。ClickHouseMPPDB等。HBaseHBaseHBase快速存取、隨機(jī)讀寫的場(chǎng)景。融行業(yè)越來越受到重視。ElasticsearchApacheLuceneElasticsearch的（AML）和客戶ClickHouseSQLSQL作為查詢語SQLSQLMPPDBMPPDB各類計(jì)算與存儲(chǔ)一體的數(shù)據(jù)庫技術(shù)都在金融業(yè)不同的場(chǎng)景中發(fā)揮著重要作用，如：廣泛應(yīng)用于金融機(jī)構(gòu)的明細(xì)高并（ClickHouse應(yīng)SQL數(shù)據(jù)湖倉技術(shù)應(yīng)用情況（Data（DataWarehouse）兩種數(shù)據(jù)存儲(chǔ)和管理模式結(jié)合起來的方法，旨在實(shí)Iceberg和Hudi（HadoopUpsertsDeletesandLakehouseHudi或Iceberg等從而實(shí)現(xiàn)更智能的決策制定和業(yè)務(wù)創(chuàng)新。推移，湖倉一體將逐步成為金融行業(yè)的主流形態(tài)。數(shù)據(jù)架構(gòu)應(yīng)用情況據(jù)需求。做了數(shù)據(jù)分層。典型的數(shù)據(jù)分層如下：理。撐快速查詢和報(bào)告。應(yīng)用層：為終端用戶或者應(yīng)用系統(tǒng)提供數(shù)據(jù)訪問服API接口。建，如HadoopDeltaLake或AWSS3MPPDB于高并發(fā)的OLAP數(shù)據(jù)庫和各類大數(shù)據(jù)技術(shù)組件比如HBase、ElasticSearh、Redis等構(gòu)建。領(lǐng)先的金融機(jī)構(gòu)已經(jīng)實(shí)現(xiàn)完全基于開放大數(shù)據(jù)技術(shù)棧來構(gòu)建整個(gè)數(shù)據(jù)架構(gòu)，從而確保數(shù)據(jù)處理的高效、靈活和可擴(kuò)展性。三、主要挑戰(zhàn)（一）數(shù)據(jù)存儲(chǔ)的挑戰(zhàn)方面：的數(shù)據(jù)存儲(chǔ)和處理需求。題。后極可能會(huì)出現(xiàn)I/O瓶頸，影響系統(tǒng)性能。必須具備故障恢復(fù)機(jī)制，以防止數(shù)據(jù)丟失或業(yè)務(wù)中斷。（二）數(shù)據(jù)計(jì)算的挑戰(zhàn)PB平臺(tái)上高效地存儲(chǔ)、查詢、分析和處理各種類型的數(shù)據(jù)。SQL運(yùn)維成本。（三）云化計(jì)算的挑戰(zhàn)因此最近幾年許多金融機(jī)構(gòu)紛紛擁抱云原生計(jì)算并逐步開展了降低成本。力聚焦在業(yè)務(wù)和數(shù)據(jù)上即可。Kubernetes目前一些國(guó)內(nèi)主流的大型云廠商都會(huì)提供相對(duì)應(yīng)的學(xué)習(xí)路徑和外部組織的力量，以平穩(wěn)可靠地實(shí)現(xiàn)過渡與改造。（四）融合計(jì)算的挑戰(zhàn)術(shù)也面臨一些問題和挑戰(zhàn)：一是異構(gòu)數(shù)據(jù)源處理，金融數(shù)據(jù)通常來自多個(gè)異構(gòu)數(shù)據(jù)源，（SparkHivePresto計(jì)算效率和準(zhǔn)確性。才熟悉融合計(jì)算的技術(shù)和最佳實(shí)踐，以便有效地管理和操作。融合計(jì)算的技術(shù)和理念幫助組織解決海量數(shù)據(jù)計(jì)算過程中的一些挑戰(zhàn)，并取得了很好的效果。（五）研發(fā)運(yùn)營(yíng)一體化的挑戰(zhàn)數(shù)據(jù)研發(fā)運(yùn)營(yíng)一體化（DataOps）金融應(yīng)用的優(yōu)勢(shì)。數(shù)據(jù)研發(fā)運(yùn)營(yíng)一體化（DataOps），通過對(duì)數(shù)據(jù)相關(guān)人員、常明顯，對(duì)于金融行業(yè)來說至少帶來以下三點(diǎn)改善：一是采用DataOps利用數(shù)據(jù)資產(chǎn)。時(shí)處理問題。DataOps候這種運(yùn)營(yíng)體系的優(yōu)越性更為明顯。數(shù)據(jù)研發(fā)運(yùn)營(yíng)一體化（DataOps）金融應(yīng)用的問題。盡管數(shù)據(jù)研發(fā)運(yùn)營(yíng)一體化可以為金融業(yè)帶來許多的便捷和到落地?cái)?shù)據(jù)研發(fā)運(yùn)營(yíng)一體化帶來的金融科技進(jìn)步，問題如下：要面臨的首要問題。DataOps數(shù)據(jù)運(yùn)營(yíng)過程?；ぞ叩淖饔谩ataOpsIT供應(yīng)商企業(yè)組織、思維以及人才的變革與進(jìn)步。四、關(guān)鍵技術(shù)與建設(shè)思路（一）云數(shù)一體化建設(shè)思路隨著大數(shù)據(jù)使用場(chǎng)景的不斷豐富，數(shù)據(jù)使用強(qiáng)度逐步加深，——服務(wù)器?！扒岸恕?wù)端—數(shù)據(jù)庫跨系統(tǒng)API值。云的價(jià)值和意義2030357際的物理可靠性早已無法滿足商業(yè)生產(chǎn)的要求。DevOps展變化等挑戰(zhàn)。無需再將精力浪費(fèi)在硬件異常的處理。早期設(shè)計(jì)的海量數(shù)據(jù)處理技術(shù)為何不上云一次封裝和管理。絡(luò)，以此節(jié)約網(wǎng)絡(luò)帶寬。成為一種通用做法。源浪費(fèi)情況。海量數(shù)據(jù)處理平臺(tái)的新挑戰(zhàn)云數(shù)一體化助力構(gòu)建了數(shù)據(jù)即服務(wù)（DataasaService）的理念，海量數(shù)據(jù)處理平臺(tái)迎來了更好的整體解決方案。首先，而不再有物理硬件方面的阻礙。才可被后續(xù)處理。MapReduce引擎被繼TEZ逐步替代，SparkFlink經(jīng)典的大數(shù)據(jù)架構(gòu)產(chǎn)品設(shè)計(jì)上很難完成版本間兼容，例如Spark2.X與Spark3.X要一種基于云的全局彈性調(diào)度能力。提高計(jì)算資源的利用效率。從而全部數(shù)據(jù)應(yīng)用推倒重來的窘困局面。據(jù)一致性。完成修復(fù)的過程仍舊是需要大數(shù)據(jù)近乎全部的技術(shù)知識(shí)體系才大數(shù)據(jù)的用戶可以將最大的精力關(guān)注在數(shù)據(jù)價(jià)值挖掘和利用方面等更有價(jià)值的地方，而非糾結(jié)于大數(shù)據(jù)平臺(tái)運(yùn)維。實(shí)現(xiàn)云和數(shù)的一體化據(jù)技術(shù)發(fā)展趨勢(shì)。Spark、Flink、Presto等，屏蔽底層各3所示：圖3典型的云原生大數(shù)據(jù)底座架構(gòu)保證在線服務(wù)質(zhì)量的同時(shí)，盡可能提升資源利用率?？蛻舳丝梢酝该鞯卦L問統(tǒng)一名稱空間內(nèi)的不同路徑對(duì)應(yīng)的存儲(chǔ)IO任何底層存儲(chǔ)系統(tǒng)中的數(shù)據(jù)，并能夠帶來顯著的性能提升。業(yè)務(wù)應(yīng)用價(jià)值利用數(shù)據(jù)，其業(yè)務(wù)應(yīng)用價(jià)值主要體現(xiàn)在以下幾方面：數(shù)據(jù)服務(wù)化。通過云原生及多租戶技術(shù)，實(shí)現(xiàn)跨數(shù)據(jù)更大且更靈活的規(guī)模。早期的數(shù)據(jù)處理技術(shù)棧，當(dāng)集200800要配置31200節(jié)點(diǎn)以上時(shí)，降本增效。如前文所述，一般的數(shù)據(jù)處理平臺(tái)雖然具技術(shù)示例技術(shù)融合。整個(gè)技術(shù)融合分為以下三大部分：心能力，包括各類計(jì)算引擎和框架，工作流調(diào)度等等。AI（二）存算分離化建設(shè)思路“不確定性”Hive發(fā)展到Spark從Spark1.xSpark3.x，相比于最初的框架的能力，整體“算引擎統(tǒng)一調(diào)度”HDFS成對(duì)數(shù)據(jù)的有效管理，避免出現(xiàn)數(shù)據(jù)碎片化與數(shù)據(jù)沼澤?！盎ハ嘀g的標(biāo)準(zhǔn)兼容”為4所示：圖4海量數(shù)據(jù)處理技術(shù)之存算分離架構(gòu)捷、池化、彈性、低成本等優(yōu)勢(shì)能力。Hadoop為主的存算一體集群，也可以部署以對(duì)象存儲(chǔ)為主的存SparkFlinkPrestoIceberg儲(chǔ)構(gòu)建了橋梁，可以大幅提升數(shù)據(jù)計(jì)算的性能。業(yè)務(wù)應(yīng)用價(jià)值/持續(xù)迭代的海量數(shù)據(jù)處理平臺(tái)。無論是橫向不同業(yè)務(wù)統(tǒng)一的存儲(chǔ)，靈活地計(jì)算，一體化的數(shù)據(jù)開發(fā)和治理工具，快速滿足業(yè)務(wù)需求的同時(shí)，避免碎片化。成本最優(yōu)解。避免了重復(fù)建設(shè)、循環(huán)建設(shè)，以類似可實(shí)現(xiàn)“數(shù)據(jù)開發(fā)與治理”數(shù)據(jù)處理平臺(tái)，持續(xù)動(dòng)態(tài)地滿足業(yè)務(wù)需求。技術(shù)示例控層。其中，統(tǒng)一管控實(shí)現(xiàn)全局資源管理、權(quán)限管理、用戶管理、即可適應(yīng)新架構(gòu)的平臺(tái)。距增大的挑戰(zhàn)——現(xiàn)所謂“數(shù)據(jù)本地化”HDFSNameNodeSSDHDD近乎內(nèi)存的速度支持計(jì)算任務(wù)的高效使用。組件Alluxio能夠用作分布式共享緩存服務(wù)，這樣與Alluxio通信的計(jì)算應(yīng)用程序可以透明地緩存頻繁訪問（尤其是從遠(yuǎn)程位置I/OAlluxio（如列出目錄和重命名AlluxioAlluxio不是從底層云存儲(chǔ)或?qū)ο蟠鎯?chǔ)中檢索讀取。三是簡(jiǎn)化數(shù)據(jù)管理：Alluxio提供對(duì)多數(shù)據(jù)源的單點(diǎn)訪問。還允許用戶同時(shí)連接（三）數(shù)據(jù)湖倉化建設(shè)思路schema，數(shù)據(jù)湖也不會(huì)將特定的schema時(shí)候解析schema，當(dāng)處理相應(yīng)的數(shù)據(jù)時(shí)，將轉(zhuǎn)換施加其上。相導(dǎo)入到目標(biāo)表中。在數(shù)據(jù)倉庫中，數(shù)據(jù)存儲(chǔ)的結(jié)構(gòu)與其定義的schema是強(qiáng)匹配的。問題：提供SQL習(xí)系統(tǒng)。此外，使用SQL和緩慢，這使得與其他技術(shù)的集成變得非常困難。多關(guān)于ML系統(tǒng)，如TensorFlowPyTorch和XGBoost，能夠很好地在倉庫BI非SQL商建議將數(shù)據(jù)導(dǎo)出到文件中，這進(jìn)一步增加了系統(tǒng)的復(fù)雜性。90%的數(shù)據(jù)存ETLBI應(yīng)用。這種雙系統(tǒng)架構(gòu)需要對(duì)數(shù)據(jù)湖和數(shù)據(jù)倉庫之間的ETLETL步驟都有可能ETL支付費(fèi)用外，用戶還要為復(fù)制到倉庫的數(shù)據(jù)支付兩倍的存儲(chǔ)成本。Lakehouse技術(shù)可以有效解決以上三個(gè)問題，具體如下：一是Lakehouse技術(shù)使得海量數(shù)據(jù)處理技術(shù)所構(gòu)成的平臺(tái)來更多的便利。二是Lakehouse余。正因?yàn)閷?shù)據(jù)倉庫構(gòu)建在數(shù)據(jù)湖之上，數(shù)據(jù)湖采用的Parquet、ORC件和集群化部署等優(yōu)勢(shì)，均會(huì)在數(shù)據(jù)湖倉上得到體現(xiàn)。三是Lakehouse等等。數(shù)據(jù)湖倉可以根據(jù)應(yīng)用的需求為絕大多數(shù)的數(shù)據(jù)施加業(yè)務(wù)應(yīng)用價(jià)值及統(tǒng)一管控等湖倉融合特性。通過構(gòu)建數(shù)據(jù)湖倉Lakehouse，不同角色的用戶可以基于統(tǒng)一的數(shù)據(jù)平臺(tái)簡(jiǎn)化整體的數(shù)據(jù)存儲(chǔ)、計(jì)算、管理的流程和需求。數(shù)據(jù)湖倉也可以拆除湖與倉庫之間的壁壘，無論是全局視角，還是利用存算分離技術(shù)與數(shù)據(jù)網(wǎng)格的架構(gòu)方式，實(shí)現(xiàn)在滿足不同使現(xiàn)數(shù)據(jù)利用的最大價(jià)值。數(shù)據(jù)湖倉化主要的業(yè)務(wù)應(yīng)用價(jià)值如下：Lakehouse的架構(gòu)Lakehouse其他關(guān)鍵管理元素等。Lakehouse數(shù)據(jù)緩存加速層優(yōu)化存儲(chǔ)資源與計(jì)算資源極度不均衡時(shí)帶來的技術(shù)示例數(shù)據(jù)湖倉LakehouseIoT的任務(wù)流程和數(shù)據(jù)關(guān)聯(lián)與流轉(zhuǎn)，最終發(fā)揮數(shù)據(jù)的價(jià)值。DBMS的優(yōu)點(diǎn)。一方面，湖倉架構(gòu)提供低成本的彈性存儲(chǔ)，支持存儲(chǔ)各類數(shù)據(jù)格式；另一方面，湖倉架構(gòu)也提供ACID（Atomicity原子性，ConsistencyIsolation隔離性，Durability持久性）Iceberg在設(shè)計(jì)之初的目標(biāo)就是提供一個(gè)開放通用表格式(TableFormat)來實(shí)現(xiàn)湖倉一體的方案。(FlinkSpark...)都可以接入Iceberg基于IcebergIceberg同時(shí)提供了流//鏈路。IcebergSQL的方式進(jìn)行表級(jí)別模式演進(jìn)，即：數(shù)據(jù)表演化(TableEvolution)，進(jìn)行這些操作的時(shí)候，Hive中，如果我們需要把一個(gè)按天分區(qū)Insert到新的小時(shí)分Rename的命令把新表的名字改為原修改SQL，這樣花費(fèi)的經(jīng)歷是非常繁瑣的。Iceberg一是分區(qū)演化(PartitionEvolution)Iceberg可以在一個(gè)Iceberg的查詢流程并不和分區(qū)信策略相互獨(dú)立，不重合。得益于Iceberg的隱藏分區(qū)(HiddenSQLSQL中特別指定分區(qū)過濾條件，IcebergIceberg二是列順序演化(SortOrderEvolution)。Iceberg可以在Iceberg里寫數(shù)據(jù)的計(jì)算引擎總是會(huì)選擇最新的排序策略，但是當(dāng)排序的代價(jià)極其高昂的時(shí)候，就不進(jìn)行排序了。三是隱藏分區(qū)(HiddenPartition)。Iceberg的分區(qū)信息并Hive的分區(qū)字段/（通過某一個(gè)字段計(jì)算出來Iceberg的分Iceberg的表分區(qū)可以被修改，而且不會(huì)涉及數(shù)據(jù)遷移。四是鏡像數(shù)據(jù)查詢(TimeTravel)。Iceberg提供了查詢表歷史某一時(shí)間點(diǎn)數(shù)據(jù)鏡像(snapshot)SQL邏輯，應(yīng)用到歷史數(shù)據(jù)上。五是支持事務(wù)(ACID)Iceberg通過提供事務(wù)(ACID)的機(jī)制，upsert的能力并且使得邊寫邊讀成為可能，從而數(shù)費(fèi)已commit的數(shù)據(jù)，而不會(huì)讀到部分甚至未提交的數(shù)據(jù)。Iceberg個(gè)程序并發(fā)寫入的能力并且保證數(shù)據(jù)線性一致。IcebergCountSQL（四）計(jì)算融合化建設(shè)思路建設(shè)思路具體如下：語法自適應(yīng)（執(zhí)行Presto、LivyHveFlnkMySQLPosgrSQL、HiveSparkSQL/LivyOraclePhoenixHBase)ElasticSearch、KylinClickHouseDruidPresto所使用的SQLSQLSQL兼容轉(zhuǎn)換SQLSQL語SQL語法，自動(dòng)適配不同計(jì)算引擎和數(shù)據(jù)源語法。顧名思義，SQL兼容轉(zhuǎn)換功能SQLSQL轉(zhuǎn)換。SQLSQLSQLSQLSQL語法分為兩大類即通用型（SQLSparkHiveFlink等大數(shù)據(jù)查詢語法（SQL（SQL轉(zhuǎn)換SQL（如SparkHiveSQLSQL定引擎。SQL轉(zhuǎn)換：SQL選擇功能奠定基石。SQLSQL擎的切換，并且盡量最小程度地更改用戶的使用習(xí)慣。通過SQLSQL平臺(tái)組件，降低大數(shù)據(jù)系統(tǒng)使用的門檻和繁瑣程度。引擎選擇自適應(yīng)（PrestoSpark等（（CPU。傳統(tǒng)基于RBO/CBO的SQL（History-BasedHBO目標(biāo)是分SQLHBO（非取代RBO/CBO動(dòng)學(xué)習(xí)SQLHBO和機(jī)器學(xué)（即錯(cuò)誤選擇引擎后執(zhí)行失敗SQLSQLHBO戶SQLHBO優(yōu)化的四個(gè)串行階段?；谝孢x擇（SQL優(yōu)化）HBO耗時(shí)必須控制在毫秒級(jí)。SQL語句（DQL/DML），Signature，QS）字段。SQL文本的“濃縮”表示，包含SQL（Filter/Join/GroupBy/Orderby）QS來匹配判斷當(dāng)前用戶SQL與哪些歷史SQL“HBO等價(jià)”SQL的執(zhí)行特征，來決定當(dāng)前SQL是否應(yīng)選某類引擎執(zhí)行。索引寬表：HBOSQL，從歷史流SQLHBO索引寬表來解決檢索的實(shí)時(shí)性能問shuffle歷史檢索：基于查詢簽名的完全匹配（exactmatch），調(diào)REST（如一周內(nèi)API（平均100ms）。選擇使用的某類計(jì)算引擎來執(zhí)行。計(jì)算運(yùn)行時(shí)自適應(yīng)以Presto的MPPCPU/內(nèi)存/CPU/（算力是隨Presto的原生任務(wù)調(diào)度策略并未將節(jié)點(diǎn)的算力考Presto做了針對(duì)性的優(yōu)化，Presto自適應(yīng)任務(wù)調(diào)度主要分為：TaskSplit自適應(yīng)調(diào)度，方案實(shí)Split和Task。PrestoCoordiantorWorker節(jié)點(diǎn)的算力變化情況，同時(shí)計(jì)算出對(duì)應(yīng)的節(jié)點(diǎn)可用算力權(quán)重，在TaskSplit計(jì)算出相應(yīng)的WorkerTask或SplitTaskSplit長(zhǎng)尾問題，從而做到自適應(yīng)的調(diào)度。TaskCPU5的執(zhí)行時(shí)間波動(dòng)很大。5Task在開啟自適應(yīng)調(diào)度后，TaskCPU6的執(zhí)行時(shí)間更加均衡，避免長(zhǎng)尾問題影響整個(gè)計(jì)算任務(wù)的性能。6Task資源自適應(yīng)資源管理的角度，多集群會(huì)帶來諸多問題：載不均衡的問題；透明化。K8S數(shù)據(jù)編排自適應(yīng)COS、HDFS、Ceph、Ozone等。面向異構(gòu)化的存統(tǒng)一的存儲(chǔ)Master節(jié)點(diǎn)（例如HDFSNameNode）極大壓力，造成性能抖動(dòng)。數(shù)據(jù)編排層會(huì)自適應(yīng)緩存存儲(chǔ)元數(shù)據(jù)，以及自動(dòng)小文件合并，減輕MasterDC數(shù)據(jù)訪問時(shí)，加速元數(shù)據(jù)訪問，提升數(shù)據(jù)訪問速度。業(yè)務(wù)應(yīng)用價(jià)值程中的計(jì)算融合化，其業(yè)務(wù)應(yīng)用價(jià)值如下：語法自適應(yīng)：統(tǒng)一不同的計(jì)算入口，自動(dòng)適配不同的SQL語法和標(biāo)準(zhǔn)，降低大數(shù)據(jù)系統(tǒng)使用門檻。SQL現(xiàn)SQL計(jì)算性能，降低失敗率。計(jì)算運(yùn)行時(shí)自適應(yīng)：根據(jù)運(yùn)行時(shí)狀態(tài)和信息反饋，動(dòng)資源自適應(yīng)：統(tǒng)一資源管理，屏蔽各類資源的性能差數(shù)據(jù)編排自適應(yīng)：實(shí)現(xiàn)不同異構(gòu)存儲(chǔ)場(chǎng)景下的存儲(chǔ)加場(chǎng)景架構(gòu)自適應(yīng)：適配多云混合架構(gòu)，實(shí)現(xiàn)最優(yōu)的跨集群、跨DC、跨云計(jì)算路由，打通數(shù)據(jù)鏈路，解決數(shù)據(jù)孤島。技術(shù)示例引擎層、計(jì)算層、資源層、數(shù)據(jù)編排層。通用SQLSQL法做出SQL算參數(shù)調(diào)優(yōu)等重要決策，從而影響整個(gè)計(jì)算的生命周期。Spark負(fù)責(zé)ETL負(fù)責(zé)SQL特點(diǎn)和使用場(chǎng)景選擇最佳的計(jì)算引擎。為了保證計(jì)算在不同架構(gòu)下的計(jì)算穩(wěn)定性，RemoteShuffleShuffle服務(wù)，實(shí)現(xiàn)計(jì)算執(zhí)行拓?fù)渥赃m應(yīng)。資源整體利用率。加速數(shù)據(jù)訪問性能，提升集群穩(wěn)定性。（五）研發(fā)運(yùn)營(yíng)一體化建設(shè)思路在數(shù)據(jù)驅(qū)動(dòng)的大背景下，組織內(nèi)的數(shù)據(jù)意識(shí)已經(jīng)逐漸成熟，（以下稱為DataOps）DataOps4所示：4DataOps序號(hào)名稱要求1組織數(shù)據(jù)思維納入組織通識(shí)教育，專注于效能與協(xié)同的崗位，決策層的戰(zhàn)略支持。2流程3工具DataOpsDataops概念意義、明確DataOpsDataOpsDataOps的建設(shè)方法；三是以評(píng)促建，通過自評(píng)或三方評(píng)估的方式，對(duì)DataOps能力查缺補(bǔ)漏。DataOps3個(gè)層次7示：7DataOpsDataOps35所示：5DataOps層次名稱說明基礎(chǔ)層多環(huán)境（集群）管理在基礎(chǔ)層支持多環(huán)境多集群管理，支持一套統(tǒng)一的MPP提供統(tǒng)一的開發(fā)與應(yīng)用體驗(yàn)，具備跨云部署以及對(duì)跨云EMR（引擎）實(shí)現(xiàn)代碼及相關(guān)資源的無縫發(fā)布。開發(fā)層發(fā)44治理層管理治理層主要包括統(tǒng)一元數(shù)據(jù)及質(zhì)量管理兩塊能力，細(xì)分下還包括全域血緣打通、資產(chǎn)分析、質(zhì)量管理等。46所示：6DataOps4能力項(xiàng)說明統(tǒng)一調(diào)度編排統(tǒng)一監(jiān)控/告警API話告警等。安全保障主要包括系統(tǒng)安全、數(shù)據(jù)安全、安全審計(jì)等。團(tuán)隊(duì)協(xié)作責(zé)任人機(jī)制、鎖機(jī)制、用戶組。業(yè)務(wù)應(yīng)用價(jià)值的DataOpsCI/CD主要核心業(yè)務(wù)應(yīng)用價(jià)值如下：協(xié)同，圍繞數(shù)據(jù)價(jià)值鏈基于協(xié)作空間使數(shù)據(jù)團(tuán)隊(duì)不同作，無需多平臺(tái)多工具間來回切換。DataOps協(xié)作。DataOps升數(shù)據(jù)可靠性，加快數(shù)據(jù)生產(chǎn)和分析鏈路效率。視化圖拉拽方式進(jìn)行流程設(shè)計(jì)，快速易用支持業(yè)務(wù)開發(fā)。編排后開發(fā)。高性能可擴(kuò)展：高性能調(diào)度引擎，支持日千萬級(jí)任務(wù)調(diào)度，JDBC接口的引擎。一體，服務(wù)企業(yè)數(shù)據(jù)管理、數(shù)據(jù)生產(chǎn)、數(shù)據(jù)應(yīng)用、數(shù)據(jù)運(yùn)營(yíng)多個(gè)角色，給予不同視角一體化的產(chǎn)品體驗(yàn)。和成本分析以及數(shù)據(jù)流通安全管控為數(shù)據(jù)的生產(chǎn)和消費(fèi)提供有力的質(zhì)量和安全保障。質(zhì)量，貫穿事前中后的數(shù)據(jù)質(zhì)量控制，融入DataOps管道式開發(fā)流程，全面保障數(shù)據(jù)質(zhì)量提升。數(shù)據(jù)任務(wù)/工作流提交版本前要求通過在線調(diào)試，在線調(diào)試會(huì)自動(dòng)拉起數(shù)據(jù)表對(duì)應(yīng)的質(zhì)量監(jiān)控任務(wù)。敏捷數(shù)倉建模工具在數(shù)據(jù)建模時(shí)支持直接引用事前定義好的數(shù)據(jù)標(biāo)準(zhǔn)，在源頭上做到落標(biāo)。置零容忍閾值來做到貫標(biāo)。技術(shù)示例數(shù)據(jù)研發(fā)運(yùn)營(yíng)一體化（DataOps）：是數(shù)據(jù)開發(fā)的新范式，將敏捷、精益等理念融入數(shù)據(jù)開發(fā)過程，通過對(duì)數(shù)據(jù)相關(guān)人員、量，實(shí)現(xiàn)高質(zhì)量數(shù)字化發(fā)展。其技術(shù)能力實(shí)現(xiàn)框架示例如下：研發(fā)管理理一體化能力，提升數(shù)據(jù)產(chǎn)品交付質(zhì)量。一是強(qiáng)化需求評(píng)價(jià)，明確數(shù)據(jù)需求內(nèi)容，降低溝通成本。二是通過“”標(biāo)準(zhǔn)、質(zhì)量的設(shè)計(jì)。開發(fā)任務(wù)鏈中嵌入數(shù)據(jù)質(zhì)量稽核能力，及時(shí)解決質(zhì)量問題。自主探查，緩解需求響應(yīng)和交付壓力。交付管理CI/CT/CD自動(dòng)化流水線，提升測(cè)試與部署效率，降低人為風(fēng)險(xiǎn)，提高數(shù)據(jù)交付效率與質(zhì)量。問題。行管理，保證各階段數(shù)據(jù)的實(shí)時(shí)可用性和可驗(yàn)證性。人為操作風(fēng)險(xiǎn)。數(shù)據(jù)運(yùn)維況等進(jìn)行時(shí)刻監(jiān)控預(yù)警。理分配相關(guān)資源，優(yōu)化運(yùn)維成本。變更場(chǎng)景。效率。平臺(tái)配置情況進(jìn)行調(diào)優(yōu)，不斷提升開發(fā)流水線性能。價(jià)值運(yùn)營(yíng)效。投入，識(shí)別并減少浪費(fèi)。挖問題源頭并持續(xù)改進(jìn)。系統(tǒng)工具DataOps“”則。CI/CT/CD能力，支撐自動(dòng)化的測(cè)試流水線與部署流水線功能，能夠?qū)Υa和數(shù)據(jù)進(jìn)行版本控制。示等形式實(shí)時(shí)展現(xiàn)研發(fā)效能、質(zhì)量等信息。功能。組織管理規(guī)劃，借助敏捷方法持續(xù)優(yōu)化人員、工具的協(xié)同水平。一是合理配置企業(yè)內(nèi)部的數(shù)據(jù)技術(shù)架構(gòu)、數(shù)據(jù)人員架構(gòu)。二是設(shè)置相應(yīng)的崗位角色，明確晉升路線與考核方式。持續(xù)進(jìn)行優(yōu)化。安全管理在安全管控方面，構(gòu)建完善細(xì)致的安全風(fēng)險(xiǎn)管理體系，并在DataOps各個(gè)環(huán)節(jié)中全面嵌入安全屏障。一是加強(qiáng)對(duì)數(shù)據(jù)研發(fā)全生命周期中的風(fēng)險(xiǎn)識(shí)別，風(fēng)險(xiǎn)預(yù)測(cè)。提前制定風(fēng)險(xiǎn)預(yù)案，將風(fēng)險(xiǎn)的影響持續(xù)降低。全風(fēng)險(xiǎn)管理策略并不斷更新完善。問題、處理問題。五、發(fā)展趨勢(shì)和展望評(píng)估風(fēng)險(xiǎn)和發(fā)現(xiàn)投資機(jī)會(huì)，這將幫助投資者做出更明智的決策，（一）生成式人工智能驅(qū)動(dòng)數(shù)據(jù)技術(shù)方面解決方案。模型和生成對(duì)抗網(wǎng)絡(luò)是生成式人工智能的代表性模型。數(shù)據(jù)增強(qiáng)與樣本生成數(shù)據(jù)清洗和修復(fù)數(shù)據(jù)質(zhì)量是影響人工智能模型性能的一個(gè)重要因素。然而，現(xiàn)實(shí)中的數(shù)據(jù)往往會(huì)受到噪聲、缺失或錯(cuò)誤等問題的影響。生成式人工智能為數(shù)據(jù)清洗和修復(fù)提供了新的解決思路。術(shù)在提高文本數(shù)據(jù)質(zhì)量和減輕數(shù)據(jù)預(yù)處理負(fù)擔(dān)方面具有巨大潛力。數(shù)據(jù)合成與擴(kuò)充成合成數(shù)據(jù)，以替代真實(shí)數(shù)據(jù)進(jìn)行模型訓(xùn)練或測(cè)試。真實(shí)道路測(cè)試，從而降低了測(cè)試成本和風(fēng)險(xiǎn)。自動(dòng)數(shù)據(jù)標(biāo)注方案。生成數(shù)據(jù)模型與查詢語句通過接入最全面的企業(yè)內(nèi)部數(shù)據(jù)源及數(shù)據(jù)資產(chǎn)元數(shù)據(jù)目錄，內(nèi)部數(shù)據(jù)模型由提示詞驅(qū)動(dòng)AIGC（ArtificialIntelligenceGeneratedLanguage（二）實(shí)時(shí)數(shù)據(jù)湖倉方面ETLLakehouseOLAP組件近期紛紛加入湖倉StarRocksOLAPLakehouse分析，8所示：圖8實(shí)時(shí)湖倉架構(gòu)圖FlinkETL數(shù)據(jù)ETL始數(shù)據(jù)經(jīng)過Extract到達(dá)數(shù)倉貼源層(OperationDataStore，ODS)，Transform轉(zhuǎn)換成數(shù)據(jù)明細(xì)層（DataWarehouseLoad到數(shù)倉服務(wù)層(DataWarehouseSummary，DWS)BI使用?；贔link構(gòu)建大數(shù)據(jù)實(shí)時(shí)鏈路是業(yè)界應(yīng)用最為廣泛的方案之一，2023年SIGMODFlink已經(jīng)證明。Iceberg的Lakehouse2020Lakehouselicense在當(dāng)時(shí)都是最適合應(yīng)用的一個(gè)項(xiàng)目。軟件架構(gòu)上：它的核心能力與存儲(chǔ)引擎、計(jì)算引擎解IcebergAPI有多個(gè)基于IcebergFileIOAPI構(gòu)造的存儲(chǔ)支持，其中貢獻(xiàn)到開源社區(qū)的有AWSS3FileIO、DellEcsFileIO、GoogleGCSFileIO、AliyunOSSFileIOCatalog、TableScan等。代碼質(zhì)量方面：基本上它的每一個(gè)PR都是經(jīng)過嚴(yán)格Review，整體UT的覆蓋率也比較高。合規(guī)方面：IcebergApache基金會(huì)，商業(yè)使用上是較為安全的。9IcebergIcebergHive無法繼續(xù)服務(wù)的問題而立項(xiàng)，HiveMetastore背后（ListHDFS或者對(duì)象存儲(chǔ)都有巨大開銷）Iceberg架構(gòu)的元數(shù)據(jù)組織方式（9所示）可以有效地解決這些問題。IcebergMVCC（Multi-VersionConcurrencyControl，MVCC），它在快照中保存了庫表的基礎(chǔ)Manifest(avro格式）記錄和組織了數(shù)snapshotManifestdatafile的組織的Flink流式入湖和流式增量讀取從而實(shí)現(xiàn)流式ETL(Extract,Transform,Load)commit間隔生產(chǎn)快照使得數(shù)據(jù)在較低延遲內(nèi)可見。通過快照ID獲取增量數(shù)據(jù)使得Flink流式增量讀取Iceberg智能湖倉服務(wù)(AutoOptimize)commit可以降低數(shù)據(jù)延遲，但也導(dǎo)致了Iceberg的元數(shù)據(jù)組織方式將元數(shù)據(jù)過多的的(AutoOpimze下面簡(jiǎn)稱排序和重分布等。AO10所示：圖10智能湖倉服務(wù)架構(gòu)圖AOscan,commit,schemachangepropertieschangeMQ,AO消費(fèi)這些事件并讓事件經(jīng)過預(yù)先定義好的一些優(yōu)化規(guī)則生成一些優(yōu)化任務(wù)放到MQtopic并根據(jù)資源、之前類似任務(wù)執(zhí)行效果調(diào)整參數(shù)后下發(fā)任務(wù)到調(diào)度系統(tǒng)?？偟腁O不僅可以持久穩(wěn)定地工作，還能實(shí)現(xiàn)湖倉存儲(chǔ)數(shù)據(jù)的持續(xù)優(yōu)化。更多的湖倉場(chǎng)景展望些過去無法在數(shù)倉上實(shí)現(xiàn)的場(chǎng)景成為可能，例如，全鏈路（ChangeData特征工程等場(chǎng)景?；贐ranch的全鏈路CDCbinlogCDC方式進(jìn)行流式數(shù)據(jù)庫增量同步方能夠捕獲所有數(shù)據(jù)的變化，捕獲完整的變更記錄；2)每次DML（DataManipulationLanguage,DML）操作均有記錄無需發(fā)起全表掃描進(jìn)行過濾，擁有更高的效率和性能，具有低延遲，不增加數(shù)據(jù)庫負(fù)載的優(yōu)勢(shì)；3)無需入CDC方式同另外一種是需要讀取更新前后的數(shù)據(jù)，即changelogfeed模式。根據(jù)不同的消費(fèi)模式有兩種流式寫入方式，一種是通過MergeonRead模式upsert到Iceberg庫表，但是MergeOnRead模式在生成回溯ChangeLogFeed時(shí)性能較為一般。Iceberg從1.2.0版本后開始支持Branch&Tags功能，用戶可以像使用git一樣管理數(shù)據(jù)的版本和分支。未來我們會(huì)使用Branch&TagsCDC寫入和讀取邏輯，（ChangeLogFeed)Branch全鏈路CDC11所示：圖11Branch全鏈路CDC設(shè)計(jì)方案圖多流拼接KVHBaseFlinkJoin功能實(shí)KV引擎實(shí)現(xiàn)多流拼接的主要問題是成本比較大且無法scale而使用FlinkFlink13所示：12（1）13（2）力來執(zhí)行。DeepLake在機(jī)器學(xué)習(xí)領(lǐng)域，DeepLakegit-likeBranch&Tagsfeature14所示：14DeepLake（三）數(shù)據(jù)網(wǎng)格方面數(shù)據(jù)網(wǎng)格便是為了更好地適應(yīng)上述變化形成的一種數(shù)據(jù)架“數(shù)據(jù)自治”游提供符合標(biāo)準(zhǔn)的數(shù)據(jù)產(chǎn)品即可。數(shù)據(jù)網(wǎng)格將之前完全耦合的數(shù)據(jù)平臺(tái)，升級(jí)為以標(biāo)準(zhǔn)進(jìn)行不同數(shù)據(jù)產(chǎn)品銜接的統(tǒng)一數(shù)據(jù)平臺(tái)。類似“流水線”的設(shè)計(jì)將有助于數(shù)據(jù)價(jià)值創(chuàng)新，只要確保數(shù)據(jù)產(chǎn)品之間的“標(biāo)準(zhǔn)”沒有變化，數(shù)據(jù)產(chǎn)品節(jié)點(diǎn)內(nèi)部的創(chuàng)新不會(huì)影響其他數(shù)據(jù)產(chǎn)品，最終避免因一個(gè)小變化卻牽一發(fā)而動(dòng)全身。數(shù)據(jù)碎片化。除此之外，數(shù)據(jù)網(wǎng)格的有效利用也會(huì)帶來下述優(yōu)勢(shì)。在復(fù)雜事件的處理和技術(shù)棧持續(xù)迭代優(yōu)化等任務(wù)。二是，更低的成本與更高的效率。采用分布式的數(shù)據(jù)架構(gòu)，將粗曠的數(shù)據(jù)處理階段精細(xì)化；精細(xì)化的方式，使得我們不再需要等待全局或大流程中的某一個(gè)階段所有的數(shù)據(jù)處理完成后才（四）數(shù)據(jù)編織方面要么需要持續(xù)投入精力確保不同單元之間的數(shù)據(jù)交互可靠與可AIAI以及機(jī)器據(jù)自動(dòng)編排和動(dòng)態(tài)集成，形成動(dòng)態(tài)可持續(xù)的數(shù)據(jù)服務(wù)。這些敏感且高價(jià)值的數(shù)據(jù)。數(shù)據(jù)網(wǎng)格和數(shù)據(jù)編織均提供了跨越多種技術(shù)和平臺(tái)的數(shù)據(jù)據(jù)和數(shù)據(jù)之間、業(yè)務(wù)和數(shù)據(jù)之間的數(shù)據(jù)價(jià)值挖掘與利用。六、實(shí)踐案例（一）中國(guó)工商銀行實(shí)踐案例案例概況全的特點(diǎn)。15所示。15BI運(yùn)營(yíng)工作站提供資源調(diào)配、資源治理、服務(wù)運(yùn)維監(jiān)控服務(wù)。/分鐘保護(hù)解決方案?？氐裙卜?wù)能力。案例成果400關(guān)鍵業(yè)務(wù)領(lǐng)域，如：損益預(yù)查詢業(yè)務(wù)通過大數(shù)據(jù)平臺(tái)批量計(jì)算服務(wù)，大幅10（30分鐘）30輪（15分鐘）。信用卡交易實(shí)時(shí)反欺詐系統(tǒng)基于大數(shù)據(jù)平臺(tái)流計(jì)算服（平均響應(yīng)時(shí)間毫秒級(jí)），實(shí)現(xiàn)了事中風(fēng)險(xiǎn)攔截。法人客戶營(yíng)銷系統(tǒng)使用實(shí)時(shí)數(shù)倉服務(wù)實(shí)時(shí)統(tǒng)計(jì)資金流更好地幫助客戶合理管理資產(chǎn)，拓展新的營(yíng)銷點(diǎn)。能力，不斷為各類決策提供更加實(shí)時(shí)、更加精準(zhǔn)的數(shù)據(jù)支持。經(jīng)驗(yàn)總結(jié)工商銀行大數(shù)據(jù)平臺(tái)在海量數(shù)據(jù)處理中數(shù)據(jù)架構(gòu)、數(shù)據(jù)處理時(shí)效、數(shù)云融合等方面的建設(shè)經(jīng)驗(yàn)如下：HudiClickHouse反饋。數(shù)云融合方面：通過建設(shè)云上統(tǒng)一存儲(chǔ)服務(wù)，實(shí)現(xiàn)存算分離“全整體資源利用率。（二）中國(guó)銀行實(shí)踐案例案例概況Hadoop生態(tài)技術(shù)16

人人文庫> 全部分類> 行業(yè)資料 > 機(jī)電工程

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

2024海量數(shù)據(jù)處理技術(shù)金融應(yīng)用

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

2024海量數(shù)據(jù)處理技術(shù)金融應(yīng)用

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔