2023大數(shù)據(jù)湖倉一體技術規(guī)范_第1頁
2023大數(shù)據(jù)湖倉一體技術規(guī)范_第2頁
2023大數(shù)據(jù)湖倉一體技術規(guī)范_第3頁
2023大數(shù)據(jù)湖倉一體技術規(guī)范_第4頁
2023大數(shù)據(jù)湖倉一體技術規(guī)范_第5頁
已閱讀5頁,還剩21頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數(shù)據(jù)湖倉一體技術規(guī)范2023IIIIII前言數(shù)據(jù)是國家基礎戰(zhàn)略性資源和重要生產要素,數(shù)據(jù)要素是數(shù)字經濟深化發(fā)展的核心引擎。協(xié)同推進技術、模式、業(yè)態(tài)和制度創(chuàng)新,切實用好數(shù)據(jù)要素,將為經濟社會數(shù)字化發(fā)展帶來強勁動力。隨著企業(yè)數(shù)字化轉型的深入,圍繞數(shù)據(jù),涌現(xiàn)出更大規(guī)模、更復雜的數(shù)據(jù)處理系統(tǒng),現(xiàn)代商業(yè)智能、多模式數(shù)據(jù)處理、人工智能和機器學習等等用來構建新一代數(shù)據(jù)基礎設施正在興起。大數(shù)據(jù)平臺架構通常是數(shù)據(jù)湖(hadoop)和數(shù)據(jù)倉庫(MPP數(shù)據(jù)庫)的混合架構,由于湖和倉之間的技術架構不一樣,導致出現(xiàn)數(shù)據(jù)孤島問題,在進行融合計算時需進行數(shù)據(jù)拷貝,會造成數(shù)據(jù)冗余存儲。為打破數(shù)據(jù)湖與數(shù)據(jù)倉庫割裂的體系,架構上融合數(shù)據(jù)湖的靈活性、生態(tài)豐富和數(shù)據(jù)倉庫的企業(yè)級能力,推出《大數(shù)據(jù)湖倉一體技術標準》,打通數(shù)據(jù)倉庫和數(shù)據(jù)湖兩套體系,讓數(shù)據(jù)和計算在湖和倉之間自由流動,從而構建一個完整的有機的大數(shù)據(jù)技術生態(tài)體系。PAGE\*ROMANPAGE\*ROMANIV目錄版權聲明 I編制說明 II前言 III一、范圍 1二、縮略語 1三、參考標準 1四、湖倉一體技術架構 1(一)統(tǒng)一存儲 2(二)統(tǒng)一元數(shù)據(jù) 3(三)統(tǒng)一計算 3(四)統(tǒng)一服務 3(五)統(tǒng)一運維 3(六)安全管理 3(七)湖倉一體架構演進 3五、統(tǒng)一存儲能力要求 3(一)分布式文件系統(tǒng) 4基礎能力 4數(shù)據(jù)接入 4數(shù)據(jù)格式 4數(shù)據(jù)訪問接口 5存儲分級 5數(shù)據(jù)可靠性 5文件操作 6(二)負載均衡功能 6(三)數(shù)據(jù)緩存加速 6(四)數(shù)據(jù)組織格式 7六、統(tǒng)一元數(shù)據(jù)能力要求 7(一)元數(shù)據(jù)注冊 8(二)數(shù)據(jù)源管理 8(三)元數(shù)據(jù)采集 8(四)元數(shù)據(jù)稽核 8(五)元數(shù)據(jù)管理 9(六)元數(shù)據(jù)服務 9(七)元數(shù)據(jù)追溯和審計 9七、統(tǒng)一計算能力要求 9(一)批處理引擎 10(二)流處理引擎 10(三)交互式查詢引擎 10(四)交互式分析引擎 10(五)機器學習引擎 11八、統(tǒng)一服務能力要求 11(一)統(tǒng)一開發(fā)能力 11通用開發(fā)能力要求 11湖倉一體開發(fā)能力要求 12開放對接要求 12(二)統(tǒng)一調度能力 12調度配置 13觸發(fā)方式 13任務協(xié)同調度 13流程控制 13容錯管理 13(三)統(tǒng)一運營能力 14數(shù)據(jù)資產化管理 14數(shù)據(jù)價值管理 14(四)統(tǒng)一開放能力 14數(shù)據(jù)服務開放管理 15服務目錄管理 15數(shù)據(jù)開放形式 15(五)統(tǒng)一管理能力 15九、運維管理能力要求 15(一)配置管理 15(二)湖倉一體運維 16(三)在線升級 16(四)亞健康檢測 16(五)故障自愈 16(六)日志管理 17(七)北向接口 17十、安全管理能力要求 17十一、湖倉一體架構平滑演進 17(一)數(shù)據(jù)湖向湖倉一體演進 18(二)數(shù)據(jù)倉庫向湖倉一體演進 18PAGEPAGE10一、范圍本文件定義了大數(shù)據(jù)湖倉一體的技術架構,以及統(tǒng)一存儲、統(tǒng)一元數(shù)據(jù)、統(tǒng)一計算、統(tǒng)一服務、運維管理、安全管理、平滑演進相關能力要求。本文件適用于大數(shù)據(jù)湖倉一體架構設計,產品研發(fā)和測評,以及企業(yè)落地實施湖倉一體架構升級做參考。二、縮略語縮略語英文全名中文解釋CDCChangeDataCapture變更數(shù)據(jù)捕獲,可以記錄數(shù)據(jù)源的增量變動,同步到一個或多個數(shù)據(jù)目的DeltaLakeApacheDeltaLake一種數(shù)據(jù)格式,為ApacheSpark和其他大數(shù)據(jù)引擎提供可伸縮的ACID事務FlinkApacheFlinkApacheFlink是一個框架和分布式處理引擎,用于在無邊界和有邊界數(shù)據(jù)流上進行有狀態(tài)的計算HadoopApacheHadoop由Apache基金會所開發(fā)的分布式系統(tǒng)基礎架構HDFSApacheHDFSHadoop分布式文件系統(tǒng)(HadoopDistributedFilesystem)HiveApacheHive基于Hadoop的一個數(shù)據(jù)倉庫工具HudiApacheHudi一個開源Apache Spark庫,用于在ApacheHadoop上執(zhí)行諸如更新,插入和刪除之類的操作IcebergApacheIceberg一種面向海量數(shù)據(jù)分析場景的開放表格式MRApacheMapReduce一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算TezApacheTezApache支持DAG作業(yè)的開源計算框架SparkApacheSpark基于內存計算的開源的集群計算系統(tǒng)三、參考標準GB/T37939-2019 信息安全技術網(wǎng)絡存儲安全技術要求YD/T4029-2022 計算存儲分離架構的分布式存儲技術要四、湖倉一體技術架構湖倉一體是一種新的大數(shù)據(jù)架構,融合數(shù)據(jù)湖與數(shù)據(jù)倉庫的優(yōu)勢,實現(xiàn)數(shù)據(jù)湖和數(shù)據(jù)倉庫的數(shù)據(jù)無縫打通,提升數(shù)據(jù)分析效率,同時還能減小數(shù)據(jù)冗余和搬遷,降低成本,支撐企業(yè)大數(shù)據(jù)系統(tǒng)高效運行。湖倉一體結合云原生技術,采用存算分離架構,提供統(tǒng)一開放的存儲接口,對接多樣的計算引擎,實現(xiàn)存儲合和計算靈活規(guī)劃和部署,資源彈性、按需伸縮,從而有效簡化企業(yè)的數(shù)據(jù)基礎設施架構。湖倉一體技術架構如下圖所示:在該架構中,數(shù)據(jù)統(tǒng)一存儲,提供統(tǒng)一元數(shù)據(jù),將大數(shù)據(jù)、數(shù)據(jù)倉庫、機器學習、等技術進行整合,形成一套數(shù)據(jù)服務系統(tǒng),將數(shù)據(jù)倉庫和數(shù)據(jù)湖的價值進行疊加,更好地分析、整合數(shù)據(jù)。該架構可以很好的克服數(shù)據(jù)重力,讓數(shù)據(jù)湖和數(shù)據(jù)倉庫的數(shù)據(jù)可以自由流動,用戶可以便捷地調取數(shù)據(jù)。借助湖倉一體,企業(yè)可高效處理數(shù)倉內的熱數(shù)據(jù)與數(shù)據(jù)湖中的歷史數(shù)據(jù),并生成豐富的數(shù)據(jù)集,無需做數(shù)據(jù)搬移。湖倉一體技術架構由以下七部分組成。(一)統(tǒng)一存儲接入多種數(shù)據(jù),提供多種數(shù)據(jù)存儲格式,包括數(shù)據(jù)湖的數(shù)據(jù)格式和數(shù)據(jù)倉庫的數(shù)據(jù)格式,可以存儲任意規(guī)模的結構化、半結構化、非結構化數(shù)據(jù)。通過通用的數(shù)據(jù)組織格式,如Hudi、Iceberg、DeltLake等,實現(xiàn)數(shù)據(jù)的統(tǒng)一存儲訪問。(二)統(tǒng)一元數(shù)據(jù)通過采集、管理數(shù)據(jù)湖與數(shù)據(jù)倉庫中的元數(shù)據(jù),構建統(tǒng)一元數(shù)據(jù)目錄和數(shù)據(jù)視圖,實現(xiàn)數(shù)據(jù)湖與數(shù)據(jù)倉庫數(shù)據(jù)共享,提供湖倉一體化的元數(shù)據(jù)服務。(三)統(tǒng)一計算集成批處理引擎、流處理引擎、交互式查詢引擎、交互式分析引擎、機器學習引擎等通用數(shù)據(jù)處理引擎,覆蓋數(shù)據(jù)處理全場景,通過統(tǒng)一元數(shù)據(jù)管理,實現(xiàn)與統(tǒng)一的存儲的無縫對接。(四)統(tǒng)一服務為上層業(yè)務提供一體化的數(shù)據(jù)服務體驗,無需關注底層異構環(huán)境,為數(shù)據(jù)開發(fā)者、數(shù)據(jù)使用者、數(shù)據(jù)運營管理者提供統(tǒng)湖倉一體化服務能力。(五)統(tǒng)一運維滿足多樣化運維需求,支撐平臺管理員、各類運維人員或使用者及時發(fā)現(xiàn)、定位并處理問題,提高運維效率。(六)安全管理依據(jù)三法一條例,構建全面的安全保護解決方案,從系統(tǒng)層安全、數(shù)據(jù)層安全、應用層安全構筑完整的安全管理能力。(七)湖倉一體架構演進基于數(shù)據(jù)湖與數(shù)據(jù)倉庫現(xiàn)有能力,對標湖倉一體的架構進行補充與完善,實現(xiàn)向湖倉一體架構的平滑演進。五、統(tǒng)一存儲能力要求統(tǒng)一存儲,提供高可靠、可擴展的存儲能力,滿足海量、多樣化的結構化、非結構化數(shù)據(jù)存儲。面向業(yè)務訴求,為原始數(shù)據(jù)、中間數(shù)據(jù)、業(yè)務數(shù)據(jù)、歸檔數(shù)據(jù)提供存儲空間和數(shù)據(jù)管理能力,滿足不同業(yè)務對數(shù)據(jù)訪問訴求,實現(xiàn)熱點數(shù)據(jù)高吞吐、低時延讀寫,溫冷數(shù)據(jù)大容量、低成本讀寫。提供開放、統(tǒng)一的數(shù)據(jù)組織格式,實現(xiàn)數(shù)據(jù)湖、倉數(shù)據(jù)共享。(一)分布式文件系統(tǒng)基礎能力應符合YD/T4029-2022中5.6章的要求基礎上,符合如下要求:EB據(jù)存儲。對外接口:與主流大數(shù)據(jù)、數(shù)據(jù)庫、AI單文件系統(tǒng)應支持十億以上海量文件,業(yè)務連續(xù)不中斷。數(shù)據(jù)接入a)支持數(shù)據(jù)按多種方式接入:批量寫入、實時寫入、CDC寫入。b)支持連接多種數(shù)據(jù)庫、文件系統(tǒng)、消息隊列。c)支持數(shù)據(jù)并行導入/導出。數(shù)據(jù)格式支持關系表、文本、圖像、視頻等結構化數(shù)據(jù)和非結構化數(shù)據(jù)存儲;TXT、CSV、JSON、ApacheParquet、ApacheOrc、HadoopAPIJPEG、BMP、JPG,WAV、FLAC、MP3、AVI、MPEG、RMVB、PDF、TXT、WORD、DOCX等常見文檔格式。壓縮格式要求,根據(jù)不同的業(yè)務場景,支持采用不同的文件壓縮格式,gzip、lzo、snappy、bzip2數(shù)據(jù)訪問接口YD/T4029-20225.5a)S3SMB、NFS、POSIXApacheKAFK、ApachePlusa5.存儲分級支持熱、溫、冷等不同層級數(shù)據(jù)存儲需求。支持分級策略配置,指定整個存儲系統(tǒng)內文件或者指定目錄/件按照分級策略在不同存儲層級之間遷移。支持按照文件在指定訪問周期內的訪問頻次,自動轉換文件的存儲層級。數(shù)據(jù)可靠性支持采用多副本、EC支持數(shù)據(jù)糾刪碼方式保護,支持22+2、20+2、16+2、8+2、4+22應支持數(shù)據(jù)副本校驗和巡檢能力,支持故障副本快速恢復。硬盤故障,支持數(shù)據(jù)自動重構,無需人工干預;數(shù)據(jù)重構對業(yè)務性能影20。文件操作應支持文件上傳、下載、創(chuàng)建、復制、刪除、獲取、批量刪除對象操作。支持設置文件權限操作。對于超大型文件,支持通過分段的方式上傳或者下載。a)支持追加寫文件。支持使用為文件/對象添加對象標簽以便分類管理。b)支持通過對象標簽管理生命周期規(guī)則、跨地域復制規(guī)則、清單規(guī)則等。c)支持用戶對于自己的文件系統(tǒng)空間和文件數(shù)量的查詢。(二)負載均衡功能支持湖倉一體架構下,多業(yè)務并行訪問數(shù)據(jù)。應符合YD/T4029-2022中5.3、5.7和5.8章的負載均衡相關要求。(三)數(shù)據(jù)緩存加速支持湖倉一體架構下,數(shù)據(jù)高性能訪問。a)HDFS、S3、NFSb)支持數(shù)據(jù)、元數(shù)據(jù)緩存和加速。支持多種緩存設備:內存/SSD/HDD。支持計算側算子下推到存儲側執(zhí)行,在存儲側讀取數(shù)據(jù)就近計算,優(yōu)化大數(shù)據(jù)計算性能。支持多計算節(jié)點共享緩存數(shù)據(jù),減少數(shù)據(jù)冗余存儲。支持緩存數(shù)據(jù)高可用,計算節(jié)點故障遷移、擴容場景,數(shù)據(jù)免重建,RTO/RPO<1(四)數(shù)據(jù)組織格式Hudi、Iceberg、DeltaLake實現(xiàn)增量寫入讀取。a)支持事務ACID,可以對存儲的數(shù)據(jù)進行插入/更新操作。b)支持快照查詢,讀取數(shù)據(jù)集的最新快照。支持增量查詢,查詢指定時間的最新數(shù)據(jù)集。commit/compacte)支持數(shù)據(jù)時間旅行,可基于時間/版本號訪問歸檔的歷史版本數(shù)據(jù)。支持訪問性能優(yōu)化,支持小文件合并、數(shù)據(jù)分布、排序、索引、統(tǒng)計信息、緩存的優(yōu)化支持對接大數(shù)據(jù)計算引擎,對數(shù)據(jù)分析,如:ApacheSpark、FlinkPresto、Hive六、統(tǒng)一元數(shù)據(jù)能力要求基于元數(shù)據(jù)管理標準,對數(shù)據(jù)湖與數(shù)據(jù)倉庫的的元數(shù)據(jù)進行統(tǒng)一采集、適配、拉通與管理,形成統(tǒng)一的元數(shù)據(jù)目錄,實現(xiàn)數(shù)據(jù)湖與數(shù)據(jù)倉庫的統(tǒng)一元數(shù)據(jù)管理,為統(tǒng)一服務、統(tǒng)一計算與統(tǒng)一存儲提供湖倉一體的元數(shù)據(jù)服務。(一)元數(shù)據(jù)注冊名稱等。支持提供系統(tǒng)級數(shù)據(jù)架構定義,包括主題、層次、系統(tǒng)、數(shù)據(jù)庫等。支持湖倉模型等元數(shù)據(jù)信息注冊。(二)數(shù)據(jù)源管理a)支持數(shù)據(jù)湖與數(shù)據(jù)倉的所有數(shù)據(jù)源進行統(tǒng)一管理。b)支持數(shù)據(jù)源的增、刪、改。(三)元數(shù)據(jù)采集支持通過對文件存儲的目錄/文件/護元數(shù)據(jù)。支持數(shù)據(jù)倉庫技術元數(shù)據(jù)采集,抽取數(shù)據(jù)字典信息。MetaStore,支持技術元數(shù)據(jù)入湖識別與解析。任務測試功能。支持基于行業(yè)數(shù)據(jù)治理規(guī)范,具備元數(shù)據(jù)的適配轉換能力。(四)元數(shù)據(jù)稽核支持數(shù)據(jù)湖元數(shù)據(jù)的稽核,包括一致性稽核、關鍵屬性稽核等。支持數(shù)據(jù)倉庫元數(shù)據(jù)的稽核,包括一致性稽核、關鍵屬性稽核等。(五)元數(shù)據(jù)管理a)支持元數(shù)據(jù)的增刪改、版本管理。支持元數(shù)據(jù)的分層管理。d)支持針對數(shù)據(jù)湖和數(shù)倉構建統(tǒng)一的元數(shù)據(jù)目錄。e)支持基于不同角色和用戶身份,進行功能和數(shù)據(jù)權限管理。(六)元數(shù)據(jù)服務存儲位置等。c)支持記錄元數(shù)據(jù)訪問頻次,標記數(shù)據(jù)熱度。d)支持查詢歷史版本的元數(shù)據(jù)信息。(七)元數(shù)據(jù)追溯和審計a)b)支持記錄元數(shù)據(jù)采集任務日志,展現(xiàn)任務完成情況。c)支持記錄審計日志,對元數(shù)據(jù)操作行為追溯、審計。七、統(tǒng)一計算能力要求面向湖倉一體業(yè)務,提供多樣化計算引擎,滿足多種場景的數(shù)據(jù)處理和分析要求。用戶可使用自助查詢、報表、商業(yè)智能(BI)和數(shù)據(jù)探索等形式,驅動計算引擎對數(shù)據(jù)進行分析。提供與數(shù)據(jù)湖/數(shù)據(jù)倉庫的交互工具,如JDBC/ODBC驅動,支持Java、C/C++、Go、Python、Perl和Php等語言客戶端程序連接。(一)批處理引擎支持處理結構化數(shù)據(jù)、非結構化數(shù)據(jù)。提供SQL訪問接口,兼容TPC-DS標準語法。支持MapReduce、Hive、Spark、Tez、MaxCompute等常用批處理引擎。(二)流處理引擎支持訪問Hudi、Iceberg、DeltaLake等開放格式。支持Flink、SparkStreaming、Storm等常用流處理引擎。(三)交互式查詢引擎低時延的數(shù)據(jù)查詢和分析,如Greenplum、ClickHouse、GBase、Hologres等常用交互式查詢引擎。支持SQL結構化查詢語句,包括數(shù)據(jù)查詢(DQL)、數(shù)據(jù)定義(DDL)據(jù)操縱(DML)、數(shù)據(jù)控制(DCL)。支持ANSISQL2003標準語法。(四)交互式分析引擎提供大數(shù)據(jù)實時查詢和分析能力,高性能、高容錯的分布式OLAP能快速處理大規(guī)模的數(shù)據(jù),并能夠實現(xiàn)快速查詢和分析,如Presto、openLooKeng等。支持SQL結構化查詢語句,支持ANSISQL2003標準語法。d)支持對接數(shù)據(jù)探索、BI分析、報表展示等工具。(五)機器學習引擎支持機器學習模型開發(fā)和部署,提供模型開發(fā)所需的工具,提供常用的機器學習算法,如決策樹和支持向量機(SVM),神經網(wǎng)絡(CNN),循環(huán)神經網(wǎng)絡(RNN)等。支持TensorFlow、PyTorch和ApacheMXNet等深度學習框架。八、統(tǒng)一服務能力要求針對湖倉一體面對的數(shù)據(jù)開發(fā)者、數(shù)據(jù)使用者以及數(shù)據(jù)運營管理者,提供一體化的數(shù)據(jù)服務。(一)統(tǒng)一開發(fā)能力構建可視化的湖倉統(tǒng)一集成開發(fā)環(huán)境,基于租戶作業(yè)運行隔離機制,提供一體化的開發(fā)模式,實現(xiàn)全流程的敏捷交付支撐,滿足多樣化開發(fā)需求。1.通用開發(fā)能力要求a)支持數(shù)據(jù)目錄查看,方便數(shù)據(jù)開發(fā)者了解數(shù)據(jù)模型情況。b)支持模型開發(fā)、審核、發(fā)布與上下線。c)支持模型發(fā)布后,元數(shù)據(jù)的自動采集與注冊。d)支持數(shù)據(jù)任務開發(fā),包括流處理、批處理、流批一體、交互查詢等任務開發(fā)。e)支持數(shù)據(jù)任務開發(fā)、測試、發(fā)布、運維一套標準的線上開發(fā)流程。支持可視化開發(fā)與腳本開發(fā)。的抽象與配置。2.湖倉一體開發(fā)能力要求a)支持基于統(tǒng)一元數(shù)據(jù)的湖倉一體任務開發(fā),實現(xiàn)任務的跨湖跨倉。b)支持基于統(tǒng)一元數(shù)據(jù)的統(tǒng)一模型開發(fā),實現(xiàn)湖倉模型的統(tǒng)一。3.開放對接要求模型開發(fā),實現(xiàn)元數(shù)據(jù)注冊。支持統(tǒng)一計算層所有計算引擎的適配,如Flink、Spark、Presto等。支持統(tǒng)一存儲下的存儲引擎適配,包括Hudi、Iceberg、DeltaLake布式存儲、對象存儲等。(二)統(tǒng)一調度能力開發(fā)業(yè)務模型所形成的數(shù)據(jù)加工任務,需要按時間、事件、或業(yè)務要求進行任務的啟??刂?。調度配置a)支持提供圖形化任務配置管理,通過配置任務的基礎信息,支持不同的周期類型任務。b)支持模版任務配置,一鍵生成批量調度任務。觸發(fā)方式方式進行任務啟停控制。3.任務協(xié)同調度支持按任務的優(yōu)先級調度。支持設置定時任務;多個子任務并行執(zhí)行;支持按任務先后順序執(zhí)行。c)數(shù)據(jù)倉庫運行。4.流程控制支持設置任務間的依賴關系。等。d)支持用戶自定義表達式,設置和控制任務觸發(fā)條件。5.容錯管理具備平臺級調度恢復保障(狀態(tài)記憶)、調度健壯性(重跑重試)、數(shù)據(jù)完整性保障(歷史補算)、簡化運維難度(失敗告警)等能力。(三)統(tǒng)一運營能力統(tǒng)一運營通過數(shù)據(jù)資產化管理與數(shù)據(jù)價值化管理,提升湖倉數(shù)據(jù)質量與價值,加速數(shù)據(jù)到資產與資本的轉變。1.數(shù)據(jù)資產化管理與分類,形成數(shù)據(jù)資產目錄。支持不同角色、不同場景的數(shù)據(jù)資產目錄展示。支持可視化的數(shù)據(jù)資產從數(shù)據(jù)接入、生產、使用、消亡的全過程監(jiān)控。d)支持持續(xù)的數(shù)據(jù)運營分析與治理,發(fā)現(xiàn)問題與改進問題,提升數(shù)據(jù)質量。2.數(shù)據(jù)價值管理數(shù)據(jù)價值分析能力。c)支持通過數(shù)據(jù)資產價值評估,對數(shù)據(jù)分級管理。d)支持通過數(shù)據(jù)服務組合管理提升數(shù)據(jù)變現(xiàn)能力。(四)統(tǒng)一開放能力構建湖倉數(shù)據(jù)服務的全流程管理,通過數(shù)據(jù)服務目錄展示可對外提供的湖倉數(shù)據(jù)服務,提供多種數(shù)據(jù)開放形式,滿足各種場景的需求。數(shù)據(jù)服務開放管理a)b)支持數(shù)據(jù)安全管理,如數(shù)據(jù)加密、脫敏等。c)支持數(shù)據(jù)服務計量和流控。服務目錄管理等。c)支持服務目錄更新、維護和發(fā)布。3.數(shù)據(jù)開放形式支持數(shù)據(jù)服務使用方提供數(shù)據(jù)授權、數(shù)據(jù)復制、數(shù)據(jù)API息訂閱等數(shù)據(jù)開放方式。支持同步、異步、訂閱、消息等多種服務訂購方式。(五)統(tǒng)一管理能力遵循行業(yè)數(shù)據(jù)治理規(guī)范的具體要求,具備與數(shù)據(jù)治理模塊對接能力,實現(xiàn)湖、倉數(shù)據(jù)的統(tǒng)一管理。九、運維管理能力要求(一)配置管理支持圖形管理界面,提供管理員配置存儲系統(tǒng)所需的圖形化流程。應支持存儲池管理、HDFSNameSpace理、硬盤管理、拓撲管理、權限管理、運維管理。c)支持統(tǒng)一監(jiān)控頁面,對平臺運行湖倉任務進行監(jiān)控,包括任務狀態(tài)、任務依賴關系,前置任務運行情況等,對于異常的任務進行告警。態(tài)展示。統(tǒng)計信息;排隊計算是對排隊中任務,計算排隊數(shù)量。(二)湖倉一體運維據(jù)壓縮等。支持用戶手動對存儲數(shù)據(jù)布局優(yōu)化,提升數(shù)據(jù)訪問性能,如小文件合并。(三)在線升級應支持存儲、計算引擎,軟件、硬件驅動的在線升級和補丁。(四)亞健康檢測報告。支持亞健康檢測告警,并自動隔離該節(jié)點。(五)故障自愈a)支持故障自動識別,定位定界;設置故障處理預案。b)支持根據(jù)預案,故障任務自動重做。c)支持調度節(jié)點異常情況下,同組其他調

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論