GB∕T 43782-2024 人工智能 機器學習系統(tǒng)技術(shù)要求(正式版)_第1頁
GB∕T 43782-2024 人工智能 機器學習系統(tǒng)技術(shù)要求(正式版)_第2頁
GB∕T 43782-2024 人工智能 機器學習系統(tǒng)技術(shù)要求(正式版)_第3頁
GB∕T 43782-2024 人工智能 機器學習系統(tǒng)技術(shù)要求(正式版)_第4頁
GB∕T 43782-2024 人工智能 機器學習系統(tǒng)技術(shù)要求(正式版)_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

人工智能機器學習系統(tǒng)技術(shù)要求2024-03-15發(fā)布2024-03-15實施GB/T43782—2024 I 2規(guī)范性引用文件 3術(shù)語和定義 4縮略語 5系統(tǒng)框架 5.1概述 5.2機器學習運行時組件 35.3機器學習框架 5.4機器學習服務(wù)組件 5.5工具 5.6運維管理 6功能要求 6.1機器學習運行時組件 6.2機器學習框架 6.3機器學習服務(wù)組件 6.4工具 6.5運維管理 7可靠性要求 8維護性要求 9兼容性要求 9.1軟件兼容性要求 9.2硬件兼容性要求 10安全性要求 11可擴展性要求 參考文獻 I本文件按照GB/T1.1—2020《標準化工作導則第1部分:標準化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草。請注意本文件的某些內(nèi)容可能涉及專利。本文的發(fā)布機構(gòu)不承擔識別專利的責任。本文件由全國信息技術(shù)標準化技術(shù)委員會(SAC/TC28)提出并歸口。本文件起草單位:中國電子技術(shù)標準化研究院、華為技術(shù)有限公司、北京百度網(wǎng)訊科技有限公司、上海商湯智能科技有限公司、騰訊云計算(北京)有限責任公司、網(wǎng)易(杭州)網(wǎng)絡(luò)有限公司、浪潮電子信息產(chǎn)業(yè)股份有限公司、北京眼神科技有限公司、中國工程物理研究院計算機應(yīng)用研究所、沈陽東軟智能醫(yī)療科技研究院有限公司、北京軟件產(chǎn)品質(zhì)量檢測檢驗中心、山東省計算中心(國家超級計算濟南中心)、上海燧原科技有限公司、美的集團(上海)有限公司、海信集團控股股份有限公司、上海計算機軟件技術(shù)開發(fā)中心、清華大學、北京航天自動控制研究所、中國科學院軟件研究所、上海人工智能研究院有限公司、鄭州中業(yè)科技股份有限公司、北京智芯微電子科技有限公司、武漢精測電子集團股份有限公司、長威信息科技發(fā)展股份有限公司、江漢大學、飛騰信息技術(shù)(北京)有限公司、中國醫(yī)學科學院生物醫(yī)學工程研究所、北京林業(yè)大學、中國電子科技集團公司第二十八研究所、常州微億智造科技有限公司、興容(上海)信息技術(shù)股份有限公司。袁福生、張勝森、戴文艷、谷瀟聰、蒲江波、吳鈺祥、趙雅倩、李仁剛、朱寶峰、馬澤宇、張單、李亞坤、1人工智能機器學習系統(tǒng)技術(shù)要求1范圍本文件提出了機器學習系統(tǒng)框架,規(guī)定了功能、可靠性、維護性、兼容性、安全性和可擴展性要本文件適用于各領(lǐng)域機器學習支持服務(wù)的系統(tǒng)及相關(guān)解決方案的規(guī)劃、研發(fā)、評估、選型及驗收的依據(jù)。2規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T17235.1信息技術(shù)連續(xù)色調(diào)靜態(tài)圖像的數(shù)字壓縮及編碼第1部分:要求和指南GB/T33475.2信息技術(shù)高效多媒體編碼第2部分:視頻GB/T33475.3信息技術(shù)高效多媒體編碼第3部分:音頻GB/T41867—2022信息技術(shù)人工智能術(shù)語GB/T42018—2022信息技術(shù)人工智能平臺計算資源規(guī)范ISO/IEC14496-10信息技術(shù)視聽對象編碼第10部分:先進視頻編碼(Informationtechnolo-gy—Codingofaudio-visualobjects—Part10:Advancedvideocoding)ISO/IEC15948信息技術(shù)計算機圖形和圖像處理便攜式網(wǎng)絡(luò)圖形:功能規(guī)范[Informationtechnology—Computergraphicsandimageprocessing—PortableNetworkGraphics(PNG):Functionalspecification]ISO/IEC23008-2信息技術(shù)異構(gòu)環(huán)境中的高效編碼和媒體傳輸?shù)?部分:高效視頻編碼(Informationtechnology—Highefficiencycodingandmediadeliveryinheterogeneousenvironments—Part2:Highefficiencyvideocoding)ISO/IEC23008-3信息技術(shù)異構(gòu)環(huán)境中的高效編碼和媒體傳輸?shù)?部分:3D音頻(Informa-tiontechnology—Highefficiencycodingandmediadeliveryinheterogeneousenvironments—Part3:3術(shù)語和定義GB/T41867—2022、GB/T42018-2022界定的以及下列術(shù)語和定義適用于本文件。機器學習系統(tǒng)machinelearningsystem能運行或用于開發(fā)機器學習模型、算法和相關(guān)應(yīng)用的軟件系統(tǒng)。利用預(yù)先構(gòu)建和優(yōu)化好的組件集合定義模型,實現(xiàn)對機器學習算法封裝、數(shù)據(jù)調(diào)用處理和計算資源使用的軟件庫。2機器學習服務(wù)machinelearningservice利用機器學習模型算法及其系統(tǒng)作為工具為組織或個人提供一種其期望的便利的方式的價值的注:機器學習算法服務(wù)是機器學習服務(wù)的一種,用于接受用戶的應(yīng)用請求,對輸入數(shù)據(jù)進行處理,返回處理結(jié)果。模型編譯器modelcompiler將機器學習模型定義的計算過程轉(zhuǎn)換為能在特定人工智能計算資源上執(zhí)行的代碼序列的計算機注:本文件中定義的模型編譯器僅用于機器學習領(lǐng)域。資源池resourcepool各類系統(tǒng)資源的集合體。作業(yè)job機器學習訓練或推理任務(wù)的邏輯組合。注:一個作業(yè)屬于且僅屬于某一個資源池,一個作業(yè)包括一個或多個任務(wù)。實現(xiàn)特定目標所需要的活動。注:任務(wù)用于完成一個相對獨立的業(yè)務(wù)功能,一個任務(wù)屬于且僅屬于一個作業(yè)。4縮略語下列縮略語適用于本文件。ASIC:專用集成電路(Application-SpecificIntegratedCircuit)CPU:中央處理器(CentralProcessingUnit)DAG:有向無環(huán)圖(DirectedAcyclicGraph)FPGA:現(xiàn)場可編程邏輯門陣列(FieldProgrammableGateArray)GPU:圖形處理器(GraphicProcessingUnit)IDE:集成開發(fā)環(huán)境(IntegratedDevelopmentEnvironment)JSON:JavaScript對象注記法(JavaScriptObjectNotation)REST:表現(xiàn)層狀態(tài)轉(zhuǎn)換(RepresentationalStateTransfer)RPC:遠程過程調(diào)用(RemoteProcedureCall)SOA:面向服務(wù)的架構(gòu)(Service-OrientedArchitecture)SQL:結(jié)構(gòu)化查詢語言(StructuredQueryLanguage)XML:可擴展置標語言(ExtensibleMarkupLanguage)5系統(tǒng)框架機器學習系統(tǒng)包含機器學習運行時組件、機器學習框架、機器學習服務(wù)組件、工具和運維管理。提3供機器學習應(yīng)用的開發(fā)、訓練、部署、運行和管理能力,機器學習系統(tǒng)框架見圖1。行業(yè)應(yīng)用行業(yè)應(yīng)用機器學習服務(wù)組件數(shù)據(jù)管理工具模型模型管理工具機器學習框架開發(fā)環(huán)境模型訓練模型推理模型編譯器機器學習運行時縱件設(shè)備驅(qū)動軟件計算調(diào)度邊緣設(shè)備終端設(shè)備計算中心運維管理算子庫算法庫注:圖中實線部分對應(yīng)本文件相關(guān)規(guī)定,虛線部分僅為表明人工智能平臺的系統(tǒng)組成,不屬于本文件規(guī)定。圖1機器學習系統(tǒng)框架5.2機器學習運行時組件機器學習運行時組件是為保障機器學習應(yīng)用按照預(yù)期在特定機器學習系統(tǒng)上運行所必需的軟件環(huán)境,包括設(shè)備驅(qū)動軟件和算子庫。設(shè)備驅(qū)動軟件負責機器學習各種類型任務(wù)的調(diào)度與執(zhí)行,包括為機器學習任務(wù)分配提供資源管理通道,為應(yīng)用提供存儲管理、設(shè)備管理、執(zhí)行流管理、事件管理和核函數(shù)執(zhí)行功能。算子庫提供機器學習算法在設(shè)備執(zhí)行調(diào)度的最小計算單元,包括面向機器學習計算任務(wù)的通用算子和面向特定設(shè)備計算加速任務(wù)的優(yōu)化算子。5.3機器學習框架機器學習框架包含模型訓練、模型推理及算法庫三個模塊,為機器學習應(yīng)用開發(fā)、優(yōu)化、驗證和部署過程提供工具支撐。模型訓練用于機器學習應(yīng)用設(shè)計開發(fā)階段,該模塊提供自動微分、損失函數(shù)和優(yōu)化器等調(diào)用接口,提供模型定義、自動分布式并行訓練和多硬件后端適配等能力。模型推理用于機器學習應(yīng)用的驗證部署階段,該模塊提供模型加載、微調(diào)、性能評估和轉(zhuǎn)換等接口,提供模型部署及推理加速等能力。算法庫面向機器學習訓練、推理和模型性能優(yōu)化任務(wù),提供預(yù)先優(yōu)化好的算法,以封裝函數(shù)庫的方式供用戶調(diào)用,提升機器學習模型開發(fā)、優(yōu)化、驗證和部署的效率。5.4機器學習服務(wù)組件機器學習服務(wù)是人工智能行業(yè)應(yīng)用訪問、利用機器學習能力和資源的主要方式,機器學習服務(wù)組件支持工作流管理、通用算法模板和應(yīng)用部署。機器學習系統(tǒng)通過服務(wù)組件,進行服務(wù)部署、運行環(huán)境準備、運行狀態(tài)匯報和服務(wù)容錯等,并提供服務(wù)調(diào)用接口,供各領(lǐng)域上層應(yīng)用調(diào)用。為滿足應(yīng)用場景的需求,機器學習系統(tǒng)可提供文本、圖像、音頻和視頻及其他類型智能化操作的算法服務(wù)。45.5工具5.5.1數(shù)據(jù)管理工具護、數(shù)據(jù)退出和系統(tǒng)退出的管理能力。提供各類數(shù)據(jù)源,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的接入、標注和質(zhì)量控制,中間數(shù)據(jù)的管理、最終數(shù)據(jù)的管理、元數(shù)據(jù)的管理和數(shù)據(jù)使用溯源等能力,支持對海量結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的預(yù)處理與特征挖掘。模型管理工具提供常用的機器學習模型及其變形,能按照一定的方式,如算法結(jié)構(gòu)、應(yīng)用范圍,提供模型的分類檢索;模型管理工具也可擴展支持模型導入、導出、更新、發(fā)布、遷移和版本控制等功能。在機器學習應(yīng)用開發(fā)階段,通過多模型組合開發(fā)、多模型集成、超參數(shù)設(shè)置和模型二次訓練等方式支持模型優(yōu)化與應(yīng)用開發(fā)。開發(fā)環(huán)境是機器學習全流程開發(fā)工具鏈,支持模型開發(fā)、算子開發(fā)和應(yīng)用開發(fā)三個主流程中的開發(fā)任務(wù),提供模型可視化、算力測試和IDE單機仿真調(diào)試等功能。模型編譯器將計算過程的計算圖和算子轉(zhuǎn)換為環(huán)境兼容的中間表達或設(shè)備可執(zhí)行的代碼,支持編譯優(yōu)化、編譯參數(shù)自動尋優(yōu)、編譯結(jié)果存儲載入、自定義算子注冊編譯、模型格式轉(zhuǎn)換等功能。運維管理提供系統(tǒng)所需的基本運維(例如安裝部署、擴展、監(jiān)控、報警、健康檢查、問題及故障定位、升級和補丁、備份恢復(fù)和操作審計等)及管理功能(例如計算資源管理、權(quán)限管理、用戶管理、日志管理、配置管理和安全管理等)。6功能要求6.1機器學習運行時組件機器學習運行時組件的功能要求包括:a)應(yīng)具備算法程序正常運行所需的基礎(chǔ)軟件組件,如設(shè)備驅(qū)動、通用算子庫和操作系統(tǒng)等;b)應(yīng)具備保障機器學習任務(wù)執(zhí)行所需的設(shè)備管理及資源調(diào)度能力,包括設(shè)備管理、內(nèi)存管理、事c)應(yīng)具備基于設(shè)備定制開發(fā)的優(yōu)化算子庫;d)應(yīng)具備算子級的執(zhí)行控制和調(diào)度優(yōu)化功能;e)應(yīng)具備對環(huán)境中運行程序的訪問權(quán)限控制和資源隔離功能;f)應(yīng)具備計算資源的虛擬化與調(diào)度能力;g)應(yīng)具備面向兩種及以上機器學習框架模型格式的解析能力;h)應(yīng)具備或集成集合通信庫,以及單機多卡及多機多卡的計算平臺架構(gòu)。6.2機器學習框架機器學習框架的功能要求包括以下內(nèi)容。5a)模型訓練:1)應(yīng)具備對用戶自定義數(shù)據(jù)的處理能力,包括圖像的伸縮變換、音頻特征提取和文本分詞;2)應(yīng)具備用戶自定義開發(fā)機器學習模型的能力,包括基本單元(如神經(jīng)網(wǎng)絡(luò)層)的基類、損失函數(shù)基類、用于參數(shù)更新的優(yōu)化器基類;3)應(yīng)具備全連接層的調(diào)用和實例化功能,具備非線性激活函數(shù)的調(diào)用功能;4)應(yīng)提供接口獲取訓練過程信息,包括神經(jīng)網(wǎng)絡(luò)層的權(quán)重和偏置參數(shù);5)應(yīng)具備靜態(tài)圖或動態(tài)圖的執(zhí)行模式;6)應(yīng)具備面向參數(shù)服務(wù)器和集合通信兩種分布式架構(gòu)的分布式并行能力;7)應(yīng)具備包括自動數(shù)據(jù)并行和模型并行結(jié)合的自動混合并行能力;8)應(yīng)具備時期和步驟粒度的數(shù)據(jù)處理回調(diào)功能;注1:時期(Epoch)指訓練時數(shù)據(jù)集的一次完整遍歷。注2:步驟(Step)指訓練時完成一次前向計算和反向傳播。9)應(yīng)具備自動混合精度(如FP32和FP16)訓練功能,面向不同的運算自動采用不同的數(shù)值精度按預(yù)期實施運算;10)宜具備計算圖重組等優(yōu)化功能。b)模型推理:1)如同時具備云側(cè)和端側(cè)推理能力,應(yīng)提供云側(cè)和端側(cè)統(tǒng)一的中間表示,具備保存和加載該中間表示的能力;2)應(yīng)具備包括CPU和GPU的多種后端設(shè)備執(zhí)行推理能力;3)應(yīng)具備至少兩種編程語言接口,如C++、Python和Java等;4)宜具備多個模型的并發(fā)推理能力;5)宜具備模型推理加速優(yōu)化功能,如模型量化、內(nèi)存復(fù)用和算子重新編排。c)算法庫:1)應(yīng)具備模型評價函數(shù),如準確度、精確度和平均絕對值誤差等;2)應(yīng)具備損失函數(shù),如回歸損失和分類損失等;3)應(yīng)具備優(yōu)化器算法;4)應(yīng)封裝訓練過程中常用的張量操作,包括池化運算和卷積操作等;5)應(yīng)提供激活函數(shù),如線性單元激活函數(shù)、高斯誤差線性單元激活函數(shù);6)應(yīng)提供數(shù)學運算函數(shù)。6.3機器學習服務(wù)組件機器學習系統(tǒng)提供通用服務(wù)能力,機器學習服務(wù)組件功能要求應(yīng)包括:a)具備一種或多種算法服務(wù);c)具備一種或多種單機服務(wù),如模型自學習服務(wù)和批量推理服務(wù)等;d)具備一種或多種遠程實時服務(wù),如實時推理服務(wù)等;e)提供統(tǒng)一服務(wù)框架,如SOA和微服務(wù)等;f)提供統(tǒng)一、易用的算法服務(wù)接口,如g)具備常見的消息報文體格式,如JSON和XML等;h)具備同一算法服務(wù)的多實例部署功能;i)具備不同算法服務(wù)并發(fā)調(diào)用能力,各服務(wù)獨立運行;j)具備多用戶同時使用算法服務(wù)的功能,具備在多用戶和高并發(fā)情況下的流量負載均衡,保證服務(wù)穩(wěn)定運行;6k)具備獨立部署和運行能力,并具備服務(wù)動態(tài)擴容;1)具備服務(wù)容錯能力,包括熔斷、隔離、限流和降級等容錯機制,來保證服務(wù)持續(xù)可用性;m)具備可擴展性,可方便增加新服務(wù)和動態(tài)調(diào)整服務(wù)節(jié)點等。6.4工具6.4.1數(shù)據(jù)管理工具數(shù)據(jù)管理工具的功能要求包括:a)應(yīng)具備各類數(shù)據(jù)源對接功能,包括結(jié)構(gòu)化數(shù)據(jù)(例如傳統(tǒng)關(guān)系型數(shù)據(jù)庫)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)(例如文本、圖像、音頻和視頻等);b)應(yīng)具備圖像類數(shù)據(jù)格式采集功能,圖像格式應(yīng)符合GB/T17235.1和ISO/IEC15948的要求;c)應(yīng)具備音頻類數(shù)據(jù)格式采集功能,音頻格式應(yīng)符合ISO/IEC23008-3和GB/T33475.3的要求;d)應(yīng)具備視頻類數(shù)據(jù)格式采集功能,視頻格式應(yīng)符合ISO/IEC14496-10、ISO/IEC23008-2和GB/T33475.2的要求;e)應(yīng)具備對各類數(shù)據(jù)(例如文本、圖像、音頻和視頻等)進行標注的能力;f)應(yīng)具備引入和解析常見文件和數(shù)據(jù)格式的能力,如parquet和carbondata等;g)應(yīng)具備多形態(tài)數(shù)據(jù)采集功能,包括單表采集、多表采集、增量采集、批數(shù)據(jù)采集和流數(shù)據(jù)采集;h)應(yīng)具備對訓練數(shù)據(jù)集、測試數(shù)據(jù)集和驗證數(shù)據(jù)集獨立提供數(shù)據(jù)生存周期管理的功能;i)應(yīng)具備對原始數(shù)據(jù)、中間數(shù)據(jù)及產(chǎn)出數(shù)據(jù)進行增刪改查及數(shù)據(jù)檢索等操作的功能;j)應(yīng)提供數(shù)據(jù)訪問權(quán)限控制和版本控制能力,具備表粒度和字段粒度權(quán)限控制能力;k)應(yīng)提供數(shù)據(jù)IDE工具,具備編寫SQL和Python等腳本進行數(shù)據(jù)分析和探索的功能;1)應(yīng)具備對敏感數(shù)據(jù)進行溯源管理功能;m)宜具備原始數(shù)據(jù)的診斷功能,如數(shù)據(jù)完整性檢查、空值檢查、規(guī)則校驗和統(tǒng)計指標校驗等;n)宜具備原始數(shù)據(jù)的相似度檢測功能,過濾相似數(shù)據(jù);o)宜具備多種元數(shù)據(jù)管理方法,如數(shù)據(jù)元信息生成、增刪改查和血緣管理等;p)宜具備多種數(shù)據(jù)預(yù)處理手段,如數(shù)據(jù)的拆分、聚合、過濾和排序等;q)宜具備多種數(shù)據(jù)組合方法,如異構(gòu)數(shù)據(jù)的組合、對齊和糾錯等;r)宜具備用戶數(shù)據(jù)集多版本管理功能;s)宜具備多人協(xié)同標注功能,并且具備多人協(xié)作任務(wù)的管理;t)宜具備不同數(shù)據(jù)集版本之間的數(shù)據(jù)分析統(tǒng)計功能,對比數(shù)據(jù)分布差異;u)宜具備推理結(jié)果數(shù)據(jù)結(jié)果回傳模式。模型管理工具的功能要求包括:a)應(yīng)具備模型的導入導出、更新、版本管理和權(quán)限控制等基礎(chǔ)功能,模型導入導出地址應(yīng)具備本地及遠程對象存儲等多種形式;b)應(yīng)集成典型機器學習模型,具備模型的二次訓練和保存模型多版本參數(shù)的能力;c)應(yīng)基于多用戶的權(quán)限控制,具備模型的安全管控能力;d)應(yīng)提供模型封裝和發(fā)布的能力,通過統(tǒng)一的接口提供模型服務(wù)的調(diào)用;e)應(yīng)具備模型超參數(shù)的設(shè)置和保存功能;f)應(yīng)提供用戶友好的模型管理界面,展示模型的基本信息;g)應(yīng)具備包括算法、超參數(shù)、參數(shù)、模型輸入規(guī)范和模型輸出規(guī)范五個要素的模型存儲功能;7h)宜提供多種形式的建模方式,如拖拽式DAG和Notebook等;i)宜具備多人協(xié)同建模能力;j)宜提供完整的模型分析報告,提高用戶的模型選擇和決策能力。開發(fā)環(huán)境的功能要求包括:a)應(yīng)提供應(yīng)用編程接口方式和圖編排方式的應(yīng)用開發(fā)方式,具備系統(tǒng)級調(diào)優(yōu)、調(diào)試傳輸和異常分析等開發(fā)功能;b)應(yīng)具備應(yīng)用開發(fā)的單步調(diào)試功能;c)應(yīng)具備自定義算子開發(fā)和算子級別性能分析功能或工具;d)應(yīng)提供模型壓縮、模型轉(zhuǎn)換和模型顯示輸出工具;e)應(yīng)提供模型訓練調(diào)優(yōu)工具;f)宜提供從模型訓練到應(yīng)用開發(fā)、調(diào)試、系統(tǒng)集成、構(gòu)建打包和應(yīng)用部署等的一站式應(yīng)用集成開發(fā)環(huán)境;g)宜具備實時一站式圖形界面調(diào)試環(huán)境,如當文本、圖像、音頻和視頻等作為輸入數(shù)據(jù),開發(fā)環(huán)境可直接查看算法程序輸出結(jié)果;h)宜具備邊云協(xié)同的服務(wù)插件開發(fā)功能,如實現(xiàn)模型的邊云同步和證書管理等;i)宜具備算子開發(fā)的自動調(diào)優(yōu)、仿真調(diào)試調(diào)優(yōu)和最優(yōu)算子搜索工具。模型編譯器的功能要求包括:a)應(yīng)提供編譯器,對機器學習前端框架表達的計算過程進行圖級和算子級編譯;b)應(yīng)具備多種機器學習算法模型和算子到設(shè)備可執(zhí)行代碼的自動映射功能;c)應(yīng)具備機器學習算法程序的編譯優(yōu)化功能,如表達式化簡和內(nèi)存復(fù)用等;d)應(yīng)具備自定義算子注冊和編譯功能;e)應(yīng)具備計算圖的自動切分功能;f)應(yīng)具備編譯結(jié)果的存儲和載入功能;g)宜具備面向特定前端或硬件的定制優(yōu)化規(guī)則接入機制;h)宜具備面向計算性能或內(nèi)存空間的編譯參數(shù)自動尋優(yōu)功能。運維管理的功能要求包括:a)應(yīng)提供多用戶管理功能,具備多用戶的權(quán)限管理能力,具備身份鑒別系統(tǒng)(例如Kerberos);b)應(yīng)提供多租戶管理功能,具備租戶間的應(yīng)用隔離、數(shù)據(jù)隔離、資源隔離和運行隔離等功能;c)應(yīng)提供安裝與升級功能,具備分發(fā)安裝包、數(shù)據(jù)或模型參數(shù)文件,進行安裝、升級、擴展和回滾;d)應(yīng)提供備份與恢復(fù)功能,具備安裝包、數(shù)據(jù)或模型參數(shù)文件的備份能力,以供故障后的系統(tǒng)恢復(fù);e)應(yīng)具備運行環(huán)境的監(jiān)控能力,包括底層資源的統(tǒng)一監(jiān)控,如CPU利用率和系統(tǒng)負載等;f)應(yīng)提供日志管理功能,可根據(jù)日志進行故障定位及排查;g)應(yīng)提供針對監(jiān)控指標及日志的報警功能;h)宜提供主要監(jiān)控指標的可視化展示功能。87可靠性要求可靠性要求包括:a)應(yīng)具備跟蹤任務(wù)的執(zhí)行狀態(tài),并對異常任務(wù)進行提示的能力;b)應(yīng)具備資源受限或系統(tǒng)失效后持續(xù)提供或恢復(fù)服務(wù)的能力,如具備歷史版本回滾、框架提供參數(shù)的保存能力等;c)應(yīng)具備容錯機制,具備系統(tǒng)在檢測出異常輸入或危險操作時的錯誤提示功能;d)應(yīng)具備對誤操作的抵御能力,確保誤操作后系統(tǒng)的正常運行;e)應(yīng)具備不同容量場景過載控制機制;f)應(yīng)具備系統(tǒng)故障診斷能力,如機器學習框架可保存關(guān)鍵運行數(shù)據(jù)以用于故障定位和恢復(fù);g)應(yīng)具備系統(tǒng)故障隔離能力,如集群訓練中,單一節(jié)點出現(xiàn)故障時可快速隔離;h)宜具備系統(tǒng)狀態(tài)文件的冗余備份功能和容災(zāi)能力。8維護性要求維護性要求包括:a)應(yīng)具備數(shù)據(jù)集規(guī)模、均衡性、標注質(zhì)量和污染情況對算法結(jié)果的影響分析功能;b)應(yīng)具備在設(shè)計、實現(xiàn)和運行各階段對應(yīng)的性能度量指標和驗證方法;c)應(yīng)具備代碼實現(xiàn)算法功能的正確性分析能力,包括代碼規(guī)范性和代碼漏洞

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論