人工智能 計算中心 計算能力評估 征求意見稿_第1頁
人工智能 計算中心 計算能力評估 征求意見稿_第2頁
人工智能 計算中心 計算能力評估 征求意見稿_第3頁
人工智能 計算中心 計算能力評估 征求意見稿_第4頁
人工智能 計算中心 計算能力評估 征求意見稿_第5頁
已閱讀5頁,還剩25頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1GB/TXXXXX—XXXX人工智能計算中心計算能力評估本文件規(guī)定了人工智能計算中心計算能力的評價指標,給出了評估方法。本文件適用于人工智能計算中心計算能力的評估,也為人工智能計算中心規(guī)劃、設計、建設和運維提供參考依據(jù)。2規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T41867—2022信息技術人工智能術語信息技術GB/T42018―2022信息技術人工智能平臺計算資源規(guī)范信息技術GB/TAAAAA-AAAA人工智能服務器系統(tǒng)性能測試方法人工智能GB40879―2021數(shù)據(jù)中心能效限定值及能效等級GB50174―2017數(shù)據(jù)中心設計規(guī)范3術語和定義GB/T41867-2022和GB/T42018-2022界定的以及下列術語和定義適用于本文件。為了方便使用,以下重復列出了GB/T41867-2022和GB/T42018-2022中的某些術語和定義。3.1人工智能計算中心artificialintelligencecomputingcenters智算中心一種能夠為多用戶提供人工智能計算服務、數(shù)據(jù)容納的結構或結構組。注1:人工智能計算中心使用信息技術、電信網(wǎng)絡設備提供人工智能計算任務中涉及的數(shù)據(jù)存儲、處理、遷移和注2:人工智能計算中心包括計算、存儲、網(wǎng)絡等硬件設備,以及算力調(diào)度管理組件、深度學習框架、加速庫等3.2性能performance人工智能計算中心運行計算任務時,可被測量的特性。注:性能可基于一個或多個參數(shù)(如運行時間、能耗、吞吐率、有效等)的測量或計算獲得,以表征在某設備(組)中運行的某技術過程3.3計算節(jié)點computingnode2GB/TXXXXX—XXXX人工智能計算中心實施人工智能計算的部件。注:計算節(jié)點一般是人工智能加速器、人工智能加速卡、人工智能服3.4人工智能計算能力artificialintelligencecomputingcapability執(zhí)行人工智能任務或支持人工智能運算功能的能力。4縮略語下列縮略語適用于本文件:AI:人工智能(ArtificialIntelligence)BF16:布瑞恩半精度浮點數(shù)(BrainFloating-point)FLOPS:每秒浮點運算次數(shù)(FloatingPointOperationsPerSecond)FP16:半精度浮點數(shù)(Half-precisionFloating-pointformat)FP32:單精度浮點數(shù)(Single-precisionFloating-pointformat)FP64:雙精度浮點數(shù)(Double-precisionFloating-pointformat)INT8:8位整型數(shù)(8-bitInteger)I/O:輸入輸出(Input/Output)IOPS:每秒輸入輸出量(Input/OutputPerSecond)MTTR:平均故障恢復時長(MeanTimeToRepair)MTBF:平均無故障工作時長(MeanTimeBetweenFailures)5總則5.1評估對象智算中心滿足高性能和高可靠的人工智能計算需求,為多個用戶提供人工智能計算、數(shù)據(jù)處理等服務。用戶使用人工智能計算資源時,一般通過網(wǎng)絡將計算任務部署到計算中心的特定部分(節(jié)點或一組節(jié)點),在一定的計算能力配額之內(nèi),執(zhí)行計算任務。智算中心(架構圖見圖1)的計算能力由其中包含的人工智能加速器、網(wǎng)絡互聯(lián)部件、數(shù)據(jù)存儲設備、相關配套軟件及應用實現(xiàn)共同決定。3GB/TXXXXX—XXXX圖1智算中心架構圖5.2評估內(nèi)容概述智算中心的計算能力評估涉及多方面的考量,除了硬件資源本身能提供的物理算力規(guī)模外,還包括是否能通過網(wǎng)絡互聯(lián)、任務調(diào)度、計算優(yōu)化等技術有效整合物理資源,以及是否能穩(wěn)定、持續(xù)、高效地將計算資源轉化為服務人工智能任務的計算能力。本文件定義智算中心計算能力的評估指標體系,第5章提出計算能力評估的參考框架和分類指導,第6章規(guī)定了各維度的評估指標,第7章規(guī)定了評估方法。5.3評估框架圖2智算中心計算能力評估框架智算中心計算能力評估主要包括三個維度,其中每個維度下又劃分了評估域,每一個評估域下包含一個或一組評估指標:a)資源規(guī)模:4GB/TXXXXX—XXXX1)資源規(guī)模是智算中心的固有屬性;2)資源規(guī)模由AI加速處理器、存儲和網(wǎng)絡設備、計算節(jié)點可擴展性,及基礎設施建設、供電需求、物理空間等屬性綜合決定;3)資源規(guī)模評估主要從算力規(guī)模、組網(wǎng)規(guī)模、存儲規(guī)模三個評估域進行評估:其中,算力規(guī)模主要評估智算中心整體計算能力(如,所有計算節(jié)點總通用算力和所有計算節(jié)點總人工智能算力組網(wǎng)規(guī)模主要評估組網(wǎng)數(shù)量、網(wǎng)絡帶寬等能力,存儲規(guī)模主要評估整體存儲系統(tǒng)性能、存儲帶寬等能力。b)計算性能:1)計算性能指智算中心運行人工智能計算任務時可被測量的特性;2)計算性能由集群網(wǎng)絡通信設計、存儲系統(tǒng)I/O能力、算力規(guī)模和算法優(yōu)化等因素共同決定;3)通過一組或多組任務場景下的時間效率、資源利用率和能力指標體現(xiàn),以表征某一智算中心的計算特性和效率。c)可用性:1)可用性是指智算中心計算能力可被用戶使用的程度;2)可用性通過計算任務長穩(wěn)運行和故障恢復兩部分指標體現(xiàn);3)可用性由計算中心部件設備及鏈路的可靠性、AI計算中心冗余備份等系統(tǒng)可靠性設計及故障快速恢復機制等因素共同決定。5.4分類原則依據(jù)資源規(guī)模、計算性能和可用度三個維度綜合評估計算能力,智算中心劃分為5個類別(各類別對應的計算能力指標示例見附錄A),分別適用于不同的應用場景和用戶需求,分類原則如下:a)Cat1:計算資源在數(shù)百TFLOPS至數(shù)PFLOPS(FP16一般用于中小型企業(yè)日常處理的基礎型AI任務,滿足百億以下參數(shù)大模型的訓練,如垂直領域的行業(yè)大模型;b)Cat2:計算資源在數(shù)十PFLOPS(FP16一般用于大型企業(yè)日常處理更復雜的AI任務,滿足百億到千億區(qū)間參數(shù)大模型的訓練,如互聯(lián)網(wǎng)智能推薦系統(tǒng)、實時數(shù)據(jù)分析和更復雜的AI模型;c)Cat3:計算資源在數(shù)百PFLOPS(FP16),主要用于地區(qū)級算力需求,其為多個企業(yè)和機構提供共享的計算資源,滿足千億到萬億區(qū)間參數(shù)大模型的訓練以及小規(guī)模租賃業(yè)務,支持區(qū)域內(nèi)的大規(guī)模AI模型訓練和推理需求,如城市智能交通系統(tǒng)、智慧城市管理;d)Cat4:計算資源在數(shù)EFLOPS(FP16),主要用于國家級算力需求,滿足萬億到十萬億區(qū)間參數(shù)大模型的訓練,其用于支持全國范圍內(nèi)的大規(guī)模AI模型訓練和應用以及大規(guī)模租賃業(yè)務,通常用于國家級重大項目和戰(zhàn)略性研究,如國家級語言模型訓練、基因組研究中的AI應用;e)Cat5:計算資源在數(shù)十EFLOPS及以上(FP16),主要用于跨區(qū)域級算力需求,滿足超十萬億參數(shù)大模型的訓練,支持最前沿的AI研究和超大規(guī)模模型的訓練,如超大規(guī)模語言模型、宇宙模擬中的AI應用。6評估指標6.1算力規(guī)模智算中心中所含所有人工智能處理器的規(guī)格算力之和。算力規(guī)模CAB的定義見公式(1),量綱和適用關系見表1:CAB=[CAINT8,CAFP16,CABF16,CAFP32](1)式中:5GB/TXXXXX—XXXXCAINT8——智算中心中所含所有人工智能加速處理器對INT8精度計算能力之和;CAFP16——智算中心中所含所有人工智能加速處理器對FP16精度計算能力之和;CABP16——智算中心中所含所有人工智能加速處理器對BF16精度計算能力之和;CAFP32——智算中心中所含所有人工智能加速處理器對FP32精度計算能力之和。注2:智算中心的規(guī)格算力應包括所有用于人工表1智算中心規(guī)格算力量綱和適用關系注2:除上述列出的精度外,測試時可根據(jù)被測系統(tǒng)支持的范圍進行調(diào)6.2組網(wǎng)規(guī)模智算中心組網(wǎng)中處理節(jié)點的數(shù)量,表示網(wǎng)絡所能連接計算部件的規(guī)模。6.3存儲規(guī)模智算中心存儲規(guī)模包括總容量和可用容量:a)總存儲容量:存儲系統(tǒng)提供的存儲盤物理容量總和;b)可用存儲容量:存儲系統(tǒng)可用于存放數(shù)據(jù)的容量總和。6.4訓練性能6.4.1實際吞吐率智算中心實際吞吐率(又稱有效算力)見表2,反映智算中心對特定訓練作業(yè)的處理能力。注:對視覺類測試,單位是images/s;對自然語言處理類測試,單位是sentences/s;對自然語言生成類測試,吞吐率可為定長輸入(句中單詞或字的個數(shù))、輸出條件下,每秒處理的表2智算中心實際吞吐率AI計算中心達到訓練任務的測試中止條件時的數(shù)據(jù)量和任務執(zhí)行時間的AI計算系統(tǒng)在給定任務集合S上,實際吞吐率與每任務基線吞吐率之比的加6.4.2訓練時間6GB/TXXXXX—XXXX訓練時間是智算中心在特定數(shù)據(jù)集上訓練一個模型使其達到目標準確率或完成特定訓練輪數(shù)時所用的時間(不包括預處理和模型加載時間),總體訓練用時及其細化指標見表3。表3智算中心訓練時間第i個(i為正整數(shù))訓期運行用時T第j次(j為正整數(shù))驗證用時T第j次使用驗證數(shù)據(jù)集試運行當前模型,得出當前模型準模型格式轉化用時T節(jié)點間通信時延Ta訓練退出可有多種充分條件。正常結束訓練退出條件,如測試集b6.5推理性能6.5.1并發(fā)吞吐量智算中心線上系統(tǒng)服務每秒能成功處理的用戶請求數(shù)量,表征系統(tǒng)在高并發(fā)情況下的人工智能計算任務處理能力和性能。6.5.2推理時延智算中心多次處理推理任務或提供推理服務的間隔時間,時間單位為毫秒(ms推理任務總延時及其細化指標見表4。表4智算中心推理時延7GB/TXXXXX—XXXX單樣本推理延時T首語素延時T下個語素平均延時Ta因作業(yè)到達模式不同,推理總延時T可能包括被測者等待作業(yè)的間隔6.6通信性能6.6.1總線平面?zhèn)鬏攷捲谕ㄟ^總線協(xié)議連接的智算中心網(wǎng)絡系統(tǒng)中,從一個計算節(jié)點通過總線架構到另一個計算節(jié)點(包括AI加速處理器之間,或通用處理器與AI加速處理器之間)可以傳輸?shù)淖罡邤?shù)據(jù)速率,單位為bps,表征處理器之間的數(shù)據(jù)傳輸能力。注:通過總線協(xié)議以內(nèi)存語義等協(xié)議特征實現(xiàn)通信的6.6.2網(wǎng)絡平面?zhèn)鬏攷捲谥撬阒行木W(wǎng)絡系統(tǒng)中,從一個計算節(jié)點到另一個計算(存儲)節(jié)點進行通信的最高傳輸速率,單位為bps,表征該節(jié)點或服務器能夠向外發(fā)送數(shù)據(jù)的傳輸速率,是衡量網(wǎng)絡節(jié)點通信性能的重要指標。注:通過網(wǎng)絡協(xié)議以網(wǎng)絡語義等協(xié)議特征實現(xiàn)通信的6.6.3總線平面?zhèn)鬏敃r延在通過總線協(xié)議連接的智算中心網(wǎng)絡系統(tǒng)中,通過總線架構直接連接的兩個計算節(jié)點(包括AI加速處理器之間,或通用處理器與AI加速處理器之間)的最短通信時間和最長通信時間,單位為ms,表征總線平面節(jié)點間數(shù)據(jù)傳輸?shù)乃俾剩从彻?jié)點間通信性能。6.6.4網(wǎng)絡平面?zhèn)鬏敃r延在智算中心網(wǎng)絡系統(tǒng)中,從一個網(wǎng)絡節(jié)點到另一個網(wǎng)絡節(jié)點進行通信的最短時間和最長時間,單位為ms,表征網(wǎng)絡中節(jié)點間數(shù)據(jù)傳輸?shù)乃俾?,反映網(wǎng)絡延遲性能。6.6.5帶寬收斂比智算中心網(wǎng)絡架構中的所有下行接口的總帶寬與所有上行接口的總帶寬的比值。帶寬收斂比反映了計算中心的網(wǎng)絡通信性能。注:帶寬收斂,是指數(shù)據(jù)報文在計算中心網(wǎng)絡架構的傳輸過程中,由于網(wǎng)現(xiàn)無阻塞交換。在帶寬收斂時,網(wǎng)絡設備會有部分端口會被擁塞6.6.6網(wǎng)絡帶寬用一截面將網(wǎng)絡劃分為對等的兩半時,或者兩個節(jié)點數(shù)目都相同的子網(wǎng)時,穿過該截面的最大傳輸率。二分網(wǎng)絡帶寬是說明沿等分網(wǎng)絡最大通信帶寬的性能指標,表征了網(wǎng)絡吞吐率能力。6.7存儲性能8GB/TXXXXX—XXXX智算中心存儲系統(tǒng)中所有存儲節(jié)點瞬時能夠處理的輸入輸出操作總次數(shù)。IOPS評估存儲系統(tǒng)在高負載情況下的處理能力,反映系統(tǒng)的響應速度和效率。6.7.2存儲帶寬智算中心存儲系統(tǒng)中所有存儲節(jié)點或存儲設備的讀/寫帶寬進行合成所得到的總帶寬。存儲帶寬表征存儲系統(tǒng)在特定時間內(nèi)能夠支持的最大數(shù)據(jù)傳輸速率。6.8計算效率6.8.1算力利用率單位時間內(nèi)在智算中心硬件上執(zhí)行的浮點運算次數(shù)和計算設備的規(guī)格計算能力之比,用于衡量在指定負載下的軟硬件協(xié)同優(yōu)化能力,見公式7。算力利用率式中:t——單位耗時,單位秒s;N——智算中心中AI加速器數(shù)量;FLOPstep——模型單步(優(yōu)化)浮點運算次數(shù);FLOPStheory——AI加速器理論每秒浮點運算次數(shù)。6.8.2多卡線性度智算中心開展多卡并行計算時,同一計算任務從N個卡擴展到M個卡上的平均吞吐率的比值,見公式多卡線性度(8)式中:N,M——計算任務卡數(shù)從N個擴展到M個,M>N;TPN——在N個卡上執(zhí)行計算任務的總吞吐率;TPM——在M個卡上執(zhí)行計算任務的總吞吐率。6.9長穩(wěn)運行時間模型訓練過程中,兩次業(yè)務中斷之間的業(yè)務運行時長,表征系統(tǒng)的可靠性,反映系統(tǒng)在無中斷狀態(tài)下的持續(xù)工作的能力。6.10故障恢復時間6.10.1定義9GB/TXXXXX—XXXX智算中心在執(zhí)行特定任務時,某部分或整體從發(fā)生故障到恢復正常運行所需要的平均時間,見公式5和6。tF=tF2?tF1式中:TF1——發(fā)生同類故障而無法繼續(xù)執(zhí)行任務的時點;TF2——每次故障被修復,任務重新獲得執(zhí)行的時點;M——發(fā)生同類故障的次數(shù),M≥3;TF——故障恢復用時,單位為毫秒ms。6.10.2故障分級智算中心故障分為如下三個等級,應對不同等級的故障分別進行統(tǒng)計和處理:a)警告類故障:不影響AI服務器短時間正常運行、不會造成訓練任務中斷的故障,如AI服務器單個風扇故障、單個電源故障等可以快速替換部件恢復人工智能服務器正常運行的故障;b)緊急類故障:無法保證AI服務器短時間內(nèi)正常運行但訓練任務尚未中斷,需盡快排查處理的故障,如AI加速器等關鍵部件溫度超過閾值,單路電力系統(tǒng)故障,環(huán)境溫濕度輕微超出閾值等經(jīng)過處理可快速恢復且過程中沒有造成訓練中斷或者人工智能服務器異常宕機的故障;c)嚴重類故障:造成AI服務器宕機或訓練任務中斷的故障。如OS宕機、AI加速器掉卡、網(wǎng)絡端口異常斷開、存儲系統(tǒng)無法正常讀寫、電力中斷、環(huán)境溫濕度大幅超出閾值無法支持AI服務器正常運行等造成訓練異常終止的故障。6.11計算可用度計算資源可用度是智算中心的正常運行時間占總運行時間的百分比??捎枚缺碚髁讼到y(tǒng)能夠正常運行并提供服務的程度。見如下公式:計算可用度?100%(7)式中:T0——平均無故障工作時間;T1——平均故障恢復時間。7評估方法7.1總則第7章所規(guī)定的評估方法,宜使用AISBench-AICC工具進行實施,工具說明和使用流程見附錄B。7.2算力規(guī)模智算中心的算力規(guī)模,應按以下方法測量評估:a)對任一服務器單機;b)關閉系統(tǒng)節(jié)能設置,保持所有核心同時運行;c)核間通信帶寬不低于測試負載容量;GB/TXXXXX—XXXXd)按表1的規(guī)定,定義不同精度下,特定尺寸的矩陣乘法(元素為0或非0),并估計完成1次矩陣乘加所需計算量,矩陣尺寸應能完全使用核尺寸;e)使用單核執(zhí)行矩陣乘法,若干次獲得平均時間;f)求單核在特定精度下,單次矩陣乘的計算量與平均時間的商,作為單核標稱計算能力;g)累計服務器內(nèi)所有該精度單核標稱計算能力,作為單服務器特定精度標稱計算能力;h)累計所有服務器,在該精度下的標稱計算能力。7.3組網(wǎng)規(guī)模智算中心的組網(wǎng)規(guī)模指標,應按以下方法測量評估:a)準備必要的網(wǎng)絡拓撲測試工具或軟件;b)使用網(wǎng)絡拓撲測試工具測量網(wǎng)絡節(jié)點的數(shù)量,包括服務器、交換機、路由器等設備的數(shù)量。7.4存儲規(guī)模智算中心的存儲規(guī)模指標,應按以下方法測量評估:a)確定存儲集群中所有存儲設備的總物理容量,統(tǒng)計所有存儲盤的物理容量總和,記錄為存儲系統(tǒng)的裸容量;b)考慮存儲配置的冗余和數(shù)據(jù)保護機制(如RAID),計算存儲系統(tǒng)的可用容量,即實際可用于數(shù)據(jù)存放的容量。7.5訓練性能7.5.1實際吞吐率智算中心的訓練任務的實際吞吐率應按照GB/TAAAAA-AAAA中關于AI服務器集群訓練過程實際吞吐率的測量方法評估。7.5.2訓練時間智算中心訓練相關用時應按照GB/TAAAAA-AAAA中關于AI服務器集群訓練相關用時的測量方法評估。7.6推理性能7.6.1并發(fā)吞吐量智算中心的并發(fā)吞吐量指標,應按以下方法測量評估:a)編寫測試腳本模擬實際工作負載或直接使用系統(tǒng)服務核心代碼段作為負載;b)設置測試時間t需大于一個請求的完整響應時間,從較低的并發(fā)數(shù)開始,逐漸增加并發(fā)用戶數(shù)或請求頻率,觀察系統(tǒng)響應;c)記錄各并發(fā)量級測試階段的關鍵性能指標,如總吞吐量s等;d)計算各并發(fā)量級的吞吐量,選擇其中的最大值作為系統(tǒng)服務并發(fā)吞吐量。7.6.2推理時延智算中心的推理時延應按照GB/TAAAAA-AAAA中關于AI服務器集群推理時間測量方法評估。7.7通信性能智算中心的通信性能指標,應按以下表7所示方法測量評估。GB/TXXXXX—XXXX表4通信傳輸效率測量方法接系統(tǒng)內(nèi)的AI加速處理器,選取n對同一總線協(xié)議連接系統(tǒng)內(nèi)通用處理器與b)對每一組采樣處理器使用帶寬測量工具進c)計算m對AI加速處理器之間帶寬的均值作為AI加速處理器之間的總線平面?zhèn)鬏攷挘挥嬎鉵對通用處理器和AI加速處理器之間帶寬的均值作為通用b)使用網(wǎng)絡性能測試工具進行帶寬測量,記錄節(jié)點間的最大傳輸接系統(tǒng)內(nèi)的AI加速處理器,選取n對同一總線協(xié)議連接系統(tǒng)內(nèi)通用處理器與b)對每一組采樣處理器使用時延測量工具測量最短時間和最),對點時延的測量結果,用于表征網(wǎng)絡節(jié)點間b)使用帶寬測量工具獲得每臺服務器與匯聚交換機間的上行帶寬,與每臺c)計算所有服務器下行帶寬之和與上行帶寬之和,并計算二者的比值得到7.8存儲性能智算中心的存儲性能指標,應按以下表7所示方法測量評估。GB/TXXXXX—XXXX表5存儲性能指標測量方法b)使用IOPS測試工具測量存儲系統(tǒng)I/O性能,執(zhí)行I/c)進行m(3≤m≤10)次I/O測試,記錄測b)使用帶寬測試工具測量帶寬,執(zhí)行數(shù)據(jù)傳7.9計算效率7.9.1算力利用率智算中心的算力利用率指標,應按以下方法測量評估:a)使用性能測試工具,向計算中心提交一系列模型計算任務,確保任務充分覆蓋所有計算資源;b)監(jiān)控計算集群在任務執(zhí)行過程中的資源使用情況,包括CPU、GPU、內(nèi)存等;c)記錄每個計算任務的實際執(zhí)行時間和資源使用量(浮點運算次數(shù));d)統(tǒng)計該計算中心的卡數(shù)和單卡芯片理論算力;e)計算算力利用率。7.9.2多卡線性度智算中心的多卡線性度指標,應按以下方法測量評估:a)確定測試的AI加速器數(shù)量與型號,配置測試環(huán)境,確保一致性和穩(wěn)定性;b)選擇合適的測試工具和工作負載,如大模型訓練任務,分別在單卡、多卡環(huán)境中運行相同的任務;c)記錄不同卡數(shù)量下的性能數(shù)據(jù),如計算時間、吞吐量等,收集每種配置的運行結果;d)計算多卡相對于單卡性能的提升比例,繪制性能提升曲線,分析線性度。7.10長穩(wěn)運行時間智算中心的長穩(wěn)運行時間指標,應按以下方法測量評估:a)啟動計算中心工作一段時間進行數(shù)據(jù)收集,通過故障記錄系統(tǒng)或人工記錄等方式,統(tǒng)計業(yè)務中斷的發(fā)生時間、故障類型和恢復時間;b)對于每次業(yè)務中斷,記錄其發(fā)生時間與上一個業(yè)務中斷恢復時間之間的間隔;c)計算長穩(wěn)運行時間。7.11故障恢復時間智算中心的平均故障恢復時間指標,應按以下方法測量評估:a)明確故障范圍與類型,如服務器硬件故障、網(wǎng)絡中斷、數(shù)據(jù)損壞、電力中斷、軟件故障等;GB/TXXXXX—XXXXb)啟動計算中心工作一段時間進行數(shù)據(jù)收集,通過故障記錄系統(tǒng)或人工記錄等方式,監(jiān)測并記錄故障的發(fā)生時間、故障類型和恢復時間;c)計算所有故障恢復時間的平均值,作為故障恢復時間。7.12計算可用度智算中心的計算可用度指標,應在長穩(wěn)運行時間和故障恢復時間得出評估結果后,按照6.11定義計算得出。GB/TXXXXX—XXXX各類型智算中心的計算能力指標示例按照計算能力評估指標,各類型智算中心對應的量化要求如表A.1所示:表A.1計算能力指標要求------------------------------------------------GB/TXXXXX—XXXX(資料性)智算中心計算能力評估工具(AISBench-AICC)示例B.1工具說明智算中心計算能力評估工具套件(AISBench-AICC)是人工智能計算系統(tǒng)性能測試工具。AISBench-AICC適用于大型人工智能服務器集群、智算中心的規(guī)模、性能、可用性等指標評估,兼容主流人工智能加速器類型,如CPU、GPU、NPU等,兼容主流深度學習軟件框架。AISBench-AICC是本標準的配套評估工具。B.2工具使用流程AISBench-AICC使用流程見圖B-1:其中:a)由測試方(測試機構)與被測方確立測試項;b)測試方在本地測試數(shù)據(jù)庫注冊測試項,并生成測試ID;c)測試方返回每個測試項的ID給被測方,被測方編輯、調(diào)試測試代碼,在正式測試腳本中使用ID;d)被測方啟動正式測試,測試方探知并監(jiān)視測試、獲得測試結果。GB/TXXXXX—XXXX參考文獻[1]Nikolaset.al.ElasticityinCloudComputing:WhatItIs,andWhatItIsNot[C].Proceedingsofthe10thInternationalConferenceonAutonomicComputing(ICAC2013).CA,US:2013.[2]Nikolaset.al.ReadyforRain?AViewfromSPECResearchontheFutureofCloudMetrics[R].TechnicalReportSPEC-RG-2016-01,SPECResearchGroup-CloudWorkingGroup,StandardPerformanceEvaluationCorporation(SPEC),2016.[3]Liu,W.;etal.SSD:SingleShotMultiBoxDetector[J].ComputerVision–ECCV2016.LNCS,vol9905.Springer.2016:21-37.[4]Ren,S.;etal.FasterR-CNN:TowardsReal-TimeObjectDetectionwithRegionProposalNetworks[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,2017,39(6):1137-1149.[5]Chen,L.C;etal.RethinkingAtrousConvolutionforSemanticImageSegmentation[J].CoRRabs/1706:05587.arXiv.2017.[6]Devlin,J.;etal.BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding[J].CoRRabs/1810.04805.arXiv.2018.[7]Amodei,D.;etal.DeepSpeech2:End-to-EndSpeechRecognitioninEnglishandMandarin[C].Proceedingsofthe33rdInternationalConferenceonMachineLearning(ICML),NY,US:JMLRW&CPvol48,2015:1-28.[8]Zhou,X.;etal.EAST:AnEfficientandAccurateSceneTextDetector[C].ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition(CVPR),HI,US:IEEE,2017:2642-2651.[9]Schroff,F.;etal.FaceNet:AUnifiedEmbeddingforFaceRecognitionandClustering[C].ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition(CVPR),MA,US:IEEE,2015:815-823.[10]Vaswani,A.;etal.AttentionIsAllYouNeed[J].abs/1706.03762.arXiv.2017.[11]Cheng,H.T.;etal.Wide&DeepLearningforRecommenderSystems[C].Proceedingsofthe1stWorkshoponDeepLearningforRecommenderSystems:ACM,2016:7–10.[12]Wu,Y.;etal.Google'sNeuralMachineTranslationSystem:BridgingtheGapbetweenHumanandMachineTranslation[J].CoRRabs/1609.8144.arXiv.2016.[13]GB/T25000.22-2019系統(tǒng)與軟件工程系統(tǒng)與軟件質(zhì)量要求和評價(SQUARE)第22部分:使用質(zhì)量測量[S][14]GB/T17166-2019能源審計技術通則[S][15]Giladi,R.andAhituv,N.;SPECasaPerformanceEvaluationMeasure[J].Computer,1995,[16]GB/T41867—2022信息技術人工智能術語[S][17]GB/T42018—2022信息技術人工智能平臺計算資源規(guī)范[S][18]TouvronH,La

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論