版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
ICS國際標(biāo)準(zhǔn)分類號
CCS中國標(biāo)準(zhǔn)文獻分類號
團體標(biāo)準(zhǔn)
T/CESXXX-XXXX
電力人工智能算法異構(gòu)硬件加速
技術(shù)規(guī)范
Technicalspecificationforheterogeneoushardwareaccelerationofelectric
powerartificialintelligencealgorithm
(征求意見稿)
XXXX-XX-XX發(fā)布XXXX-XX-XX實施
中國電工技術(shù)學(xué)會發(fā)布
T/CESXXX—XXXX
電力人工智能算法異構(gòu)硬件加速技術(shù)規(guī)范
1范圍
規(guī)范規(guī)定了電力領(lǐng)域中人工智能算法模型訓(xùn)練、推理異構(gòu)硬件加速的技術(shù)要求和評價方法,為電
力領(lǐng)域中線路巡檢、監(jiān)控等算法模型加速提供了技術(shù)參考和評價依據(jù)。
適用于支持訓(xùn)練和推理的人工智能框架硬件加速技術(shù)的評估。
2規(guī)范性引用文件
下列文件對于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文
件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。
GB/T1.1-2020標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:基本術(shù)語
GBT41867-2022信息技術(shù)人工智能術(shù)語
GB/T5271.1-2000信息技術(shù)詞匯第1部分:基本術(shù)語
GB/T5271.28-2001信息技術(shù)詞匯第28部分:人工智能基本概念與專家系統(tǒng)
GB/T5271.34-2006信息技術(shù)詞匯第34部分:人工智能神經(jīng)網(wǎng)絡(luò)
T/CES128-2022電力人工智能平臺總體架構(gòu)及技術(shù)要求
YD/T3944-2021人工智能芯片基準(zhǔn)測試評估方法
3術(shù)語和定義
下列術(shù)語和定義適用于本文件。
3.1
人工智能ArtificialIntelligence
一門交叉學(xué)科,通常視為計算機科學(xué)的分支,研究表現(xiàn)出與人類智能(如推理和學(xué)習(xí))相關(guān)的各
種功能的模型和系統(tǒng)。
[來源GB/T5271.28-2001,定義28.01.01]
3.2
異構(gòu)計算HeterogeneousComputing
不同類型指令集合體系架構(gòu)的計算單元組成系統(tǒng)的計算方式。
[來源:維基百科]
3.3
分布式計算Distributedcomputing
是一種需要進行大量計算的工程數(shù)據(jù)分割成小塊,由多臺計算機機器分別計算,在上傳計算結(jié)果
后,將結(jié)果統(tǒng)一合并的得出數(shù)據(jù)結(jié)論的科學(xué)。
[來源:維基百科]
3.4
深度學(xué)習(xí)deeplearning
通過訓(xùn)練具有許多隱藏層的神經(jīng)網(wǎng)絡(luò)來創(chuàng)建豐富層次表示的方法。
[來源:GBT41867-2022,3.4.27]
3.5
訓(xùn)練training
教會神經(jīng)網(wǎng)絡(luò)在輸入值的樣本和正確輸出值之間做出結(jié)合的步驟。
[來源:GB/T5271.34-2006,34.03.18]
3.6
推理inference
3
T/CESXXX—XXXX
從已知前提導(dǎo)出結(jié)論的推理方法。
注1:在人工智能領(lǐng)域,前提是事實或者規(guī)則。
注2:術(shù)語“推理”既指過程也指結(jié)果。
[來源:GB/T5271.28-2001,28.03.01]
3.7
計算量FLOPs
模型計算的浮點計算數(shù),衡量模型計算的時間復(fù)雜度。
3.8
參數(shù)量Params
模型參數(shù)所占用的字節(jié)數(shù),衡量模型的空間復(fù)雜度。
3.9
AI加速器artificialintelligenceaccelerator
一類專用于人工智能硬件加速的微處理器或計算系統(tǒng),通常由專用AI芯片制成,在通用或特定
人工智能領(lǐng)域上較通用GPU可達到或發(fā)揮更好的性能優(yōu)勢。呈現(xiàn)形態(tài)包含但不局限于GPU、FPGA、
ASIC。按任務(wù)可分為訓(xùn)練和推理兩類。
3.10
批量batch
訓(xùn)練樣本的一部分。
注1:對特定計算設(shè)備,當(dāng)訓(xùn)練樣本數(shù)量過大時,可將樣本分成若干批,分批訓(xùn)練。
注2:批中含有的樣本量是訓(xùn)練超參之一。
[來源:GB/T41867-2022,3.04.21]
3.11
批次epoch
在深度學(xué)習(xí)模型訓(xùn)練場景中,完整訓(xùn)練數(shù)據(jù)集的一次訓(xùn)練循環(huán),一個Epoch中,模型會對整個數(shù)
據(jù)集進行一次前向傳播和反向傳播,更新所有的參數(shù)。
3.12
迭代iteration(inneuralnetworks)
針對一批樣本,重復(fù)地執(zhí)行系列步驟直至完成訓(xùn)練的過程。
注1:一個(訓(xùn))期中的迭代數(shù)量等于該期中,訓(xùn)練樣本的批數(shù)。
[來源:GB/T41867-2022,3.04.04]
4符號、代號和縮略語
下列符號、代號和縮略語適用于本文件。
AI:人工智能(ArtificialIntelligence)
GPU:圖形處理器(GraphicsProcessingUnit)
FPGA:現(xiàn)場可程式門陣列(Field-ProgrammableGateArray)
CPU:中央處理器(CentralProcessingUnit)
NPU:神經(jīng)網(wǎng)絡(luò)處理器(Neural-networkProcessingUnit)
TPU:張量計算器(TensorProcessingUnit)
RDMA:遠程直接內(nèi)存訪問(RemoteDirectMemoryAccess)
PS:參數(shù)服務(wù)器(ParameterServer)
IR:中間表示(IntermediateRepresentation)
FPS:每秒鐘處理的幀數(shù)(FramesPerSecond)
QPS:每秒鐘的查詢數(shù)量(QueriesPerSecond)
4
T/CESXXX—XXXX
loss:損失函數(shù)的值
MOPS:處理器每秒鐘可進行一百萬次(MillionOperationPerSecond)
GOPS:處理器每秒鐘可進行十億次(GigaOperationsPerSecond)
TOPS:處理器每秒鐘可進行一萬億次(TeraOperationsPerSecond)
Broadcast:廣播機制
5電力人工智能算法異構(gòu)硬件加速框架
5.1概述
電力人工智能算法異構(gòu)加速包括:訓(xùn)練異構(gòu)硬件加速和推理異構(gòu)硬件加速,其總體架構(gòu)見圖1。
1)硬件加速評價指標(biāo):安裝部署、模型支持與驗證、訓(xùn)練性能測試、推理性能測試等;
2)硬件加速技術(shù)要求:分布式通信層接入接口(僅面向訓(xùn)練框架)、設(shè)備管理層接入接口、算子
適配層接入接口要求;
3)硬件平臺環(huán)境:不對硬件平臺進行技術(shù)要求定義,僅規(guī)范框架適配硬件平臺的環(huán)境要求。
硬
件
加安裝部署模型支持與驗證訓(xùn)練性能測試推理性能測試
速
評
價時間功耗能效FPSQPS...
指
標(biāo)
硬
訓(xùn)練異構(gòu)硬件加速
件推理異構(gòu)硬件加速
加
算子適配層接入算子適配層接入
速
技
設(shè)備管理層接入
術(shù)設(shè)備管理層接入
要分布式通信接入
求
硬訓(xùn)練芯片(服務(wù)器/集群)推理芯片(服務(wù)器/終端嵌入式)
件
平
臺通用處理器(CPU、GPU等)/AI加速器(ASIC
環(huán)
類型的加速器,如等/類型的加速器/類型的加速器)
境NPUFPGAGPU
圖1電力人工智能算法異構(gòu)硬件加速框架
5.2電力人工智能訓(xùn)練異構(gòu)加速(非必須)
訓(xùn)練流程包括數(shù)據(jù)加載(從磁盤獲取網(wǎng)絡(luò)存儲空間加載訓(xùn)練數(shù)據(jù))、數(shù)據(jù)預(yù)處理(將數(shù)據(jù)進行各
種數(shù)據(jù)增強變換和尺寸處理)、前向計算(將處理完成的數(shù)據(jù)輸入網(wǎng)絡(luò)計算loss)、反向傳播(根據(jù)
優(yōu)化器,反向梯度更新,優(yōu)化每一層的參數(shù))。
訓(xùn)練異構(gòu)加速分為單機訓(xùn)練模式的異構(gòu)組合和多級訓(xùn)練模式的異構(gòu)組合。
5.2.1單機訓(xùn)練模式下的異構(gòu)組合
5
T/CESXXX—XXXX
單機訓(xùn)練模式:異構(gòu)硬件在同一臺物理機器上,任務(wù)間不宜進行網(wǎng)絡(luò)通信。異構(gòu)硬件工作流程如
下圖所示。
圖2單機多卡模式工作流程
通用計算單元任務(wù)產(chǎn)生的數(shù)據(jù)由一個大的batch拆分成小的batch發(fā)送到AI加速器的內(nèi)存中,每
個計算單元取數(shù)據(jù)前向計算損失值loss,反向計算梯度后需要將各個計算單元的梯度取平均值,再返
回給各個計算單元更新模型參數(shù)。梯度平均值計算可以在通用計算單元或者AI加速器上運行。
5.2.2多機訓(xùn)練模式下的異構(gòu)組合
多機訓(xùn)練模式的異構(gòu)組合包括但不限于參數(shù)服務(wù)器PS(ParameterServer)結(jié)構(gòu)和基于規(guī)約RingAll
Reduce結(jié)構(gòu)兩種架構(gòu)。
a)PS結(jié)構(gòu):PS架構(gòu)的中心節(jié)點用來存儲參數(shù)和梯度,由一個/一組機器組成。當(dāng)更新梯度時,全局
中心節(jié)點接受其他worker節(jié)點的數(shù)據(jù),經(jīng)參數(shù)平均法等本地計算后,再broadcast廣播到所有其他worker。
隨著worker數(shù)量的增加,整體通信量線性增加。
b)RingAllReduce結(jié)構(gòu):N(N≥2)worker節(jié)點連接構(gòu)成一個環(huán),每個worker依次把自己的
梯度同步給緊鄰的worker,經(jīng)過至多2*(N-1)輪同步,所有worker完成梯度更新。所有節(jié)點是平等的,
隨著worker的增加,整體通信量并不隨著增加。
圖3多機多卡PS結(jié)構(gòu)
6
T/CESXXX—XXXX
圖4RingAllReduce結(jié)構(gòu)
5.3電力人工智能推理異構(gòu)加速
電力人工智能推理異構(gòu)加速是將訓(xùn)練得到的模型部署到特定異構(gòu)硬件上,其流程如下圖所示。
圖5電力人工智能推理異構(gòu)流程圖
推理步驟如下:
7
T/CESXXX—XXXX
a)模型IR轉(zhuǎn)換:從模型倉庫中導(dǎo)出訓(xùn)練的模型,轉(zhuǎn)換工具將訓(xùn)練模型IR轉(zhuǎn)換成當(dāng)前異構(gòu)硬件推
理引擎支持的IR。
b)計算圖初始化:導(dǎo)入模型IR和當(dāng)前計算單元的適配算子生成相應(yīng)硬件下的計算圖。
c)模型推理:數(shù)據(jù)前處理、計算圖前向計算、結(jié)果后處理。
6電力人工智能異構(gòu)硬件加速的技術(shù)要求
異構(gòu)硬件加速應(yīng)至少包括AI處理器、AI服務(wù)器、AI集群三種之一,應(yīng)符合但不限于以下要求:
a)應(yīng)支持以下1種或多種自主可控處理器架構(gòu),自主可控處理器包括但不限于鰓鵬等;基于復(fù)雜
指令集計算機架構(gòu)的處理器,如x86、x64架構(gòu);基于精簡指集計算機架構(gòu)的處理器如RISC-V、
ARM、MIPS等架構(gòu);
b)應(yīng)支持的硬件架構(gòu)包括但不限于FPGA和ARM內(nèi)核等;
c)應(yīng)支持以下至少1種計算單元,包括但不限于通用處理器CPU、GPU;ASIC類型的加速器,
如NPU等;FPGA類型的加速器;GPU類型的加速器;
d)應(yīng)支持至少1種主流的人工智能框架,包括但不限于TensorFlow、Pytorch、Caffe/Caffe2、
Mxnet、ONNX、MindSpore(昇思)或PaddlePaddle(飛槳)等。
e)應(yīng)支持的模型精度:FP64、FP32、FP16、INT4、INT8、INT16、BP16或混合精度等。其中,訓(xùn)
練場景精度應(yīng)支持FP16、FP32、FP64,推理場景下精度應(yīng)支持INT8、FP16。
f)設(shè)備管理層接口:對硬件平臺驅(qū)動與運行時的接入接口進行抽象與封裝,并向算子適配層、訓(xùn)
練與推理框架提供一致的設(shè)備管理層接口。
g)算子適配層接口:人工智能算子與目標(biāo)硬件算子內(nèi)核函數(shù)的映射與匹配,針對不同硬件類型規(guī)
范不同的適配接口。算子層適配接口應(yīng)提供算子開發(fā)或映射、子圖或整圖接入2種適配接口,宜提供
編譯器后端接入適配接口。硬件平臺可根據(jù)環(huán)境類型的不同,選擇不同的適配接口。
1)算子開發(fā)或映射:若硬件支持可編程算子內(nèi)核開發(fā)語言,或硬件具備對應(yīng)的AI算子庫,則可
以選擇該方式接入;
2)圖引擎接入:若硬件支持圖引擎,則可以選擇該方式進行子圖或整圖接入;
3)編譯器后端接入:若硬件支持編譯器后端,或硬件支持代碼生成器,則可以選擇該方式進行人
工智能編譯器的算子接入。
h)分布式通信層接口:對硬件平臺的集合通信庫接入框架的接口進行封裝與抽象,為上層的訓(xùn)練
框架提供一致的分布式通信層接口,允許硬件自行實現(xiàn)相應(yīng)接口接入框架。推理框架無需實現(xiàn)分布式
通信接口。
i)系統(tǒng)應(yīng)考慮兼容性問題,主板接口上支持多種計算設(shè)備的接入,電源系統(tǒng)應(yīng)能滿足多種計算設(shè)
備的功率需求。
6.1電力人工智能訓(xùn)練異構(gòu)硬件加速的技術(shù)要求(非必須)
電力人工智能訓(xùn)練異構(gòu)硬件加速的技術(shù)要求應(yīng)符合但不限于以下要求:
a)學(xué)習(xí)框架:應(yīng)具備基礎(chǔ)單卡、多卡與多機的模型訓(xùn)練功能;
b)操作系統(tǒng):應(yīng)支持基于Linux內(nèi)核的操作系統(tǒng);
c)芯片類型:應(yīng)在通用CPU和GPU之外支持至少一種AI訓(xùn)練芯片;
d)設(shè)備識別:硬件驅(qū)動應(yīng)支持選定操作系統(tǒng)的安裝/卸載,設(shè)備可正確識別,宜支持容器映射;
e)人工智能算法框架應(yīng)提供設(shè)備管理層接口供硬件平臺的驅(qū)動和運行時接入,使硬件可被框架識
別;
f)人工智能算法框架應(yīng)提供硬件算子的內(nèi)核函數(shù)注冊接口,供目標(biāo)硬件進行內(nèi)核函數(shù)或相關(guān)算子
庫的接入;
g)應(yīng)提供整圖或子圖組網(wǎng)信息與定義,由硬件平臺的圖引擎自行接管計算圖的組網(wǎng)與執(zhí)行并返回
計算結(jié)果;
h)宜提供編譯器后端接入接口規(guī)范。硬件廠商為其硬件提供編譯器后端,通過編譯器將框架側(cè)的
計算圖模型根據(jù)特定硬件目標(biāo)產(chǎn)生編譯器端的低級IR,然后根據(jù)硬件后端再轉(zhuǎn)化為某個具體硬件上的
可執(zhí)行代碼;
8
T/CESXXX—XXXX
i)應(yīng)提供分布式通信層接口供硬件平臺的集合通信庫接入,支持框架大規(guī)模分布式訓(xùn)練功能。
6.2電力人工智能推理異構(gòu)硬件加速的要求
電力人工智能推理異構(gòu)硬件加速的技術(shù)要求應(yīng)符合但不限于以下要求:
a)操作系統(tǒng):宜支持linux、windows等常用智能終端操作系統(tǒng)、嵌入式操作系統(tǒng)等;
b)芯片類型:應(yīng)在通用CPU和GPU之外支持至少一種專用AI推理芯片;
c)設(shè)備識別:硬件驅(qū)動應(yīng)支持選定操作系統(tǒng)的安裝/卸載,設(shè)備可正確識別,宜支持容器映射;
d)人工智能算法框架應(yīng)提供設(shè)備管理層接口供硬件平臺的驅(qū)動和運行時接入,使硬件可被框架識
別;
e)人工智能算法框架應(yīng)提供硬件算子的內(nèi)核函數(shù)注冊接口,供目標(biāo)硬件進行內(nèi)核函數(shù)或相關(guān)算子
庫的接入;
f)應(yīng)提供子圖檢測和融合的能力,運行時將檢測到的子圖原始算子通過下發(fā)子圖的方式,供硬件
接管,硬件負責(zé)相關(guān)算子的調(diào)度和執(zhí)行,并向框架返回輸出結(jié)果;
g)宜提供編譯器后端接入接口;
h)推理包括嵌入式推理和服務(wù)器推理,推理評價等級宜根據(jù)任務(wù)模型的參數(shù)量和計算量衡量,參
數(shù)量、計算量都大于0。模型的參數(shù)和參數(shù)量等級參考以下規(guī)則如表1,表2所示。
表1模型參數(shù)大小等級
參數(shù)量(單位MB)級別
≥1000C1
≥100C2
≥10C3
>0C4
表2模型計算量大小等級
計算量(G)級別
≥1000C1
≥100C2
≥10C3
>0C4
注:每秒操作數(shù)量OPS(Operationspersecond)作為衡量硬件算力水平的一個性能指標(biāo),單位包括:
MOPS:處理器每秒鐘可進行一百萬次(MillionOperationPerSecond)
GOPS:處理器每秒鐘可進行十億次(GigaOperationsPerSecond)
TOPS:處理器每秒鐘可進行一萬億次(TeraOperationsPerSecond)
i)異構(gòu)硬件加速部署相對于原始的訓(xùn)練模型輸出(典型以CPUFloat32計算為例)存在差異,差異
值的均方誤差作為異構(gòu)硬件的精度標(biāo)準(zhǔn),均方誤差值越小,整體的推理精度越高。電力人工智能推理
異構(gòu)加速精度等級如表3所示。
表3推理異構(gòu)硬件加速精度
輸出差異均方誤差級別
<10C1
<1C2
<0.1C3
<0.01C4
6.2.1電力人工智能不同場景的性能要求
電力人工智能包含有線路巡檢、監(jiān)控、數(shù)據(jù)分析等多種不同的應(yīng)用場景,不同的應(yīng)用場景對
于精度、速度與存在不同的要求,場景適用等級如下表所示:
表4推理所需精度級別
場景精度級別
電路巡檢數(shù)據(jù)離線檢測C1
電路巡檢數(shù)據(jù)實時檢測C2
9
T/CESXXX—XXXX
配電變電監(jiān)控C3
大數(shù)據(jù)分析預(yù)測C4
表5推理所需速度級別
場景速度級別
電路巡檢數(shù)據(jù)實時檢測C1
配電變電實時監(jiān)控C2
數(shù)據(jù)離線檢測C3
大數(shù)據(jù)分析預(yù)測C4
7電力人工智能異構(gòu)加速性能評估指標(biāo)及測試方法
7.1電力人工智能模型訓(xùn)練異構(gòu)加速性能評估指標(biāo)和測試方法
7.1.1安裝部署
基于選定的基礎(chǔ)軟硬件平臺,人工智能框架應(yīng)具備多種安裝部署能力,以便開發(fā)/測試/運維人員
進行使用/管理/維護/升級等工作:
a)應(yīng)提供對應(yīng)軟/硬件環(huán)境下的人工智能開發(fā)框架的安裝包,支持安裝/卸載功能;
b)應(yīng)提供對應(yīng)軟/硬件環(huán)境下的人工智能開發(fā)框架的容器運行鏡像,支持容器內(nèi)運行環(huán)境;
c)應(yīng)提供對應(yīng)軟/硬件環(huán)境下的人工智能開發(fā)框架的容器編譯鏡像,支持容器內(nèi)源碼編譯;
d)宜支持異構(gòu)CPU編譯并支持純CPU訓(xùn)練場景,支持CPU算子kernel優(yōu)化與加速。
7.1.2模型支持與驗證
基于選定的基礎(chǔ)軟硬件平臺,人工智能框架應(yīng)支持在圖像分類、目標(biāo)檢測等應(yīng)用領(lǐng)域的人工智能
模型及其評估。
7.1.3時間
在特定數(shù)據(jù)集上訓(xùn)練一個模型使其達到目標(biāo)準(zhǔn)確率時的訓(xùn)練時間(不包括預(yù)處理和模型加載時
間)。訓(xùn)練階段統(tǒng)計的時間指標(biāo)單位毫秒(ms),相關(guān)的評估指標(biāo)和評估方法如下:
a)單步訓(xùn)練用時
1)定義:針對具體的訓(xùn)練任務(wù),在一定大小的batch輸入,進行一次前向傳播反向梯度更新的計
算過程的耗時。
2)測量方法:
--在batch數(shù)據(jù)送入input節(jié)點的時間記為T0;
--在梯度更新完成的時間記為T1;
--單步訓(xùn)練的用時就為T1–T0。
說明:單個step的時間可以描述異構(gòu)計算中的純粹網(wǎng)絡(luò)計算的時間和梯度更新時間,這個時
間越短就越好,同時單個step下可以針對不同的batch的維度進行時間的統(tǒng)計,在時間比較上采
用相同的batch下進行比較。
b)總的訓(xùn)練用時
1)定義:針對一個具體的訓(xùn)練任務(wù),在訓(xùn)練數(shù)據(jù)一定,epoch一定時,總的任務(wù)所花費的時間。
2)測量方法:
--啟動訓(xùn)練的腳本的時間設(shè)置為Ts;
--訓(xùn)練程序退出的時間設(shè)置為Te;
--總的訓(xùn)練時間為Te–Ts。
說明:總的訓(xùn)練時間包含模型的初始化,數(shù)據(jù)加載,網(wǎng)絡(luò)訓(xùn)練計算,梯度更新模型保存等所有的
時間,這個可以反映整個人工智能算法訓(xùn)練異構(gòu)加速系統(tǒng)的整體性能,時間越短性能越高。
7.1.4實際計算利用率
訓(xùn)練階段統(tǒng)計異構(gòu)計算中計算設(shè)備在一段訓(xùn)練時間內(nèi)的實際利用率。
a)計算設(shè)備的使用率
1)定義:統(tǒng)計計算設(shè)備在一個訓(xùn)練周期內(nèi)的計算使用率。
10
T/CESXXX—XXXX
2)方法:
--在一個epoch的訓(xùn)練過程中間隔1s采樣獲取計算設(shè)備的使用率Si;
--統(tǒng)計一個epoch中所有的使用率的總和S以及采樣的個數(shù)N;
--單個epoch中計算單元的使用率為S/N。
說明:計算設(shè)備的利用率反映了整個訓(xùn)練系統(tǒng)在異構(gòu)硬件加速上的使用效率,這個指標(biāo)越高說明
系統(tǒng)采用設(shè)備的硬件加速越明顯,整體的效果越明顯。
7.1.5吞吐率
吞吐率反應(yīng)了整個異構(gòu)硬件加速系統(tǒng)針對訓(xùn)練業(yè)務(wù)的計算能力,單位是MB/s。
a)單個節(jié)點異構(gòu)硬件的吞吐率
1)定義:在訓(xùn)練過程中單EPOC時間內(nèi)處理的數(shù)據(jù)量和時間的比值。
2)方法:
--統(tǒng)計單個epoch的訓(xùn)練處理時間Ti;
--統(tǒng)計各個epoch的平均訓(xùn)練處理時間Ta;
--最終就是一個epoch的訓(xùn)練樣本數(shù)量/Ta。
說明:實際的吞吐率反映了單臺機器上異構(gòu)硬件針對訓(xùn)練過程中的數(shù)據(jù)加載、數(shù)據(jù)預(yù)處理、網(wǎng)絡(luò)前
向計算、反向傳播更新梯度全流程的能力。
b)集群系統(tǒng)異構(gòu)硬件的吞吐率
1)定義:同上
2)方法:
--統(tǒng)計單個節(jié)點上異構(gòu)硬件系統(tǒng)的吞吐率Thi;
--所有節(jié)點上的Thi進行平均就是系統(tǒng)的The。
7.1.6功耗
功耗是以瓦(W)為單位,反映了異構(gòu)設(shè)備在實際訓(xùn)練中功率使用情況。
a)平均功耗
1)定義:在整個訓(xùn)練過程中的平均功率。
2)測量方法:
--使用功率計周期采樣測量整機的功率;
--求取平均值就是訓(xùn)練過程的平均功耗。
說明:平均功耗反映了整個異構(gòu)加速系統(tǒng)在訓(xùn)練中的能源使用情況。
b)峰值功率
1)定義:在訓(xùn)練過程中異構(gòu)設(shè)備瞬時最大的功率。
2)測量方法:
--通過提高batch提高整個異構(gòu)設(shè)備的負載壓力;
--用功率計采集滿負荷下的運行功率,選擇功率做大的一個值作為峰值功率。
說明:峰值功率反映了異構(gòu)加速系統(tǒng)在使用過程中的最大功率。
7.1.7能效
能效指的是在單位能耗下訓(xùn)練處理的數(shù)量的多少,單位采用(MB/(W*S))。
a)單機能效
1)定義:單臺機器上異構(gòu)設(shè)備在單位能耗下訓(xùn)練處理的數(shù)量的多少。
2)方法:
--統(tǒng)計每個epoch運行期間設(shè)備的用電量Ei;
--對所有的epoch期間的電量求平均E;
--可以得到最終的能效為N/E(這里的N是一個epoch的數(shù)據(jù)數(shù)量)。
b)集群能效
1)定義:集群在單位能耗下訓(xùn)練處理的數(shù)據(jù)的數(shù)量多少。
2)方法:
--統(tǒng)計每個epoch運行期間集群的用電量Ei;
--對所有的epoch期間的電量求平均E;
--可以得到最終的能效為N/E(這里的N是一個epoch的數(shù)據(jù)數(shù)量)。
11
T/CESXXX—XXXX
能效也可以反映出異構(gòu)硬件在加速算法訓(xùn)練過程中的能源利用情況,能效越高整個異構(gòu)加速硬件
的能力越高。
7.2電力人工智能模型推理異構(gòu)加速性能評估指標(biāo)和測試方法
7.2.1安裝部署
基于選定的基礎(chǔ)軟硬件平臺,人工智能框架應(yīng)應(yīng)具備多種安裝部署能力,以便開發(fā)/測試/運維人
員進行使用/管理/維護/升級等工作:
a)應(yīng)提供對應(yīng)軟/硬件環(huán)境下的人工智能推理框架的安裝包,支持安裝/卸載功能;
b)應(yīng)提供對應(yīng)軟/硬件環(huán)境下的人工智能推理框架的C/C++推理庫,支持模型部署上線;
c)應(yīng)提供對應(yīng)軟/硬件環(huán)境下的人工智能推理框架的容器運行鏡像,支持容器內(nèi)運行環(huán)境;
d)應(yīng)提供對應(yīng)軟/硬件環(huán)境下的人工智能推理框架的容器編譯鏡像,支持容器內(nèi)源碼編譯。
7.2.2模型支持與驗證
基于選定的基礎(chǔ)軟硬件平臺,深度學(xué)習(xí)框架應(yīng)支持基礎(chǔ)模型,結(jié)果正確,性能符合對應(yīng)硬件預(yù)
期。
7.2.3時間
推理階段統(tǒng)計的時間指標(biāo)單位毫秒(ms),相關(guān)的評估指標(biāo)和評估方法如下:
a)單個數(shù)據(jù)的平均推理時間
1)定義:batch大小為1的數(shù)據(jù)完成數(shù)據(jù)前處理、數(shù)據(jù)拷貝到計算單元、計算單元網(wǎng)絡(luò)前向傳
播、從計算單元拷貝出來、結(jié)果后處理的總時間。
2)測量方法:
--將整個數(shù)據(jù)前處理、數(shù)據(jù)拷貝到計算單元、計算單元網(wǎng)絡(luò)前向傳播、從計算單元拷貝出來、結(jié)果
后處理封裝成一個模塊,將N個測試數(shù)據(jù)分別傳入模塊中去計算,獲取每個數(shù)據(jù)調(diào)用模塊的耗時Ti。
3)計算最終的平均推理時間為。
針對嵌入式實時場景,在功耗、輸入數(shù)據(jù)相同的情況下,單個數(shù)據(jù)的平均處理時間越短,整個異1?????1
????0
構(gòu)硬件加速更好?!????????
7.2.4FPS
FPS反應(yīng)了整個異構(gòu)硬件加速系統(tǒng)針對推理業(yè)務(wù)的計算能力,單位是MB/s。
a)單個計算節(jié)點的FPS
1)定義:單位時間內(nèi),單個計算節(jié)點處理的數(shù)據(jù)的數(shù)量。
2)測量方法:
--選取N個測試的數(shù)據(jù);
--統(tǒng)計每個數(shù)據(jù)經(jīng)過推理模塊的耗時Ti;
--將N個時間相加得到Ts;
--最終的FPS就是為N/Ts。
b)計算集群的FPS
1)定義:單位時間內(nèi),計算集群處理的數(shù)據(jù)的數(shù)量。
2)測量方法:
--選取N個測試數(shù)據(jù);
--將N個測試數(shù)據(jù)平均分配到M個計算節(jié)點上;
--統(tǒng)計每個節(jié)點上計算任務(wù)的開始時間Tis和介紹時間Tio;
--從M個Tis中找到最小的時間Tismin;
--從M個Tio中找到最大的時間Tiomax;
--整個計算系統(tǒng)的總耗時為T=Tiomax-Tismin;
--整個計算集群的FPS為N/T。
針對嵌入式實時場景,在網(wǎng)絡(luò)模型一定、數(shù)據(jù)一定的情況下,這個參數(shù)越大,反應(yīng)異構(gòu)加速能力
越強。
7.2.5QPS
QPS反映出異構(gòu)硬件服務(wù)器的推理服務(wù)提供能力,單位是MB/s。
a)單個服務(wù)器的最大QPS
12
T/CESXXX—XXXX
1)定義:在給定的響應(yīng)時延范圍內(nèi),單個異構(gòu)服務(wù)器單位時間最大的處理次數(shù)。
2)測量方法:
--客戶端安裝jmeter壓測工具;
--jmeter設(shè)定平均的響應(yīng)時間;
--客戶端會根據(jù)平均響應(yīng)時間設(shè)置不同的請求線程數(shù)進行壓測,jemter獲取對應(yīng)的Qi;
--選擇Qi最大的值作為最大的QPS。
b)服務(wù)器集群的最大QPS
1)定義:在給定的響應(yīng)時延范圍內(nèi),異構(gòu)服務(wù)器集群單位時間最大的處理次數(shù)。
2)測量方法:
--跟單機時測量方式一樣。
說明:最大QPS反映出了,在服務(wù)器端推理場景下的異構(gòu)加速服務(wù)器的處理能力,這個值越大越
好。
7.2.6計算資源的利用率
在推理階段異構(gòu)體系中計算資源的實際利用率。
a)單個計算設(shè)備的最大利
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- QC/T 746-2024壓縮天然氣汽車高壓管路
- GB/T 44976-2024技術(shù)性貿(mào)易措施評議指南
- 2024年航空輪胎項目資金申請報告
- 銀行合規(guī)管理制度實施效果
- 酒店餐飲服務(wù)安全與風(fēng)險防范制度
- 《餐飲服務(wù)人員培訓(xùn)》課件
- 【大學(xué)課件】煤礦機電設(shè)備安全管理 緒論
- 幼兒園小班班級年度總結(jié)(22篇)
- 幾種常見的酸堿鹽的特性及應(yīng)用課件
- 幼兒園玩教具配備-托小班
- 知識產(chǎn)權(quán)法(英文) Intellectual Property Right Law課件
- 綜合評分法評分表(建設(shè)工程)
- SBS卷材防水施工工藝
- 深化設(shè)計確認記錄
- 小學(xué)生心理健康教育課件
- 熱力管道焊接技術(shù)交底記錄大全
- 各級醫(yī)院健康體檢中心基本標(biāo)準(zhǔn)(2019年版)
- XX鎮(zhèn)2022年度農(nóng)產(chǎn)品綜合服務(wù)中心項目實施方案范本
- 早產(chǎn)兒保健管理
- 評標(biāo)專家及評標(biāo)員管理辦法
- aecopd護理查房課件
評論
0/150
提交評論