《電力人工智能算法異構(gòu)硬件加速技術(shù)規(guī)范》_第1頁
《電力人工智能算法異構(gòu)硬件加速技術(shù)規(guī)范》_第2頁
《電力人工智能算法異構(gòu)硬件加速技術(shù)規(guī)范》_第3頁
《電力人工智能算法異構(gòu)硬件加速技術(shù)規(guī)范》_第4頁
《電力人工智能算法異構(gòu)硬件加速技術(shù)規(guī)范》_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

ICS國際標(biāo)準(zhǔn)分類號

CCS中國標(biāo)準(zhǔn)文獻分類號

團體標(biāo)準(zhǔn)

T/CESXXX-XXXX

電力人工智能算法異構(gòu)硬件加速

技術(shù)規(guī)范

Technicalspecificationforheterogeneoushardwareaccelerationofelectric

powerartificialintelligencealgorithm

(征求意見稿)

XXXX-XX-XX發(fā)布XXXX-XX-XX實施

中國電工技術(shù)學(xué)會發(fā)布

T/CESXXX—XXXX

電力人工智能算法異構(gòu)硬件加速技術(shù)規(guī)范

1范圍

規(guī)范規(guī)定了電力領(lǐng)域中人工智能算法模型訓(xùn)練、推理異構(gòu)硬件加速的技術(shù)要求和評價方法,為電

力領(lǐng)域中線路巡檢、監(jiān)控等算法模型加速提供了技術(shù)參考和評價依據(jù)。

適用于支持訓(xùn)練和推理的人工智能框架硬件加速技術(shù)的評估。

2規(guī)范性引用文件

下列文件對于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文

件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。

GB/T1.1-2020標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:基本術(shù)語

GBT41867-2022信息技術(shù)人工智能術(shù)語

GB/T5271.1-2000信息技術(shù)詞匯第1部分:基本術(shù)語

GB/T5271.28-2001信息技術(shù)詞匯第28部分:人工智能基本概念與專家系統(tǒng)

GB/T5271.34-2006信息技術(shù)詞匯第34部分:人工智能神經(jīng)網(wǎng)絡(luò)

T/CES128-2022電力人工智能平臺總體架構(gòu)及技術(shù)要求

YD/T3944-2021人工智能芯片基準(zhǔn)測試評估方法

3術(shù)語和定義

下列術(shù)語和定義適用于本文件。

3.1

人工智能ArtificialIntelligence

一門交叉學(xué)科,通常視為計算機科學(xué)的分支,研究表現(xiàn)出與人類智能(如推理和學(xué)習(xí))相關(guān)的各

種功能的模型和系統(tǒng)。

[來源GB/T5271.28-2001,定義28.01.01]

3.2

異構(gòu)計算HeterogeneousComputing

不同類型指令集合體系架構(gòu)的計算單元組成系統(tǒng)的計算方式。

[來源:維基百科]

3.3

分布式計算Distributedcomputing

是一種需要進行大量計算的工程數(shù)據(jù)分割成小塊,由多臺計算機機器分別計算,在上傳計算結(jié)果

后,將結(jié)果統(tǒng)一合并的得出數(shù)據(jù)結(jié)論的科學(xué)。

[來源:維基百科]

3.4

深度學(xué)習(xí)deeplearning

通過訓(xùn)練具有許多隱藏層的神經(jīng)網(wǎng)絡(luò)來創(chuàng)建豐富層次表示的方法。

[來源:GBT41867-2022,3.4.27]

3.5

訓(xùn)練training

教會神經(jīng)網(wǎng)絡(luò)在輸入值的樣本和正確輸出值之間做出結(jié)合的步驟。

[來源:GB/T5271.34-2006,34.03.18]

3.6

推理inference

3

T/CESXXX—XXXX

從已知前提導(dǎo)出結(jié)論的推理方法。

注1:在人工智能領(lǐng)域,前提是事實或者規(guī)則。

注2:術(shù)語“推理”既指過程也指結(jié)果。

[來源:GB/T5271.28-2001,28.03.01]

3.7

計算量FLOPs

模型計算的浮點計算數(shù),衡量模型計算的時間復(fù)雜度。

3.8

參數(shù)量Params

模型參數(shù)所占用的字節(jié)數(shù),衡量模型的空間復(fù)雜度。

3.9

AI加速器artificialintelligenceaccelerator

一類專用于人工智能硬件加速的微處理器或計算系統(tǒng),通常由專用AI芯片制成,在通用或特定

人工智能領(lǐng)域上較通用GPU可達到或發(fā)揮更好的性能優(yōu)勢。呈現(xiàn)形態(tài)包含但不局限于GPU、FPGA、

ASIC。按任務(wù)可分為訓(xùn)練和推理兩類。

3.10

批量batch

訓(xùn)練樣本的一部分。

注1:對特定計算設(shè)備,當(dāng)訓(xùn)練樣本數(shù)量過大時,可將樣本分成若干批,分批訓(xùn)練。

注2:批中含有的樣本量是訓(xùn)練超參之一。

[來源:GB/T41867-2022,3.04.21]

3.11

批次epoch

在深度學(xué)習(xí)模型訓(xùn)練場景中,完整訓(xùn)練數(shù)據(jù)集的一次訓(xùn)練循環(huán),一個Epoch中,模型會對整個數(shù)

據(jù)集進行一次前向傳播和反向傳播,更新所有的參數(shù)。

3.12

迭代iteration(inneuralnetworks)

針對一批樣本,重復(fù)地執(zhí)行系列步驟直至完成訓(xùn)練的過程。

注1:一個(訓(xùn))期中的迭代數(shù)量等于該期中,訓(xùn)練樣本的批數(shù)。

[來源:GB/T41867-2022,3.04.04]

4符號、代號和縮略語

下列符號、代號和縮略語適用于本文件。

AI:人工智能(ArtificialIntelligence)

GPU:圖形處理器(GraphicsProcessingUnit)

FPGA:現(xiàn)場可程式門陣列(Field-ProgrammableGateArray)

CPU:中央處理器(CentralProcessingUnit)

NPU:神經(jīng)網(wǎng)絡(luò)處理器(Neural-networkProcessingUnit)

TPU:張量計算器(TensorProcessingUnit)

RDMA:遠程直接內(nèi)存訪問(RemoteDirectMemoryAccess)

PS:參數(shù)服務(wù)器(ParameterServer)

IR:中間表示(IntermediateRepresentation)

FPS:每秒鐘處理的幀數(shù)(FramesPerSecond)

QPS:每秒鐘的查詢數(shù)量(QueriesPerSecond)

4

T/CESXXX—XXXX

loss:損失函數(shù)的值

MOPS:處理器每秒鐘可進行一百萬次(MillionOperationPerSecond)

GOPS:處理器每秒鐘可進行十億次(GigaOperationsPerSecond)

TOPS:處理器每秒鐘可進行一萬億次(TeraOperationsPerSecond)

Broadcast:廣播機制

5電力人工智能算法異構(gòu)硬件加速框架

5.1概述

電力人工智能算法異構(gòu)加速包括:訓(xùn)練異構(gòu)硬件加速和推理異構(gòu)硬件加速,其總體架構(gòu)見圖1。

1)硬件加速評價指標(biāo):安裝部署、模型支持與驗證、訓(xùn)練性能測試、推理性能測試等;

2)硬件加速技術(shù)要求:分布式通信層接入接口(僅面向訓(xùn)練框架)、設(shè)備管理層接入接口、算子

適配層接入接口要求;

3)硬件平臺環(huán)境:不對硬件平臺進行技術(shù)要求定義,僅規(guī)范框架適配硬件平臺的環(huán)境要求。

加安裝部署模型支持與驗證訓(xùn)練性能測試推理性能測試

價時間功耗能效FPSQPS...

標(biāo)

訓(xùn)練異構(gòu)硬件加速

件推理異構(gòu)硬件加速

算子適配層接入算子適配層接入

設(shè)備管理層接入

術(shù)設(shè)備管理層接入

要分布式通信接入

硬訓(xùn)練芯片(服務(wù)器/集群)推理芯片(服務(wù)器/終端嵌入式)

臺通用處理器(CPU、GPU等)/AI加速器(ASIC

環(huán)

類型的加速器,如等/類型的加速器/類型的加速器)

境NPUFPGAGPU

圖1電力人工智能算法異構(gòu)硬件加速框架

5.2電力人工智能訓(xùn)練異構(gòu)加速(非必須)

訓(xùn)練流程包括數(shù)據(jù)加載(從磁盤獲取網(wǎng)絡(luò)存儲空間加載訓(xùn)練數(shù)據(jù))、數(shù)據(jù)預(yù)處理(將數(shù)據(jù)進行各

種數(shù)據(jù)增強變換和尺寸處理)、前向計算(將處理完成的數(shù)據(jù)輸入網(wǎng)絡(luò)計算loss)、反向傳播(根據(jù)

優(yōu)化器,反向梯度更新,優(yōu)化每一層的參數(shù))。

訓(xùn)練異構(gòu)加速分為單機訓(xùn)練模式的異構(gòu)組合和多級訓(xùn)練模式的異構(gòu)組合。

5.2.1單機訓(xùn)練模式下的異構(gòu)組合

5

T/CESXXX—XXXX

單機訓(xùn)練模式:異構(gòu)硬件在同一臺物理機器上,任務(wù)間不宜進行網(wǎng)絡(luò)通信。異構(gòu)硬件工作流程如

下圖所示。

圖2單機多卡模式工作流程

通用計算單元任務(wù)產(chǎn)生的數(shù)據(jù)由一個大的batch拆分成小的batch發(fā)送到AI加速器的內(nèi)存中,每

個計算單元取數(shù)據(jù)前向計算損失值loss,反向計算梯度后需要將各個計算單元的梯度取平均值,再返

回給各個計算單元更新模型參數(shù)。梯度平均值計算可以在通用計算單元或者AI加速器上運行。

5.2.2多機訓(xùn)練模式下的異構(gòu)組合

多機訓(xùn)練模式的異構(gòu)組合包括但不限于參數(shù)服務(wù)器PS(ParameterServer)結(jié)構(gòu)和基于規(guī)約RingAll

Reduce結(jié)構(gòu)兩種架構(gòu)。

a)PS結(jié)構(gòu):PS架構(gòu)的中心節(jié)點用來存儲參數(shù)和梯度,由一個/一組機器組成。當(dāng)更新梯度時,全局

中心節(jié)點接受其他worker節(jié)點的數(shù)據(jù),經(jīng)參數(shù)平均法等本地計算后,再broadcast廣播到所有其他worker。

隨著worker數(shù)量的增加,整體通信量線性增加。

b)RingAllReduce結(jié)構(gòu):N(N≥2)worker節(jié)點連接構(gòu)成一個環(huán),每個worker依次把自己的

梯度同步給緊鄰的worker,經(jīng)過至多2*(N-1)輪同步,所有worker完成梯度更新。所有節(jié)點是平等的,

隨著worker的增加,整體通信量并不隨著增加。

圖3多機多卡PS結(jié)構(gòu)

6

T/CESXXX—XXXX

圖4RingAllReduce結(jié)構(gòu)

5.3電力人工智能推理異構(gòu)加速

電力人工智能推理異構(gòu)加速是將訓(xùn)練得到的模型部署到特定異構(gòu)硬件上,其流程如下圖所示。

圖5電力人工智能推理異構(gòu)流程圖

推理步驟如下:

7

T/CESXXX—XXXX

a)模型IR轉(zhuǎn)換:從模型倉庫中導(dǎo)出訓(xùn)練的模型,轉(zhuǎn)換工具將訓(xùn)練模型IR轉(zhuǎn)換成當(dāng)前異構(gòu)硬件推

理引擎支持的IR。

b)計算圖初始化:導(dǎo)入模型IR和當(dāng)前計算單元的適配算子生成相應(yīng)硬件下的計算圖。

c)模型推理:數(shù)據(jù)前處理、計算圖前向計算、結(jié)果后處理。

6電力人工智能異構(gòu)硬件加速的技術(shù)要求

異構(gòu)硬件加速應(yīng)至少包括AI處理器、AI服務(wù)器、AI集群三種之一,應(yīng)符合但不限于以下要求:

a)應(yīng)支持以下1種或多種自主可控處理器架構(gòu),自主可控處理器包括但不限于鰓鵬等;基于復(fù)雜

指令集計算機架構(gòu)的處理器,如x86、x64架構(gòu);基于精簡指集計算機架構(gòu)的處理器如RISC-V、

ARM、MIPS等架構(gòu);

b)應(yīng)支持的硬件架構(gòu)包括但不限于FPGA和ARM內(nèi)核等;

c)應(yīng)支持以下至少1種計算單元,包括但不限于通用處理器CPU、GPU;ASIC類型的加速器,

如NPU等;FPGA類型的加速器;GPU類型的加速器;

d)應(yīng)支持至少1種主流的人工智能框架,包括但不限于TensorFlow、Pytorch、Caffe/Caffe2、

Mxnet、ONNX、MindSpore(昇思)或PaddlePaddle(飛槳)等。

e)應(yīng)支持的模型精度:FP64、FP32、FP16、INT4、INT8、INT16、BP16或混合精度等。其中,訓(xùn)

練場景精度應(yīng)支持FP16、FP32、FP64,推理場景下精度應(yīng)支持INT8、FP16。

f)設(shè)備管理層接口:對硬件平臺驅(qū)動與運行時的接入接口進行抽象與封裝,并向算子適配層、訓(xùn)

練與推理框架提供一致的設(shè)備管理層接口。

g)算子適配層接口:人工智能算子與目標(biāo)硬件算子內(nèi)核函數(shù)的映射與匹配,針對不同硬件類型規(guī)

范不同的適配接口。算子層適配接口應(yīng)提供算子開發(fā)或映射、子圖或整圖接入2種適配接口,宜提供

編譯器后端接入適配接口。硬件平臺可根據(jù)環(huán)境類型的不同,選擇不同的適配接口。

1)算子開發(fā)或映射:若硬件支持可編程算子內(nèi)核開發(fā)語言,或硬件具備對應(yīng)的AI算子庫,則可

以選擇該方式接入;

2)圖引擎接入:若硬件支持圖引擎,則可以選擇該方式進行子圖或整圖接入;

3)編譯器后端接入:若硬件支持編譯器后端,或硬件支持代碼生成器,則可以選擇該方式進行人

工智能編譯器的算子接入。

h)分布式通信層接口:對硬件平臺的集合通信庫接入框架的接口進行封裝與抽象,為上層的訓(xùn)練

框架提供一致的分布式通信層接口,允許硬件自行實現(xiàn)相應(yīng)接口接入框架。推理框架無需實現(xiàn)分布式

通信接口。

i)系統(tǒng)應(yīng)考慮兼容性問題,主板接口上支持多種計算設(shè)備的接入,電源系統(tǒng)應(yīng)能滿足多種計算設(shè)

備的功率需求。

6.1電力人工智能訓(xùn)練異構(gòu)硬件加速的技術(shù)要求(非必須)

電力人工智能訓(xùn)練異構(gòu)硬件加速的技術(shù)要求應(yīng)符合但不限于以下要求:

a)學(xué)習(xí)框架:應(yīng)具備基礎(chǔ)單卡、多卡與多機的模型訓(xùn)練功能;

b)操作系統(tǒng):應(yīng)支持基于Linux內(nèi)核的操作系統(tǒng);

c)芯片類型:應(yīng)在通用CPU和GPU之外支持至少一種AI訓(xùn)練芯片;

d)設(shè)備識別:硬件驅(qū)動應(yīng)支持選定操作系統(tǒng)的安裝/卸載,設(shè)備可正確識別,宜支持容器映射;

e)人工智能算法框架應(yīng)提供設(shè)備管理層接口供硬件平臺的驅(qū)動和運行時接入,使硬件可被框架識

別;

f)人工智能算法框架應(yīng)提供硬件算子的內(nèi)核函數(shù)注冊接口,供目標(biāo)硬件進行內(nèi)核函數(shù)或相關(guān)算子

庫的接入;

g)應(yīng)提供整圖或子圖組網(wǎng)信息與定義,由硬件平臺的圖引擎自行接管計算圖的組網(wǎng)與執(zhí)行并返回

計算結(jié)果;

h)宜提供編譯器后端接入接口規(guī)范。硬件廠商為其硬件提供編譯器后端,通過編譯器將框架側(cè)的

計算圖模型根據(jù)特定硬件目標(biāo)產(chǎn)生編譯器端的低級IR,然后根據(jù)硬件后端再轉(zhuǎn)化為某個具體硬件上的

可執(zhí)行代碼;

8

T/CESXXX—XXXX

i)應(yīng)提供分布式通信層接口供硬件平臺的集合通信庫接入,支持框架大規(guī)模分布式訓(xùn)練功能。

6.2電力人工智能推理異構(gòu)硬件加速的要求

電力人工智能推理異構(gòu)硬件加速的技術(shù)要求應(yīng)符合但不限于以下要求:

a)操作系統(tǒng):宜支持linux、windows等常用智能終端操作系統(tǒng)、嵌入式操作系統(tǒng)等;

b)芯片類型:應(yīng)在通用CPU和GPU之外支持至少一種專用AI推理芯片;

c)設(shè)備識別:硬件驅(qū)動應(yīng)支持選定操作系統(tǒng)的安裝/卸載,設(shè)備可正確識別,宜支持容器映射;

d)人工智能算法框架應(yīng)提供設(shè)備管理層接口供硬件平臺的驅(qū)動和運行時接入,使硬件可被框架識

別;

e)人工智能算法框架應(yīng)提供硬件算子的內(nèi)核函數(shù)注冊接口,供目標(biāo)硬件進行內(nèi)核函數(shù)或相關(guān)算子

庫的接入;

f)應(yīng)提供子圖檢測和融合的能力,運行時將檢測到的子圖原始算子通過下發(fā)子圖的方式,供硬件

接管,硬件負責(zé)相關(guān)算子的調(diào)度和執(zhí)行,并向框架返回輸出結(jié)果;

g)宜提供編譯器后端接入接口;

h)推理包括嵌入式推理和服務(wù)器推理,推理評價等級宜根據(jù)任務(wù)模型的參數(shù)量和計算量衡量,參

數(shù)量、計算量都大于0。模型的參數(shù)和參數(shù)量等級參考以下規(guī)則如表1,表2所示。

表1模型參數(shù)大小等級

參數(shù)量(單位MB)級別

≥1000C1

≥100C2

≥10C3

>0C4

表2模型計算量大小等級

計算量(G)級別

≥1000C1

≥100C2

≥10C3

>0C4

注:每秒操作數(shù)量OPS(Operationspersecond)作為衡量硬件算力水平的一個性能指標(biāo),單位包括:

MOPS:處理器每秒鐘可進行一百萬次(MillionOperationPerSecond)

GOPS:處理器每秒鐘可進行十億次(GigaOperationsPerSecond)

TOPS:處理器每秒鐘可進行一萬億次(TeraOperationsPerSecond)

i)異構(gòu)硬件加速部署相對于原始的訓(xùn)練模型輸出(典型以CPUFloat32計算為例)存在差異,差異

值的均方誤差作為異構(gòu)硬件的精度標(biāo)準(zhǔn),均方誤差值越小,整體的推理精度越高。電力人工智能推理

異構(gòu)加速精度等級如表3所示。

表3推理異構(gòu)硬件加速精度

輸出差異均方誤差級別

<10C1

<1C2

<0.1C3

<0.01C4

6.2.1電力人工智能不同場景的性能要求

電力人工智能包含有線路巡檢、監(jiān)控、數(shù)據(jù)分析等多種不同的應(yīng)用場景,不同的應(yīng)用場景對

于精度、速度與存在不同的要求,場景適用等級如下表所示:

表4推理所需精度級別

場景精度級別

電路巡檢數(shù)據(jù)離線檢測C1

電路巡檢數(shù)據(jù)實時檢測C2

9

T/CESXXX—XXXX

配電變電監(jiān)控C3

大數(shù)據(jù)分析預(yù)測C4

表5推理所需速度級別

場景速度級別

電路巡檢數(shù)據(jù)實時檢測C1

配電變電實時監(jiān)控C2

數(shù)據(jù)離線檢測C3

大數(shù)據(jù)分析預(yù)測C4

7電力人工智能異構(gòu)加速性能評估指標(biāo)及測試方法

7.1電力人工智能模型訓(xùn)練異構(gòu)加速性能評估指標(biāo)和測試方法

7.1.1安裝部署

基于選定的基礎(chǔ)軟硬件平臺,人工智能框架應(yīng)具備多種安裝部署能力,以便開發(fā)/測試/運維人員

進行使用/管理/維護/升級等工作:

a)應(yīng)提供對應(yīng)軟/硬件環(huán)境下的人工智能開發(fā)框架的安裝包,支持安裝/卸載功能;

b)應(yīng)提供對應(yīng)軟/硬件環(huán)境下的人工智能開發(fā)框架的容器運行鏡像,支持容器內(nèi)運行環(huán)境;

c)應(yīng)提供對應(yīng)軟/硬件環(huán)境下的人工智能開發(fā)框架的容器編譯鏡像,支持容器內(nèi)源碼編譯;

d)宜支持異構(gòu)CPU編譯并支持純CPU訓(xùn)練場景,支持CPU算子kernel優(yōu)化與加速。

7.1.2模型支持與驗證

基于選定的基礎(chǔ)軟硬件平臺,人工智能框架應(yīng)支持在圖像分類、目標(biāo)檢測等應(yīng)用領(lǐng)域的人工智能

模型及其評估。

7.1.3時間

在特定數(shù)據(jù)集上訓(xùn)練一個模型使其達到目標(biāo)準(zhǔn)確率時的訓(xùn)練時間(不包括預(yù)處理和模型加載時

間)。訓(xùn)練階段統(tǒng)計的時間指標(biāo)單位毫秒(ms),相關(guān)的評估指標(biāo)和評估方法如下:

a)單步訓(xùn)練用時

1)定義:針對具體的訓(xùn)練任務(wù),在一定大小的batch輸入,進行一次前向傳播反向梯度更新的計

算過程的耗時。

2)測量方法:

--在batch數(shù)據(jù)送入input節(jié)點的時間記為T0;

--在梯度更新完成的時間記為T1;

--單步訓(xùn)練的用時就為T1–T0。

說明:單個step的時間可以描述異構(gòu)計算中的純粹網(wǎng)絡(luò)計算的時間和梯度更新時間,這個時

間越短就越好,同時單個step下可以針對不同的batch的維度進行時間的統(tǒng)計,在時間比較上采

用相同的batch下進行比較。

b)總的訓(xùn)練用時

1)定義:針對一個具體的訓(xùn)練任務(wù),在訓(xùn)練數(shù)據(jù)一定,epoch一定時,總的任務(wù)所花費的時間。

2)測量方法:

--啟動訓(xùn)練的腳本的時間設(shè)置為Ts;

--訓(xùn)練程序退出的時間設(shè)置為Te;

--總的訓(xùn)練時間為Te–Ts。

說明:總的訓(xùn)練時間包含模型的初始化,數(shù)據(jù)加載,網(wǎng)絡(luò)訓(xùn)練計算,梯度更新模型保存等所有的

時間,這個可以反映整個人工智能算法訓(xùn)練異構(gòu)加速系統(tǒng)的整體性能,時間越短性能越高。

7.1.4實際計算利用率

訓(xùn)練階段統(tǒng)計異構(gòu)計算中計算設(shè)備在一段訓(xùn)練時間內(nèi)的實際利用率。

a)計算設(shè)備的使用率

1)定義:統(tǒng)計計算設(shè)備在一個訓(xùn)練周期內(nèi)的計算使用率。

10

T/CESXXX—XXXX

2)方法:

--在一個epoch的訓(xùn)練過程中間隔1s采樣獲取計算設(shè)備的使用率Si;

--統(tǒng)計一個epoch中所有的使用率的總和S以及采樣的個數(shù)N;

--單個epoch中計算單元的使用率為S/N。

說明:計算設(shè)備的利用率反映了整個訓(xùn)練系統(tǒng)在異構(gòu)硬件加速上的使用效率,這個指標(biāo)越高說明

系統(tǒng)采用設(shè)備的硬件加速越明顯,整體的效果越明顯。

7.1.5吞吐率

吞吐率反應(yīng)了整個異構(gòu)硬件加速系統(tǒng)針對訓(xùn)練業(yè)務(wù)的計算能力,單位是MB/s。

a)單個節(jié)點異構(gòu)硬件的吞吐率

1)定義:在訓(xùn)練過程中單EPOC時間內(nèi)處理的數(shù)據(jù)量和時間的比值。

2)方法:

--統(tǒng)計單個epoch的訓(xùn)練處理時間Ti;

--統(tǒng)計各個epoch的平均訓(xùn)練處理時間Ta;

--最終就是一個epoch的訓(xùn)練樣本數(shù)量/Ta。

說明:實際的吞吐率反映了單臺機器上異構(gòu)硬件針對訓(xùn)練過程中的數(shù)據(jù)加載、數(shù)據(jù)預(yù)處理、網(wǎng)絡(luò)前

向計算、反向傳播更新梯度全流程的能力。

b)集群系統(tǒng)異構(gòu)硬件的吞吐率

1)定義:同上

2)方法:

--統(tǒng)計單個節(jié)點上異構(gòu)硬件系統(tǒng)的吞吐率Thi;

--所有節(jié)點上的Thi進行平均就是系統(tǒng)的The。

7.1.6功耗

功耗是以瓦(W)為單位,反映了異構(gòu)設(shè)備在實際訓(xùn)練中功率使用情況。

a)平均功耗

1)定義:在整個訓(xùn)練過程中的平均功率。

2)測量方法:

--使用功率計周期采樣測量整機的功率;

--求取平均值就是訓(xùn)練過程的平均功耗。

說明:平均功耗反映了整個異構(gòu)加速系統(tǒng)在訓(xùn)練中的能源使用情況。

b)峰值功率

1)定義:在訓(xùn)練過程中異構(gòu)設(shè)備瞬時最大的功率。

2)測量方法:

--通過提高batch提高整個異構(gòu)設(shè)備的負載壓力;

--用功率計采集滿負荷下的運行功率,選擇功率做大的一個值作為峰值功率。

說明:峰值功率反映了異構(gòu)加速系統(tǒng)在使用過程中的最大功率。

7.1.7能效

能效指的是在單位能耗下訓(xùn)練處理的數(shù)量的多少,單位采用(MB/(W*S))。

a)單機能效

1)定義:單臺機器上異構(gòu)設(shè)備在單位能耗下訓(xùn)練處理的數(shù)量的多少。

2)方法:

--統(tǒng)計每個epoch運行期間設(shè)備的用電量Ei;

--對所有的epoch期間的電量求平均E;

--可以得到最終的能效為N/E(這里的N是一個epoch的數(shù)據(jù)數(shù)量)。

b)集群能效

1)定義:集群在單位能耗下訓(xùn)練處理的數(shù)據(jù)的數(shù)量多少。

2)方法:

--統(tǒng)計每個epoch運行期間集群的用電量Ei;

--對所有的epoch期間的電量求平均E;

--可以得到最終的能效為N/E(這里的N是一個epoch的數(shù)據(jù)數(shù)量)。

11

T/CESXXX—XXXX

能效也可以反映出異構(gòu)硬件在加速算法訓(xùn)練過程中的能源利用情況,能效越高整個異構(gòu)加速硬件

的能力越高。

7.2電力人工智能模型推理異構(gòu)加速性能評估指標(biāo)和測試方法

7.2.1安裝部署

基于選定的基礎(chǔ)軟硬件平臺,人工智能框架應(yīng)應(yīng)具備多種安裝部署能力,以便開發(fā)/測試/運維人

員進行使用/管理/維護/升級等工作:

a)應(yīng)提供對應(yīng)軟/硬件環(huán)境下的人工智能推理框架的安裝包,支持安裝/卸載功能;

b)應(yīng)提供對應(yīng)軟/硬件環(huán)境下的人工智能推理框架的C/C++推理庫,支持模型部署上線;

c)應(yīng)提供對應(yīng)軟/硬件環(huán)境下的人工智能推理框架的容器運行鏡像,支持容器內(nèi)運行環(huán)境;

d)應(yīng)提供對應(yīng)軟/硬件環(huán)境下的人工智能推理框架的容器編譯鏡像,支持容器內(nèi)源碼編譯。

7.2.2模型支持與驗證

基于選定的基礎(chǔ)軟硬件平臺,深度學(xué)習(xí)框架應(yīng)支持基礎(chǔ)模型,結(jié)果正確,性能符合對應(yīng)硬件預(yù)

期。

7.2.3時間

推理階段統(tǒng)計的時間指標(biāo)單位毫秒(ms),相關(guān)的評估指標(biāo)和評估方法如下:

a)單個數(shù)據(jù)的平均推理時間

1)定義:batch大小為1的數(shù)據(jù)完成數(shù)據(jù)前處理、數(shù)據(jù)拷貝到計算單元、計算單元網(wǎng)絡(luò)前向傳

播、從計算單元拷貝出來、結(jié)果后處理的總時間。

2)測量方法:

--將整個數(shù)據(jù)前處理、數(shù)據(jù)拷貝到計算單元、計算單元網(wǎng)絡(luò)前向傳播、從計算單元拷貝出來、結(jié)果

后處理封裝成一個模塊,將N個測試數(shù)據(jù)分別傳入模塊中去計算,獲取每個數(shù)據(jù)調(diào)用模塊的耗時Ti。

3)計算最終的平均推理時間為。

針對嵌入式實時場景,在功耗、輸入數(shù)據(jù)相同的情況下,單個數(shù)據(jù)的平均處理時間越短,整個異1?????1

????0

構(gòu)硬件加速更好?!????????

7.2.4FPS

FPS反應(yīng)了整個異構(gòu)硬件加速系統(tǒng)針對推理業(yè)務(wù)的計算能力,單位是MB/s。

a)單個計算節(jié)點的FPS

1)定義:單位時間內(nèi),單個計算節(jié)點處理的數(shù)據(jù)的數(shù)量。

2)測量方法:

--選取N個測試的數(shù)據(jù);

--統(tǒng)計每個數(shù)據(jù)經(jīng)過推理模塊的耗時Ti;

--將N個時間相加得到Ts;

--最終的FPS就是為N/Ts。

b)計算集群的FPS

1)定義:單位時間內(nèi),計算集群處理的數(shù)據(jù)的數(shù)量。

2)測量方法:

--選取N個測試數(shù)據(jù);

--將N個測試數(shù)據(jù)平均分配到M個計算節(jié)點上;

--統(tǒng)計每個節(jié)點上計算任務(wù)的開始時間Tis和介紹時間Tio;

--從M個Tis中找到最小的時間Tismin;

--從M個Tio中找到最大的時間Tiomax;

--整個計算系統(tǒng)的總耗時為T=Tiomax-Tismin;

--整個計算集群的FPS為N/T。

針對嵌入式實時場景,在網(wǎng)絡(luò)模型一定、數(shù)據(jù)一定的情況下,這個參數(shù)越大,反應(yīng)異構(gòu)加速能力

越強。

7.2.5QPS

QPS反映出異構(gòu)硬件服務(wù)器的推理服務(wù)提供能力,單位是MB/s。

a)單個服務(wù)器的最大QPS

12

T/CESXXX—XXXX

1)定義:在給定的響應(yīng)時延范圍內(nèi),單個異構(gòu)服務(wù)器單位時間最大的處理次數(shù)。

2)測量方法:

--客戶端安裝jmeter壓測工具;

--jmeter設(shè)定平均的響應(yīng)時間;

--客戶端會根據(jù)平均響應(yīng)時間設(shè)置不同的請求線程數(shù)進行壓測,jemter獲取對應(yīng)的Qi;

--選擇Qi最大的值作為最大的QPS。

b)服務(wù)器集群的最大QPS

1)定義:在給定的響應(yīng)時延范圍內(nèi),異構(gòu)服務(wù)器集群單位時間最大的處理次數(shù)。

2)測量方法:

--跟單機時測量方式一樣。

說明:最大QPS反映出了,在服務(wù)器端推理場景下的異構(gòu)加速服務(wù)器的處理能力,這個值越大越

好。

7.2.6計算資源的利用率

在推理階段異構(gòu)體系中計算資源的實際利用率。

a)單個計算設(shè)備的最大利

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論