《電力人工智能算法異構(gòu)硬件加速技術(shù)規(guī)范》

上傳人：搬*** IP屬地：浙江上傳時間：2024-12-22 格式：PDF 頁數(shù)：13 大小：615.52KB 積分：11 舉報 版權(quán)申訴

已閱讀5頁，還剩8頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

ICS國際標(biāo)準(zhǔn)分類號

CCS中國標(biāo)準(zhǔn)文獻(xiàn)分類號

團體標(biāo)準(zhǔn)

T/CESXXX-XXXX

電力人工智能算法異構(gòu)硬件加速

技術(shù)規(guī)范

Technicalspecificationforheterogeneoushardwareaccelerationofelectric

powerartificialintelligencealgorithm

（征求意見稿）

XXXX-XX-XX發(fā)布XXXX-XX-XX實施

中國電工技術(shù)學(xué)會發(fā)布

T/CESXXX—XXXX

電力人工智能算法異構(gòu)硬件加速技術(shù)規(guī)范

1范圍

規(guī)范規(guī)定了電力領(lǐng)域中人工智能算法模型訓(xùn)練、推理異構(gòu)硬件加速的技術(shù)要求和評價方法，為電

力領(lǐng)域中線路巡檢、監(jiān)控等算法模型加速提供了技術(shù)參考和評價依據(jù)。

適用于支持訓(xùn)練和推理的人工智能框架硬件加速技術(shù)的評估。

2規(guī)范性引用文件

下列文件對于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件，僅注日期的版本適用于本文

件。凡是不注日期的引用文件，其最新版本（包括所有的修改單）適用于本文件。

GB/T1.1-2020標(biāo)準(zhǔn)化工作導(dǎo)則第1部分：基本術(shù)語

GBT41867-2022信息技術(shù)人工智能術(shù)語

GB/T5271.1-2000信息技術(shù)詞匯第1部分：基本術(shù)語

GB/T5271.28-2001信息技術(shù)詞匯第28部分：人工智能基本概念與專家系統(tǒng)

GB/T5271.34-2006信息技術(shù)詞匯第34部分：人工智能神經(jīng)網(wǎng)絡(luò)

T/CES128-2022電力人工智能平臺總體架構(gòu)及技術(shù)要求

YD/T3944-2021人工智能芯片基準(zhǔn)測試評估方法

3術(shù)語和定義

下列術(shù)語和定義適用于本文件。

3.1

人工智能ArtificialIntelligence

一門交叉學(xué)科，通常視為計算機科學(xué)的分支，研究表現(xiàn)出與人類智能（如推理和學(xué)習(xí)）相關(guān)的各

種功能的模型和系統(tǒng)。

[來源GB/T5271.28-2001,定義28.01.01]

3.2

異構(gòu)計算HeterogeneousComputing

不同類型指令集合體系架構(gòu)的計算單元組成系統(tǒng)的計算方式。

[來源：維基百科]

3.3

分布式計算Distributedcomputing

是一種需要進行大量計算的工程數(shù)據(jù)分割成小塊，由多臺計算機機器分別計算，在上傳計算結(jié)果

后，將結(jié)果統(tǒng)一合并的得出數(shù)據(jù)結(jié)論的科學(xué)。

[來源：維基百科]

3.4

深度學(xué)習(xí)deeplearning

通過訓(xùn)練具有許多隱藏層的神經(jīng)網(wǎng)絡(luò)來創(chuàng)建豐富層次表示的方法。

[來源：GBT41867-2022,3.4.27]

3.5

訓(xùn)練training

教會神經(jīng)網(wǎng)絡(luò)在輸入值的樣本和正確輸出值之間做出結(jié)合的步驟。

[來源：GB/T5271.34-2006,34.03.18]

3.6

推理inference

T/CESXXX—XXXX

從已知前提導(dǎo)出結(jié)論的推理方法。

注1：在人工智能領(lǐng)域，前提是事實或者規(guī)則。

注2：術(shù)語“推理”既指過程也指結(jié)果。

[來源：GB/T5271.28-2001,28.03.01]

3.7

計算量FLOPs

模型計算的浮點計算數(shù)，衡量模型計算的時間復(fù)雜度。

3.8

參數(shù)量Params

模型參數(shù)所占用的字節(jié)數(shù)，衡量模型的空間復(fù)雜度。

3.9

AI加速器artificialintelligenceaccelerator

一類專用于人工智能硬件加速的微處理器或計算系統(tǒng)，通常由專用AI芯片制成，在通用或特定

人工智能領(lǐng)域上較通用GPU可達(dá)到或發(fā)揮更好的性能優(yōu)勢。呈現(xiàn)形態(tài)包含但不局限于GPU、FPGA、

ASIC。按任務(wù)可分為訓(xùn)練和推理兩類。

3.10

批量batch

訓(xùn)練樣本的一部分。

注1：對特定計算設(shè)備，當(dāng)訓(xùn)練樣本數(shù)量過大時，可將樣本分成若干批，分批訓(xùn)練。

注2：批中含有的樣本量是訓(xùn)練超參之一。

[來源：GB/T41867-2022,3.04.21]

3.11

批次epoch

在深度學(xué)習(xí)模型訓(xùn)練場景中，完整訓(xùn)練數(shù)據(jù)集的一次訓(xùn)練循環(huán)，一個Epoch中，模型會對整個數(shù)

據(jù)集進行一次前向傳播和反向傳播，更新所有的參數(shù)。

3.12

迭代iteration（inneuralnetworks）

針對一批樣本，重復(fù)地執(zhí)行系列步驟直至完成訓(xùn)練的過程。

注1：一個（訓(xùn)）期中的迭代數(shù)量等于該期中，訓(xùn)練樣本的批數(shù)。

[來源：GB/T41867-2022,3.04.04]

4符號、代號和縮略語

下列符號、代號和縮略語適用于本文件。

AI：人工智能（ArtificialIntelligence）

GPU：圖形處理器（GraphicsProcessingUnit）

FPGA：現(xiàn)場可程式門陣列(Field-ProgrammableGateArray)

CPU：中央處理器（CentralProcessingUnit）

NPU：神經(jīng)網(wǎng)絡(luò)處理器(Neural-networkProcessingUnit)

TPU：張量計算器（TensorProcessingUnit）

RDMA：遠(yuǎn)程直接內(nèi)存訪問（RemoteDirectMemoryAccess）

PS：參數(shù)服務(wù)器(ParameterServer)

IR:中間表示(IntermediateRepresentation)

FPS:每秒鐘處理的幀數(shù)(FramesPerSecond)

QPS:每秒鐘的查詢數(shù)量(QueriesPerSecond)

T/CESXXX—XXXX

loss：損失函數(shù)的值

MOPS：處理器每秒鐘可進行一百萬次（MillionOperationPerSecond）

GOPS：處理器每秒鐘可進行十億次（GigaOperationsPerSecond）

TOPS：處理器每秒鐘可進行一萬億次（TeraOperationsPerSecond）

Broadcast：廣播機制

5電力人工智能算法異構(gòu)硬件加速框架

5.1概述

電力人工智能算法異構(gòu)加速包括：訓(xùn)練異構(gòu)硬件加速和推理異構(gòu)硬件加速，其總體架構(gòu)見圖1。

1）硬件加速評價指標(biāo)：安裝部署、模型支持與驗證、訓(xùn)練性能測試、推理性能測試等；

2）硬件加速技術(shù)要求：分布式通信層接入接口（僅面向訓(xùn)練框架）、設(shè)備管理層接入接口、算子

適配層接入接口要求；

3）硬件平臺環(huán)境：不對硬件平臺進行技術(shù)要求定義，僅規(guī)范框架適配硬件平臺的環(huán)境要求。

硬

件

加安裝部署模型支持與驗證訓(xùn)練性能測試推理性能測試

速

評

價時間功耗能效FPSQPS...

指

標(biāo)

硬

訓(xùn)練異構(gòu)硬件加速

件推理異構(gòu)硬件加速

加

算子適配層接入算子適配層接入

速

技

設(shè)備管理層接入

術(shù)設(shè)備管理層接入

要分布式通信接入

求

硬訓(xùn)練芯片（服務(wù)器/集群）推理芯片（服務(wù)器/終端嵌入式）

件

平

臺通用處理器（CPU、GPU等）/AI加速器（ASIC

環(huán)

類型的加速器，如等/類型的加速器/類型的加速器）

境NPUFPGAGPU

圖1電力人工智能算法異構(gòu)硬件加速框架

5.2電力人工智能訓(xùn)練異構(gòu)加速（非必須）

訓(xùn)練流程包括數(shù)據(jù)加載（從磁盤獲取網(wǎng)絡(luò)存儲空間加載訓(xùn)練數(shù)據(jù)）、數(shù)據(jù)預(yù)處理（將數(shù)據(jù)進行各

種數(shù)據(jù)增強變換和尺寸處理）、前向計算（將處理完成的數(shù)據(jù)輸入網(wǎng)絡(luò)計算loss）、反向傳播（根據(jù)

優(yōu)化器，反向梯度更新，優(yōu)化每一層的參數(shù)）。

訓(xùn)練異構(gòu)加速分為單機訓(xùn)練模式的異構(gòu)組合和多級訓(xùn)練模式的異構(gòu)組合。

5.2.1單機訓(xùn)練模式下的異構(gòu)組合

T/CESXXX—XXXX

單機訓(xùn)練模式：異構(gòu)硬件在同一臺物理機器上，任務(wù)間不宜進行網(wǎng)絡(luò)通信。異構(gòu)硬件工作流程如

下圖所示。

圖2單機多卡模式工作流程

通用計算單元任務(wù)產(chǎn)生的數(shù)據(jù)由一個大的batch拆分成小的batch發(fā)送到AI加速器的內(nèi)存中，每

個計算單元取數(shù)據(jù)前向計算損失值loss,反向計算梯度后需要將各個計算單元的梯度取平均值，再返

回給各個計算單元更新模型參數(shù)。梯度平均值計算可以在通用計算單元或者AI加速器上運行。

5.2.2多機訓(xùn)練模式下的異構(gòu)組合

多機訓(xùn)練模式的異構(gòu)組合包括但不限于參數(shù)服務(wù)器PS（ParameterServer）結(jié)構(gòu)和基于規(guī)約RingAll

Reduce結(jié)構(gòu)兩種架構(gòu)。

a）PS結(jié)構(gòu):PS架構(gòu)的中心節(jié)點用來存儲參數(shù)和梯度，由一個/一組機器組成。當(dāng)更新梯度時，全局

中心節(jié)點接受其他worker節(jié)點的數(shù)據(jù)，經(jīng)參數(shù)平均法等本地計算后，再broadcast廣播到所有其他worker。

隨著worker數(shù)量的增加，整體通信量線性增加。

b）RingAllReduce結(jié)構(gòu)：N（N≥2）worker節(jié)點連接構(gòu)成一個環(huán)，每個worker依次把自己的

梯度同步給緊鄰的worker，經(jīng)過至多2*(N-1)輪同步，所有worker完成梯度更新。所有節(jié)點是平等的，

隨著worker的增加，整體通信量并不隨著增加。

圖3多機多卡PS結(jié)構(gòu)

T/CESXXX—XXXX

圖4RingAllReduce結(jié)構(gòu)

5.3電力人工智能推理異構(gòu)加速

電力人工智能推理異構(gòu)加速是將訓(xùn)練得到的模型部署到特定異構(gòu)硬件上，其流程如下圖所示。

圖5電力人工智能推理異構(gòu)流程圖

推理步驟如下：

T/CESXXX—XXXX

a)模型IR轉(zhuǎn)換：從模型倉庫中導(dǎo)出訓(xùn)練的模型，轉(zhuǎn)換工具將訓(xùn)練模型IR轉(zhuǎn)換成當(dāng)前異構(gòu)硬件推

理引擎支持的IR。

b)計算圖初始化：導(dǎo)入模型IR和當(dāng)前計算單元的適配算子生成相應(yīng)硬件下的計算圖。

c)模型推理：數(shù)據(jù)前處理、計算圖前向計算、結(jié)果后處理。

6電力人工智能異構(gòu)硬件加速的技術(shù)要求

異構(gòu)硬件加速應(yīng)至少包括AI處理器、AI服務(wù)器、AI集群三種之一，應(yīng)符合但不限于以下要求：

a）應(yīng)支持以下1種或多種自主可控處理器架構(gòu)，自主可控處理器包括但不限于鰓鵬等；基于復(fù)雜

指令集計算機架構(gòu)的處理器，如x86、x64架構(gòu)；基于精簡指集計算機架構(gòu)的處理器如RISC-V、

ARM、MIPS等架構(gòu)；

b)應(yīng)支持的硬件架構(gòu)包括但不限于FPGA和ARM內(nèi)核等；

c）應(yīng)支持以下至少1種計算單元，包括但不限于通用處理器CPU、GPU；ASIC類型的加速器，

如NPU等；FPGA類型的加速器；GPU類型的加速器；

d）應(yīng)支持至少1種主流的人工智能框架，包括但不限于TensorFlow、Pytorch、Caffe/Caffe2、

Mxnet、ONNX、MindSpore（昇思）或PaddlePaddle（飛槳）等。

e）應(yīng)支持的模型精度：FP64、FP32、FP16、INT4、INT8、INT16、BP16或混合精度等。其中，訓(xùn)

練場景精度應(yīng)支持FP16、FP32、FP64，推理場景下精度應(yīng)支持INT8、FP16。

f)設(shè)備管理層接口：對硬件平臺驅(qū)動與運行時的接入接口進行抽象與封裝，并向算子適配層、訓(xùn)

練與推理框架提供一致的設(shè)備管理層接口。

g)算子適配層接口：人工智能算子與目標(biāo)硬件算子內(nèi)核函數(shù)的映射與匹配，針對不同硬件類型規(guī)

范不同的適配接口。算子層適配接口應(yīng)提供算子開發(fā)或映射、子圖或整圖接入2種適配接口，宜提供

編譯器后端接入適配接口。硬件平臺可根據(jù)環(huán)境類型的不同，選擇不同的適配接口。

1)算子開發(fā)或映射：若硬件支持可編程算子內(nèi)核開發(fā)語言，或硬件具備對應(yīng)的AI算子庫，則可

以選擇該方式接入；

2)圖引擎接入：若硬件支持圖引擎，則可以選擇該方式進行子圖或整圖接入；

3)編譯器后端接入：若硬件支持編譯器后端，或硬件支持代碼生成器，則可以選擇該方式進行人

工智能編譯器的算子接入。

h)分布式通信層接口：對硬件平臺的集合通信庫接入框架的接口進行封裝與抽象，為上層的訓(xùn)練

框架提供一致的分布式通信層接口，允許硬件自行實現(xiàn)相應(yīng)接口接入框架。推理框架無需實現(xiàn)分布式

通信接口。

i）系統(tǒng)應(yīng)考慮兼容性問題，主板接口上支持多種計算設(shè)備的接入，電源系統(tǒng)應(yīng)能滿足多種計算設(shè)

備的功率需求。

6.1電力人工智能訓(xùn)練異構(gòu)硬件加速的技術(shù)要求（非必須）

電力人工智能訓(xùn)練異構(gòu)硬件加速的技術(shù)要求應(yīng)符合但不限于以下要求：

a）學(xué)習(xí)框架：應(yīng)具備基礎(chǔ)單卡、多卡與多機的模型訓(xùn)練功能；

b）操作系統(tǒng)：應(yīng)支持基于Linux內(nèi)核的操作系統(tǒng)；

c）芯片類型：應(yīng)在通用CPU和GPU之外支持至少一種AI訓(xùn)練芯片；

d）設(shè)備識別：硬件驅(qū)動應(yīng)支持選定操作系統(tǒng)的安裝/卸載，設(shè)備可正確識別，宜支持容器映射；

e）人工智能算法框架應(yīng)提供設(shè)備管理層接口供硬件平臺的驅(qū)動和運行時接入，使硬件可被框架識

別；

f）人工智能算法框架應(yīng)提供硬件算子的內(nèi)核函數(shù)注冊接口，供目標(biāo)硬件進行內(nèi)核函數(shù)或相關(guān)算子

庫的接入；

g)應(yīng)提供整圖或子圖組網(wǎng)信息與定義，由硬件平臺的圖引擎自行接管計算圖的組網(wǎng)與執(zhí)行并返回

計算結(jié)果；

h)宜提供編譯器后端接入接口規(guī)范。硬件廠商為其硬件提供編譯器后端，通過編譯器將框架側(cè)的

計算圖模型根據(jù)特定硬件目標(biāo)產(chǎn)生編譯器端的低級IR，然后根據(jù)硬件后端再轉(zhuǎn)化為某個具體硬件上的

可執(zhí)行代碼；

T/CESXXX—XXXX

i)應(yīng)提供分布式通信層接口供硬件平臺的集合通信庫接入，支持框架大規(guī)模分布式訓(xùn)練功能。

6.2電力人工智能推理異構(gòu)硬件加速的要求

電力人工智能推理異構(gòu)硬件加速的技術(shù)要求應(yīng)符合但不限于以下要求：

a）操作系統(tǒng)：宜支持linux、windows等常用智能終端操作系統(tǒng)、嵌入式操作系統(tǒng)等；

b）芯片類型：應(yīng)在通用CPU和GPU之外支持至少一種專用AI推理芯片；

c）設(shè)備識別：硬件驅(qū)動應(yīng)支持選定操作系統(tǒng)的安裝/卸載，設(shè)備可正確識別，宜支持容器映射；

d）人工智能算法框架應(yīng)提供設(shè)備管理層接口供硬件平臺的驅(qū)動和運行時接入，使硬件可被框架識

別；

e）人工智能算法框架應(yīng)提供硬件算子的內(nèi)核函數(shù)注冊接口，供目標(biāo)硬件進行內(nèi)核函數(shù)或相關(guān)算子

庫的接入；

f）應(yīng)提供子圖檢測和融合的能力，運行時將檢測到的子圖原始算子通過下發(fā)子圖的方式，供硬件

接管，硬件負(fù)責(zé)相關(guān)算子的調(diào)度和執(zhí)行，并向框架返回輸出結(jié)果；

g）宜提供編譯器后端接入接口；

h）推理包括嵌入式推理和服務(wù)器推理，推理評價等級宜根據(jù)任務(wù)模型的參數(shù)量和計算量衡量，參

數(shù)量、計算量都大于0。模型的參數(shù)和參數(shù)量等級參考以下規(guī)則如表1，表2所示。

表1模型參數(shù)大小等級

參數(shù)量(單位MB)級別

≥1000C1

≥100C2

≥10C3

>0C4

表2模型計算量大小等級

計算量（G）級別

≥1000C1

≥100C2

≥10C3

>0C4

注：每秒操作數(shù)量OPS（Operationspersecond）作為衡量硬件算力水平的一個性能指標(biāo)，單位包括：

MOPS：處理器每秒鐘可進行一百萬次（MillionOperationPerSecond）

GOPS：處理器每秒鐘可進行十億次（GigaOperationsPerSecond）

TOPS：處理器每秒鐘可進行一萬億次（TeraOperationsPerSecond）

i）異構(gòu)硬件加速部署相對于原始的訓(xùn)練模型輸出（典型以CPUFloat32計算為例）存在差異，差異

值的均方誤差作為異構(gòu)硬件的精度標(biāo)準(zhǔn)，均方誤差值越小，整體的推理精度越高。電力人工智能推理

異構(gòu)加速精度等級如表3所示。

表3推理異構(gòu)硬件加速精度

輸出差異均方誤差級別

<10C1

<1C2

<0.1C3

<0.01C4

6.2.1電力人工智能不同場景的性能要求

電力人工智能包含有線路巡檢、監(jiān)控、數(shù)據(jù)分析等多種不同的應(yīng)用場景，不同的應(yīng)用場景對

于精度、速度與存在不同的要求，場景適用等級如下表所示：

表4推理所需精度級別

場景精度級別

電路巡檢數(shù)據(jù)離線檢測C1

電路巡檢數(shù)據(jù)實時檢測C2

T/CESXXX—XXXX

配電變電監(jiān)控C3

大數(shù)據(jù)分析預(yù)測C4

表5推理所需速度級別

場景速度級別

電路巡檢數(shù)據(jù)實時檢測C1

配電變電實時監(jiān)控C2

數(shù)據(jù)離線檢測C3

大數(shù)據(jù)分析預(yù)測C4

7電力人工智能異構(gòu)加速性能評估指標(biāo)及測試方法

7.1電力人工智能模型訓(xùn)練異構(gòu)加速性能評估指標(biāo)和測試方法

7.1.1安裝部署

基于選定的基礎(chǔ)軟硬件平臺，人工智能框架應(yīng)具備多種安裝部署能力，以便開發(fā)/測試/運維人員

進行使用/管理/維護/升級等工作：

a)應(yīng)提供對應(yīng)軟/硬件環(huán)境下的人工智能開發(fā)框架的安裝包，支持安裝/卸載功能；

b）應(yīng)提供對應(yīng)軟/硬件環(huán)境下的人工智能開發(fā)框架的容器運行鏡像，支持容器內(nèi)運行環(huán)境；

c）應(yīng)提供對應(yīng)軟/硬件環(huán)境下的人工智能開發(fā)框架的容器編譯鏡像，支持容器內(nèi)源碼編譯；

d)宜支持異構(gòu)CPU編譯并支持純CPU訓(xùn)練場景，支持CPU算子kernel優(yōu)化與加速。

7.1.2模型支持與驗證

基于選定的基礎(chǔ)軟硬件平臺，人工智能框架應(yīng)支持在圖像分類、目標(biāo)檢測等應(yīng)用領(lǐng)域的人工智能

模型及其評估。

7.1.3時間

在特定數(shù)據(jù)集上訓(xùn)練一個模型使其達(dá)到目標(biāo)準(zhǔn)確率時的訓(xùn)練時間(不包括預(yù)處理和模型加載時

間)。訓(xùn)練階段統(tǒng)計的時間指標(biāo)單位毫秒（ms），相關(guān)的評估指標(biāo)和評估方法如下：

a)單步訓(xùn)練用時

1）定義：針對具體的訓(xùn)練任務(wù)，在一定大小的batch輸入，進行一次前向傳播反向梯度更新的計

算過程的耗時。

2）測量方法：

--在batch數(shù)據(jù)送入input節(jié)點的時間記為T0；

--在梯度更新完成的時間記為T1；

--單步訓(xùn)練的用時就為T1–T0。

說明：單個step的時間可以描述異構(gòu)計算中的純粹網(wǎng)絡(luò)計算的時間和梯度更新時間，這個時

間越短就越好，同時單個step下可以針對不同的batch的維度進行時間的統(tǒng)計，在時間比較上采

用相同的batch下進行比較。

b)總的訓(xùn)練用時

1）定義：針對一個具體的訓(xùn)練任務(wù)，在訓(xùn)練數(shù)據(jù)一定，epoch一定時，總的任務(wù)所花費的時間。

2）測量方法：

--啟動訓(xùn)練的腳本的時間設(shè)置為Ts；

--訓(xùn)練程序退出的時間設(shè)置為Te；

--總的訓(xùn)練時間為Te–Ts。

說明：總的訓(xùn)練時間包含模型的初始化，數(shù)據(jù)加載，網(wǎng)絡(luò)訓(xùn)練計算，梯度更新模型保存等所有的

時間，這個可以反映整個人工智能算法訓(xùn)練異構(gòu)加速系統(tǒng)的整體性能，時間越短性能越高。

7.1.4實際計算利用率

訓(xùn)練階段統(tǒng)計異構(gòu)計算中計算設(shè)備在一段訓(xùn)練時間內(nèi)的實際利用率。

a)計算設(shè)備的使用率

1）定義：統(tǒng)計計算設(shè)備在一個訓(xùn)練周期內(nèi)的計算使用率。

T/CESXXX—XXXX

2）方法：

--在一個epoch的訓(xùn)練過程中間隔1s采樣獲取計算設(shè)備的使用率Si；

--統(tǒng)計一個epoch中所有的使用率的總和S以及采樣的個數(shù)N；

--單個epoch中計算單元的使用率為S/N。

說明：計算設(shè)備的利用率反映了整個訓(xùn)練系統(tǒng)在異構(gòu)硬件加速上的使用效率，這個指標(biāo)越高說明

系統(tǒng)采用設(shè)備的硬件加速越明顯，整體的效果越明顯。

7.1.5吞吐率

吞吐率反應(yīng)了整個異構(gòu)硬件加速系統(tǒng)針對訓(xùn)練業(yè)務(wù)的計算能力，單位是MB/s。

a)單個節(jié)點異構(gòu)硬件的吞吐率

1）定義：在訓(xùn)練過程中單EPOC時間內(nèi)處理的數(shù)據(jù)量和時間的比值。

2）方法：

--統(tǒng)計單個epoch的訓(xùn)練處理時間Ti；

--統(tǒng)計各個epoch的平均訓(xùn)練處理時間Ta；

--最終就是一個epoch的訓(xùn)練樣本數(shù)量/Ta。

說明：實際的吞吐率反映了單臺機器上異構(gòu)硬件針對訓(xùn)練過程中的數(shù)據(jù)加載、數(shù)據(jù)預(yù)處理、網(wǎng)絡(luò)前

向計算、反向傳播更新梯度全流程的能力。

b)集群系統(tǒng)異構(gòu)硬件的吞吐率

1）定義：同上

2）方法：

--統(tǒng)計單個節(jié)點上異構(gòu)硬件系統(tǒng)的吞吐率Thi；

--所有節(jié)點上的Thi進行平均就是系統(tǒng)的The。

7.1.6功耗

功耗是以瓦（W）為單位，反映了異構(gòu)設(shè)備在實際訓(xùn)練中功率使用情況。

a)平均功耗

1）定義：在整個訓(xùn)練過程中的平均功率。

2）測量方法：

--使用功率計周期采樣測量整機的功率；

--求取平均值就是訓(xùn)練過程的平均功耗。

說明：平均功耗反映了整個異構(gòu)加速系統(tǒng)在訓(xùn)練中的能源使用情況。

b)峰值功率

1）定義：在訓(xùn)練過程中異構(gòu)設(shè)備瞬時最大的功率。

2）測量方法：

--通過提高batch提高整個異構(gòu)設(shè)備的負(fù)載壓力；

--用功率計采集滿負(fù)荷下的運行功率，選擇功率做大的一個值作為峰值功率。

說明：峰值功率反映了異構(gòu)加速系統(tǒng)在使用過程中的最大功率。

7.1.7能效

能效指的是在單位能耗下訓(xùn)練處理的數(shù)量的多少，單位采用（MB/（W*S））。

a)單機能效

1）定義：單臺機器上異構(gòu)設(shè)備在單位能耗下訓(xùn)練處理的數(shù)量的多少。

2）方法：

--統(tǒng)計每個epoch運行期間設(shè)備的用電量Ei；

--對所有的epoch期間的電量求平均E；

--可以得到最終的能效為N/E(這里的N是一個epoch的數(shù)據(jù)數(shù)量)。

b)集群能效

1）定義：集群在單位能耗下訓(xùn)練處理的數(shù)據(jù)的數(shù)量多少。

2）方法：

--統(tǒng)計每個epoch運行期間集群的用電量Ei；

--對所有的epoch期間的電量求平均E；

--可以得到最終的能效為N/E(這里的N是一個epoch的數(shù)據(jù)數(shù)量)。

T/CESXXX—XXXX

能效也可以反映出異構(gòu)硬件在加速算法訓(xùn)練過程中的能源利用情況，能效越高整個異構(gòu)加速硬件

的能力越高。

7.2電力人工智能模型推理異構(gòu)加速性能評估指標(biāo)和測試方法

7.2.1安裝部署

基于選定的基礎(chǔ)軟硬件平臺，人工智能框架應(yīng)應(yīng)具備多種安裝部署能力，以便開發(fā)/測試/運維人

員進行使用/管理/維護/升級等工作：

a)應(yīng)提供對應(yīng)軟/硬件環(huán)境下的人工智能推理框架的安裝包，支持安裝/卸載功能；

b)應(yīng)提供對應(yīng)軟/硬件環(huán)境下的人工智能推理框架的C/C++推理庫，支持模型部署上線；

c)應(yīng)提供對應(yīng)軟/硬件環(huán)境下的人工智能推理框架的容器運行鏡像，支持容器內(nèi)運行環(huán)境；

d)應(yīng)提供對應(yīng)軟/硬件環(huán)境下的人工智能推理框架的容器編譯鏡像，支持容器內(nèi)源碼編譯。

7.2.2模型支持與驗證

基于選定的基礎(chǔ)軟硬件平臺，深度學(xué)習(xí)框架應(yīng)支持基礎(chǔ)模型，結(jié)果正確，性能符合對應(yīng)硬件預(yù)

期。

7.2.3時間

推理階段統(tǒng)計的時間指標(biāo)單位毫秒（ms），相關(guān)的評估指標(biāo)和評估方法如下：

a)單個數(shù)據(jù)的平均推理時間

1）定義：batch大小為1的數(shù)據(jù)完成數(shù)據(jù)前處理、數(shù)據(jù)拷貝到計算單元、計算單元網(wǎng)絡(luò)前向傳

播、從計算單元拷貝出來、結(jié)果后處理的總時間。

2）測量方法：

--將整個數(shù)據(jù)前處理、數(shù)據(jù)拷貝到計算單元、計算單元網(wǎng)絡(luò)前向傳播、從計算單元拷貝出來、結(jié)果

后處理封裝成一個模塊，將N個測試數(shù)據(jù)分別傳入模塊中去計算，獲取每個數(shù)據(jù)調(diào)用模塊的耗時Ti。

3）計算最終的平均推理時間為。

針對嵌入式實時場景，在功耗、輸入數(shù)據(jù)相同的情況下，單個數(shù)據(jù)的平均處理時間越短，整個異1?????1

????0

構(gòu)硬件加速更好?！????????

7.2.4FPS

FPS反應(yīng)了整個異構(gòu)硬件加速系統(tǒng)針對推理業(yè)務(wù)的計算能力，單位是MB/s。

a)單個計算節(jié)點的FPS

1）定義：單位時間內(nèi)，單個計算節(jié)點處理的數(shù)據(jù)的數(shù)量。

2）測量方法：

--選取N個測試的數(shù)據(jù)；

--統(tǒng)計每個數(shù)據(jù)經(jīng)過推理模塊的耗時Ti；

--將N個時間相加得到Ts；

--最終的FPS就是為N/Ts。

b)計算集群的FPS

1）定義：單位時間內(nèi)，計算集群處理的數(shù)據(jù)的數(shù)量。

2）測量方法：

--選取N個測試數(shù)據(jù)；

--將N個測試數(shù)據(jù)平均分配到M個計算節(jié)點上；

--統(tǒng)計每個節(jié)點上計算任務(wù)的開始時間Tis和介紹時間Tio；

--從M個Tis中找到最小的時間Tismin；

--從M個Tio中找到最大的時間Tiomax；

--整個計算系統(tǒng)的總耗時為T=Tiomax-Tismin；

--整個計算集群的FPS為N/T。

針對嵌入式實時場景，在網(wǎng)絡(luò)模型一定、數(shù)據(jù)一定的情況下，這個參數(shù)越大，反應(yīng)異構(gòu)加速能力

越強。

7.2.5QPS

QPS反映出異構(gòu)硬件服務(wù)器的推理服務(wù)提供能力，單位是MB/s。

a)單個服務(wù)器的最大QPS

T/CESXXX—XXXX

1）定義：在給定的響應(yīng)時延范圍內(nèi)，單個異構(gòu)服務(wù)器單位時間最大的處理次數(shù)。

2）測量方法：

--客戶端安裝jmeter壓測工具；

--jmeter設(shè)定平均的響應(yīng)時間；

--客戶端會根據(jù)平均響應(yīng)時間設(shè)置不同的請求線程數(shù)進行壓測，jemter獲取對應(yīng)的Qi；

--選擇Qi最大的值作為最大的QPS。

b)服務(wù)器集群的最大QPS

1）定義：在給定的響應(yīng)時延范圍內(nèi)，異構(gòu)服務(wù)器集群單位時間最大的處理次數(shù)。

2）測量方法：

--跟單機時測量方式一樣。

說明：最大QPS反映出了，在服務(wù)器端推理場景下的異構(gòu)加速服務(wù)器的處理能力，這個值越大越

好。

7.2.6計算資源的利用率

在推理階段異構(gòu)體系中計算資源的實際利用率。

a)單個計算設(shè)備的最大利

人人文庫> 全部分類> 辦公材料 > 辦公文檔

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《電力人工智能算法異構(gòu)硬件加速技術(shù)規(guī)范》

文檔簡介

溫馨提示

最新文檔

評論

《電力人工智能算法異構(gòu)硬件加速技術(shù)規(guī)范》

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔