CESA-2021-3-003《人工智能芯片 計(jì)算機(jī)視覺(jué)訓(xùn)練用云側(cè)深度學(xué)習(xí)芯片測(cè)試指標(biāo)與測(cè)試方法》團(tuán)體標(biāo)準(zhǔn)(征求意見(jiàn)稿)_第1頁(yè)
CESA-2021-3-003《人工智能芯片 計(jì)算機(jī)視覺(jué)訓(xùn)練用云側(cè)深度學(xué)習(xí)芯片測(cè)試指標(biāo)與測(cè)試方法》團(tuán)體標(biāo)準(zhǔn)(征求意見(jiàn)稿)_第2頁(yè)
CESA-2021-3-003《人工智能芯片 計(jì)算機(jī)視覺(jué)訓(xùn)練用云側(cè)深度學(xué)習(xí)芯片測(cè)試指標(biāo)與測(cè)試方法》團(tuán)體標(biāo)準(zhǔn)(征求意見(jiàn)稿)_第3頁(yè)
CESA-2021-3-003《人工智能芯片 計(jì)算機(jī)視覺(jué)訓(xùn)練用云側(cè)深度學(xué)習(xí)芯片測(cè)試指標(biāo)與測(cè)試方法》團(tuán)體標(biāo)準(zhǔn)(征求意見(jiàn)稿)_第4頁(yè)
CESA-2021-3-003《人工智能芯片 計(jì)算機(jī)視覺(jué)訓(xùn)練用云側(cè)深度學(xué)習(xí)芯片測(cè)試指標(biāo)與測(cè)試方法》團(tuán)體標(biāo)準(zhǔn)(征求意見(jiàn)稿)_第5頁(yè)
已閱讀5頁(yè),還剩17頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

ICS31.200

CCSL56

團(tuán)體標(biāo)準(zhǔn)

T/CESAXXX-202X

人工智能芯片計(jì)算機(jī)視覺(jué)訓(xùn)練用云側(cè)深度

學(xué)習(xí)芯片測(cè)試指標(biāo)與測(cè)試方法

AIChips-ComputerVision-Testmetricsandtestmethodofdeeplearningchipsfor

cloudsidetraining

征求意見(jiàn)稿

在提交反饋意見(jiàn)時(shí),請(qǐng)將您知道的相關(guān)專(zhuān)利連同支持性文件一并附上。

已授權(quán)的專(zhuān)利證明材料為專(zhuān)利證書(shū)復(fù)印件或扉頁(yè),已公開(kāi)但尚未授權(quán)的專(zhuān)利申

請(qǐng)證明材料為專(zhuān)利公開(kāi)通知書(shū)復(fù)印件或扉頁(yè),未公開(kāi)的專(zhuān)利申請(qǐng)的證明材料為專(zhuān)利

申請(qǐng)?zhí)柡蜕暾?qǐng)日期。

202X-XX-XX發(fā)布202X-XX-XX實(shí)施

中國(guó)電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會(huì)發(fā)布

T/CESAXXXX—202X

前??言

本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起

草。

本文件由上海商湯科技開(kāi)發(fā)有限公司提出。

本文件由中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院、中國(guó)電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會(huì)歸口。

本文件起草單位:。

本文件主要起草人:。

IV

T/CESAXXXX—202X

人工智能芯片計(jì)算機(jī)視覺(jué)訓(xùn)練用云側(cè)深度學(xué)習(xí)芯片測(cè)試指標(biāo)與測(cè)

試方法

1范圍

本文件規(guī)定了計(jì)算機(jī)視覺(jué)領(lǐng)域面向云側(cè)的深度學(xué)習(xí)訓(xùn)練芯片的基本技術(shù)規(guī)格、功能、性能、生態(tài)與

開(kāi)放性等測(cè)試指標(biāo)和測(cè)試方法。

本文件適用于芯片生產(chǎn)廠(chǎng)商、應(yīng)用廠(chǎng)商及第三方機(jī)構(gòu)對(duì)計(jì)算機(jī)視覺(jué)領(lǐng)域面向云側(cè)的深度學(xué)習(xí)訓(xùn)練芯

片進(jìn)行測(cè)試與評(píng)估,也適用于計(jì)算機(jī)視覺(jué)領(lǐng)域深度學(xué)習(xí)訓(xùn)練芯片產(chǎn)品的采購(gòu)、設(shè)計(jì)。

2規(guī)范性引用文件

下列文件中的內(nèi)容通過(guò)文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

T/CESA1119—2020人工智能芯片面向云側(cè)的深度學(xué)習(xí)芯片測(cè)試指標(biāo)與測(cè)試方法

3術(shù)語(yǔ)和定義

T/CESA1119—2020界定的以及下列術(shù)語(yǔ)和定義適用于本文件。

3.1

計(jì)算機(jī)視覺(jué)computervision

一種具備獲取、處理和解釋視覺(jué)數(shù)據(jù)能力的功能單元。

[來(lái)源:ISO/IECDIS22989:2021,3.1.11,有修改]

4縮略語(yǔ)

下列縮略語(yǔ)適用于本文件。

IPS:每秒處理的圖片數(shù)(ImagesPerSecond)

API:應(yīng)用編程接口(ApplicationProgrammingInterface)

5測(cè)試說(shuō)明

5.1測(cè)試環(huán)境及流程

本文件的測(cè)試環(huán)境及測(cè)試流程均應(yīng)符合T/CESA1119—2020的相關(guān)要求。

5.2測(cè)試對(duì)象

本文件的測(cè)試對(duì)象是含有計(jì)算機(jī)視覺(jué)推理用云側(cè)深度學(xué)習(xí)芯片(卡/棒)的控制主機(jī):指以芯片/卡/

1

T/CESAXXXX—202X

棒形態(tài)進(jìn)行使用的深度學(xué)習(xí)芯片,如GPU、FPGA以及ASIC等人工智能芯片(卡/棒),可通過(guò)PCIE、USB等接

口與測(cè)試主機(jī)連接。

5.3測(cè)試內(nèi)容

計(jì)算機(jī)視覺(jué)訓(xùn)練芯片的測(cè)評(píng)指標(biāo),主要包括基本技術(shù)規(guī)格、功能、性能、生態(tài)與開(kāi)放性等部分,在

依據(jù)本文件進(jìn)行測(cè)試的過(guò)程中:

a)涉及功能、性能等相關(guān)指標(biāo)將通過(guò)第三方測(cè)試工具進(jìn)行評(píng)測(cè);

b)生態(tài)與開(kāi)放性部分的指標(biāo)將采信被測(cè)對(duì)象標(biāo)稱(chēng)值及其他技術(shù)信息,作為先進(jìn)性的參考。

6測(cè)試指標(biāo)

6.1基本技術(shù)規(guī)格

基本技術(shù)規(guī)格從算力、內(nèi)存、通信以及能效比四個(gè)方面進(jìn)行評(píng)測(cè),每個(gè)子指標(biāo)的評(píng)分計(jì)算方式為該

子指標(biāo)測(cè)試值與對(duì)應(yīng)基準(zhǔn)值的比值,計(jì)算公式為:

············································(1)

a)算力

表1算力相關(guān)指標(biāo)與參考值

序號(hào)指標(biāo)名稱(chēng)指標(biāo)內(nèi)容參考值

1FP16算力(TFLOPS)16bit(1bitsign+5bitexponent+10bitfraction)

浮點(diǎn)數(shù)據(jù)的計(jì)算能力

2FP32算力(TFLOPS)32bit(1bitsign+8bitexponent+23bitfraction)

浮點(diǎn)數(shù)據(jù)的計(jì)算能力

3INT8算力(TOPS)8bit整型數(shù)據(jù)的計(jì)算能力

4INT16算力(TOPS)16bit整型數(shù)據(jù)的計(jì)算能力

5BF16算力(TFLOPS)16bit(1bitsign+8bitexponent+7bitfraction)

浮點(diǎn)數(shù)據(jù)的計(jì)算能力

6TF32算力(TFLOPS)19bit(1bitsign+8bitexponent+10bitfraction)

浮點(diǎn)數(shù)據(jù)的計(jì)算能力

b)內(nèi)存規(guī)格

內(nèi)存是訓(xùn)練芯片的片下存儲(chǔ)器(顯存),而不是指主機(jī)存儲(chǔ)器。

表2內(nèi)存相關(guān)指標(biāo)與參考值

序號(hào)指標(biāo)名稱(chēng)指標(biāo)內(nèi)容參考值

1容量(GB)內(nèi)存容量用字節(jié)數(shù)進(jìn)行標(biāo)稱(chēng)

2帶寬(GB/s)芯片的運(yùn)算單元訪(fǎng)問(wèn)片下存儲(chǔ)器的帶寬

c)通信帶寬

表3通信帶寬相關(guān)指標(biāo)與參考值

序號(hào)指標(biāo)名稱(chēng)指標(biāo)內(nèi)容參考值

1主機(jī)-設(shè)備帶寬(GB/s)訓(xùn)練芯片與主機(jī)之間的通信帶寬

2

T/CESAXXXX—202X

2節(jié)點(diǎn)內(nèi)卡間帶寬一個(gè)計(jì)算節(jié)點(diǎn)內(nèi),兩個(gè)芯片之間的通信帶寬

(GB/s)

d)能效比

表4能效比相關(guān)指標(biāo)與參考值

序號(hào)指標(biāo)名稱(chēng)指標(biāo)內(nèi)容參考值

1最高浮點(diǎn)算力能效比芯片最高浮點(diǎn)算力與芯片標(biāo)稱(chēng)功耗TDP的比值

(TFLOPS/W)

2最高整型算力能效比芯片最高整型算力與芯片標(biāo)稱(chēng)功耗TDP的比值

(TOPS/W)

6.2功能

6.2.1算子支持程度

訓(xùn)練芯片對(duì)算子的支持程度,使用算子支持率進(jìn)行衡量。算子支持率計(jì)算公式如下:

······························(2)

其中,被測(cè)試算子從算子列表(附錄B.1)中獲取,每個(gè)算子的權(quán)重系數(shù)使用統(tǒng)計(jì)方法獲得。

6.2.2模型支持程度

對(duì)目前常見(jiàn)深度學(xué)習(xí)應(yīng)用領(lǐng)域(例如圖像分類(lèi)、分割、目標(biāo)檢測(cè)、NLP、推薦等)中典型模型的支

持程度。模型支持率的計(jì)算公式如下:

······························(3)

其中,被測(cè)試模型以及相應(yīng)的權(quán)重系數(shù)從模型列表(附錄B.2)中獲取。

6.2.3卡間、多機(jī)高速通信的功能支持

卡間和多機(jī)高速通信分別指“節(jié)點(diǎn)內(nèi)點(diǎn)對(duì)點(diǎn)通信”和“跨節(jié)點(diǎn)點(diǎn)對(duì)點(diǎn)通信”,指標(biāo)內(nèi)容如下表。

表5卡間和多機(jī)高速通信功能支持

序號(hào)指標(biāo)名稱(chēng)指標(biāo)內(nèi)容

1節(jié)點(diǎn)內(nèi)點(diǎn)對(duì)點(diǎn)通信節(jié)點(diǎn)內(nèi)用于卡間直接通信,CPU-Offload

2跨節(jié)點(diǎn)點(diǎn)對(duì)點(diǎn)通信跨節(jié)點(diǎn)卡間直接通信,CPU-Offload

6.2.4訓(xùn)練性能的數(shù)制能力

a)新型數(shù)制

芯片中的運(yùn)算單元支持TF32、BF16等新型數(shù)制。

b)稀疏計(jì)算

芯片在不降低模型訓(xùn)練精度的情況下,支持稀疏矩陣的運(yùn)算以提高訓(xùn)練性能。

6.3性能

6.3.1算子計(jì)算性能

3

T/CESAXXXX—202X

算子性能指某一特定輸入配置情況下在芯片上的運(yùn)算時(shí)間,不包含數(shù)據(jù)在主機(jī)內(nèi)存和芯片存儲(chǔ)器之

間的傳輸時(shí)間。主要考慮GEMM、Conv2d和長(zhǎng)尾算子在不同輸入?yún)?shù)條件下在單芯片上的計(jì)算性能,其

中長(zhǎng)尾算子從被測(cè)試算子從算子列表(附錄B.1)中獲取。單項(xiàng)配置下算子的性能評(píng)分如公式(4)所示:

·································(4)

算子性能評(píng)分為GEMM、Conv2d和長(zhǎng)尾算子測(cè)試項(xiàng)的加權(quán)平均,其中權(quán)重系數(shù)依次為{0.3、0.4、0.3}。

6.3.2通信性能

指算子在單節(jié)點(diǎn)多芯片、多節(jié)點(diǎn)多芯片條件下的性能表現(xiàn),包括通信速率和時(shí)延。通信速率指消息

體字節(jié)數(shù)與消息體從一個(gè)通信節(jié)點(diǎn)發(fā)出到達(dá)另外一個(gè)通信節(jié)點(diǎn)所需時(shí)間的比值(單位:GB/s)。時(shí)延指

通信節(jié)點(diǎn)發(fā)送消息體時(shí)從開(kāi)始發(fā)送至發(fā)送結(jié)束所需的時(shí)間(單位:ms)。

6.3.3模型訓(xùn)練性能

主流深度學(xué)習(xí)模型在不同配置(單卡、多卡)情形下的訓(xùn)練性能。模型訓(xùn)練性能用IPS衡量,是

指訓(xùn)練過(guò)程中每秒鐘能處理的圖片數(shù),其計(jì)算公式如下:

··················································(5)

模型性能評(píng)分為所有測(cè)試模型評(píng)分的加權(quán)平均。

····································(6)

其中,模型i的性能評(píng)分為:

·······························(7)

式中:

M——單機(jī)1卡、單機(jī)4卡和單機(jī)8卡3種測(cè)試配置。

模型測(cè)試參數(shù)配置以及訓(xùn)練數(shù)據(jù)集詳見(jiàn)附錄B.2。

6.4軟件生態(tài)

6.4.1生態(tài)

生態(tài)指芯片的基本軟件棧,并考慮芯片在公開(kāi)市場(chǎng)的部署規(guī)模。評(píng)測(cè)內(nèi)容主要包含如下幾點(diǎn):

a)支持用戶(hù)對(duì)芯片進(jìn)行軟件開(kāi)發(fā)的運(yùn)行時(shí)庫(kù)、編譯工具鏈和調(diào)試調(diào)優(yōu)工具。

表6基本軟件棧支持度指標(biāo)

序號(hào)指標(biāo)名稱(chēng)指標(biāo)內(nèi)容必要/可選指標(biāo)

1驅(qū)動(dòng)支持是否包含驅(qū)動(dòng)以及提供驅(qū)動(dòng)API用于軟件開(kāi)發(fā)必要

4

T/CESAXXXX—202X

2運(yùn)行時(shí)庫(kù)是否包含運(yùn)行時(shí)庫(kù)必要

3編譯工具鏈?zhǔn)欠裉峁┚幾g工具鏈對(duì)用戶(hù)程序進(jìn)行編譯必要

4調(diào)試工具是否提供調(diào)試工具對(duì)芯片的代碼進(jìn)行調(diào)試排錯(cuò)必要

5調(diào)優(yōu)工具是否提供調(diào)優(yōu)工具對(duì)芯片的代碼實(shí)現(xiàn)進(jìn)行性能分析、調(diào)優(yōu)必要

b)芯片的高性能計(jì)算庫(kù)。主要包括計(jì)算庫(kù)的數(shù)量、計(jì)算庫(kù)提供的算子/函數(shù)的數(shù)量、提供計(jì)算庫(kù)

的性能三個(gè)方面。

表7高性能計(jì)算庫(kù)指標(biāo)

序號(hào)指標(biāo)名稱(chēng)指標(biāo)內(nèi)容必要/可選指標(biāo)

1第1級(jí)計(jì)算庫(kù)是否包含深度神經(jīng)網(wǎng)絡(luò)(DNN)庫(kù)、線(xiàn)性代數(shù)庫(kù)等,并使用典型必要

算子去測(cè)試其計(jì)算性能對(duì)芯片算力的利用率

2第2級(jí)計(jì)算庫(kù)是否包含其他計(jì)算庫(kù),例如隨機(jī)數(shù)生成庫(kù)等必要

c)高性能通信庫(kù)支持程度。覆蓋主機(jī)-芯片之間、節(jié)點(diǎn)內(nèi)芯片間以及跨節(jié)點(diǎn)芯片間三種場(chǎng)景的高

性能通信庫(kù),以及是否支持常見(jiàn)的通信原語(yǔ),如All-Reduce、Reduce-Scatter、Broadcast

等。

6.4.2開(kāi)放性

開(kāi)放性評(píng)測(cè)中的指標(biāo)包含開(kāi)放的芯片指令集或虛擬指令集、開(kāi)放的設(shè)備代碼編譯器等,詳見(jiàn)表8。

表8開(kāi)放性指標(biāo)

序號(hào)指標(biāo)名稱(chēng)指標(biāo)內(nèi)容必要/可選指標(biāo)

1編程模型編程模型、線(xiàn)程模型、存儲(chǔ)層級(jí)設(shè)計(jì)是否和業(yè)界主流異構(gòu)計(jì)算模型保必要

持兼容

2編程接口編程接口(如設(shè)備管理、流的使用與管理、同步機(jī)制等)是否與主流必要

異構(gòu)計(jì)算的編程接口保持兼容

7測(cè)試方法

7.1基本技術(shù)規(guī)格

算力、內(nèi)存、通信等子指標(biāo)的測(cè)試均采用廠(chǎng)商提供的標(biāo)稱(chēng)值。

7.2功能

7.2.1測(cè)試目標(biāo)

測(cè)試訓(xùn)練芯片以及其軟件棧是否支持附錄B.1(算子列表)和附錄B.2(模型列表)所列的算子與模

型。

7.2.2測(cè)試準(zhǔn)備

功能測(cè)試需要被測(cè)方提供以下內(nèi)容:

a)應(yīng)提供處于最佳工作環(huán)境、廠(chǎng)商標(biāo)配的主機(jī)配置、廠(chǎng)商標(biāo)配的訓(xùn)練芯片產(chǎn)品形態(tài);

b)應(yīng)提供訓(xùn)練芯片軟件棧的相關(guān)技術(shù)文檔。

5

T/CESAXXXX—202X

7.2.3測(cè)試要求

待測(cè)算子和待測(cè)試模型應(yīng)滿(mǎn)足以下要求:

d)支持至少一種數(shù)值精度(FP32、FB16、TF32、BF16、INT8和INT16)的實(shí)現(xiàn);

e)訓(xùn)練芯片執(zhí)行該算子的輸出結(jié)果應(yīng)與ONNXRuntimeCPU(v1.10.0,Inteli7-8700@3.2GHz)

的輸出結(jié)果進(jìn)行比較,兩者誤差在可接受范圍內(nèi);

f)若輸出參數(shù)是張量,對(duì)張量中每一個(gè)元素與標(biāo)準(zhǔn)輸出結(jié)果中對(duì)應(yīng)元素進(jìn)行比較;

g)測(cè)試模型中至少95%的算子在訓(xùn)練芯片上執(zhí)行,且關(guān)鍵算子(包括卷積、矩陣乘、歸一化、激

活函數(shù)、池化)在訓(xùn)練芯片上執(zhí)行;

h)模型測(cè)試使用超參與附錄B.2保持一致,在滿(mǎn)足模型測(cè)試精度要求的前提下,不限定訓(xùn)練使用

的數(shù)值精度。

7.2.4算子功能測(cè)試流程

表11算子功能測(cè)試流程

序號(hào)步驟步驟描述

1參數(shù)配置給定輸入?yún)?shù),使用該算子在ONNXRuntimeCPU實(shí)現(xiàn)進(jìn)行計(jì)算,獲得在該輸入配置下的標(biāo)準(zhǔn)

輸出結(jié)果。

2算子執(zhí)行使用上述輸入?yún)?shù),在訓(xùn)練芯片上執(zhí)行該算子,獲得相應(yīng)的測(cè)試輸出結(jié)果。

3精度對(duì)比將測(cè)試輸出結(jié)果與標(biāo)準(zhǔn)輸出結(jié)果進(jìn)行對(duì)比,計(jì)算相對(duì)誤差和絕對(duì)誤差。

7.2.5模型功能測(cè)試流程

表12模型功能測(cè)試流程

序號(hào)步驟步驟描述

1給定參數(shù)給定模型測(cè)試數(shù)據(jù)集、超參配置、要求訓(xùn)練輪數(shù)以及測(cè)試精度要求。

2模型運(yùn)行在以訓(xùn)練芯片為基礎(chǔ)的計(jì)算系統(tǒng)上,使用指定數(shù)據(jù)集和超參進(jìn)行訓(xùn)練。

3精度對(duì)比當(dāng)訓(xùn)練輪數(shù)達(dá)到訓(xùn)練要求的輪數(shù)時(shí),測(cè)試模型在指定測(cè)試數(shù)據(jù)集上的精度。

7.3性能

7.3.1測(cè)試目標(biāo)

測(cè)試訓(xùn)練芯片以及其軟件棧在附錄B.1算子列表和B.2模型列表下的訓(xùn)練性能。

7.3.2測(cè)試準(zhǔn)備

性能測(cè)試需要被測(cè)方提供以下內(nèi)容:

a)應(yīng)提供處于最佳工作環(huán)境、廠(chǎng)商標(biāo)配的主機(jī)配置、廠(chǎng)商標(biāo)配的訓(xùn)練芯片產(chǎn)品形態(tài);

b)應(yīng)提供訓(xùn)練芯片軟件棧的相關(guān)技術(shù)文檔。

7.3.3測(cè)試要求

測(cè)試訓(xùn)練芯片性能有以下測(cè)試要求:

i)應(yīng)在在不同通信負(fù)載和通信節(jié)點(diǎn)條件下,測(cè)試All-Reduce算子的算法帶寬(GB/s)和通信延

遲(ms);

6

T/CESAXXXX—202X

j)應(yīng)在不同的配置下(單機(jī)1卡、單機(jī)4卡、單機(jī)8卡等),測(cè)試模型訓(xùn)練性能。

7.3.4算子性能測(cè)試流程

表13算子性能測(cè)試流程

序號(hào)步驟步驟描述

1參數(shù)配置準(zhǔn)備輸入數(shù)據(jù),并將算子執(zhí)行所需的所有輸入數(shù)據(jù)傳輸至訓(xùn)練芯片存儲(chǔ)器。

2暖身輪在芯片上執(zhí)行算子M(M<10)次,作為性能測(cè)試的暖身輪。

3耗時(shí)測(cè)試將算子在芯片上連續(xù)運(yùn)行特定次數(shù)N(N介于1000和100000之間,測(cè)試人員在測(cè)試過(guò)程中

根據(jù)實(shí)際情況指定),取運(yùn)算時(shí)間的均值;

4精度測(cè)試算子在某一特定輸入配置下的計(jì)算時(shí)間與相應(yīng)的基準(zhǔn)時(shí)間的比值即為該輸入?yún)?shù)配置下的

性能評(píng)分。數(shù)值精度可取泛?jiǎn)尉龋‵P32、TF32等)和泛半精度(FP16、BF16等),基準(zhǔn)

性能也有兩種精度的基準(zhǔn)值,被測(cè)芯片的某個(gè)算子的評(píng)分系數(shù)選取兩種數(shù)制精度下的最高

值。

5結(jié)果確認(rèn)該測(cè)試條件下的算子必須確保精度滿(mǎn)足要求,評(píng)測(cè)要求參考第7.2.1章節(jié)。

7.3.5模型性能測(cè)試流程

表14模型性能測(cè)試流程

序號(hào)步驟步驟描述

1參數(shù)配置準(zhǔn)備模型訓(xùn)練所需的參數(shù)、數(shù)據(jù)集,訓(xùn)練過(guò)程不能對(duì)設(shè)定參數(shù)進(jìn)行修改。

2暖身輪啟動(dòng)模型訓(xùn)練,執(zhí)行M(M<3)輪(epoch)訓(xùn)練作為暖身輪。

3測(cè)試執(zhí)行至少執(zhí)行一個(gè)完整的訓(xùn)練輪(epoch),根據(jù)第6.3.3章節(jié)中IPS定義計(jì)算模型的訓(xùn)練性能。

7.4軟件生態(tài)

7.4.1軟件生態(tài)

測(cè)試芯片應(yīng)支持必要的基本軟件棧、高性能計(jì)算庫(kù)、高性能通信庫(kù)以及產(chǎn)品部署規(guī)模。

a)基本軟件棧

表14基本軟件棧測(cè)試方法

序號(hào)指標(biāo)名稱(chēng)CUDA對(duì)應(yīng)是否支持

1驅(qū)動(dòng)支持cudadriver

2運(yùn)行時(shí)庫(kù)cudart

3編譯工具鏈nvcc

4調(diào)試工具cuda-gdb

5調(diào)優(yōu)工具nvprof

b)高性能計(jì)算庫(kù)

表15高性能計(jì)算庫(kù)測(cè)試方法

序號(hào)指標(biāo)名稱(chēng)CUDA對(duì)應(yīng)是否支持

1第1級(jí)計(jì)算庫(kù)cudnn、cublas

7

T/CESAXXXX—202X

2第2級(jí)計(jì)算庫(kù)cusparse、curand

c)高性能通信庫(kù)

通信庫(kù)應(yīng)支持常見(jiàn)的通信原語(yǔ)如All-Reduce、Reduce-Scatter、Broadcast等,CUDA對(duì)應(yīng)的高性能

通信庫(kù)為NCCL。

7.4.2開(kāi)放性

訓(xùn)練芯片應(yīng)考慮開(kāi)放性相關(guān)指標(biāo):

表16開(kāi)放性測(cè)試方法

序號(hào)子指標(biāo)評(píng)測(cè)內(nèi)容是否支持

1芯片指令集或虛擬指令集的開(kāi)放程度

2是否開(kāi)放設(shè)備代碼編譯器(或部分組件)用于極致性能調(diào)優(yōu)

3編程接口和編程模型是否與主流異構(gòu)計(jì)算生態(tài)兼容或可類(lèi)比

8

T/CESAXXXX—202X

附錄A

(規(guī)范性)

算子參數(shù)配置

A.1算子性能評(píng)測(cè)配置參數(shù)

算子性能評(píng)測(cè)中所有測(cè)試算子以及相應(yīng)的輸入配置參數(shù)列如以下:

a)GEMM

GEMM算子的定義請(qǐng)參見(jiàn)ONNX-Operator-Gemm,測(cè)試中參數(shù)M、N、K的取值如下表所示。參數(shù)(transA,

transB)分別取(N,N)、(N,T)、(T,N)和(T,T),參數(shù)C為大小為(M,N)且值隨機(jī)生成的矩陣,

參數(shù)、取默認(rèn)值。綜合上述參數(shù)配置項(xiàng),最終測(cè)試配置項(xiàng)數(shù)為224=56*4。

表A.1GEMM測(cè)試輸入?yún)?shù)配置

序號(hào)MNK序號(hào)MNK

1816322964164096

281283230641284096

38102432316410244096

48768032326476804096

58162563320481632

6812825634204812832

781024256352048102432

887680256362048768032

9816153637204816256

1081281536382048128256

118102415363920481024256

128768015364020487680256

138164096412048161536

14812840964220481281536

1581024409643204810241536

1687680409644204876801536

17641632452048164096

1864128324620481284096

196410243247204810244096

206476803248204876804096

21641625649176065741760

2264128256503584672048

23641024256517680162560

24647680256526144322816

256416153653512161024

26641281536543072128512

2764102415365525610244096

2864768015365651232512

b)Conv2d

9

T/CESAXXXX—202X

表A.2Conv2d測(cè)試輸入?yún)?shù)配置

序號(hào)WHCNKSRpad_wpad_hs_hs_v

12242243864331111

2112112648128331111

356561288256331111

428282568512331111

514145128512331111

6775128512331111

722422433264331111

81121126432128331111

9565612832256331111

10282825632512331111

11141451232512331111

127751232512331111

13224224325664331111

1411211264256128331111

155656128256256331111

162828256256512331111

171414512256512331111

1877512256512331111

1922422433264773322

2028281923232552211

2128281923264110011

2214145123248552211

23141451232192110011

247783232256110011

257783232128552211

26224224351264773322

27282819251232552211

28282819251264110011

29141451251248552211

301414512512192110011

3177832512256110011

3277832512128552211

334804811616331111

3424024161632331111

3512012321664331111

366066416128331111

371081083864331122

38545464864331111

3927271288128331111

10

T/CESAXXXX—202X

4014141288256331111

41772568512331111

425656641664331111

4356566416256110022

44282812816128331111

45282812816512110022

46141425616256331111

471414256161024110022

487751216512110011

4977204816512113322

5056566451264331111

51565664512256110022

522828128512128331111

532828128512512110022

541414256512256331111

5514142565121024110022

5677512512512110011

57772048512512113322

5811211264864110011

595656648256110011

601121126412864110011

61565664128256110011

621121126451264110011

63565664512256110011

11

T/CESAXXXX—202X

附錄B

(規(guī)范性)

算子及模型列表

B.1算子列表

表B.1算子列表

序號(hào)算子列表

1conv1d,conv2d,conv3d,batch_norm,relu,max_pool1d,max_pool2d,max_pool3d,conv_transpose1d,

conv_transpose2d,conv_transpose3d,softmax,softmin,cross_entropy,binarky_cross_entropy,

dropout,select,randperm,mm,bmm,matmul,max,min,mean,add,sub,sum,div,mul,eq,gt,topk,

stack,cat,split,sort,fill,arange,reshape,scatter,nonzero,layer_norm,interpolate,sigmoid,

avg_pool1d,avg_pool2d,avg_pool3d,flatten,unsqueeze,squeeze,SGD,sin,cos,sinh,cosh,log,

log2,exp,exp2,sqrt,fmod,sign,pow,neg,abs,floor,index_select,masked_select,permute,where,

clamp,repeat,transpose,leaky_relu,prelu,log_softmax,instance_norm,Adam,Nms,RoiAlign,

SyncBatchNorm,GlobalMaxPool,GlobalAveragePool,adaptive_avg_pool1d,adaptive_avg_pool2d,

adaptive_avg_pool3d,adaptive_max_pool1d,adaptive_max_pool2d,adaptive_max_pool3d,…

B.2長(zhǎng)尾算子列表

表B.2長(zhǎng)尾算子列表

序號(hào)算子序號(hào)算子

1bbox2delta21Fcos_matcher

2bbox_overlaps22Index2d

3Delta2bbox23Intersect

4Compute_locations24Jaccard

5Batched_nms25Legacy_bbox2delta

6Bbox2roi26Margin_loss

7Bbox2offset27Mask_predictor

8L2_loss28Masks_to_boxes

9Aeloss29Offset2bbox

10Bmn_loss30Partialconv2d

11Box_area31Shift

12Box_iou32Random_sampler

13Boxes_for_nms33Sanitize_coordinates

14Bucket2bbox34Tblr2bbox

15Center_size35Valid_flags

16Centernet_keypoint36Position_embedding_sine

17Crop37Position_embedding_learned

12

T/CESAXXXX—202X

18Edge_smoothloss38Msms_clsf

19Focal_loss39Maxiou_matcher_match

20Gaussian_focal_loss40Map_roi_levels

B.3模型列表

表B.3模型列表

類(lèi)別模型數(shù)據(jù)集權(quán)重

Resnet50_v1.5ImageNetILSVRC-2012

Inception_v3ImageNetILSVRC-2012

VGG16ImageNetILSVRC-2012

SE-Resnet50ImageNetILSVRC-2012

分類(lèi)

MobileNet_v2ImageNetILSVRC-2012

ShuffleNet_v2ImageNetILSVRC-2012

DenseNet121ImageNetILSVRC-2012

SwinTransformer

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論