版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
ICS31.200
CCSL56
團(tuán)體標(biāo)準(zhǔn)
T/CESAXXX-202X
人工智能芯片計(jì)算機(jī)視覺(jué)訓(xùn)練用云側(cè)深度
學(xué)習(xí)芯片測(cè)試指標(biāo)與測(cè)試方法
AIChips-ComputerVision-Testmetricsandtestmethodofdeeplearningchipsfor
cloudsidetraining
征求意見(jiàn)稿
在提交反饋意見(jiàn)時(shí),請(qǐng)將您知道的相關(guān)專(zhuān)利連同支持性文件一并附上。
已授權(quán)的專(zhuān)利證明材料為專(zhuān)利證書(shū)復(fù)印件或扉頁(yè),已公開(kāi)但尚未授權(quán)的專(zhuān)利申
請(qǐng)證明材料為專(zhuān)利公開(kāi)通知書(shū)復(fù)印件或扉頁(yè),未公開(kāi)的專(zhuān)利申請(qǐng)的證明材料為專(zhuān)利
申請(qǐng)?zhí)柡蜕暾?qǐng)日期。
202X-XX-XX發(fā)布202X-XX-XX實(shí)施
中國(guó)電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會(huì)發(fā)布
T/CESAXXXX—202X
前??言
本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起
草。
本文件由上海商湯科技開(kāi)發(fā)有限公司提出。
本文件由中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院、中國(guó)電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會(huì)歸口。
本文件起草單位:。
本文件主要起草人:。
IV
T/CESAXXXX—202X
人工智能芯片計(jì)算機(jī)視覺(jué)訓(xùn)練用云側(cè)深度學(xué)習(xí)芯片測(cè)試指標(biāo)與測(cè)
試方法
1范圍
本文件規(guī)定了計(jì)算機(jī)視覺(jué)領(lǐng)域面向云側(cè)的深度學(xué)習(xí)訓(xùn)練芯片的基本技術(shù)規(guī)格、功能、性能、生態(tài)與
開(kāi)放性等測(cè)試指標(biāo)和測(cè)試方法。
本文件適用于芯片生產(chǎn)廠(chǎng)商、應(yīng)用廠(chǎng)商及第三方機(jī)構(gòu)對(duì)計(jì)算機(jī)視覺(jué)領(lǐng)域面向云側(cè)的深度學(xué)習(xí)訓(xùn)練芯
片進(jìn)行測(cè)試與評(píng)估,也適用于計(jì)算機(jī)視覺(jué)領(lǐng)域深度學(xué)習(xí)訓(xùn)練芯片產(chǎn)品的采購(gòu)、設(shè)計(jì)。
2規(guī)范性引用文件
下列文件中的內(nèi)容通過(guò)文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,
僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本
文件。
T/CESA1119—2020人工智能芯片面向云側(cè)的深度學(xué)習(xí)芯片測(cè)試指標(biāo)與測(cè)試方法
3術(shù)語(yǔ)和定義
T/CESA1119—2020界定的以及下列術(shù)語(yǔ)和定義適用于本文件。
3.1
計(jì)算機(jī)視覺(jué)computervision
一種具備獲取、處理和解釋視覺(jué)數(shù)據(jù)能力的功能單元。
[來(lái)源:ISO/IECDIS22989:2021,3.1.11,有修改]
4縮略語(yǔ)
下列縮略語(yǔ)適用于本文件。
IPS:每秒處理的圖片數(shù)(ImagesPerSecond)
API:應(yīng)用編程接口(ApplicationProgrammingInterface)
5測(cè)試說(shuō)明
5.1測(cè)試環(huán)境及流程
本文件的測(cè)試環(huán)境及測(cè)試流程均應(yīng)符合T/CESA1119—2020的相關(guān)要求。
5.2測(cè)試對(duì)象
本文件的測(cè)試對(duì)象是含有計(jì)算機(jī)視覺(jué)推理用云側(cè)深度學(xué)習(xí)芯片(卡/棒)的控制主機(jī):指以芯片/卡/
1
T/CESAXXXX—202X
棒形態(tài)進(jìn)行使用的深度學(xué)習(xí)芯片,如GPU、FPGA以及ASIC等人工智能芯片(卡/棒),可通過(guò)PCIE、USB等接
口與測(cè)試主機(jī)連接。
5.3測(cè)試內(nèi)容
計(jì)算機(jī)視覺(jué)訓(xùn)練芯片的測(cè)評(píng)指標(biāo),主要包括基本技術(shù)規(guī)格、功能、性能、生態(tài)與開(kāi)放性等部分,在
依據(jù)本文件進(jìn)行測(cè)試的過(guò)程中:
a)涉及功能、性能等相關(guān)指標(biāo)將通過(guò)第三方測(cè)試工具進(jìn)行評(píng)測(cè);
b)生態(tài)與開(kāi)放性部分的指標(biāo)將采信被測(cè)對(duì)象標(biāo)稱(chēng)值及其他技術(shù)信息,作為先進(jìn)性的參考。
6測(cè)試指標(biāo)
6.1基本技術(shù)規(guī)格
基本技術(shù)規(guī)格從算力、內(nèi)存、通信以及能效比四個(gè)方面進(jìn)行評(píng)測(cè),每個(gè)子指標(biāo)的評(píng)分計(jì)算方式為該
子指標(biāo)測(cè)試值與對(duì)應(yīng)基準(zhǔn)值的比值,計(jì)算公式為:
············································(1)
a)算力
表1算力相關(guān)指標(biāo)與參考值
序號(hào)指標(biāo)名稱(chēng)指標(biāo)內(nèi)容參考值
1FP16算力(TFLOPS)16bit(1bitsign+5bitexponent+10bitfraction)
浮點(diǎn)數(shù)據(jù)的計(jì)算能力
2FP32算力(TFLOPS)32bit(1bitsign+8bitexponent+23bitfraction)
浮點(diǎn)數(shù)據(jù)的計(jì)算能力
3INT8算力(TOPS)8bit整型數(shù)據(jù)的計(jì)算能力
4INT16算力(TOPS)16bit整型數(shù)據(jù)的計(jì)算能力
5BF16算力(TFLOPS)16bit(1bitsign+8bitexponent+7bitfraction)
浮點(diǎn)數(shù)據(jù)的計(jì)算能力
6TF32算力(TFLOPS)19bit(1bitsign+8bitexponent+10bitfraction)
浮點(diǎn)數(shù)據(jù)的計(jì)算能力
b)內(nèi)存規(guī)格
內(nèi)存是訓(xùn)練芯片的片下存儲(chǔ)器(顯存),而不是指主機(jī)存儲(chǔ)器。
表2內(nèi)存相關(guān)指標(biāo)與參考值
序號(hào)指標(biāo)名稱(chēng)指標(biāo)內(nèi)容參考值
1容量(GB)內(nèi)存容量用字節(jié)數(shù)進(jìn)行標(biāo)稱(chēng)
2帶寬(GB/s)芯片的運(yùn)算單元訪(fǎng)問(wèn)片下存儲(chǔ)器的帶寬
c)通信帶寬
表3通信帶寬相關(guān)指標(biāo)與參考值
序號(hào)指標(biāo)名稱(chēng)指標(biāo)內(nèi)容參考值
1主機(jī)-設(shè)備帶寬(GB/s)訓(xùn)練芯片與主機(jī)之間的通信帶寬
2
T/CESAXXXX—202X
2節(jié)點(diǎn)內(nèi)卡間帶寬一個(gè)計(jì)算節(jié)點(diǎn)內(nèi),兩個(gè)芯片之間的通信帶寬
(GB/s)
d)能效比
表4能效比相關(guān)指標(biāo)與參考值
序號(hào)指標(biāo)名稱(chēng)指標(biāo)內(nèi)容參考值
1最高浮點(diǎn)算力能效比芯片最高浮點(diǎn)算力與芯片標(biāo)稱(chēng)功耗TDP的比值
(TFLOPS/W)
2最高整型算力能效比芯片最高整型算力與芯片標(biāo)稱(chēng)功耗TDP的比值
(TOPS/W)
6.2功能
6.2.1算子支持程度
訓(xùn)練芯片對(duì)算子的支持程度,使用算子支持率進(jìn)行衡量。算子支持率計(jì)算公式如下:
······························(2)
其中,被測(cè)試算子從算子列表(附錄B.1)中獲取,每個(gè)算子的權(quán)重系數(shù)使用統(tǒng)計(jì)方法獲得。
6.2.2模型支持程度
對(duì)目前常見(jiàn)深度學(xué)習(xí)應(yīng)用領(lǐng)域(例如圖像分類(lèi)、分割、目標(biāo)檢測(cè)、NLP、推薦等)中典型模型的支
持程度。模型支持率的計(jì)算公式如下:
······························(3)
其中,被測(cè)試模型以及相應(yīng)的權(quán)重系數(shù)從模型列表(附錄B.2)中獲取。
6.2.3卡間、多機(jī)高速通信的功能支持
卡間和多機(jī)高速通信分別指“節(jié)點(diǎn)內(nèi)點(diǎn)對(duì)點(diǎn)通信”和“跨節(jié)點(diǎn)點(diǎn)對(duì)點(diǎn)通信”,指標(biāo)內(nèi)容如下表。
表5卡間和多機(jī)高速通信功能支持
序號(hào)指標(biāo)名稱(chēng)指標(biāo)內(nèi)容
1節(jié)點(diǎn)內(nèi)點(diǎn)對(duì)點(diǎn)通信節(jié)點(diǎn)內(nèi)用于卡間直接通信,CPU-Offload
2跨節(jié)點(diǎn)點(diǎn)對(duì)點(diǎn)通信跨節(jié)點(diǎn)卡間直接通信,CPU-Offload
6.2.4訓(xùn)練性能的數(shù)制能力
a)新型數(shù)制
芯片中的運(yùn)算單元支持TF32、BF16等新型數(shù)制。
b)稀疏計(jì)算
芯片在不降低模型訓(xùn)練精度的情況下,支持稀疏矩陣的運(yùn)算以提高訓(xùn)練性能。
6.3性能
6.3.1算子計(jì)算性能
3
T/CESAXXXX—202X
算子性能指某一特定輸入配置情況下在芯片上的運(yùn)算時(shí)間,不包含數(shù)據(jù)在主機(jī)內(nèi)存和芯片存儲(chǔ)器之
間的傳輸時(shí)間。主要考慮GEMM、Conv2d和長(zhǎng)尾算子在不同輸入?yún)?shù)條件下在單芯片上的計(jì)算性能,其
中長(zhǎng)尾算子從被測(cè)試算子從算子列表(附錄B.1)中獲取。單項(xiàng)配置下算子的性能評(píng)分如公式(4)所示:
·································(4)
算子性能評(píng)分為GEMM、Conv2d和長(zhǎng)尾算子測(cè)試項(xiàng)的加權(quán)平均,其中權(quán)重系數(shù)依次為{0.3、0.4、0.3}。
6.3.2通信性能
指算子在單節(jié)點(diǎn)多芯片、多節(jié)點(diǎn)多芯片條件下的性能表現(xiàn),包括通信速率和時(shí)延。通信速率指消息
體字節(jié)數(shù)與消息體從一個(gè)通信節(jié)點(diǎn)發(fā)出到達(dá)另外一個(gè)通信節(jié)點(diǎn)所需時(shí)間的比值(單位:GB/s)。時(shí)延指
通信節(jié)點(diǎn)發(fā)送消息體時(shí)從開(kāi)始發(fā)送至發(fā)送結(jié)束所需的時(shí)間(單位:ms)。
6.3.3模型訓(xùn)練性能
主流深度學(xué)習(xí)模型在不同配置(單卡、多卡)情形下的訓(xùn)練性能。模型訓(xùn)練性能用IPS衡量,是
指訓(xùn)練過(guò)程中每秒鐘能處理的圖片數(shù),其計(jì)算公式如下:
··················································(5)
模型性能評(píng)分為所有測(cè)試模型評(píng)分的加權(quán)平均。
····································(6)
其中,模型i的性能評(píng)分為:
·······························(7)
式中:
M——單機(jī)1卡、單機(jī)4卡和單機(jī)8卡3種測(cè)試配置。
模型測(cè)試參數(shù)配置以及訓(xùn)練數(shù)據(jù)集詳見(jiàn)附錄B.2。
6.4軟件生態(tài)
6.4.1生態(tài)
生態(tài)指芯片的基本軟件棧,并考慮芯片在公開(kāi)市場(chǎng)的部署規(guī)模。評(píng)測(cè)內(nèi)容主要包含如下幾點(diǎn):
a)支持用戶(hù)對(duì)芯片進(jìn)行軟件開(kāi)發(fā)的運(yùn)行時(shí)庫(kù)、編譯工具鏈和調(diào)試調(diào)優(yōu)工具。
表6基本軟件棧支持度指標(biāo)
序號(hào)指標(biāo)名稱(chēng)指標(biāo)內(nèi)容必要/可選指標(biāo)
1驅(qū)動(dòng)支持是否包含驅(qū)動(dòng)以及提供驅(qū)動(dòng)API用于軟件開(kāi)發(fā)必要
4
T/CESAXXXX—202X
2運(yùn)行時(shí)庫(kù)是否包含運(yùn)行時(shí)庫(kù)必要
3編譯工具鏈?zhǔn)欠裉峁┚幾g工具鏈對(duì)用戶(hù)程序進(jìn)行編譯必要
4調(diào)試工具是否提供調(diào)試工具對(duì)芯片的代碼進(jìn)行調(diào)試排錯(cuò)必要
5調(diào)優(yōu)工具是否提供調(diào)優(yōu)工具對(duì)芯片的代碼實(shí)現(xiàn)進(jìn)行性能分析、調(diào)優(yōu)必要
b)芯片的高性能計(jì)算庫(kù)。主要包括計(jì)算庫(kù)的數(shù)量、計(jì)算庫(kù)提供的算子/函數(shù)的數(shù)量、提供計(jì)算庫(kù)
的性能三個(gè)方面。
表7高性能計(jì)算庫(kù)指標(biāo)
序號(hào)指標(biāo)名稱(chēng)指標(biāo)內(nèi)容必要/可選指標(biāo)
1第1級(jí)計(jì)算庫(kù)是否包含深度神經(jīng)網(wǎng)絡(luò)(DNN)庫(kù)、線(xiàn)性代數(shù)庫(kù)等,并使用典型必要
算子去測(cè)試其計(jì)算性能對(duì)芯片算力的利用率
2第2級(jí)計(jì)算庫(kù)是否包含其他計(jì)算庫(kù),例如隨機(jī)數(shù)生成庫(kù)等必要
c)高性能通信庫(kù)支持程度。覆蓋主機(jī)-芯片之間、節(jié)點(diǎn)內(nèi)芯片間以及跨節(jié)點(diǎn)芯片間三種場(chǎng)景的高
性能通信庫(kù),以及是否支持常見(jiàn)的通信原語(yǔ),如All-Reduce、Reduce-Scatter、Broadcast
等。
6.4.2開(kāi)放性
開(kāi)放性評(píng)測(cè)中的指標(biāo)包含開(kāi)放的芯片指令集或虛擬指令集、開(kāi)放的設(shè)備代碼編譯器等,詳見(jiàn)表8。
表8開(kāi)放性指標(biāo)
序號(hào)指標(biāo)名稱(chēng)指標(biāo)內(nèi)容必要/可選指標(biāo)
1編程模型編程模型、線(xiàn)程模型、存儲(chǔ)層級(jí)設(shè)計(jì)是否和業(yè)界主流異構(gòu)計(jì)算模型保必要
持兼容
2編程接口編程接口(如設(shè)備管理、流的使用與管理、同步機(jī)制等)是否與主流必要
異構(gòu)計(jì)算的編程接口保持兼容
7測(cè)試方法
7.1基本技術(shù)規(guī)格
算力、內(nèi)存、通信等子指標(biāo)的測(cè)試均采用廠(chǎng)商提供的標(biāo)稱(chēng)值。
7.2功能
7.2.1測(cè)試目標(biāo)
測(cè)試訓(xùn)練芯片以及其軟件棧是否支持附錄B.1(算子列表)和附錄B.2(模型列表)所列的算子與模
型。
7.2.2測(cè)試準(zhǔn)備
功能測(cè)試需要被測(cè)方提供以下內(nèi)容:
a)應(yīng)提供處于最佳工作環(huán)境、廠(chǎng)商標(biāo)配的主機(jī)配置、廠(chǎng)商標(biāo)配的訓(xùn)練芯片產(chǎn)品形態(tài);
b)應(yīng)提供訓(xùn)練芯片軟件棧的相關(guān)技術(shù)文檔。
5
T/CESAXXXX—202X
7.2.3測(cè)試要求
待測(cè)算子和待測(cè)試模型應(yīng)滿(mǎn)足以下要求:
d)支持至少一種數(shù)值精度(FP32、FB16、TF32、BF16、INT8和INT16)的實(shí)現(xiàn);
e)訓(xùn)練芯片執(zhí)行該算子的輸出結(jié)果應(yīng)與ONNXRuntimeCPU(v1.10.0,Inteli7-8700@3.2GHz)
的輸出結(jié)果進(jìn)行比較,兩者誤差在可接受范圍內(nèi);
f)若輸出參數(shù)是張量,對(duì)張量中每一個(gè)元素與標(biāo)準(zhǔn)輸出結(jié)果中對(duì)應(yīng)元素進(jìn)行比較;
g)測(cè)試模型中至少95%的算子在訓(xùn)練芯片上執(zhí)行,且關(guān)鍵算子(包括卷積、矩陣乘、歸一化、激
活函數(shù)、池化)在訓(xùn)練芯片上執(zhí)行;
h)模型測(cè)試使用超參與附錄B.2保持一致,在滿(mǎn)足模型測(cè)試精度要求的前提下,不限定訓(xùn)練使用
的數(shù)值精度。
7.2.4算子功能測(cè)試流程
表11算子功能測(cè)試流程
序號(hào)步驟步驟描述
1參數(shù)配置給定輸入?yún)?shù),使用該算子在ONNXRuntimeCPU實(shí)現(xiàn)進(jìn)行計(jì)算,獲得在該輸入配置下的標(biāo)準(zhǔn)
輸出結(jié)果。
2算子執(zhí)行使用上述輸入?yún)?shù),在訓(xùn)練芯片上執(zhí)行該算子,獲得相應(yīng)的測(cè)試輸出結(jié)果。
3精度對(duì)比將測(cè)試輸出結(jié)果與標(biāo)準(zhǔn)輸出結(jié)果進(jìn)行對(duì)比,計(jì)算相對(duì)誤差和絕對(duì)誤差。
7.2.5模型功能測(cè)試流程
表12模型功能測(cè)試流程
序號(hào)步驟步驟描述
1給定參數(shù)給定模型測(cè)試數(shù)據(jù)集、超參配置、要求訓(xùn)練輪數(shù)以及測(cè)試精度要求。
2模型運(yùn)行在以訓(xùn)練芯片為基礎(chǔ)的計(jì)算系統(tǒng)上,使用指定數(shù)據(jù)集和超參進(jìn)行訓(xùn)練。
3精度對(duì)比當(dāng)訓(xùn)練輪數(shù)達(dá)到訓(xùn)練要求的輪數(shù)時(shí),測(cè)試模型在指定測(cè)試數(shù)據(jù)集上的精度。
7.3性能
7.3.1測(cè)試目標(biāo)
測(cè)試訓(xùn)練芯片以及其軟件棧在附錄B.1算子列表和B.2模型列表下的訓(xùn)練性能。
7.3.2測(cè)試準(zhǔn)備
性能測(cè)試需要被測(cè)方提供以下內(nèi)容:
a)應(yīng)提供處于最佳工作環(huán)境、廠(chǎng)商標(biāo)配的主機(jī)配置、廠(chǎng)商標(biāo)配的訓(xùn)練芯片產(chǎn)品形態(tài);
b)應(yīng)提供訓(xùn)練芯片軟件棧的相關(guān)技術(shù)文檔。
7.3.3測(cè)試要求
測(cè)試訓(xùn)練芯片性能有以下測(cè)試要求:
i)應(yīng)在在不同通信負(fù)載和通信節(jié)點(diǎn)條件下,測(cè)試All-Reduce算子的算法帶寬(GB/s)和通信延
遲(ms);
6
T/CESAXXXX—202X
j)應(yīng)在不同的配置下(單機(jī)1卡、單機(jī)4卡、單機(jī)8卡等),測(cè)試模型訓(xùn)練性能。
7.3.4算子性能測(cè)試流程
表13算子性能測(cè)試流程
序號(hào)步驟步驟描述
1參數(shù)配置準(zhǔn)備輸入數(shù)據(jù),并將算子執(zhí)行所需的所有輸入數(shù)據(jù)傳輸至訓(xùn)練芯片存儲(chǔ)器。
2暖身輪在芯片上執(zhí)行算子M(M<10)次,作為性能測(cè)試的暖身輪。
3耗時(shí)測(cè)試將算子在芯片上連續(xù)運(yùn)行特定次數(shù)N(N介于1000和100000之間,測(cè)試人員在測(cè)試過(guò)程中
根據(jù)實(shí)際情況指定),取運(yùn)算時(shí)間的均值;
4精度測(cè)試算子在某一特定輸入配置下的計(jì)算時(shí)間與相應(yīng)的基準(zhǔn)時(shí)間的比值即為該輸入?yún)?shù)配置下的
性能評(píng)分。數(shù)值精度可取泛?jiǎn)尉龋‵P32、TF32等)和泛半精度(FP16、BF16等),基準(zhǔn)
性能也有兩種精度的基準(zhǔn)值,被測(cè)芯片的某個(gè)算子的評(píng)分系數(shù)選取兩種數(shù)制精度下的最高
值。
5結(jié)果確認(rèn)該測(cè)試條件下的算子必須確保精度滿(mǎn)足要求,評(píng)測(cè)要求參考第7.2.1章節(jié)。
7.3.5模型性能測(cè)試流程
表14模型性能測(cè)試流程
序號(hào)步驟步驟描述
1參數(shù)配置準(zhǔn)備模型訓(xùn)練所需的參數(shù)、數(shù)據(jù)集,訓(xùn)練過(guò)程不能對(duì)設(shè)定參數(shù)進(jìn)行修改。
2暖身輪啟動(dòng)模型訓(xùn)練,執(zhí)行M(M<3)輪(epoch)訓(xùn)練作為暖身輪。
3測(cè)試執(zhí)行至少執(zhí)行一個(gè)完整的訓(xùn)練輪(epoch),根據(jù)第6.3.3章節(jié)中IPS定義計(jì)算模型的訓(xùn)練性能。
7.4軟件生態(tài)
7.4.1軟件生態(tài)
測(cè)試芯片應(yīng)支持必要的基本軟件棧、高性能計(jì)算庫(kù)、高性能通信庫(kù)以及產(chǎn)品部署規(guī)模。
a)基本軟件棧
表14基本軟件棧測(cè)試方法
序號(hào)指標(biāo)名稱(chēng)CUDA對(duì)應(yīng)是否支持
1驅(qū)動(dòng)支持cudadriver
2運(yùn)行時(shí)庫(kù)cudart
3編譯工具鏈nvcc
4調(diào)試工具cuda-gdb
5調(diào)優(yōu)工具nvprof
b)高性能計(jì)算庫(kù)
表15高性能計(jì)算庫(kù)測(cè)試方法
序號(hào)指標(biāo)名稱(chēng)CUDA對(duì)應(yīng)是否支持
1第1級(jí)計(jì)算庫(kù)cudnn、cublas
7
T/CESAXXXX—202X
2第2級(jí)計(jì)算庫(kù)cusparse、curand
c)高性能通信庫(kù)
通信庫(kù)應(yīng)支持常見(jiàn)的通信原語(yǔ)如All-Reduce、Reduce-Scatter、Broadcast等,CUDA對(duì)應(yīng)的高性能
通信庫(kù)為NCCL。
7.4.2開(kāi)放性
訓(xùn)練芯片應(yīng)考慮開(kāi)放性相關(guān)指標(biāo):
表16開(kāi)放性測(cè)試方法
序號(hào)子指標(biāo)評(píng)測(cè)內(nèi)容是否支持
1芯片指令集或虛擬指令集的開(kāi)放程度
2是否開(kāi)放設(shè)備代碼編譯器(或部分組件)用于極致性能調(diào)優(yōu)
3編程接口和編程模型是否與主流異構(gòu)計(jì)算生態(tài)兼容或可類(lèi)比
8
T/CESAXXXX—202X
附錄A
(規(guī)范性)
算子參數(shù)配置
A.1算子性能評(píng)測(cè)配置參數(shù)
算子性能評(píng)測(cè)中所有測(cè)試算子以及相應(yīng)的輸入配置參數(shù)列如以下:
a)GEMM
GEMM算子的定義請(qǐng)參見(jiàn)ONNX-Operator-Gemm,測(cè)試中參數(shù)M、N、K的取值如下表所示。參數(shù)(transA,
transB)分別取(N,N)、(N,T)、(T,N)和(T,T),參數(shù)C為大小為(M,N)且值隨機(jī)生成的矩陣,
參數(shù)、取默認(rèn)值。綜合上述參數(shù)配置項(xiàng),最終測(cè)試配置項(xiàng)數(shù)為224=56*4。
表A.1GEMM測(cè)試輸入?yún)?shù)配置
序號(hào)MNK序號(hào)MNK
1816322964164096
281283230641284096
38102432316410244096
48768032326476804096
58162563320481632
6812825634204812832
781024256352048102432
887680256362048768032
9816153637204816256
1081281536382048128256
118102415363920481024256
128768015364020487680256
138164096412048161536
14812840964220481281536
1581024409643204810241536
1687680409644204876801536
17641632452048164096
1864128324620481284096
196410243247204810244096
206476803248204876804096
21641625649176065741760
2264128256503584672048
23641024256517680162560
24647680256526144322816
256416153653512161024
26641281536543072128512
2764102415365525610244096
2864768015365651232512
b)Conv2d
9
T/CESAXXXX—202X
表A.2Conv2d測(cè)試輸入?yún)?shù)配置
序號(hào)WHCNKSRpad_wpad_hs_hs_v
12242243864331111
2112112648128331111
356561288256331111
428282568512331111
514145128512331111
6775128512331111
722422433264331111
81121126432128331111
9565612832256331111
10282825632512331111
11141451232512331111
127751232512331111
13224224325664331111
1411211264256128331111
155656128256256331111
162828256256512331111
171414512256512331111
1877512256512331111
1922422433264773322
2028281923232552211
2128281923264110011
2214145123248552211
23141451232192110011
247783232256110011
257783232128552211
26224224351264773322
27282819251232552211
28282819251264110011
29141451251248552211
301414512512192110011
3177832512256110011
3277832512128552211
334804811616331111
3424024161632331111
3512012321664331111
366066416128331111
371081083864331122
38545464864331111
3927271288128331111
10
T/CESAXXXX—202X
4014141288256331111
41772568512331111
425656641664331111
4356566416256110022
44282812816128331111
45282812816512110022
46141425616256331111
471414256161024110022
487751216512110011
4977204816512113322
5056566451264331111
51565664512256110022
522828128512128331111
532828128512512110022
541414256512256331111
5514142565121024110022
5677512512512110011
57772048512512113322
5811211264864110011
595656648256110011
601121126412864110011
61565664128256110011
621121126451264110011
63565664512256110011
11
T/CESAXXXX—202X
附錄B
(規(guī)范性)
算子及模型列表
B.1算子列表
表B.1算子列表
序號(hào)算子列表
1conv1d,conv2d,conv3d,batch_norm,relu,max_pool1d,max_pool2d,max_pool3d,conv_transpose1d,
conv_transpose2d,conv_transpose3d,softmax,softmin,cross_entropy,binarky_cross_entropy,
dropout,select,randperm,mm,bmm,matmul,max,min,mean,add,sub,sum,div,mul,eq,gt,topk,
stack,cat,split,sort,fill,arange,reshape,scatter,nonzero,layer_norm,interpolate,sigmoid,
avg_pool1d,avg_pool2d,avg_pool3d,flatten,unsqueeze,squeeze,SGD,sin,cos,sinh,cosh,log,
log2,exp,exp2,sqrt,fmod,sign,pow,neg,abs,floor,index_select,masked_select,permute,where,
clamp,repeat,transpose,leaky_relu,prelu,log_softmax,instance_norm,Adam,Nms,RoiAlign,
SyncBatchNorm,GlobalMaxPool,GlobalAveragePool,adaptive_avg_pool1d,adaptive_avg_pool2d,
adaptive_avg_pool3d,adaptive_max_pool1d,adaptive_max_pool2d,adaptive_max_pool3d,…
B.2長(zhǎng)尾算子列表
表B.2長(zhǎng)尾算子列表
序號(hào)算子序號(hào)算子
1bbox2delta21Fcos_matcher
2bbox_overlaps22Index2d
3Delta2bbox23Intersect
4Compute_locations24Jaccard
5Batched_nms25Legacy_bbox2delta
6Bbox2roi26Margin_loss
7Bbox2offset27Mask_predictor
8L2_loss28Masks_to_boxes
9Aeloss29Offset2bbox
10Bmn_loss30Partialconv2d
11Box_area31Shift
12Box_iou32Random_sampler
13Boxes_for_nms33Sanitize_coordinates
14Bucket2bbox34Tblr2bbox
15Center_size35Valid_flags
16Centernet_keypoint36Position_embedding_sine
17Crop37Position_embedding_learned
12
T/CESAXXXX—202X
18Edge_smoothloss38Msms_clsf
19Focal_loss39Maxiou_matcher_match
20Gaussian_focal_loss40Map_roi_levels
B.3模型列表
表B.3模型列表
類(lèi)別模型數(shù)據(jù)集權(quán)重
Resnet50_v1.5ImageNetILSVRC-2012
Inception_v3ImageNetILSVRC-2012
VGG16ImageNetILSVRC-2012
SE-Resnet50ImageNetILSVRC-2012
分類(lèi)
MobileNet_v2ImageNetILSVRC-2012
ShuffleNet_v2ImageNetILSVRC-2012
DenseNet121ImageNetILSVRC-2012
SwinTransformer
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 高三數(shù)學(xué)(理)一輪總復(fù)習(xí):第九篇 統(tǒng)計(jì)與算法 含解析
- 離婚合同小說(shuō)全文在線(xiàn)閱讀下載
- 個(gè)人汽車(chē)租賃簡(jiǎn)單合同
- 路燈承包合同
- 軟件開(kāi)發(fā)簽約合同
- pso算法讀書(shū)筆記
- 屋頂翻修安全合同模板
- 醫(yī)療行業(yè)的市場(chǎng)拓展經(jīng)驗(yàn)總結(jié)
- 2025年人教五四新版選修歷史下冊(cè)月考試卷含答案
- 2025年新世紀(jì)版九年級(jí)生物下冊(cè)月考試卷含答案
- 地震應(yīng)急救援培訓(xùn)課件
- 初中物理光學(xué)難題難度含解析答案
- 《霍爾效應(yīng)測(cè)量磁場(chǎng)》課件
- 《瘋狂動(dòng)物城》全本臺(tái)詞中英文對(duì)照
- 中專(zhuān)數(shù)學(xué)(基礎(chǔ)模塊)上冊(cè)課件
- 高考作文復(fù)習(xí)任務(wù)驅(qū)動(dòng)型作文的審題立意課件73張
- 品質(zhì)部經(jīng)理KRA KPI考核表
- 《馬克思主義與社會(huì)科學(xué)方法論》授課教案
- 一個(gè)28歲的漂亮小媳婦在某公司打工-被老板看上之后
- 馬工程教育哲學(xué)課件第十章 教育哲學(xué)與教師發(fā)展
- GB/T 11376-2020金屬及其他無(wú)機(jī)覆蓋層金屬的磷化膜
評(píng)論
0/150
提交評(píng)論