



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
FPGA上優(yōu)化的DNN框架介紹低計(jì)算成本技術(shù)首先,我們將討論如何降低計(jì)算成本本身。量化量化是權(quán)重或激活(每層的輸入和輸出)中比特的減少,通常在fp32中構(gòu)建。眾所周知,深度學(xué)習(xí)在推理過程中能夠以比訓(xùn)練過程更低的位精度進(jìn)行處理,盡管這取決于模型,但即使是8位定點(diǎn)數(shù)和位數(shù)更少的定點(diǎn)數(shù)也具有實(shí)用的精度。FPGA與1位左右的低精度網(wǎng)絡(luò)特別兼容,因?yàn)榭梢允褂肔UT將卷積運(yùn)算替換為查找表。修剪修剪是在卷積層等使用的權(quán)重矩陣中,稀疏化(移至0)足夠接近0的值的過程。足夠接近0的系數(shù)對(duì)卷積運(yùn)算的最終結(jié)果影響很小,因此將其設(shè)置為0不會(huì)顯著影響推理結(jié)果。在實(shí)踐中,我們會(huì)設(shè)置剪枝的閾值等參數(shù),給出測(cè)試模式,檢查允許的誤差范圍。修剪主要應(yīng)用于兩個(gè)粒度。1、粗粒:每通道2、細(xì)粒度:?jiǎn)挝灰蜃?的粗粒度修剪只是簡(jiǎn)單地刪除了通道,因此可以在不特別注意計(jì)算硬件的情況下提高速度。另一方面,2的細(xì)粒度修剪只會(huì)增加矩陣內(nèi)部0元素的數(shù)量,同時(shí)保持矩陣的大小不變。在這里我們將限制在這個(gè)級(jí)別,但是還有其他方法可以減少計(jì)算量,例如拓?fù)湔{(diào)整可以減少模型本身的計(jì)算量。FPGA上優(yōu)化的DNN框架在GPU上做深度學(xué)習(xí)時(shí),無論前端選擇哪種框架,后端幾乎都是跑NVIDIA優(yōu)化過的cuDNN庫(/cudnn)。cuDNN庫經(jīng)過優(yōu)化,幾乎可以榨干GPU的峰值性能。出于這個(gè)原因,在不實(shí)現(xiàn)卷積等功能的情況下在后端使用這些庫是很常見的。FPGA也是如此,例如Xilinx提供了一個(gè)名為Vitis-AI的推理框架,而英特爾FPGA提供了OpenVINO工具包。在本節(jié)中,根據(jù)DPUVitis-AI中用于邊緣設(shè)備DPUDPU是DeepLearningProcessingUnit的縮寫,顧名思義就是深度學(xué)習(xí)的處理器。與我們目前創(chuàng)建的架構(gòu)不同,其中電路來處理每一層,DPU實(shí)現(xiàn)了一個(gè)巨大的算術(shù)單元塊,并通過在算術(shù)單元塊上連續(xù)執(zhí)行每一層的處理來執(zhí)行推理過程。DPU的硬件架構(gòu)如下圖所示。如圖所示,DPU具有類似于普通處理器的架構(gòu),例如指令調(diào)度器。DPU只支持8bit的量化網(wǎng)絡(luò),其量化工具在Vitis-AI(原DNNDK)中提供。下面我們挑選DPU架構(gòu)中的一些有趣的點(diǎn)簡(jiǎn)單說一下。數(shù)據(jù)并行度提取在上一篇文章中,我們提取了像素之間和輸出通道之間的2軸數(shù)據(jù)并行性以進(jìn)行加速。DPU還提取輸入通道之間的數(shù)據(jù)并行性。DPU有幾種配置,可以根據(jù)要實(shí)現(xiàn)的芯片大小進(jìn)行更改,如下表所示。性能最高的B4096架構(gòu)共有2048個(gè)算子,像素并行度8,輸入通道方向16個(gè),輸出通道方向16個(gè)。雖然有2048個(gè)運(yùn)算單元,但總共是4096次運(yùn)算/時(shí)鐘,因?yàn)槊總€(gè)運(yùn)算單元同時(shí)執(zhí)行乘法和加法。上次創(chuàng)建的架構(gòu)中,運(yùn)算次數(shù)最多的卷積層只有4*8=32個(gè)運(yùn)算單元,兩個(gè)卷積層加起來就有32+16=48個(gè)單元,性能簡(jiǎn)直快了近40倍,區(qū)別蠻大的。用于DSP的DDR(雙倍數(shù)據(jù)速率)在DPU中,通過僅以雙倍工作頻率運(yùn)行DSP來提高性能,如下圖所示。每個(gè)周期可能的操作數(shù)翻了一番,從而使DSP的使用量減半。DPU方面主要針對(duì)ZynqUltrascale+,工作頻率為300~400MHz。所以DSP運(yùn)行在600-800MHz范圍內(nèi),速度非???。特別是,這種時(shí)鐘分頻的優(yōu)化在像這次這樣用HLS開發(fā)時(shí)很難重現(xiàn),需要在RTL中進(jìn)行調(diào)整。另外,在像DPU這樣的架構(gòu)中,每個(gè)周期持續(xù)向計(jì)算單元提供數(shù)據(jù)是一個(gè)問題,但我的印象是這也得到了很好的優(yōu)化。這是作者的經(jīng)驗(yàn),但是在對(duì)1K圖像進(jìn)行3×3卷積時(shí),運(yùn)算單元能夠在90%以上的周期內(nèi)運(yùn)行(當(dāng)通道數(shù)是并行數(shù)的倍數(shù)時(shí))。由于很難創(chuàng)建優(yōu)化到這種程度的HLS,因此在FPGA上實(shí)際執(zhí)行深度學(xué)習(xí)時(shí),在某些框架上執(zhí)行推理會(huì)更有效。但是,我認(rèn)為有些模式在現(xiàn)有框架上無法很好地處理,例如使用更優(yōu)化的架構(gòu)來切換每一層的量化位數(shù)。在這種情況下,可能需要構(gòu)建自己的硬件來處理數(shù)據(jù)。總結(jié)在本系列教程中,我們專注于在FPGA上實(shí)際編寫代碼和執(zhí)行處理。說到FPGA開發(fā),大家可能會(huì)有這樣的印象,寫RTL很難,還得懂硬件。然而,就像我一開始創(chuàng)建的推理電路一樣,如果我不關(guān)心性能,我可以將高級(jí)綜合應(yīng)用于普通的C代碼并且它可以工作。
此外,在隨后的加速中,我們主要通過簡(jiǎn)單地添加#pragma.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 文化產(chǎn)業(yè)中涂層的耐磨損性能研究考核試卷
- 工業(yè)設(shè)計(jì)中的產(chǎn)品生命周期管理考核試卷
- 信托公司業(yè)務(wù)流程標(biāo)準(zhǔn)化考核試卷
- 兔飼養(yǎng)繁殖技術(shù)的優(yōu)化考核試卷
- 新能源汽車充電設(shè)施規(guī)劃與布局優(yōu)化考核試卷
- 收購(gòu)公司的合同范本
- 營(yíng)業(yè)執(zhí)照合同范本
- 定制柜定金合同范本
- 木材板材加工合同范本
- 紗窗廠用工合同范本
- 《大學(xué)生創(chuàng)新創(chuàng)業(yè)教程》高職大學(xué)生創(chuàng)新創(chuàng)業(yè)課程全套教學(xué)課件
- 中醫(yī)肝與膽課件
- 鋼結(jié)構(gòu)用戶需求分析報(bào)告
- 3月8日國(guó)際婦女節(jié)主題班會(huì)致敬了不起的她母愛是生命的搖籃課件
- 圍擋施工方案裝配式鐵馬
- 同步課件:古代非洲與美洲
- 2024年德州職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫各版本
- 外陰炎及陰道炎癥課件
- JC-T 746-2023 混凝土瓦標(biāo)準(zhǔn)規(guī)范
- 統(tǒng)編版語文三年級(jí)下冊(cè)全冊(cè)同步分層作業(yè)課課練(含答案)
- 口腔科普知識(shí)問答
評(píng)論
0/150
提交評(píng)論