未來GPU、FPGA和SoC的重要性_第1頁
未來GPU、FPGA和SoC的重要性_第2頁
未來GPU、FPGA和SoC的重要性_第3頁
未來GPU、FPGA和SoC的重要性_第4頁
未來GPU、FPGA和SoC的重要性_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

未來GPU、FPGA和SoC的重要性CathalMurphy/YaoFu為了滿足不斷攀升的數(shù)據(jù)處理需求,未來的系統(tǒng)需在運算能力上進(jìn)行改善。傳統(tǒng)解決方案(如x86處理器)再也無法以高效率、低成本的方式提供所需運算帶寬,因此系統(tǒng)設(shè)計人員須尋找新的運算平臺。越來越多系統(tǒng)設(shè)計人員將現(xiàn)場可編程門陣列(FPGA)和繪圖處理器(GPU)視為能夠滿足未來需求的運算平臺。本文將分析未來GPU、FPGA和系統(tǒng)單芯片(SoC)組件,能為新時代提供哪些必要的運算效率和彈性。云端數(shù)據(jù)中心和自動駕駛汽車等未來系統(tǒng),需在運算能力上進(jìn)行改善,以支持不斷增加的工作負(fù)載,以及不斷演進(jìn)的底層算法[1]。例如,大數(shù)據(jù)分析、機器學(xué)習(xí)、視覺處理、基因體學(xué)以及先進(jìn)駕駛輔助系統(tǒng)(ADAS)的傳感器融合工作負(fù)載都超出現(xiàn)有系統(tǒng)(如x86系統(tǒng))所能提供的效率與成本效益。系統(tǒng)架構(gòu)師正在尋找能滿足需求的新運算平臺,且該平臺需要有足夠的彈性,以便整合至現(xiàn)有架構(gòu)中,并支持各種工作負(fù)載及不斷演進(jìn)的算法。此外,許多這類系統(tǒng)還須提供確定性低延遲效能,以支持如自動駕駛汽車在實時系統(tǒng)上所需的快速反應(yīng)時間。因GPU在機器學(xué)習(xí)訓(xùn)練的高效能運算(HPC)領(lǐng)域獲得的成果,因此GPU廠商非常積極地將GPU定位為新時代運算平臺的最佳選擇。在此過程中,GPU廠商已修改其架構(gòu)來滿足機器學(xué)習(xí)推論的工作負(fù)載。然而,GPU廠商一直忽視GPU基本架構(gòu)的局限性。而這些局限會嚴(yán)重影響GPU以高效率、低成本方式提供必要的系統(tǒng)級運算效能之能力,例如,在云端數(shù)據(jù)中心系統(tǒng)中,工作負(fù)載需求在一天內(nèi)會發(fā)生很大的變化,且這些工作負(fù)載的底層算法也正快速地演進(jìn)。GPU架構(gòu)的局限性會阻礙很多現(xiàn)今與未來的工作負(fù)載映像到GPU,導(dǎo)致硬件閑置或低效率。本文稍后提及的章節(jié),將針對這些局限進(jìn)行更詳細(xì)的介紹。相反地,F(xiàn)PGA與SoC具有眾多重要特質(zhì),將成為解決未來系統(tǒng)需求的最佳選擇。這些獨特特質(zhì)包括:?針對所有數(shù)據(jù)類型提供極高的運算能力和效率?針對多種工作負(fù)載提供極高彈性,并將運算和效率之優(yōu)勢最大化?具備I/O彈性,能方便地整合到系統(tǒng)中并達(dá)到更高效率?具備大容量芯片內(nèi)建高速緩存,以提供高效率及最低延遲率看清背景/應(yīng)用/優(yōu)劣勢繪圖處理器大拆解GPU的起源要追溯到PC時代,輝達(dá)(NVIDIA)聲稱在1999年推出世界首款GPU,但其實許多顯卡推出時間更早[2]。GPU是一款全新設(shè)計的產(chǎn)品,用于分擔(dān)及加速圖像處理任務(wù),例如從CPU進(jìn)行像素數(shù)組的遮蔽和轉(zhuǎn)換處理,使其架構(gòu)適用于高并行傳輸率處理[3]。本質(zhì)上,GPU的主要作用為替視覺顯示器(VDU)提供高質(zhì)量影像。圖1GPU模塊圖多年來,如大規(guī)模矩陣運算的醫(yī)療影像應(yīng)用,此類少量非影像但需大規(guī)模平行及受內(nèi)存限制的相關(guān)工作負(fù)載,已從GPU而非CPU上實現(xiàn)。GPU廠商意識到有機會將GPU市場拓展到非影像應(yīng)用,因此如OpenCL這類的GPU非影像編程語言應(yīng)運而生,而這些編程語言將GPU轉(zhuǎn)化成通用GPU(GPGPU)。?機器學(xué)習(xí)最近,能夠良好映像到GPU運行方案的工作負(fù)載之一,便是機器學(xué)習(xí)訓(xùn)練。透過充分運用GPU,能明顯縮短深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時間。GPU廠商試圖利用機器學(xué)習(xí)訓(xùn)練的成功,來牽動其在機器學(xué)習(xí)推論上的發(fā)展(部署經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò))。隨著機器學(xué)習(xí)算法與所需數(shù)據(jù)精度的演進(jìn),GPU廠商一直在調(diào)整其架構(gòu)以保持自身地位優(yōu)勢。其中一個例子就是,NVIDIA在其TeslaP4產(chǎn)品中支持INT8,然而現(xiàn)今許多用戶探索著更低的精度,如二進(jìn)制和三進(jìn)位[4]。若要利用機器學(xué)習(xí)與其它領(lǐng)域的發(fā)展,GPU用戶必須等待新硬件推出之后再購買。GPU廠商想運用機器學(xué)習(xí)作為基礎(chǔ),使自身成為此新運算時代的首選運算平臺。但若要清楚了解GPU是否適合未來系統(tǒng),仍需做更全面的系統(tǒng)級分析、考慮GPU架構(gòu)的局限性,以及系統(tǒng)要如何隨時間發(fā)展演進(jìn)。?GPU架構(gòu)局限性本章節(jié)將深入研究典型的GPU架構(gòu),來揭露其局限性及如何將其應(yīng)用于各種算法和工作負(fù)載。?SIMTALU數(shù)組圖1展示典型的GPU模塊圖。通用GPU運算功能的核心是大型算術(shù)邏輯單元(ALU)或運算核心。這些ALU通常被認(rèn)為是單指令多線程(SIMT),類似于單指令多數(shù)據(jù)(SIMD)?;驹硎菍⒐ぷ髫?fù)載分成數(shù)千個平行的線程(Thread),ALU需要大量的GPU線程來預(yù)防閑置。在對線程進(jìn)行調(diào)度后,不同的ALU組便能平行執(zhí)行相同的(單一)指令。GPU廠商透過使用SIMT,能提供相較于CPU占位面積更小和功效更高的方案,因為許多核心資源能與同組的其他核心共享。然而,顯然特定工作負(fù)載(或部分工作負(fù)載)能被有效地映射到這大規(guī)模平行的架構(gòu)中[5]。倘若構(gòu)成工作負(fù)載的線程不具足夠的共通性或平行性,例如連續(xù)或適度平行的工作負(fù)載,ALU則會呈現(xiàn)閑置狀態(tài),導(dǎo)致運算效率降低。此外,構(gòu)成工作負(fù)載的線程預(yù)期要將ALU利用率最大化,進(jìn)而產(chǎn)生延遲。即使在NVIDIA的Volta架構(gòu)中使用獨立線程調(diào)度的功能,其底層架構(gòu)仍保持SIMT,如同需要大規(guī)模平行工作負(fù)載。對于連續(xù)、適度平行或稀疏的工作負(fù)載,GPU提供的運算與效率低于CPU所能提供的[6]。其中一個量化實例為在GPU上執(zhí)行稀疏矩陣運算;假使非零元素數(shù)量較少,并從效能和效率的角度來看,GPU低于或等同于CPU[7][8]。有趣的是,很多研究人員正在研究稀疏卷積式類神經(jīng)網(wǎng)絡(luò),來利用卷積式類神經(jīng)網(wǎng)絡(luò)中的大規(guī)模冗余[9],這趨勢顯然代表GPU在機器學(xué)習(xí)推論中所遇到的挑戰(zhàn)。稀疏矩陣運算也是大數(shù)據(jù)分析中的關(guān)鍵環(huán)節(jié)[10]。多數(shù)包含大量平行運算任務(wù)的工作負(fù)載亦包含一些連續(xù)或適度平行元素,這意味著需要GPU-CPU混合系統(tǒng)來滿足系統(tǒng)效能要求[11]。顯然,對于高階CPU的需求會影響平臺的效率與成本效益,而且CPU與GPU之間的通訊需求為系統(tǒng)增添潛在瓶頸。SIMT/GPU架構(gòu)的另一個局限性是ALU的功能取決于其固定指令集和所支持的數(shù)據(jù)類型。?離散數(shù)據(jù)類型精度支援系統(tǒng)設(shè)計人員正在探索簡化數(shù)據(jù)類型精度,以此達(dá)到運算效能的跳躍式提升,而且不會明顯降低精度[12][13][14]。機器學(xué)習(xí)推論導(dǎo)致精度下降,首先是FP16,接著是INT16和INT8。研究人員正在探索進(jìn)一步降低精度,甚至降到二進(jìn)制[4][15]。GPUALU通常原生支持單精度浮點類型(FP32),而有些情況下支持雙精度浮點(FP64)。FP32是影像工作負(fù)載的首選精度,而FP64通常用于一些HPC應(yīng)用。然而低于FP32的精度通常無法在GPU中獲得有效支持,因此相較于降低所需的內(nèi)存帶寬,采用標(biāo)準(zhǔn)GPU上降低精度較有優(yōu)勢。GPU通常提供一些二進(jìn)制運算功能,但通常只能每ALU進(jìn)行32位運算,且32二進(jìn)制運算有很大的復(fù)雜度和面積需求。在二值化神經(jīng)網(wǎng)絡(luò)中,算法需要XNOR運算,緊接著進(jìn)行族群(Population)統(tǒng)計。由于NVIDIAGPU僅能每四個周期進(jìn)行一次族群統(tǒng)計運算,因此對二進(jìn)制運算有極大的影響[18]。如圖2所示,為了跟上機器學(xué)習(xí)推論空間的發(fā)展腳步,GPU廠商持續(xù)進(jìn)行必要的芯片修改,以支持如FP16和INT8的有限降低精度數(shù)據(jù)類型。其中一個實例為,TeslaP4和P40運算卡上的NVIDIAGPU支持INT8,為每ALU/Cuda核心提供4個INT8運算。圖2NVIDIA降精度支援然而,依NVIDIA在TeslaP40上的GoogLeNetv1Inference推出的機器學(xué)習(xí)推論基準(zhǔn)顯示,INT8方案與FP32方案相比效率僅提升3倍,此結(jié)果顯示在GPU架構(gòu)中強行降低精度,并取得高效率存在較大難度[16]。隨著機器學(xué)習(xí)和其他工作負(fù)載轉(zhuǎn)向更低精度和客制化精度,GPU廠商需要在市場上推出更多新產(chǎn)品,且廠商的現(xiàn)有用戶亦需升級平臺,才能受益于此領(lǐng)域的發(fā)展。內(nèi)存多階層把關(guān)軟件定義數(shù)據(jù)到達(dá)路徑艱辛與CPU類似,GPU中的數(shù)據(jù)流也由軟件定義,并取決于GPU嚴(yán)格且復(fù)雜的內(nèi)存階層[17],而典型的GPU內(nèi)存階層如圖3所示。每個線程在緩存器檔案中都有自己的內(nèi)存空間,用以儲存線程的局部變量。同一個模塊內(nèi)的少量線程可透過共享內(nèi)存來通訊;且所有線程皆能透過全局或芯片外內(nèi)存通訊[18]。如圖3所示,由于數(shù)據(jù)需從緩存器檔案橫跨整個內(nèi)存階層到全局內(nèi)存,造成與內(nèi)存存取相關(guān)的功耗和延遲分別增加100倍和80倍以上[15][17][19]。此外,內(nèi)存沖突是必然的,同時亦會增加延遲導(dǎo)致ALU閑置,進(jìn)而降低運算能力和效率。圖3典型的GPU內(nèi)存階層因此,若想發(fā)揮GPU的運算和效率潛能,工作負(fù)載的數(shù)據(jù)流必須準(zhǔn)確映像到GPU內(nèi)存階層。事實上,很少工作負(fù)載具備足夠的數(shù)據(jù)局部性來有效地映像到GPU上。對多數(shù)的工作負(fù)載而言,當(dāng)在GPU上運行時,實際的運算能力和效率會大打折扣,解決方案的延遲也會增加[19][20]。機器學(xué)習(xí)推論作為量化實例,能清楚展現(xiàn)出數(shù)據(jù)流的局限性。GPU必須進(jìn)行如128筆的批處理(Batch),以獲得高效率但延遲更長的解決方案。最終,批處理使機器學(xué)習(xí)處理局部化,但須付出增加延遲的代價[21],而此結(jié)果能清楚的在GoogLeNetv1Inference的NVIDIAP40基準(zhǔn)檢驗中看到。對于GoogLeNetv1來說,其網(wǎng)絡(luò)因P40內(nèi)存帶寬而受到運算束縛,因此減少與批處理有關(guān)的內(nèi)存帶寬并不會產(chǎn)生很大的幫助。然而,P40顯然需要透過128的批處理以達(dá)到50%的GPU理論效能,但同時也增加系統(tǒng)的延遲[16]。某些情況下,資料可透過CPU進(jìn)行前置處理,以便工作負(fù)載能更有效的映像到GPUSIMT架構(gòu)和內(nèi)存階層,但其代價則是產(chǎn)生更多CPU運算和功耗,因而抵消了GPU的優(yōu)勢[7]。?有限I/O選項如本文一開始的段落所述,GPU原本的角色是作為協(xié)同處理器。為了促進(jìn)與主機溝通,GPU以往只有一個PCIe接口與幾個如GDDR5的芯片外接DRAM接口。近期的產(chǎn)品中,有些GPU采用硬件接口來進(jìn)行GPU到GPU的通訊。而CPU仍須連接網(wǎng)絡(luò)來分配任務(wù)予GPU,此不僅增加系統(tǒng)功耗,還會因PCIe有限的帶寬而帶來瓶頸。例如,支持PCIe3.0×16的NVIDIATesla40,只能擁有16GB/s的帶寬。GPU廠商已開始建構(gòu)小型SoC,例如NVIDIATegraX1,其能整合GPU運算、Arm處理器、一些通用汽車周邊和如HDMI、MIPI、SIP、CAN的基礎(chǔ)以太網(wǎng)絡(luò)等。由于上述組件具備少量運算能力,因此必須倚賴額外的分離式GPU來達(dá)到必要的運算能力。然而,分離的GPU接口有很大局限性,例如TegraX1僅支持PCIe2.0×4,導(dǎo)致嚴(yán)重瓶頸,且額外SoC的功耗會更進(jìn)一步降低平臺的效率。?芯片內(nèi)建內(nèi)存資源除了延遲、效率和傳輸率方面的不利影響,芯片外內(nèi)存的帶寬要明顯低于局部/芯片內(nèi)建內(nèi)存。因此,若工作負(fù)載需要依靠芯片外內(nèi)存,不僅芯片外內(nèi)存的帶寬會成為瓶頸,且運算資源也會被閑置,從而降低GPU能提供的運算功能和效率。因此,更有利的做法是采用大型、低延遲且高帶寬的芯片內(nèi)建內(nèi)存,再以機器學(xué)習(xí)推論為例,GoogLeNet共需27.2MB的內(nèi)存空間;假設(shè)執(zhí)行FP32,是沒有GPU能提供的,這意味著需要芯片外內(nèi)存[22]。在很多情況下,則需采用高成本的高帶寬內(nèi)存(HBM)和批處理,以防止核心處于閑置狀態(tài)。若選擇具更大型的芯片內(nèi)建內(nèi)存組件,便能避免HBM成本及額外的延遲和功耗問題。?功耗范圍GPU廠商在設(shè)計板卡和GPU時通常要適用于250W的功耗上限,并依靠有效熱管理來調(diào)節(jié)溫度。針對機器學(xué)習(xí)推論市場,NVIDIA已開發(fā)如TeslaM4和P4等滿足75W功耗范圍的組件。雖然75W已遠(yuǎn)超出所允許的系統(tǒng)級功耗和熱范圍,但GPU的絕對功耗依然是阻礙GPU被廣泛采用的因素之一。功能安全性GPU源于消費圖像處理和高效能運算領(lǐng)域,其不存在功能安全性的需求。但隨著GPU廠商瞄準(zhǔn)ADAS市場,功能安全性就成了必要條件,因此為用于ADAS系統(tǒng)中,組件需要重新設(shè)計,以確保達(dá)到所需的功能安全性認(rèn)證等級。這對GPU廠商來說不僅是一個長期且涉及各方面的學(xué)習(xí)過程,還需要新工具和設(shè)備。實現(xiàn)多元應(yīng)用推手FPGA/SoC好處多?原始運算能力與GPU擁護(hù)者的說法不同,單一個FPGA組件能提供的原始運算能力,能達(dá)到38.3INT8TOP/s的效能。NVIDIATeslaP40加速卡以基礎(chǔ)頻率運行時提供相似的40INT8TOP/s原始運算能力,但功耗是FPGA方案的2倍多[26]。此外,F(xiàn)PGA組件的彈性能支持各種數(shù)據(jù)類型的精度[27]。例如,針對二值化神經(jīng)網(wǎng)絡(luò),F(xiàn)PGA可提供500TOPs/s的超高二進(jìn)制運算能力(假設(shè)2.5LUT/運算的情況),相當(dāng)于GPU典型效能的25倍。有些精度較適用于DSP資源,有些則能在可編程邏輯中運行,還有些適合將兩者結(jié)合起來使用,而這些彈性確保組件的運算和效率能隨著精度降低,且降低到二進(jìn)制。機器學(xué)習(xí)領(lǐng)域的大量研究都從運算、精度和效率角度來進(jìn)行最佳精度的研究[28~32]。無論最佳點在哪,對于給予的工作負(fù)載都能隨之調(diào)整。多年來,許多FPGA用戶針對多種工作負(fù)載,運用脈動數(shù)組處理設(shè)計達(dá)到最佳效能,其中包括機器學(xué)習(xí)推論[33][34]。有趣的是,NVIDIA為了現(xiàn)今的深度學(xué)習(xí)工作負(fù)載來提高可用的運算能力和效率,在Volta架構(gòu)中以TensorCore形式強化類似的功能。然而,深度學(xué)習(xí)工作負(fù)載會隨著時間演進(jìn),因此TensorCore架構(gòu)亦需要改變,且GPU用戶也需等待購買新的GPU硬件。?效率和功耗從系統(tǒng)層級來看,運算平臺必須在指定的功率和熱范圍內(nèi)提供最大運算能力。為滿足此需求,運算平臺必須:1.處于允許的功率范圍內(nèi)2.在功率預(yù)算內(nèi)將運算能力最大化AllProgrammable系列組件,使用戶能選擇與功率和熱范圍最相符的組件。如表1所示,從原始運算角度來看,該組件能針對固定精度數(shù)據(jù)類型提供高效通用運算平臺,主要是因為FPGA架構(gòu)中的間接開銷較低。例如,GPU需要更多復(fù)雜性圍繞其運算資源,以促進(jìn)軟件可編程功能。對于當(dāng)今的深度學(xué)習(xí)工作負(fù)載的張量(Tensor)運算,NVIDIA的TeslaV100憑借已強化的TensorCore達(dá)到能與FPGA和SoC匹敵的效率。然而,深度學(xué)習(xí)工作負(fù)載正以非??斓乃俣妊葸M(jìn),因此無法確定NVIDIATensorCore的高效率能在深度學(xué)習(xí)工作負(fù)載維持多久。由此看來,對于其他通用工作負(fù)載,NVIDIAV100亦面臨效率的挑戰(zhàn)。鑒于本文之前介紹的局限性,對于實際的工作負(fù)載與系統(tǒng),GPU很難達(dá)到如表1中所提供的數(shù)字。?AllProgrammable組件彈性賽靈思透過將硬件可編程資源(如邏輯、路徑和I/O)與具彈性且獨立的整合核心區(qū)塊(如DSP分割和UltraRAM)結(jié)合,并將全部構(gòu)建在領(lǐng)先制程技術(shù)上,如臺積電(TSMC)的16nmFinFET制程,進(jìn)而達(dá)到這種平衡。硬件可編程性和彈性,意味著底層硬件通過配置可滿足指定工作負(fù)載的需求。隨后,數(shù)據(jù)路徑甚至能在運行時,透過部分可重組功能簡易地進(jìn)行重新配置[35]。圖4試圖舉例AllProgrammable組件提供的部分彈性。核心(或用戶設(shè)計元素)可直接連接可編程I/O、任意其它核心、LUTRAM、BlockRAM和UltraRAM、及外部內(nèi)存等。圖4AllProgrammable數(shù)據(jù)路徑和各種形式IO硬件可編程性組件意味著它們不存在這類的特定局限,如SIMT或固定數(shù)據(jù)路徑等。無論是大規(guī)模平行、適度平行、管線連續(xù)或混合形式,都能獲得賽靈思組件的運算能力和效率。此外,若底層算法改變,例如機器學(xué)習(xí)網(wǎng)絡(luò)的發(fā)展,則平臺也能隨之調(diào)整。很多系統(tǒng)和工作負(fù)載中都能看到FPGA與SoC組件發(fā)揮彈性優(yōu)勢,而機器學(xué)習(xí)推論就是其中之一。其中機器學(xué)習(xí)推論的趨勢就是向稀疏網(wǎng)絡(luò)邁進(jìn),且FPGA與SoC組件用戶已在利用此趨勢,而NVIDIA本身就是其中一位用戶。在近期與NVIDIA聯(lián)合編寫關(guān)于語音識別的一篇文章中提到,通過使用FPGA,相較于CPU能提升43倍速度和40倍效率,而NVIDIAGPU僅能提升3倍速度和11.5倍效率[36]。可編程數(shù)據(jù)路徑還減少了FPGA的批處理需求,批處理是系統(tǒng)延遲對比實時效能的重要決定因素。從大數(shù)據(jù)角度來看,F(xiàn)PGA在處理包括在如可變長度字符串的復(fù)雜數(shù)據(jù)情況下,SQL工作負(fù)載時具高效率且快速。基因體分析則是一個實例,有人已利用GPU來加速基因體分析,其相較于In

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論