雷達(dá)信號(hào)處理：FPGA還是GPU-

上傳人：1*** IP屬地：湖南上傳時(shí)間：2023-10-04 格式：DOC 頁數(shù)：3 大?。?2.50KB 積分：3.6 舉報(bào) 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

雷達(dá)信號(hào)處理：FPGA還是GPU?電子發(fā)燒友網(wǎng)12月“處理器與DSP特刊”火熱下載中，缺你怎可！FPGA和CPU一直是雷達(dá)信號(hào)處理不可分割的組成部分。傳統(tǒng)上FPGA用于前端處理，CPU用于后端處理。隨著雷達(dá)系統(tǒng)的處理能力越來越強(qiáng)，越來越復(fù)雜，對(duì)信息處理的需求也急劇增長。為此，F(xiàn)PGA不斷在提高處理能力和吞吐量，CPU也在發(fā)展以滿足下一代雷達(dá)的信號(hào)處理性能需求。這種努力發(fā)展的趨勢(shì)導(dǎo)致越來越多的使用CPU加速器，如圖形處理單元（GPU）等，以支持較重的處理負(fù)載。本文對(duì)比了FPGA和GPU浮點(diǎn)性能和設(shè)計(jì)流程。最近幾年，GPU已經(jīng)不僅能完成圖形處理功能，而且成為強(qiáng)大的浮點(diǎn)處理平臺(tái)，被稱之為GP-GPU，具有很高的峰值FLOP指標(biāo)。FPGA傳統(tǒng)上用于定點(diǎn)數(shù)字信號(hào)處理器（DSP），而現(xiàn)在足以競爭完成浮點(diǎn)處理功能，也成為后端雷達(dá)處理加速功能的有力競爭者。在FPGA前端，40nm和28nm均報(bào)道了很多可驗(yàn)證的浮點(diǎn)基準(zhǔn)測(cè)試結(jié)果。Altera的下一代高性能FPGA將采用Intel的14nm三柵極技術(shù)，性能至少達(dá)到5TFLOP。使用這種先進(jìn)的半導(dǎo)體工藝，性能可實(shí)現(xiàn)100GFLOPs/W。而且，AlteraFPGA現(xiàn)在支持OpenCL，這是GPU使用的一款優(yōu)秀的編程語言。峰值GFLOPS指標(biāo)目前的FPGA性能可達(dá)到1TFLOP以上峰值，AMD和Nvidia最新的GPU甚至更高，接近4TFLOP。但在某些應(yīng)用中，峰值GFLOP，即TFLOP，提供的器件性能信息有限。它只表示了每秒能完成的理論浮點(diǎn)加法或乘法總數(shù)。這一分析表示，在雷達(dá)應(yīng)用中，很多情況下，F(xiàn)PGA在算法和數(shù)據(jù)規(guī)模上超過了GPU吞吐量。一種中等復(fù)雜且常用的算法是快速傅里葉變換（FFT）。大部分雷達(dá)系統(tǒng)由于在頻域完成大量處理工作，因此會(huì)經(jīng)常用到FFT算法。例如，使用單精度浮點(diǎn)處理實(shí)現(xiàn)一個(gè)4，096點(diǎn)FFT。它能在每個(gè)時(shí)鐘周期輸入輸出四個(gè)復(fù)數(shù)采樣。每個(gè)FFT內(nèi)核運(yùn)行速度超過80GFLOP，大容量28nmFPGA的資源支持實(shí)現(xiàn)7個(gè)此類內(nèi)核。但如圖1所示，該FPGA的FFT算法接近400GFLOP。這一結(jié)果基于“按鍵式”O(jiān)penCL編譯，無需FPGA專業(yè)知識(shí)。使用邏輯鎖定和設(shè)計(jì)空間管理器（DSE）進(jìn)行優(yōu)化，7內(nèi)核設(shè)計(jì)接近單內(nèi)核設(shè)計(jì)的fMAX，使用28nmFPGA，將其提升至500GFLOP，超過了10GFLOPs/W。圖1.StratixV5SGSD8FPGA浮點(diǎn)FFT性能這一GFLOPs/W結(jié)果要比CPU或者GPU功效高很多。對(duì)比GPU，GPU在這些FFT長度上效率并不高，因此沒有進(jìn)行基準(zhǔn)測(cè)試。當(dāng)FFT長度達(dá)到幾十萬個(gè)點(diǎn)時(shí)，GPU效率才比較高，能夠?yàn)镃PU提供有效的加速功能。但是，雷達(dá)處理應(yīng)用一般是長度較短的FFT，F(xiàn)FT長度通常在512至8，192之間。總之，實(shí)際的GFLOP一般只達(dá)到峰值或者理論GFLOP的一小部分。出于這一原因，更好的方法是采用算法來對(duì)比性能，這種算法能夠合理的表示典型應(yīng)用的特性。隨著基準(zhǔn)測(cè)試算法復(fù)雜度的提高，其更能代表實(shí)際雷達(dá)系統(tǒng)性能。算法基準(zhǔn)測(cè)試相比依靠供應(yīng)商的峰值GFLOP指標(biāo)來驅(qū)動(dòng)處理技術(shù)決策，另一方法是使用比較復(fù)雜的第三方評(píng)估。空時(shí)自適應(yīng)處理（STAP）雷達(dá)常用的算法是Cholesky分解。這一算法經(jīng)常用于線性代數(shù)，高效的解出多個(gè)方程，可以用在相關(guān)矩陣上。Cholesky算法在數(shù)值上非常復(fù)雜，要獲得合理的結(jié)果總是要求浮點(diǎn)數(shù)值表示。計(jì)算需求與N3成正比，N是矩陣維度，因此，一般對(duì)處理要求很高。雷達(dá)系統(tǒng)一般是實(shí)時(shí)工作，因此，要求有較高的吞吐量。結(jié)果取決于矩陣大小以及所要求的矩陣處理吞吐量，通常會(huì)超過100GFLOP。表1顯示了基于NvidiaGPU指標(biāo)1.35TFLOP的基準(zhǔn)測(cè)試結(jié)果，使用了各種庫，以及XilinxVirtex6XC6VSX475T，其密度達(dá)到475KLC，這種FPGA針對(duì)DSP處理進(jìn)行了優(yōu)化。用于Cholesky基準(zhǔn)測(cè)試時(shí)，這些器件在密度上與AlteraFPGA相似。LAPACK和MAGMA是商用庫，而GPUGFLOP則是采用田納西州大學(xué)開發(fā)的OpenCL實(shí)現(xiàn)的（2）。對(duì)于小規(guī)模矩陣，后者更優(yōu)化一些。表1.GPU和XilinxFPGACholesky基準(zhǔn)測(cè)試（2）

Altera測(cè)試了容量中等的AlteraStratix?VFPGA（460K邏輯單元（LE）），使用了單精度浮點(diǎn)處理的Cholesky算法。如表2所示，在StratixVFPGA上進(jìn)行Cholesky算法的性能要比Xilinx結(jié)果高很多。Altera基準(zhǔn)測(cè)試還包括QR分解，這是不太復(fù)雜的另一矩陣處理算法。Altera以可參數(shù)賦值內(nèi)核的形式提供Cholesky和QRD算法。表2.AlteraFPGACholesky和QR基準(zhǔn)測(cè)試

應(yīng)指出，基準(zhǔn)測(cè)試的矩陣大小并不相同。田納西州大學(xué)的結(jié)果來自［512×512］的矩陣，而Altera基準(zhǔn)測(cè)試的Cholesky是［360x360］，QRD則高達(dá)［450x450］。原因是，矩陣規(guī)模較小時(shí)，GPU效率非常低，因此，在這些應(yīng)用中，不應(yīng)該使用它們來加速CPU。作為對(duì)比，在規(guī)模較小的矩陣時(shí)，F(xiàn)PGA的工作效率非常高。雷達(dá)系統(tǒng)對(duì)吞吐量的要求很高，每秒數(shù)千個(gè)矩陣，因此，效率非常關(guān)鍵。采用了小矩陣，甚至要求把大矩陣分解成小矩陣以便進(jìn)行處理。而且，Altera基準(zhǔn)測(cè)試是基于每個(gè)Cholesky內(nèi)核的。每個(gè)可參數(shù)賦值的Cholesky內(nèi)核支持選擇矩陣大小，矢量大小和通道數(shù)量。矢量大小大致決定了FPGA資源。較大的［360×360］矩陣使用了較長的矢量，支持FPGA中實(shí)現(xiàn)一個(gè)內(nèi)核，達(dá)到91GFLOP。較小的［60×60］矩陣使用的資源更少，因此，可以實(shí)現(xiàn)兩個(gè)內(nèi)核，總共是2×42=84GFLOP。最小的［30×30］矩陣支持實(shí)現(xiàn)三個(gè)內(nèi)核，總共是3×25=75GFLOP。FPGA看起來更適合解決數(shù)據(jù)規(guī)模較小的問題，很多雷達(dá)系統(tǒng)都是這種情況。GPU之所以效率低，是因?yàn)橛?jì)算負(fù)載隨N3而增大，數(shù)據(jù)I/O隨N2增大，最終，隨著數(shù)據(jù)的增加，GPU的I/O瓶頸不再是問題。此外，隨著矩陣規(guī)模的增大，由于每個(gè)矩陣的處理量增大，矩陣每秒吞吐量會(huì)大幅度下降。在某些點(diǎn)，吞吐量變得非

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

雷達(dá)信號(hào)處理：FPGA還是GPU-

文檔簡介

溫馨提示

最新文檔

評(píng)論

雷達(dá)信號(hào)處理：FPGA還是GPU-

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔