MATLAB與GPU編程結(jié)合應(yīng)用_第1頁
MATLAB與GPU編程結(jié)合應(yīng)用_第2頁
MATLAB與GPU編程結(jié)合應(yīng)用_第3頁
MATLAB與GPU編程結(jié)合應(yīng)用_第4頁
MATLAB與GPU編程結(jié)合應(yīng)用_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、MATLAB與GPU編程結(jié)合應(yīng)用多核服務(wù)器以及多線程技術(shù)使科學(xué)家,工程師以及財務(wù)分析師能夠加快處理 多個學(xué)科內(nèi)的計算密集型應(yīng)用?,F(xiàn)在,另一種硬件承諾提供更高的計算性能,那 就是GPU。GPU最初用于加速圖形渲染,現(xiàn)在越來越多地應(yīng)用于科學(xué)計算。和傳統(tǒng)的 CPU只包括少數(shù)的幾個核不同,GPU由整型和浮點處理器組成的大規(guī)模并行矩 陣以及專用的高速內(nèi)存構(gòu)成。如圖1所示,一個典型的GPU包含數(shù)百個小型處 理器。GPU (Hundredt ofCPU MulKpk圖1. CPU和GPU的核心數(shù)對比上述配置極大地增加了 GPU的吞吐量,但同時也要付出代價。首先,內(nèi)存 訪問很有可能會出現(xiàn)瓶頸。進行計算前數(shù)據(jù)必

2、須從CPU發(fā)送到GPU,計算完成 后,數(shù)據(jù)必須從GPU發(fā)送到CPU。因為GPU通過PCI-E總線與主機的CPU連 接,但是內(nèi)存訪問要比傳統(tǒng)的CPU慢很多。這意味著整體的計算加速受限于算 法中用到的數(shù)據(jù)轉(zhuǎn)換器數(shù)目。其次,采用C或Fortran進行GPU編程需要不同 的心智模型和技能,這很困難而且需要很長的時間才能達到。此外,針對特定的 GPU你必須花費時間調(diào)整代碼以優(yōu)化應(yīng)用性能。本文演示了并行計算工具箱的功能特性,只需要對MATLAB代碼進行簡單 的修改就能夠在GPU上運行。我們通過使用波譜法解二階波動方程對該方法進 行了舉例說明。為什么要并行化波動方程求解程序?波動方程廣泛用于工程專業(yè)包括地震

3、學(xué),流體動力學(xué),聲學(xué),以及電磁學(xué), 用于描述聲,光和流體波。使用波譜法解波動方程的算法能夠?qū)崿F(xiàn)并行是因為它滿足使用GPU進行加 速的兩個標準:大規(guī)模并行。并行快速傅里葉變化(FFT)算法的目的在于“分而治之”,這樣 一個相似的任務(wù)能夠采用不同的數(shù)據(jù)反復(fù)執(zhí)行。此外,該算法要求在處理線程和 大量的內(nèi)存帶寬之間進行大量的通信。反向快速傅里葉變換(IFFT)同樣能夠并 行運行。計算密集型。算法執(zhí)行大量的FFT以及IFFT,準確的數(shù)字取決于網(wǎng)格的規(guī)模和 仿真中時間步長的數(shù)量。每個時間步長需要兩個FFT,四個IFFT,而單個計算可 能包含成千上萬的時間步長。SoUtian of SBOCnd Order

4、Wave Eq uMon圖2. 32x32網(wǎng)格矩陣波動方程解決方案在GPU上執(zhí)行能夠加快我的應(yīng)用程序嗎?GPU能夠?qū)Ψ弦韵聵藴实膽?yīng)用程序進行加速:大規(guī)模并行一計算能夠被分割成上百個或上千個獨立的工作單元。計算密集型一計算消耗的時間顯著超過了花費轉(zhuǎn)移數(shù)據(jù)到GPU內(nèi)存以及從 GPU內(nèi)存轉(zhuǎn)移出數(shù)據(jù)的時間。不滿足上述標準的應(yīng)用程序在GPU上運行時可能會比CPU要慢。使用MATLAB進行GPU編程FFT,IFFT以及線性代數(shù)運算超過了 100個內(nèi)置的MATLAB函數(shù),通過提 供一個類型為GPUArray(由并行計算工具箱提供的特殊數(shù)組類型)的輸入?yún)?shù), 這些函數(shù)就能夠直接在GPU上運行。這些啟用GPU

5、的函數(shù)都是重載的,換句 話說,這些函數(shù)根據(jù)傳遞的參數(shù)類型的不同而執(zhí)行不同的操作。例如,以下代碼使用FFT算法查找CPU上偽隨機數(shù)向量的離散傅里葉變換:A = rand(2人16,1);B = fft (A);為在GPU上執(zhí)行相同的操作,我們首先使用gpuArray命令將數(shù)據(jù)從MATLAB 工作空間轉(zhuǎn)移至GPU設(shè)備內(nèi)存。然后我們能夠運行重載函數(shù)fft :A = gpuArray(rand(2人16,1);B = fft (A);fft操作在GPU上而不是在CPU上執(zhí)行,因為輸入?yún)?shù)(GPUArray )位于 GPU的內(nèi)存中。結(jié)果B存儲在GPU當中。然而,B在MATLAB工作空間中依舊可見。通過運

6、行class(B),我們看到B是一個GPUArray。class(B)ans =parallel.gpu.GPUArray我們能夠使用啟用GPU的函數(shù)繼續(xù)對B進行操作。例如,為可視化操作結(jié) 果,plot命令自動處理GPUArrays。plot(B);為將數(shù)據(jù)返回至本地的MATLAB 工作集,你可以使用gather命令。例如C = gather(B);C現(xiàn)在是MATLAB中的double,能夠被處理double變量的所有MATLAB 函數(shù)操作。在這個簡單的例子當中,執(zhí)行單個FFT函數(shù)節(jié)省的時間通常少于將向量從 MATLAB工作集移動到設(shè)備內(nèi)存的時間。一般來說是這樣的但是也取決于硬件 和陣列規(guī)模。

7、數(shù)據(jù)傳輸開銷可能變得異常顯著以至于降低了應(yīng)用的總體性能,尤 其是當你重復(fù)地在CPU和GPU之間交換數(shù)據(jù),執(zhí)行相對來說很少的計算密集 型操作時。更有效率的方式是當數(shù)據(jù)處于GPU當中時對數(shù)據(jù)進行一些操作,只 在必要的情況下才將數(shù)據(jù)返回至CPU。需要指出的是,和CPU類似,GPU的內(nèi)存也是有限的。然而,與CPU不 同,GPU不能在內(nèi)存和硬盤之間交換數(shù)據(jù)。因此,你必須核實你希望保留在GPU 當中的數(shù)據(jù)不會超出內(nèi)存的限制,尤其是當用到大規(guī)模矩陣時。通過運行 gpuDevice命令,可以查詢GPU卡,獲取信息比如名稱,總內(nèi)存以及可用內(nèi)存。采用MATLAB解波動方程為將上述例子應(yīng)用到具體的環(huán)境中,我們在一個

8、實際的問題中實現(xiàn)GPU的 功能。計算目標是解二階波動方程。I臚U 知丑Bt2 + dy2當u=0時到達臨界值。我們使用基于波譜法的算法解空間方程,使用基于 二階中心有限差分法的算法解時間方程。波譜法通常用于解決偏微分方程。采用波譜法的解決方案接近連續(xù)基函數(shù)比 如正弦和余弦的線性組合。在這個例子中,我們應(yīng)用了切比雪夫波譜法,使用切 比雪夫多項式作為基函數(shù)。我們在每一個時間步長使用切比雪夫波普法計算當前解決方案的在x象限和 y象限的二次導(dǎo)數(shù)。我們同時使用這些中間數(shù)值與舊的解決方案和新的解決方 案,應(yīng)用二階中心有限差分法(也稱為蛙跳法)計算新的解決方案。我們選擇了 保持蛙跳法穩(wěn)定性的時間步長。MAT

9、LAB算法是計算密集型的,當網(wǎng)格中元素的數(shù)目超過了計算解決方案的 增長,算法的執(zhí)行時間將顯著增加。當在單個CPU上使用2048x2048的網(wǎng)格 執(zhí)行時,完成50個時間步長需要一分多鐘。需要指出的是我們計算的時間已經(jīng) 包括了 MATLAB內(nèi)在的多線程性能優(yōu)勢。自從R2007a起,MATLAb的一些函 數(shù)就支持多線程計算。這些函數(shù)自動在多線程上執(zhí)行,并不需要在代碼中顯示指 定命令去創(chuàng)建線程。當考慮如何使用并行計算工具箱加速計算時,我們將關(guān)注每個時間步長所執(zhí) 行的計算指令代碼。圖3距離說明了為獲取在GPU上運行的算法需要做出的改 變。需要指出的是涉及MATLAB操作的計算指令、啟用GPU的重載函數(shù)可

10、以從并行計算工具箱獲取。這些操作包括FFT, IFFT,矩陣乘法,以及各種元素明 智(element-wise)操作。因此,我們不必改變算法就能夠在GPU執(zhí)行。只需 要在進入每個時間步長計算結(jié)果的循環(huán)前使用gpuArray將數(shù)據(jù)轉(zhuǎn)移到GPU當 中。二:司 TT 5-:F _日_:2 二潭盤圖3.代碼對比工具顯示了 CPU版本和GPU版本的差異CPU和GPU版本共享的代碼超過了 84% (在111行當中有94行)。計算指令在GPU上執(zhí)行后,我們將計算結(jié)果從GPU轉(zhuǎn)移至CPU。被啟用 GPU的函數(shù)所弓I用的每個變量必須在GPU上創(chuàng)建或者在使用前轉(zhuǎn)移到GPU上。 為將用于光譜分化的一個權(quán)重轉(zhuǎn)變?yōu)镚P

11、UArray變量,我們使用W1T = gpuArray(WlT);某些類型的數(shù)組能夠直接在GPU上構(gòu)造,不用從MATLAB工作集轉(zhuǎn)移。 例如,為直接在GPU上創(chuàng)建全零矩陣,我們使用uxx = parallel.gpu.GPUArray.zeros(N + 1,N + 1);我們使用gather函數(shù)將數(shù)據(jù)從GPU中轉(zhuǎn)移回MATLAB工作集;例如:vvg = gather(vv);需要指出的是這只是將一個數(shù)據(jù)轉(zhuǎn)移至GPU然后從GPU轉(zhuǎn)移回MATLAB 工作集。每個時間步長的所有計算指令都是在GPU上執(zhí)行的。ZbCPU 和 GPU 的m行速度為評估使用GPU借二階波動方程的優(yōu)勢,我們進行了基準研究,

12、分別采用 Intel Xeon X5650處理器和NVIDIA Tesla C2050 GPU,選取不同的網(wǎng)格大小 ( 64,128,521,1024和2048),測量了算法執(zhí)行50個時間步長所花費的時間。當網(wǎng)格大小為2048時,算法表明GPU的計算時間少于10秒,而CPU的 計算時間超過了 1分鐘(圖4)。圖4中的對數(shù)標尺表明當網(wǎng)格大小很小時CPU 實際上比GPU要快。隨著技術(shù)的演進和逐漸成熟,GPU解決方案處理小規(guī)模問 題的能力在不斷增強,我們希望這一趨勢能夠延續(xù)下去。粕犯2010圖4.同一個基準測試結(jié)果的線性標尺(左)和對數(shù)標尺(右)表明在不同的網(wǎng)格 規(guī)模下完成50個時間步長所需的時間。

13、使用MATLAB進行GPU高級編程通過在GPU上執(zhí)行MATLAB代碼,并行計算工具箱提供了簡明的方式對 MATLAB代碼進行加速。你只需要改變函數(shù)輸入的數(shù)據(jù)類型就能夠利用眾多的、 已經(jīng)針對GPUArray進行了重載的MATLAB命令(并行計算工具箱文檔提供了 支持GPUArray的內(nèi)置MATLAB函數(shù)的完整列表)。為在GPU上使用多個簡單的操作加速算法,你可以使用arrayfun函數(shù)。因 為arrayfun是一個基于GPU的函數(shù)所以只會在單個調(diào)用中而不會在每個單獨 的操作中引起內(nèi)存轉(zhuǎn)移開銷。最后,自己寫CUDA代碼的有經(jīng)驗的程序員能夠使用并行計算工具箱中的 CUDAKernel接口將代碼與MA

14、TLAB進行集成。CUDAKernel接口使更加細粒 度控制、加速存在性能瓶頸的代碼成為了可能,它創(chuàng)建了一個MATLAB對象, 該對象能夠訪問編譯為PTX代碼的核心程序(PTX是一個低級別并行線程執(zhí)行 指令集)。你甚至可以使用MATLAB陣列作為輸入和輸出,調(diào)用feval命令評 估GPU上的核心程序??偨Y(jié)工程師和科學(xué)家正在成功地使用GPU技術(shù)加速與他們的學(xué)科相關(guān)的計算。 不需要具備廣泛的GPU知識付出很少的努力你就能夠使用MATLAB獲取GPU所承諾的強大的計算能力。不必采用低級別的CUDA編程,GPUArrays以及啟 用GPU的MATLAB函數(shù)幫助你加快了 MATLAB操作。如果你熟悉GPU編程, 那么不需要進行任何的C語言編程,MATLAB就能夠?qū)F(xiàn)有的CUDA核心程序 集成進MATLAB中。為使用GPU實現(xiàn)加速,你的應(yīng)用必須滿足一些標準,其中在CPU和GPU 之間發(fā)送數(shù)據(jù)的時間必須要少于程序在GPU上運行所節(jié)省的時間。如果你的程 序符合這些要求,那么就是MATLAB所提供的GPU功能范圍內(nèi)的一個很不錯 的候選者。GPU術(shù)語CPU.計算機中的中央單元,負責(zé)計算,控制以及監(jiān)管計算機的其他部件。CPU處理數(shù)據(jù)位于計算機內(nèi)存當中的邏輯和浮點操作。GPU.原本用于圖形渲染的可編程芯片。對于需要并行處理大規(guī)模數(shù)據(jù)的算 法而言,GPU的高度并行架構(gòu)使它們比通用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論