2022年NVIDIAGPU上的Linpack性能測(cè)試初探_第1頁(yè)
2022年NVIDIAGPU上的Linpack性能測(cè)試初探_第2頁(yè)
2022年NVIDIAGPU上的Linpack性能測(cè)試初探_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、NVIDIA GPU 上的 Linpack 性能測(cè)試初探1. Linpack 測(cè)試簡(jiǎn)介L(zhǎng)inpack 性能測(cè)試是高性能運(yùn)算機(jī)的標(biāo)準(zhǔn)測(cè)試之一,其測(cè)試性能是全球 Top500超級(jí)運(yùn)算機(jī)排行榜的排名依據(jù) 1 ; Top500 每年公布兩次排行榜,在 2022年6月的榜單中,由曙光公司研制的星云超級(jí)運(yùn)算機(jī)取得了第 2名的好成果,其實(shí)行了通用 CPU Intel Xeon 5650 和異構(gòu)加速部件 NVIDIA Tesla C2050的混合架構(gòu);在本次榜單中,以 GPU作為加速部件的超級(jí)運(yùn)算機(jī)仍有國(guó)防科大研制的天河 1號(hào) 第7名 和中科院過(guò)程所研制的 IPE Mole-8.5 第19名等;簡(jiǎn)潔來(lái)說(shuō), L

2、inpack測(cè)試是用高斯消元法求解稠密線(xiàn)性方程組64 位的雙精度浮點(diǎn)數(shù) ;在 CPU上,有標(biāo)準(zhǔn)的參考實(shí)現(xiàn)HPL軟件包 2 ,其實(shí)現(xiàn)了二維塊卷簾的數(shù)據(jù)分布,部分選主元的 LU分解,遞歸的 Panel 分解, look-ahead 技術(shù),多種廣播算法等多種算法和優(yōu)化;在進(jìn)行 Linpack 測(cè)試時(shí),可選取不同的 HPL參數(shù)組合 比如:矩陣規(guī)模 N,分塊大小 nb 等 ,不同的 BLAS與 MPI 庫(kù),不同的編譯參數(shù)等進(jìn)行調(diào)優(yōu),以得到較好的 Linpack 性能;2. HPL 軟件包在 NVIDIA GPU 上移植和優(yōu)化由于 HPL軟件包實(shí)現(xiàn)了較多的功能和優(yōu)化,所以在NVIDIA GPU 上的 Li

3、npack 測(cè)試也以此為基礎(chǔ),進(jìn)行移植和優(yōu)化; 本文介紹的 HPL軟件包的移植與實(shí)現(xiàn)方式,主要參考了Fatica3的利用 NVIDIA GPU加速 Linpack 的工作;文獻(xiàn) 4 中對(duì)于 HPL軟件包在 Linpack 發(fā)覺(jué) dgemm函數(shù)的執(zhí)行時(shí)間占到了大部分測(cè)試時(shí)各個(gè)函數(shù)的運(yùn)行時(shí)間進(jìn)行了統(tǒng)計(jì)和分析, 約90%左右 ,其次是 dtrsm 函數(shù);所以,我們的基本思想是關(guān)注利用 GPU加速 dgemm與 dtrsm 函數(shù);同時(shí),此種方式也使代碼的改動(dòng)量較小;具體如下:CPU與 GPU混合的 dgemm實(shí)現(xiàn)CPU與 GPU混合的 dgemm實(shí)現(xiàn),就是將矩陣乘法中的一部分放到 GPU上進(jìn)行,調(diào)用

4、NVIDIA CUBLAS中的 dgemm函數(shù) ; 同時(shí),另一部分調(diào)用 CPU上 BLAS庫(kù)中的 dgemm函數(shù),比如 Intel MKL,AMD ACML,GotoBLAS等;使得 CPU與 CPU可以同時(shí)進(jìn)行運(yùn)算;矩陣的劃分如圖 1所示,分成了圖 1中左 豎切 B和右 橫切 A兩種情形;緣由是在 HPL調(diào)用中,矩陣乘法的參數(shù) M,N,K 存在兩種情形,一個(gè)是 K較小, M與 N較大,如圖 1左的情況,此時(shí)劃分矩陣 B會(huì)得到較好的性能 ; 另一種是 K 與 N相等并較小, 而 M相對(duì)較大, 如圖 1右,此時(shí)劃分矩陣 A會(huì)得到較好的性能;通過(guò)調(diào)劑比例因子 R,可以達(dá)到 CPU與 GPU間負(fù)載的

5、均衡;正確的情形是,CPU上的計(jì)算時(shí)間 =數(shù)據(jù)從 CPU到 GPU的傳輸時(shí)間 +GPU運(yùn)算時(shí)間 +結(jié)果從 GPU傳回 CPU的傳輸時(shí)間;最佳的比例因子 R可以通過(guò)多次的試驗(yàn)獲得;從實(shí)現(xiàn)細(xì)節(jié)上,有兩點(diǎn)需要留意的地方:1CUBLAS的 dgemm,使用了 Volkov5 等人的算法;對(duì)于參數(shù) M,N,K 的不同情形性能變化明顯,在 M為64的倍數(shù) ,N 和 K 為16的倍數(shù)時(shí),性能正確; 所以在劃分的時(shí)候需要盡量使 GPU上矩陣中意此規(guī)章 ;2 過(guò)小的數(shù)據(jù)規(guī)模下,GPU并不能發(fā)揮作用,所以當(dāng)規(guī)模小于確定閾值的情形下,可以直接調(diào)用 CPU的 dgemm函數(shù);CPU與 GPU混合的 dtrsm 實(shí)現(xiàn)實(shí)

6、行與 dgemm函數(shù)類(lèi)似的劃分策略,分別調(diào)用 NVIDIA CUBLAS的 dtrsm 函數(shù)與 CPU上的BLAS庫(kù)等;類(lèi)似的調(diào)劑比例因子,是 GPU與 CPU間的負(fù)載盡量均衡;不再進(jìn)行過(guò)多的表達(dá);使用 PINNED Memory和 stream 優(yōu)化 CPU與 GPU數(shù)據(jù)傳輸CPU與 GPU間的數(shù)據(jù)傳輸是此種實(shí)現(xiàn)的瓶頸之一;使用 PINNED Memory可以顯著提升PCIe的傳輸帶寬;此外,仍需使用 數(shù)據(jù)傳輸重疊;3. Linpack 測(cè)試結(jié)果CUBLAS 3.1 beta 中支持的 stream 方式,使 GPU上的運(yùn)算和我們分別在單卡和多卡的情形下,進(jìn)行了Linpack 測(cè)試,單機(jī)的測(cè)

7、試平臺(tái)表1所示;單機(jī) NVIDIA GPU的 HPL輸出如圖 2所示, Linpack 性能為 85.98GFlops ,效率為 68.23%;在進(jìn)行多卡的測(cè)試時(shí),我們使用了中科院過(guò)程所的NVIDIA GPU機(jī)群,其配置如表 2所示;由于時(shí)間所限, 從使用 1個(gè) GPU到使用 16個(gè) GPU的初步 Linpack 性能結(jié)果如圖 3所示, 16個(gè) GPU Linpack 性能為 761.2GFlops ,效率為 50%;4. 結(jié)論本文初步介紹了一種在 CPU和 GPU的混合架構(gòu)下的 HPL軟件包的移植和優(yōu)化方法;在單機(jī)與 16個(gè) GPU的機(jī)群環(huán)境下進(jìn)行了初步的 Linpack 測(cè)試,分別為 85.98GFLops 和761.2GFlops ;本文介紹的實(shí)現(xiàn)方式, 存在兩個(gè)比較明顯的不足:一個(gè)是 CPU與 GPU對(duì)于 dgemm和 dtrsm是實(shí)行靜態(tài)劃分的策略,比例因子 R是固定的, 可知隨著矩陣的分解,運(yùn)算量是變化并逐步減小的, 所以靜態(tài)劃分存在確

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論