2022年NVIDIAGPU上的Linpack性能測(cè)試初探

上傳人：精*** IP屬地：四川上傳時(shí)間：2022-07-31 格式：DOCX 頁(yè)數(shù)：3 大小：421.92KB 積分：6.36 舉報(bào) 版權(quán)申訴

2022年NVIDIAGPU上的Linpack性能測(cè)試初探_第2頁(yè)

2022年NVIDIAGPU上的Linpack性能測(cè)試初探_第3頁(yè)

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、NVIDIA GPU 上的 Linpack 性能測(cè)試初探1. Linpack 測(cè)試簡(jiǎn)介L(zhǎng)inpack 性能測(cè)試是高性能運(yùn)算機(jī)的標(biāo)準(zhǔn)測(cè)試之一,其測(cè)試性能是全球 Top500超級(jí)運(yùn)算機(jī)排行榜的排名依據(jù) 1 ； Top500 每年公布兩次排行榜,在 2022年6月的榜單中,由曙光公司研制的星云超級(jí)運(yùn)算機(jī)取得了第 2名的好成果,其實(shí)行了通用 CPU Intel Xeon 5650 和異構(gòu)加速部件 NVIDIA Tesla C2050的混合架構(gòu)；在本次榜單中,以 GPU作為加速部件的超級(jí)運(yùn)算機(jī)仍有國(guó)防科大研制的天河 1號(hào) 第7名和中科院過(guò)程所研制的 IPE Mole-8.5 第19名等；簡(jiǎn)潔來(lái)說(shuō), L

2、inpack測(cè)試是用高斯消元法求解稠密線(xiàn)性方程組64 位的雙精度浮點(diǎn)數(shù) ；在 CPU上,有標(biāo)準(zhǔn)的參考實(shí)現(xiàn)HPL軟件包 2 ,其實(shí)現(xiàn)了二維塊卷簾的數(shù)據(jù)分布,部分選主元的 LU分解,遞歸的 Panel 分解, look-ahead 技術(shù),多種廣播算法等多種算法和優(yōu)化；在進(jìn)行 Linpack 測(cè)試時(shí),可選取不同的 HPL參數(shù)組合比如：矩陣規(guī)模 N,分塊大小 nb 等 ,不同的 BLAS與 MPI 庫(kù),不同的編譯參數(shù)等進(jìn)行調(diào)優(yōu),以得到較好的 Linpack 性能；2. HPL 軟件包在 NVIDIA GPU 上移植和優(yōu)化由于 HPL軟件包實(shí)現(xiàn)了較多的功能和優(yōu)化,所以在NVIDIA GPU 上的 Li

3、npack 測(cè)試也以此為基礎(chǔ),進(jìn)行移植和優(yōu)化；本文介紹的 HPL軟件包的移植與實(shí)現(xiàn)方式,主要參考了Fatica3的利用 NVIDIA GPU加速 Linpack 的工作；文獻(xiàn) 4 中對(duì)于 HPL軟件包在 Linpack 發(fā)覺(jué) dgemm函數(shù)的執(zhí)行時(shí)間占到了大部分測(cè)試時(shí)各個(gè)函數(shù)的運(yùn)行時(shí)間進(jìn)行了統(tǒng)計(jì)和分析, 約90%左右 ,其次是 dtrsm 函數(shù)；所以,我們的基本思想是關(guān)注利用 GPU加速 dgemm與 dtrsm 函數(shù)；同時(shí),此種方式也使代碼的改動(dòng)量較小；具體如下：CPU與 GPU混合的 dgemm實(shí)現(xiàn)CPU與 GPU混合的 dgemm實(shí)現(xiàn),就是將矩陣乘法中的一部分放到 GPU上進(jìn)行,調(diào)用

4、NVIDIA CUBLAS中的 dgemm函數(shù) ; 同時(shí),另一部分調(diào)用 CPU上 BLAS庫(kù)中的 dgemm函數(shù),比如 Intel MKL,AMD ACML,GotoBLAS等；使得 CPU與 CPU可以同時(shí)進(jìn)行運(yùn)算；矩陣的劃分如圖 1所示,分成了圖 1中左豎切 B和右橫切 A兩種情形；緣由是在 HPL調(diào)用中,矩陣乘法的參數(shù) M,N,K 存在兩種情形,一個(gè)是 K較小, M與 N較大,如圖 1左的情況,此時(shí)劃分矩陣 B會(huì)得到較好的性能 ; 另一種是 K 與 N相等并較小, 而 M相對(duì)較大, 如圖 1右,此時(shí)劃分矩陣 A會(huì)得到較好的性能；通過(guò)調(diào)劑比例因子 R,可以達(dá)到 CPU與 GPU間負(fù)載的

5、均衡；正確的情形是,CPU上的計(jì)算時(shí)間 =數(shù)據(jù)從 CPU到 GPU的傳輸時(shí)間 +GPU運(yùn)算時(shí)間 +結(jié)果從 GPU傳回 CPU的傳輸時(shí)間；最佳的比例因子 R可以通過(guò)多次的試驗(yàn)獲得；從實(shí)現(xiàn)細(xì)節(jié)上,有兩點(diǎn)需要留意的地方：1CUBLAS的 dgemm,使用了 Volkov5 等人的算法；對(duì)于參數(shù) M,N,K 的不同情形性能變化明顯,在 M為64的倍數(shù) ,N 和 K 為16的倍數(shù)時(shí),性能正確；所以在劃分的時(shí)候需要盡量使 GPU上矩陣中意此規(guī)章 ;2 過(guò)小的數(shù)據(jù)規(guī)模下,GPU并不能發(fā)揮作用,所以當(dāng)規(guī)模小于確定閾值的情形下,可以直接調(diào)用 CPU的 dgemm函數(shù)；CPU與 GPU混合的 dtrsm 實(shí)現(xiàn)實(shí)

6、行與 dgemm函數(shù)類(lèi)似的劃分策略,分別調(diào)用 NVIDIA CUBLAS的 dtrsm 函數(shù)與 CPU上的BLAS庫(kù)等；類(lèi)似的調(diào)劑比例因子,是 GPU與 CPU間的負(fù)載盡量均衡；不再進(jìn)行過(guò)多的表達(dá)；使用 PINNED Memory和 stream 優(yōu)化 CPU與 GPU數(shù)據(jù)傳輸CPU與 GPU間的數(shù)據(jù)傳輸是此種實(shí)現(xiàn)的瓶頸之一；使用 PINNED Memory可以顯著提升PCIe的傳輸帶寬；此外,仍需使用數(shù)據(jù)傳輸重疊；3. Linpack 測(cè)試結(jié)果CUBLAS 3.1 beta 中支持的 stream 方式,使 GPU上的運(yùn)算和我們分別在單卡和多卡的情形下,進(jìn)行了Linpack 測(cè)試,單機(jī)的測(cè)

7、試平臺(tái)表1所示；單機(jī) NVIDIA GPU的 HPL輸出如圖 2所示, Linpack 性能為 85.98GFlops ,效率為 68.23%；在進(jìn)行多卡的測(cè)試時(shí),我們使用了中科院過(guò)程所的NVIDIA GPU機(jī)群,其配置如表 2所示；由于時(shí)間所限, 從使用 1個(gè) GPU到使用 16個(gè) GPU的初步 Linpack 性能結(jié)果如圖 3所示, 16個(gè) GPU Linpack 性能為 761.2GFlops ,效率為 50%；4. 結(jié)論本文初步介紹了一種在 CPU和 GPU的混合架構(gòu)下的 HPL軟件包的移植和優(yōu)化方法；在單機(jī)與 16個(gè) GPU的機(jī)群環(huán)境下進(jìn)行了初步的 Linpack 測(cè)試,分別為 85.98GFLops 和761.2GFlops ；本文介紹的實(shí)現(xiàn)方式, 存在兩個(gè)比較明顯的不足：一個(gè)是 CPU與 GPU對(duì)于 dgemm和 dtrsm是實(shí)行靜態(tài)劃分的策略,比例因子 R是固定的, 可知隨著矩陣的分解,運(yùn)算量是變化并逐步減小的, 所以靜態(tài)劃分存在確

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 中學(xué)教育

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

2022年NVIDIAGPU上的Linpack性能測(cè)試初探

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

2022年NVIDIAGPU上的Linpack性能測(cè)試初探

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔