下載本文檔
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、NVIDIA GPU 上的 Linpack 性能測(cè)試初探1. Linpack 測(cè)試簡(jiǎn)介L(zhǎng)inpack 性能測(cè)試是高性能運(yùn)算機(jī)的標(biāo)準(zhǔn)測(cè)試之一,其測(cè)試性能是全球 Top500超級(jí)運(yùn)算機(jī)排行榜的排名依據(jù) 1 ; Top500 每年公布兩次排行榜,在 2022年6月的榜單中,由曙光公司研制的星云超級(jí)運(yùn)算機(jī)取得了第 2名的好成果,其實(shí)行了通用 CPU Intel Xeon 5650 和異構(gòu)加速部件 NVIDIA Tesla C2050的混合架構(gòu);在本次榜單中,以 GPU作為加速部件的超級(jí)運(yùn)算機(jī)仍有國(guó)防科大研制的天河 1號(hào) 第7名 和中科院過(guò)程所研制的 IPE Mole-8.5 第19名等;簡(jiǎn)潔來(lái)說(shuō), L
2、inpack測(cè)試是用高斯消元法求解稠密線(xiàn)性方程組64 位的雙精度浮點(diǎn)數(shù) ;在 CPU上,有標(biāo)準(zhǔn)的參考實(shí)現(xiàn)HPL軟件包 2 ,其實(shí)現(xiàn)了二維塊卷簾的數(shù)據(jù)分布,部分選主元的 LU分解,遞歸的 Panel 分解, look-ahead 技術(shù),多種廣播算法等多種算法和優(yōu)化;在進(jìn)行 Linpack 測(cè)試時(shí),可選取不同的 HPL參數(shù)組合 比如:矩陣規(guī)模 N,分塊大小 nb 等 ,不同的 BLAS與 MPI 庫(kù),不同的編譯參數(shù)等進(jìn)行調(diào)優(yōu),以得到較好的 Linpack 性能;2. HPL 軟件包在 NVIDIA GPU 上移植和優(yōu)化由于 HPL軟件包實(shí)現(xiàn)了較多的功能和優(yōu)化,所以在NVIDIA GPU 上的 Li
3、npack 測(cè)試也以此為基礎(chǔ),進(jìn)行移植和優(yōu)化; 本文介紹的 HPL軟件包的移植與實(shí)現(xiàn)方式,主要參考了Fatica3的利用 NVIDIA GPU加速 Linpack 的工作;文獻(xiàn) 4 中對(duì)于 HPL軟件包在 Linpack 發(fā)覺(jué) dgemm函數(shù)的執(zhí)行時(shí)間占到了大部分測(cè)試時(shí)各個(gè)函數(shù)的運(yùn)行時(shí)間進(jìn)行了統(tǒng)計(jì)和分析, 約90%左右 ,其次是 dtrsm 函數(shù);所以,我們的基本思想是關(guān)注利用 GPU加速 dgemm與 dtrsm 函數(shù);同時(shí),此種方式也使代碼的改動(dòng)量較小;具體如下:CPU與 GPU混合的 dgemm實(shí)現(xiàn)CPU與 GPU混合的 dgemm實(shí)現(xiàn),就是將矩陣乘法中的一部分放到 GPU上進(jìn)行,調(diào)用
4、NVIDIA CUBLAS中的 dgemm函數(shù) ; 同時(shí),另一部分調(diào)用 CPU上 BLAS庫(kù)中的 dgemm函數(shù),比如 Intel MKL,AMD ACML,GotoBLAS等;使得 CPU與 CPU可以同時(shí)進(jìn)行運(yùn)算;矩陣的劃分如圖 1所示,分成了圖 1中左 豎切 B和右 橫切 A兩種情形;緣由是在 HPL調(diào)用中,矩陣乘法的參數(shù) M,N,K 存在兩種情形,一個(gè)是 K較小, M與 N較大,如圖 1左的情況,此時(shí)劃分矩陣 B會(huì)得到較好的性能 ; 另一種是 K 與 N相等并較小, 而 M相對(duì)較大, 如圖 1右,此時(shí)劃分矩陣 A會(huì)得到較好的性能;通過(guò)調(diào)劑比例因子 R,可以達(dá)到 CPU與 GPU間負(fù)載的
5、均衡;正確的情形是,CPU上的計(jì)算時(shí)間 =數(shù)據(jù)從 CPU到 GPU的傳輸時(shí)間 +GPU運(yùn)算時(shí)間 +結(jié)果從 GPU傳回 CPU的傳輸時(shí)間;最佳的比例因子 R可以通過(guò)多次的試驗(yàn)獲得;從實(shí)現(xiàn)細(xì)節(jié)上,有兩點(diǎn)需要留意的地方:1CUBLAS的 dgemm,使用了 Volkov5 等人的算法;對(duì)于參數(shù) M,N,K 的不同情形性能變化明顯,在 M為64的倍數(shù) ,N 和 K 為16的倍數(shù)時(shí),性能正確; 所以在劃分的時(shí)候需要盡量使 GPU上矩陣中意此規(guī)章 ;2 過(guò)小的數(shù)據(jù)規(guī)模下,GPU并不能發(fā)揮作用,所以當(dāng)規(guī)模小于確定閾值的情形下,可以直接調(diào)用 CPU的 dgemm函數(shù);CPU與 GPU混合的 dtrsm 實(shí)現(xiàn)實(shí)
6、行與 dgemm函數(shù)類(lèi)似的劃分策略,分別調(diào)用 NVIDIA CUBLAS的 dtrsm 函數(shù)與 CPU上的BLAS庫(kù)等;類(lèi)似的調(diào)劑比例因子,是 GPU與 CPU間的負(fù)載盡量均衡;不再進(jìn)行過(guò)多的表達(dá);使用 PINNED Memory和 stream 優(yōu)化 CPU與 GPU數(shù)據(jù)傳輸CPU與 GPU間的數(shù)據(jù)傳輸是此種實(shí)現(xiàn)的瓶頸之一;使用 PINNED Memory可以顯著提升PCIe的傳輸帶寬;此外,仍需使用 數(shù)據(jù)傳輸重疊;3. Linpack 測(cè)試結(jié)果CUBLAS 3.1 beta 中支持的 stream 方式,使 GPU上的運(yùn)算和我們分別在單卡和多卡的情形下,進(jìn)行了Linpack 測(cè)試,單機(jī)的測(cè)
7、試平臺(tái)表1所示;單機(jī) NVIDIA GPU的 HPL輸出如圖 2所示, Linpack 性能為 85.98GFlops ,效率為 68.23%;在進(jìn)行多卡的測(cè)試時(shí),我們使用了中科院過(guò)程所的NVIDIA GPU機(jī)群,其配置如表 2所示;由于時(shí)間所限, 從使用 1個(gè) GPU到使用 16個(gè) GPU的初步 Linpack 性能結(jié)果如圖 3所示, 16個(gè) GPU Linpack 性能為 761.2GFlops ,效率為 50%;4. 結(jié)論本文初步介紹了一種在 CPU和 GPU的混合架構(gòu)下的 HPL軟件包的移植和優(yōu)化方法;在單機(jī)與 16個(gè) GPU的機(jī)群環(huán)境下進(jìn)行了初步的 Linpack 測(cè)試,分別為 85.98GFLops 和761.2GFlops ;本文介紹的實(shí)現(xiàn)方式, 存在兩個(gè)比較明顯的不足:一個(gè)是 CPU與 GPU對(duì)于 dgemm和 dtrsm是實(shí)行靜態(tài)劃分的策略,比例因子 R是固定的, 可知隨著矩陣的分解,運(yùn)算量是變化并逐步減小的, 所以靜態(tài)劃分存在確
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 貴州城市職業(yè)學(xué)院《建筑設(shè)備(給水排水)》2023-2024學(xué)年第一學(xué)期期末試卷
- 貴陽(yáng)職業(yè)技術(shù)學(xué)院《水文統(tǒng)計(jì)學(xué)與水文信息處理》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025年天津市建筑安全員C證(專(zhuān)職安全員)考試題庫(kù)
- 有機(jī)黃芪標(biāo)準(zhǔn)化種植項(xiàng)目可行性研究報(bào)告-有機(jī)黃芪市場(chǎng)需求持續(xù)擴(kuò)大
- 2025山東建筑安全員C證考試題庫(kù)
- 廣州中醫(yī)藥大學(xué)《中學(xué)生物學(xué)教材分析與教學(xué)設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025青海省建筑安全員B證考試題庫(kù)及答案
- 2025福建省安全員-B證考試題庫(kù)附答案
- 2025甘肅省建筑安全員-B證考試題庫(kù)及答案
- 2025江西建筑安全員-B證考試題庫(kù)及答案
- 全國(guó)計(jì)算機(jī)一級(jí)考試題庫(kù)(附答案)
- 【飛科電器公司基于杜邦分析法的財(cái)務(wù)分析案例(7700字論文)】
- 廣東省深圳市(2024年-2025年小學(xué)四年級(jí)語(yǔ)文)統(tǒng)編版期末考試(上學(xué)期)試卷及答案
- 兒童呼吸道合胞病毒感染臨床診治試題
- 2021-2022學(xué)年廣東省廣州市花都區(qū)六年級(jí)(上)期末英語(yǔ)試卷
- 服務(wù)基層行資料(藥品管理)
- 2024年中考數(shù)學(xué)壓軸題:圓與相似及三角函數(shù)綜合問(wèn)題(教師版含解析)
- 安徽省2023-2024學(xué)年七年級(jí)上學(xué)期期末數(shù)學(xué)試題(原卷版)
- A股上市與借殼上市詳細(xì)流程圖
- 2024年美國(guó)家用WiFi路由器市場(chǎng)現(xiàn)狀及上下游分析報(bào)告
- 《橡皮障的應(yīng)用方法》幻燈片課件
評(píng)論
0/150
提交評(píng)論