




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
在之前的文章中,我們?cè)敿?xì)介紹過PCIe、RDMA、NVlink、CXL等互聯(lián)技術(shù)。今天我們就通過這篇文章來詳細(xì)的介紹下GPU通信互聯(lián)技術(shù)。為什么需要GPU互聯(lián)技術(shù)?我們都知道,在GPU未出現(xiàn)前,CPU一直是計(jì)算機(jī)中的絕對(duì)核心,甚至連存儲(chǔ)、內(nèi)存、網(wǎng)絡(luò)等子系統(tǒng)的能力都是CPU說了算。比如,一個(gè)CPU能夠支持多大的內(nèi)存,CPU都是有嚴(yán)格要求的。甚至同樣一顆CPU,只是支持不同的內(nèi)存,都能賣兩個(gè)價(jià)格。這也導(dǎo)致了Intel的"獨(dú)斷專行",其它人想對(duì)CPU做點(diǎn)"手腳"那是被限制的死死的,可以說Intel真正做到了"此路是我開,此樹是我栽,要想此路過,留下買路財(cái)",這直接導(dǎo)致了Intel在產(chǎn)品創(chuàng)新方面一直"擠牙膏"。但人算不如天算,沒想到大數(shù)據(jù)分析、AI、視覺渲染、基因分析以及EDR仿真等需求的突然爆發(fā),給了NVIDIA的GPU帶了巨大增長(zhǎng)空間。GPU的快速增長(zhǎng)超出了所有人的預(yù)料,它幾乎徹底顛覆了CPU在計(jì)算機(jī)系統(tǒng)中的地位,而傳統(tǒng)的根據(jù)CPU為核心設(shè)計(jì)的互聯(lián)通信方式在GPU高速增長(zhǎng)的情況下開始慢慢成為了阻礙,原有的通信技術(shù)已經(jīng)成為效率阻礙。比如,傳統(tǒng)方式如果想把數(shù)據(jù)從存儲(chǔ)系統(tǒng)轉(zhuǎn)運(yùn)到GPU顯存中,由于歷史原因此過程受CPU管理。隨著計(jì)算負(fù)載從較慢的CPU轉(zhuǎn)移到較快的GPU后,I/O逐漸成為系統(tǒng)的性能瓶頸。面對(duì)這種情況,那么GPU就要在原有的計(jì)算機(jī)里"開路"了。為了更好地讓大家理解GPU互聯(lián)技術(shù),本文按照GPU的使用模式分為兩種方式來講解,分為單機(jī)多卡GPU互聯(lián)技術(shù)和多機(jī)多卡GPU通信技術(shù)。不多說了,我們馬上開始。單機(jī)多卡GPU通信技術(shù)談到GPU"開路"的通信技術(shù),我們就不得不聊到GPUDirect這項(xiàng)技術(shù)。1、GPUDirectGPUDirect是NVIDIA開發(fā)的一項(xiàng)技術(shù),可實(shí)現(xiàn)GPU與其他設(shè)備(例如網(wǎng)絡(luò)接口卡(NIC)和存儲(chǔ)設(shè)備)之間的直接通信和數(shù)據(jù)傳輸,而不涉及CPU。使用GPUDirect,網(wǎng)絡(luò)適配器和存儲(chǔ)驅(qū)動(dòng)器可以直接讀寫GPU內(nèi)存,減少不必要的內(nèi)存消耗,減少CPU開銷并降低延遲,從而顯著提高性能。發(fā)展到今天,GPUDirect技術(shù)發(fā)展經(jīng)歷了四個(gè)階段:2010年,GPU支持與網(wǎng)卡,存儲(chǔ)等設(shè)備共享內(nèi)存,即GPUDirectSharedMemory;2011年,NVIDIA推出GPUDirectP2P(Peer-to-Peer),支持同一PCIe總線上的GPU之間的內(nèi)存訪問;2012年底,GPUDirectRDMA完美地解決了計(jì)算集群節(jié)點(diǎn)間GPU卡PCIe總線的通信問題。該技術(shù)將在多機(jī)的GPU通信中詳細(xì)說明。如今,GPUDirect技術(shù)已經(jīng)逐漸完善,形成了包括GPUDirectStorage、GPUDirectRDMA、GPUDirectP2P和GPUDirectVideo四組重要技術(shù)的組合。1)GPUDirectStorage對(duì)AI和HPC應(yīng)用而言,隨著數(shù)據(jù)規(guī)模的不斷擴(kuò)大,數(shù)據(jù)加載時(shí)間對(duì)系統(tǒng)性能影響越發(fā)顯著。隨著GPU計(jì)算速度的快速提升,系統(tǒng)I/O(數(shù)據(jù)從存儲(chǔ)讀取到GPU顯存)已經(jīng)成為系統(tǒng)瓶頸。GPUDirectStorage提供本地存儲(chǔ)(NVMe)/遠(yuǎn)程存儲(chǔ)(NVMeoverFabric)與GPU顯存的直接通路,它可以減少不必要的系統(tǒng)內(nèi)存拷貝(通過bouncebuffer)。它可應(yīng)用網(wǎng)卡NIC和存儲(chǔ)系統(tǒng)附近的DMA引擎,直接向GPU顯存寫入/讀取數(shù)據(jù)。2)GPUDirectRDMARDMA(Remotedirectmemoryaccess)技術(shù)可使外圍PCIe設(shè)備直接訪問GPU顯存。GPUDirectRDMA被設(shè)計(jì)用來支持GPU間快速跨機(jī)通信。它能減輕CPU負(fù)載,同時(shí)也能減少不必要的通過系統(tǒng)內(nèi)存進(jìn)行的數(shù)據(jù)拷貝。GPUDirectRDMA在CUDAToolkit中提供支持。您可聯(lián)系網(wǎng)絡(luò)供應(yīng)商下載相關(guān)驅(qū)動(dòng),來使用RDMA功能。它對(duì)TeslaandQuadroGPU都是可用的。3)GPUDirectforVideoGPUDirectforVideo提供一個(gè)服務(wù)于frame-based的通過優(yōu)化的流水線功能。設(shè)備包括:framegrabbers、videoswitchers、HD-SDIcapture、CameraLinkdevice,它可以把視頻幀高效地向GPU顯存中寫入/讀出。過去處理視頻的第三方硬件與GPU交互時(shí),會(huì)引入不必要的延遲,如圖6左邊所示。有了GPUDirectforVideo技術(shù),I/O設(shè)備和GPU可達(dá)到很好的同步(兩個(gè)設(shè)備driver間拷貝數(shù)據(jù)),同時(shí)能減少CPU的負(fù)載。GPUDirectforVideo由第三方公司的SDK提供,開發(fā)者對(duì)視頻流進(jìn)/出GPU(通過OpenGL,DirectXorCUDA在子幀的傳輸過程)有充分的控制能力[7]。4)GPUDirectP2PGPUDirectP2P支持GPU之間通過memoryfabric(PCIe或NVLink)直接進(jìn)行數(shù)據(jù)拷貝。CUDAdriver原生支持P2P技術(shù),開發(fā)者可使用最新的CUDAToolkit和driver來實(shí)現(xiàn)GPU間直接通信[6](一般用于機(jī)內(nèi)通信)。2、NVLink介紹完GPUDirect技術(shù)后,我們來看一下另一項(xiàng)機(jī)內(nèi)互聯(lián)技術(shù)NVlink。當(dāng)訓(xùn)練數(shù)據(jù)不斷增長(zhǎng)時(shí),PCIe的帶寬滿足不了需求,會(huì)逐漸成為系統(tǒng)瓶頸。為提升多GPU之間的通信性能,充分發(fā)揮GPU的計(jì)算性能,NVIDIA于2016年發(fā)布了全新架構(gòu)的NVLink。這項(xiàng)技術(shù)不僅僅是SLI技術(shù)的升級(jí),而且是對(duì)GPU如何互聯(lián)的根本性重新思考。NVLink是一種高速、高帶寬的互連技術(shù),用于連接多個(gè)GPU之間或連接GPU與其他設(shè)備(如CPU、內(nèi)存等)之間的通信。NVLink提供了直接的點(diǎn)對(duì)點(diǎn)連接,具有比傳統(tǒng)的PCIe總線更高的傳輸速度和更低的延遲。NVLink代表了多GPU互聯(lián)技術(shù)的邏輯演變,不僅在速度方面,而且在架構(gòu)設(shè)計(jì)方面。NVLink的結(jié)構(gòu)由可以雙向傳輸數(shù)據(jù)的高速數(shù)據(jù)通道組成。與傳統(tǒng)的基于總線的系統(tǒng)不同,NVLink采用點(diǎn)對(duì)點(diǎn)連接,有效減少瓶頸并提高數(shù)據(jù)吞吐量。最新的迭代提供高達(dá)900GB/s的帶寬,比SLI的功能有了顯著增強(qiáng)。NVLink與眾不同的關(guān)鍵功能之一是它支持網(wǎng)狀拓?fù)涞哪芰?。與舊技術(shù)的菊花鏈或中心輻射型拓?fù)湎啾?,網(wǎng)格設(shè)置允許GPU之間實(shí)現(xiàn)更通用且數(shù)量更多的連接。這在數(shù)據(jù)中心和高性能計(jì)算應(yīng)用程序中特別有用,在這些應(yīng)用程序中,復(fù)雜的數(shù)據(jù)路由是常態(tài)。統(tǒng)一內(nèi)存是NVLink的另一個(gè)特點(diǎn)。這允許GPU共享公共內(nèi)存池,從而實(shí)現(xiàn)更高效的數(shù)據(jù)共享并減少在GPU之間復(fù)制數(shù)據(jù)的需要。這對(duì)于機(jī)器學(xué)習(xí)和大數(shù)據(jù)分析等應(yīng)用程序來說是一個(gè)巨大的推動(dòng),在這些應(yīng)用程序中,大型數(shù)據(jù)集通常超過單個(gè)GPU的內(nèi)存容量。NVLink還改善了延遲,這是任何高性能計(jì)算設(shè)置中的一個(gè)關(guān)鍵因素。較低的延遲可確保GPU之間更快的數(shù)據(jù)傳輸和同步,從而實(shí)現(xiàn)更高效的并行計(jì)算。這是通過NVLink的直接內(nèi)存訪問(DMA)功能實(shí)現(xiàn)的,允許GPU直接讀寫彼此的內(nèi)存,而不需要CPU的參與。NVLink技術(shù)無法使單服務(wù)器中8個(gè)GPU達(dá)到全連接,為解決該問題,NVIDIA在2018年發(fā)布了NVSwitch,實(shí)現(xiàn)了NVLink的全連接。NVIDIANVSwitch是首款節(jié)點(diǎn)交換架構(gòu),可支持單個(gè)服務(wù)器節(jié)點(diǎn)中16個(gè)全互聯(lián)的GPU,并可使全部8個(gè)GPU對(duì)分別達(dá)到300GB/s的速度同時(shí)進(jìn)行通信。3、NVSwitch單服務(wù)器中8個(gè)GPU卡可以依靠NVLink實(shí)現(xiàn)全連接。超過8個(gè)之后,就要依靠NVSwitch來實(shí)現(xiàn)了。NVIDIANVSwitch將多個(gè)NVLink加以整合,在單個(gè)節(jié)點(diǎn)(如NVIDIAHGXA100)內(nèi)以NVLink的較高速度實(shí)現(xiàn)多對(duì)多的GPU通信,從而進(jìn)一步提高互聯(lián)性能。NVLink和NVSwitch的結(jié)合使NVIDIA得以高效地將AI性能擴(kuò)展到多個(gè)GPU,每個(gè)GPU都有12個(gè)連接NVSwitch的NVLink鏈路,可實(shí)現(xiàn)高速的多對(duì)多通信多機(jī)之間GPU卡通信技術(shù)隨著大數(shù)據(jù)分析、科技計(jì)算、AI計(jì)算等應(yīng)用對(duì)算力需求巨大,單機(jī)形態(tài)已經(jīng)不能滿足用戶需求,多機(jī)多卡的計(jì)算是一個(gè)常態(tài),多機(jī)間的通信是影響分布式訓(xùn)練的一個(gè)重要指標(biāo)。在這里我們談?wù)劧鄼C(jī)之間GPU卡的通信技術(shù),主要有RDMA、GPUDirectRDMA和IPoverInfiniBand等技術(shù)。1、RDMA在在傳統(tǒng)的TCP/IP網(wǎng)絡(luò)通信中,數(shù)據(jù)發(fā)送方需要將數(shù)據(jù)進(jìn)行多次內(nèi)存拷貝,并經(jīng)過一系列的網(wǎng)絡(luò)協(xié)議的數(shù)據(jù)包處理工作;數(shù)據(jù)接收方在應(yīng)用程序中處理數(shù)據(jù)前,也需要經(jīng)過多次內(nèi)存拷貝和一系列的網(wǎng)絡(luò)協(xié)議的數(shù)據(jù)包處理工作。經(jīng)過這一系列的內(nèi)存拷貝、數(shù)據(jù)包處理以及網(wǎng)絡(luò)傳輸延時(shí)等,服務(wù)器間的通信時(shí)延往往在毫秒級(jí)別,不能夠滿足多機(jī)多卡場(chǎng)景對(duì)于網(wǎng)絡(luò)通信的需求。RDMA(RemoteDirectMemoryAccess)是一種繞過遠(yuǎn)程主機(jī)而訪問其內(nèi)存中數(shù)據(jù)的技術(shù),解決網(wǎng)絡(luò)傳輸中數(shù)據(jù)處理延遲而產(chǎn)生的一種遠(yuǎn)端內(nèi)存直接訪問技術(shù)。目前
RDMA有三種不同的技術(shù)實(shí)現(xiàn)方式:InfiniBand(IB):IB是一種高性能互聯(lián)技術(shù),它提供了原生的RDMA支持。IB網(wǎng)絡(luò)使用專用的IB適配器和交換機(jī),通過RDMA操作實(shí)現(xiàn)節(jié)點(diǎn)之間的高速直接內(nèi)存訪問和數(shù)據(jù)傳輸。RoCE(RDMAoverConvergedEthernet):RoCE是在以太網(wǎng)上實(shí)現(xiàn)RDMA的技術(shù)。它使用標(biāo)準(zhǔn)的以太網(wǎng)作為底層傳輸介質(zhì),并通過使用RoCE適配器和適當(dāng)?shù)膮f(xié)議棧來實(shí)現(xiàn)RDMA功能。iWARP:iWARP是基于TCP/IP協(xié)議棧的RDMA實(shí)現(xiàn)。它使用普通的以太網(wǎng)適配器和標(biāo)準(zhǔn)的網(wǎng)絡(luò)交換機(jī),并通過在TCP/IP協(xié)議棧中實(shí)現(xiàn)RDMA功能來提供高性能的遠(yuǎn)程內(nèi)存訪問和數(shù)據(jù)傳輸。使用RDMA的優(yōu)勢(shì)如下:零拷貝(Zero-copy)
-應(yīng)用程序能夠直接執(zhí)行數(shù)據(jù)傳輸,在不涉及到網(wǎng)絡(luò)軟件棧的情況下。數(shù)據(jù)能夠被直接發(fā)送到緩沖區(qū)或者能夠直接從緩沖區(qū)里接收,而不需要被復(fù)制到網(wǎng)絡(luò)層。內(nèi)核旁路(Kernelbypass)
-應(yīng)用程序可以直接在用戶態(tài)執(zhí)行數(shù)據(jù)傳輸,不需要在內(nèi)核態(tài)與用戶態(tài)之間做上下文切換。不需要CPU干預(yù)(NoCPUinvolvement)
-應(yīng)用程序可以訪問遠(yuǎn)程主機(jī)內(nèi)存而不消耗遠(yuǎn)程主機(jī)中的任何CPU。遠(yuǎn)程主機(jī)內(nèi)存能夠被讀取而不需要遠(yuǎn)程主機(jī)上的進(jìn)程(或CPU)參與。遠(yuǎn)程主機(jī)的CPU的緩存(cache)不會(huì)被訪問的內(nèi)存內(nèi)容所填充。簡(jiǎn)單來說,RDMA更像一個(gè)去掉中間商的技術(shù),讓數(shù)據(jù)能夠快速獲取。不再在操作系統(tǒng)、CPU等環(huán)節(jié)浪費(fèi)時(shí)間。2、GPUDirectRDMAGPUDirectRDMA結(jié)合了GPU加速計(jì)算和RDMA(RemoteDirectMemoryAccess)技術(shù),實(shí)現(xiàn)了在GPU和RDMA網(wǎng)絡(luò)設(shè)備之間直接進(jìn)行數(shù)據(jù)傳輸和通信的能力。它允許GPU直接訪問RDMA網(wǎng)絡(luò)設(shè)備中的數(shù)據(jù),無需通過主機(jī)內(nèi)存或CPU的中介。GPUDirectRDMA通過繞過主機(jī)內(nèi)存和CPU,直接在GPU和RDMA網(wǎng)絡(luò)設(shè)備之間進(jìn)行數(shù)據(jù)傳輸,顯著降低傳輸延遲,加快數(shù)據(jù)交換速度,并可以減輕CPU負(fù)載,釋放CPU的計(jì)算能力。另外,GPUDirectRDMA技術(shù)允許GPU直接訪問RDMA網(wǎng)絡(luò)設(shè)備中的數(shù)據(jù),避免了數(shù)據(jù)在主機(jī)內(nèi)存中的復(fù)制,提高了數(shù)據(jù)傳輸?shù)膸捓寐?、IPOIB(IPoverInfiniBand)IPOIB是一種在InfiniBand網(wǎng)絡(luò)上運(yùn)行IP協(xié)議的技術(shù)。它將標(biāo)準(zhǔn)的IP協(xié)議棧與IB互連技術(shù)相結(jié)合,使得在IB網(wǎng)絡(luò)上的節(jié)點(diǎn)能夠使用IP協(xié)議進(jìn)行通信和數(shù)據(jù)傳輸。IPOIB提供了基于RDMA之上的IP網(wǎng)絡(luò)模擬層,允許應(yīng)用無修改的運(yùn)行在IB網(wǎng)絡(luò)上。但是,IPoIB仍然經(jīng)過內(nèi)核層(IPStack),會(huì)產(chǎn)生大量系統(tǒng)調(diào)用,并且涉及CPU中斷,因此IPoIB性能比RDMA通信方式性能要低,大多數(shù)應(yīng)用都會(huì)采用RDMA方式獲取高帶寬低延時(shí)的收益,少數(shù)的關(guān)鍵應(yīng)用會(huì)采用IPoIB方式通信。在大規(guī)模計(jì)算中,單機(jī)多卡場(chǎng)景下使用GPUDiect、NVLink技術(shù),分布式場(chǎng)景下使用GPUDirectRDMA技術(shù),可以大大縮短通信時(shí)間,提升整體性能。NVIDIA
數(shù)據(jù)中心明星產(chǎn)品1、MagnumIONVIDIA
MagnumIO是數(shù)據(jù)中心IO的并行化、智能化架構(gòu),它是IO的加速平臺(tái)。該架構(gòu)最大限度地提升存儲(chǔ)、網(wǎng)絡(luò)、多節(jié)點(diǎn)和多GPU通訊性能,為大型語言模型、推薦系統(tǒng)、成像、仿真和科學(xué)研究等全球重要的應(yīng)用優(yōu)化實(shí)現(xiàn)加速。它可以最大化很多重要應(yīng)用的存儲(chǔ)、網(wǎng)絡(luò)、多節(jié)點(diǎn)和多GPU通信性能。利用存儲(chǔ)IO、網(wǎng)絡(luò)IO、在網(wǎng)計(jì)算和IO管理簡(jiǎn)化和加速數(shù)據(jù)移動(dòng)、訪問、多GPU和多節(jié)點(diǎn)管理。MagnumIO支持NVIDIA
CUDA-X庫,同時(shí)能利用一系列NVIDIA
GPU和NVIDIA網(wǎng)絡(luò)硬件拓?fù)鋵?shí)現(xiàn)高吞吐和低延遲。2、DGXDGX是一個(gè)完整的超級(jí)計(jì)算機(jī),它是一套完整的人工智能解決方案,包括硬件設(shè)備、軟件工具和優(yōu)化,具有很高的集成度和易用性,適用于企業(yè)和研究機(jī)構(gòu)。DGX的系列產(chǎn)品有:DGX-1、DGX-2、DGXA100、DGXH100、DGXGH200、DGXSuperPod、DGXBasePod。3、HGXHGX是一個(gè)計(jì)算模組,整合了NVIDIAGPU、NVLink、NVIDI
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度果樹種植土地托管承包與農(nóng)村金融創(chuàng)新合作協(xié)議
- 2025年度汽車維修行業(yè)安全生產(chǎn)責(zé)任簡(jiǎn)易合同
- 二零二五年度高科技研發(fā)項(xiàng)目勞務(wù)合同風(fēng)險(xiǎn)評(píng)估書
- 二零二五年度健康醫(yī)療合伙投資公司股權(quán)合作協(xié)議
- 二零二五年度智能制造合同履行流程監(jiān)督與執(zhí)行協(xié)議
- 二零二五年度文化藝術(shù)交流正規(guī)藝術(shù)家合作協(xié)議
- 二零二五年度倆孩子撫養(yǎng)權(quán)及財(cái)產(chǎn)分割協(xié)議確保子女未來
- 二零二五年度旅游行業(yè)返利分成合同
- 2025年度長(zhǎng)租公寓租賃合同風(fēng)險(xiǎn)評(píng)估與應(yīng)對(duì)策略
- 民生生活會(huì)發(fā)言稿
- 鋼塑復(fù)合管理論重量表
- 部編版小學(xué)語文四年級(jí)下冊(cè)教學(xué)計(jì)劃+進(jìn)度表
- 大客戶營(yíng)銷的黃金法則
- 高空作業(yè)免責(zé)協(xié)議書例文
- 防滲墻專項(xiàng)施工方法
- 執(zhí)業(yè)(助理)醫(yī)師資格證書遺失補(bǔ)辦申請(qǐng)表
- 精品資料(2021-2022年收藏)垃圾焚燒發(fā)電廠監(jiān)理規(guī)劃
- 正副班主任工作職責(zé)
- 注塑機(jī)液壓系統(tǒng)
- 建筑工程消防安全技術(shù)交底
- 建筑工程原材料構(gòu)配件及試件檢驗(yàn)的項(xiàng)目規(guī)則取樣規(guī)定_文檔
評(píng)論
0/150
提交評(píng)論