2024年人工智能行業(yè)專題:網(wǎng)絡(luò)之辯-英偉達(dá)Blackwell背后的光電演繹_第1頁(yè)
2024年人工智能行業(yè)專題:網(wǎng)絡(luò)之辯-英偉達(dá)Blackwell背后的光電演繹_第2頁(yè)
2024年人工智能行業(yè)專題:網(wǎng)絡(luò)之辯-英偉達(dá)Blackwell背后的光電演繹_第3頁(yè)
2024年人工智能行業(yè)專題:網(wǎng)絡(luò)之辯-英偉達(dá)Blackwell背后的光電演繹_第4頁(yè)
2024年人工智能行業(yè)專題:網(wǎng)絡(luò)之辯-英偉達(dá)Blackwell背后的光電演繹_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2024年人工智能行業(yè)專題:網(wǎng)絡(luò)之辯_英偉達(dá)Blackwell背后的光電演繹1.Blackwell:英偉達(dá)新架構(gòu),變與不變(一)性能躍升:內(nèi)存、帶寬、算力“三大件”。TSMC4NP工藝,2dies,20PFLOPS@FP8(Hopper2.5倍)。HBM3e192GB內(nèi)存@8TBps帶寬(二)NVLink5th,拓展72GPU集群,C2C互聯(lián)。單GPU18xNVLink,帶寬1800GBps(此前H100一代900GBps)。最新NVLinkSwitch交換芯片,可576GPU互聯(lián)(目前實(shí)際應(yīng)用72GPU互聯(lián),此前僅8GPU)。Chiptochip,真正意義上實(shí)現(xiàn)跨“服務(wù)器”互聯(lián),達(dá)機(jī)柜級(jí)(盡管此前H100也有嘗試)(三)算力呈現(xiàn)方式:板卡-服務(wù)器-機(jī)柜系統(tǒng)。GB200NVL72系統(tǒng),算力的“最小單元”從GPU擴(kuò)大為機(jī)柜,以應(yīng)對(duì)海量參數(shù)訓(xùn)推。(四)網(wǎng)絡(luò)場(chǎng)景:c2c,b2b,m2m,交換機(jī)網(wǎng)卡。光、電混合,成本與性能平衡,200GSerDes,集群帶寬首次應(yīng)用1.6Tbps光網(wǎng)絡(luò)。(五)液冷:高密度,高功率。GB200功率可達(dá)2700W,NVL72單機(jī)柜總功率190kW+,全液冷必備。2.高速網(wǎng)絡(luò):量化測(cè)算,迭代提速高速網(wǎng)絡(luò):AI競(jìng)賽揭開序幕,技術(shù)迭代明確加速2024-2025年開始訓(xùn)練+推理密集的產(chǎn)業(yè)需求,市場(chǎng)對(duì)算力網(wǎng)絡(luò)的路徑與需求有分歧/預(yù)期差。預(yù)計(jì)高速網(wǎng)絡(luò)需求的持續(xù)性強(qiáng)!英偉達(dá)GB200NVL72系統(tǒng),組網(wǎng)推演此外,英偉達(dá)GTC2024發(fā)布Quantum-XInfiniBand800交換機(jī),1.6T時(shí)代來臨!其中NVIDIAQuantum-X800Q3400-RA4U交換機(jī):首個(gè)200GSerDes交換機(jī);144個(gè)800Gb端口,整合72個(gè)OSFP口(每個(gè)1.6T帶寬,后續(xù)升級(jí)ConnectX-8800Gbps);2層fat-tree架構(gòu)下,支持10368個(gè)NIC擴(kuò)容&同時(shí)LD版本為液冷系統(tǒng)。NVLink和InfiniBand雙體系,訓(xùn)推一體GB200NVL72系統(tǒng)對(duì)網(wǎng)絡(luò)的需求測(cè)算,4機(jī)柜72GPUs——1)NVLink交換機(jī)需求量:9x4=36臺(tái)(各自機(jī)柜內(nèi)的L1交換機(jī))。2)InfiniBand交換機(jī)需求量:L14臺(tái)+L22臺(tái)=6臺(tái)(X8001.6T交換機(jī))。每臺(tái)交換機(jī)144個(gè)端口,無收斂網(wǎng)絡(luò)下,L1交換機(jī)上下行端口等分,即上行72+下行72;第1臺(tái)交換機(jī)的72個(gè)端口,分別連接4個(gè)機(jī)柜中18個(gè)ComputeNode(共72個(gè)Node)中的第1張CX-8(800Gb),以此類推,由于每個(gè)ComputeNode中均有4個(gè)CX-8,這樣L1層的4臺(tái)交換機(jī),下行的72個(gè)端口可插滿;繼續(xù),對(duì)于4臺(tái)L1交換機(jī)剩余的上行72個(gè)端口,總計(jì)4x72=288個(gè)連接,L2交換機(jī)僅需288÷144=2臺(tái),即可實(shí)現(xiàn)端口的全互聯(lián)。3)光模塊的需求量(對(duì)應(yīng)4x72=288GPUs):GPU側(cè),4x72=288個(gè)800G光模塊(GPU比=1:1)。交換機(jī)側(cè),6x72=432個(gè)1.6T光模塊(GPU比=1:1.5)。以上的2層fat-tree網(wǎng)絡(luò),最大可支持10368卡擴(kuò)容。即144x72;當(dāng)集群大于10368卡時(shí),L1交換機(jī)將大于144臺(tái);由于該L2交換機(jī)單臺(tái)端口數(shù)最大144,則L1和L2之間無法充分互聯(lián),需要增加一層L3交換機(jī)。此時(shí)會(huì)增加1.6T光模塊的GPU比,至1:2.5。3.光通信:NVLink啟示,硅光未來“光電混合”與“光進(jìn)銅退”破局市場(chǎng)較多討論英偉達(dá)GB200NVL系統(tǒng)的通信需求,光與銅“孰輕孰重”;我們認(rèn)為光電混合是當(dāng)前重要架構(gòu),未來更高速的光網(wǎng)絡(luò)和芯片層面的光互聯(lián)是長(zhǎng)期方向。整體看,單一介質(zhì)網(wǎng)絡(luò)連接的性能,最大傳輸距離與最高帶寬成反比,且綜合考慮成本。伴隨帶寬增長(zhǎng),無源銅纜傳輸?shù)膫鬏敯霃娇s水(光進(jìn)銅退的核心原因),預(yù)計(jì)有源銅纜和LPO在短距高速場(chǎng)景下有需求市場(chǎng)。而800G以上,高速模塊的中長(zhǎng)距離互聯(lián)、單模光模塊下沉至IDC內(nèi)部成為可能;同時(shí)預(yù)計(jì)硅光滲透加速。在傳統(tǒng)云計(jì)算場(chǎng)景,距離和帶寬幾乎是正相關(guān)的。尤其是100-200G網(wǎng)絡(luò)下:DAC(銅纜)解決服務(wù)器->ToR交換機(jī)、ToR->ToR之間的連接(距離相對(duì)固定,低速、短距);AOC解決ToR交換機(jī)-L1交換機(jī)/L2交換機(jī)之間的連接(距離相對(duì)固定,易維護(hù),中速、中距);光模塊解決集群內(nèi)部、外部互聯(lián)(架構(gòu)靈活,高速、中長(zhǎng)距離)。AGI集群的網(wǎng)絡(luò)中,銅連接(DAC等)最大優(yōu)勢(shì)是成本與功耗,痛點(diǎn)則是距離。參考英偉達(dá)官方配置的800G無源銅纜:最大傳輸距離3m;但優(yōu)勢(shì)是功耗極低,幾乎沒有額外耗電;以及相較于有源電纜更低的成本(沒有驅(qū)動(dòng)芯片)。有源銅纜可以以1.5w的功耗將距離擴(kuò)展至最大5m;預(yù)計(jì)1.6T網(wǎng)絡(luò)下,該距離縮短。硅光路徑:硬件大廠“必下”的一步“棋子”高速光通信的下一產(chǎn)業(yè)節(jié)點(diǎn)是硅光,爆發(fā)臨近:AI需求與技術(shù)演進(jìn)的交叉點(diǎn)。三場(chǎng)景共進(jìn)(而非互斥)——chiptochip(芯片間的光學(xué)IO),boardtoboard(板卡間的光學(xué)模組),machinetomachine(光模塊/CPO)。硅光進(jìn)展:各顯神通,劍指通信電子新成長(zhǎng)——英偉達(dá)我們認(rèn)為,NVLink是英偉達(dá)在網(wǎng)絡(luò)領(lǐng)域布局的重要一環(huán),預(yù)計(jì)未來將延伸至光路徑。NVLink:在IB/以太網(wǎng)等基礎(chǔ)上,專門用于點(diǎn)對(duì)點(diǎn)高速互聯(lián),多個(gè)GPU之間或GPU與其他設(shè)備(如CPU、內(nèi)存等)之間的通信。相比傳統(tǒng)PCIe,傳輸速度更高且延遲更低。第五代NVLink總帶寬達(dá)1.8TB/s,為PCIeGen5帶寬的14倍,且升級(jí)速度遠(yuǎn)高快于傳統(tǒng)接口。目前英偉達(dá)NVLink和GPU直連,主要基于電通道傳輸。此前英偉達(dá)設(shè)計(jì)DGXH100服務(wù)器,曾在GPU板卡側(cè)引入18個(gè)光通信接口,配合NVSwitch交換芯片進(jìn)行對(duì)外連接;當(dāng)前GB200NVL72系統(tǒng)亦是代表。對(duì)比之下,光電共封裝的方案在相當(dāng)?shù)某杀舅较拢牡陀诰€纜;密度高于PCB、長(zhǎng)度與AOC等相當(dāng);可靠性后續(xù)驗(yàn)證。未來光學(xué)路徑的NVLink,以及光學(xué)chiptochip連接,是英偉達(dá)算力系統(tǒng)的發(fā)展方向。4.液冷:技術(shù)奇點(diǎn),算力同行芯片技術(shù)的演進(jìn)是散熱需求的最核心驅(qū)動(dòng)。從技術(shù)角度看,散熱技術(shù)大致經(jīng)歷了風(fēng)冷到液冷再到風(fēng)冷的階段,當(dāng)前進(jìn)一步向液冷演進(jìn),驅(qū)動(dòng)力在于半導(dǎo)體技術(shù)變化和功率密度提升。階段一:雙極型晶體管主導(dǎo),第一輪風(fēng)冷到液冷的演進(jìn)。上世紀(jì)80年代前芯片發(fā)熱量增長(zhǎng)較平緩,風(fēng)冷可以滿足絕大多數(shù)場(chǎng)景的散熱需求;此后發(fā)熱量指數(shù)級(jí)增長(zhǎng),液冷發(fā)展深入到芯片級(jí)。階段二:CMOS技術(shù)迭代下風(fēng)冷重回主流。90年代后仙童實(shí)驗(yàn)室CMOS流行,芯片功耗與發(fā)熱量下跌,散熱技術(shù)重新回到了風(fēng)冷階段,液冷技術(shù)被擱置。階段三:當(dāng)前的算力與AIDC。異構(gòu)、HPC、AI等需求,散熱需求復(fù)雜化,液冷重回舞臺(tái)。盡管英偉達(dá)液冷產(chǎn)業(yè)鏈以海外為主,但我們需重視本土算力對(duì)液冷滲透的剛需。以華為為例,其全液冷方案,(據(jù)官網(wǎng)數(shù)據(jù))在密閉式液冷機(jī)柜中可以將散熱功耗下降96%,能源利用效率(PUE)由采用風(fēng)冷方案的2.2降低至1.1。在50千瓦柜功率設(shè)備上,每年可節(jié)省約50萬度散熱能耗。華為Atlas900AI訓(xùn)練集群即采用全液冷方案,支撐>95%液冷占比(滲透率提高),單機(jī)柜50kW散熱功耗(高功率即價(jià)值量提升);同時(shí)與傳統(tǒng)8kW風(fēng)冷機(jī)柜相比,節(jié)省機(jī)房空間79%(高密度)。若假設(shè)冷板式液冷每kW價(jià)值量在數(shù)千元數(shù)量級(jí),則單柜50kW功耗下,Atlas900的液冷單柜價(jià)值量在十萬元數(shù)量級(jí)以上,預(yù)計(jì)后續(xù)芯片迭代后TDP提升、機(jī)柜功率密度提升,液冷價(jià)值量提升空間巨大。結(jié)合我國(guó)存量IDC“老舊小散”的改造需求,以及AI智算中心的新建需求,我們認(rèn)為液冷產(chǎn)業(yè)鏈正迎來需求爆發(fā)的黃金時(shí)期。5.結(jié)論AI底層硬件向“大系統(tǒng)”演進(jìn)。市場(chǎng)較多討論英偉達(dá)GB200NVL系統(tǒng)的通信需求,光與銅“孰輕孰重”;我們認(rèn)為光電混合是當(dāng)前重要架構(gòu),未來更高速的光網(wǎng)絡(luò)和芯片層面的光互聯(lián)是長(zhǎng)期方向?;谠茝S商視角,我們預(yù)計(jì)GB200NVL系統(tǒng)是AI訓(xùn)練+推理在云端的較佳選擇。而在英偉達(dá)B系列芯片更新的節(jié)點(diǎn)上,我們預(yù)計(jì)后續(xù)AI芯片迭代出貨,對(duì)應(yīng)的800G/1.6T光模塊/光器件需求增長(zhǎng),硅光、液冷產(chǎn)業(yè)鏈投資機(jī)會(huì)也隨之增加,看好海外大廠的高速網(wǎng)絡(luò)需求的持續(xù)性。原因及邏輯:1)英偉達(dá)的GB200NVL72方案將72GPU高密度配置在一個(gè)機(jī)柜中,用于大模型訓(xùn)推,其中柜內(nèi)組網(wǎng)以電氣信號(hào)背板和銅線的NVLink網(wǎng)絡(luò)為主,而機(jī)柜外擴(kuò)容組網(wǎng)尤其千至萬卡互聯(lián)則需要2-3層交換機(jī)網(wǎng)絡(luò)和光通信方案。前者是芯片互聯(lián)增量,后者架構(gòu)延續(xù)但整體升級(jí)。2)整體看,單一介質(zhì)網(wǎng)絡(luò)連接的性能,最大傳輸距離

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論