王瑞雪:中國移動智算中心網(wǎng)絡技術實踐與思考_第1頁
王瑞雪:中國移動智算中心網(wǎng)絡技術實踐與思考_第2頁
王瑞雪:中國移動智算中心網(wǎng)絡技術實踐與思考_第3頁
王瑞雪:中國移動智算中心網(wǎng)絡技術實踐與思考_第4頁
王瑞雪:中國移動智算中心網(wǎng)絡技術實踐與思考_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

中國移動智算中心網(wǎng)絡技術實踐與思考姓名:王瑞雪中國移動目錄一、中國移動NICC技術體系二、智算中心網(wǎng)絡面臨的挑戰(zhàn)三、智算中心網(wǎng)絡創(chuàng)新實踐四、總結與展望智算中心背景與需求AIGC(AI-Generated

Content,人工智能生產內容)發(fā)展迅猛,迭代速度呈現(xiàn)指數(shù)級增長,全球范圍內經濟價值預計將達到數(shù)萬億美元,智能算力將成為未來主流算力國內市場規(guī)模2000億元(2025年)大模型參數(shù)量千億、萬億級GPU算力規(guī)模10000+卡新型智算中心—以高性能GPU、AI加速卡為中心,以高速互聯(lián)智算集群為目標,形成集約化建設的E級超大規(guī)模算力基礎設施,具備軟硬件AI全棧環(huán)境,支撐AI大模型的高效訓練和推理NICC新型智算中心技術體系新平臺-算力原生“芯合”算力原生平臺,使能應用一次開發(fā),跨架構遷移新互聯(lián)-高速互聯(lián)計算總線構建智算芯片快速互聯(lián)標準體系,提升卡間互聯(lián)性能新存儲-內存池構建統(tǒng)一內存池,實現(xiàn)一致性內存語義和空間尋址新互聯(lián)-全調度以太網(wǎng)GSE無阻塞、高帶寬、低時延網(wǎng)絡,提升節(jié)點間的傳輸性能新算效-DPU與計算、網(wǎng)絡、存儲深度協(xié)同,助力算效提升。新節(jié)能-冷板式液冷聚焦液冷服務器和機柜的接口標準,優(yōu)化運維管理能力中國移動NICC技術體系從新互聯(lián)、新算效、新存儲、新平臺、新節(jié)能等五大方面進行系統(tǒng)性重構,加快發(fā)展智能算力,構建標準統(tǒng)一、技術領先、軟硬協(xié)同、兼容開放的新型智算中心技術體系NICC新型智算中心技術體系布局攻關創(chuàng)新技術推動智算發(fā)展基礎設施智算平臺ROCmCUDACANNTesnsorFlowPyTorchPaddlePaddleDeepSpeedGPU液冷高效供電機房配套冷卻水系統(tǒng)應用使能......智算運營跨架構編譯器算力抽象運行時算力原生智算運維裸金屬實例容器實例DPURoCE GSE高速互聯(lián)計算總線文件 對象

塊 內存池融合存儲 全局統(tǒng)一存儲Hypervisor

+虛擬機實例AI開發(fā)框架AI

DSA互聯(lián)計算網(wǎng)絡存儲存儲算效節(jié)能平臺AI參數(shù)面通信特征服務器內Tensor并行(機內總線通信)大模型的參數(shù)量呈指數(shù)增長態(tài)勢,“大模型”正走向“超大模型”,基于數(shù)據(jù)并行、模型并行的分布式訓練成為處理超大模型和超大數(shù)據(jù)集的有效手段一組服務器內Pipeline并行(網(wǎng)絡同軌通信)服務器間數(shù)據(jù)并行(網(wǎng)絡同軌通信)GPU7

GPU6

GPU5

GPU4

GPU3GPU2

GPU1

GPU0Pipeline

stage0GPU7

GPU6

GPU5

GPU4

GPU3GPU2

GPU1

GPU0GPU7

GPU6

GPU5

GPU4

GPU3GPU2

GPU1

GPU0Pipeline

stageXDataParallel

Rank0Pipeline

stage1GPU7

GPU6

GPU5

GPU4

GPU3GPU2

GPU1

GPU0Pipeline

stage0GPU7

GPU6

GPU5

GPU4

GPU3GPU2

GPU1

GPU0GPU7

GPU6

GPU5

GPU4

GPU3GPU2

GPU1

GPU0Pipeline

stageXDataParallel

Rank1Pipeline

stage1DataParallelRank

Y大模型訓練通信特點:周期性,每輪迭代的通信模式一致流數(shù)量少,單流帶寬大,同步突發(fā)每輪通信量大(GB~百GB級)服務器內通信量為百GB級,以allreduce為主服務器間通信量為GB級,包括allreduce和p2p,大部分可以被計算掩蓋MOE會引入節(jié)點間alltoall流量網(wǎng)絡是提升AI大模型訓練效率的關鍵作為集群共享資源,相比單點GPU故障或性能波動,網(wǎng)絡故障影響域大,網(wǎng)絡性能波動影響范圍廣在大模型訓練任務場景,并行系統(tǒng)節(jié)點數(shù)越多,機間通信占比越高,網(wǎng)絡性能成為獲得線性加速比的關鍵AI業(yè)務對丟包敏感,2

的丟包就會使RDMA吞吐率下降為0GPU集群性能

單GPU性能*N網(wǎng)絡芯片能力一定程度決定智算中心網(wǎng)絡規(guī)模和性能,單芯片容量越大,組網(wǎng)規(guī)模越大且成本越低大模型以GPU集群分布式訓練為基礎,集群節(jié)點間頻繁地參數(shù)同步帶來大量通信開銷,網(wǎng)絡性能成為提升GPU集群算力水平的關鍵集群有效算力∝{GPU單卡算力*總卡數(shù)*線性加速比*有效運行時}網(wǎng)絡性能決定GPU集群算力加速比 芯片能力決定GPU集群組網(wǎng)規(guī)模 網(wǎng)絡可用性決定GPU集群穩(wěn)定性H800(400G*8)服務器,51.2T可支持1024臺服務器組網(wǎng),12.8T僅支持64臺服務器組網(wǎng)12.8T芯片端口數(shù)量交換機數(shù)量Leaf32*400G128Spine32*400G128Core32*400G6451.2T芯片端口數(shù)量交換機數(shù)量Leaf128*400G32Spine128*400G16以256臺H800服務器,每服務器出8個400G網(wǎng)卡為例傳統(tǒng)無損以太技術存在性能瓶頸,需從底層機制革新現(xiàn)有以太網(wǎng)協(xié)議基礎轉發(fā)和調度機制,在AI模型訓練場景存在天然缺陷,單純優(yōu)化上層網(wǎng)絡協(xié)議無法解決,需深入底層基礎協(xié)議,對物理層、MAC層轉發(fā)機制進行革新,突破無損以太性能瓶頸有效通信帶寬≠網(wǎng)卡/交換機組網(wǎng)物理帶寬任務同步產生“多打一”流量,擁塞導致時延、抖動增加方向:對每條流的多個數(shù)據(jù)包逐個進行負載分擔,實現(xiàn)單流在全路徑“噴灑”,提升有效帶寬,更好應對突發(fā)流量問題:傳統(tǒng)以太網(wǎng)源端發(fā)流不關注網(wǎng)絡情況及目的端接受能力,直接向網(wǎng)絡“推”流,AI訓練過程存在多打一流量,導致網(wǎng)絡產生擁塞或丟包;通知源端降速或重傳,導致GPU空閑,算力損失問題:AI訓練的流特征是流數(shù)量少但單流帶寬大,傳統(tǒng)流級負載均衡極易造成多個流哈希到同一條鏈路,造成部分鏈路擁塞,部分空閑,網(wǎng)絡利用率低,無法應對突發(fā)的網(wǎng)絡流量In-cast流量方向:源端向目的端“請求”發(fā)送權限,基于網(wǎng)絡轉發(fā)能力的被動“拉”流,最大概率消除擁塞概率,優(yōu)化長尾時延如何提升網(wǎng)絡可靠性和有效帶寬,降低時延抖動是提升模型訓練效率的關鍵基于流轉發(fā),流數(shù)量少導致哈希失效,鏈路負載不均 源端任意向網(wǎng)絡推流,出現(xiàn)擁塞被動降速,GPU閑置等待全調度以太網(wǎng)(GSE)技術特征從“局部”決策到“全局”調度從“流”分發(fā)到“報文”分發(fā)從盲發(fā)+被動控制到感知+主動控制將業(yè)務流拆分到不同“報文容器”轉發(fā),提供逐“報文容器”負載均衡機制,提升帶寬利用率從被動擁塞控制,到基于“授權請求和響應機制”的主動流控,最大限度避免網(wǎng)絡擁塞產生全局視野的轉發(fā)調度機制,實現(xiàn)集中式管理運維、分布式控制轉發(fā),提高網(wǎng)絡可用性當前:逐流負載,鏈路利用率低、發(fā)生擁塞被動降速未來:逐報文容器轉發(fā),鏈路負載均衡,全局調度,避免擁塞聯(lián)合產業(yè)發(fā)布全調度以太網(wǎng)(GSE)技術架構,最大限度兼容以太網(wǎng)生態(tài),創(chuàng)新基于報文容器(PKTC)的轉發(fā)及調度機制,構建無阻塞、高帶寬、低時延的新型智算中心網(wǎng)絡,形成標準開放的技術體系,助力AI產業(yè)發(fā)展創(chuàng)新以太網(wǎng)轉發(fā)機制,實現(xiàn)三大核心機制轉變LeafSpineSpineSpineLeaf3 2 13 2 132

13 2 13 2 13 2 1擁塞3 2 13 2 12 1丟包全調度以太網(wǎng)(GSE)組網(wǎng)場景GSE協(xié)議可根據(jù)網(wǎng)絡設備和網(wǎng)卡能力,將方案各組件功能在網(wǎng)絡組件中重新分工,支持多種組網(wǎng)場景,為后續(xù)網(wǎng)絡建設和設備選型提供靈活的選擇方案場景一:僅網(wǎng)側運行GSE,網(wǎng)卡不感知 場景二:部分功能下沉網(wǎng)卡,實現(xiàn)端網(wǎng)協(xié)同…GSF…GSFGSPLeaf網(wǎng)卡網(wǎng)卡網(wǎng)卡計算卡計算卡計算卡GSP網(wǎng)卡網(wǎng)卡網(wǎng)卡計算卡計算卡計算卡SpineGSF…GSFGSP…Leaf網(wǎng)卡網(wǎng)卡網(wǎng)卡計算卡計算卡計算卡GSFGSPGSPGSP計算卡計算卡計算卡Spine網(wǎng)卡GSP和GSF角色均由網(wǎng)絡設備擔任,執(zhí)行GSE頭解封裝、容器生成、多路徑分發(fā)、端到端授權應答及報文排序傳統(tǒng)RoCE網(wǎng)卡,對網(wǎng)卡無額外要求源GSP、GSF由網(wǎng)絡設備擔任,執(zhí)行GSE頭解封裝、容器生成、多路徑分發(fā)等功能網(wǎng)卡承擔部分GSP角色,負責授權應答和報文排序全調度以太網(wǎng)(GSE)推進進展評估評測技術標準聯(lián)合儀表廠家開展合作,制定普適統(tǒng)一的網(wǎng)絡功能、性能評估方法聯(lián)合產業(yè)推動GSE方案成熟,形成開放統(tǒng)一的技術標準體系依托中國移動CIFIT試驗網(wǎng),驗證新型網(wǎng)絡技術,推動技術成熟與規(guī)模建設創(chuàng)新試驗聯(lián)合產業(yè)發(fā)布《全調度以太網(wǎng)(GSE)技術架構》白皮書中國算力大會正式啟動全調度以太網(wǎng)(GSE)推進計劃中國網(wǎng)絡大會發(fā)布業(yè)界首款GSE原型系統(tǒng)CCSA立項《全調度以太網(wǎng)總體技術要求》2023.82023.92023.5 2023.6全調度以太網(wǎng)(GSE)推進計劃中國移動攜手中國信通院,聯(lián)合國內外三十余家主流互聯(lián)網(wǎng),設備商、芯片商、高校院所聯(lián)合發(fā)起GSE推進計劃,推動智算中心網(wǎng)絡技術創(chuàng)新、標準完善和產業(yè)應用,打造高速無損、開放兼容的新型智算中心網(wǎng)絡技術體系全調度以太網(wǎng)(GSE)推進計劃研究范疇:物理層:低時延Phy、PhySEC、故障快速檢測、B400G高速光接口、光交換等鏈路層:基于報文分發(fā)和重組機制、調度技術、鏈路級安全及容錯等網(wǎng)絡層:新型組網(wǎng)拓撲、新型組播/任播協(xié)議等;傳輸層:改進的RDMA、新型擁塞控制等應用層:在網(wǎng)計算、存儲加速、開放API框架等管理和運維體系:網(wǎng)絡可視化、可調試能力、多維自動化能力中國移動,中國信息通信研究院,華為、中興、銳捷、新華三、浪潮、Intel、Broadcom、清華大學、上海交通大學、鵬城實驗室、紫金山實驗室、北京郵電大學、中科院計算機網(wǎng)絡信息中心、中信科、Spirent、是德科技、盛科、云合智網(wǎng)、楠菲微電子、燧原科技、昆侖芯、邁普,星云智聯(lián)、云脈芯聯(lián)、中科馭數(shù)、云豹智能、大禹智芯、中盈優(yōu)創(chuàng)等成員情況:期待更多產學研合作伙伴加入GSE推進計劃,攜手共建新型智算中心網(wǎng)絡產業(yè)生態(tài)!業(yè)務通信原語與網(wǎng)絡通信模型存在差異分布式系統(tǒng)節(jié)點間以多對多的集合通信為主,業(yè)界主流方案基于RDMA點到點高效傳輸,實現(xiàn)多對多集合通信,存在性能瓶頸11Npoint-to-point34Reduce4.6Gather1.2Reduce-Scatter0.2Bcast14Scatter0.2Allgather0.6AllReduce19.4AlltoAll6.814.86Barrier13.239.4AI大模型中典型通信原語調用N超算系統(tǒng)通信原語調用統(tǒng)計當前組播實現(xiàn)方式多播業(yè)務效率問題引入了與通信規(guī)模線性相關的額外開銷,且無法通過優(yōu)化下層網(wǎng)絡的延遲/吞吐性能來消除擴展性問題有測試表明,RDMA商用網(wǎng)卡在QP數(shù)量超過256時,吞吐即會出現(xiàn)明顯的下降WangZ,LuoL,NingQ,etal.SRNIC:AScalableArchitectureforRDMA

NICs[J]NDMA面向集合通信的原生設計,最優(yōu)化集合通信性能交換機無處理QPType:RCOp:Send

Only進交換機前出交換機后交換機復制報文新QP

Type:

MCOp:Send

Only新QP

Type:

MCOp:Send

Only交換機匯聚ACK新QPType:CCOp:Acknowledge新QPType:CCOp:Acknowledge原始請求56->54交換機經計算后修改報文目的ip:

56->53數(shù)據(jù)直回53->56新QPType:ANYC(復用RD)Op:Send

Only新QPType:ANYC(復用RD)Op:Send

Only原始請求

56->53轉發(fā)請求

53->54數(shù)據(jù)傳輸

54->53數(shù)據(jù)傳輸

53->56網(wǎng)絡級DMA(NDMA)對網(wǎng)絡中一組節(jié)點內存直讀/寫,是面

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論