




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
本白皮書版權(quán)屬于紫金山實(shí)驗(yàn)室及其合作單位所有并受法律保楊彩云、韓紅平、黃文浩、袁輝、胡秀麗、鄭吳濤、符哲蔚、陸振善、張佳瑋、谷志群、李I(lǐng)智算算力互聯(lián)的實(shí)現(xiàn)依賴于一個(gè)能夠支持高性能計(jì)算任務(wù)的網(wǎng)光電融合組網(wǎng)與路由、廣域RDMA等關(guān)鍵技術(shù)。隨后,結(jié)合智算網(wǎng) I III 1 3 6 11 11 73 75 7712017年,國家工信部頒布了《促進(jìn)新一代人工智能產(chǎn)業(yè)發(fā)展三步增加在該領(lǐng)域的投入;2021年發(fā)布的《新型數(shù)據(jù)中心發(fā)展三年行一體化的新型智能基礎(chǔ)設(shè)施,提供體系化的人工智能服務(wù);2023年2聯(lián)點(diǎn)并加快了IPv6的規(guī)模部署,新建了國家級(jí)互聯(lián)網(wǎng)交換中心提升3如,北京正在建設(shè)亦莊等E級(jí)智能算力高地,并計(jì)劃到智算基礎(chǔ)設(shè)施軟硬件產(chǎn)品的全棧自主可控;上海在推進(jìn)“算力浦江”智算行動(dòng)實(shí)施方案,打造高質(zhì)量智算發(fā)展格局;貴州通過與華為云、我國正在積極推進(jìn)智算網(wǎng)絡(luò)標(biāo)準(zhǔn)化進(jìn)程,以滿足人工智能與高性應(yīng)用的全鏈條。各大云服務(wù)商和電信運(yùn)營商正在加速構(gòu)建AI大模型在國內(nèi)標(biāo)準(zhǔn)化方面,中國通信標(biāo)準(zhǔn)化協(xié)會(huì)正在主導(dǎo)國內(nèi)的智算網(wǎng)算一體、設(shè)備平臺(tái)互聯(lián)互通、安全等標(biāo)準(zhǔn)化研究進(jìn)程。2023年,中NextGenerationNetworkEvolution)在SG13啟動(dòng)智算立項(xiàng);在國際標(biāo)準(zhǔn)化方面,智算網(wǎng)絡(luò)的標(biāo)準(zhǔn)化工作主要由ITU和IETF等國際組織推動(dòng)。為滿足人工智能和高性能計(jì)算(HPC,HighPerformanceComputing)對(duì)智能算力需求的急速增長,2023年7月,Linux基金4會(huì)聯(lián)合AMD、Arista、博通、思科等公司共同成立了超以太網(wǎng)聯(lián)盟過30個(gè)城市正在建設(shè)或提出建設(shè)智算中心,建設(shè)總數(shù)西算”八大樞紐。2024年,武昌智算中心、中國移動(dòng)智算中心(青5我國智算產(chǎn)業(yè)鏈已形成完整的上游核心技術(shù)研發(fā)、中游資源整合其在吞吐量、能效及算力等方面的突出表現(xiàn),已在AI領(lǐng)域得到大量6而更遠(yuǎn)期的Q*系列模型將采用多模態(tài)自我演進(jìn)訓(xùn)練機(jī)制,使模型訓(xùn)同時(shí),超長序列也逐漸成為未來模型的主流標(biāo)配,以Sora為例,視7多的GPU廠商選擇以太作為其算力芯片的IO接口形態(tài),如Intel體系(GSE以及由海內(nèi)外頭部廠商組成的超級(jí)以太網(wǎng)聯(lián)盟,正在8突破基于以太網(wǎng)構(gòu)建超大規(guī)模高性能AI集群的技術(shù)瓶頸。事實(shí)上,大規(guī)模開放互聯(lián)網(wǎng)絡(luò)的技術(shù)基石。著模型規(guī)模逐漸逼近甚至超過人腦水平,相應(yīng)的AI集群規(guī)模也將從之前的千卡或萬卡級(jí)別,迅速發(fā)展到十萬卡甚至百萬卡規(guī)模。20249方面的革新。若按當(dāng)前算力芯片的發(fā)展速度來看,IO密度與功耗將技術(shù)將在組網(wǎng)架構(gòu)與單比特功耗等方面深刻影響未來數(shù)年智算網(wǎng)絡(luò)下降90%以上。在AI驅(qū)動(dòng)下,未來網(wǎng)絡(luò)芯片預(yù)計(jì)將迅速突破100T容量,單比特功耗將進(jìn)一步降低。同時(shí),400G/800GDPU網(wǎng)卡需求實(shí)現(xiàn)面向AI場(chǎng)景優(yōu)化已成為新一代網(wǎng)絡(luò)芯片的重要特征,并將在未訓(xùn)練復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型可能需要處理TB級(jí)甚至PB級(jí)的數(shù)據(jù)。為據(jù)傳輸需求。隨著AI模型復(fù)雜度和數(shù)據(jù)規(guī)模的持續(xù)增加,未來對(duì)網(wǎng)AI模型的復(fù)雜度與參數(shù)規(guī)模持續(xù)增加,其對(duì)低時(shí)延網(wǎng)絡(luò)的需求將更并做出及時(shí)的決策,任何延遲都可能導(dǎo)致嚴(yán)重后果。此外,隨著AI相比之下,智算中心的特征為流數(shù)量少(通常低于10K致應(yīng)用性能下降。相關(guān)測(cè)試數(shù)據(jù)表明,在AI場(chǎng)景中,相比傳統(tǒng)基于有效控制時(shí)延抖動(dòng)是AI高性能網(wǎng)絡(luò)的重要需求,通過合網(wǎng)絡(luò)丟包在AI大規(guī)模訓(xùn)練中是一項(xiàng)極其重要的問題。網(wǎng)絡(luò)丟包同樣會(huì)對(duì)AI推理性能產(chǎn)生影響,因?yàn)橥凭C上所述,智算網(wǎng)絡(luò)的發(fā)展與應(yīng)用亟需高帶寬、低時(shí)延/抖動(dòng)、胖樹(Fat-Tree)Clos無阻塞網(wǎng)絡(luò)架構(gòu)由于其高效的路由設(shè)計(jì)、對(duì)于中小型規(guī)模的GPU集群網(wǎng)絡(luò),通常采用Spine-Leaf兩層架構(gòu),服務(wù)器上的網(wǎng)卡全部接入同一臺(tái)Leaf交換機(jī),該方式集群通信效率偏低,但在機(jī)房實(shí)施布線中有較大優(yōu)勢(shì)。此外,若Leaf交換機(jī)發(fā)生業(yè)內(nèi)典型的大模型組網(wǎng)架構(gòu)有騰訊星脈與阿里巴巴HPN網(wǎng)絡(luò)。星脈網(wǎng)絡(luò)采用無阻塞胖樹(Fat-Tree)拓?fù)?,分為Cluster-Pod-Block三級(jí)。如圖3-3所示,以128端口400G交換機(jī)為例,其中Block為阿里云大模型訓(xùn)練網(wǎng)絡(luò)(HPN,High-PerformanceN引入一種雙平面兩層架構(gòu),如圖3-4所示。每臺(tái)GPU服務(wù)器配置到不同Leaf設(shè)備,形成雙平面設(shè)計(jì),從而避免單Leaf故障對(duì)訓(xùn)練任Leaf上行有60×400G端口連接Spine,因此一個(gè)Pod可容納15個(gè)訓(xùn)練任務(wù)流量特性,選擇Spine-Core之間采用15:1現(xiàn)網(wǎng)絡(luò)架構(gòu)精簡,僅使用一層Rail交換機(jī)用于高帶寬域內(nèi)GPU卡之間互聯(lián),其中每個(gè)高帶寬域內(nèi)256個(gè)GPU都通過NVLinkSwitch進(jìn)傳統(tǒng)Clos樹形架構(gòu)作為主流的智算網(wǎng)絡(luò)架構(gòu),重點(diǎn)突出其普適性,但在時(shí)延與建設(shè)成本方面并非最優(yōu)。在高性能計(jì)算網(wǎng)絡(luò)中,Dragonfly網(wǎng)絡(luò)因其較小的網(wǎng)絡(luò)直徑與較低的部署成本被大量使用。Dragonfly可支持超過27萬個(gè)GPU卡,相當(dāng)于三層Fat-Tree架構(gòu)所問題:1、系統(tǒng)復(fù)雜度,三層組網(wǎng)的負(fù)載均衡、擁塞控制等網(wǎng)路技術(shù)架構(gòu)一為第二層帶收斂的三層Fat-Tree架構(gòu),即下圖中L2層交或同號(hào)的L2設(shè)備兩兩直連。以單端口為400G的51.2T盒式交換機(jī)Fat-Tree架構(gòu),此架構(gòu)可節(jié)省一層交換環(huán)面拓?fù)涮匦钥墒沟闷湓卩従庸?jié)點(diǎn)之間擁有最優(yōu)通信性能。然而,Tomahawk5芯片的白盒交換機(jī)為主流,轉(zhuǎn)發(fā)容量可達(dá)51.2Tb/s,支Tomahawk5芯片的白盒交換機(jī),構(gòu)建布局智算中心超寬無損網(wǎng)絡(luò)解交換機(jī),其性能上存在一定劣勢(shì)。而Spectrum-X以太網(wǎng)交換機(jī)轉(zhuǎn)發(fā)達(dá)到12.8Tbps,可支持32×400G端口接入,并提出全局負(fù)載均衡(NSLB,NetworkScaleLoadBalance)調(diào)度方案,以實(shí)現(xiàn)智算中心網(wǎng)絡(luò)超寬無損承載。下優(yōu)勢(shì):i)白盒交換機(jī)采用類似服務(wù)器的網(wǎng)絡(luò)操作系統(tǒng),可利用現(xiàn)而加快技術(shù)創(chuàng)新;ii)將傳統(tǒng)交換機(jī)的專有網(wǎng)絡(luò)環(huán)境轉(zhuǎn)變?yōu)楦ㄓ玫闹袑?shí)現(xiàn)網(wǎng)絡(luò)功能的按需編寫(如網(wǎng)絡(luò)分流器從而減少每個(gè)交換機(jī)影響大模型的訓(xùn)練效率。對(duì)此,業(yè)界提出了控制面與AI平臺(tái)聯(lián)動(dòng)的提出了集中化流量調(diào)度方案,構(gòu)建網(wǎng)絡(luò)控制器與AI平臺(tái)的協(xié)同任務(wù)③控制器解析任務(wù)模型,規(guī)劃流量路徑,并通過策略路由下發(fā)④Leaf策略路由生效,指導(dǎo)業(yè)務(wù)流量均勻轉(zhuǎn)發(fā);硬件芯片具備了可編程能力。PISA架構(gòu)涵蓋解析器、逆解析器、匹所需的轉(zhuǎn)發(fā)邏輯。數(shù)據(jù)面程序使用高級(jí)語言P4編寫,經(jīng)由P4語言擁塞等信息,為網(wǎng)絡(luò)可視化和智能運(yùn)維提供題,采用協(xié)議無關(guān)的P4語言及底層可編程硬件,實(shí)現(xiàn)網(wǎng)絡(luò)應(yīng)用性能RDMA技術(shù)相比傳統(tǒng)網(wǎng)絡(luò)具有顯著優(yōu)勢(shì),其實(shí)現(xiàn)了內(nèi)核旁路機(jī)零拷貝機(jī)制允許接收端直接從發(fā)送端的內(nèi)存讀取數(shù)據(jù),大幅減少了CPU負(fù)擔(dān),提高了CPU效率。雖然,RDMA技術(shù)顯著降低了服務(wù)器側(cè)處理時(shí)延,提升了計(jì)算嚴(yán)重影響計(jì)算和存儲(chǔ)效率。因此,需要構(gòu)建無損網(wǎng)絡(luò)技術(shù)體系,為RDMA提供低時(shí)延、零丟包與高吞吐的網(wǎng)絡(luò)慮,基于以太網(wǎng)的RoCEv2技術(shù)將擁有廣闊的應(yīng)用前景。在RoC網(wǎng)絡(luò)中,業(yè)界通常采用PFC(Priority-basedFlowControl)技術(shù)來處理擁塞場(chǎng)景下的丟包和重傳時(shí)延問題,提高計(jì)算和存儲(chǔ)效率。然而,技術(shù)。ECN用于感知設(shè)備內(nèi)部的隊(duì)列擁塞情況,并配合DCQCN調(diào)整發(fā)送端速率。慮,基于以太網(wǎng)的RoCEv2技術(shù)將擁有廣闊的應(yīng)用前景。在RoC網(wǎng)絡(luò)中,業(yè)界通常采用PFC(Priority-basedFlowControl)技術(shù)來處理擁塞場(chǎng)景下的丟包和重傳時(shí)延問題,提高計(jì)算和存儲(chǔ)效率。然而,技術(shù)。ECN用于感知設(shè)備內(nèi)部的隊(duì)列擁塞情況,并配合DCQCN調(diào)整發(fā)送端速率。倒慢速的接收方。本節(jié)主要介紹流控相關(guān)技術(shù),以及如何解決PFC制是針對(duì)整條鏈路的流量暫停,而PFC支持在一條鏈路上創(chuàng)建8個(gè)環(huán)形依賴緩存區(qū)。如下圖所示,當(dāng)4臺(tái)交換機(jī)都達(dá)到PFC門限,則將同時(shí)向?qū)Χ税l(fā)送PFC反壓幀,此時(shí)拓?fù)渲兴薪粨Q機(jī)都處于停流服務(wù)器網(wǎng)卡故障可能引發(fā)其不斷發(fā)送PFC反壓幀,網(wǎng)絡(luò)內(nèi)PFC反壓幀進(jìn)一步擴(kuò)散,導(dǎo)致出現(xiàn)PFC死鎖,最終導(dǎo)致整網(wǎng)受PFC控制一旦出現(xiàn)PFC死鎖,若不及時(shí)解除,將威脅整網(wǎng)的無損業(yè)務(wù)。無損以太網(wǎng)為每個(gè)設(shè)備提供了PFC死鎖檢測(cè)功能,通過如下過程對(duì)PFC死鎖進(jìn)行全程監(jiān)控,當(dāng)設(shè)備在死鎖檢測(cè)周期內(nèi)持續(xù)收到PFC反如圖3-15所示,若在設(shè)定的PFC死鎖檢測(cè)時(shí)間內(nèi)該隊(duì)列一直處于PFC-XOFF(即被流控)狀態(tài),則認(rèn)為出現(xiàn)了PFC死鎖,需要進(jìn)在PFC死鎖恢復(fù)過程中,會(huì)忽略端口接收到的PFC反壓幀,內(nèi)級(jí)的隊(duì)列流量,在恢復(fù)周期后恢復(fù)PFC的正常流控機(jī)制。若下一次若上述死鎖恢復(fù)流程未起作用,仍然不斷出現(xiàn)PFC死鎖現(xiàn)象,險(xiǎn),此時(shí)進(jìn)入死鎖控制流程,設(shè)備將自動(dòng)關(guān)閉PFC功能,需用戶手PFC死鎖預(yù)防是針對(duì)Clos組網(wǎng)的一種解決方案,通過識(shí)別易造如下圖所示,某業(yè)務(wù)流沿Server1Leaf1Spine1Leaf2 成了一個(gè)循環(huán)依賴緩沖區(qū),當(dāng)4臺(tái)交換機(jī)的緩存占用都達(dá)到PFC反壓幀觸發(fā)門限時(shí),都會(huì)同時(shí)向?qū)Χ税l(fā)送PFC反壓幀停止發(fā)送某個(gè)優(yōu)先級(jí)的流量,將形成PFC死鎖狀態(tài),最終導(dǎo)致該優(yōu)先級(jí)的流量在網(wǎng)f加入PFC上聯(lián)端口組。一旦Leaf2設(shè)備檢測(cè)到同一條業(yè)務(wù)流從屬于從其它隊(duì)列轉(zhuǎn)發(fā)(即從隊(duì)列a轉(zhuǎn)移至隊(duì)列b若該流在下游設(shè)備Device3處發(fā)生擁塞并觸發(fā)PFC門限,則將對(duì)傳統(tǒng)PFC需要較大的緩存來保證不丟包和不欠吞吐。在長距數(shù)備出現(xiàn)緩存擁塞,從該設(shè)備發(fā)送PFC反壓幀給對(duì)端設(shè)備到停止接收量發(fā)送與暫停的機(jī)制,能夠比傳統(tǒng)PFC支持更長距離的長距無損場(chǎng)上游設(shè)備發(fā)送帶反壓定時(shí)器的PFC反壓幀,控制上游設(shè)備在對(duì)應(yīng)周無損隊(duì)列的Headroom緩存空間用于存儲(chǔ)本隊(duì)列發(fā)送PFC反壓幀段時(shí)間內(nèi)的報(bào)文被丟棄。根據(jù)上文對(duì)傳統(tǒng)PFC流控機(jī)制的分析,傳存空間大小至少為BPFC×2TPFC,因此緩存空間占用至少需要2×控制的流量發(fā)送到本設(shè)備需要經(jīng)過的時(shí)長為2TABS,為保證無損隊(duì)ECN在接收端感知到網(wǎng)絡(luò)中發(fā)生擁塞后,通過協(xié)議報(bào)文通知發(fā)夠感知網(wǎng)絡(luò)擁塞,IP報(bào)文中定義了ECN字段,并由中間交換機(jī)修改ECN字段以實(shí)現(xiàn)對(duì)接收端的擁塞通知。根據(jù)RFC791定義,IP報(bào)文大小流占比來動(dòng)態(tài)調(diào)整,從而在避免觸發(fā)PFC流控的同時(shí),盡可能被提出,其則可根據(jù)現(xiàn)網(wǎng)流量模型進(jìn)行AI訓(xùn)練,從而對(duì)網(wǎng)絡(luò)流量的lDevice設(shè)備內(nèi)的轉(zhuǎn)發(fā)芯片對(duì)當(dāng)前流量特征進(jìn)行采緩存占用率、帶寬吞吐、當(dāng)前ECN門限配置等,然后通過l若為未知流量場(chǎng)景,AI業(yè)務(wù)組件將結(jié)合AI算法,在保證高lAI業(yè)務(wù)組件將符合安全策略的最優(yōu)ECN門限下發(fā)至設(shè)備,l對(duì)于獲得的新流量狀態(tài),設(shè)備將重復(fù)上述操作以保障無損業(yè)的AIECN門限功能可實(shí)現(xiàn)網(wǎng)絡(luò)中TCP流量與RoCEv2流量的混合調(diào)高性能計(jì)算、AI模型訓(xùn)練、以及數(shù)據(jù)中心網(wǎng)絡(luò),均要求網(wǎng)絡(luò)傳DCQCN相比,端網(wǎng)協(xié)同算法C-AQ流數(shù)200C-AQMDCQCN50%-ile0.1553.023116.61290%-ile0.2386.662121.8299%-ile0.3218.204125.4899.9%-ile0.4019.094127.131在AI大模型場(chǎng)景中,業(yè)務(wù)流量呈現(xiàn)出大象流、低熵、同步效應(yīng)等特征,并進(jìn)一步導(dǎo)致傳統(tǒng)ECMP基于流的五元組哈希機(jī)制失效,針對(duì)傳統(tǒng)ECMP機(jī)制的不足,一種解決思路是將“網(wǎng)絡(luò)狀態(tài)”讀取本地出接口的隊(duì)列、發(fā)包統(tǒng)計(jì)等信息作為報(bào)文轉(zhuǎn)發(fā)的依據(jù),通過感知擁塞狀態(tài)的方式保持網(wǎng)絡(luò)流量分布的均衡性。詢,而是通過出接口負(fù)載輔助選路,如選擇綜合負(fù)載最小的鏈路,也可通過隊(duì)列深度、接口帶寬利用率等作為擁塞程度的量化依據(jù)。這類負(fù)載均衡技術(shù)帶來的性能收益是當(dāng)網(wǎng)絡(luò)存l基于全局負(fù)載狀態(tài)的均衡技術(shù):在相對(duì)復(fù)雜的多級(jí)網(wǎng)絡(luò)中,流量發(fā)送端通常無法感知網(wǎng)絡(luò)的全局狀態(tài)信息,這種狀態(tài)包括下游的擁塞狀態(tài)、網(wǎng)絡(luò)整體的流量分布及帶寬利用率等?;谌重?fù)載狀態(tài)的均衡技術(shù)的基本原理是先收集網(wǎng)絡(luò)全局狀態(tài)(狀態(tài)收集可通過集中式的網(wǎng)絡(luò)控制器或分布式的數(shù)據(jù)局部擁塞的同時(shí)最大化整網(wǎng)的吞吐性能?;谌值呢?fù)載均準(zhǔn),大多為廠商私有化實(shí)現(xiàn),典型技術(shù)方案如中興的智能全控制器通過API接口被動(dòng)接收AI調(diào)度平臺(tái)的流信息(如五元組、通信數(shù)據(jù)量等通過集中TE算法將活躍的數(shù)據(jù)流均此外,基于負(fù)載狀態(tài)的均衡技術(shù)通常和Flow合使用,例如網(wǎng)絡(luò)識(shí)別大象流,對(duì)大象流進(jìn)行Flowlet切分后依據(jù)負(fù)不同單元可走不同的網(wǎng)絡(luò)轉(zhuǎn)發(fā)路徑,從而達(dá)到網(wǎng)絡(luò)負(fù)載均衡的目的。Flowlet負(fù)載均衡用于解決數(shù)據(jù)中心網(wǎng)絡(luò)內(nèi)流量不平衡問題。它Flowlet負(fù)載均衡的核心思想是利用流的規(guī)模與持續(xù)時(shí)間來分割流量。當(dāng)流量到達(dá)網(wǎng)絡(luò)設(shè)備時(shí),設(shè)備會(huì)將其分割成多個(gè)Flowlet,每個(gè)Flowlet包含一部分?jǐn)?shù)據(jù)包。然后,設(shè)備會(huì)使用負(fù)載均衡算法將這些Flowlet分配到不同的路徑上進(jìn)行傳輸。Flowlet技術(shù)提出較早,是一種被普遍支持的負(fù)載均衡技術(shù),但也存在其局限性。首先,為避免引入報(bào)文亂序,F(xiàn)lowlet切分的時(shí)間間隔與流量模型緊密相關(guān)。但在實(shí)際應(yīng)用中很難避免完全亂序,且Flowlet自身并不提供亂序處理能力。其次,這種基于時(shí)間間隔的子流切分方式在特殊的流量場(chǎng)景中可能失效,如AI模型訓(xùn)練基于容器的負(fù)載均衡是中國移動(dòng)提出的全調(diào)度以太網(wǎng)技術(shù)的核調(diào)整,要求至少能夠容納1個(gè)最長的業(yè)務(wù)報(bào)文,且總長度在充分提高瞬間負(fù)載均衡度的目的。報(bào)文在轉(zhuǎn)發(fā)過程中僅依據(jù)GSE頭定的芯片硬件實(shí)現(xiàn),典型的代表是分布式解耦機(jī)框(DDC,DisaggregatedDistributedChassis)方案。DDC通過網(wǎng)絡(luò)硬件將數(shù)據(jù)發(fā),再由出口節(jié)點(diǎn)依據(jù)信元的控制信息進(jìn)行報(bào)文重組和方案相對(duì)較封閉。2022年,由紫金山實(shí)驗(yàn)室、中國電信研究院和北京郵電大學(xué)聯(lián)合發(fā)布的《分布式解耦機(jī)柜技術(shù)白皮書》,也研發(fā)了值低,因此可以納入更多的數(shù)據(jù)包字段作為哈希因子,例如RDMA頭部中的QP對(duì)(QueuePair)信息,甚至是用戶自定義的字段,以如網(wǎng)絡(luò)或AI模型,而未來智算網(wǎng)絡(luò)中應(yīng)將兩者結(jié)合,實(shí)現(xiàn)網(wǎng)算協(xié)同外,還包括光模塊鏈路中斷、網(wǎng)絡(luò)資源占用情況等再由NetMind將全局拓?fù)涮峁┙o計(jì)算組件,進(jìn)行拓?fù)溆H和計(jì)算。側(cè)通信需求,經(jīng)由NetMind通告網(wǎng)絡(luò)進(jìn)行主動(dòng)均衡、拓?fù)湔{(diào)根據(jù)NetMind提供的集合通信算法的適用區(qū)間和通信效率進(jìn)行作業(yè)調(diào)度,并基于NetMind提供的建模求解優(yōu)化策略提升NetMind旨在為AI大模型系統(tǒng)中的不同用戶提供統(tǒng)一框架以提兩個(gè)核心組件。其中,NetMindClient部署于每臺(tái)計(jì)算服務(wù)器的主機(jī)側(cè),包含一個(gè)部署在計(jì)算節(jié)點(diǎn)CPU上的Agent進(jìn)程。Agent從AI作源進(jìn)行逐流的全局算路規(guī)劃,從而避免傳統(tǒng)HASH負(fù)載不均導(dǎo)致的NetMind分別從網(wǎng)絡(luò)側(cè)和計(jì)算側(cè)獲取網(wǎng)絡(luò)狀態(tài)信息和模型訓(xùn)練的并行策略、通信量等信息,并在NetMindServer應(yīng)用感知QoS模塊中計(jì)算不同并行策略間流量的最優(yōu)QoS調(diào)度方式,然后結(jié)合業(yè)務(wù)邏輯下發(fā)至網(wǎng)絡(luò)側(cè),實(shí)現(xiàn)對(duì)QoS調(diào)度的動(dòng)態(tài)控制,同時(shí)減少模型訓(xùn)Balance)模塊對(duì)流量進(jìn)行全局路徑規(guī)劃,實(shí)現(xiàn)任務(wù)性能最優(yōu)的流量離得以提升;另一方面,業(yè)界在持續(xù)推動(dòng)ROADM設(shè)備的軟硬件解前網(wǎng)絡(luò)形態(tài)正經(jīng)歷從傳統(tǒng)IP+WDM的光電復(fù)合式組網(wǎng)向軟件定義角度仍分為電層與光層,其中電層對(duì)應(yīng)IP路由器,負(fù)責(zé)數(shù)據(jù)包的匯聚轉(zhuǎn)發(fā)以及電層時(shí)隙(如FlexE)的映射與交叉;光層對(duì)應(yīng)光纖、光如4-2左圖所示的光電一體化網(wǎng)絡(luò)拓?fù)湟晥D,其中IP層與光層節(jié)點(diǎn)先、功耗優(yōu)先等支持光層直通與光電混合轉(zhuǎn)發(fā)等多種自適應(yīng)傳輸圖4-3(a)快速業(yè)務(wù)部署b)聯(lián)合故障規(guī)避c)動(dòng)態(tài)光電調(diào)度配不均衡等問題,從而引入額外的建設(shè)投資與運(yùn)維開銷。如圖3-37(a)所示,通過采用光電融合路由技術(shù),可實(shí)現(xiàn)高效的雙層協(xié)同規(guī)面臨在同一個(gè)共享風(fēng)險(xiǎn)鏈路組(SRLG,SharedRiskLinkGroup)中庫,訓(xùn)練故障定位的AI模型,從而在發(fā)生故障時(shí)快速定位故障源,(3)動(dòng)態(tài)光電調(diào)度:傳統(tǒng)網(wǎng)絡(luò)更傾向于離線規(guī)劃與靜態(tài)調(diào)度,l高帶寬利用率:在長距傳輸中,帶寬利用率將直接影響數(shù)據(jù)傳輸效率和成本,提高利用率即可在單位時(shí)間內(nèi)傳輸更多數(shù)l低丟包率:丟包會(huì)導(dǎo)致數(shù)據(jù)重傳,從而占用額外帶寬資源并l傳輸延遲及網(wǎng)絡(luò)狀態(tài)反饋滯后:數(shù)千公里的傳輸距離引入不可忽視的傳輸時(shí)延,這使得網(wǎng)絡(luò)狀態(tài)反饋存在一定滯后性。傳統(tǒng)基于丟包的擁塞控制算法(如Cubic算法)在長距離傳l光纖傳輸?shù)腻e(cuò)包問題:超長距光纖傳輸中,錯(cuò)包問題難以完目前主流跨域傳輸算法均基于TCP協(xié)議實(shí)現(xiàn),根據(jù)具體應(yīng)用場(chǎng)以提高TCP在遠(yuǎn)距網(wǎng)絡(luò)上的可擴(kuò)展性。為應(yīng)對(duì)長距傳輸面臨的高帶口增長解耦,實(shí)現(xiàn)公平帶寬分配和穩(wěn)定廣域傳輸;BBR(Bottleneck網(wǎng)絡(luò)中已部署應(yīng)用;PCCVivace通過結(jié)合PCC基本框架與機(jī)器學(xué)習(xí)問題;Copa提出了三種具體的控制方式,能夠根據(jù)目標(biāo)速率調(diào)整當(dāng)前發(fā)送速率,并迅速將流量收斂至合適的公平速率。Copa可有效應(yīng)問題,Annulus使用雙控制回路進(jìn)行擁塞控制。一條控制回路處理廣智算中心流量的共存問題,實(shí)現(xiàn)跨智算中心的擁塞反饋。在發(fā)送端,心間網(wǎng)絡(luò)的異構(gòu)問題,混合擁塞控制(GTCP,GeneralTransmissionControlProtocol)將反應(yīng)式和主發(fā)端驅(qū)動(dòng),通過不斷探測(cè)網(wǎng)絡(luò)可用帶寬,并在收到擁塞信號(hào)(丟包、andDelaybasedCongest機(jī)制,通過帶內(nèi)遙測(cè)與RTT分別測(cè)量廣域網(wǎng)與智算中心內(nèi)的排隊(duì)時(shí)延,并通過比例積分微分(PID,ProportionalIntegralDerivative)調(diào)目的IP地址為對(duì)象進(jìn)行隊(duì)列隔離,來對(duì)入播流量進(jìn)行快速監(jiān)測(cè)和控制。Floodgate采用信令機(jī)制,下游交換機(jī)定期向上游發(fā)送累計(jì)信令值來通告隊(duì)列長度,以此控制上游交換機(jī)的發(fā)送和暫停;CaPFC(CongestionawarePriorityFlowControl)是基于PFC的改進(jìn)型流控在交換機(jī)內(nèi)部傳遞擁塞信息,以提升流控對(duì)擁的發(fā)生和解除,從而實(shí)現(xiàn)更高效的流量控制;GFC(GentleFlowControl)是針對(duì)智算中心網(wǎng)絡(luò)死鎖問題的流控機(jī)制。區(qū)別于PFC完全暫停流發(fā)送的方式,GFC基于預(yù)設(shè)函數(shù)從下游入隊(duì)列長度來推導(dǎo)Association)組織基于InfiniBand(IB)架構(gòu)而提出。其允許計(jì)算機(jī)系統(tǒng)直接訪問遠(yuǎn)程計(jì)算機(jī)內(nèi)存而無需CPU參與,從而顯著減少通信延遲和CPU開銷,是一種高性能網(wǎng)絡(luò)傳輸技術(shù)。但由于原生RDMA術(shù)劣勢(shì)越發(fā)凸顯,因此RDMA從局域網(wǎng)邁向廣域網(wǎng)已成為一個(gè)重要廣域RDMA技術(shù)為最大限度地利舊現(xiàn)有網(wǎng)絡(luò)設(shè)備與線路,因此在IEEE802.3基礎(chǔ)上使用IP協(xié)議進(jìn)行傳輸,采用RoCEv2或iWARP智算中心間基于現(xiàn)有廣域網(wǎng)進(jìn)行互聯(lián),采用廣域RDMA技術(shù)承載海量數(shù)據(jù)。RDMA網(wǎng)卡(含DPU)直接部署在物理機(jī)中方式考慮,在廣域網(wǎng)上進(jìn)行長距離RDMA傳輸容許輕微有損,以保主流的以太網(wǎng)網(wǎng)絡(luò)傳輸協(xié)議棧,因此在廣域RD由于UDP的不可靠性,在傳輸過程中會(huì)面臨丟包問題,而且實(shí)驗(yàn)顯示,進(jìn)入廣域網(wǎng)后,RTT隨著傳輸距離變長而增加,丟包對(duì)的廣域網(wǎng)中,配合Go-Back-N或SACK機(jī)制來檢測(cè)丟包和重傳,并組織,其iWARP協(xié)議和InfiniBand無法兼容,具體協(xié)議如圖4-6所并未指定物理層信息,因此能夠運(yùn)行在任何使用TCP/IP協(xié)議的網(wǎng)絡(luò)800G及以上的高速光傳輸方案。同時(shí),為滿足高速光傳輸下的超長G.654.E光纖兼具超低損耗和大有效面積特性,相較于常規(guī)的距離傳輸性能。因此,G.654.E光纖被公認(rèn)為是下一代超高速長距離G.654.E光纖屬于新型截止波長位移單模光纖,符合G.654.E標(biāo)發(fā)布,是ITU-TG.654《截止波長位移單模光纖光纜的特性》的最新大有效面積的特點(diǎn),但其獨(dú)特優(yōu)勢(shì)在于工作溫度、宏前面四類光纖主要應(yīng)用于溫度恒定在-1℃~2℃之間的海洋環(huán)境,而G.654.E光纖適用于陸上網(wǎng)絡(luò),環(huán)境溫度可從-65℃變化至85℃。此外,G.654.E光纖可抵抗各類應(yīng)力,具備極佳的抗彎性能,以應(yīng)對(duì)陸地復(fù)雜環(huán)境中的環(huán)境壓力、彎曲應(yīng)力、機(jī)械沖擊等。1)提高光信噪比值:光信噪比是影響光傳輸質(zhì)量的重要參數(shù)之實(shí)現(xiàn)了大有效面積,使得光纖可傳輸更高的光功率。因此,與常規(guī)3)降低網(wǎng)絡(luò)部署成本:單從光纖本身而言,G.654.E比G.652傳統(tǒng)實(shí)芯光纖發(fā)展成熟、應(yīng)用廣泛,但因基質(zhì)材料的3)低色散特性:空芯光纖的傳輸介質(zhì)是空氣,極大降低了材料4)超低非線性特性:空氣芯中光與介質(zhì)的相互作用減弱,從而駕駛、智慧問診等。為了迎接AI時(shí)代,眾多云廠商力服務(wù)外,正紛紛入局開拓人工智能市場(chǎng),建設(shè)大規(guī)模GPU智算計(jì)本項(xiàng)目分為多個(gè)不同業(yè)務(wù)平面的物理組網(wǎng),包括虛擬私有云(VPC,VirtualPrivateCloud)網(wǎng)絡(luò)、參數(shù)面網(wǎng)絡(luò)、服務(wù)器BMC網(wǎng)絡(luò)、交換機(jī)管理網(wǎng)絡(luò)等,整體AI智算網(wǎng)絡(luò)方案主要針對(duì)參數(shù)面網(wǎng)絡(luò)GPU服務(wù)器通過不同的網(wǎng)絡(luò)接口連接至不同的網(wǎng)絡(luò)平面中,其(1)底層協(xié)議棧:支持RDMA應(yīng)用的底層協(xié)議通常有IB和(2)無損以太網(wǎng)絡(luò):RoCEv2使用UDP頭部來封裝RDMA相層頭部字段中的ECN標(biāo)記位,兩者結(jié)合保證流量在傳統(tǒng)以太網(wǎng)內(nèi)的lLeaf:華為4槽CE9860盒式交換機(jī),搭配8×400GElLeaf交換機(jī)通過32×200G端口下行連接服務(wù)器,采用Y交換機(jī),8個(gè)網(wǎng)口分別配置獨(dú)立的IP地址。lNSLB:AI訓(xùn)練場(chǎng)景存在大量跨Leaf流量,依靠傳統(tǒng)算力的使用門檻與成本投入,從而推動(dòng)AI市場(chǎng)蓬勃發(fā)展,們針對(duì)AI領(lǐng)域提出了多項(xiàng)發(fā)展建議和提案。其中,新型數(shù)據(jù)中心作網(wǎng)絡(luò)控制器,結(jié)合RDMA、智能網(wǎng)卡、PFC/ECN等技術(shù),建設(shè)了集未來網(wǎng)絡(luò)、工業(yè)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)等領(lǐng)域的技術(shù)創(chuàng)新。OpenConfigYANG模型定義網(wǎng)絡(luò)設(shè)備數(shù)據(jù)模型,實(shí)現(xiàn)對(duì)NetConf、P4Runtime等接口標(biāo)準(zhǔn),動(dòng)態(tài)部署和增刪在服務(wù)器端,虛擬交換機(jī)(vSwitch)在處理網(wǎng)絡(luò)流量時(shí),會(huì)消耗大量的宿主機(jī)計(jì)算資源。為保證網(wǎng)絡(luò)數(shù)據(jù)的轉(zhuǎn)發(fā)性能,vSwitch通任務(wù)卸載到網(wǎng)卡上處理,從而釋放大量CPU資源,減少服務(wù)器的運(yùn)校驗(yàn)等操作,轉(zhuǎn)移到網(wǎng)卡硬件中處理,使得CPU的發(fā)包路徑更短、國家天文臺(tái)/紫金山天文臺(tái)/上海天文臺(tái)、中國電信炫彩公司、南京大的協(xié)同工作,提升整體計(jì)算效率,并優(yōu)化硬件接口和數(shù)據(jù)傳輸路徑,提高算力資源利用率;ii)研發(fā)新一代高速互連技術(shù),提升數(shù)據(jù)中心執(zhí)行效率與性能;ii)深入研究并行計(jì)算算法,挖掘多核處理和異構(gòu)iii)推進(jìn)AI算法在資源分配和任務(wù)調(diào)度中的應(yīng)用,以進(jìn)一步提升系統(tǒng)性能,并支持適應(yīng)不同的負(fù)載與任務(wù)需求i)推動(dòng)行業(yè)標(biāo)準(zhǔn)的制定與推廣,鼓勵(lì)相關(guān)企業(yè)、科研機(jī)構(gòu)和行業(yè)組ii)倡導(dǎo)開放硬件與軟件平臺(tái),促進(jìn)建立開源社區(qū),鼓勵(lì)企業(yè)和開發(fā)BottleneckBandwidthandBackpressureFlowCoCongestionawarePriorityFlDataCenterQuantizedCongestionNotificatDisaggregatedDistributedChDifferentiatedServicesCodEqual-CostMultipleExplicitCongestionNotificHuaweiCollectiveCommunicationLiHighPerformanceCompHighPrecisionCongestionConHigh-PerformanceNetwoINTandDelaybasedCongestiNGNeNextGenerationNetworkEvolutionNICNetworkInterfaceCardNSLBNetworkScaleLoadBalancePriority-basedFlowCProportionalIntegralDeriProtocolIndependentSwitchArchiteRemoteDirectMemoryReconfigurableOpticalAdd/DropMultipleUltraEthernetConsortVNF[1]“十四五”國家信息化規(guī)劃.2021-12.URL:/2021-12/27/c_1642205314518676.htm.[2]新華三,中國信通院.2023智算算力發(fā)展白皮書.2023-08.[3]中國移動(dòng)通信研究院.新一代智算中心網(wǎng)絡(luò)白皮書.2022.[4]Gavin.WhatisRDMA?RoCEvs.InfiniBandvs.iWARPDifference.2023-12.URL:/blog/what-is-rdma-roce-vs-infiniband-vs-iwar-difference.[5]IEEE802.1Q.DataCenterBridgingWG[Online].URL:/1/pages/dcbridges.html.[6]ZhangZ,ZhangJ,MaH,etal.,"ADMIRE+:curiosity-exploration-drivenreinforcementlearningwithdynamicgraphattentionnetworksforIP/opticalcross-layerrouting,"49thEuropeanConferenceonOpticalCommunications(ECOC),2023.[7]S.Ha,I.Rhee,andL.Xu,“Cubic:anewTCP-friendlyhigh-speedTCPvariant,”inProc.ACM,2008.[8]N.Cardwell,Y.Cheng,C.S.Gunn,etal.,“BBR:Congestion-basedcongestioncontrol,”ACMQueue,vol.14,no.5,pp.50-83,2016.[9]M.Dong,T.Meng,D.Zarchy,etal.,“PCCVivace:Online-learningcongestioncontrol,”inProc.USENIXNSDI,2018.[10]V.Arun,andH.Ba
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 銀行從業(yè)資格考試臨考準(zhǔn)備與試題及答案
- 2024年注冊(cè)會(huì)計(jì)師考試模擬題庫試題及答案
- 補(bǔ)習(xí)班投資咨詢工程師試題及答案
- 中職電子商務(wù)資格證職場(chǎng)提升試題及答案
- 項(xiàng)目公司下半年工作計(jì)劃(3篇)
- 圍繞育嬰師的試題及答案總結(jié)
- 預(yù)算員常用計(jì)算公式試題及答案
- 定制化服務(wù)在馬工學(xué)管理中的重要性試題及答案
- 2025年月安全工作計(jì)劃(11篇)
- 2025執(zhí)業(yè)獸醫(yī)寵物心理健康評(píng)估試題及答案
- 2025年教科版科學(xué)五年級(jí)下冊(cè)教學(xué)計(jì)劃(含進(jìn)度表)
- 幼兒園教法與學(xué)法
- 《班級(jí)植物角我養(yǎng)護(hù)》(課件)-二年級(jí)上冊(cè)勞動(dòng)浙教版
- (已壓縮)礦產(chǎn)資源儲(chǔ)量技術(shù)標(biāo)準(zhǔn)解讀300問-1-90
- 古詩《江上漁者》課件
- 韶關(guān)市房地產(chǎn)市場(chǎng)調(diào)研報(bào)告
- 校園誠信教育(課件)-小學(xué)生主題班會(huì)
- JJF(陜) 065-2021 彎折試驗(yàn)機(jī)校準(zhǔn)規(guī)范
- 電力工程線路交叉跨越施工主要工序及特殊工序施工方法
- 反恐防暴應(yīng)急知識(shí)培訓(xùn)
- 2024-2030年版越南投資環(huán)境行業(yè)投資分析及未來發(fā)展規(guī)劃研究報(bào)告
評(píng)論
0/150
提交評(píng)論