《在網(wǎng)計(jì)算(NACA)技術(shù)白皮書》解讀_第1頁
《在網(wǎng)計(jì)算(NACA)技術(shù)白皮書》解讀_第2頁
《在網(wǎng)計(jì)算(NACA)技術(shù)白皮書》解讀_第3頁
《在網(wǎng)計(jì)算(NACA)技術(shù)白皮書》解讀_第4頁
《在網(wǎng)計(jì)算(NACA)技術(shù)白皮書》解讀_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

2023年8月中國移動提出“算力網(wǎng)絡(luò)”新理念2023.32023.32022.72022.122022.72022.12022.62022.12021.112021.82021.112021.8“算網(wǎng)一體”是中國移動算力網(wǎng)絡(luò)發(fā)展的深化算力網(wǎng)絡(luò)的發(fā)展經(jīng)過三個階段的發(fā)展,逐漸深化起步階段:泛在協(xié)同發(fā)展階段:融合統(tǒng)一跨越階段:一體內(nèi)生一站服務(wù):一站開通算網(wǎng)服務(wù)協(xié)同運(yùn)營:云網(wǎng)運(yùn)營雙入口拉通協(xié)同編排一體服務(wù):多層次智簡無感服務(wù)一站服務(wù):一站開通算網(wǎng)服務(wù)協(xié)同運(yùn)營:云網(wǎng)運(yùn)營雙入口拉通協(xié)同編排一體服務(wù):多層次智簡無感服務(wù)智慧內(nèi)生運(yùn)營服務(wù)編排管理智能編排編排管理基礎(chǔ)設(shè)施網(wǎng)隨算動算網(wǎng)融合算網(wǎng)一體20252025 3算網(wǎng)一體架構(gòu)及總體設(shè)計(jì)算網(wǎng)一體通過“聯(lián)合感知”“混合控制”“極致互聯(lián)”構(gòu)建面向智能化時代的數(shù)架構(gòu)關(guān)鍵技術(shù)聯(lián)合感知聯(lián)合感知混合控制混合控制網(wǎng)絡(luò)信息拓?fù)湫畔砣麪顟B(tài)SLA網(wǎng)絡(luò)信息拓?fù)湫畔砣麪顟B(tài)SLA指標(biāo)CPU利用率異構(gòu)算力算力規(guī)模前提集中式控制任務(wù)分解與調(diào)配節(jié)點(diǎn)1節(jié)點(diǎn)2分布式控制節(jié)點(diǎn)3消費(fèi)側(cè)節(jié)點(diǎn)4支撐作用極致互聯(lián)極致互聯(lián)CSP4CSP1CSP4CSP1 CSP CSP3CSP2算力路由在網(wǎng)計(jì)算廣域RDMA算網(wǎng)數(shù)字孿生4分布式系統(tǒng)面臨通信開銷瓶頸問題模型訓(xùn)練時長分布[1]分布式訓(xùn)練管道中模型訓(xùn)練時間分解[1]不同模型在進(jìn)行分布式訓(xùn)練時,各階段的時間分布不同?采用8個workers和8個PSs的網(wǎng)絡(luò)訓(xùn)練AlexNet模型,網(wǎng)絡(luò)通信時間占比可高達(dá)80%以上?面向AI場景的網(wǎng)絡(luò)優(yōu)化需要更細(xì)粒度的通信算子優(yōu)化方案需要盡可能壓縮通信的時延占比,同時結(jié)合不同類型的通信過程優(yōu)化分布式系統(tǒng)通信性能[1]ParameterHub:aRack-ScaleParameterServerforDistributedDeepNeuralNetworkTraining,htps://doi/10.1145/3267809.32678405問題主要來源發(fā)送接收發(fā)送接收網(wǎng)絡(luò)負(fù)載嚴(yán)重不均衡發(fā)送接收發(fā)送接收發(fā)送↓發(fā)送交換機(jī)接收發(fā)送發(fā)送發(fā)送↓發(fā)送交換機(jī)接收發(fā)送發(fā)送通信模式不匹配交換機(jī)交換機(jī)③①②接收接收接收發(fā)送發(fā)送通過網(wǎng)絡(luò)與分布式應(yīng)用各通信階段緊耦合的設(shè)計(jì)方式優(yōu)化分布式處理是重要發(fā)展方向6在網(wǎng)計(jì)算有望攻克分布式系統(tǒng)通信瓶頸問題性能躍升主要優(yōu)勢處理模式性能躍升主要優(yōu)勢單次聚合時延流量壓縮單次聚合時延在網(wǎng)計(jì)算設(shè)備在網(wǎng)聚合,數(shù)據(jù)在網(wǎng)計(jì)算設(shè)備在網(wǎng)聚合,數(shù)據(jù)消冗與求和縮短傳輸路徑與傳統(tǒng)軟件實(shí)現(xiàn)聚合操作相比,縮短傳輸路徑與傳統(tǒng)軟件實(shí)現(xiàn)聚合操作相比,IBSHARP方案性能提升近5倍單次同步時延網(wǎng)內(nèi)處理單次同步時延網(wǎng)內(nèi)處理,實(shí)現(xiàn)Sub-RTT通信線速處理線速處理與傳統(tǒng)軟件實(shí)現(xiàn)消息同步與傳統(tǒng)軟件實(shí)現(xiàn)消息同步相比,IBSHARP方案性能提升近9倍交換機(jī)Tbps處理能力7在網(wǎng)計(jì)算發(fā)展現(xiàn)狀產(chǎn)業(yè)與學(xué)術(shù)進(jìn)展中國移動CFITI試驗(yàn)網(wǎng)創(chuàng)新驗(yàn)證架構(gòu)AlexNetVGG架構(gòu)AlexNetVGG19VGG16VGG11ResNet152ResNet101ResNet50在網(wǎng)組播在網(wǎng)聚合SIGCOMM22IPDPS04在網(wǎng)聚合在網(wǎng)聚合COMHPC16COMHPC16ASPLOS23NSDI21在網(wǎng)計(jì)算發(fā)展挑戰(zhàn)在網(wǎng)計(jì)算發(fā)展面臨應(yīng)用場景豎井式、協(xié)議實(shí)現(xiàn)封閉化、以及編程范式豎井式封閉化編程不友好豎井式封閉化編程不友好在網(wǎng)計(jì)算NACA在網(wǎng)計(jì)算NACANetworkAssistedComputingAcceleration邏輯物理統(tǒng)一通信原語統(tǒng)一邏輯物理統(tǒng)一編程范式統(tǒng)一NACA以編程范式統(tǒng)一NACA以提升在網(wǎng)計(jì)算通用性為目標(biāo),重構(gòu)應(yīng)用處理模式,構(gòu)建全新的在網(wǎng)計(jì)算通信庫,圍繞拓?fù)溆成洹⒕幊谭妒?、?jì)算實(shí)現(xiàn)、資源管理形成”四個統(tǒng)一”,實(shí)現(xiàn)網(wǎng)絡(luò)輔助計(jì)算加速,提升分布式系統(tǒng)算能算效網(wǎng)內(nèi)資源統(tǒng)一在網(wǎng)計(jì)算NACA技術(shù)架構(gòu)編程范式統(tǒng)一分布式應(yīng)用分布式應(yīng)用 通信原語統(tǒng)一編排管理在網(wǎng)計(jì)算通信庫編排管理在網(wǎng)計(jì)算通信庫高性能互聯(lián)高性能互聯(lián)網(wǎng)內(nèi)資源統(tǒng)一網(wǎng)內(nèi)資源統(tǒng)一異構(gòu)網(wǎng)元異構(gòu)網(wǎng)元核心特征1:邏輯物理統(tǒng)一邏輯拓?fù)溥壿嬐負(fù)湓诰W(wǎng)計(jì)算相較傳統(tǒng)計(jì)算與邏輯拓?fù)溆成涓H和統(tǒng)一.——邏輯鏈路 物理鏈路傳統(tǒng)計(jì)算在網(wǎng)計(jì)算物理拓?fù)浜诵奶卣?:通信原語統(tǒng)一參數(shù)向量聚合(數(shù)據(jù)類型:數(shù)值)大數(shù)據(jù)處理鍵值聚合(數(shù)據(jù)類型:鍵值對)參數(shù)向量聚合(數(shù)據(jù)類型:數(shù)值)大數(shù)據(jù)處理鍵值聚合(數(shù)據(jù)類型:鍵值對)123579456調(diào)用相同的聚合算子在網(wǎng)計(jì)算通信庫廣播 同步聚合散播……在網(wǎng)計(jì)算通信庫廣播聚合算子物理實(shí)現(xiàn)統(tǒng)一聚合算子物理實(shí)現(xiàn)統(tǒng)一核心特征3:編程范式統(tǒng)一軟件軟件框架分布式應(yīng)用應(yīng)用開發(fā)統(tǒng)一在網(wǎng)計(jì)算編程框架運(yùn)言Lyra領(lǐng)域?qū)S谜Z言Micro-C領(lǐng)域?qū)S谜Z言網(wǎng)絡(luò)設(shè)備開發(fā) 應(yīng)用1應(yīng)用2多種在網(wǎng)計(jì)算程序統(tǒng)一編譯 前端編譯中間轉(zhuǎn)譯及中間轉(zhuǎn)譯及程序綜合異構(gòu)在網(wǎng)計(jì)算網(wǎng)元轉(zhuǎn)譯至異構(gòu)在網(wǎng)計(jì)算網(wǎng)元網(wǎng)絡(luò)設(shè)備1網(wǎng)絡(luò)設(shè)備2網(wǎng)絡(luò)設(shè)備1網(wǎng)絡(luò)設(shè)備2核心特征4:網(wǎng)內(nèi)資源統(tǒng)一在網(wǎng)計(jì)算節(jié)點(diǎn)在網(wǎng)計(jì)算節(jié)點(diǎn) CPUGPU DDRDDRDDRDDRDDRDDR在網(wǎng)計(jì)算節(jié)點(diǎn) CPUDDRDDRDDRDDRDDRDDR在網(wǎng)計(jì)算節(jié)點(diǎn) CPUGPU 在網(wǎng)計(jì)算節(jié)點(diǎn) CPUGPU 高性能互聯(lián)協(xié)議(RDMA、CXL等...)高性能互聯(lián)協(xié)議關(guān)鍵技術(shù)1:計(jì)算語義映射主機(jī)傳統(tǒng)網(wǎng)絡(luò)設(shè)備在網(wǎng)計(jì)算設(shè)備主機(jī)傳輸層Message傳輸層Message兩種封裝機(jī)制①自定義協(xié)議棧優(yōu)勢:設(shè)計(jì)靈活、高效劣勢:開發(fā)復(fù)雜度高,技術(shù)封閉②基于現(xiàn)有協(xié)議棧(如RDMA)優(yōu)勢:兼容性高,可復(fù)用現(xiàn)有成熟加速技術(shù)劣勢:方案不靈活,傳輸效率相對較低關(guān)鍵技術(shù)2:計(jì)算正確性保障問題:丟包、重復(fù)包影響計(jì)算正確性發(fā)送端接收端接收端聚合時發(fā)生丟包發(fā)送端 聚合時收到重復(fù)數(shù)據(jù)包方案:方案:依靠擁塞控制和可靠性傳輸降低丟包?利用bitmap高效記錄已收到和已處理包的序號;?基于現(xiàn)有可靠性傳輸協(xié)議如Go-Back-N、選擇性重傳等,針 ?優(yōu)化網(wǎng)絡(luò)負(fù)載均衡方案,避免負(fù)載不均導(dǎo)致的擁堵;?基于現(xiàn)有PFC、ECN、DCQCN等流量控制機(jī)制針對在網(wǎng)計(jì)算進(jìn)行改進(jìn)關(guān)鍵技術(shù)3:計(jì)算程序網(wǎng)內(nèi)編排在網(wǎng)計(jì)算多級編譯編排部署架構(gòu)實(shí)現(xiàn)程序、元素、執(zhí)構(gòu)造IR塊,解耦硬件、拓?fù)浜椭噶钜蕾噭討B(tài)規(guī)劃算法,實(shí)現(xiàn)程序段高效放置程序段構(gòu)造IR塊,解耦硬件、拓?fù)浜椭噶钜蕾噭討B(tài)規(guī)劃算法,實(shí)現(xiàn)程序段高效放置程序段DAG表示法,合并DAG指令除冗異構(gòu)適配程序段連接和加載方案在網(wǎng)計(jì)算程序2硬件、拓?fù)?、指令、能力多級依賴多任?wù)共享設(shè)備,程序段集成困難分布式分段部署,編譯加載難異構(gòu)設(shè)備多、組合多、指令冗余題INC程序1在網(wǎng)計(jì)算程序1INC程序1在網(wǎng)計(jì)算程序1INC程序2IR程序1IR程序2INC程序M......INC設(shè)備1指令塊4指令塊1指令塊2指令塊3可執(zhí)行文件2多級編譯編排部署INC程序2IR程序1IR程序2INC程序M......INC設(shè)備1指令塊4指令塊1指令塊2指令塊3可執(zhí)行文件2多級編譯編排部署INC設(shè)備2......可執(zhí)行文件1......可執(zhí)行文件1INC設(shè)備N可編程交換機(jī)可編程可編程交換機(jī)可編程交換機(jī)網(wǎng)卡關(guān)鍵技術(shù)4:網(wǎng)內(nèi)資源池化問問題方案計(jì)算、傳輸周期交替,內(nèi)存利用率待提高設(shè)備內(nèi)存虛擬化多租戶、多實(shí)例、細(xì)粒度、動態(tài)分配............網(wǎng)絡(luò)設(shè)備...網(wǎng)絡(luò)設(shè)備..................

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論