版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
技術(shù)白皮書中移智庫中國移動研究院Kutscher、徐宏力、王偉鋒、陳艷慶、張璽、前言人工智能和大數(shù)據(jù)等新興科技產(chǎn)業(yè)正深刻影響我國經(jīng)濟(jì)社會發(fā)用,系統(tǒng)打造以5G、算力網(wǎng)絡(luò)、智慧中臺為重點(diǎn)的新型信息基施,創(chuàng)新構(gòu)建“連接+算力+能力”新型信息服務(wù)體系。2021年,中國確了核心理念、場景展望、發(fā)展路徑以及技術(shù)體系,提出了“泛在協(xié)同”、“融合統(tǒng)一”和“一體共生”的三個發(fā)展階段,隨后發(fā)布《算力網(wǎng)1 2 4 4 6 9 9 11 15 18 18 19 19 20 23 24 252高性能計(jì)算(HPC)和人工智能(AI)等技術(shù)的發(fā)展正不斷推動生物醫(yī)藥、到千億級別,高性能計(jì)算也已經(jīng)邁向百億億級計(jì)算時代。同時,5G、工業(yè)互聯(lián)構(gòu),對CPU/GPU/ASIC/FPGA/NPU規(guī)模分布式系統(tǒng)接收端面臨的incast多打一問題,造成任務(wù)完成時間過長;三是點(diǎn)到點(diǎn)的通信實(shí)現(xiàn)不匹配,網(wǎng)絡(luò)中存在大量冗現(xiàn)分布式機(jī)器學(xué)習(xí)模型訓(xùn)練加速[4]以及基于Infiniband技術(shù)提出的Sharp技術(shù)[5]可好等挑戰(zhàn)?;谝陨峡剂浚景灼岢隽嗽诰W(wǎng)計(jì)算新架構(gòu)NACA(NetworkAssistedComputingAcceleration),系統(tǒng)化推進(jìn)在網(wǎng)計(jì)算設(shè)計(jì)和實(shí)現(xiàn)。在網(wǎng)計(jì)算34算TOP500[13]性能上升速率明顯變緩,依靠硬件堆疊單個超算中心計(jì)算能力面臨服務(wù)器的方式實(shí)現(xiàn)數(shù)據(jù)并行時,多個工作節(jié)點(diǎn)在自己的數(shù)據(jù)集上進(jìn)行參數(shù)訓(xùn)練,數(shù)聚合過程,可以有效地提高聚合通信的效率,降以典型的MPI聚合算子AllReduce為例,其通信交互復(fù)雜度為O(logN)(N表示服務(wù)器節(jié)點(diǎn)規(guī)模)。如圖1(a)所示,傳統(tǒng)聚合通信方式,8個節(jié)點(diǎn)(N=8)進(jìn)行AllReduce計(jì)算總共需要3個批次的通信,復(fù)雜度為O(logN);圖1(b)為采用了在網(wǎng)計(jì)算加速的聚合通信方式,8個節(jié)點(diǎn)進(jìn)行AllReduce計(jì)算,由接入leaf進(jìn)行第一次匯聚,由spine交換機(jī)進(jìn)行第二次匯聚,總的通信批次只與網(wǎng)絡(luò)的層次56中對數(shù)據(jù)進(jìn)行重新分區(qū)的過程,ShuffleManager是S約操作。例如,詞頻統(tǒng)計(jì)應(yīng)用WordCount需要對分散在多機(jī)的單詞計(jì)數(shù)進(jìn)行匯7過這個更新的設(shè)置,能夠從新到達(dá)的流量中是當(dāng)前產(chǎn)業(yè)應(yīng)用關(guān)注的熱點(diǎn)。隨著XR技術(shù)不斷演化升級,數(shù)據(jù)流更多源異構(gòu)、XR業(yè)務(wù)使用基于圖像組編碼時,網(wǎng)絡(luò)設(shè)備的計(jì)算增8并行分布式計(jì)算能力和聚合通信能力,隨路卸載邊緣云的計(jì)算任務(wù),大幅提升9處理,縮短數(shù)據(jù)傳輸路徑,是解決分布式應(yīng)用通信瓶頸問題的重要技術(shù)。然而,針對現(xiàn)有問題,本白皮書提出在網(wǎng)計(jì)算新架構(gòu)NACA(NetworkAssisted全新的在網(wǎng)計(jì)算通信庫,圍繞拓?fù)溆成洹⒕幊谭妒?、?jì)算實(shí)現(xiàn)、資源管理形成”中心交換機(jī)以及用于加速的端側(cè)適配器,如XPU等;以及在網(wǎng)絡(luò)邊緣具備在網(wǎng)保障,可以基于現(xiàn)有成熟協(xié)議棧實(shí)現(xiàn),如RoCE、InfiniBand[8]、Omni-Path[9]和在網(wǎng)計(jì)算通信庫作為NACA架構(gòu)體系的核心層,為分布式應(yīng)用提供了通用算和存儲集群,在網(wǎng)計(jì)算可以加速包括HPC、高性能存儲以及分布式機(jī)器學(xué)習(xí)速處理和數(shù)據(jù)匯聚功能,實(shí)現(xiàn)業(yè)務(wù)數(shù)據(jù)的壓縮,以及Sub-RTT的快速響應(yīng),縮),),在NACA架構(gòu)下,不同的應(yīng)用可以調(diào)用統(tǒng)一的在網(wǎng)計(jì)算速。如圖6所示,通信算子層面,NACA為多種分布式應(yīng)用統(tǒng)一定義了幾類高CXL(ComputeExpressLink)是一種開放的行業(yè)互連標(biāo)下面2層是在網(wǎng)計(jì)算系統(tǒng)功能的關(guān)鍵層次,對應(yīng)于NACA架構(gòu)的在網(wǎng)計(jì)算數(shù)據(jù)通過MPI報(bào)文發(fā)送到葉子交換機(jī)。葉子節(jié)點(diǎn)對報(bào)文信息進(jìn)行提取后,由內(nèi)事務(wù)管理器是保證分布式事務(wù)一致性的集中式解決方案.然而,作為一個集分布式系統(tǒng),通常有一個專用的鎖管理器,節(jié)點(diǎn)可以聯(lián)系它以獲得資源的讀和/算子分類通用算子OpCode算子說明聚合通信算子(通過函數(shù)將一組數(shù)據(jù)聚合為一個較小的集合)MAXMaximum,最大值MINMinimum,最小值SUMSum,求和PRODProduct,乘積LANDLogicaland,邏輯與BANDBit-wiseand,按位與LORLogicalor,邏輯或BORBit-wiseor,按位或LXORLogicalxor,邏輯異或BXORBit-wisexor,按位異或算子分類通用算子OpCode算子說明一致性算子(通過增刪改查加速分布式系統(tǒng)端到端性能)WRITE寫入READ讀取DELETE刪除CASCompareandswap,比較并替換CAADDCompareandaddCASUBCompareandsubFAAFetchandadd,取原值,并進(jìn)行加法FASUBFetchandsubtractionFAORFetchandorFAANDFetchandandFANANDFetchandnandFAXORFetchandxor實(shí)現(xiàn)方式顯式連接方式透明連接方式網(wǎng)絡(luò)設(shè)備是否實(shí)現(xiàn)完全協(xié)議棧需要實(shí)現(xiàn)完整或部分協(xié)議棧不需要端側(cè)與網(wǎng)絡(luò)設(shè)備是否建立傳輸層連接不需要,但需要感知傳輸層連接可能的方法包括在網(wǎng)絡(luò)設(shè)備記錄應(yīng)用消息的出現(xiàn)次數(shù)以及是否完成計(jì)算等作業(yè),從而形成池化的網(wǎng)內(nèi)資源。如圖13所理器首先根據(jù)網(wǎng)絡(luò)節(jié)點(diǎn)上報(bào)的資源信息將物理網(wǎng)絡(luò)設(shè)備存儲器組織為虛擬存儲服務(wù)器訪問網(wǎng)絡(luò)設(shè)備計(jì)算資源的一致性,實(shí)現(xiàn)識,共同推進(jìn)在網(wǎng)計(jì)算NACA技術(shù)成熟,繁榮產(chǎn)業(yè)生源組織布局在網(wǎng)計(jì)算開源項(xiàng)目,共同構(gòu)筑開放共享的在網(wǎng)開展在網(wǎng)計(jì)算聯(lián)合試驗(yàn)驗(yàn)證。中國移動正加快步伐構(gòu)建算力網(wǎng)絡(luò)試驗(yàn)網(wǎng)[4]ChonLamLao,YanfangLe,KshiteejMahajanAkella,MichaelM.Swift,"ATP:In-networkAggregationforMuNSDI2021:741-761.[5]RichardL.Graham,DevendGilBloch,DrorGoldenberg,MikeDubman,SashKoushnir,LionLevi,AlexMargolin,TamirRonen,AlexaWertheim,EitanZahavi,"ScalableHierarchicalAggregatioHardwareArchitectureforEfficient[6]MingyuanZang,ChanggangZhengZilberman,"P4Pir:In-NeProceedingsoftheSIGCOMM'22PosterandDemoSessions.August2022.[7]CXL.puteexpre[8]InfiniBand.https://www.infinib
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 預(yù)防兒童出生缺陷育兒知識科普講座
- 團(tuán)隊(duì)凝聚力培訓(xùn)
- 瑜伽消防知識培訓(xùn)課件
- 二零二五年度農(nóng)村土地流轉(zhuǎn)交易服務(wù)平臺建設(shè)合同2篇
- 行政年終述職匯報(bào)
- 陜西省延安市延長縣2024-2025學(xué)年七年級上學(xué)期1月英語期末考試試卷(無答案)
- 高端服裝分揀包裝產(chǎn)業(yè)化項(xiàng)目可行性研究報(bào)告模板-立項(xiàng)拿地
- 2025年度社交網(wǎng)絡(luò)APP用戶增長與活躍度提升合同3篇
- 湖南省張家界市桑植縣2024-2025學(xué)年七年級上學(xué)期地理期末試卷(含答案)
- 河北省承德市(2024年-2025年小學(xué)六年級語文)統(tǒng)編版階段練習(xí)((上下)學(xué)期)試卷及答案
- 2024年省宿州市“宿事速辦”12345政務(wù)服務(wù)便民熱線服務(wù)中心招考15名工作人員高頻考題難、易錯點(diǎn)模擬試題(共500題)附帶答案詳解
- 2024年安徽省行政執(zhí)法人員資格認(rèn)證考試試題含答案
- 中國2型糖尿病運(yùn)動治療指南 (2024版)
- 人教版初中九年級全冊英語單詞表
- 人教版小學(xué)二年級數(shù)學(xué)下冊數(shù)學(xué)口算、脫式、豎式、應(yīng)用題
- DZ∕T 0405-2022 無人機(jī)航空磁測數(shù)據(jù)采集技術(shù)要求(正式版)
- 會計(jì)業(yè)務(wù)培訓(xùn)方案(2篇)
- 楚天華通醫(yī)藥設(shè)備有限公司純化水設(shè)備介紹A32017年3月1日
- 投資合作備忘錄標(biāo)準(zhǔn)格式
- 職場吐槽大會活動方案
- 《生物質(zhì)熱電聯(lián)產(chǎn)工程設(shè)計(jì)規(guī)范》
評論
0/150
提交評論