NICC新型智算中心算力池化技術(shù)白皮書_第1頁
NICC新型智算中心算力池化技術(shù)白皮書_第2頁
NICC新型智算中心算力池化技術(shù)白皮書_第3頁
NICC新型智算中心算力池化技術(shù)白皮書_第4頁
NICC新型智算中心算力池化技術(shù)白皮書_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

中國移動(dòng)通信有限公司研究院I中國移動(dòng)通信有限公司研究院中國移動(dòng)通信有限公司研究院 I II1.算力池化技術(shù)背景 21.1.1GPU資源利用率不足30% 21.1.2資源碎片化導(dǎo)致分配率低 3 42.算力池化定義與目標(biāo) 6 6 63.算力池化架構(gòu)與關(guān)鍵技術(shù) 8 8 3.3.1軟件定義的資源分配方式 3.3.2算力資源高質(zhì)量管理技術(shù) 3.3.3泛在化碎片的池化整合技術(shù) 164.算力池化產(chǎn)業(yè)實(shí)踐 5.展望與倡議 26參考文獻(xiàn) 27縮略語列表 281中國移動(dòng)通信有限公司研究院1.算力池化技術(shù)背景著5G、邊緣計(jì)算等支撐技術(shù)的持續(xù)發(fā)展,數(shù)智業(yè)務(wù)轉(zhuǎn)型過程中所產(chǎn)片為主要算力資源的智算中心正逐步取代通用數(shù)據(jù)中心成為算力發(fā)2AI應(yīng)用服務(wù)企業(yè)也在布局自有智算基礎(chǔ)設(shè)施建設(shè)。然而,據(jù)公開數(shù)-Facebook2021年機(jī)器學(xué)習(xí)負(fù)載分析報(bào)告:平均GPU利用率3中國移動(dòng)通信有限公司研究院片的概率則越大。近幾年來,AI業(yè)務(wù)迅速發(fā)展,從訓(xùn)練到推動(dòng),從4中國移動(dòng)通信有限公司研究院輯上聚合,AI任務(wù)在創(chuàng)建時(shí),不再是將零散的、孤島式的資源進(jìn)行5中國移動(dòng)通信有限公司研究院6中國移動(dòng)通信有限公司研究院2.算力池化定義與目標(biāo)7中國移動(dòng)通信有限公司研究院8中國移動(dòng)通信有限公司研究院3.算力池化架構(gòu)與關(guān)鍵技術(shù)3.1算力池化平臺(tái)技術(shù)架構(gòu)圖1算力池化平臺(tái)技術(shù)架構(gòu)-Kubernetes管理組件:基于Kubernetes原生管理服務(wù)組件定制化增強(qiáng),如支持分布式文件存儲(chǔ)、支持POD多網(wǎng)絡(luò)平面、支持-Kubernetes調(diào)度擴(kuò)展:關(guān)聯(lián)Kubernetes調(diào)度服務(wù)擴(kuò)展專用9-池化服務(wù)代理:根據(jù)智算資源池化控制器的調(diào)度結(jié)果,將池);-Kubernetes服務(wù)代理:基于Kubernetes原生服務(wù)代理組件創(chuàng)建應(yīng)用時(shí),可按新增的池化資源類型指定申請的資源數(shù)量(如中國移動(dòng)通信有限公司研究院應(yīng)的真實(shí)智算資源位置、規(guī)格,按查詢結(jié)果分配智算資源、執(zhí)行AI3.2算力池化技術(shù)能力層級L3:池化管理圖2算力池化技術(shù)能力層級),實(shí)時(shí)響應(yīng)上層應(yīng)用對資源需求的變化,實(shí)現(xiàn)vGPU/AI芯片資源基于中國移動(dòng)通信有限公司研究院3.3算力池化關(guān)鍵技術(shù)3.3.1軟件定義的資源分配方式傳統(tǒng)的依賴于硬件支持的虛擬化技術(shù)下,AI應(yīng)用通過訪問GPU/AI芯片的運(yùn)行時(shí)所提供的接口,以獲得對智算資源的中國移動(dòng)通信有限公司研究院圖3API劫持技術(shù)圖解中國移動(dòng)通信有限公司研究院),),圖4應(yīng)用程序監(jiān)視器技術(shù)圖解3.3.2算力資源高質(zhì)量管理技術(shù)中國移動(dòng)通信有限公司研究院式來對業(yè)務(wù)進(jìn)行支撐,導(dǎo)致預(yù)留的資源量與實(shí)際的使用量之間存在較大的差距。如果能夠?qū)I(yè)務(wù)的波谷時(shí)段利用起來,就能減少波谷時(shí)間,從時(shí)間維度提升效能;同理,將資源預(yù)留冗余縮小,就能從空間維度提升效能。因此將不同優(yōu)先級、不同波動(dòng)周期的業(yè)務(wù)進(jìn)行混合部署,為兩個(gè)維度提升利用率提供了可能性,即利用低優(yōu)先級任務(wù)占用空閑資源,同時(shí)高優(yōu)先級任務(wù)能及時(shí)搶占到資源,從而保證關(guān)鍵業(yè)務(wù)的服務(wù)質(zhì)量。算力池化技術(shù)可以通過軟件定義,將底層物理硬件資源抽象后做適當(dāng)?shù)闹袊苿?dòng)通信有限公司研究院放大,利用算力硬件計(jì)算周期空閑時(shí)間,通過時(shí)分復(fù)用有效使用算力,同時(shí),利用單一指針進(jìn)行內(nèi)存托管,將顯存、系統(tǒng)內(nèi)存進(jìn)行統(tǒng)一維護(hù),在CPU與GPU之間形成內(nèi)存池共享內(nèi)存資源,由系統(tǒng)來自動(dòng)地進(jìn)行內(nèi)存遷移,以實(shí)現(xiàn)GPU顯存擴(kuò)展,如CUDAunifiedmemory。AI訓(xùn)練任務(wù)的執(zhí)行效率,算力池化技術(shù)可提供智能算力資源排隊(duì)的3.3.3泛在化碎片的池化整合技術(shù)Alibaba-PAI》分析了阿里一個(gè)訓(xùn)練集群上):中國移動(dòng)通信有限公司研究院圖5阿里某訓(xùn)練集群的負(fù)載特征中國移動(dòng)通信有限公司研究院在兼顧訓(xùn)練任務(wù)的整體吞吐率、GPU/AI芯片資源的整中國移動(dòng)通信有限公司研究院4.算力池化產(chǎn)業(yè)實(shí)踐4.1業(yè)界廠商池化技術(shù)實(shí)踐圖6趨動(dòng)科技OrionX軟件架構(gòu)20中國移動(dòng)通信有限公司研究院vSphereBitfusion服務(wù)器軟件的虛擬機(jī)或容器POD上共享對遠(yuǎn)程圖7VMwareBitFusion軟件架構(gòu)21中國移動(dòng)通信有限公司研究院圖8VMwareRadium軟件架構(gòu)占一個(gè)或者多個(gè)GPU、使多個(gè)KubernetesPod共享一個(gè)GPU;針對22中國移動(dòng)通信有限公司研究院圖9中興TECSOpenPaletteGPU方案架構(gòu)23中國移動(dòng)通信有限公司研究院圖10華為基于Volcano的CCE方案架構(gòu)-在線離線混合調(diào)度:CCE可以將離線和在線業(yè)務(wù)在同一集群-應(yīng)用感知智能調(diào)度:為了進(jìn)一步提升混合部署后的資源利用-大規(guī)模分布式調(diào)度:為了保障業(yè)務(wù)混合部署后,海量任務(wù)并24中國移動(dòng)通信有限公司研究院4.2中國移動(dòng)池化技術(shù)實(shí)踐圖8中國移動(dòng)智算中心技術(shù)架構(gòu)25中國移動(dòng)通信有限公司研究院26中國移動(dòng)通信有限公司研究院5.展望與倡議27中國移動(dòng)通信有限公司研究院參考文獻(xiàn)[1]算力網(wǎng)絡(luò)白皮書[R],中國移動(dòng),2021[2]算力網(wǎng)絡(luò)技術(shù)白皮書[R],中國移動(dòng),2022[3]中國算力發(fā)展指數(shù)白皮書[R],中國信息通信研究院,2021[4]AI框架發(fā)展白皮書[R],中國信通院,2022[5]新型數(shù)據(jù)中心發(fā)展三年行動(dòng)計(jì)劃(2021-2023年),中國工業(yè)和信息化部,2021[6]CharacterizingDeepLearningTrainingWorkloadsonAlibaba-PAI,WangM,MengC,LongG,etal.,201928中國移動(dòng)通信有限公司研究院縮略語列表縮略語英文全程中文釋義AIArtificialIntelligence人工智能CPUCentralProcessingUnit中央處理器GPUGraphicsProcessingUnit圖形處理器CUDAComputeUnifiedDeviceArchitectureNVIDIA推出的GPU運(yùn)行時(shí)APIApplicationProgramInterface應(yīng)用程序接口TCOTotalCostofOwnership總體擁有成本K8SKubern

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論