OrionX AI 算力資源池化解決方案 技術白皮書_第1頁
OrionX AI 算力資源池化解決方案 技術白皮書_第2頁
OrionX AI 算力資源池化解決方案 技術白皮書_第3頁
OrionX AI 算力資源池化解決方案 技術白皮書_第4頁
OrionX AI 算力資源池化解決方案 技術白皮書_第5頁
已閱讀5頁,還剩44頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

OrionXOrionXAIOronA算力資源池化解決方案發(fā)布時間:2021年11版權(quán)所有?北京趨動科技有限公司2021電話:010-地址:北京市海淀區(qū)中關村大街1目引 GPU資源池化技術的演 OrionX產(chǎn)品概 OrionX產(chǎn)品優(yōu) OrionX軟件架 OrionX的邏輯架 OrionX的功能組 OrionX OrionXServer OrionXClient OrionX OrionX組件間通 管理平 數(shù)據(jù)平 部署形 OrionX與容器云平臺集 OrionX與Kubernetes集 OrionX與KVM集 OrionX與VMware集 OrionX應用場 OrionX支持大模型場景的典型應 通過“化零為整”功能支持訓 通過“隔空取物”功能支持訓 OrionX支持小模型場景的典型應 通過“化整為零”功能支持推 通過“隔空取物”功能支持推 OrionX支持大/小模型場景的典型應 通過“隨需應變”功能支持訓練/推 通過“任務隊列”功能支持訓練/推理任務自動排 通過“搶占”功能支持任務搶占資 通過“顯存超分”功能支持多任務疊加常 通過“雙類資源池”功能支持物理/虛擬切 性能測 測試環(huán) 測試結(jié) 兼容性列 功能與版 圖表目圖表1-1全球人工智能市場規(guī)模走勢 圖表2-1GPU資源池化技術演進 圖表3-1ORIONX架構(gòu) 圖表5-1ORIONX邏輯架構(gòu) 圖表5-2管理平面邏輯結(jié)構(gòu) 圖表5-3數(shù)據(jù)平面邏輯結(jié)構(gòu) 圖表6-1ORIONX與容器云平臺集 圖表6-2ORIONX和KUBERNETES集 圖表6-3ORIONX和KVM集 圖表7-1通過化零為整功能支持訓 圖表7-2通過隔空取物功能支持訓 圖表7-3通過化整為零功能支持推 圖表7-4通過隔空取物功能支持推 圖表7-5通過隨需應變功能支持訓練/推 圖表8-1模型推理測試結(jié) 圖表8-2模型訓練測試結(jié) OrionXOrionXAIPAGEPAGE1引十四五”德勤在2020上半年發(fā)布的《全球人工智能發(fā)展白皮書》預測數(shù)據(jù)表明:2025年世界人工智能市場將超過6萬億美元;中國人工智能核心產(chǎn)業(yè)規(guī)模到2020年將增長至1600圖表1-1全球人工智能市場規(guī)模走勢AI市場中的重要組成GPU、FPGAAI加速器市場發(fā)展也隨之水漲船高。根據(jù)IDC中國加速計算市場報告,預計2021年人工智能加速服務器市場規(guī)模將達到56.92020年增長61.6%,到2025人工智能加速服務器市場將達到億美元,其五年復合增長率為25.3%與此同時,由于缺乏高效經(jīng)AI算力資源池化解決方案,導致絕大部分企業(yè)只能獨占式地使用昂貴的AI算力資源,帶來居高不下的AI算力使用成本OrionXOrionXAI22持,用戶不得不修AI應用以適應不同廠AI算力硬件。這會加AI應用開發(fā)部署復雜性、提高AI算力投入成本并導致供應商鎖定。GPUGPUGPUGPU,每個vGPUAI模型對任意虛擬化GPUAI應用個性化需求的vGPU。遠程調(diào)用AI應用與物理GPUGUIGUIGU資源。資源池化。形成GU資源池后,需要統(tǒng)一的管理面來實現(xiàn)管理、監(jiān)控、資源調(diào)度和資源回收等功能。同時,也需要提供北向I,與數(shù)據(jù)中心級的資源調(diào)度平臺對GUOrionXOrionXAI圖表21GPUOrionX趨動科技的OrionX(獵戶座)AI算力資源池化解決方案已經(jīng)實現(xiàn)了上述四個階段的技術功能,可以為用戶提供GPU資源池化的整體解決方案。OrionX幫助客戶構(gòu)建數(shù)據(jù)中心級AI算力資源池,使用戶應用無需修改就能透明地共享和使用數(shù)據(jù)中心內(nèi)任何服務器之AI加速器。OrionX不但能夠幫助用戶提高AI算力資源利用率,而且可以極大便利用戶AI應用的部署。圖表3-1OrionXOrionX通過軟件定義AI算力,顛覆了原有的AI應用直接調(diào)用物理GPU的架構(gòu),增加軟件層,將AI應用與物理GPU解耦合。AI應用調(diào)用邏輯的vGPU,再由OrionX將vGPU需求匹配到具GPU。OrionXGPU資源池化,讓用戶高效、智能、靈活地使用GPU資源,達到了降本增效的目的。OrionXOrionX通過構(gòu)建GPU資源池,讓企業(yè)內(nèi)的AI用戶共享數(shù)據(jù)中心內(nèi)所有服務器上的GPU算力。AI開發(fā)人員不必再關心底層資源狀況,專注于更有價值的業(yè)務層面,讓應用開發(fā)變得更加便捷。OrionX產(chǎn)品有如下優(yōu)勢:物理GPU利用率。GPU3-10倍,1N損耗小于2%。vGPU支持從單臺到整個數(shù)據(jù)中心GPU服務器納管,輕松實現(xiàn)GPU資源池的橫RDMA(IB/RoCE)TCP/IP網(wǎng)絡連接各個節(jié)點,實支持AI負載與GPU資源分離部署,更加高效合理地使用GPU提供GPUGPUAIAIGPU/CPU配比和多機多卡模型拆OrionXOrionX的邏輯架一個典型的OrionXGPU資源池的邏輯架構(gòu)中包含OrionXController(OC、OrionXService(OSSRuntime(OCRTOroX的各功能組件可以根據(jù)用戶環(huán)境需求被部署在單服務器上,也可以被分布式地部署GU全局共享的計算資源,對I應用提供可遠程訪問的、可靈活切分的、可聚合的彈性GPUOroX圖表5-1OrionX架構(gòu)CUDA(ComputeUnifiedDeviceArchitecture)是由Nvidia公司定義且公開推廣、維護的一種GPU編程接口。從2007年推出之后,經(jīng)過十幾年生態(tài)培育,已經(jīng)成為GPU編程的一個事實標準。大部分流行的AI框架,例如TensorFlow、PyTorch、MXNet和都是基于CUDAOrionX在管理物理GPUCUDAAI應用提供一個與NvidiaCUDASDK接口功能一致的運行環(huán)境AI應用透明無感知地運行OrionXGPU資源池之上。OrionX不僅在單服務CUDA標準接口,并且通過分布式部署各功能組件,能夠提供分布式的CUDA運行環(huán)境。OrionX的功能組OrionXOrionXControllerGPU資源池的核心管理調(diào)度模塊,其他所OrionX的功能組件都直Controller資源池的統(tǒng)一管理以及資源調(diào)度IPGPU信息、虛擬GPU信息以及應用OrionXGPU資源池可以只部署一OrionXController。為了OrionX的可靠性,可以進行2+1冗余備份。OrionXController提供如下功能:彈性虛擬GPULicense提供運維所需要的各種RestAPIOrionXServerOrionXServerService發(fā)現(xiàn)并管理物理節(jié)點上GPU資源,同時把GPU的計算能力OrionX的高性能私有協(xié)議提供給數(shù)據(jù)中心內(nèi)的各個物理節(jié)點,以及各個物理節(jié)點上的OrionXServerService部署OrionX資源池內(nèi)的每一個節(jié)點上,包GPU節(jié)點和應用所在的節(jié)點。OrionXServerService提供如下功能:發(fā)現(xiàn)和管理物理GPU把物理GPU資源抽象成彈性的vGPUAIGPUOrionXClientOrionXClientRuntime是一套兼NvidiaCUDA編程環(huán)境的運行環(huán)模擬CUDA的運行時接口。當AI應用在使用NvidiaGPU進行計算的時候,會自動調(diào)用OrionXClientRuntime。由于OrionXClientRuntime提供和NvidiaGPU兼容的CUDA接口,因此應用無需修改,可以透明無感知地運行在一個虛擬的GPU環(huán)境下。OrionXClientRuntime部署在每一個應用環(huán)境下,替代原有NvidiaCUDASDK。OrionXClientRuntime提供如下功能:CUDA自動完成虛擬GPUOrionXOrionXGUI給運維提供一個友好的GUI界面,方便管理員對OrionX整體資源池進行全面管理。OrionXGUI提供如下功能:OrionX組件間通OrionX的各個功能組件通過管理平面網(wǎng)絡和數(shù)據(jù)平面網(wǎng)絡GPU資源池的管理以及GPU資源的調(diào)度等功能。在部OrionX時,使用基TCP/IP網(wǎng)絡的管理平面,來承載整個系統(tǒng)的管理工作。通過管理網(wǎng)絡,分布在各個節(jié)點的功能組件都保持和OrionXController同步。管理平面邏輯結(jié)圖表52OrionXController在應用運行的過程中,應用所在環(huán)境和GPU物理節(jié)點之間的數(shù)據(jù)傳輸使OrionX的數(shù)據(jù)面。該數(shù)據(jù)面支持多種后端數(shù)據(jù)傳輸載體,包括TCP/IP以太網(wǎng)絡、RoCERDMAInfinibandRDMA、ShareMemory支持虛擬機、容器和宿主機之間的TCP/IP圖表5-3平面邏輯結(jié)OrionX的各個組件,支持直接部署在裸金屬服務器上,即安裝操作系統(tǒng)后,直Binary形式部署,也支持容器化部署。OrionX具備適配多種Linux操作系統(tǒng)和云平臺的能力,因此,OrionX具有多樣化的部署形式。OrionXCentOS、Ubuntu、DebianLinuxKVM的虛擬機云平臺和基于Docker的容器云平臺。尤其是支持原生容器,并實現(xiàn)了和Kubernetes的平OrionX與容器云平臺集OroX支持原生容器,各個組件都可以通過容器鏡像方式部署。在容器環(huán)境中,客戶只需要使用OrnXOroXGUOrionX的容器部署方式,將GPUDrivers、CDUA、CUDNN和NCCL等軟件棧都下沉到宿主機上內(nèi)部只需要安裝OrionXClientRuntime和機器學習AI大大簡化了客戶算法工程師運維、管理AI圖表6-1OrionX器云平臺集OrionXKubernetes集OrionX為Kubernetes提供兩個插件,實現(xiàn)與K8S的集成對接。集成后,系統(tǒng)管理員只需要在K8S中,即可完成對GPU資源池中vGPU資源的配置和調(diào)度管理。并且,允許系統(tǒng)軟件定義的數(shù)據(jù)中心OrionX為KubernetesOrionXKubernetesDeviceOrionXControllerOrionXGPU通過Kubernetes定義的DevicePlugin標準向Kubernetes注冊名字為/gpuOrionXKubernetesScheduler提供基于HTTPAPIK/gpu的資源敏感字,使其指向OrionKubernetesSchedulerExtender的HTTP服務地址。圖表6-2OrionXKubernetes集OrionXKVM集OrionX支持原生KVM,各個組件都可以通過Binary方式部署。在KVM環(huán)境中,客戶使OrionX組件的安裝腳本,就可以完成OrionX的基礎部署,輕松實現(xiàn)GPUOrionXKVM部署OrionXControllerOrionXServerServiceBinary方式部署在宿主機OrionXClientRuntime部署在VMGPUDriversCDUACUDNN和NCCL等軟件棧都下沉到宿主機上。這樣,VM內(nèi)部只需安裝OrionXClientRuntime和AIAIKVM的云平臺OpenStack,OrionX提供全開放RestAPI接口Nova件對接,實現(xiàn)GPU資源池中的vGPU資源在OpenStack圖表6-3OrionXKVMOrionXVMware集vSphereGPU通過直通方式全部透傳給一VMVMOrionXController和OrionXServerService組件,即可輕松實現(xiàn)GPU資源池化。該VM上或者其他VM上的AI應用即可通過OrionXClientRuntime組件調(diào)用虛擬GPU資源,大大簡化GPU資源在vSphere環(huán)境中的分配難度,提高GPU資源的調(diào)度效率。圖表64OrionXVMwareOrionXOrionX支持大模型場景的典型OrionX支持將多臺服務器上的GPU提供給一個虛擬機者容器內(nèi)的基于分布式訓練框架(HorovodDistributedDataParallel)AI應用無需修改代碼。GPU資源聚合后提供給單一虛擬機或者容器使用。“化零為整”支持訓練等大模型場景,為用戶的AI應用提供數(shù)據(jù)中心級的海量算力。Hrovod是UerHrovd本擴大規(guī)模,使其僅用幾行thon代碼就可以在跨設備的多個GU上運行。一旦配置了Hrovosrlw、rc、XNetDistributedDataParallel(簡稱DDP)是PyTorch自帶的分布式訓練框架,支持多機多卡和單機多卡分布式訓練DDPDataParallel,可以通過提batchsize來增加并行度DDP通過Ring-Reduce的數(shù)據(jù)交換方法提高了通訊效率,并通過啟動多個進程的方式PythonGIL圖表7-1化零為整功能支持明地使用其他服務器上的GPU資源,該虛擬機或者容器內(nèi)的AI應用無需修改代碼。通過這個功能,OrionX幫助用戶實現(xiàn)了數(shù)據(jù)中心級GPU資源池,實現(xiàn)了AI應用和GPU物多個GPU卡完成訓練任務?!癘rionXOrionXAI圖表7-2隔空取物功能支持OrionX支持小模型場景的典型資源。作為AI算力資源池平臺,OrionX可以從算力和顯存兩個維度,切分GPU。支持將OrionX支持將一塊物GPU細粒度切分成vGPU,然后分配給多個虛擬機或者容器。每一塊vGPU的顯存和算力都能被獨立設置和限制。通過這個功能,用戶可以高效地共享GPU資源,提高GPU利用率,降低成本。算力切分的最小顆粒度為原物理GPU算力的1%;顯存切分的最小顆粒度為1MBOrionXOrionXAI圖表7-3化整為零功能支持明地使用另一臺服務器上的GPU資源,該虛擬機或者容器內(nèi)的AI應用無需修改代碼。通過這個功能,OrionX幫助用戶CPUGPU資源的解CPUGPU需要雙向平衡的推理場景下,OrionX可以更好的平CPUGPU資源的分配,減少短板資“GUGU資源間的OrionXOrionXAI圖表74OrionX支持大/小模型場景的典型應過這個功能,OrionX幫助用戶實現(xiàn)GPUGPU資源調(diào)OrionXvGPU資源按需分配、隨用隨取,最大限度的利用算力資源。不論是大模型訓練,還是小模型推理的環(huán)境中,用戶都可AI模型需求,動態(tài)的調(diào)整算力資源大小,而無需重啟掛載vGPU的虛擬機/容器。OrionX支持vGPU資源預留模式和獲取模式:預留模式:和使用物理GPU類似,客戶申請的vGPU是獨占的,不可被其他用戶才鎖定到具體的物理GPU,一旦AI應用結(jié)束,物理GPU資源及時釋放。OrionXOrionXAI圖表7-5隨需應變功能支持訓練/推當請求GU/UOronX支持任務排隊能力。OrnX會將任務放入等待隊列中,直到隊列中前面任務跑完,可調(diào)度OroX允許對任務進行隊列優(yōu)先級預設,一旦資源缺乏導致任務進入等待隊列,按照優(yōu)先圖表7-6隨需應變功能支持訓練/推上述“任務隊列”中,OronX允許對某些任務賦予搶占屬性,一旦資源不足導致任務進入oX通常推理任務為滿足最佳用戶體驗,會將推理模型常駐顯存,4小時不中斷,以便擁有最,OrionX在邏輯上擴大GPU顯存的承載容量,從而支持多個常駐顯存的長尾任務疊加在同一個物理GPUGPUGPU閑置算力。根據(jù)業(yè)務特點,OroX還支持不同任務設置不同優(yōu)先級,從而保證突發(fā)高優(yōu)先級任務的服圖表7-7隨需應變功能支持訓練/推AI任務由于程序本身自有的特殊性,需要直接使用物NativeGPU資源,OrionX支持同時納管OrionXGPU(即經(jīng)過OrionX池化管理的GPU,可以被虛擬化為多個VGPU,和NativeGPU(即原生GPU,不會被虛擬化。OrionX能夠在一個界面上方便的控制哪些GPU卡初始化上報為OrionXGPU,哪些GPU卡被初始化上報為NativeGPU。在初始化上報結(jié)束以后,依然能夠靈活的OrionXGPUNative

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論