版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
使用虛擬化技術(shù)提升大模型推理性能實(shí)踐第四范式(北京)技術(shù)有限公司Copyright?20214ParadigmAllRights
Reserved.CCooppyryigrihgth?t?202200243P4aPraadraigdmigmAllARlilgRhitgshRtessReervseedrv.
ed.背景2
–
國(guó)產(chǎn)異構(gòu)算力發(fā)展迅猛3近幾年國(guó)內(nèi)不少企業(yè)在算力設(shè)備方面取得進(jìn)展,包括海光信息、壁仞科技、燧原科技、摩爾線程等。海光DCU
8000系列,典型功耗260-350W,支持INT4、INT8、FP16、FP32、FP64運(yùn)算精度,支持4個(gè)HBM2內(nèi)存通道,最高內(nèi)存帶寬為1TB/s、最大內(nèi)存容量為32GB。海光DCU協(xié)處理器全面兼容ROCmGPU計(jì)算生態(tài),由于ROCm和CUDA在生態(tài)、編程環(huán)境等方面具有高度的相似性,CUDA用戶可以以較低代價(jià)快速遷移至ROCm平臺(tái)??梢钥吹剑9釪CU是國(guó)內(nèi)唯一支持FP64雙精度浮點(diǎn)運(yùn)算的產(chǎn)品,英偉達(dá)的A100、H100都支持FP64,從這一點(diǎn)來看,海光DCU在這方面是比較領(lǐng)先的。天數(shù)智芯的BI芯片,集成240億晶體管,采用7納米先進(jìn)制程,支持FP32、FP16、BF16、INT8等多精度數(shù)據(jù)混合訓(xùn)練,單芯算力每秒147T@FP16。寒武紀(jì)2021年11月發(fā)布的第三代云端AI芯片思元370,相比于上一代芯片,思元370全面加強(qiáng)了FP16、BF16以及FP32的浮點(diǎn)算力,在全新MLUarch03架構(gòu)和7nm先進(jìn)工藝加持下,8位定點(diǎn)算力最高為256TOPS。從業(yè)人員割裂國(guó)內(nèi)生態(tài)建設(shè)不足國(guó)產(chǎn)算力設(shè)備難以重復(fù)使用國(guó)產(chǎn)算力設(shè)備閑置狀態(tài)嚴(yán)重模型迭代效率低設(shè)國(guó)備層產(chǎn)面的生從業(yè)人員態(tài)國(guó)產(chǎn)環(huán)算境力相對(duì)難以封重閉復(fù)存國(guó)產(chǎn)在算嚴(yán)力重的閑割置裂狀況利用嚴(yán)CC重ooppyryigrihgth?t
?202200243P4aPraadraigdmigmAll
ARlilgRhitgshRtessReervseedrv.
ed.平臺(tái)層面模型推理的效率標(biāo)準(zhǔn)低算子的開發(fā)和交付效率低,
缺乏統(tǒng)一的標(biāo)準(zhǔn),
各個(gè)模塊對(duì)接成本高缺模乏型統(tǒng)迭一代行業(yè)痛點(diǎn)4CCooppyryigrihgth?t?202200243P4aPraadraigdmigmAllARlilgRhitgshRtessReervseedrv.
ed.5行業(yè)痛點(diǎn):
缺乏一站式的遷移服務(wù)Project-HAMi:基于k8s的算力開源復(fù)用平臺(tái)易購(gòu)算力虛擬化中間件(Heterogeneous
AI
Computing
Virtualization
Middleware,簡(jiǎn)稱HAMi,中文名哈密瓜),是一個(gè)基于云原生的開源一站式解決不同易購(gòu)算力復(fù)用功能的k8s中間件項(xiàng)目地址:/Project-HAMi/HAMiProject-HAMi:架構(gòu)圖Project-HAMi:架構(gòu)圖$cat<<EOF|kubectlapply-f
-apiVersion:
v1kind:Podmetadata:name:
gpu-pod12spec:containers:-name:
ubuntu-containerimage:ubuntu:18.04command:["bash","-c","sleep
86400"]resources:limits:/gpu:2#requesting1
vGPUs/gpumem:
10240/gpucores:
30參數(shù)描述:/gpu:
指定容器中可見的GPU個(gè)數(shù)./gpumem:
指定每個(gè)GPU的顯存上限/gpucores:
指定每個(gè)GPU使用的算力比例GPU
NodeGPU032G
idleGPU132G
idleGPU
NodeGPU
022G
idleGPU
122G
idle10GUsed10GUsed使用案例——英偉達(dá)使用案例——寒武紀(jì)$cat<<EOF|kubectlapply-f
-spec:containers:-
…resources:limits:/vmlu:1#requesting1
vGPUs/mlu.smlu.vmemory:20#request20%device
memory/mlu.smlu.vcore:10#request10%
ofcompute
corese/vmlu:SpecifiesthenumberofvisibleMLUsinthe
container./mlu.smlu.vmemory:SpecifiesthememorysizetouseforeachMLU.Ifnotset,thdefaultistouseallavailableMLU
memory./gpucores:Specifythepercentageusedforeach
MLU.hostcontainer使用案例——天數(shù)智芯$cat<<EOF|kubectlapply-f
-spec:containers:-
…resources:limits:iluvatar.ai/gpu:1iluvatar.ai/vcuda-core:50iluvatar.ai/vcuda-memory:64#eachunitrepresents256Mdevice
memoryiluvatar.ai/gpu:SpecifiesthenumberofvisibleiluvatarGPUsinthe
container.iluvatar.ai/vcuda-memory:SpecifiesthememorysizetouseforeachiluvatarGPU.Ifnotset,thedefaultistouseallavailabledevice
memory.iluvatar.ai/vcuda-core:SpecifythepercentageusedforeachIluvatar
GPU.hostcontainer使用案例——華為升騰910B$cat<<EOF|kubectlapply-f
-spec:containers:-
…resources:limits:/Ascend910:
1/Ascend910-memory:
16384host/ascend910:SpecifiesthenumberofvisibleAscend910sinthe
container./ascend910-memory:SpecifiesthememorysizetouseforeachAscend910s.Ifnotset,thedefaultistouseallavailabledevice
memory.containerProject-HAMi:指定設(shè)備種類Project-HAMi
算力超售與搶占顯存超售支持:通過配置
’deviceMemoryScaling>1’
即可激活虛擬顯存,例如在部署時(shí)指定`deviceMemoryScaling=3`就會(huì)把每張卡的顯存大小擴(kuò)大到3倍Project-HAMi
顯存超售可以通過指定/gpucores來達(dá)到算力隔離的效果kind:
Pod…spec:containers:-
…resources:limits:/gpu:1#requesting1
vGPUs/gpucores:100#request100%compute
coreskind:
Pod…spec:containers:-
…resources:limits:/gpu:1#requesting1
vGPUs/gpucores:60#request60%compute
coresProject-HAMi
算力隔離CCooppyyrriigghhtt??2200220144PPaararaddigigmmAAlllRliRgihgthstRseRseesrevervde.d.17訓(xùn)練推理Test
Environment:GPUType:Tesla
V100GPUNum:1Kubernetes
Version:v1.12.9Docker
Version:v18.09.1Test
Instance:nvidia-device-plugin:基于Nvidia源生device
plugin在1塊GPU上運(yùn)行1個(gè)任務(wù)/服務(wù)vGPU-device-plugin:基于第四范式vGPU
device
plugin在1塊vGPU上運(yùn)行1個(gè)任務(wù)/服務(wù)vGPU-device-plugin(virtual
device
memory):基于第四范式vGPU
device
plugin在2塊vGPU上運(yùn)行2個(gè)任務(wù)/服務(wù)nvidia-device-pluginProject-HAMi
性能Copyright?20204ParadigmAllRights
Reserved.vGPUNodesvGPUmonitoringsystemVolumeProject-HAMi
監(jiān)控接口Copyright?20204ParadigmAllRights
Reserved.實(shí)踐案例:第四范式推理加速框架SLX
LLM第四范式發(fā)布了大模型推理框架SLXLLM以及推理加速卡SLX,在二者聯(lián)合優(yōu)化下,在文本生成類場(chǎng)景中,大模型推理性能提升10倍。例如在使用4張80G
GPU對(duì)72B大模型進(jìn)行推理測(cè)試中,相較于使用vLLM,第四范式使用SLXLLM+SLX的方案??赏瑫r(shí)運(yùn)行任務(wù)數(shù)量從4增至40??杉嫒軹GI、FastLLM、vLLM等主流大模型推理框架大模型推理性能提升約1-8倍。Copyright?20204ParadigmAllRights
Reserved.實(shí)踐案例:第四范式推理加速框架SLX
LLM通常來說,一個(gè)完整的大模型商業(yè)產(chǎn)品并不僅僅包含一個(gè)生成器,而是由一個(gè)生成器和若干的小模型組成,以第四范式的模型產(chǎn)品【式說】為例,其中包含了3部分,一個(gè)負(fù)責(zé)前處理的embedding模型,一個(gè)生成器generator,一個(gè)負(fù)責(zé)輸出的validator。考慮到原生k8s不支持設(shè)備復(fù)用的問題,最終的部署方案如圖所示emb geneddi eratng orvalidatorCPUGPU0GPU1GPU2GPU3GPU4GPU5GPU6GPU7Copyright?20204ParadigmAllRights
Reserved.GPU0實(shí)踐案例:第四范式推理加速框架SLX
LLM使用哈密瓜可以將這3個(gè)組件部署在一張GPU上,因?yàn)槠渲兄挥幸粋€(gè)大模型生成器,embedding和validator均為小模型,以如此部署并不會(huì)降低性能,不僅如此,這種部署方式可以在只使用一張GPU的場(chǎng)合部署成功emb geneddi eratngorGPU1GPU2GPU3emb geneddi eratenmgb goerneddi eratemb geneddi eratng orvalidatorvalidatorvalidatorvalidatorRoadmap2025.06Supportintel/AMDGPU
deviceSupport
NPU2024.
52025.1integrated
gpu-operatorRichobservability
support*DRA
Support2024.6SupportFlexiblescheduling
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 個(gè)性化聘用協(xié)議:2024年版權(quán)益保障版A版
- 2025版臨時(shí)合作項(xiàng)目聘用協(xié)議4篇
- 2025年度市政道路大理石鋪裝及后期養(yǎng)護(hù)管理合同4篇
- 2025年度個(gè)人快遞分揀中心租賃合同樣本4篇
- 智能家居新趨勢(shì)提升家庭生活質(zhì)量
- 教育與培訓(xùn)中的創(chuàng)新思維教學(xué)方法探討
- SSL證書的申請(qǐng)與配置(2024版)3篇
- 家庭教育中的自然教育與戶外活動(dòng)結(jié)合
- 2025年度土地承包權(quán)抵押融資承包合同模板4篇
- 2025年度瑪雅酒店客房預(yù)訂管理合同4篇
- 四川省成都市武侯區(qū)2023-2024學(xué)年九年級(jí)上學(xué)期期末考試化學(xué)試題
- 初一到初三英語單詞表2182個(gè)帶音標(biāo)打印版
- 2024年秋季人教版七年級(jí)上冊(cè)生物全冊(cè)教學(xué)課件(2024年秋季新版教材)
- 2024年共青團(tuán)入團(tuán)積極分子考試題庫(kù)(含答案)
- 碎屑巖油藏注水水質(zhì)指標(biāo)及分析方法
- 【S洲際酒店婚禮策劃方案設(shè)計(jì)6800字(論文)】
- 鐵路項(xiàng)目征地拆遷工作體會(huì)課件
- 醫(yī)院死亡報(bào)告年終分析報(bào)告
- 中國(guó)教育史(第四版)全套教學(xué)課件
- 上海民辦楊浦實(shí)驗(yàn)學(xué)校初一新生分班(摸底)語文考試模擬試卷(10套試卷帶答案解析)
- 圍手術(shù)期應(yīng)急預(yù)案
評(píng)論
0/150
提交評(píng)論