




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
大模型場景下智算平臺(tái)的設(shè)計(jì)與優(yōu)化實(shí)踐肖松2024.06.14j百度智能云國產(chǎn)卡怎么用?
能否與
NV
卡一起使用?我資源比較少,
幾十卡的規(guī)模,如何提升卡的利用率?我的模型跑起來耗時(shí)長,
能加速嗎?我想跑大模型,
需要多少資源?
網(wǎng)絡(luò)如何構(gòu)建?
多長時(shí)間能跑完?引言不同時(shí)期對(duì)智算平臺(tái)的需求20182024客戶A客戶B客戶C客戶Dj百度智能云201大模型時(shí)代,
智算平臺(tái)新特點(diǎn)402智算平臺(tái)需解決的問題603大模型場景技術(shù)實(shí)踐804對(duì)于智算平臺(tái)發(fā)展的未來思考25目錄j百度智能云01大模型時(shí)代,
智算平臺(tái)新特點(diǎn)小模型vs.大模型j百度智能云訓(xùn)練時(shí)長訓(xùn)練成本參數(shù)1800B算力8192塊
H100大模型時(shí)代,
智算平臺(tái)新特點(diǎn)小模型vs.大模型數(shù)據(jù)
13T*數(shù)據(jù)來源:非官方數(shù)據(jù)
,為業(yè)界推測增強(qiáng):
參數(shù)爆炸突破顯存墻,
多機(jī)多卡成為常態(tài)增強(qiáng):
卡間和機(jī)間高性能通信愈發(fā)重要維持:
GPU切分在小模型和推理場景依然存在新增:
新卡適配和芯片利舊,
多芯混合調(diào)度增強(qiáng):
耗時(shí)長凸顯大模型訓(xùn)推加速需求新增:
成本高帶來穩(wěn)定性需求,
減少資源閑置新增:
數(shù)據(jù)集處理加速新增:
數(shù)據(jù)湖存儲(chǔ)和高性能存儲(chǔ)55天158秒$2150萬$15參數(shù)
25M(
0.025B)ResNet50(小模型)算力
128
塊
V100GPT-4(大模型)數(shù)據(jù)167G(ImageNet)j百度智能云訓(xùn)練時(shí)長
訓(xùn)練成本工程問題新要求vs
.502智算平臺(tái)需解決的問題基礎(chǔ)設(shè)施、調(diào)度、應(yīng)用、運(yùn)維j百度智能云任務(wù)管理?
多種AI框架和并行策略支持?
AI
任務(wù)調(diào)度和任務(wù)流管理?
云原生容器化運(yùn)維資源管理?
大規(guī)模異構(gòu)算力高效調(diào)度和分配?
算力虛擬化算力?
適配多種異構(gòu)芯片?固件、
OS內(nèi)核、
驅(qū)動(dòng)兼容?
混合多芯存儲(chǔ)?
優(yōu)化存儲(chǔ)讀寫性能?
鏡像加速、
鏡像預(yù)鋪網(wǎng)絡(luò)?
搭建和調(diào)試高性能網(wǎng)絡(luò)智算平臺(tái)需解決的問題調(diào)度應(yīng)用基礎(chǔ)設(shè)施?
訓(xùn)練任務(wù)的性能優(yōu)化?
任務(wù)的監(jiān)控和容錯(cuò)?
Flash
Checkpoint?
數(shù)據(jù)集下載和轉(zhuǎn)儲(chǔ)加速?
數(shù)據(jù)集的清洗和加工處理?
推理任務(wù)的性能優(yōu)化?
在線服務(wù)的監(jiān)控告警基礎(chǔ)設(shè)施、調(diào)度、應(yīng)用、運(yùn)維推理數(shù)據(jù)訓(xùn)練百度智能云703大模型場景技術(shù)實(shí)踐基礎(chǔ)設(shè)施層j百度智能云基礎(chǔ)設(shè)施——混合多芯國產(chǎn)卡能否與NV卡一起使用?擬合性能系數(shù)
統(tǒng)一并行策略j百度智能云AI效能矩陣圖譜通信整合9TCP鏡像加速超大鏡像預(yù)加載P2P鏡像分發(fā)流式鏡像拉取訓(xùn)練數(shù)據(jù)加速高性能并行文件系統(tǒng)全SSD閃存RDMA鏈路加速模型加速大吞吐數(shù)據(jù)湖存儲(chǔ)分布式緩存加速托管
BCC/BBC集群如何實(shí)現(xiàn)數(shù)據(jù)集加速?如何I/O加速?
鏡像服務(wù)
流式讀取
P2P加速對(duì)象存儲(chǔ)
BOS標(biāo)準(zhǔn)存儲(chǔ)
低頻存儲(chǔ)
冷存儲(chǔ)
歸檔存儲(chǔ)基礎(chǔ)設(shè)施——高性能存儲(chǔ)分布式緩存加速存儲(chǔ)
RapidFS并行文件存儲(chǔ)
PFSTCP/Infin
i
Band/RoCEj百度智能云M
E
MD
I
SKE
ME
MKD
I
S
KD
I
S
KD
ISM
E
MMM103層無收斂RDMA網(wǎng)絡(luò)Up
to
Up
to512
512Up
to
16K+Tor拓?fù)涓兄{(diào)度NCCL通信拓?fù)涓兄A(chǔ)設(shè)施——高性能網(wǎng)絡(luò)如何實(shí)現(xiàn)通信庫加速?j百度智能云03大模型場景技術(shù)實(shí)踐調(diào)度層j百度智能云用戶態(tài)方案CUDAdriverAPI,提供顯存限制,算力時(shí)分復(fù)用CUDAruntimeAPI,提供遠(yuǎn)程調(diào)用,顯存限制,算力時(shí)分復(fù)用內(nèi)核態(tài)方案內(nèi)核模塊修改,提供顯存限制,算力時(shí)分復(fù)用Full/para-虛擬化,
內(nèi)核模塊修改,MMIO攔截,顯存劃分,算力時(shí)分復(fù)用NV官方,硬件劃分,提供顯存劃分、算力劃分、編解碼劃分(1/7)SR-IOV,硬件劃分,提供顯存劃分、算力劃分(1/3、
1/2)調(diào)度——GPU虛擬化如何提高單卡資源利用率?Nvidia
MIG昆侖2
SR-IOVj百度智能云硬件方案13調(diào)度——GPU虛擬化雙引擎GPU
虛擬化優(yōu)勢:
性能好,
長尾延遲低缺點(diǎn):
故障隔離差優(yōu)勢:
故障隔離好缺點(diǎn):
有一定性能損耗j百度智能云用戶態(tài)內(nèi)核態(tài)14調(diào)度——資源管理和調(diào)度邏輯如何調(diào)度資源?PodGroup
P
d
d
配額管理資源調(diào)度RDMA異構(gòu)芯片(獨(dú)占/共享)CPU/MEM自定義資源調(diào)度會(huì)話
插件集合Gang調(diào)度GPU拓?fù)溆H和性調(diào)度混部調(diào)度Tor架構(gòu)感知Binpack/Spread調(diào)
度Gang搶占
多租戶資源管理集群資源視圖入
隊(duì)資源回收資源分配回填j百度智能云資源搶占選擇最優(yōu)調(diào)度1503大模型場景技術(shù)實(shí)踐應(yīng)用層j百度智能云品并行優(yōu)化顯存優(yōu)化算子優(yōu)化和推理性能?
兼容Llama2、
ChatGLM2等20余種開源模型,
一鍵部署,
透明加速應(yīng)用——如何優(yōu)化訓(xùn)練訓(xùn)練性能提升30%+
推理性能提升60%+大模型推理加速鏡像大模型訓(xùn)練加速鏡像背靠背
GEMM
融合細(xì)粒度顯存切分量化/剪枝/蒸餾數(shù)學(xué)等價(jià)代換/死代碼移除流水線并行優(yōu)化AIAK訓(xùn)推加速算子融合GEMM/Conv
長尾
運(yùn)算融合數(shù)據(jù)并行優(yōu)化行優(yōu)化顯存卸載注意力機(jī)制優(yōu)化顯存重算訪存密集型算子
融合模板化優(yōu)化訪存優(yōu)化調(diào)度優(yōu)化品圖精簡j百度智能云算子優(yōu)化算子融合17PytorchDeepspeedMegatronPaddlePaddle…任務(wù)無效訓(xùn)練時(shí)間
=
故障中斷次數(shù)寫Ckpt總時(shí)長?降低節(jié)點(diǎn)故障率?提升故障感知召回率應(yīng)如何任務(wù)異常快速感知重調(diào)度容錯(cuò)鏡像/數(shù)據(jù)緩存加速硬件故障快速感知硬件端到端上線預(yù)檢測節(jié)點(diǎn)熱維修/秒級(jí)冷遷移恢復(fù)降低Ckpt時(shí)長,縮短Ckpt間隔周期?提升調(diào)度效率?降低節(jié)點(diǎn)MTTR用——訓(xùn)練容錯(cuò)框架容錯(cuò)代價(jià)調(diào)度容錯(cuò)效率基礎(chǔ)設(shè)施穩(wěn)定性+任務(wù)故障重算時(shí)長)
+
任務(wù)常態(tài)Ckpt
存儲(chǔ)加速異步Ckpt加速分布式Ckpt加速主流框架/分布式庫,打開開關(guān)即可容錯(cuò)提升訓(xùn)練穩(wěn)定性?×
(任務(wù)故障恢復(fù)時(shí)長矢百18FlashCK
PT
并
行內(nèi)
存
寫
入
,
快
速
完
成checkpoint操作,提升整體有效訓(xùn)練時(shí)長。
業(yè)務(wù)可制定更細(xì)粒度的檢查點(diǎn)策略,
從
而降低故障恢復(fù)時(shí)間應(yīng)用——Flash
Checkpoint如何降低Checkpoint
時(shí)間?分布式,
異步寫3每日節(jié)省有效訓(xùn)練時(shí)長1千億大模型CKPT
寫入小時(shí)級(jí)CKPT,容錯(cuò)恢復(fù)時(shí)間長
秒級(jí)CKPT,更細(xì)粒度的打點(diǎn)恢復(fù)Checkpoint
容錯(cuò)機(jī)制帶來了計(jì)算時(shí)間片浪費(fèi)
Memory
NVME
SSD
有效訓(xùn)練時(shí)間
有效訓(xùn)練時(shí)間Checkpoint
等待Checkpoint等待訓(xùn)練框架訓(xùn)練框架j百度智能云
Memory
FlashCKPT傳統(tǒng)方案并行文件存儲(chǔ)PFS同步寫
Memory加速層同步寫
Memory加速層遠(yuǎn)端對(duì)象存儲(chǔ)等待
lastpart流式分塊上傳異步
close同步
close小時(shí)秒1903大模型場景技術(shù)實(shí)踐運(yùn)維j百度智能云
運(yùn)維目標(biāo)
!
容量管理&優(yōu)化
分階段指標(biāo)(診斷訓(xùn)練分階段耗時(shí),助力訓(xùn)練性能
調(diào)優(yōu))任務(wù)性能大盤(訓(xùn)推吞吐指標(biāo),任務(wù)并行策略、性能
關(guān)聯(lián)參數(shù))任務(wù)收斂監(jiān)控&告警(監(jiān)控任務(wù)loss收斂情況
,異常報(bào)警)集群資源視圖(集群資源概覽,利用率、分配率變化&趨勢,任務(wù)資源概覽)任務(wù)資源視圖(任務(wù)資源詳情
、GPU使用分析、Pod分配情況)節(jié)點(diǎn)資源視圖(節(jié)點(diǎn)資源詳情
、GPU分配/利用分析)運(yùn)維目標(biāo)可觀測能力故障定位時(shí)間小時(shí)級(jí)->分鐘級(jí)
發(fā)現(xiàn)資源瓶頸提升分配/利用率
發(fā)現(xiàn)任務(wù)性能瓶頸,
避免空跑任務(wù)告警(變更告警
、故障告警
、閾值告警)智能排障建議(基于大模型的智能故障分析)根因排查(集群、任務(wù)事件,任務(wù)運(yùn)行日志)任務(wù)穩(wěn)定性大盤(任務(wù)關(guān)聯(lián)的節(jié)點(diǎn)、組件,配套服務(wù)健康情況)任務(wù)性能調(diào)優(yōu)故障處理發(fā)現(xiàn)快速
定位根因
排查輔助
止損j百度智能云2103大模型場景技術(shù)實(shí)踐百度百舸架構(gòu)和演進(jìn)j百度智能云大模型任
務(wù)增強(qiáng)百舸組件百舸資源
池穩(wěn)定性&容錯(cuò)大模型訓(xùn)推任務(wù)加速鏡像開源大模型定制優(yōu)化大模型IO加速方案FlashCheckpoint大鏡像預(yù)加載大規(guī)模鏡像P2P加速CCE
K8S集群A
I基礎(chǔ)組件智算平臺(tái)架構(gòu)百度百舸30%訓(xùn)練吞吐提升98.8%有效訓(xùn)練時(shí)長60%推理吞吐提升95%帶寬有效性A800/H800/昆侖/升騰異構(gòu)算
力高性能分布式存儲(chǔ)PFS萬卡RDMA網(wǎng)絡(luò)高性能算子高效并行策略高效顯存利用高性能訓(xùn)推框架高性能網(wǎng)絡(luò)插件高性能存儲(chǔ)插件異構(gòu)資源調(diào)度深度學(xué)習(xí)框架A
I任務(wù)編排任務(wù)工作流管理性能監(jiān)控&調(diào)優(yōu)任務(wù)穩(wěn)定性大盤集群資源視圖通信測試工具自動(dòng)任務(wù)容錯(cuò)多維故障感知j百度智能云A
I編排調(diào)度可觀測大盤23AI硬核能力積累百舸1
.0AI基礎(chǔ)設(shè)施產(chǎn)品化百舸3
.0一站式大模型算力平臺(tái)百度十年AI實(shí)踐
20212022百舸2
.0AI基礎(chǔ)設(shè)施云原生化支撐百度核心業(yè)務(wù)發(fā)展視覺&自然語言處理AI可觀測大盤通信&算子加速大模型新業(yè)態(tài)AIAK大模型訓(xùn)推加速工具包智能故障診斷百度百舸發(fā)展歷程自動(dòng)駕駛&生命科學(xué)孔明超級(jí)計(jì)算集群
AI容器服務(wù)j百度智能云X-MAN
超級(jí)AI服務(wù)器RDMA高性能網(wǎng)絡(luò)滄海
.高性
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- lng安全管理協(xié)議書
- 產(chǎn)業(yè)園租賃意向協(xié)議書
- 轎車運(yùn)輸合同協(xié)議書
- 防水維修責(zé)任協(xié)議書
- 通信基站經(jīng)營協(xié)議書
- 銀行執(zhí)行和解協(xié)議書
- 酒店月結(jié)掛賬協(xié)議書
- 門面賣出免責(zé)協(xié)議書
- 退還臨時(shí)用地協(xié)議書
- 車輛抵押欠款協(xié)議書
- 小學(xué)心理健康教育家長會(huì)
- 2025屆山西省呂梁市高三第三次模擬考試英語試題(原卷版+解析版)
- 8.3 法治社會(huì) 課件高中政治統(tǒng)編版必修三政治與法治
- utc無人機(jī)考試試題及答案
- 咖啡加工廠建設(shè)項(xiàng)目可行性研究報(bào)告
- 2025年人力資源管理專業(yè)知識(shí)考試試題及答案
- 倉儲(chǔ)物流管理試題及答案
- 《醫(yī)藥企業(yè)防范商業(yè)賄賂合規(guī)指引》配套典型案例
- 漢字介紹課件
- 2025年熔化焊接與熱切割作業(yè)證理論考試試題(1000題)附答案
- 數(shù)字與圖像處理-終結(jié)性考核-國開(SC)-參考資料
評(píng)論
0/150
提交評(píng)論