![李笙維:DataFunSummit非數(shù)據(jù)中心GPU上的大模型并行訓(xùn)練_第1頁](http://file4.renrendoc.com/view9/M00/19/1B/wKhkGWdqdlGAHFt3AACIMHOhyzo377.jpg)
![李笙維:DataFunSummit非數(shù)據(jù)中心GPU上的大模型并行訓(xùn)練_第2頁](http://file4.renrendoc.com/view9/M00/19/1B/wKhkGWdqdlGAHFt3AACIMHOhyzo3772.jpg)
![李笙維:DataFunSummit非數(shù)據(jù)中心GPU上的大模型并行訓(xùn)練_第3頁](http://file4.renrendoc.com/view9/M00/19/1B/wKhkGWdqdlGAHFt3AACIMHOhyzo3773.jpg)
![李笙維:DataFunSummit非數(shù)據(jù)中心GPU上的大模型并行訓(xùn)練_第4頁](http://file4.renrendoc.com/view9/M00/19/1B/wKhkGWdqdlGAHFt3AACIMHOhyzo3774.jpg)
![李笙維:DataFunSummit非數(shù)據(jù)中心GPU上的大模型并行訓(xùn)練_第5頁](http://file4.renrendoc.com/view9/M00/19/1B/wKhkGWdqdlGAHFt3AACIMHOhyzo3775.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
并行與分布計算全國重點實驗室并行與分布計算全國重點實驗室博士研究生李笙維DataFunSummit#2024并行與分布計算全國重點實驗室研究背景一、研究背景:大模型并行訓(xùn)練并行與分布計算全國重點實驗室基礎(chǔ)模型參數(shù)量爆炸性增長并行訓(xùn)練基本方法一、研究背景:并行訓(xùn)練基本方法并行與分布計算全國重點實驗室?并行訓(xùn)練基本方法主要分為數(shù)據(jù)并行,模型并行,混合并行等基本形式-并行程序邏輯比較容易理解-單次迭代中模型訓(xùn)練的數(shù)據(jù)總量增加,使得總的訓(xùn)練時間減少-為了保證收斂性,需要頻繁的梯度同步通信一、研究背景:并行訓(xùn)練基本方法并行與分布計算全國重點實驗室?并行訓(xùn)練基本方法主要分為數(shù)據(jù)并行,模型并行,混合并行等基本形式?模型并行方式下每個設(shè)備上只有模型的一部分,張量并行、流水線并行均屬于模型并行-降低了模型訓(xùn)練時對單卡的顯存需求-較大的通信開銷(常見于張量并行)-較低的設(shè)備利用率(常見于流水線并行)一、研究背景:并行訓(xùn)練基本方法并行與分布計算全國重點實驗室?并行訓(xùn)練基本方法主要分為數(shù)據(jù)并行,模型并行,混合并行等基本形式一、研究背景:并行訓(xùn)練基本方法并行與分布計算全國重點實驗室?并行訓(xùn)練基本方法主要分為數(shù)據(jù)并行,模型并行,混合并行等基本形式一、研究背景:并行訓(xùn)練基本方法并行與分布計算全國重點實驗室?并行訓(xùn)練基本方法主要分為數(shù)據(jù)并行,模型并行,混合并行等基本形式?混合并行(hybirdparallel-可以結(jié)合模型并行和數(shù)據(jù)并行的優(yōu)點,實現(xiàn)高效的模型訓(xùn)練-應(yīng)對大模型訓(xùn)練的主要方法-難以找到性能優(yōu)異的混合并行策略,使得混合并行的優(yōu)勢無法發(fā)揮出來一、研究背景:大模型訓(xùn)練加速器并行與分布計算全國重點實驗室?數(shù)據(jù)中心GPU(A100,H100...)是目前最常見的加速器:性價比較為接近,然而通信帶寬差距巨大,在大模型的并行訓(xùn)練中有較?因此,研究非數(shù)據(jù)中心GPU上的大模型并行訓(xùn)練更具重要意義GPU算力的性價比可以使用RatiooftheComputationperformanceandCost(RCC)定義,單位為TFLOPS/$并行與分布計算全國重點實驗室研究進展二、研究進展小結(jié)并行與分布計算全國重點實驗室?圍繞非數(shù)據(jù)中心GPU上的大模型并行訓(xùn)練問題,開展關(guān)鍵技術(shù)研究?高性價比的大模型訓(xùn)練:?高效率的并行訓(xùn)練:?設(shè)計多維度通信調(diào)度方法,提高并行訓(xùn)練的通信效率?設(shè)計通信計算重疊的聯(lián)合調(diào)度方法,提高并行訓(xùn)練效率?設(shè)計流水線并行的異構(gòu)內(nèi)存交換方法,緩解顯存墻問題?高可編程性的并行訓(xùn)練:?解耦模型設(shè)計與并行訓(xùn)練,加強多維并行訓(xùn)練的可編程性2.1高性價比的大模型訓(xùn)練并行與分布計算全國重點實驗室?大模型并行訓(xùn)練的性價比建模方法?并行訓(xùn)練下,訓(xùn)練性價比可以使用單位價格能獲得的?從算力性價比角度4090GPU最高,然而4090無法使用NVLink進行帶寬提升,算力性價比次3090可以通過相對便宜的NVLink提GPUGPU算力性價比(TFLOPS/$)對比圖3090NVLink并行訓(xùn)練環(huán)境示意圖2.1高性價比的大模型訓(xùn)練并行與分布計算全國重點實驗室?大模型并行訓(xùn)練的性價比建模方法?在考慮了NVLink價格的基礎(chǔ)上,3090NVLink配置相對于全NVLink相連的A100-SXM配?該集群的建立僅供思路參考,3090仍有著內(nèi)存不足(24G)等問題3090-NVLink的硬件價格估算方法并行訓(xùn)練性價比對比2.2高效率的并行訓(xùn)練并行與分布計算全國重點實驗室?通信計算調(diào)度:TriRace--面向混合并行訓(xùn)練的多維度通訊調(diào)度方法?非數(shù)據(jù)中心GPU情況下,通常通信帶寬受限較為明顯?通信調(diào)度技術(shù)是常見的降低通信開銷的方法,然而混合并行訓(xùn)練的通信操作復(fù)雜,帶來兩1)通信操作多樣,包括數(shù)據(jù)并行的AllRed異步流水線并行數(shù)據(jù)并行的混合并行訓(xùn)練中通信操作復(fù)雜通信調(diào)度方法不適用于稀疏通信2.2高效率的并行訓(xùn)練并行與分布計算全國重點實驗室?通信計算調(diào)度:TriRace--面向混合并行訓(xùn)練的多維度通訊調(diào)度方法?針對數(shù)據(jù)并行的AllReduce通信,根據(jù)異步流水線并行的參數(shù)更新方法,最大化重疊計算操作?針對流水線并行的P2P通信,將雙向通信解耦為兩個單向通信,盡可能減少關(guān)鍵路徑上的通信數(shù)量?使用稀疏通信降低embedding的通信開銷,并將以embedding各行為單位進行細AllReduce通信調(diào)度方法P2P通信調(diào)度方法稀疏通信調(diào)度方法2.2高效率的并行訓(xùn)練并行與分布計算全國重點實驗室?通信計算調(diào)度:TriRace--面向混合并行訓(xùn)練的多維度通訊調(diào)度方法2.2高效率的并行訓(xùn)練并行與分布計算全國重點實驗室?通信計算調(diào)度:Oases--面向張量并行的自動通信計算重疊方法?Transformer模型的HiddenSize高速增長,張量并行成模型名發(fā)布年份模型大小LayersHiddenSize3/OPT2020/20222021530B20480PaLM2022540BBLOOM2022LLaMA202365B8192Falcon202340B8192Transformer預(yù)訓(xùn)練模型的HiddenSize較大59.2%59.2%64.7%張量并行通信在帶寬受限的情況下訓(xùn)練中占比較高2.2高效率的并行訓(xùn)練并行與分布計算全國重點實驗室?通信計算調(diào)度:Oases--面向張量并行的自動通信計算重疊方法?當前主流的張量并行通信計算重疊方法為將矩陣乘法和其通信分解為多個操作?設(shè)計細粒度的通信計算調(diào)度方法,將數(shù)據(jù)在batch維度切分為互不依賴的兩個子數(shù)據(jù),他們的通2.2高效率的并行訓(xùn)練并行與分布計算全國重點實驗室?通信計算調(diào)度:Oases--面向張量并行的自動通信計算重疊方法?在顯存受限的場景下,使用重計算計算技術(shù)非常必要?設(shè)計去除通信冗余的重計算調(diào)度方法,應(yīng)用重計算時,將通信結(jié)果作為重計算子圖的輸出可重計算結(jié)束的位置為通信后時,可以省去該通信2.2高效率的并行訓(xùn)練并行與分布計算全國重點實驗室?通信計算調(diào)度:Oases--面向張量并行的自動通信計算重疊方法?Oases可以顯著加速張量并行訓(xùn)練,相較Megatron-LM,A2.2高效率的并行訓(xùn)練并行與分布計算全國重點實驗室?顯存優(yōu)化:Mbapp--面向商品級GPU的流水線并行異構(gòu)內(nèi)存交換方法?流水線并行通信量降低,適用于在商品級GPU上訓(xùn)練大模型?商品級GPU如3090的顯存容量較小,大模型的訓(xùn)練要求顯存優(yōu)化技術(shù)(e.g.,顯存交換,swa?流水線并行的算法特點,導(dǎo)致流水級(設(shè)備)之間的顯存分布不均衡流水線并行適合通信資源貧乏的商品級深度學習服務(wù)器流水線并行的顯存消耗不均衡2.2高效率的并行訓(xùn)練并行與分布計算全國重點實驗室?顯存優(yōu)化:Mbapp--面向商品級GPU的流水線并行異構(gòu)內(nèi)存交換方法?混合GPU-CPUswap方法:對于內(nèi) Mbapp工作流程2.2高效率的并行訓(xùn)練并行與分布計算全國重點實驗室?顯存優(yōu)化:Mbapp--面向商品級GPU的流水線并行異構(gòu)內(nèi)存交換方法?相較于內(nèi)存交換方法torch-offload,訓(xùn)練吞吐量可以提?Mbapp可以使各流水級(工作設(shè)備)的顯存消耗更加均衡2.3高可編程性的并行訓(xùn)練并行與分布計算全國重點實驗室?Merak--實現(xiàn)模型設(shè)計與并行訓(xùn)練的解耦?語言模型開源社區(qū)活躍,多樣的模型定義方式給并行訓(xùn)練應(yīng)用帶來較大挑戰(zhàn)是是否否是是否否是是是否否是是否是是是是并行訓(xùn)練框架中自動應(yīng)用并行訓(xùn)練技術(shù)的情況2.3高可編程性的并行訓(xùn)練并行與分布計算全國重點實驗室?Merak--實現(xiàn)模型設(shè)計與并行訓(xùn)練的解耦?單機腳本的計算圖定義方式繁多,?提出基于?符號算子不進行參數(shù)初始化,可以使用?提出一個計算圖劃分算法?分析圖節(jié)點的依賴關(guān)系,找到通信量較?考慮模型訓(xùn)練中常量可以在子圖間傳遞,模型劃分編譯的工作流程?子圖分配至工作設(shè)備后,進行參數(shù)初始化,模型劃分編譯的工作流程2.3高可編程性的并行訓(xùn)練并行與分布計算全國重點實驗室?Merak--實現(xiàn)模型設(shè)計與并行訓(xùn)練的解耦?API接口簡明易用,在單機訓(xùn)練腳本的基礎(chǔ)上,僅需增加幾行代碼即可實現(xiàn)數(shù)據(jù)-流水線-張/HPDL-Group/Merak并行與分布計算全國重點實驗室總結(jié)與展望三、研究總結(jié)并行與分布計算全國重點實驗室?圍繞非數(shù)據(jù)中心GPU上的大模型并行訓(xùn)練問題,可以總結(jié)為提高大模型的accessbility,讓更多研究者更便宜更快更方便地進行大模型訓(xùn)練三、研究展望并行與分布計算全國重點實驗室?大模型的持續(xù)迭代對大規(guī)模異構(gòu)并行計算效率提出更高要求?針對更多應(yīng)用特點的大規(guī)模分布式訓(xùn)練技術(shù)如何整合及通用化?深度學習編譯器是提高并行訓(xùn)練可編程性的重要技術(shù)方向?通信帶寬進步落后于需求,通信優(yōu)化是提高并行訓(xùn)練效率的重要方向?大規(guī)模分布式訓(xùn)練技術(shù)需要更大規(guī)模更真實場景的測試與驗證并行與分布計算全國重點實驗室謝謝?博士研究生李笙維?博士研究生李笙維更多研究詳見導(dǎo)師主頁:DataFunSummit#2024大規(guī)模并行訓(xùn)練框架設(shè)想并行與分布計算全國重點實驗室?設(shè)想:并行訓(xùn)練框架自頂向下可分為6層APIJAXJAXPaddlePaddle...AccesstrainAccesstrainresourceAccessmodelAccessmodelIRtf.graphtorch.fxjax_to_hlo...IntermediaterepresentationTrainingTrainingresourceabstractionDevicetopoProfiling...IRIRconvertIRstructuredParallelstrategygenerationParallelstrategygenerationCostmodelIRcompilerDeviceassignTrainsimulator并行策略制訂層MemorymanagementComputationscheduleDistributedruntimeengineMemorymanagementComputationscheduleDistributedruntimeengineCommunicationscheduleComputationoperatorCommunicationlibraryDevice-specificoperatorComputationoperatorCommunicationlibraryDevice-specificoperator大規(guī)模并行訓(xùn)練框架設(shè)想?Merak并行訓(xùn)練框架并行與分布計算全國重
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度人工智能芯片研發(fā)公司收購居間服務(wù)合同
- 股權(quán)捐贈合同標準文本
- 合同范本:專業(yè)食品加工合同
- 全新共對私資金借貸合同
- 醫(yī)療器械銷售與服務(wù)合同合作計劃
- 2025年度公寓物業(yè)管理服務(wù)收費合同范本
- 2025年度工業(yè)產(chǎn)品安全檢測服務(wù)合同范本
- 2025年度公廁廁紙及抽紙智能分揀采購合同
- 2025年度國際貿(mào)易實務(wù)五合同標的合規(guī)性審查及風險管理協(xié)議
- 聯(lián)合出資經(jīng)營公司合同(20篇)
- 2024年浙江省公務(wù)員錄用考試《行測》題(A類)
- 2024版《安全生產(chǎn)法》考試題庫附答案(共90題)
- 《化工設(shè)備機械基礎(chǔ)(第8版)》完整全套教學課件
- 疥瘡病人的護理
- 2024年江西省中考英語試題含解析
- 公務(wù)員2012年國考《申論》真題卷及答案(地市級)
- 跨學科實踐活動2 制作模型并展示科學家探索物質(zhì)組成與結(jié)構(gòu)的歷程(分層作業(yè))-九年級化學上冊同步高效課堂(人教版2024)(解析版)
- 新員工三級安全教育考試試題參考答案
- 35kV輸變電工程(變電站、輸配電線路建設(shè))技術(shù)方案
- 數(shù)學史簡介課件可編輯全文
- 化學廢水水池清理施工方案
評論
0/150
提交評論