![大語言模型通識微課課件:分布式訓練策略_第1頁](http://file4.renrendoc.com/view8/M01/18/0A/wKhkGWcJW6iASth0AACJuNY2C6I361.jpg)
![大語言模型通識微課課件:分布式訓練策略_第2頁](http://file4.renrendoc.com/view8/M01/18/0A/wKhkGWcJW6iASth0AACJuNY2C6I3612.jpg)
![大語言模型通識微課課件:分布式訓練策略_第3頁](http://file4.renrendoc.com/view8/M01/18/0A/wKhkGWcJW6iASth0AACJuNY2C6I3613.jpg)
![大語言模型通識微課課件:分布式訓練策略_第4頁](http://file4.renrendoc.com/view8/M01/18/0A/wKhkGWcJW6iASth0AACJuNY2C6I3614.jpg)
![大語言模型通識微課課件:分布式訓練策略_第5頁](http://file4.renrendoc.com/view8/M01/18/0A/wKhkGWcJW6iASth0AACJuNY2C6I3615.jpg)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大語言模型通識微課
分布式訓練策略分布式訓練是指將機器學習或深度學習模型訓練任務分解成多個子任務,并在多個計算設備上并行地進行訓練。圖7-5給出單個計算設備和多個計算設備的示例,這里的計算設備可以是中央處理器(CPU)、圖形處理器(GPU)、張量處理器(TPU),也可以是神經網絡處理器(NPU)。
圖7-5單個計算設備和多個計算設備的示例微課7.2分布式訓練策略一個模型訓練任務往往會有大量的訓練樣本作為輸入,可以利用一個計算設備完成,也可以將訓練任務拆分成多個子任務,分發(fā)給不同的計算設備,實現并行計算。此后,還需要對每個計算設備的輸出進行合并,最終得到與單個計算設備等價的計算結果,最終實現對整個計算過程的加速。機器學習模型快速發(fā)展,模型參數規(guī)模迅速增大的同時,對訓練數據量的要求也呈指數級增長,加劇了對算力的需求,只有通過分布式訓練系統(tǒng)才可以匹配模型不斷增長的算力需求,滿足機器學習模型的發(fā)展需要。分布式訓練的總體目標就是提升總的訓練速度,減少模型訓練的總體時間。微課7.2分布式訓練策略分布式訓練系統(tǒng)需要克服計算墻、顯存墻、通信墻等挑戰(zhàn),以確保集群內的所有資源得到充分利用,從而加速訓練過程并縮短訓練周期?!び嬎銐Γ簡蝹€計算設備所能提供的計算能力與大模型所需的總計算量之間存在巨大差異?!わ@存墻:單個計算設備無法完整存儲一個大模型的參數?!ねㄐ艍Γ悍植际接柧毾到y(tǒng)中各計算設備之間需要頻繁地進行參數傳輸和同步。由于通信的延遲和帶寬限制,這可能成為訓練過程的瓶頸。微課7.2分布式訓練策略數據并行性關注的問題是在大批量下,如何降低顯存的開銷。模型中間計算過程都會有中間狀態(tài),通常占用的空間和批量大小成正比。在數據并行系統(tǒng)中,每個計算設備都有整個神經網絡模型的模型副本,進行迭代時,每個計算設備只分配一個批次數據樣本的子集,并根據該批次樣本子集的數據進行網絡模型的前向計算。7.2.1數據并行性數據并行訓練系統(tǒng)可以通過增加計算設備,有效提升整體訓練吞吐量,即每秒全局批次數,它需要在所有計算設備中進行同步,以保證每個計算設備上最終得到的是所有進程上梯度的平均值。常見的神經網絡框架中都有數據并行方式的具體實現。由于基于Transformer結構的大模型中每個算子都依賴單個數據而非批次數據,因此數據并行并不會影響其計算邏輯。一般情況下,各訓練設備中前向計算是獨立的,不涉及同步問題。數據并行訓練加速比最高,但要求每個設備上都備份一份模型,顯存占用比較高。7.2.1數據并行性解決模型并行單節(jié)點內存不足的問題,可以用以下兩種形式進行切分。(1)按模型的層切分到不同設備,即層間(算子間)并行或流水線并行。(2)將計算圖層內的參數切分到不同設備,即層內并行或張量并行。模型并行性的基本含義是把模型本身進行切分,使得每個GPU卡只需要存模型的一部分。多個GPU配合起來完成一個完整的小批量。7.2.2模型并行性流水線并行性使用了經典的管道思想。在模型計算流水線上,每個GPU只負責模型的一個分片,計算完就交給下一個GPU完成下一個模型分片的計算。當下個GPU在計算時,上一個GPU開始算下一個小批量屬于它的模型分片。這里需要注意到不同模型分片使用的參數分片是否同步的問題,防止流水線更新參數的問題。圖7-9流水線并行7.2.3流水線并行性混合并行是將多種并行策略如數據并行、流水線并行和張量并行等混合使用。通
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 班級文化在培養(yǎng)學生領導力中的作用研究
- 瑜伽呼吸法對身心健康的促進作用
- 《平行四邊形的初步認識之四邊形、五邊形和六邊形的初步認識》(說課稿)-2024-2025學年二年級上冊數學蘇教版
- 班級健康管理與家長合作模式
- 深入開展安全生產培訓的探索與實踐案例分享
- 未來教育中的綠色能源教育內容
- 環(huán)境科學前沿研究與實際應用案例分析
- 現代服務業(yè)的企業(yè)文化建設與價值觀塑造
- 班級活動設計與學生心理發(fā)展促進
- 生物技術推動辦公效率的未來之鑰
- GB/T 6403.4-2008零件倒圓與倒角
- GB/T 2518-2019連續(xù)熱鍍鋅和鋅合金鍍層鋼板及鋼帶
- 企業(yè)合規(guī)管理-課件
- 火電廠安全工作規(guī)程
- 《籃球主修》考核方式
- GB∕T 33047.1-2016 塑料 聚合物熱重法(TG) 第1部分:通則
- 電力業(yè)務許可證豁免證明
- 特發(fā)性肺纖維化IPF
- FIDIC國際合同條款中英文對照.doc
- 建筑工程資料歸檔立卷分類表(全)
- 個人勞動仲裁申請書
評論
0/150
提交評論