ODCC-2024 跨集群訓(xùn)練(Region Scale AI)技術(shù)需求報(bào)告_第1頁(yè)
ODCC-2024 跨集群訓(xùn)練(Region Scale AI)技術(shù)需求報(bào)告_第2頁(yè)
ODCC-2024 跨集群訓(xùn)練(Region Scale AI)技術(shù)需求報(bào)告_第3頁(yè)
ODCC-2024 跨集群訓(xùn)練(Region Scale AI)技術(shù)需求報(bào)告_第4頁(yè)
ODCC-2024 跨集群訓(xùn)練(Region Scale AI)技術(shù)需求報(bào)告_第5頁(yè)
已閱讀5頁(yè),還剩51頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

[編號(hào)ODCC-2024-05008]開(kāi)放數(shù)據(jù)中心標(biāo)準(zhǔn)推進(jìn)委員會(huì)2024.08發(fā)布OCCH2024-05003版權(quán)聲明轉(zhuǎn)載、摘編或利用其它方式使用ODCC成果中的文字或者觀點(diǎn)的,應(yīng)注明OCCH2024-05003編寫(xiě)組 1 1 3 4(一)單數(shù)據(jù)中心物理資源受限 4 5 6 6 7 11 13 14(三)從對(duì)稱(chēng)傳輸?shù)讲粚?duì)稱(chēng)傳輸 (二)跨域集合通信算子,完成數(shù)據(jù)并行過(guò)程 19 202.可靠擁塞檢測(cè),精準(zhǔn)識(shí)別擁塞報(bào)文,從而做出正確的調(diào)整 3.快速擁塞感知,及時(shí)做出擁塞控制響應(yīng),避免擁塞導(dǎo)致性 OCCH2024-05003AI模型的發(fā)展正在以驚人的速度推進(jìn),預(yù)計(jì)在未來(lái)五年內(nèi),其參數(shù)數(shù)量將達(dá)到數(shù)萬(wàn)億級(jí)別。為了滿(mǎn)足如此龐大的計(jì)算需求,AI集群正在不斷升級(jí)。然而,單一AI集群受到電力供應(yīng)等物理因素題,難以承載大規(guī)模的AI訓(xùn)練任務(wù)。為應(yīng)對(duì)這些AI集群建設(shè)的需求,通過(guò)整合跨地理位置的計(jì)算資源(例如跨數(shù)據(jù)OCCH2024-05003OCCH2024-05003跨集群訓(xùn)練(RegionScaleAI)技術(shù)需求報(bào)告一、大模型發(fā)展迅猛,AI集群規(guī)模日益擴(kuò)大2022年11月,OpenAI推出了ChatGPT,這款應(yīng)用迅速成為歷史上增長(zhǎng)最快的消費(fèi)軟件,僅在兩個(gè)月內(nèi)就吸引了超過(guò)1億用戶(hù)。并能夠準(zhǔn)確理解語(yǔ)言的復(fù)雜性。ChatGPT的問(wèn)世被視為生成式AI模型利用自注意力機(jī)制,能夠更有效地處理長(zhǎng)序列數(shù)據(jù),并解決了RNN在長(zhǎng)距離依賴(lài)關(guān)系處理上的局限性。這種架構(gòu)允許模型在訓(xùn)練架構(gòu)的GPT系列模型,通過(guò)大規(guī)模的數(shù)據(jù)和參數(shù)訓(xùn)練,展示了強(qiáng)大1OCCH2024-05003模型的開(kāi)發(fā),推動(dòng)了生成式AI技術(shù)的迅猛發(fā)展。以O(shè)penAI、Meta過(guò)增加模型的規(guī)模和復(fù)雜度以獲得更好的性能。如圖2所示。以尚未發(fā)布,但OpenAI表示其性能遠(yuǎn)超GPT-4,預(yù)計(jì)使用了30萬(wàn)億2(二)大模型需要大規(guī)模集群的支撐模型規(guī)模的增加意味著訓(xùn)練這些模型所需的計(jì)算能力也在顯著增長(zhǎng)。粗略地說(shuō),計(jì)算需求可以用公式F=6PD來(lái)表示,其中F代表計(jì)算能力需求增加了10000倍。AI集群作為算力基礎(chǔ)設(shè)施,通過(guò)將多個(gè)計(jì)算機(jī)節(jié)點(diǎn)/訓(xùn)練加速卡連接起來(lái),形成協(xié)同工作的計(jì)算環(huán)境,盡管用于人工智能訓(xùn)練的加速器也在不斷發(fā)展,例如Nvidia最群的規(guī)模從數(shù)千個(gè)加速器增加到數(shù)萬(wàn)個(gè),甚至3二、單集群訓(xùn)練在大模型時(shí)代面臨挑戰(zhàn)(一)單數(shù)據(jù)中心物理資源受限將AI集群建設(shè)在單個(gè)數(shù)據(jù)中心內(nèi)會(huì)受到物4OCCH2024-05003隨著未來(lái)集群規(guī)模達(dá)到十萬(wàn)卡級(jí)別,AI集群的電力需求將超過(guò)程工作。一個(gè)大型AI集群的建設(shè)從規(guī)劃到投入使在快速變化的AI領(lǐng)域,計(jì)算需求可能在短時(shí)間內(nèi)劇增,而單個(gè)數(shù)據(jù)(二)單點(diǎn)算力資源碎片化響整體運(yùn)營(yíng)成本。整合集群中的碎片算力來(lái)承載云上大規(guī)模A5OCCH2024-05003些集群分布零散且規(guī)模較小,難以單獨(dú)應(yīng)對(duì)大規(guī)模AI訓(xùn)練的三、RegionScaleAI成為未來(lái)發(fā)展的新趨勢(shì)RegionscaleAI指的是在一定距離范圍內(nèi),如Region級(jí)別,整個(gè)機(jī)房、單個(gè)地理位置,而是通過(guò)跨地理位置,如跨DC,或跨AZ集群進(jìn)行訓(xùn)練。如圖5所示。6聯(lián)合多個(gè)AI集群:利用多個(gè)分布在不同位置的AI集群的計(jì)算的訓(xùn)練卡的訓(xùn)練任務(wù),這意味著可以處理非常龐大和復(fù)雜的AI模型提高資源利用率:通過(guò)整合和優(yōu)化分布在不同區(qū)域的計(jì)算資源,Ultra跨多個(gè)數(shù)據(jù)中心進(jìn)行分布式聯(lián)合訓(xùn)練。Gemini團(tuán)隊(duì)在其文章《AFamilyofHighlyCapableMultimodal加速器由高速芯片間互連進(jìn)行通信,但在GeminiUltra這樣大規(guī)模接起來(lái),聯(lián)合完成訓(xùn)練。(二)業(yè)界研究給RegionScaleAI帶來(lái)啟示7OCCH2024-05003“Singularity”框架。如圖6所示。這一框架旨在支持全球范圍(Planet-scale)內(nèi)AI任務(wù)調(diào)度,支持任務(wù)的可搶占、可遷移和彈性伸縮。Singularity框架通過(guò)將單個(gè)的高效遷移和彈性伸縮。8OCCH2024-05003group)來(lái)實(shí)現(xiàn)高效的訓(xùn)練。如圖7所示,在每個(gè)分區(qū)組內(nèi),兩個(gè)訓(xùn)練卡共同持有模型狀態(tài)的完整副本,而在每個(gè)復(fù)制組(replicationgroup)中的訓(xùn)練卡則持有模型狀態(tài)的相同部分。這種模型切分布放DeepSpeed,主要針對(duì)同構(gòu)數(shù)據(jù)中心的部署情況進(jìn)行設(shè)計(jì),對(duì)計(jì)算資9OCCH2024-05003決方案,如圖8所示,通過(guò)將IP和光網(wǎng)絡(luò)層的功能融合,簡(jiǎn)化了網(wǎng)OCCH2024-05003絡(luò)信號(hào)調(diào)制為不同波長(zhǎng)的光信號(hào),再通過(guò)無(wú)源的合分波光纖/設(shè)備將多路400G彩光信號(hào)復(fù)用到一條光纖中,再通過(guò)可插拔模塊化的開(kāi)圖9RON技術(shù)方案四、RegionScaleAI對(duì)計(jì)算與網(wǎng)絡(luò)提出新的需求(一)從帶寬無(wú)收斂組網(wǎng)到帶寬有收斂組網(wǎng)采用無(wú)收斂的組網(wǎng)方式,以保證能夠高效地傳輸AI模型參數(shù)數(shù)據(jù)。這是因?yàn)锳I參數(shù)同步過(guò)程往往涉及大規(guī)模的數(shù)據(jù)傳輸,對(duì)網(wǎng)絡(luò)帶寬節(jié)點(diǎn)需要與另一集群中的訓(xùn)練節(jié)點(diǎn)進(jìn)行參數(shù)同步,這就要求AI流量OCCH2024-05003AI流量。這意味著,跨集群訓(xùn)練過(guò)程中,網(wǎng)絡(luò)帶寬將會(huì)有收斂點(diǎn)。圖10帶寬收斂網(wǎng)絡(luò)(二)從短距離傳輸?shù)介L(zhǎng)距離傳輸AI流量由單集群的數(shù)據(jù)中心內(nèi)傳輸,擴(kuò)展到跨集群的數(shù)據(jù)中心間傳輸時(shí),傳輸距離顯著增加,這對(duì)AI訓(xùn)練性能帶來(lái)了影響,主要OCCH2024-05003圖11影響吞吐的因素?zé)o論是TCP還是RoCEv2協(xié)議,都遵循BDP理論,需要將報(bào)文填滿(mǎn)的負(fù)載均衡策略可能失效。在單集群環(huán)境中,參數(shù)面通常采用leaf-spine這樣的兩層clos拓?fù)?,流量沖突主要集中在特定單一的位OCCH2024-05003(三)從對(duì)稱(chēng)傳輸?shù)讲粚?duì)稱(chēng)傳輸置為16。在這種配置下,模型被均勻地切OCCH2024-05003且,DP和TP都通過(guò)集合通信AllReduce操作在相應(yīng)的GPU之間進(jìn)行數(shù)據(jù)交換。常見(jiàn)的AllReduce算子實(shí)現(xiàn)包括Half-doubling算法和圖12DP/PP/TP三維并行模型切分圖13AllReduce算子實(shí)現(xiàn)這種訓(xùn)練卡數(shù)量的差異導(dǎo)致集合通信的雙邊不對(duì)等關(guān)系。如圖1示,AllReduceHalf-doubling算法中,紅色通信代表跨域長(zhǎng)距傳輸,OCCH2024-05003圖14集合通信雙邊不對(duì)等—AllReduceHD布放和調(diào)度方案,將模型均勻切分到訓(xùn)練卡上,性能較弱的訓(xùn)練卡圖15集合通信雙邊不對(duì)等—AllReduceRingOCCH2024-05003五、RegionScaleAI技術(shù)展望(一)基于算力感知的模型布放和算力調(diào)度度策略。例如,在流水并行模式中,所有PP平面都使用相OCCH2024-05003(二)跨域集合通信算子,完成數(shù)據(jù)并行過(guò)程的AllReduce操作中。首先,將AllReduce集合通信算子采用分段處文提到的Half-doubling類(lèi)型的算法,存在跨域全量卡同時(shí)互發(fā)數(shù)據(jù)OCCH2024-05003圖16HD算法跨域全量卡數(shù)據(jù)傳輸OCCH2024-05003(三)高吞吐長(zhǎng)距確定性傳輸互聯(lián)帶寬是長(zhǎng)距傳輸基

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論