面向超萬卡集群的新型智算技術(shù)白皮書-3_第1頁
面向超萬卡集群的新型智算技術(shù)白皮書-3_第2頁
面向超萬卡集群的新型智算技術(shù)白皮書-3_第3頁
面向超萬卡集群的新型智算技術(shù)白皮書-3_第4頁
面向超萬卡集群的新型智算技術(shù)白皮書-3_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

中國移動中移智庫面向超萬卡集群的新型智算技術(shù)白皮書 11.1大模型驅(qū)動智能算力爆發(fā)式增長 11.2超萬卡集群的建設(shè)正在提速 1 4 4 42.3超大規(guī)?;ヂ?lián)的挑戰(zhàn) 52.4集群高可用和易運維挑戰(zhàn) 5 6第三章:超萬卡集群的核心設(shè)計原則和總體 83.1超萬卡集群的核心設(shè)計原則 8 8第四章:超萬卡集群關(guān)鍵技術(shù) 4.1集群高能效計算技術(shù) 4.2高性能融合存儲技術(shù) 4.3大規(guī)模機(jī)間高可靠網(wǎng)絡(luò)技術(shù) 4.4高容錯高效能平臺技術(shù) 4.5新型智算中心機(jī)房設(shè)計 縮略語列表 28 1大模型所使用的數(shù)據(jù)量和參數(shù)規(guī)模呈現(xiàn)“指數(shù)級”增長,2018年BERT模型參數(shù)量僅有1.1億,到2021年GPT-3達(dá)到了1750億。隨著MixtureofExperts(MoE)據(jù)公開信息報道,GPT-3訓(xùn)練所消耗的電力,相當(dāng)于美國約121個家庭一整年的用電量。GPT-4擁有16個專家模型共1.8萬億參數(shù),一次訓(xùn)練需要在大約25000個A100上訓(xùn)練90到100天。大模型對底層算力、空間、水電能源產(chǎn)生極大消耗,對2未來科技趨勢的深遠(yuǎn)布局。超級計算機(jī)A3VirtualMachines,擁有26000塊NvidiaH100GPU,同時基于自研芯片搭建TPUv5p8960卡集群。Meta在2022年推出了一個擁有16,000塊24576塊NvidiaH100集群,用于支持下一代生成式AI模型的訓(xùn)練。這些企業(yè)通過成千上萬臺服務(wù)器組成的集群計算優(yōu)勢,不斷優(yōu)化服務(wù)架構(gòu),提升用戶體驗,加速新技術(shù)的市場轉(zhuǎn)化與應(yīng)用。在國內(nèi),通信運營商、頭部互聯(lián)網(wǎng)、大型AI研發(fā)企業(yè)、AI初創(chuàng)企業(yè)等均在超萬卡集群的建設(shè)和使用過程中不斷推動技術(shù)革新。(一)通信運營商作為國家算力基礎(chǔ)設(shè)施建設(shè)的中堅力量,利用其龐大的機(jī)房資源和配套設(shè)施優(yōu)勢,正加速推進(jìn)超萬卡集群智算中心的建設(shè)。這一舉措不僅為運營商自身的大模型研發(fā)提供強(qiáng)大的計算支持,同時也為政府、高校和企業(yè)客戶帶來了前所未有的高質(zhì)量智算服務(wù)。隨著智算中心建設(shè)的不斷深入,運營商站在連接技術(shù)創(chuàng)新與行業(yè)應(yīng)用的關(guān)鍵位置,其在推動社會數(shù)字化轉(zhuǎn)型和智能化升級中的引領(lǐng)作用日益凸顯。(二)頭部互聯(lián)網(wǎng)企業(yè)作為技術(shù)創(chuàng)新的先鋒,通過建設(shè)超萬卡集群來加速其在云計算、大數(shù)據(jù)分析和大模型研發(fā)等領(lǐng)域的突破。字節(jié)跳動、阿里巴巴、百度為代表的互聯(lián)網(wǎng)公司在積極推進(jìn)超萬卡集群的建設(shè)。其中,字節(jié)跳動搭建了一個言模型[5]。通過集群的強(qiáng)大計算力,這些頭部互聯(lián)網(wǎng)公司不僅加速了自身業(yè)務(wù)的數(shù)字化轉(zhuǎn)型,也為國內(nèi)科技產(chǎn)業(yè)的發(fā)展貢獻(xiàn)了創(chuàng)新動力。(三)大型AI研發(fā)企業(yè)出于對大規(guī)模模型訓(xùn)練和復(fù)雜算法計算的迫切需求,正在積極投建超萬卡集群。這些公司作為人工智能領(lǐng)域的先行者,正積極投建超萬卡集群以滿足其大模型的計算需求。如科大訊飛,2023年建設(shè)成首個支持大模型訓(xùn)練的超萬卡集群算力平臺“飛星一號”。此類集群的建立,不僅為這3些企業(yè)在AI領(lǐng)域的深入研究提供了必須的算力支撐,也為他們在智算服務(wù)的商業(yè)應(yīng)用中贏得了先機(jī)。(四)AI初創(chuàng)企業(yè)則更傾向于采取靈活的租用模式,利用已有的超萬卡集群來支持其創(chuàng)新項目。這些企業(yè)為了能夠?qū)崿F(xiàn)應(yīng)用和投入平衡,大多對基礎(chǔ)設(shè)施采取靈活的租用模式,利用超萬卡集群的強(qiáng)大計算能力來支持其創(chuàng)新項目。這種模式降低了初創(chuàng)企業(yè)的初始投資門檻,使他們能夠快速獲得高性能的計算資源,加速產(chǎn)品的研發(fā)和迭代。整體而言,無論是通信運營商、頭部互聯(lián)網(wǎng)企業(yè)、大型AI研發(fā)企業(yè)還是AI初創(chuàng)企業(yè),都在通過自建或使用超萬卡集群加速其在人工智能領(lǐng)域的技術(shù)突破和產(chǎn)業(yè)創(chuàng)新。隨著超萬卡集群建設(shè)的不斷深入,我們預(yù)見這一趨勢將為整個智算產(chǎn)業(yè)的發(fā)展帶45并行(PipelineParallel,PP)流量,參數(shù)面網(wǎng)絡(luò)帶寬需達(dá)到200Gbps至400Gbps,數(shù)據(jù)面網(wǎng)絡(luò)需要配備100Gbps帶寬,保證數(shù)據(jù)讀取不成為訓(xùn)練瓶的量級,而且應(yīng)突破當(dāng)前單機(jī)8卡的限制,以支持更大參數(shù)量的模型訓(xùn)練。6程,一旦發(fā)生問題定界定位復(fù)雜。業(yè)界典型硬件故障定位需1~2天,復(fù)雜應(yīng)●在供電方面,當(dāng)芯片TDP設(shè)計功率上升至400~700W,單柜功率從原先的7放量也隨之增大。以一個1.8萬卡的智算集群為例,需要布放10萬量級的8發(fā)效率超萬卡集群的總體架構(gòu)由四層一域構(gòu)成(如圖1),四層分別是機(jī)房配套、基礎(chǔ)9編排調(diào)度計量計費租戶隔離任務(wù)調(diào)度故障檢測故障隔離風(fēng)冷液冷高效供電承重設(shè)計走線架設(shè)計性能調(diào)優(yōu)日志管理應(yīng)用平臺機(jī)房配套統(tǒng)的低能耗運行。為便捷訪問顯存數(shù)據(jù),建議GPU顯存采用基于2.5D/3D堆疊的信模式下的GPU卡間通信需求。為此,建議超萬卡集群的改進(jìn)策略集中在以下幾個●加速推進(jìn)超越單機(jī)8卡的超節(jié)點形態(tài)服務(wù)器為滿足萬億或更大參數(shù)量模型的部署需求,建議產(chǎn)業(yè)界致力于研制突破單機(jī)8卡限制的超節(jié)點形態(tài)服務(wù)器,通過利用提高GPU南向的Scaleup互聯(lián)能力,提升張量并行或MoE并行對大模型訓(xùn)練任務(wù)的收益,實現(xiàn)性能躍升,縮短訓(xùn)練總時長,實●加快引入面向Scaleup的Switch芯片建議在節(jié)點內(nèi)集成支持Scaleup能力的Switch芯片,以優(yōu)化GPU南向的互聯(lián)效率和規(guī)模,增強(qiáng)張量并行或MoE并行的數(shù)據(jù)傳輸能力。如圖2所示,通過引入節(jié)點內(nèi)的Switch芯片,以增強(qiáng)GPU卡間的點對點(PointtoPoint,P2P)帶寬,有效提升節(jié)點內(nèi)的網(wǎng)絡(luò)傳輸效率,滿足大模型日益增長的GPU互聯(lián)和帶寬需求,為圖2在服務(wù)器內(nèi)部引入Switch芯片示例●優(yōu)化GPU卡間互聯(lián)協(xié)議以實現(xiàn)通信效率躍升建議對GPU卡間互聯(lián)協(xié)議進(jìn)行系統(tǒng)性優(yōu)化和重構(gòu),以提升All2All模式下的通信效率。通過重新設(shè)計卡間通信過程中的數(shù)據(jù)報文格式、引入CPO(Co-Packaged●計算引擎卸載加速I/0設(shè)備的數(shù)據(jù)路徑●存儲引擎在DPU上實現(xiàn)存儲后端接口,可基于傳統(tǒng)TCP/IP網(wǎng)絡(luò)協(xié)議?;虻蕉送ㄐ艜r延,提升多機(jī)間端到端通信帶寬至400G級別,構(gòu)建節(jié)點間數(shù)據(jù)交換的●以上述五大引擎為藍(lán)圖,中國移動于2020開始打造具有自主知識產(chǎn)權(quán)的磐石DPU,并于2021年正式推出磐石DPU版本。經(jīng)過移動云現(xiàn)網(wǎng)的打磨,中國移動持續(xù)升級磐石DPU產(chǎn)品能力,并于2024年將磐石DPU的FPGA架構(gòu)全面升級為將以磐石DPU為代表的DPU芯片融入現(xiàn)有智算中心技術(shù)體系,將算力集群由整機(jī)的散熱。面對高性能計算芯片功率密度急劇上升的現(xiàn)狀,需要通過制冷系統(tǒng)和支持超3000節(jié)點擴(kuò)展規(guī)模,為大模型訓(xùn)練提供百PB級全閃存儲大集群能力,從閃實現(xiàn)存儲集群10TB/s級聚合吞吐帶寬、億級IOPS,智能算力利用率提升20%以上,強(qiáng)一致性訪問和99.9999%可靠性能力。太網(wǎng)新一代智算中心網(wǎng)絡(luò)技術(shù),包括由中國移動主導(dǎo)的全調(diào)度以太網(wǎng)(Global瓶頸,為后續(xù)人工智能和高性能計算提供高根據(jù)不同的AI服務(wù)器規(guī)模,參數(shù)面網(wǎng)絡(luò)推薦采用Spine-Leaf兩層組網(wǎng)或胖樹Spine-Leaf兩層組網(wǎng)如圖3所示。每8臺Leaf交換機(jī)和下掛的AI服務(wù)器做AI服務(wù)器連接至Leaf交換機(jī),即所有AI服務(wù)器的1號網(wǎng)口都上連至Leafl,所有2號網(wǎng)口上連至Leaf2,依此類推,所有8號網(wǎng)口上連至Leaf8。Spine交換機(jī)和grouplAI服務(wù)器AI服務(wù)器AI服務(wù)器88在胖樹組網(wǎng)中,Spine交換機(jī)和Leaf交換機(jī)之間采用Fullmesh全連接,所有圖4胖樹組網(wǎng)加和吞吐的下降,從而損害分布式應(yīng)用的性能。AI人工智能計算場景通常采用DCQCN要求交換機(jī)對遇到擁塞的報文進(jìn)行ECN(ExplicitCongestionCostMultiPath)是基于5元組的逐流HASH,在流數(shù)少的時候極易出現(xiàn)可能會遇到硬件故障、軟件故障、網(wǎng)絡(luò)故障以及其他故障。這種頻繁中斷導(dǎo)致的訓(xùn)練進(jìn)度的損失對于耗時又耗資源的大模型訓(xùn)練來說是難以承受的,需要具備自動故障檢測和訓(xùn)練重啟。當(dāng)前業(yè)界大模型訓(xùn)練主要容錯方案依賴于訓(xùn)練過程中周期性保存checkpoint,故障發(fā)生后從上一個周期性checkpoint重新啟動訓(xùn)練?;谄脚_的運維監(jiān)控能力,可以實現(xiàn)對超萬卡集群的軟硬件故障檢測和預(yù)警,但是當(dāng)故障發(fā)生且導(dǎo)致模型訓(xùn)練中斷或停止時,通常需要人工介入排查故障信息,隔離故障并重新觸發(fā)容器pod資源調(diào)度,重新完成并行訓(xùn)練中集合通信的初始化,重新加載基于中斷前最近一次保存的checkpoint信息,最后經(jīng)歷算子庫的重新編譯,完成訓(xùn)練任務(wù)的繼續(xù)。圖5為典型的斷點續(xù)訓(xùn)流程:業(yè)是中否圖5斷點續(xù)訓(xùn)流程在斷點續(xù)訓(xùn)過程中,checkpoint是模型中斷訓(xùn)練后恢復(fù)的關(guān)鍵點,因此時間,也能支持高頻的checkpoint來減少容錯時浪費的迭代步數(shù)。業(yè)界通常采用的checkpoint數(shù)據(jù)并未丟失,新啟動的訓(xùn)練進(jìn)程可以直接讀取內(nèi)存系統(tǒng)中的練效率。為了訓(xùn)練大模型,需要將模型分布為多個GPU上,并且GPU之間需進(jìn)行大量通信。除了通信之外,如操作符優(yōu)化、數(shù)據(jù)預(yù)處理和GPU內(nèi)存消耗等因素對挑戰(zhàn)二:實現(xiàn)訓(xùn)練的高穩(wěn)定性,即在整個過程中保持高效率訓(xùn)練。在大模型訓(xùn)練中,穩(wěn)定性十分重要,失敗和延遲雖是大模型訓(xùn)練中的常態(tài),但其故障成本極高,如圖6分布式并行訓(xùn)練流程其中,每個步驟都涉及到影響模型運行效率的問題。針對如上步驟,超萬卡集群分布式框架需針對以上流程進(jìn)行優(yōu)化,且支持更多類型的模型加速訓(xùn)練技術(shù),如自動●自動3D并行策略:支持基礎(chǔ)數(shù)據(jù)并行、模型并行及流水線并行的一種或多●自動并行方案生成:根據(jù)模型結(jié)構(gòu)及參數(shù)量、現(xiàn)有硬件資源拓?fù)淝闆r、網(wǎng)絡(luò)帶被目前主流框架如TensorFlow和PyT著單集群的AI加速卡數(shù)量從從千級增長到萬級,相應(yīng)的故障范圍擴(kuò)大超過10倍。資源管理,支持填寫訓(xùn)練作業(yè)ID,查詢關(guān)聯(lián)資源,管理作業(yè)分布資源并查看相關(guān)●監(jiān)控大盤用末端小母線供電(或列頭柜預(yù)留出線回路)的機(jī)柜供電方案,提升末端供電的靈活1)引入超節(jié)點,拓展Scaleup能力:隨著大模型的進(jìn)一步發(fā)展,單純通過態(tài)將通過Scaleup發(fā)展到超節(jié)點架構(gòu),突破傳統(tǒng)單機(jī)8卡,通過內(nèi)部高速總線將OISA,音譯“歐薩”),旨在為GPU間南向通信提供優(yōu)化的連接方案。OISA將基中文解釋ArtificialIntelligen人工智能芯片到芯片DataCenterQuantizedCongesti

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論