中國(guó)信通院-高質(zhì)量大模型基礎(chǔ)設(shè)施研究報(bào)告(2024年)_第1頁(yè)
中國(guó)信通院-高質(zhì)量大模型基礎(chǔ)設(shè)施研究報(bào)告(2024年)_第2頁(yè)
中國(guó)信通院-高質(zhì)量大模型基礎(chǔ)設(shè)施研究報(bào)告(2024年)_第3頁(yè)
中國(guó)信通院-高質(zhì)量大模型基礎(chǔ)設(shè)施研究報(bào)告(2024年)_第4頁(yè)
中國(guó)信通院-高質(zhì)量大模型基礎(chǔ)設(shè)施研究報(bào)告(2024年)_第5頁(yè)
已閱讀5頁(yè),還剩77頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

高質(zhì)量大模型基礎(chǔ)設(shè)施研究報(bào)告中國(guó)信息通信研究院人工智能研究所2025年1月版權(quán)聲明本報(bào)告版權(quán)屬于中國(guó)信息通信研究院,并受法律保護(hù)。轉(zhuǎn)載、摘編或利用其它方式使用本報(bào)告文字或者觀點(diǎn)的,應(yīng)注明“來(lái)源:中國(guó)信息通信研究院”。違反上述聲明者,本院將追究其相關(guān)法律責(zé)任。網(wǎng)絡(luò)、開(kāi)發(fā)工具鏈和運(yùn)維管理,系統(tǒng)梳理了大提出的新需求,剖析基礎(chǔ)設(shè)施發(fā)展的關(guān)鍵技術(shù)指標(biāo)。同時(shí),通過(guò)分析業(yè)界典型實(shí)踐案例,為模型的規(guī)模化應(yīng)用提供有力支撐。本報(bào)告力求為相 1 4 6 7 15 23 27 33 35 1 2 7 20 24 30 25 261一、大模型基礎(chǔ)設(shè)施概述(一)大模型基礎(chǔ)設(shè)施概念與特性來(lái)源:中國(guó)信息通信研究院2來(lái)源:中國(guó)信息通信研究院高可用是指在提高大模型基礎(chǔ)設(shè)施平均無(wú)故障運(yùn)行時(shí)間(Mean),可用度是指大模型基礎(chǔ)設(shè)施集群在一定時(shí)間內(nèi)提供正常服務(wù)的度普遍低于50%。Meta50000+卡訓(xùn)練任務(wù)1和OpenAIGPT-4250001Meta."BuildingMeta’sGenAIInfrastructure"./2024/03/12/data-center-engineering/building-metas-genai-infrastructure/.3基礎(chǔ)設(shè)施發(fā)生故障后修復(fù)所需的平均時(shí)間,關(guān)力利用率(HardwareFLOPsUtilizati2Jiang,Ziheng,etal."MegaScale:ScalinglargelanguagemodelUSENIXSymposiumonNetworkedSystemsDesignandImpleme4(二)大模型基礎(chǔ)設(shè)施現(xiàn)狀技術(shù)方面,AI存儲(chǔ)能力提升,進(jìn)一步提高基礎(chǔ)設(shè)施可用度。橡5據(jù)存取速度,華為、清華大學(xué)MADSys實(shí)驗(yàn)室聯(lián)合開(kāi)發(fā)的高密高性能AI存儲(chǔ)獲得MLPerfStorage基準(zhǔn)評(píng)測(cè)第一名,為大頭紛紛加大在大模型基礎(chǔ)設(shè)施方面的投入,均已形成涵蓋“AI計(jì)算平臺(tái)+AI開(kāi)發(fā)平臺(tái)+大模型”的全產(chǎn)業(yè)生態(tài)。如百度智能),清潔、可靠的能源解決方案。2024年6月德國(guó)發(fā)布《人工智能計(jì)算 3車(chē)碧瑤等."運(yùn)營(yíng)商大模型硬件基礎(chǔ)設(shè)施創(chuàng)新及RDMA流量控制技術(shù)研究."信息通信技術(shù)與政策002(2024):050.6國(guó)家創(chuàng)新要素供給,指導(dǎo)智能基礎(chǔ)設(shè)施有序布二、大模型基礎(chǔ)設(shè)施挑戰(zhàn)4顯示,算力規(guī)模增加的同時(shí),集群可用度明顯下降。大模型全生4D.Narayanan,etal,"EfficientLarge-ScaleLanguageModelTrainingonGPUClustersUsingMegatronInternationalConferenceforHighPerformanceComputing,NetwLouis,MO,USA,2021,pp.1-14.7來(lái)源:中國(guó)信息通信研究院(一)計(jì)算資源分配粗放,利用率低成為新難題模型對(duì)計(jì)算資源的需求日益擴(kuò)增,要求計(jì)算可用資源總量進(jìn)行限制,極易導(dǎo)致資源分配混亂,導(dǎo)致資源碎片化。5DylanPatelandGeraldWong."Demystifrarchitecture"./p/gpt-4-architectur8面,業(yè)務(wù)在進(jìn)行模型部署時(shí)會(huì)綁定固定的算力資源,可能出現(xiàn)多個(gè)AI推理任務(wù)搶占一張推理卡的情況,而其他推理卡還有空余資源,圍繞AI計(jì)算芯片設(shè)計(jì)的算力調(diào)度系統(tǒng)存在資源超額申請(qǐng)前算力調(diào)度多將AI計(jì)算芯片作為影響任務(wù)性能表現(xiàn)的略了基礎(chǔ)設(shè)施中的CPU、內(nèi)存、網(wǎng)絡(luò)等其他維度資源的影響。為保(二)海量數(shù)據(jù)處理低效,數(shù)據(jù)存儲(chǔ)成為新瓶頸數(shù)據(jù)總量和質(zhì)量決定了大模型能力的上限。根據(jù)“尺度定律(ScalingLaw)”,增加訓(xùn)練數(shù)據(jù)量,大模型訓(xùn)練效果會(huì)越來(lái)越好,Gemini等多模態(tài)大模型發(fā)展帶動(dòng)訓(xùn)練數(shù)據(jù)需求十倍、百倍級(jí)增長(zhǎng)。海量數(shù)據(jù)的準(zhǔn)備效率和數(shù)據(jù)在全流程間的流轉(zhuǎn)效率是影響大模型端到端生產(chǎn)成本的核心要素,AI存儲(chǔ)是解決數(shù)據(jù)歸集時(shí)間長(zhǎng)、數(shù)據(jù)處9難。鄭緯民院士論文顯示6,任一模態(tài)數(shù)據(jù)集可能包含數(shù)億甚至數(shù)百億小文件,存儲(chǔ)100億小文件需管理7TB元訓(xùn)練階段檢查點(diǎn)(Checkpoint)文件讀寫(xiě)效率低。為提高大模型例6,需保存近12TB的模型參數(shù)到檢查點(diǎn)文件中,在未經(jīng)優(yōu)外部知識(shí)庫(kù)的引入要求AI存儲(chǔ)具備高效的高維數(shù)據(jù)處理能力和復(fù)雜(三)并行計(jì)算規(guī)模攀升,網(wǎng)絡(luò)通信成為新阻礙向擴(kuò)展(ScaleOut)和縱向擴(kuò)展(ScaleUp)網(wǎng)絡(luò)提出極大挑戰(zhàn)。縱向擴(kuò)展互聯(lián)層面,網(wǎng)絡(luò)需承載數(shù)據(jù)并行(DataParallel,DP)和流水練通信特征不規(guī)整、上下行ECMP(EqualCostMultiPath)選路不均網(wǎng)絡(luò)規(guī)劃需綜合考慮AI服務(wù)器的端口需求和存儲(chǔ)需求。以樣本面網(wǎng)絡(luò)為例,其關(guān)聯(lián)計(jì)算區(qū)和存儲(chǔ)區(qū)。模型訓(xùn)練時(shí),一是AI計(jì)算節(jié)點(diǎn)從存儲(chǔ)區(qū)加載AI模型,讀取訓(xùn)練數(shù)據(jù)集。大模型訓(xùn)練過(guò)程中訓(xùn)練取。二是AI計(jì)算節(jié)點(diǎn)通過(guò)樣本網(wǎng)絡(luò)將檢查點(diǎn)文件和訓(xùn)練模型寫(xiě)入存(四)模型參數(shù)急劇增長(zhǎng),開(kāi)發(fā)效率成為新約束大模型訓(xùn)練資源需求普遍較大。大模型參數(shù)規(guī)模大,與判別式AI模型相比,模型訓(xùn)練時(shí)計(jì)算和存儲(chǔ)需求顯著增加,依賴(lài)分布式技捷地進(jìn)行模型訓(xùn)練、調(diào)優(yōu)、配置和管理大規(guī)模并模型微調(diào)、提示工程等增量環(huán)節(jié)帶來(lái)開(kāi)發(fā)工具新需求。一方面,數(shù)數(shù)量,該技術(shù)需要開(kāi)發(fā)平臺(tái)能夠靈活地處理模型參數(shù)的調(diào)整和優(yōu)化。另一方面,提示工程需輸入提示引導(dǎo)模型生成特定輸出,要求時(shí)至少需要6張V100GPU才能有效運(yùn)行。高昂的計(jì)算和存儲(chǔ)成本芯片+Pytorch框架”體系已成為大模型訓(xùn)練的事實(shí)標(biāo)準(zhǔn)和默認(rèn)規(guī)則。中使用占比超過(guò)80%,在HuggingFace開(kāi)源社區(qū)中,85%的大模型(五)基礎(chǔ)設(shè)施故障率高,運(yùn)維能力成為新挑戰(zhàn)運(yùn)維需要深度協(xié)同AI業(yè)務(wù)。隨著智算集群規(guī)模擴(kuò)大,集群運(yùn)維管控訓(xùn)練作業(yè)中斷頻繁,業(yè)界超萬(wàn)卡集群持續(xù)穩(wěn)定運(yùn)行時(shí)間較短。Meta斷達(dá)419次,其中78%已確認(rèn)或懷疑是硬件問(wèn)題導(dǎo)致。Meta的自動(dòng)重啟約70次。另一方面,大模型基礎(chǔ)設(shè)施故障種類(lèi)多、復(fù)雜系三、大模型基礎(chǔ)設(shè)施關(guān)鍵技術(shù)(一)高效算力管理調(diào)度技術(shù)源消耗并提高了資源利用率,尤其適用于快速部署和擴(kuò)適配不同品牌和型號(hào)的AI加速卡,但異構(gòu)并行計(jì)算實(shí)現(xiàn)難度較大。技術(shù)正在加速演進(jìn),通過(guò)建立“轉(zhuǎn)譯”機(jī)制等手段,拉齊各異構(gòu)AI芯(二)高性能大模型存儲(chǔ)技術(shù)KV-cache技術(shù)實(shí)現(xiàn)長(zhǎng)記憶存儲(chǔ),助力大模型推理降本增效。一顯著增加,通過(guò)KV-cache緩存機(jī)制,可以有效降低模型長(zhǎng)序基于高性能長(zhǎng)記憶存儲(chǔ)技術(shù)構(gòu)建的多級(jí)KV-cache緩存機(jī)制,實(shí)現(xiàn)從持久化的KV-cache“長(zhǎng)記憶”中調(diào)取前期已執(zhí)行過(guò)的計(jì)算結(jié)跳直達(dá),消除CPU處理瓶頸,極大地提升了數(shù)據(jù)從存儲(chǔ)到加速卡的傳輸效率,在檢查點(diǎn)狀態(tài)數(shù)據(jù)保存、訓(xùn)練數(shù)據(jù)加載以及KV-cache加間和高性能讀寫(xiě)能力的并行文件系統(tǒng),在提高AI芯片訓(xùn)練推理的同時(shí),實(shí)現(xiàn)數(shù)據(jù)在所有存儲(chǔ)節(jié)點(diǎn)上均衡分布。同時(shí)TB/s級(jí)帶寬和億級(jí)IOPS支持能力,可實(shí)現(xiàn)萬(wàn)卡集群數(shù)據(jù)供數(shù)據(jù)庫(kù)高可用保障,消除單點(diǎn)故障引發(fā)重新建(三)高通量大規(guī)模網(wǎng)絡(luò)技術(shù)協(xié)議定義了一套全新的層次架構(gòu),從鏈路層到傳輸層,不存在ARP議,由RoCE規(guī)范在以太網(wǎng)上實(shí)現(xiàn)了RDMA功能,其主要優(yōu)勢(shì)在于延遲較低,可提高網(wǎng)絡(luò)利用率;同時(shí)其可避開(kāi)TCP協(xié)議并采用硬件以針對(duì)AI訓(xùn)練場(chǎng)景下的流量特點(diǎn),將搜集到的整網(wǎng)信息作行轉(zhuǎn)發(fā),從而避免多條流選擇同一路徑而導(dǎo)致?lián)砣F髽I(yè)利用DPU排等機(jī)制還原原始流量,可實(shí)現(xiàn)整網(wǎng)吞吐達(dá)到90%以上。參數(shù)面、存儲(chǔ)面/樣本面、業(yè)務(wù)面、帶外管理面網(wǎng)絡(luò)互聯(lián),助力絡(luò)、存儲(chǔ)、AI開(kāi)發(fā)軟件和運(yùn)維的多系統(tǒng)協(xié)調(diào)。訓(xùn)練前,訓(xùn)練數(shù)據(jù)集及訓(xùn)練模型需通過(guò)存儲(chǔ)面網(wǎng)絡(luò)導(dǎo)入存儲(chǔ)系統(tǒng),AI開(kāi)發(fā)平臺(tái)需通過(guò)業(yè)務(wù)面網(wǎng)絡(luò)和帶內(nèi)管理網(wǎng)絡(luò)下發(fā)訓(xùn)練任務(wù),訓(xùn)練任務(wù)鏡像、AI模型、訓(xùn)練數(shù)據(jù)集需通過(guò)樣本面網(wǎng)絡(luò)加載到計(jì)算區(qū)的AI計(jì)算節(jié)點(diǎn)中。訓(xùn)練文件到AI計(jì)算節(jié)點(diǎn)。訓(xùn)練完成后,模型通過(guò)樣本網(wǎng)絡(luò)寫(xiě)入系統(tǒng),通來(lái)源:昇騰社區(qū)(四)高效能大模型開(kāi)發(fā)技術(shù)域任務(wù)。二是參數(shù)高效微調(diào)(PEFT)技術(shù),能夠顯著節(jié)省訓(xùn)練時(shí)間可實(shí)現(xiàn)壓縮流程自動(dòng)化,商湯的神經(jīng)網(wǎng)絡(luò)量化工具PPQ通過(guò)圖優(yōu)化該領(lǐng)域,如騰訊推出的一念LLM同時(shí)支持英偉達(dá)GPU和華螞蟻的GLake通過(guò)對(duì)鍵值對(duì)緩存實(shí)現(xiàn)透明管理和存算解耦,進(jìn)一步(五)高容錯(cuò)大模型運(yùn)維技術(shù)如芯片算力測(cè)試、帶寬測(cè)試、HBM測(cè)試、功耗測(cè)試、HCC卡異常、掉卡、網(wǎng)絡(luò)流量異常等進(jìn)行完善的修復(fù),從而大幅提高運(yùn)維工作的自動(dòng)化和智四、高質(zhì)量大模型基礎(chǔ)設(shè)施評(píng)價(jià)指標(biāo) 大模型基礎(chǔ)設(shè)施評(píng)價(jià)體系需綜合考慮大模型的技術(shù)能力和性能來(lái)源:中國(guó)信息通信研究院(二)指標(biāo)定義來(lái)源:中國(guó)信息通信研究院大模型基礎(chǔ)設(shè)施集群在一定時(shí)間內(nèi)提供正常服務(wù)的平均無(wú)故障從開(kāi)始運(yùn)行到發(fā)生首次故障的平均時(shí)間,簡(jiǎn)稱(chēng)MTTF平均無(wú)故障基礎(chǔ)設(shè)施能硬件算力利模型的實(shí)際計(jì)算需求與其理論最大計(jì)算能力之間的芯片片間互集群節(jié)點(diǎn)間網(wǎng)絡(luò)數(shù)據(jù)吞模型算力利模型訓(xùn)練過(guò)程中實(shí)際使用的吞吐量與其理論可用吞訓(xùn)練平均吞吐模型壓縮精平均故障定平均故障恢發(fā)生故障后修復(fù)所需的平均時(shí)間,簡(jiǎn)稱(chēng)MTTR(Mean來(lái)源:中國(guó)信息通信研究院五、高質(zhì)量大模型基礎(chǔ)設(shè)施典型實(shí)踐(一)案例一:Meta大模型基礎(chǔ)設(shè)施實(shí)踐新的兩個(gè)大模型計(jì)算集群技術(shù)細(xì)節(jié)。每個(gè)集群均配備了24576個(gè)NVIDIATensorCoreH100GPU,與既有集群相比在計(jì)算、存儲(chǔ)、網(wǎng)計(jì)算方面,一是改進(jìn)了任務(wù)列表(jobscheduler),針對(duì)內(nèi)部作來(lái)源:Meta網(wǎng)絡(luò)方面,Meta集群采用兩種網(wǎng)絡(luò)方案。一是采用基于Arista7800的RoCE網(wǎng)絡(luò)結(jié)構(gòu)解決方案,并配備了Wedge400和Minipack2OCP機(jī)架交換機(jī)。二是選用NVIDIAQuantum2InfiniBand架構(gòu)。兩種解決方案均支持400Gbps端點(diǎn)連接。Meta通過(guò)網(wǎng)絡(luò)、軟),訓(xùn)練期間未遇到任何網(wǎng)絡(luò)瓶頸問(wèn)題。由此可見(jiàn),RoCE和IB組網(wǎng)的API,并結(jié)合了針對(duì)閃存介質(zhì)優(yōu)化的Meta“Tectonic決方案,實(shí)現(xiàn)數(shù)千個(gè)GPU同步保存和加載檢查網(wǎng)絡(luò)文件系統(tǒng),支持書(shū)簽GPU交互式調(diào)試,實(shí)現(xiàn)代碼更改即時(shí)對(duì)所機(jī)架數(shù)量減少以及功率效率之間的平衡,同時(shí)借助OCP服務(wù)器的模塊化設(shè)計(jì),對(duì)存儲(chǔ)層進(jìn)行靈活擴(kuò)展,提高日常維護(hù)的容軟件方面,Meta利用MAIProf識(shí)別大模型訓(xùn)練過(guò)程中的性能瓶的Python函數(shù)調(diào)用進(jìn)行全過(guò)程跟蹤,發(fā)現(xiàn)性能異常是因?yàn)榭膳渲脜⒑投鄰埩績(jī)?yōu)化器進(jìn)行優(yōu)化,實(shí)現(xiàn)了性能優(yōu)化。Meta通過(guò)訓(xùn)練框架優(yōu)(二)案例二:螞蟻集團(tuán)大模型基礎(chǔ)設(shè)施實(shí)踐來(lái)源:螞蟻集團(tuán)存儲(chǔ)方面,利用KV-cache技術(shù)解決大模型推理顯存容量瓶頸與存占用。二是提出并實(shí)現(xiàn)對(duì)于KV-cache),軟件方面,采用分布式訓(xùn)練加速技術(shù),利用其自研的PyTorch試結(jié)果顯示,在Hopper架構(gòu)硬件上可平均提速運(yùn)維方面,一是基于DLRover實(shí)現(xiàn)分布式訓(xùn)練容錯(cuò)。針對(duì)大模即可實(shí)現(xiàn)訓(xùn)練任務(wù)的自動(dòng)恢復(fù)。二是基于螞蟻?zhàn)匝械臒o(wú)痛升級(jí)技術(shù),效,其中訓(xùn)練的算力利用率達(dá)到了62%,有效訓(xùn)練時(shí)長(zhǎng)占比達(dá)到了99%,推理的TTFT降低了69倍,推理QPS提高了7.(三)案例三:某科技公司大模型基礎(chǔ)設(shè)施實(shí)踐寫(xiě)耗時(shí)久,千卡以上集群平均每天故

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論