![維諦技術(Vertiv) 智算中心基礎設施演進白皮書 2024_第1頁](http://file4.renrendoc.com/view14/M03/38/0C/wKhkGWcCmbiAa5g0AABcchw3ZCI358.jpg)
![維諦技術(Vertiv) 智算中心基礎設施演進白皮書 2024_第2頁](http://file4.renrendoc.com/view14/M03/38/0C/wKhkGWcCmbiAa5g0AABcchw3ZCI3582.jpg)
![維諦技術(Vertiv) 智算中心基礎設施演進白皮書 2024_第3頁](http://file4.renrendoc.com/view14/M03/38/0C/wKhkGWcCmbiAa5g0AABcchw3ZCI3583.jpg)
![維諦技術(Vertiv) 智算中心基礎設施演進白皮書 2024_第4頁](http://file4.renrendoc.com/view14/M03/38/0C/wKhkGWcCmbiAa5g0AABcchw3ZCI3584.jpg)
![維諦技術(Vertiv) 智算中心基礎設施演進白皮書 2024_第5頁](http://file4.renrendoc.com/view14/M03/38/0C/wKhkGWcCmbiAa5g0AABcchw3ZCI3585.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
悅動在錢keepithuning智算中心基礎設施演進智算中心基礎設施演進白皮書深知社致謝感謝《智算中心基礎設施演進白皮書》撰寫組成員(排名不分先后以及在白皮書撰寫過程中,通過深談會、特約訪談等形式分享專業(yè)觀點和經(jīng)驗的行業(yè)專家們:感謝你們的辛苦付出和努力,白皮書的每一個知識點的落實離不開你們的付出。希望《智算中心基礎設施演進白皮書》可以為通算中心(傳統(tǒng)數(shù)據(jù)中心)向智算中心(AIDC)的演進過渡中貢獻出一份力量!序言近兩年來,我們目睹了人工智能(AI)以驚人的速度發(fā)展和不斷成熟,它正在改變我們的生活、工作和與技術交互的方式,它將會徹底改變從醫(yī)療、金融到交通和娛樂等眾多行業(yè)。以ChatGPT為代表的生成式人工智能(AIGC)因其顯著的進步和廣泛的應用范圍而引起各行各業(yè)極大的關注。它能夠生成與人類語言非常相似的文本,生成高清圖片,視頻,影片,甚至編程,顛覆了大眾對人工智能(AI)的傳統(tǒng)認知,吸引了普通大眾乃至各個領域的專家的重點關注。隨著人工智能(AI)應用變得越來越普遍和具有影響力,其對算力的需求也隨之快速增長,人工智能(AI)業(yè)務負載也正在成為數(shù)據(jù)中心負載的重要組成部分,并且要求必須以集群的方式進行部署。因此,機柜的功率密度和數(shù)據(jù)中心的規(guī)模將大幅提升,給數(shù)據(jù)中心物理基礎設施(包括供配電、制冷等)帶來顛覆性的挑戰(zhàn)。換句話說,這意味著人工智能(AI)將顛覆通算中心(傳統(tǒng)數(shù)據(jù)中心)的設計和運營。為應對這些挑戰(zhàn),我們需要重新思考數(shù)據(jù)中心從IT層面到物理基礎設施層面的規(guī)劃和設計,從而建設出可以適應未來IT技術不斷發(fā)展的具有彈性和可擴展性的智算中心(AIDC)。維諦技術作為英偉達(NVIDIA)官方認可的解決方案合作伙伴,很早就開始關注智算中心(AIDC)中的物理設施基礎架構(gòu)未來究竟會有哪些顛覆性的變革。回顧數(shù)據(jù)中心行業(yè)過去30年的發(fā)展,其基礎設施層面的發(fā)展基本遵循一個線性的功耗密度提升和智能化提升的模式,維諦技術在此過程中,一直以技術和質(zhì)量來引領全球行業(yè)的發(fā)展。但是從2024年的年初開始,人工智能(AI)的發(fā)展進入類似于指數(shù)的增長曲線,從單個GPU的計算能力到集群的規(guī)模,從單機柜的功率密度到液冷的普及速度,似乎都被按下了加速鍵,數(shù)據(jù)中心行業(yè)正在經(jīng)歷一個自己的“寒武紀”。面對如此快速變化的時代,市場和行業(yè)的信息和經(jīng)驗也都是碎片化的,國家之間、企業(yè)之間、個人之間也都存在著巨大的信息壁壘,產(chǎn)業(yè)生態(tài)和技術格局存在著重大的不確定性。作為數(shù)據(jù)中心行業(yè)的全球領先企業(yè),維諦技術希望通過一種創(chuàng)新的形式,通過收集市場上分散的經(jīng)驗和信息,整理出智算中心(AIDC)的機電系統(tǒng)架構(gòu)演進趨勢和挑戰(zhàn),從而做出一個系統(tǒng)性和中立性的分析和預測,希望通過提煉出的觀點和意見,能夠?qū)?shù)據(jù)中心行業(yè)的上下游起到一定的歸納和參考意義,對數(shù)據(jù)中心行業(yè)的健康發(fā)展有一定的促進作用。而深知社(DeepKnowledgeCommunity)作為中國具有號召力的國際化數(shù)據(jù)中心產(chǎn)業(yè)工程師社群,同樣在這段時間里也在思考此類問題。經(jīng)過與維諦技術深度溝通后,受維諦技術委托,由深知社對《智算中心基礎設施演進白皮書》做系統(tǒng)的行業(yè)調(diào)研、分析、提煉以及白皮書撰寫。因此,深知社于2024年4月-6月,對國內(nèi)業(yè)已實施的智算中心、超算中心的近50位一線資深技術專家進行深度訪談和調(diào)研,并結(jié)合深知社海量的全球動態(tài)深度知識庫,由DKI(DeepKnowledgeIntelligence)研究員團隊執(zhí)筆,進行本次白皮書的撰寫。這本白皮書訪談、調(diào)研和寫作的專家和工程師均以個人名義參與,使得這本白皮書能夠最大程度以中立、系統(tǒng)和開放的角度,深度還原中國數(shù)據(jù)中心工程師群體對智算中心(AIDC)機電架構(gòu)演進和發(fā)展的經(jīng)驗和判斷。深知社深知社序言的最后,必須要感謝維諦技術編委組的專家團隊對深知社的調(diào)研和寫作過程的大力支持,維諦技術的行業(yè)大局觀、產(chǎn)業(yè)生態(tài)觀、技術發(fā)展觀同樣給此次白皮書的訪談對象和DKI研究員團隊留下深刻的印象。希望各位數(shù)據(jù)中心同行在閱讀完這本白皮書之后,對于AIDC的演進趨勢有更多、更深、更系統(tǒng)的理解。因水平和經(jīng)驗有限,這本白皮書一定會有一些不足甚至錯誤之處,如您有任何意見或疑問,也請隨時與深知社取得聯(lián)系(微信公眾號:DeepKnowledge,或官網(wǎng)網(wǎng)站我們將認真聽取您的反饋和意見,在未來不斷提升。深知社編委組2024年8月6688668891.1智能算力的發(fā)展情況概述1.2智算芯片結(jié)構(gòu)演進1.3智算用戶側(cè)訴求演進1.4機柜功耗高密度化演進1.5靜態(tài)負載向動態(tài)負載演進2.1智算中心選址2.2智算中心建筑形式2.3智算中心建筑布局2.4智算中心房間功能需求2.5智算中心裝飾裝修需求2.6已有建筑改造為智算中心20232324253.1智算中心電氣鏈路的挑戰(zhàn)3.1.1電力能源接入挑戰(zhàn)3.1.2配電與IT機房的面積比挑戰(zhàn)3.1.3電能利用率挑戰(zhàn)3.1.4能源利用效率(PUE)挑戰(zhàn)3.1.5服務器電源形式挑戰(zhàn)3.1.6智算負載分級供電的挑戰(zhàn)3.1.7末端配電方式挑戰(zhàn)3.1.8負載動態(tài)沖擊挑戰(zhàn)3.1.9環(huán)境溫度突變挑戰(zhàn)3.2智算中心供配電系統(tǒng)的演進趨勢—“智算電能管理鏈”3.2.1電力能源系統(tǒng)向“算電協(xié)同”演進3.2.2簡化供電系統(tǒng)架構(gòu)演進3.2.3智算負載分級供電演進3.2.4預制電力模組演進3.2.5UPS向MW級,超高效及高密化演進3.2.6鋰進鉛退/儲備一體演進智算中心基礎設施演進白皮書深知社3.2.7末端電壓等級提升及全直流系統(tǒng)演進3.2.8SST的前沿應用探索3.2.9包間白地板交付方式的演進3.2.10融合末端配電方式的演進3.3新能源、儲能在智算中心的應用分析3.3.1新能源在智算中心應用是必然趨勢3.3.2新能源發(fā)電在智算中心消納仍面臨諸多挑戰(zhàn)3.3.3儲能系統(tǒng)在智算中心應用的多重價值3.4智算電能管理鏈四.智算中心制冷系統(tǒng)架構(gòu)4.1制冷技術發(fā)展趨勢4.2制冷系統(tǒng)架構(gòu)的分類及方案4.2.1芯片側(cè)4.2.2機柜側(cè)/末端空調(diào)側(cè)(風冷技術)4.2.3機柜側(cè)/末端空調(diào)側(cè)(液冷技術)4.2.4冷源側(cè)4.3制冷技術應用評估4.4智算中心制冷應對策略五.智算中心預制模塊化技術的應用分析5.1智算中心預制模塊化技術發(fā)展趨勢5.2電氣預制模塊化趨勢5.3制冷預制模塊化趨勢5.4智算中心預制模塊化趨勢5.5預制模塊化技術的應用與挑戰(zhàn)六.總結(jié)與展望七.附錄7.1名詞解釋7.2主要作者介紹7.3版權(quán)聲明2627282830303233343435363742434546464749505254545657一.智算中心的演進分析過去的十幾年,是通算中心(傳統(tǒng)數(shù)據(jù)中心見附錄名詞解釋)快速發(fā)展的階段,主要以云計算為主。隨著生成式人工智能(AIDC見附錄名詞解釋)的橫空出世,人工智能(AI見附錄名詞解釋)在醫(yī)療、金融、制造業(yè)、零售業(yè)和交通運輸?shù)阮I域產(chǎn)生了廣泛的應用需求,通算中心(傳統(tǒng)數(shù)據(jù)中心)已經(jīng)逐漸無法滿足日益增長的計算需求,智算中心(AIDC)(見附錄名詞解釋)應運而生,它支持大規(guī)模的數(shù)據(jù)處理、機器學習、深度學習和其他智能算法的運算需求,得益于人工智能的革命性發(fā)展,智算中心的規(guī)模和處理能力正在呈指數(shù)級增長,以滿足日益增長的算力需求。智算中心已成為通算中心(傳統(tǒng)數(shù)據(jù)中心)升級發(fā)展的必然趨勢。本章節(jié)結(jié)合目前智能算力的發(fā)展情況,對智算中心(AIDC)在芯片結(jié)構(gòu)演進、用戶側(cè)訴求演進、高密度化演進、負載特性演進等進行分析和總結(jié),作為規(guī)劃選址、電力系統(tǒng)、制冷系統(tǒng)及預制化等后續(xù)章節(jié)的依據(jù)和基礎。1.1智能算力的發(fā)展情況概述算力發(fā)展:隨著數(shù)字經(jīng)濟時代的到來,數(shù)據(jù)成為新的生產(chǎn)資料,而算力則成為新的生產(chǎn)力。在萬物互聯(lián)的背景下,數(shù)據(jù)量爆炸式增長,對算力的需求達到前所未有的高度。從城市到家庭到個人,從政府到行業(yè)到企業(yè),以及新能源汽車智能化操控、短視頻內(nèi)容推薦、電商平臺個性化推薦等,每個生活和生產(chǎn)場景均離不開算力對信息的處理,算力已成為社會發(fā)展的重要動能??梢灶A見,算力將無處不在,算力服務也將像水、電一樣,成為一種社會基礎設施。算力分類:按照系統(tǒng)構(gòu)成、技術特征和應用領域的差異,算力可分為三類:通用算力、超算算力和智能算力(見附錄由于超算中心屬于高度定制化的算力中心,不在本白皮書的討論范圍內(nèi)。本白皮書將重點討論通用算力中心(簡稱通算中心,即傳統(tǒng)數(shù)據(jù)中心)向人工智能(AI)算力中心(簡稱智算中心)的演進。智算業(yè)務:智算業(yè)務在應用中包括兩個環(huán)節(jié):訓練和推理(見附錄名詞解釋)。智算業(yè)務發(fā)展趨勢:根據(jù)IDC的統(tǒng)計數(shù)據(jù)(見圖12022年部署的智算算力里,訓練算力占比為41.5%,推理算力占比達到58.5%;預計到2026年,推理算力的占比將會提升到62.2%,訓練算力降低到37.8%。這種趨勢也符合智算被廣泛應用的科學的比例變化,而隨著推理算力的普及,生成式人工智能(AIGC)的應用將引起范式革命(見附錄名詞解釋見圖2)。智算中心基礎設施演進白皮書深知社圖1:云端推理占比逐步提升圖2:生成式人工智能AIGC引發(fā)范式革命訓練推理訓練內(nèi)容數(shù)量內(nèi)容數(shù)量100%80%100%80%60%40%20%0AI輔助用戶用戶制作用戶制作UGC專業(yè)制作專業(yè)制作PGC內(nèi)容制作模式2020202120222023202420252026內(nèi)容制作模式數(shù)據(jù)來源:IDC,中信建投,騰訊研究院市場表現(xiàn):根據(jù)PrecedenceResearch市場預測(見圖3從2023年至2030年,全球人工智能(AI)市場有望實現(xiàn)超過35%的復合增長率。8624626711455482651+38.2%596868624626711455482651+38.2%5968643140312092259816377118792021202220232024E2025E2026E2027E2028E2029E2030E數(shù)據(jù)來源:PrecedenceResearch智算中心國內(nèi)外市場發(fā)展情況中國:云計算、大數(shù)據(jù)以及物聯(lián)網(wǎng)等企業(yè)在智算中心逐步摸索和推廣應用階段美國:憑借在云計算、大數(shù)據(jù)等先進技術上的優(yōu)勢和研發(fā)能力,在智算中心技術的創(chuàng)新和應用方面取得顯著成就歐洲:如英國、法國和德國,基于機器翻譯、自動駕駛等研發(fā)需求,為各類企業(yè)提供高效穩(wěn)定的智算中心服務新興市場:如馬來西亞、印度、巴西等國家在積極布局智算中心產(chǎn)業(yè)近年來,我國智算產(chǎn)業(yè)隨著算力產(chǎn)業(yè)的發(fā)展快速增長,政府鼓勵企業(yè)進行智算中心技術研發(fā)與服務能力的提升,智算中心應用與產(chǎn)業(yè)化成果顯著。2024年政府工作報告中明確提出:適度超前建設數(shù)字基礎設施,加快形成全國一體化算力體系,培育算力產(chǎn)業(yè)生態(tài)。數(shù)據(jù)顯示:截至2023年底,我國算力總規(guī)模達到230EFLOPS,即每秒230百億億次浮點運算,其中智能算力規(guī)模達到70EFLOPS。“東數(shù)西算”干線光纜規(guī)劃已超過180條,骨干網(wǎng)互聯(lián)帶寬擴容到40T,全國算力樞紐節(jié)點時延20ms時延圈已經(jīng)覆蓋全國主要城市。1.2智算芯片結(jié)構(gòu)演進智算算力(智算中心)和通用算力(傳統(tǒng)數(shù)據(jù)中心)在服務器芯片結(jié)構(gòu)上存在本質(zhì)的差異。通用算力芯片架構(gòu)相對單一,主要以CPU為算力核心,基于CPU和云存儲集群提供的相關云服務,通常由多個物理服務器組成,通過網(wǎng)絡連接形成一個虛擬化的計算環(huán)境。智算算力則通常采用芯片異構(gòu)計算架構(gòu),結(jié)合CPU、GPU、NPU、TPU等(見附錄名詞解釋)多種芯片,形成高并發(fā)的分布式計算系統(tǒng),應用于神經(jīng)網(wǎng)絡模型的訓練及推理等。除算力芯片外,智算中心的存儲芯片也存在差異化的需求,例如更大的DRAM和NAND容量,以及存算一體技術的應用,以解決馮·諾依曼架構(gòu)中的存儲墻問題等。從芯片結(jié)構(gòu)演進來看,通算中心(傳統(tǒng)數(shù)據(jù)中心)側(cè)重于通用計算任務的性價比和靈活性,而智算中心注重人工智能(AI)類型的特定計算需求及運算效率,并要求具有強大的圖形處理功能,需要制定人工智能(AI)算力硬件和存儲解決方案,以滿足其人工智能(AI)高性能計算需求。1.3智算用戶側(cè)訴求演進通用算力(傳統(tǒng)數(shù)據(jù)中心)的用戶側(cè)訴求經(jīng)過長期不斷的發(fā)展和梳理,已逐漸趨于成熟和穩(wěn)定,而智算中心用戶側(cè)訴求則主要是基于算力業(yè)務開展帶來的諸多挑戰(zhàn)。通算中心最初的用戶訴求主要來自于一些特定的應用,諸如:電子郵件、社交媒體和員工工資發(fā)放等。后來隨著云計算的快速發(fā)展,越來越多的關鍵應用遷移到云端,數(shù)據(jù)中心建設的規(guī)模也越來越大,通算中心對時延、帶寬、可用性以及安全性等有了更高的要求。為了滿足更高的標準和要求,通算中心通常選擇引入雙路市電,采用柴油發(fā)電機作為市電中斷后的應急電源,并配備不間斷電源UPS,從而確保系統(tǒng)的持續(xù)運行,隨著“碳中和、碳達峰”的目標制定,通算中心開始對極致PUE、降低數(shù)據(jù)中心的總擁有成本進行持續(xù)要求。智算中心的用戶訴求則來自于智算訓練業(yè)務。為確保大模型訓練的效率和成本最優(yōu),智算訓練業(yè)務需要建立高度集中化的GPU集群。這是因為,基于GPU的分布式工作原理,如果需要在減少訓練時間的同時降低訓練的成本,那么,必須在更小的物理空間內(nèi)部署更多的GPU服務器,從而突破分布式計算因帶寬和傳輸距離產(chǎn)生的運算瓶頸,提高集群算效,因此,智算訓練業(yè)務需要建立高度集中化的GPU集群。智算中心基礎設施演進白皮書深知社在功能方面,智算用戶更注重數(shù)據(jù)的智能處理和應用,提供個性化的服務;在硬件上,智算用戶注重更多地使用GPU專用芯片;在軟件上,智算用戶注重更加高效的分配計算任務;在管理和運維方面,智算用戶要求自動化程度更高,更加注重資源的挖潛和最優(yōu)利用?;谝陨现撬阒行挠脩粼诟叨燃谢腉PU集群、功能、硬件、軟件以及管理和運維方面的訴求,智算中心面臨因此帶來的諸多變革和挑戰(zhàn),這些挑戰(zhàn)和對應的解決方案,在接下來的章節(jié)中將會進行詳細描述。1.4機柜功耗高密度化演進如以上章節(jié)所述,智算訓練需要建立高度集中化的GPU集群,而智算中心GPU芯片的算力在不斷提升,目前H100/H200/H800等芯片TDP設計功耗已達700W(見圖42024年3月GTC大會最新發(fā)布的B200達1000W,GB200已達到2700kW功耗。伴隨著智算中心芯片功耗的提升,其自身的散熱功耗也在不斷攀升,智算中心中單機柜的熱密度大幅度的快速提升,因此,智算中心將面臨單機柜功耗高密化的挑戰(zhàn)。通常人工智能(AI)服務器(見圖5)由8卡GPU或NPU模組構(gòu)成,基于上述芯片的功耗數(shù)值,可以確定每臺人工智能(AI)服務器的功耗在5kW~10kW。進一步由服務器組成整體機柜時,機柜的功率密度將達到40kW以上。以英偉達(NVIDIA)為例,DGX架構(gòu)8卡GPUH100服務器額定功耗為10.2kW,安裝4臺服務器的風冷機柜功耗為42kW。新一代的GB200架構(gòu)中,NVL36機柜功率密度為72kW,NVL72液冷機柜功率密度則為120kW。圖4:不同芯片架構(gòu)對應參數(shù)表架構(gòu)顯存寬帶XXXXXXXXXNVLink寬帶圖5:不同規(guī)格服務器架構(gòu)對應參數(shù)表架構(gòu)HGXA100HGXH100HGXH200HGXB100HGXB2008xA100SXM8xH100SXM8xH200SXM8xB100SXM8xB200SXMAmpereHopperBlackwell顯存大小640GB1.44/1.5TB1.44/1.5TB顯存寬帶8x2TB/s8x3.35TB/s8x4.8TB/s8x8TB/s8x8TB/sFP16稠密算力(FLOPS)2.4P8P8PINT8稠密算力(OPS)4.8P28P36PFP8稠密算力(FLOPS)X28P36PFP6稠密算力(FLOPS)XXX28P36PFP4稠密算力(FLOPS)XXX56P72PGPU-to-GPU寬帶600GB/s900GB/s900GB/sNVLink寬帶4.8TB/s以太網(wǎng)網(wǎng)絡200Gb/s400Gb/s+200Gb/s400Gb/s+200Gb/s2x400Gb/s2x400Gb/sIB網(wǎng)絡8x200Gb/s8x400Gb/s8x400Gb/s8x400Gb/s8x400Gb/sGPU功耗3.2kW5.6kW5.6kW5.6kW8kW總功耗6.5kW10.2kW10.2kW10.2kW備注ConnectX-6NICConnectX-7NICConnectX-7NICBlueField-3DPUConnectX-7NICBlueField-3DPUConnectX-7NIC風冷機柜國產(chǎn)GPU,以華為910B為例,單機柜部署2臺風冷智算服務器,功耗約11.2kW英偉達(NVIDIA)以HGX服務器為例,HGX是NVIDIA的高性能服務器,通常一臺機器包含8個或4個GPU,以8個H100為例,單臺服務器功耗約10.2kW,若選用B200芯片,單臺服務器設計功耗14.3kW。在智算中心的規(guī)劃中,通常會考慮到IB線纜等綜合成本,單機柜部署2臺HGX風冷智算服務器,含上IB交換機等,單機柜功耗高達24kW左右液冷機柜國產(chǎn)GPU,單機柜8臺液冷智算服務器,總功耗約42.4kW。英偉達(NVIDIA)GPU,從NVL32機柜到NVL72機柜,單機柜部署4臺服務器至9臺服務器,GPU數(shù)量從32顆到72顆,總功耗也從44kW(為推測的數(shù)據(jù))增加到120kW。因此,單機柜功耗從通算中心(傳統(tǒng)數(shù)據(jù)中心)的4~6KW的逐漸增加至智算中心(AIDC)的20~40kW,未來逐步發(fā)展至40~120kW甚至還要更高,智算中心機柜呈現(xiàn)高密度化趨勢。這將導致智算中心在IT負載和市電引入規(guī)模上大大高于智算中心基礎設施演進白皮書深知社1.5靜態(tài)負載向動態(tài)負載演進通算中心(傳統(tǒng)數(shù)據(jù)中心)上線運行以后,負載相對比較平穩(wěn),很少有極端情況負載波峰或谷底出現(xiàn),而智算中心的負載運行特點是不斷進行訓練任務來進行高速運算,當它開始訓練任務時,負載將會迅速上升到比較高的功耗值,甚至會達到負載的極限值,而等到這次訓練任務結(jié)束以后,它的負載又會迅速下降,降到最低值。由此可以得出結(jié)論,智算中心的負載波動情況非常大,呈現(xiàn)出新的動態(tài)負載特性(見圖6)。新的動態(tài)負載特性主要表現(xiàn)為周期性、大幅度、并發(fā)性、瞬時沖擊等,這種特性對于智算中心的配電和制冷都是一個很大的挑戰(zhàn)。周期性:智算負載呈現(xiàn)周期性波動,波動頻率從分鐘級到小時級不等大幅度:智算負載功耗波動幅度可能超過額定功耗的80%,即智算中心的負載功耗可能從10%快速突變至80%,甚至100%并發(fā)性:人工智能(AI)大模型具有并發(fā)運算的特點,故整體集群性總功耗呈現(xiàn)出動態(tài)快速變化瞬時沖擊:某些算力模型可能出現(xiàn)400us~50ms左右的負載沖擊,幅度可能達到額定負載功耗的150%,它取決于POD運算模型及軟件算法圖6:典型AI算力集群負載動態(tài)功耗曲線圖16001400 Loadprofile1000800600400200綜上所述,智算中心的演進從芯片結(jié)構(gòu)演進、用戶側(cè)訴求演進、高密度化演進以及負載特性演進,都將對通算中心(傳統(tǒng)數(shù)據(jù)中心)的基礎設施(電氣、制冷等)帶來顛覆性的變革,對智算中心的基礎設施(電氣、制冷等)解決方案也提出新的挑戰(zhàn)。接下來的章節(jié),將分別從選址規(guī)劃、電氣架構(gòu)和制冷系統(tǒng)架構(gòu)等架構(gòu)維度,探討如何應對智算中心的新挑戰(zhàn)以及演進趨勢。二.智算中心選址與規(guī)劃通算中心(傳統(tǒng)數(shù)據(jù)中心)的選址與規(guī)劃經(jīng)過多年的發(fā)展已比較完善、成熟和標準化,智算中心選址與規(guī)劃和通算中心相比有哪些特殊差異?本章節(jié)將從智算中心選址、建筑形式、建筑布局、房間功能、裝飾裝修以及已有建筑的改造這幾個方面進行考量。2.1智算中心選址通算中心(傳統(tǒng)數(shù)據(jù)中心)的選址通常選在經(jīng)濟發(fā)達的城市及周邊區(qū)域,靠近終端客戶,可以有效降低網(wǎng)絡時延。近年來,在國內(nèi)政策的不斷調(diào)節(jié)下,逐漸推動數(shù)據(jù)中心選址到氣候更加適宜、土地更加充沛且電價更加便宜的地區(qū)。這是由于數(shù)據(jù)中心的選址與電力成本之間緊密相關,東部核心城市火電的發(fā)電和傳輸成本較高,導致總體能源成本也相對較高,而西部偏遠地區(qū)由于發(fā)電量遠遠大于用電量,且可再生能源富集,電價相對較低,氣候條件自然冷源更豐富且土地更充足。智算中心的選址會趨向于靠近終端客戶的核心城市還是資源豐富的偏遠地區(qū)?近年來,人們發(fā)現(xiàn)電網(wǎng)傳輸電能的成本要比傳輸信息的成本還要高,運電不如運信息更高效,因此,大型數(shù)據(jù)中心選址更趨向于在電能充沛且價低的內(nèi)蒙、寧夏、甘肅等西部地區(qū)。目前一些經(jīng)濟發(fā)達的核心城市由于產(chǎn)業(yè)密集、科技創(chuàng)新活躍,對智算中心的需求較為旺盛。然而,這些地區(qū)由于存在嚴格的能耗指標,導致算力部署面臨困難。因此,在智算中心選址初期,考慮到交通便利、人才招聘、運維便捷性等因素,通常選擇靠近核心城市或其周邊的區(qū)域更有利。然而,隨著智算中心電力需求的不斷增長,電力供應壓力逐漸加大,同時也為了逐步響應國家政策,智算中心的選址將會轉(zhuǎn)向偏遠但可再生能源富集的地區(qū)。這些偏遠地區(qū)在能源、電價、氣候和政策方面的優(yōu)勢,可以降低智算中心的建設和運營成本,提高智算中心的市場競爭力。另外,智算中心選址的決策,并非只關注電價,還需全面考量整體資源設施(如水資源是否充沛)、政策環(huán)境、市場需求等多重因素,以尋找經(jīng)濟活動豐富與能源費用的平衡點。同時,還要關注人才資源、運維便捷性、團隊成熟度等關鍵因素,以確保智算中心能夠順利落地并發(fā)揮最大效益。特別對于服務科研、教育、醫(yī)療等公共領域的智算中心,在選址時還需特別關注周邊環(huán)境要求和建造要求,以確保其能夠安全、穩(wěn)定地服務于社會。對于分布式智算中心(通常用于推理因其需要通過網(wǎng)絡進行緊密協(xié)同和數(shù)據(jù)傳輸,所以網(wǎng)絡資源也是其選址考量的主要因素之一。智算中心基礎設施演進白皮書深知社綜上所述,智算中心的選址,首先優(yōu)先考慮新能源資源豐富、能源利用條件良好、網(wǎng)絡資源良好,并接近核心城市或其周邊的區(qū)域的地區(qū),其次綜合考量整體資源設施、政策環(huán)境、市場需求等多重因素,最后核算經(jīng)濟與能源費用的平衡點。2.2智算中心建筑形式近年來,相對于傳統(tǒng)的多層建筑,出現(xiàn)了一種大平層建筑形式,這種建筑方式可以通過預制模塊化實現(xiàn)快速交付,并充分利用自然冷源提高制冷效率。典型的通算中心(傳統(tǒng)數(shù)據(jù)中心)為云廠商和互聯(lián)網(wǎng)公司規(guī)劃的云數(shù)據(jù)中心,這些通算中心重點關注交付周期、運營成本和可擴展性,因此大平層建筑方式在一些中大型數(shù)據(jù)中心園區(qū)中得以廣泛應用。智算中心的建筑形式優(yōu)先選用大平層還是多層建筑呢?智算中心在規(guī)劃時需要更多的考慮網(wǎng)絡組網(wǎng)傳輸?shù)囊?,對于面向訓練業(yè)務的智算中心,對網(wǎng)絡方面有著更高的要求,必須充分考慮支撐網(wǎng)絡。和通算中心(傳統(tǒng)數(shù)據(jù)中心)相比,智算中心的網(wǎng)絡帶寬收斂比低至1:1,存在大量的異構(gòu)技術核心,東西向通信流量更大,對抖動、可用性、高吞吐、低時延數(shù)據(jù)訪問的要求更高。盡管通信的時延主要來自于轉(zhuǎn)發(fā)過程,與物理距離的關聯(lián)度相對較低,但因為大平層建筑形式的容積率低,設備布置相對分散,可能導致不同區(qū)域內(nèi)的設備間通信時延受到物理距離的影響,造成無法滿足智算中心對高速網(wǎng)絡的要求。同樣,基于智算中心網(wǎng)絡組網(wǎng)傳輸?shù)囊螅撬阒行脑诩阂?guī)劃時,需要在智算服務器和交換機之間采用盡可能短的傳輸距離,此需求可在多層建筑中通過相鄰樓層間豎向打通的方式得以滿足,因此,多層建筑可以更好地滿足網(wǎng)絡帶寬、抖動、可用性、高吞吐、低時延數(shù)據(jù)訪問的高標準要求,更適合大規(guī)模智算中心集群的部署。2.3智算中心建筑布局通算中心(傳統(tǒng)數(shù)據(jù)中心)一直追求通過盡可能的降低制冷用電的CLF(CoolingLoadFactor),進而提高能源效率PUE(PowerUsageEffectiveness從而提高可用的IT容量。通常可通過改善房間布局來提升場地利用率和降低配電損耗,實現(xiàn)可以安裝更多的服務器。而智算中心則追求高算力和高算效,通過優(yōu)化網(wǎng)絡架構(gòu)和提升服務器ITUE(IT設備利用效率)和ITEE(IT設備能效)。如何通過優(yōu)化建筑布局從而提高智算中心算力和算效?優(yōu)化建筑布局對提高智算中心算力和算效有很大的作用。首先,集群組網(wǎng)及傳輸?shù)牟季中韪泳o湊。如以上章節(jié)所述,智算中心對網(wǎng)絡組網(wǎng)和傳輸有很高的要求,因此智算中心將打破通算中心(傳統(tǒng)數(shù)據(jù)中心)的建筑層高、承重、管線穿樓層等限制,從而做到服務器集群組網(wǎng)及傳輸?shù)牟季指泳o湊。另外,當采取不同路由回路以保障網(wǎng)絡彈性時,需要注意不同路由的距離和物理隔離,比如穿越樓板實現(xiàn)垂直網(wǎng)絡規(guī)劃和部署,目前已成為智算中心應用的趨勢。當然,這樣做法的同時必須滿足當?shù)叵酪?,并采取相應的漏水封堵措施。另外,在層高和承重方面,智算中心也提出了相應的提升要求。層高方面,采用風冷或風液混合制冷方案的智算中心,由于智算中心的功率密度更高,單位空間內(nèi)需要部署更多的管線,因此對層高提出更高要求,通常智算中心的層高普遍在5.0~6.5米。承重方面,TIA-942-C標準對Rated-3和Rated-4級對數(shù)據(jù)中心樓層活載荷的要求是不低于12KN/M2,而對于智算中心來說,對樓層活載荷的要求可能會更高,例如為部署液冷,樓層活載荷的要求達到18KN/M2甚至更高。2.4智算中心房間功能需求通算中心(傳統(tǒng)數(shù)據(jù)中心)對房間功能需求,一般會設置主機房、輔助區(qū)、支持區(qū)、行政管理區(qū)等功能空間,并考慮員工及客戶派駐人員的休息、餐飲住宿、辦公和會議室等需求。而對于智算中心,則更注重功率密度、制冷需求、配電支持、網(wǎng)絡配置、物理隔離和多功能需求等方面的功能規(guī)劃。智算中心在房間功能劃分上有哪些特殊需求?如以上章節(jié)所述,智算中心機柜呈現(xiàn)高密度化趨勢,因此智算中心的制冷和配電支持區(qū)域的需求也會相應增大,同樣,輔助區(qū)、支持區(qū)、行政管理區(qū)、運維操作和倉庫等區(qū)域的面積根據(jù)需求相應的增加。因此,智算中心,特別是面向訓練型業(yè)務類型的智算中心,相同的服務器數(shù)量需要更多的網(wǎng)絡交換機和直連銅纜(DAC)以及有源光纜(AOC因此,在規(guī)劃設備工藝時,應充分考慮機柜的寬度、配線架以及光纜、電纜走線架的要求,并以此為依據(jù)對房間功能進行劃分。另外,智算中心應預留合理儲存?zhèn)淦穫浼姆块g,規(guī)劃出ICT設備的安裝和調(diào)試的空間,保證房間內(nèi)環(huán)境滿足儲存和測試正常運行的要求。同時,房間規(guī)劃上可能會設置更多的功能區(qū),以展示智算中心的技術先進性和創(chuàng)新成果,比如互動體驗區(qū)、展示區(qū)和休息區(qū)等。2.5智算中心裝飾裝修需求智算中心在裝修的維護結(jié)構(gòu),節(jié)能措施,地板高度,裝修材料,防止水溢滲透等方面面臨新的挑戰(zhàn)。隨著通算中心向著智算中心的演進,智算中心的裝飾裝修風格也在不斷演變,并與其功能和特性更加緊密相關。智算中心基礎設施演進白皮書深知社智算中心的裝飾裝修系統(tǒng),除為滿足智算中心適當?shù)耐L、散熱和防塵而設計的功能需求外,更加注重強化結(jié)構(gòu)安全性、選用防水耐腐蝕材料、優(yōu)化安裝維護便利性,以及更加注重環(huán)保節(jié)能。以典型的智算中心風液混合方案為例,它在原有精密空調(diào)的基礎上,增加服務器內(nèi)冷板、液體制冷劑、分液管、液冷分配單元(CDU)、泵、過濾和凈化裝置、控制系統(tǒng)等,所以在風液混合方案內(nèi),為保障地板下液冷管路的維護,地板高度需根據(jù)管路和泵閥尺寸確定,建議不低于1m,并設置漏液檢測和壓力感應裝置。當然,管路和泵閥也可以放在機柜通道頂部,降低地板高度要求,也更有利于維護檢修,同時避免影響下送風系統(tǒng)的通風效果。另外,在智算中心裝修過程中,需要面對復雜的管線布局,做好安全防護措施,嚴格控制環(huán)境參數(shù),以及采用節(jié)能材料和系統(tǒng),滿足綠色環(huán)保標準,減少對環(huán)境的負面影響,降低建造和裝修材料的碳足跡。2.6已有建筑改造為智算中心通算中心(傳統(tǒng)數(shù)據(jù)中心)向智算中心的演進,除新建的方式外,還可通過對原有建筑進行改造的方式升級為智算中心。如何改造已有的通算建筑以便適用于智算中心,是一個極具意義的課題,需根據(jù)業(yè)務系統(tǒng)的規(guī)模、現(xiàn)有土地、建筑條件、交付周期及商務條件等多種因素采取相應策略。首先,改造前要充分考慮,改造后投入運營可能因噪音、制冷等影響因素帶來的挑戰(zhàn)。面向訓練型業(yè)務負載改造時,因智算服務器(風冷)風扇速度的提高,噪音將成為影響運維人員工作環(huán)境的因素之一。因為任務加載時噪音可能超過90分貝,現(xiàn)場人員可能面臨長期在高噪因工況下的職業(yè)傷害風險,改造時宜考慮墻壁安裝吸音材料進行部分降噪,并在運營后為運維人員配備耳塞等裝備。其次,對于面向推理業(yè)務負載的智算中心,由于其規(guī)模相對較小,則可以考慮對部署在已有的數(shù)據(jù)中心內(nèi)改造,或?qū)吘墧?shù)據(jù)中心改造。另外,改造方案還需要考慮通過加固和擴建等方式以滿足智算中心承重的要求。在改造過程中,冷板液冷系統(tǒng)的改動比浸沒式液冷的改動較小。浸沒液冷系統(tǒng)的加固改造成本較高,加固成本甚至可能會超過新建成本??偟膩碚f,智算中心的選址和規(guī)劃是一個多方面考量的過程,需要精心設計策劃,以確保智算中心的高效交付使用。上述章節(jié)內(nèi)容中,建筑形式和布局是否便于維護和擴展,房間功能是否按技術操作需求劃分明確,裝修是否兼顧安全和實用性,對現(xiàn)有建筑的改造是否可以提升結(jié)構(gòu)和系統(tǒng)以滿足智算中心的特定要求,這些綜合考量確保智算中心能夠適應技術更新,實現(xiàn)長期的穩(wěn)定運行和可持續(xù)發(fā)展。三.智算中心電氣鏈路架構(gòu)挑戰(zhàn)及演進趨勢接下來,本章節(jié)將從系統(tǒng)層面深入探討智算中心(AIDC)與通算中心(傳統(tǒng)數(shù)據(jù)中心)在電力系統(tǒng)架構(gòu)方面的差異。隨著人工智能(AI)技術對計算資源和電力消耗的需求不斷增長,智算中心對電力系統(tǒng)的穩(wěn)定性、可靠性和效率提出了更高的要求。智算中心正顛覆性的改變通算中心的電力系統(tǒng)架構(gòu),這些影響使得智算中心很難再遵循通算中心之前總結(jié)的規(guī)律和標準,特別對于超前建設的人工智能(AI)數(shù)字基礎設施提出更高的挑戰(zhàn)。3.1智算中心電氣鏈路的挑戰(zhàn)3.1.1電力能源接入挑戰(zhàn)在通算中心時代(傳統(tǒng)數(shù)據(jù)中心以某大廠一棟數(shù)據(jù)機房樓為例,約2萬臺服務器,1020多臺機柜,單機柜功耗在12kW以上,組成IT總?cè)萘考s12.9MW的一棟標準數(shù)據(jù)機房樓,其電力容量大概在20MVA左右,通常由市政公共變電站引來四路10kV電源,多數(shù)情況下會分期建設,因此對區(qū)域電網(wǎng)的整體壓力不是很大。在智算中心時代,以英偉達(NVIDIA)H100的DGX架構(gòu)8卡GPU服務器為例,部署一個1024臺服務器的萬卡算力集群,單機柜同樣按12kW考慮,加上制冷等輔助用電,需要15~20MVA的電力容量。那么一棟10萬卡的算力集群建筑,單棟建筑的用電規(guī)模則達到100兆瓦以上,因此,過去市政公共變電站的10kV電源輸出間隔很難滿足百兆瓦以上所需線路的數(shù)量,并且多路10kV長距離輸電線路的經(jīng)濟性不高,需要自建110kV或接入更高電壓等級的電網(wǎng)。隨著智算芯片密度的持續(xù)增加,園區(qū)的用電規(guī)模可以達到200MW,甚至攀升至300~500MW的水平,因此需要接入220kV甚至更高電壓等級的電網(wǎng),這對區(qū)域電網(wǎng)的壓力呈指數(shù)級上升。因此,相比于通算中心,智算中心的拓展瓶頸已經(jīng)從機柜數(shù)量的物理空間問題,轉(zhuǎn)變?yōu)槟茉垂┙o問題,智算中心園區(qū)的算力容量上限不再是芯片算力的上限,而是發(fā)電廠和電網(wǎng)容量的上限。在滿足算力容量需求下,如何匹配電力能源接入,并實現(xiàn)綠色發(fā)展,成為智算中心面臨的重大挑戰(zhàn)。為解決這樣的問題,與智算中心基礎設施需求配套的電力能源系統(tǒng)應運而生。3.1.2配電與IT機房的面積比挑戰(zhàn)隨著智算中心機柜呈現(xiàn)高密度化趨勢,給數(shù)據(jù)機房的供配電整體占地空間帶來巨大挑戰(zhàn)。根據(jù)通算中心(傳統(tǒng)數(shù)據(jù)中心)的規(guī)劃建設經(jīng)驗,單機柜功耗在2.5kW-5kW的情況下,供配電系統(tǒng)占地面積通常為IT智算中心基礎設施演進白皮書深知社設備占地面積的1/4左右;當單機柜功耗提升到8kW左右時,供配電系統(tǒng)占地面積將達到IT設備占地面積的1/2左右;當單機柜密度提升到16kW,供配電系統(tǒng)占地面積將與IT設備占地面積幾乎相同。因此,隨著智算中心的單機柜功率密度的快速提升,變配電室面積必然隨之大幅度增加,智算中心的建設方案需要考慮供電系統(tǒng)更多的占地面積。3.1.3電能利用率挑戰(zhàn)在通算中心(傳統(tǒng)數(shù)據(jù)中心)時代,為追求數(shù)據(jù)中心運營環(huán)境的極高可用性,2N配電架構(gòu)是最常見的供電設計方案,這種架構(gòu)以其建設簡單、維護便捷的優(yōu)勢得到業(yè)內(nèi)廣泛認可,占據(jù)中國數(shù)據(jù)中心整體規(guī)劃設計的主流。但隨著智算中心對算力需求的不斷提升,以及對成本效益和空間效率的追求,供電效率低成為傳統(tǒng)2N架構(gòu)面臨的主要問題,因此,簡化配電架構(gòu)設計以提升系統(tǒng)利用率、降低占地面積、最大程度地提升算力成為智算中心一大挑戰(zhàn)。在智算中心運行著大量高效GPU服務器和存儲設備,這些IT設備自身需要大量的電力來支持其運行,此外,為保持這些IT設備的穩(wěn)定運行和數(shù)據(jù)處理的高效性,智算中心還需要匹配制冷系統(tǒng),這些配套的制冷系統(tǒng)同樣需要增加智算中心的能源消耗。龐大的算力規(guī)模部署,意味著消耗更多的能源,智算中心也正在成為中國電力系統(tǒng)的最大變量之一。作為能源消耗大戶,智算中心的能源利用效率(PUE)降低需求尤為迫切。能源利用效率(PUE)的降低意味著用更少的電力完成更多的任務,也意味著相同的規(guī)模,可以用更少的能源實現(xiàn),同時也滿足節(jié)能降碳需求。因此,隨著智算中心規(guī)模的不斷提升,對智算中心能源利用效率(PUE)將會提出更高的要求。3.1.5服務器電源形式挑戰(zhàn)對數(shù)據(jù)中心行業(yè)而言,服務器電源是數(shù)據(jù)中心供電系統(tǒng)建設的核心。在通算中心(傳統(tǒng)數(shù)據(jù)中心)時代,通用CPU服務器電源功耗較小,通常在300~700瓦之間,常見電源冗余技術為1+1冗余形式。隨著人工智能(AI)算力GPU芯片功耗的提升,先進人工智能(AI)服務器功耗持續(xù)升級。以英偉達(NVIDIA)服務器的電源結(jié)構(gòu)為例,英偉達(NVIDIA)DGXH100服務器,8U機架安裝,輸入電壓:200-240V交流電,電源規(guī)格:最大10.2kW,200-240V3300W,16A,50-60Hz。DGXH100服務器電源架構(gòu)是N+2的電源冗余的架構(gòu)(見圖7正常需要配置6個IECC20接口的開關電源。如果采用傳統(tǒng)的末端配電架構(gòu),機柜內(nèi)配置左右共兩個PDU電源,左右PDU電源分別接三個開關電源,當其中一路PDU電源中斷,服務器僅剩余三個電源工作,DGXH100服務器則會宕機。因此,末端配電需要配置三條PDU電源,全鏈路三路獨立電源是較為合理和推薦的方案。另外,不同廠家的算力服務器電源存在的兼容性圖7:N+2電源配置示意圖3.1.6智算負載分級供電的挑戰(zhàn)為確保通算中心(傳統(tǒng)數(shù)據(jù)中心)負載的連續(xù)性供電,通算中心通常采用來自兩個不同變電站的兩路市電作為電源,采用柴油發(fā)電機作為本項目的備用電源。當某路市電故障,另一路市電能迅速接入,當兩路市電完全中斷時,柴油發(fā)電機自動啟動供電,同時配置不間斷電源UPS和電池,確保柴發(fā)啟動前的電力系統(tǒng)不會中斷。和通算中心不同,智算中心的供電連續(xù)性要求已發(fā)生變化,并不是所有負載都需要不間斷供電。智算中心的推理業(yè)務負載屬于關鍵型負載,如推理、存儲與云服務等仍需配置后備電源,而訓練業(yè)務則屬于可間斷負載。當發(fā)生故障或斷電,訓練業(yè)務負載將模型保存為“檢查點”,電源恢復后可以從中斷點繼續(xù)運行,因此,智算中心的訓練業(yè)務負載對業(yè)務連續(xù)性,容錯性和可用性的訴求也發(fā)生改變。相較于昂貴的服務器成本,平衡不間斷電源供電的成本與服務器因斷電損壞的潛在風險是智算中心面臨的新挑戰(zhàn)。3.1.7末端配電方式挑戰(zhàn)隨著智算集群規(guī)模增長,單機柜容量已攀升至上百千瓦。2024年3月英偉達(NVIDIA)發(fā)布DGXNVL72機柜,由36塊GB200AI加速卡(由72塊GPU和32塊CPU)組成,使得單機柜功耗達到120kW。智算中心基礎設施演進白皮書深知社更高的機柜功耗意味著更大容量的電力需求,末端配電設施如何支撐大容量機柜供電?這些變化將對末端配電的物理基礎設施提出新的挑戰(zhàn)。3.1.8負載動態(tài)沖擊挑戰(zhàn)如以上所述,智算中心負載特性呈現(xiàn)出周期性、大幅度、并發(fā)性、瞬時沖擊等動態(tài)負載特性,智算中心負載的這些動態(tài)特性將對智算中心供配電鏈路,如油機、不間斷電源、服務電源等關鍵環(huán)節(jié)提出新的挑戰(zhàn)。智算中心負載特性分析詳見“1.5靜態(tài)負載向動態(tài)負載演進”章節(jié)。3.1.9環(huán)境溫度突變挑戰(zhàn)在通算時代(傳統(tǒng)數(shù)據(jù)中心由于其服務器密度較低,散熱需求相對較小,因此制冷系統(tǒng)通??梢暂^為輕松地維持穩(wěn)定的溫度環(huán)境,因此溫度變化速率相對較慢,電氣設備在這樣的環(huán)境溫度變化下能夠保持其性能穩(wěn)定。在智算中心時代,由于服務器負載功率密度高,且呈現(xiàn)出新的動態(tài)負載特性,當智算服務器高負載運行且動態(tài)快速增加時,會快速產(chǎn)生大量的熱量,因此其散熱需求更大,制冷系統(tǒng)需要快速響應,但是制冷系統(tǒng)需要一定的反應時間,并且制冷系統(tǒng)很難在短時內(nèi)達到其效率極限,這將導致周圍環(huán)境溫度快速上升。緊接著,制冷系統(tǒng)為維持溫度穩(wěn)定,會全功率送冷,這又會導致周圍環(huán)境溫度快速下降。這種環(huán)境溫度的快速變化會給電氣元器件帶來更大的熱應力,可能導致電子元器件的性能發(fā)生明顯變化,影響設備的絕緣性能,降低電子元器件的可靠性,比如降低器件的靈敏度、需要降容使用等,增加故障事件發(fā)生的概率。3.2智算中心供配電系統(tǒng)的演進趨勢—“智算電能管理鏈”如以上章節(jié)所述,相對于通算中心(傳統(tǒng)數(shù)據(jù)中心智算中心在電氣整體鏈路方面面臨著一系列挑戰(zhàn),包括單機柜功耗的顯著提升、電力能源的接入問題、配電與IT機房的面積比、架構(gòu)電能利用率、能效、智算負載分級、末端配電方式、負載動態(tài)沖擊以及環(huán)境溫度突變等挑戰(zhàn)。應對這些挑戰(zhàn),僅在供配電系統(tǒng)單一環(huán)節(jié)進行局部優(yōu)化難以解決,需要智算中心電氣系統(tǒng)在全鏈路進行協(xié)同演進,構(gòu)筑“智算電能管理鏈”。3.2.1電力能源系統(tǒng)向“算電協(xié)同”演進面對電力能源接入的挑戰(zhàn),智算中心的演進趨勢是向“算電協(xié)同”演進。相較于傳統(tǒng)數(shù)據(jù)中心,智算中心在能源消耗方面呈現(xiàn)出顯著的量級差異,這使得其更加注重可持續(xù)發(fā)展。具體策略比如,智算中心的選址優(yōu)先考慮新能源資源豐富、能源利用條件良好的地區(qū)。統(tǒng)籌智算中心發(fā)展需求和新能源資源稟賦,科學整合源荷儲資源,開展算力、電力基礎設施協(xié)同規(guī)劃布局。探索新能源就近供電、聚合交易、就地消納的“綠電聚合供應”模式。整合調(diào)節(jié)資源,提升算力與電力協(xié)同運行,提高數(shù)據(jù)中心綠電占比,降低電網(wǎng)保障容量需求,探索光熱發(fā)電與風電、光伏發(fā)電聯(lián)營的綠電穩(wěn)定供應模式。智算中心有較為明顯的極限算力工況和平時算力工況,此運行特點可以保證智算中心充分利用綠電儲能技術。當智算中心處在極限算力工況時,市電系統(tǒng)與綠電系統(tǒng)可以并行為其提供電力資源。當智算中心處在平時算力工況時,可以優(yōu)選綠電儲能系統(tǒng)為計算節(jié)點設備提供電力資源。但是對于新能源發(fā)電占比較高的電網(wǎng),其穩(wěn)定性易受新能源波動性的影響,市電的不穩(wěn)定成為潛在風險點。因此,擁有自有可控的本地電源對于園區(qū)來說更為可靠。除依賴傳統(tǒng)的發(fā)電機和不間斷電源UPS、電池,還應有效利用局部區(qū)域內(nèi)的各類可控能源,如小型水力發(fā)電、小型核反應堆(SMR)、氫燃料電池等,形成綜合能源供應的資源池,不僅可提升備用電源容量的利用效率,更能確保電能足質(zhì)足量供應。新能源接入條件不佳的區(qū)域,在政策允許的情況下,智算中心可以與其他能源用戶或能源供應商進行綠電交易、綠證交易、碳交易等能源交易和共享,既能以市場化手段支撐自身低碳轉(zhuǎn)型,又能實現(xiàn)能源的互利共贏和最大化利用。3.2.2簡化供電系統(tǒng)架構(gòu)演進如以上章節(jié)所述,隨著智算中心功率密度的快速提升,配電室面積的占比也將顯著增加。因此可以想象,在一個多層建筑中,智算中心將會形成類似金字塔的結(jié)構(gòu),底層配置大量配電設備,上層相對稀疏地擺放少量高性能服務器機柜。供電設備占地面積大,供電效率低是通算中心(傳統(tǒng)數(shù)據(jù)中心)2N架構(gòu)面臨的問題,因此智算中心需要簡化配電架構(gòu)設計以提升系統(tǒng)利用率,降低配電設備的占地面積,DR(DistributedRedundancy)/RR(ReserveRedundancy)/N+1簡化架構(gòu)將得到進一步的推廣和應用。簡化架構(gòu)的本質(zhì),是在算力一定的前提下減少市電容量需求,或者在市電容量一定的前提下,最大程度地提升算力。與傳統(tǒng)2N架構(gòu)相比,DR架構(gòu)(見圖8)和RR架構(gòu)(見圖9在簡化架構(gòu)供電系統(tǒng)的利用率明顯提升,DR/RR架構(gòu)的建設成本和運行成本也比2N架構(gòu)降低10%,配電設備數(shù)量和占地空間明顯減少。 市電電源 市電電源備用電源市電電源 . 10kVATS10kVATS10kVATS 變壓器變壓器變壓器深知社UPSUPSIT負載IT負載UPSIT負載圖8:DR供電系統(tǒng)架構(gòu)示意圖圖9:RR供電系統(tǒng)架構(gòu)示意圖UPSUPSIT負載IT負載UPSIT負載IT負載IT負載IT負載 市電電源備用電源市電電源IT負載IT負載IT負載 . 10kVATS10kVATS10kVATS 變壓器變壓器變壓器UPSUPSUPSUPSUPSITIT負載DR架構(gòu):屬于“手拉手”結(jié)構(gòu),每臺變壓器10kV進線均采用雙電源系統(tǒng)切換,組成三套獨立的系統(tǒng),每套系統(tǒng)都可以作為備份的冗余,末端的負載,由不間斷電源UPS交叉供電,變壓器負載率在66%以下,任何一套系統(tǒng)的故障都不影響系統(tǒng)的運行,可用性能99.998%。DR架構(gòu)在海外數(shù)據(jù)中心使用較多,國內(nèi)較少使用。DR架構(gòu)中配電設備使用減少接近25%,電源設備成本低。但由于設備和電纜路由難以實現(xiàn)物理隔離,發(fā)生故障時負載分別轉(zhuǎn)移到其他電源,故障定位時間較長。RR架構(gòu):有一套固定的設備作為冗余備用系統(tǒng),這套系統(tǒng)正常是不工作的。主用系統(tǒng)長期滿載,備用系統(tǒng)處于長期空載,當任何一套主用系統(tǒng)斷電或維修時,它所承擔的負載由備用系統(tǒng)帶載。RR架構(gòu)屬于N+1配置,建設成本低,可用性99.995%,可靠性滿足基本要求。設備和電纜路由可以實現(xiàn)物理隔離,但系統(tǒng)架構(gòu)復雜、運維難度偏高。RR架構(gòu)在三大通信運營商的通信機房較多使用,而數(shù)據(jù)中心使用較少。RR架構(gòu)可以使智算中心的供電系統(tǒng)的利用率從50%提升到N/(N+1同時將占地面積減少實際上,只要在規(guī)劃設計階段做好負載分配,無論DR架構(gòu)還是RR架構(gòu),其可維護性和可用性都是比較高的,其可用性均在99.99%以上。以傳統(tǒng)2N架構(gòu)為基準,單位面積下,DR架構(gòu)算力提升33%,RR架構(gòu)算力提升50%。如果選用一些非存儲和通信的算力設備可能會進一步降低冗余度,這種情況下,采用備電模塊級的N+1架構(gòu)來替代DR/RR(雙路冗余或完全冗余)架構(gòu),甚至取消冗余的組件和電池,這樣簡化配電架構(gòu)將助力智算中心在有限的空間內(nèi)實現(xiàn)更大的算力。例如,如果采用英偉達(NVIDIA)DGXH100服務器,其電源架構(gòu)是N+2的電源冗余的架構(gòu),基于服務器這樣的架構(gòu),DR架構(gòu)更適用于DGXH100這樣的服務器電源結(jié)構(gòu)。自建項目:則采用DR/RR/N+1簡化架構(gòu)成本更低、效率更高,占用空間更小,并且通過減少冗余組件的數(shù)量和優(yōu)化電力分配,減少非必要組件宕機風險。第三方租賃項目:簡化配電架構(gòu)可能影響對潛在租戶的吸引力,需要在簡化配電架構(gòu)的成本效益與吸引更多租戶的商業(yè)模式之間進行權(quán)衡。此外,鋰電池替代鉛酸電池和一體化電源方案也是智算中心集成度提升的一個明顯趨勢,以應對智算中心供配電面積占比過大的挑戰(zhàn)。綜上所述,智算中心的供電架構(gòu)將由2N向混合簡化架構(gòu)演進,針對不同負載、不同場景和不同客戶選擇不同架構(gòu)進行智算中心基礎設施演進白皮書深知社圖10:智算中心2N+3DR混合供電架構(gòu)示意圖市電電源A3市電電源A2市電電源A3市電電源A2市電電源A110kV配電變壓器UPS輔助負載10kV配電10kV配電10kV配電變壓器變壓器UPSUPSIT負載IT負載智算中心包間1市電電源市電電源A3市電電源A2市電電源A3市電電源A2市電電源A110kV配電變壓器UPS輔助負載10kV配電10kV配電10kV配電變壓器變壓器UPSUPSIT負載IT負載智算中心包間1市電電源A11010kV配電變壓器變壓器UPSUPS動力1010kV配電10kVATS變壓器變壓器UPSUPSITIT負載3.2.3智算負載分級供電演進如以上章節(jié)所述,智算中心的訓練業(yè)務負載屬于可間斷負載,因此,智算中心的訓練業(yè)務負載對業(yè)務連續(xù)性、容錯性和可用性的訴求發(fā)生改變,并不是所有負載都需要不間斷和柴發(fā)后備電源。相較于昂貴的服務器成本,智算中心需要平衡后備電源供電的成本與服務器因斷電損壞的潛在風險。智算中心在選擇備電模型時,需要根據(jù)自身的風險承受能力進行決策,尤其是第三方租賃的智算中心,提供菜單式的分級供電可用性的服務等級協(xié)議(SLA)可能是一個可以平衡成本和風險的途徑。3.2.4預制電力模組演進采用預制電力模組將中壓柜、變壓器、不間斷電源UPS、高壓直流(HVDC見附錄名詞解釋)、饋電等預制集成交付,可減少電力室面積高達40%,交付周期縮短70%,實現(xiàn)更高的利用率、可擴展性和更快的部署,是智算中心電氣鏈路演進的重要趨勢之一。詳見“5.2電氣預制模塊化趨勢”。3.2.5UPS向MW級,超高效及高密化演進近年來,國家陸續(xù)發(fā)布UPS相關政策,引導UPS技術發(fā)展,2022年工信部發(fā)布的《國家工業(yè)和信息化領域節(jié)能技術裝備推薦目錄(2022年版)》便將大功率模塊化UPS作為數(shù)據(jù)中心機房整體模塊化解決方案的重要產(chǎn)品之一。2024年5月,工信部發(fā)布《國家工業(yè)和信息化領域節(jié)能降碳技術裝備推薦目錄(2024年版)》,其中數(shù)據(jù)中心節(jié)能降碳技術提到重點發(fā)展高頻、大功率、模塊化UPS技術。目前通算中心(傳統(tǒng)數(shù)據(jù)中心)主流UPS容量為400kVA/500kVA/600kVA,智算中心向MW級,超高效及高密化演進。由于智算數(shù)據(jù)中心IT系統(tǒng)功率快速提升,現(xiàn)有2500kVA變壓器在占地及系統(tǒng)容量上不具備優(yōu)勢,變壓器容量出現(xiàn)向3150kVA及更大容量變化趨勢,考慮到UPS并機臺數(shù)限制,現(xiàn)有600kVAUPS主機在適配更大并機系統(tǒng)容量上面臨挑戰(zhàn)。UPS單機容量由600kVA提升至1MVA及1.2MVA,減少并機臺數(shù),同時可進一步節(jié)省系統(tǒng)占地及后期運維成本,成為演進的趨勢。同時,UPS需要持續(xù)提升功率密度,減小設備占地,以改善供配電設備輔助占比。以600kVAUPS為例,業(yè)界常規(guī)占地寬度一邊為1200mm,但業(yè)界已有頭部廠商通過架構(gòu)及器件創(chuàng)新,將寬度縮減至600mm,功率密度提升100%,占地面積圖11:600kVAUPS功率密度提升1200mm600mm1200mm600mmUPS高密化的基礎是提升UPS能效,通過能效提升減小UPS發(fā)熱量來應對UPS高密化帶來的發(fā)熱挑戰(zhàn),隨著大功率SIC器件的不斷成熟及成本下降,UPS將采用SIC器件替代傳統(tǒng)開關器件(見圖12運行效率可提升至97.5%以上,相對于傳統(tǒng)96%效率UPS,UPS單臺主機發(fā)熱量可降低37.5%以上。智算中心基礎設施演進白皮書深知社(效率)98.00%97.50%97.00%96.50%96.00%95.50%圖12:采用SIC(效率)98.00%97.50%97.00%96.50%96.00%95.50%●97.52%●●97.24%●●●●●67%●.●0%20%40%60%80%100%120%(負載率)3.2.6不間斷電源系統(tǒng)儲備一體演進①.鋰進鉛退目前通算中心(傳統(tǒng)數(shù)據(jù)中心)中鉛酸電池仍然是主流,但隨著智算中心電力的面積占比不斷增加,與不間斷電源配套的電池室面積也在相應同步增加,有必要對電池選型進一步研判。2023年12月,中國建筑節(jié)能協(xié)會正式發(fā)布《數(shù)據(jù)中心鋰離子電池室設計標準》,為鋰電池在數(shù)據(jù)中心行業(yè)的規(guī)范化和規(guī)?;瘧玫於ɑA。鋰電池作為一種節(jié)能環(huán)保的電池技術,憑借占地面積小、能量密度高、承重要求低、循環(huán)壽命長、維護成本低等顯著優(yōu)勢,將逐步取代鉛酸電池,成為智算中心的首選。行業(yè)內(nèi)UPS頭部廠商已全面兼容鋰電池儲能技術,利用數(shù)據(jù)中心UPS滿載15分鐘備電時間,以及UPS備電容量的實際冗余進行相應的削峰填谷,無需改變供電結(jié)構(gòu),也不會額外增加制冷系統(tǒng)和EMS系統(tǒng),在節(jié)能模式下效率高達99%,進一步降低能耗,顯著提升了運營效率。②.儲備一體對于智算負載動態(tài)特性的調(diào)優(yōu)適配UPS主機與鋰電的儲備融合,對于功率流的精準管理,將大幅降低GPU集群負載動態(tài)波動對于在海外某大型智算中心的實際測試中,可以看到當UPS前端轉(zhuǎn)為油機供電時,由于負載的大幅持續(xù)波動,油機的輸出端出現(xiàn)了明顯的電壓幅值及頻率波動。(見圖13)圖13:市電與油機兩種模式下UPS帶智算負載的測試波形市電模式油機模式借助鋰電池的高循環(huán)壽命,并結(jié)合UPS儲備功能,通過精確的控制市電與電池的功率配比,實現(xiàn)UPS輸入功率的緩升緩降,減小智算負載動態(tài)特性對于油機的沖擊,提升系統(tǒng)運行可靠性。3.2.7末端電壓等級提升及全直流系統(tǒng)演進隨著智算中心單機柜功率密度的提升,供電系統(tǒng)優(yōu)化的關注點將轉(zhuǎn)向更高電壓等級,以解決導體截面積過大,更多的材料和更大的體積的問題。同時,電壓等級的升高也會帶來遠距離輸電的優(yōu)勢,這將會引發(fā)數(shù)據(jù)中心設計架構(gòu)上顛覆性的變革。通算中心(傳統(tǒng)數(shù)據(jù)中心)在供電系統(tǒng)選擇上,常見兩種方案:AC400V不間斷電源(UPS)和DC240V高壓直流(HVDC)。這兩項技術經(jīng)過多年的市場考驗,已證明其技術可行性,市場接受度較高,產(chǎn)業(yè)鏈較為成熟。但對于高密度、高效率的智算中心而言,由于智算服務器之間連接的光纜已經(jīng)占用過多機柜的走線空間,探索更高電壓的應用可以減少電源線占用的空間,帶來潛在的性能提升和成本節(jié)約,這也更符合可持續(xù)發(fā)展的要求。再考慮到未來智
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 借錢補充合同范本寫
- 倉儲送貨批發(fā)合同范例
- 一次合同范本
- 關于轉(zhuǎn)讓車輛合同范本
- 勞務派遣保潔合同范本
- 產(chǎn)權(quán)經(jīng)紀合同范本
- 出租兒童書架合同范例
- 2025年度化工產(chǎn)品綠色包裝設計與采購合同
- 修車搬運服務合同范本
- 2025年精煉銅線項目投資可行性研究分析報告
- 醫(yī)學心理學人衛(wèi)八版66張課件
- 物業(yè)服務五級三類收費重點標準
- 工商注冊登記信息表
- 仿古建筑施工常見質(zhì)量通病及防治措施
- 漢代儒學大師董仲舒思想課件
- 普通沖床設備日常點檢標準作業(yè)指導書
- 科技文獻檢索與利用PPT通用課件
- 《紅樓夢講稿》PPT課件
- DB33∕T 628.1-2021 交通建設工程工程量清單計價規(guī)范 第1部分:公路工程
- 吉祥喜金剛現(xiàn)證中品事業(yè)六支妙嚴(節(jié)錄)
- 國民中小學九年一貫課程綱要語文學習領域(國語文)
評論
0/150
提交評論