版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
ICSxx.xxx.xx
CCSXXX
團體標準
T/xxxxxx-20xx
城市級智算中心平臺和運營技術要求與評估方法
Technicalrequirementsandevaluationmethodsofurbanartificialintelligence
computingcenter
(征求意見稿)
DraftingguidelinesforcommercialgradesstandardofChinese
medicinalmaterials
20xx-xx-xx發(fā)布20xx-xx-xx實施
北京電子商會發(fā)布
T/CSAExx—20xx
城市級智算中心平臺和運營技術要求與評估方法
1范圍
本文件規(guī)定了智算中心的服務分類、功能架構、智算基礎設施、智算基礎平臺、機器學習平臺、大
模型智算平臺和運營的技術要求和評估方法。
本文件適用于指導智算中心平臺的研發(fā)、設計、建設和運營。
2規(guī)范性引用文件
下列文件中的內容通過文中的規(guī)范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,
僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本
文件。
GB/T41867-2022信息技術人工智能術語
T/AI118.1—2022人工智能算力中心第1部分:技術要求
3術語和定義
下列術語和定義適用于本文件。
智算中心artificialintelligencecomputingcenter
一種能夠為多用戶提供人工智能計算服務、數據容納的結構或結構組。使用信息技術、電信網絡設
備提供的數據存儲、處理、遷移,人工智能計算加速等功能,并集成能量供應、環(huán)境控制和為服務可用
性而制定的必要的可靠性組件。
[來源:T/AI118.1—2022,3.3,有修改]
人工智能集群artificialintelligencecluster
遵循統一控制的,人工智能計算功能單元的集合,可包含人工智能加速處理器、人工智能服務器、
人工智能加速模組等。當由人工智能服務器組成時,人工智能集群可稱為人工智能服務器集群,其中的
人工智能服務器可稱為節(jié)點。
[來源:GB/T41867-2022,3.1.4,有修改]
4縮略語
下列縮略語適用于本文件。
3
T/CSAExx—20xx
API:應用程序編程接口(ApplicationProgrammingInterface)
CPU:中央處理器(CentralProcessingUnit)
GPU:圖形處理器(GraphicsProcessingUnit)
IDC:互聯網數據中心(InternetDataCenter)
IPMI:智能平臺管理接口(IntelligentPlatformManagementInterface)
RDMA:遠程直接內存訪問(RemoteDirectMemoryAccess)
RoCE:基于融合以太網的RDMA(RDMAoverConvergedEthernet)
5智算中心總體要求
智算中心服務分類
智算中心提供的算力規(guī)模(以8*A800算力參考)可分為小算力(1卡-128卡)、中算力(128卡-512
卡)、大算力(大于512卡)。
從智算中心產品功能和算力規(guī)模角度,智算中心為用戶提供的服務場景可分為簡單智算服務、中等
智算服務和大模型智算服務。
a)簡單智算服務:為用戶提供通用的CPU、GPU等算力,通過API調用通用模型NLP等提供推理服務,
支持針對不同數據規(guī)模提供小算力、中算力和大算力的推理服務,適用于圖像分類、內容推薦、
生產過程統計等典型場景。
b)中等智算服務:基于通用模型,支持針對不同數據規(guī)模提供小算力、中算力和大算力的訓練和
推理等算力服務,適用于文本分類、命名實體識別、事件提取、錯別字檢查、精準排產應用、
生產能耗優(yōu)化、制造質量分析等典型場景。
1)精準排產應用:制定各個生產環(huán)節(jié)日生產計劃,提供生產精細化管理服務、資源優(yōu)化平衡
服務、生產異常響應服務等。
2)生產能耗優(yōu)化:實時采集車間產線的空調運行數據,依據人工智能算法結果,自動控制空
調以及車間其它能耗類設備的運行運程。
3)制造質量分析:包括擰緊大數據失效分析、電池持續(xù)低容分析、虛焊預測分析等,采用根
因分析、質量預測等分析組件,實現工藝結果分析和優(yōu)化建議。
c)大模型智算服務:基于大語言模型(模型參數量在10億以上),為用戶提供通用模型預訓練(大
算力)、行業(yè)模型預訓練(中算力)、場景微調訓練(小算力)等,適用于AIGC典型場景。
1)醫(yī)療醫(yī)藥文獻摘要提取:針對醫(yī)學部提交的三類藥物警戒臨床文獻,準確識別藥物警戒的
五要素(可識別的上報人,可識別的患者,懷疑藥物,不良反應,相關性描述),抽取并
總結生成完整的綜述報告,人工校準后翻譯為對應的英文報告,上報至全球總部。
2)保電大模型服務:支持根據保電場館賽事/活動任務生成保電任務目標及策略;通過學習
保電工作涉及到的場館、線路、保障隊伍及物資情況,生成保電預案方案;故障發(fā)生時,
可通過大模型生成對應故障級別的處置任務,并聯動下游任務形成執(zhí)行工單。
3)政務辦事咨詢服務:針對政務服務辦理提供專業(yè)化的對話式辦事咨詢,提供群眾企業(yè)的精
準訴求分析、辦理流程反饋等服務。
4
T/CSAExx—20xx
4)教育科研傳統CV視覺模型訓練(中算力)和教育科研場景大模型微調訓練(小算力)。
智算中心平臺和運營功能架構
智算中心平臺和運營功能架構如圖1所示,由智算基礎設施、智算基礎平臺、智算服務平臺、統一
監(jiān)控運營運維平臺、平臺和運營評估方法組成,支撐簡單智算場景、中等智算場景和大模型智算場景。
智算基礎設施為智算平臺提供IDC機房、網絡交換機(RDMA網絡交換機、通用網絡交換機)、算力
服務器(智算算力服務器、通用計算服務器)、存儲服務器和安全服務器等基礎能力。
智算基礎平臺基于智算基礎設施,為上層平臺和應用提供算力、存儲、網絡、容器、容器鏡像、安
全等服務。
智算服務平臺包括機器學習平臺和大模型智算平臺?;谥撬慊A設施和智算基礎平臺提供的服
務能力,機器學習平臺主要支持簡單智算場景和中等智算場景,提供數據預處理、模型訓練、模型推理、
模型納管和模型部署功能;大模型智算平臺支持大模型智算場景,利用機器學習平臺的數據預處理、模
型部署等能力,提供大模型訓練、大模型微調、大模型推理和大模型多模納管等功能。
統一監(jiān)控運營運維平臺為智算中心提供通用的監(jiān)控運營運維基礎平臺能力,以及統一門戶、用戶控
制臺、融合多租戶管理、資源管理、運營管理、運維管理、安全部署自動化等能力。
平臺和運營評估方法規(guī)定支持三類場景的智算中心能力評估的原則和方法。
圖1智算中心平臺和運營功能架構
智算中心通用要求
a)自主知識產權
1)開發(fā)工具和框架的授權:應確保機器學習平臺使用的開發(fā)工具、框架和庫均是合法授
權;
2)算法和模型的知識產權:機器學習算法和模型應具備自主知識產權,或確保已經獲得了
適當的許可或授權,以便在平臺上使用;
5
T/CSAExx—20xx
3)開源和閉源組件的合規(guī)性:機器學習平臺使用的開源組件應遵守相應的開源許可協議;
如使用了閉源組件,應確保擁有合法的許可或授權;
4)用戶生成內容的合規(guī)性:用戶上傳和共享的內容應避免侵犯他人的知識產權,同時應保
護用戶生成內容的合法性。
b)芯片兼容能力
1)架構兼容:機器學習平臺和大模型智算平臺應支持多種不同芯片架構,以便用戶可以選
擇適合其應用需求的硬件加速器;
2)平臺兼容:機器學習平臺和大模型智算平臺應確保平臺的軟件堆棧、驅動程序和庫能夠
兼容多種芯片,以便用戶可以在不同硬件上運行其模型和算法;
3)框架和開發(fā)工具兼容:機器學習平臺和大模型智算平臺應兼容多種深度學習框架(如
TensorFlow、PyTorch、Megatron等)和開發(fā)工具,并支持自定義深度學習框架和開發(fā)工
具。
c)并發(fā)訪問能力
1)多用戶并發(fā)登錄:智算中心應支持幾十個至幾千個用戶同時登錄,同時創(chuàng)建千級個容
器,服務并發(fā)連接數十萬以上;
2)并發(fā)任務調度:智算中心應支持對模型訓練,推斷和數據預處理等任務進行合理調度和
資源分配;
3)數據訪問和共享:智算中心應支持數據共享和訪問控制機制,以確保多個用戶可以安全
地訪問和共享數據,同時保護敏感數據的隱私。
d)可靠性和容錯能力
1)高可用性:智算中心應具備高可用性,支持負載均衡,故障切換和災備恢復機制;
2)容錯處理:智算中心應具備容錯處理機制,以應對系統故障和異常情況,如硬件故障,
網絡中斷等;
3)數據完整性和一致性:智算中心應支持數據備份、數據校驗和錯誤修復機制,以確保數
據在存儲和處理過程中的完整性和一致性;
4)異常監(jiān)測和報警:智算中心應具備異常檢測和報警機制,確保系統出現異常時及時通知
管理員或用戶;
5)時延:機器學習平臺和大模型智算平臺的服務訪問的平臺延時時間在秒級以內;
6)故障恢復:機器學習平臺和大模型智算平臺的功能類服務的故障恢復時間在分鐘級以
內;
7)日志和審計:智算中心應支持記錄和審計關鍵操作和事件;
8)彈性擴展:智算中心應具備資源彈性擴展能力;
9)性能監(jiān)控和調整:智算中心應提供性能監(jiān)控和調整工具,以幫助用戶根據需求調整資源
分配,優(yōu)化性能。
e)北向接口
機器學習平臺和大模型智算平臺應提供restfulAPI、kafka等標準的北向數據接口接入統一運
營運維平臺。
6智算基礎設施
通用要求
各類智算基礎設施針對簡單智算、中等智算和大模型智算場景應支持的技術要求如表1所示。
6
T/CSAExx—20xx
表1不同智算場景對智算基礎設施的技術要求
功能項簡單智算中等智算大模型智算
IDC機房?保證電子信息系?基礎設施在冗余能力范圍?基礎設施應在一次意外事
統運行不中斷;內,不得因設備故障而導致故后或單系統設備維護或
?雙重電源供電當電子信息系統運行中斷;檢修時仍能保證電子信息
只有一路電源?雙重電源供電,當只有一路系統正常運行;
時,應設置UPS設電源時,應設置柴油發(fā)電機?應由雙重電源供電,應設置
備作為備用電組作為備用電源,UPS提供柴油發(fā)電機組作為備用電
源;雙路供電電源;源,UPS提供雙路供電電源;
?供電電源應按二?供電電源應按一級負荷考?供電電源應按一級負荷中
級負荷考慮;慮;特別重要的負荷考慮;
?網絡布線應具備?網絡布線應具備支持10GB?網絡布線應至少支持10GB
支持10GB/s、/s(管理網)、25GB/s(存/s(管理網)、100GB/s(存
40GB/s網絡的儲網)和100GB/s(計算網)儲網)和200GB/s(計算
能力。網絡的能力。網)網絡的能力
交換機提供支持推理的計算?提供支持訓練的高速網絡;?支持高性能高速網絡,分別
網絡以及存儲網絡?提供擁塞控制機制;用于并行計算程序的集群
?提供基于內存的樣本數據計算網絡以及并行存儲系
訪問加速。統的存儲網絡;
?上行支持10G/25G/100Gb/s?支持基于內存的樣本數據
端口到核心交換機訪問加速;
?支持GPU直接通過網卡接入
網絡的雙中心架構、全對
等、扁平化的多軌集群架
構;
?支持高性能集合通信庫;
?上行支持
10G/100G/200Gb/s端口到
核心交換機
智算服可具備此項能力?提供FP32、FP16和FP8非稀?提供FP32、FP16和FP8非稀
務器疏算力疏算力
?主頻2.0以上,處理器核心?應支持AI芯片之間的高速
≥32核,內存≥512GB,8塊互聯帶寬不低于200GB
GPU卡(典型32G)?主頻≥2.0以上,處理器核
心≥48核,內存≥1TB,8塊
GPU卡
通用計處理器核心≥24核,處理器核心≥24核,內存≥處理器核心≥32核,內存≥2TB,
算服務內存≥512GB,≥1塊512GB,≥2塊3.84TSSD≥4塊1.92TSSD
器960GSSD
存儲服無差異化要求
務器
7
T/CSAExx—20xx
安全服?防火墻(支持入?防火墻(支持入侵防御及防?防火墻(支持入侵防御及防
務器侵防御及防病病毒),最大吞吐量≥病毒),最大吞吐量≥
毒),最大吞吐8Gbps,每秒新建連接數≥40Gbps,每秒新建連接數≥
量≥8Gbps,每秒15萬,并發(fā)連接數≥200萬;20萬,并發(fā)連接數≥600萬;
新建連接數≥15?Web應用防火墻支持基本防?Web應用防火墻支持SQL注
萬,并發(fā)連接數護功能;入語義分析等高級防護功
≥200萬;?提供態(tài)勢感知和堡壘機集能;
?Web應用防火墻中管理資產權限?提供態(tài)勢感知和堡壘機集
支持基本防護功中管理資產權限
能;?提供多鏈路/服務器負載均
?提供態(tài)勢感知和衡、全局負載、智能DNS能力
堡壘機集中管理
資產權限
IDC機房
6.2.1選址及設備布置
a)在保證電力供給、通信暢通、交通便捷的前提下,智算中心的建設應選擇氣候環(huán)境溫度相對較
低的地區(qū),這樣有利于降低能耗。
b)電子信息系統受粉塵、有害氣體、振動沖擊、電磁場干擾等因素影響時,將導致運算差錯、誤
動作、機械部件磨損、腐蝕、縮短使用壽命等。智算中心位置選擇應盡可能遠離產生粉塵、有
害氣體、強振源、強噪聲源等場所,避開強電磁場干擾。
c)水災隱患區(qū)域主要是指江、河、湖、海岸邊,A級智算中心的防洪標準應按100年重現期考慮;
B級智算中心的防洪標準應按50年重現期考慮。在園區(qū)內選址時,智算中心不應設置在園區(qū)低
洼處。
d)對智算中心選址地區(qū)的電磁場干擾強度不能確定時,需做實地測量,測量值超過本規(guī)范第5章
規(guī)定的電磁場干擾強度時,應采取屏蔽措施。
e)從安全角度考慮,大模型智算中心不宜建在公共停車庫的正上方,當只能將智算中心建在停車
庫的正上方時,應對停車庫采取防撞防爆措施。
f)大中型智算中心是指主機房面積大于200m2的智算中心。由于空調系統的冷卻塔或室外機組工
作時噪聲較大,如果智算中心位于住宅小區(qū)內或距離住宅太近,噪聲將對居民生活造成影響。
居民小區(qū)和商業(yè)區(qū)內人員密集,也不利于智算中心的安全運行。
g)智算中心各類設備包括服務器、存儲設備、網絡設備、機柜(架)、供配電設備、空調設備、給
排水設備、消防設備、監(jiān)控設備等。工藝專業(yè)應遵循近期建設規(guī)模與遠期發(fā)展規(guī)劃協調一致的
原則,按照模塊化的建設思路,根據數據中心的不同應用進行設備平面布置。
6.2.2環(huán)境要求
a)主機房和輔助區(qū)內的溫度、露點溫度和相對濕度對電子信息設備的正常運行和數據中心節(jié)能
非常重要。有關環(huán)境對印刷線路板及電子元器件的影響研究表明,影響靜電積累效應和空氣中
8
T/CSAExx—20xx
各種鹽類粉塵潮解度的是空氣含濕量,在氣壓不變的情況下,由于露點溫度可以直接體現空氣
中的含濕量,因此采用露點溫度更具有可操作性。
b)電子信息設備停機時,主機房也應該保持一定的環(huán)境溫度和相對濕度。“停機”是指設備已經
拆除包裝并安裝,但未投入運行或停機維護階段。
c)由于空氣中的懸浮粒子有可能導致電子信息設備內部發(fā)生短路等故障,為了保障重要的電子
信息系統運行安全,本規(guī)范對數據中心主機房在靜態(tài)或動態(tài)條件下的空氣含塵濃度做出了規(guī)
定。根據現行國家標準《潔凈廠房設計規(guī)范》GB50073的規(guī)定進行計算,每立方米空氣中粒徑
大于或等于0.5μm的懸浮粒子數為17600000的空氣潔凈度等級為8.7級。
6.2.3建筑與結構
a)由于數據中心的建筑是一次性建成,而電子信息設備是分期投入的,故要求建筑平面應具有靈
活性,在后期基礎設施的施工和安裝過程中,不應影響前期電子信息設備的正常運行。
b)從空調氣流組織合理性及設備和管線安裝方便角度考慮,對于新建數據中心和層高較高的已
有建筑,主機房凈高要求不小于3.0m。當利用已有建筑改建數據中心時,由于某些建筑層高較
低,主機房凈高可適量降低,但不應小于2.6m,此時機柜容量也應適量降低。在滿足電子信息
設備使用要求的前提下,還應綜合考慮室內建筑空間比例的合理性以及對建設投資和日常運
行費用的影響。
c)規(guī)定變形縫不宜穿過主機房的目的是為了避免因主體結構的不均勻沉降而破壞電子信息系統
的運行安全。當由于主機房面積太大而無法保證變形縫不穿過主機房時,則必須控制變形縫兩
邊主體結構的沉降差。
d)數據中心設置單獨出入口的目的是為了避免人流物流的交叉,提高數據中心的安全性,減少灰
塵被帶入主機房。尤其是當數據中心位于其他建筑物內時,應采取措施,避免無關人員和貨物
進入數據中心。
e)主機房一般屬于無人操作區(qū),輔助區(qū)一般含有測試機房、總控中心、備件庫、維修室、用戶工
作室等,屬于有人操作區(qū)。設計規(guī)劃時宜將有人操作區(qū)和無人操作區(qū)分開布置,以減少人員將
灰塵帶入無人操作區(qū)的機會。但從操作便利角度考慮,主機房和輔助區(qū)宜相鄰布置。
6.2.4空氣調節(jié)
a)電子信息設備在運行過程中產生大量熱,這些熱量如果不能及時排除,將導致機柜或主機房內
溫度升高,過高的溫度將使電子元器件性能劣化、出現故障,或者降低使用壽命。此外,制冷
系統投資較大、能耗較高,運行維護復雜。因此,空氣調節(jié)系統設計應根據數據中心的等級,
采用合理可行的制冷系統,對數據中心的可靠性和節(jié)能具有重要意義。
b)數據中心內設備的散熱量應以設備實際用電量為準。對主機房內的電子信息設備的用電量不
能完全掌握時,可參考所選UPS電源的容量和冗余量來計算設備的散熱量。
c)從節(jié)能的角度出發(fā),機柜間采用封閉通道的氣流組織方式,可以提高空調利用率。采用水平送
風的行間制冷空調進行冷卻,可以降低風阻。隨著電子信息技術的發(fā)展,機柜的容量不斷提高,
設備的發(fā)熱量將隨容量的增加而加大,為了保證電子信息系統的正常運行,對設備的降溫也將
出現多種方式,各種方式之間可以相互補充。
9
T/CSAExx—20xx
d)主機房內的線纜數量很多,一般采用線槽或橋架敷設。當線槽或橋架敷設在高架活動地板下
時,線槽占據了活動地板下的部分空間。當活動地板下作為空調靜壓箱時,應考慮線槽及消防
管線等所占用的空間,空調送風量應按地板下的有效送風面積進行計算。
e)主機房維持正壓的目的是為了防止外部灰塵進入主機房。
6.2.5電氣
a)大模型智算中心的供電電源應按一級負荷中特別重要的負荷考慮,中等智算中心的供電電源
應按一級負荷考慮,簡單智算中心的供電電源應按二級負荷考慮。
b)規(guī)定引入機房的戶外供電線路不宜采用架空方式敷設的目的是為了保證戶外供電線路的安全,
保證數據中心供電的可靠性。戶外架空線路易受到自然因素(如臺風、雷電、洪水等)和人為因
素(如交通事故)的破壞,導致供電中斷,故戶外供電線路宜采用直接埋地、排管埋地或電纜溝
敷設的方式。當戶外供電線路采用埋地敷設有困難,只能采用架空敷設時,應采取措施,保證
線路安全。
c)數據中心供電可靠性要求較高,為防止其他負荷干擾,當數據中心用電容量較大時,應設置專
用配電變壓器供電;數據中心用電容量較小時,可由專用低壓饋電線路供電。
d)數據中心低壓配電采用TN-S系統可以對雷電浪涌進行多級保護,對UPS和電子信息設備進行電
磁兼容保護。
e)備用電源是保障大模型智算中心正常運行的必要條件,獨立于正常電源的發(fā)電機組和供電網
絡中獨立于正常電源的專用饋電線路都可以作為備用電源。由于柴油發(fā)電機組在可操作性上
優(yōu)于其他備用電源,故大部分數據中心采用柴油發(fā)電機組作為備用電源。
f)中等中心比大模型智算中心在電源可靠性方面降低了要求,當B級數據中心由雙重電源供電時,
不需要再設置備用電源。
6.2.6電磁屏蔽
a)設有電磁屏蔽室的數據中心,結構荷載除應滿足電子信息設備的要求外,還應考慮金屬屏蔽結
構需要增加的荷載值。根據調研,需要增加的結構荷載與屏蔽結構形式及屏蔽室的面積有關,
一般在1.2kN/m2~2.5kN/m2范圍內。
b)濾波器、波導管等屏蔽件一般安裝在電磁屏蔽室金屬殼體的外側,考慮到以后的維修,需要在
安裝有屏蔽件的金屬殼體側與建筑(結構)墻之間預留維修通道或維修口,通道寬度不宜小于
600mm。
c)電磁屏蔽室的接地采用單獨引下線的目的是為了防止屏蔽信號干擾電子信息設備,引下線一
般采用截面積不小于25mm2的多股銅芯電纜。
d)屏蔽件的性能指標主要是指衰減參數和截止頻率等。選擇屏蔽件時,其性能指標不能低于電磁
屏蔽室的屏蔽要求。根據調研,屏蔽件的性能指標適當提高一些,屏蔽效果會更好。
6.2.7網絡與布線系統
a)數據中心布線系統與網絡系統架構密切相關,設計時應根據網絡架構確定布線系統。
10
T/CSAExx—20xx
b)傳輸介質主要是指設備纜線、跳線和配線設備。冗余配置的要求主要針對大模型和中等智算中
心的布線,對于簡單智算中心的布線,可根據具體情況確定。網絡布線應具備支持10GB/s、
40GB/s和100GB/s網絡的能力。
c)MPO是多芯推進鎖閉光纖連接器件,通過陣列完成多芯光纖的連接;MTP是基于MPO發(fā)展而來的
機械推拉式多芯光纖連接器件,MTP兼容所有MPO連接器件標準和規(guī)范。單個MPO/MTP連接器件
可以支持12芯、24芯、48芯或72芯光纖的連接。存儲網絡光纖鏈路設計采用多芯MPO/MTP預連
接系統是為了滿足存儲設備的損耗性能要求。
d)主機房中的對絞線纜配線架和光纖配線箱可以安裝在機柜(架)內,也可以通過支架安裝在橋
架上。
e)為防止電磁場對布線系統的干擾,避免通過布線系統對外泄漏重要信息,應采用屏蔽布線系
統、光纜布線系統或采取其他電磁干擾防護措施(如建筑屏蔽)。當采用屏蔽布線系統時,應保
證鏈路或信道的全程屏蔽和屏蔽層可靠接地。
6.2.8智能化系統
a)智算中心智能化系統設計內容一般包括:環(huán)境和設備監(jiān)控系統、網絡與布線系統、電話交換系
統、小型移動蜂窩電話系統、火災自動報警及消防聯動控制系統、背景音樂及緊急廣播系統、
視頻安防監(jiān)控系統、入侵報警系統、出入口控制系統、停車庫管理系統、電子巡更管理系統、
電梯管理系統、周界防范系統、有線電視系統、衛(wèi)星通信系統、大屏幕顯示系統、擴聲系統、
中控系統、KVM系統、資產管理系統、數據中心氣流與熱場管理系統等,各數據中心可根據實
際需求確定。
b)智能化系統的主機和人機界面可以集中設置在總控中心內(消防控制室單獨設置時,其他系統
可以集中設置在總控中心內)。為了提高供電電源的可靠性,各系統宜采用獨立的UPS電源。當
采用集中UPS電源供電時,應采用單獨回路為各系統配電。A級和B級數據中心,應為UPS提供雙
路供電電源。
c)系統對監(jiān)控范圍內分布的各監(jiān)控對象進行實時監(jiān)視,記錄和處理相關數據,檢測故障,適時通
知相關人員處理故障,根據要求提供相應的數據和報表,實現機房的無人值守,以及環(huán)境和設
備的集控監(jiān)控、維護和管理,對電能利用效率(PUE)和水利用效率(WUE)進行檢測和計算。
6.2.9給水排水
a)擋水和排水設施用于自動噴水滅火系統動作后的排水、空調冷凝水及加濕器的排水,防止積
水。
b)設置冷卻水補水儲存裝置是為了保證數據中心冷源供水系統的可靠性,防止市政供水中斷導
致數據中心供冷中斷。
6.2.10消防與安全
a)常用的氣體滅火劑分為鹵代烷和惰性混合氣體,前者的典型代表為七氟丙烷(HFC-227ea),后
者的典型代表為IG-541。鹵代烷的滅火機理是化學反應,惰性氣體滅火機理是控制氧氣濃度和
窒息。氣體滅火系統具有響應速度快、滅火后藥劑無殘留、對電子設備損傷小等特點。氣體滅
11
T/CSAExx—20xx
火系統自動化程度高、滅火速度快,對于局部火災有非常強的抑制作用,但由于造價高,因此
應選擇火災對機房影響最大的部分設置氣體滅火系統。
b)對于空間較大,且只有部分設備需要重點保護的房間(如變配電室),為進一步降低工程造價,
可僅對設備(如配電柜)采取局部保護措施,如可采用探火管自動滅火裝置。
c)智算中心發(fā)生火災,其后果都很嚴重,因此必須設置火災探測報警系統,便于早期發(fā)現火災,
及時撲救,使損失減到最小?,F行國家標準《火災自動報警系統規(guī)范》GB50116對火災探測和
聯動控制有詳細的要求。
6.2.11基礎設施運行維護
a)設施系統與設備運行應包括值班、監(jiān)控日常巡檢、運行操作、報和事件處理內容。
b)大型智算中心應24H值班,中等和簡單智算中心宜按照子信息設備負載的重要性確定值班時間。
c)消防系統和安防范系統應24H保持正常工作狀態(tài),不得隨意中斷。
d)運行人員應按照巡檢計劃、周期、規(guī)定路線對基礎設施系統和設備及運行環(huán)境進行巡檢,巡檢
記錄應及時、完整、真實、清晰。
e)大型智算中心每日現場巡檢次數不應少于2次,中等和簡單智算中心每日場巡檢次數不應少于
1次。
f)有能耗計量系統的智算中新,應保證能耗計裝置正常工作,數據完整有效。
g)智算中心能耗數據應定期進行綜合分析,合理優(yōu)化電氣與通風調系統的運行控制策略,提高整
體電能使用效率。
h)設備有備用或冗余的,應輪換使用。
RDMA網絡交換機
6.3.1InfiniBand
接口與線纜要求
a)交換機設備200G端口數量≥40個;
b)交換機設備支持DAC銅纜或AOC線纜;
c)交換機配套光纖的誤碼率≤1E-15。
功能要求
a)高速計算網絡應符合InfiBand相關技術規(guī)范;
b)支持原生RDMA硬件支持,不接受軟件模擬RDMA;
c)支持MPI點到點通信和聚合類通信硬件卸載,提供MPI通信優(yōu)化軟件包;
d)支持Adaptiverouting動態(tài)路由。
性能要求
a)支持網絡鏈路故障快速恢復和動態(tài)路由,網絡收斂時間<1ms;
b)交換機端口轉發(fā)延遲<130ns;
c)設備整機交換容量≥16Tbps(A類);
12
T/CSAExx—20xx
d)IB流量多打多場景,針對不同消息長度,網絡端到端平均帶寬需滿足>15Gb/s;
e)IB流量alltoall場景,針對不同消息長度,網絡端到端的平均帶寬需滿足>15Gb/s,平均時延
需滿足<1000us;
f)IB流量allreduce場景,針對不同消息長度,網絡端到端的平均帶寬需滿足>20GB/s,平均時
延需滿足<2500us。
硬件要求
a)交換機設備的高度≤1U;
b)配置冗余電源和冗余風扇;
c)支持電源和風扇的熱插拔;
d)支持220V交流雙路供電(要求價格保持一致,簽約時由用戶確定供貨電源類型。直流電源不得
使用直/交逆變模塊)。
網絡管理要求
a)支持圖形化管理軟件,能夠對網絡運行、網絡性能、故障以及擁塞狀況進行監(jiān)控;
b)網管軟件能夠自動發(fā)現拓撲和設備,并對設備進行管理、對性能進行優(yōu)化,支持管理系統的高
可用。
6.3.2RoCEV2
a)宜基于通用以太網交換機、網卡和組網,支持網絡性能無損的集群規(guī)模擴展和PFC死鎖檢測,
避免集群網絡不可用的系統性風險,保障網絡整體SLA;
b)接入交換機提供業(yè)務網接入和互聯網接入;
c)支持高性能高速網絡,分別用于并行計算程序的集群計算網絡以及并行存儲系統的存儲網絡;
d)提供IPMI網絡,接入到系統管理網;
e)宜采用雙25GE網絡進行云內的業(yè)務組網,上端對接核心交換機;
f)宜采用雙10GE接入網絡交換機組成系統管理網,上端對接網管核心交換機;
g)支持GPU直接通過網卡接入網絡的雙中心架構,提升集群通信效率,降低節(jié)點內靜態(tài)擁塞;
h)支持全對等、扁平化的多軌集群架構(2個核心span+交換機lif),實現多路通信和資源間的
直接互聯互通;擴展:跨數據中心;
i)支持流控算法、網絡協議與架構的協同設計,提升網絡傳輸性能,降低動態(tài)擁塞;
j)支持高性能集合通信庫,提供GPU和網卡的智能匹配、節(jié)點內外物理拓撲自動識別及拓撲感知
的無擁塞集群通信能力;
k)支持基于內存的樣本數據訪問加速,降低數據加載時長。
6.3.3匯聚交換機
a)支持不少于48個10GSFP+接口和不少于4個40GQSFP+接口;
b)交換容量不低于12Tbps,包轉發(fā)率不低于4480Mpps;
c)支持基于端口、基于協議、基于MAC的VLAN;
13
T/CSAExx—20xx
d)支持RIP、OSPF、ISIS、BGP等IPv4動態(tài)路由協議,支持RIPng、OSPFv3、ISISv6、BGP4+等IPv6
動態(tài)路由協議;
e)支持MPLS、MCE,支持MPLSVPN,支持MPLSTE;
f)支持streamingtelemetry,支持線速提供可視化信息,提供入端口,出端口和入出時間信息;
g)支持簡化MOD,不占用路由資源;支持增強TCB,全局端口所有隊列同時丟包監(jiān)控;
h)支持BGP-EVPN,支持VxLAN,支持VxLANOAM:VxLANping,VxLANtracert,支持QinQin
VxLAN,支持GRETunnel;
i)支持無損網絡RDMA,支持PFC、ECN、ETS;支持INT(In-bandNetworkTelemetry);
j)配置100GE光模塊不少于12個。
6.3.4核心交換機
a)支持主控制引擎模塊不少于2個;
b)可用槽位不少于6個;
c)支持至少36個100GE下行接口;至少48端口萬兆以太網口;
d)交換容量不少于12Tbps,包轉發(fā)率不低于4480Mpps;
e)支持基于端口、基于協議、基于MAC的VLAN;
f)支持RIP、OSPF、ISIS、BGP等IPv4動態(tài)路由協議,支持RIPng、OSPFv3、ISISv6、BGP4+等IPv6
動態(tài)路由協議;
g)支持MPLS、MCE,支持MPLSVPN,支持MPLSTE;
h)支持streamingtelemetry,支持線速提供可視化信息,提供入端口,出端口和入出時間信息;
i)支持簡化MOD,不占用路由資源;支持增強TCB,全局端口所有隊列同時丟包監(jiān)控;
j)支持BGP-EVPN,支持VxLAN,支持VxLANOAM:VxLANping,VxLANtracert,支持QinQin
VxLAN,支持GRETunnel;
k)支持無損網絡RDMA,支持PFC、ECN、ETS;支持INT(In-bandNetworkTelemetry);
l)配置100GE光模塊不低于12個。
智算算力服務器
智算算力服務器應支持的功能要求包括但不限于:
a)應支持至少2個獨立或集成的CPU;
b)應支持至少兩種深度學習或機器學習框架;
c)應支持DDR4或以上版本的內存,宜支持不少于16個DDR控制器;
d)應支持SAS、SATA或NVME等存儲協議;
e)應支持計算機視覺,自然語言處理,聲音處理場景模型訓練;
f)應支持PCIE協議,版本不低于3.0,宜支持至少2個PCIE控制器;
g)應支持USB2.0通信,配備接口;
h)應支持100GE、25GE、10GE、GE接口;
i)支持片間數據通道或接口,單向通信速率不低于24Gbps;
j)宜支持人工智能加速處理器芯片直出的參數面網口;
k)采用人工智能加速器片上內存時,片上內存不宜低于32GB,總帶寬不宜小于1200GB/s;
14
T/CSAExx—20xx
l)采用板載內存時,板載內存不宜低于48GB;
m)應支持圖像、視頻預處理;
n)服務器整機電源功率不應低于2KW;
o)單條內存容量應不小于32GB,宜能支持64GB或以上單條存容量;
p)可配內存數量應不低于16條,宜不低于32條;
q)支持虛擬化的人工智能加速處理器(如NPU、GPU),GPU虛擬化支持顯存、算力雙維度自由切
分和動態(tài)創(chuàng)建銷毀;
r)支持跨架構的GPU虛擬化技術,提供智算算力池化,推理和訓練服務器的混合部署。
通用計算服務器
通用計算服務器應支持的功能要求包括但不限于:
a)應支持至少2個獨立或集成的CPU;
b)應支持CPU虛擬化技術,如虛擬機、容器等;
c)宜支持L3緩存,容量不低于16MB;
d)宜支持DDR4或以上版本的內存;
e)應支持PCIE協議,版本不低于3.0;
f)應支持25GE、10GE、GE等網絡接口;
g)應支持圖像、視頻預處理模塊;
h)應支持計算機視覺,自然語言處理,聲音處理場景模型推理;
i)應支持SAS、SATA或NVME等存儲協議;
j)服務器整機電源功率不應低于500W;
k)單條內存容量不應小于16GB,宜能支持64GB或以上單條存容量;
l)可配內存數量應不低于8條,宜不低于24條。
存儲服務器
存儲服務器應支持的功能要求包括但不限于:
a)應支持至少2個獨立或集成的CPU;
b)宜支持L3緩存,容量不低于16MB;
c)宜支持DDR4或以上版本的內存;
d)應支持PCIE協議,版本不低于3.0;
e)應支持至少6個以上25GE、10GE、GE等網絡接口;
f)應支持SAS、SATA或NVME等存儲協議;
g)服務器整機電源功率不應低于500W;
h)單條內存容量不應小于32GB,宜能支持64GB或以上單條存容量;
i)可配內存數量應不低于16條,宜不低于32條;
j)可配SSD硬盤不低于10塊,單塊硬盤容量不低于480GB,宜能支撐3.84TB以上容量;
k)可配SATA或SAS硬盤不低于24塊,單塊硬盤容量不低于16TB,硬盤轉數不低于7.2KPRM。
安全服務器
安全服務器應支持的功能要求包括但不限于:
a)應支持至少1個獨立或集成的CPU;
b)宜支持L3緩存,容量不低于16MB;
15
T/CSAExx—20xx
c)宜支持DDR4或以上版本的內存;
d)應支持PCIE協議,版本不低于3.0;
e)應支持至少6個以上25GE、10GE、GE等網絡接口;
f)應支持1個以上帶外管理接口;
g)應支持SAS、SATA或NVME等存儲協議;
h)服務器整機電源功率不應低于500W;
i)單條內存容量不應小于16GB,宜能支持64GB或以上單條存容量;
j)可配內存數量應不低于8條,宜不低于16條。
k)應提供硬件可信執(zhí)行環(huán)境(TEE),供特權軟件運行。
l)防火墻支持應用控制、URL過濾、病毒防護、入侵防御等功能;
m)Web應用防火墻支持HTTP規(guī)范性檢測、注入防護、漏洞防護等基礎功能,以及SQL注入語義分析、
XSS跨站腳本語義分析、網站盜鏈行為檢測與防御、XML攻擊防護等高級防護功能;
n)提供態(tài)勢感知和堡壘機集中管理資產權限;
o)提供負載均衡能力,包括多鏈路/服務器負載均衡、全局負載、智能DNS等能力。
7智算基礎平臺
通用要求
智算基礎平臺的各項服務針對簡單智算、中等智算和大模型智算場景應支持的要求如表2所示。
表2不同智算場景對智算基礎平臺的技術要求
功能項簡單智算中等智算大模型智算
算力服務基本CPU計算能力和CPU+GPU及GPU加速和分高性能計算資源、包括多CPU、
并行計算能力布式計算能力;默認都是數據中心級的GPU,
支持并行計算和分布式支持大規(guī)模并行計算和分布式訓
訓練練
容器服務鏡像大小幾百兆到幾鏡像大小幾十G到數十G鏡像大小幾十G到百G,鏡像部署
個G之前,鏡像部署時之間,鏡像部署時間小時間幾個小時到數天級
間分鐘級時級
容器鏡像服務鏡像構建時間幾分鐘鏡像構建時間幾分鐘至鏡像構建時間小時至數數天
數小時
網絡服務響應時間:網絡服務響應時間:網絡服務應響應時間:網絡服務應能在幾百
應能在幾十毫秒至數能在幾十毫秒至數百毫毫秒至數秒的范圍內快速響應。
百毫秒的范圍內快速秒的范圍內快速響應。并發(fā)連接:網絡服務應能處理數
響應。并發(fā)連接:網絡服務應萬到數十萬個并發(fā)連接。
并發(fā)連接:網絡服務能處理數千到數萬個并數據傳輸:支持大規(guī)模數據的高
應能處理數百到數千發(fā)連接。速傳輸和低延遲的通信。
個并發(fā)連接。數據傳輸:支持中等規(guī)
模數據的高效傳輸和低
延遲的通信。
16
T/CSAExx—20xx
數據傳輸:支持小規(guī)
模數據的快速傳輸和
低延遲的通信。
存儲服務單數據文件<1TB,單數據文件>1TB,中等通用預訓練:單數據文件>2TB,
IOPS>1萬,吞吐量ms級延時,IOPS>3萬,百億小文件,IOPS百萬級,吞吐
<4GB/S吞吐量<10GB/S量>100GB/S
行業(yè)預訓練:單數據文件>1TB,
中等ms級延時,IOPS>3萬,吞吐
量<10GB/S
微調訓練:
單數據文件<1TB,IOPS>1萬,吞
吐量<4GB/S
安全服務提供基礎的訪問控提供細粒度的訪問控提供高級訪問控制和身份認證能
制,制;具備較強的監(jiān)測防力;
監(jiān)測防御常見網絡威御能力;支持敏感操作監(jiān)測防御復雜的網絡安全威脅和
脅;記錄和審計常見的審計和追蹤。攻擊;
訪問操作日志。支持全面的安全審計和日志記
錄。
算力服務
智算基礎平臺的算力服務應滿足的要求包括但不限于:
a)支持通用算力和智算算力兩種計算方式,滿足不同應用場景需要;
b)提供彈性伸縮能力,用戶可以根據實際需求進行配置和調整;
c)支持多種任務調度方式,包括批處理、交互式應用、實時流處理等;
d)支持多種操作系統,包括Linux和Windows等;
e)提供高可用性和容錯能力,確保計算持續(xù)穩(wěn)定運行。
容器服務
智算基礎平臺的容器服務應滿足的要求包括但不限于:
a)提供輕量級、可移植和可擴展的容器環(huán)境;
b)支持常見的容器化技術,如Docker和Kubernetes等;
c)提供容器編排機制,確保容器服務的高可靠性和高可用性;
d)支持容器自動發(fā)現和擴展;
e)提供容器網絡隔離和安全性保護。
容器鏡像服務
智算基礎平臺的容器鏡像服務應滿足的要求包括但不限于:
a)提供靈活的容器鏡像管理和分發(fā)系統;
b)支持常見的容器鏡像倉庫,如DockerHub和阿里云鏡像庫等;
17
T/CSAExx—20xx
c)提供高效、安全和可靠的容器鏡像構建和打包;
d)支持鏡像的標簽管理和自動化構建。
網絡服務
智算基礎平臺的網絡服務應滿足的要求包括但不限于:
a)提供高性能和低延遲的網絡服務,支持超大規(guī)模網絡,宜采用適合大模型訓練網絡流量特征的
網絡架構,如fat-tree等;
b)應支持RDMA高性能網絡,如InfiniBand、RoCE,及相應的網卡、交換機。國產化場景應支持RoCE
網絡;
c)實現虛擬專用云(VPC)網絡,實現安全訪問和隔離;
d)支持不同網絡協議,如TCP/IP、UDP和HTTP等;
e)提供負載均衡和流量控制機制,確保高可用性和高吞吐量。
存儲服務
智算基礎平臺的存儲服務應滿足的要求包括但不限于:
a)提供高性能的存儲能力,如高性能存儲、對象存儲、塊存儲和文件存儲等;
b)提供不同存儲方式,如分布式文件系統、分布式塊存儲和對象存儲等;
c)提供數據備份和恢復能力,確保數據不受意外損失;
d)提供數據壓縮、加密(傳輸加密和服務端加密)和鑒別等安全保護措施;
e)實現容器化存儲,確保數據隔離
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版暨南大學離婚心理學研究與應用合同3篇
- 二零二五年度電梯門套綠色環(huán)保材料采購合同3篇
- 二零二五年度集團高層管理人員聘任與職務調整合同6篇
- 二零二五年股票代持與反洗錢義務合同3篇
- 二零二五年駕駛員勞務派遣與車輛充電樁油耗管理服務合同3篇
- 二零二五版戶外拓展訓練特色課程開發(fā)與推廣合同3篇
- 二零二五年度玻璃器皿生產設備租賃合同3篇
- 2025年度國際教育培訓機構合作合同6篇
- 展會展位搭建服務合同(2篇)
- 2025年度餐飲設施設備租賃合同書3篇
- 醫(yī)院手術室醫(yī)院感染管理質量督查評分表
- 心內電生理導管及器械
- 稱量與天平培訓試題及答案
- 超全的超濾與納濾概述、基本理論和應用
- 2020年醫(yī)師定期考核試題與答案(公衛(wèi)專業(yè))
- 2022年中國育齡女性生殖健康研究報告
- 各種靜脈置管固定方法
- 消防報審驗收程序及表格
- 教育金規(guī)劃ppt課件
- 呼吸機波形分析及臨床應用
- 常用緊固件選用指南
評論
0/150
提交評論