超算服務器集群系統(tǒng)需求說明_第1頁
超算服務器集群系統(tǒng)需求說明_第2頁
超算服務器集群系統(tǒng)需求說明_第3頁
超算服務器集群系統(tǒng)需求說明_第4頁
超算服務器集群系統(tǒng)需求說明_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

超算服務器集群系統(tǒng)需求說明序號具體技術(參數(shù))要求1一、背景及配置要求(一)背景隨著國內外計算生物學和生成式人工智能在畜牧和獸醫(yī)領域的應用發(fā)展,需要更強大的處理器芯片和GPU芯片。研究所當前超算算法依靠對ChatGLM和Liama2等大模型的微調,上述微調母程序是基于Nvidia芯片和Intel芯片開發(fā),且上述算法需要在IntelXeonPlatinum8358P處理器及以上和NVIDIAA40顯卡及以上高性能計算顯卡支持下運行,綜合考慮性價比、系統(tǒng)兼容性和后續(xù)研究開展所需,因此,本采購的超算服務器集群要求選用X86架構服務器(采購人現(xiàn)有架構)產品。采購人在本采購進行之前,已經在研究所搭建了“1+3”架構的超算服務器集群,該集群為Lenovo的IBM超算服務集群系統(tǒng),該集群系統(tǒng)通過Lico管理系統(tǒng)進行集群之間用戶管理、計算資源和任務的分配、以及計算安全的監(jiān)控和保障。本次采購的超算服務器集群納入Lico管理系統(tǒng)內或兼容Lico平臺并購買相應軟件許可,將在每臺計算節(jié)點增加Lico管理密鑰服務,并完成實施交付。(二)配置要求1.計算服務器:4臺X86架構服務器,實現(xiàn)HPC計算性能。2.GPU服務器:4臺X86架構服務器,實現(xiàn)HPC圖形計算性能。3.存儲管理服務器:1臺,實現(xiàn)并行文件存儲及緩存功能。4.并行文件存儲:1臺,HPC中用于存放、讀取數(shù)據(jù)使用。5.IB交換機:1臺,用于HPC項目低延時交換功能。6.調度軟件:1項。7.售后服務、實施服務要求:1項。二、技術參數(shù)(一)計算服務器參數(shù)要求:序號項目要求1規(guī)格2U機架式服務器。2處理器2顆CPU,主頻≥2.6GHz且≥32核,L3緩存≥48MB,最大可支持至40核270W處理器。3內存配置≥512GBTruDDR43200MHz,支持ECC。最大支持≥6TB內存擴展或最大支持32根內存插槽。4硬盤配置≥2塊480GBM.2SSD固態(tài)硬盤;最大支持40個硬盤擴展;支持前置直連12個U.2NVMeSSD硬盤;支持2個后置7mm硬盤(SATA/SAS/NVMe);支持內置兩個M.2且支持RAID0/1;提供ANYBAY技術可切換SAS/SATA/U.2硬盤不用更換背板,最大支持32個NVMe硬盤及VROC陣列。5陣列卡支持0/1/10/5/50RAID級別。6IB卡配置1張ConnectX-6HDR/200GbEQSFP561端口PCIe4VPI適配器。7網卡配置1張4口1000M網卡,支持一個專用的OCP3.0SFF接口。8電源配置電源輸出功率≥1600W電源,1+1熱插拔冗余電源,支持240V高壓直流。9冷卻系統(tǒng)支持6個冗余熱插拔系統(tǒng)風扇。10I/O擴展最大支持9個PCIe插槽,包括一個專用的OCP插槽和8個PCIe4.0標準插槽,另可支持一個Raid卡專用插槽,可選內置的故障診斷面板。11服務不低于3年7x24X4小時保修服務,全國部分城市宕機4小時上門服務,提供服務包括但不限于:原廠上架安裝或系統(tǒng)安裝服務,原廠≥3年故障硬盤免回收服務,原廠硬盤數(shù)據(jù)丟失拯救服務;為保證設備的可靠性的其他服務。(二)GPU服務器參數(shù)要求:序號項目要求1規(guī)格2U機架式服務器。2處理器2顆CPU,主頻≥2.6GHz且≥32核,L3緩存≥48MB,最大可支持至40核270W處理器。3內存配置≥512GBTruDDR43200MHz,支持ECC。最大支持≥6TB內存擴展或最大支持32根內存插槽。4硬盤配置≥2塊480GBM.2SSD固態(tài)硬盤,最大支持40個硬盤擴展,支持前置直連12個U.2NVMeSSD硬盤,支持2個后置7mm硬盤(SATA/SAS/NVMe),支持內置兩個M.2且支持RAID0/1,提供ANYBAY技術可切換SAS/SATA/U.2硬盤不用更換背板,最大支持32個NVMe硬盤及VROC陣列。5陣列卡支持0/1/10/5/50RAID級別。6網卡本次配置4口1000M網卡,支持一個專用的OCP3.0SFF接口。7GPU卡本次配置2張GPU顯卡:FP32(TFLOPs):37.4Tflops,TF32(TFLOPs):74.8|149.6Tflops,內存:48GbGDDR6,內存帶寬:696GB/s,電源:300W。8IB卡≥1張ConnectX-6HDR/200GbEQSFP561端口PCIe4VPI適配器。9電源配置電源輸出功率≥1600W電源,1+1熱插拔冗余電源,支持240V高壓直流。10冷卻系統(tǒng)支持6個冗余熱插拔系統(tǒng)風扇。11I/O擴展最大支持9個PCIe插槽,包括一個專用的OCP插槽和8個PCIe4.0標準插槽,另可支持一個Raid卡專用插槽,可選內置的故障診斷面板。12服務不低于3年7x24X4小時保修服務,全國部分城市宕機4小時上門服務,提供服務包括但不限于:原廠上架安裝或系統(tǒng)安裝服務,原廠3年故障硬盤免回收服務,原廠硬盤數(shù)據(jù)丟失拯救服務;為保證設備的可靠性的其他服務。(三)存儲管理服務器參數(shù)要求:序號項目要求1規(guī)格2U機架式服務器。2處理器兩個12核2.1Ghz18M三級緩存,最大可支持至40核270W處理器。3內存配置≥128GBTruDDR43200MHz,最大支持≥6TB內存擴展或最大支持32根內存插槽。4硬盤配置2塊≥480GB熱插拔2.5寸SSD固態(tài)硬盤,4塊3.84TNVMESSD固態(tài)盤,最大支持40個硬盤擴展,支持前置直連12個U.2NVMeSSD硬盤,支持2個后置7mm硬盤(SATA/SAS/NVMe),支持內置兩個M.2且支持RAID0/1,提供ANYBAY技術可切換SAS/SATA/U.2硬盤不用更換背板,最大支持32個NVMe硬盤及VROC陣列。5陣列卡支持0/1/10/5/50RAID級別。6網卡配置4口1000M網卡,支持一個專用的OCP3.0SFF接口。7SAS卡配置1張≥12GPCISAS卡+SAS線纜。8IB卡≥1張ConnectX-6HDR/200GbEQSFP561端口PCIe4VPI適配器。9電源實配電源輸出功率≥1600W電源,1+1熱插拔冗余電源,支持240V高壓直流。10冷卻系統(tǒng)支持6個冗余熱插拔系統(tǒng)風扇。11I/O擴展最大支持9個PCIe插槽,包括一個專用的OCP插槽和8個PCIe4.0標準插槽,另可支持一個Raid卡專用插槽,可選內置的故障診斷面板。12服務不低于3年7x24X4小時保修服務,全國部分城市宕機4小時上門服務,提供服務包括但不限于:原廠上架安裝或系統(tǒng)安裝服務,原廠3年故障硬盤免回收服務,原廠硬盤數(shù)據(jù)丟失拯救服務;為保證設備的可靠性的其他服務。(四)并行文件存儲參數(shù)要求:序號項目要求1控制器冗余雙控制器架構,控制器為雙活工作模式,可支持FC、iSCSI、SAS協(xié)議。2數(shù)據(jù)緩存≥64GB(不含任何性能加速模塊或NAS緩存、FlashCache、PAM卡,SSDCache等),本次配置要求≥64GB。3磁盤雙控最大可擴充磁盤數(shù)≥192,支持SAS、NL-SAS、SSD盤,支持不同容量、不同類型的磁盤混合安裝,本次配置12T7.2KSAS硬盤≥12塊。4RAID種類支持多種工業(yè)標準RAID存儲方式混用,包括單盤失效、雙盤失效保護技術,包括RAID0/1/10/5/6/及動態(tài)磁盤池(RAID⒉0)技術。支持RAID組動態(tài)擴展,在線升級等。要求存儲設備支持全局動態(tài)熱備技術。在配置RAID2.0時,磁盤熱備功能通過磁盤剩余空間實現(xiàn)。滿足多塊盤(大于3塊盤)非同時故障時,數(shù)據(jù)依然安全可用。無需占用單獨熱備盤。5二級緩存技術支持SSD盤的智能二級緩存加速技術,可以將SAS、NL-SAS上的熱點數(shù)據(jù)自動緩存至SDD盤,實現(xiàn)熱點數(shù)據(jù)的加速。6前端服務器接口配置4個12GSAS端口;最大支持12個10Gbps以太網口或8個25Gbps以太網口或12個16GbpsFC接口或8個32GbpsFC接口或8個12GbSAS端口。7后端磁盤接口雙控≥4個12GbpsMiniSAS端口。8存儲快照與克隆復制提供存儲快照與克隆復制功能,支持針對主流應用(如:Oracle、SQL、Exchange、SAP等)和虛擬化環(huán)境(如VMware、Citrix、Hyper-V等)。9精簡配置具有精簡配置功能,提高存儲利用率。10設備兼容性支持業(yè)界平臺(包括但不限于Windowsserver、VMware)。11數(shù)據(jù)快照最大snapshot配置數(shù)量≥256個。12數(shù)據(jù)分層支持SSD緩存、支持數(shù)據(jù)自動分層,可設置靈活策略,在不同存儲層間進行數(shù)據(jù)移動。13數(shù)據(jù)壓縮支持在線自動壓縮。14數(shù)據(jù)遷移支持信息生命周期管理,可根據(jù)策略自動遷移或備份數(shù)據(jù)。15遠程同步支持和遠程存儲系統(tǒng)主動數(shù)據(jù)同步。16QoS支持IO的QoS。17I/O協(xié)議支持多種I/O協(xié)議:POSIX、NFSv4、SMBv3.0、支持OpenStackCinder(block方式)、OpenStackSwift(object方式)、S3(object方式)。18并行文件系統(tǒng)配置商業(yè)并行文件系統(tǒng),并提供所有服務器端和客戶端使用授權。19客戶端支持支持原生的Linux、windows客戶端。20文件系統(tǒng)功能提供客戶端數(shù)據(jù)緩存與預讀功能:支持在客戶端內存中記錄最近的I/O,減少訪問磁盤的次數(shù)。21支持客戶端SSD緩存。22支持海量小文件讀寫,每個文件系統(tǒng)最多2的63次方個文件。23提供訪問模式識別以深度預取功能:支持檢測并可識別數(shù)據(jù)訪問模式如順序訪問,隨機訪問,模糊順序訪問(fuzzysequential)或者步進式訪問(strided),進行并行預取,減少重復性磁盤I/O以提高性能。24提供分布式的元數(shù)據(jù)和令牌管理功能:獨立的元數(shù)據(jù)通道和文件數(shù)據(jù)通道;支持數(shù)據(jù)和元數(shù)據(jù)多份拷貝,且拷貝個數(shù)可設置;支持任意節(jié)點都可以承擔任意角色功能,確保無單點故障,所有節(jié)點都可以處理數(shù)據(jù)和元數(shù)據(jù)操作。25提供文件系統(tǒng)日志功能:記錄所有文件系統(tǒng)的操作,保護文件系統(tǒng)數(shù)據(jù)不被失效節(jié)點或者錯誤狀態(tài)節(jié)點所更改。26提供數(shù)據(jù)復制(鏡像)功能:支持文件或者文件系統(tǒng)級別鏡像,簡化用戶對數(shù)據(jù)安全的操作,遠程緩存及容災支持。(五)IB交換機參數(shù)要求:序號項目要求1規(guī)格HDR200Gb/s全線速交換機。2數(shù)量根據(jù)節(jié)點數(shù)量和網絡需求自行評估。3端口單個交換機≥40個HDR端口。4IB線纜配置所需的Infiniband線纜,要求提供與IB交換機同廠商的原廠線纜配套使用。(六)調度軟件參數(shù)要求:序號項目要求1知識產權商業(yè)版集群管理與調度軟件,授權覆蓋本項目所有服務器,需提供計算機軟件著作權登記證書。投標人需承諾在本項目采購合同簽訂后的6年內,額外提供≥200個計算節(jié)點的集群管理軟件客戶端的永久授權,并提供安裝手冊。2WEB界面支持用戶通過WEB瀏覽器GUI方式使用集群系統(tǒng),提供用戶門戶系統(tǒng)和運維管理門戶系統(tǒng)。支持并發(fā)用戶數(shù)≥10個。3調度系統(tǒng)特性支持GPU調用。命令行支持SLURM基本命令,并提供JSON命令行接口。支持先進先出、公平分享、優(yōu)先級、基于優(yōu)先級的搶占等調度策略。支持最新分布式人工智能框架和工具。4管理計費支持管理員通過WEB瀏覽器GUI方式進行管理計費。支持不同組織設置不同的CPU、GPU計費費率,支持設置余額閾值和計費周期。5賬單查詢支持用戶通過WEB瀏覽器GUI方式進行賬單查詢。支持查看消費總額、月/周賬單總額、趨勢圖,以及按作業(yè)、用戶、組織維度查看賬單。(七)售后服務、實施服務要求:序號項目要求1硬件質保提供硬件3年及以上質保。2硬件設備維修與更換的時間不超過48小時。3現(xiàn)場服務4小時內上門,48小時內到達現(xiàn)場。4技術支持提供熱線電話,并設置專人為用戶提供7×24小時響應服務。5在4小時內與采購人電話聯(lián)系,對于電話咨詢解決不了的問題,經采購人授權可通過Internet遠程登錄到采購人網絡系統(tǒng)進行故障診斷和故障排除。如果通過上述方式不能解決問題,需委派技術人員將進行現(xiàn)場響應并在48小時之內提供解決方案。(其費用已包含在投標報價中)6在現(xiàn)場服務年限內,每季度技術工程師將回訪采購人不少于一次,聽取采購人的意見,如有需要,并進行現(xiàn)場技術檢測和支持服務。7安裝及交機服務組建一支專門的技術服務隊伍以服務于本項目,該隊伍將由系統(tǒng)硬件資深工程師、系統(tǒng)軟件資深工程師、系統(tǒng)調優(yōu)資深工程師等一流技術專家組成。8在設備運抵采購人現(xiàn)場后,技術服務隊伍將負責本系統(tǒng)的全部安裝、調試,以保證達到應用系統(tǒng)安裝所需要的要求。9技術工程師將全力配合第三方應用軟件商快速完成系統(tǒng)集成工作。在此期間將協(xié)助第三方應用軟件商完成各種編譯器、并行編程環(huán)境、作業(yè)調度和應用系統(tǒng)等安裝測試和調試。10采購人驗收完畢后,將對采購人進行相關的技術培訓。11準備和計劃會議進行準備和計劃會議,確定實施方案和時間表,本次實施服務需要設備生產商原廠安排實施等相關服務,不接受集成商實施,實施項目時需核對工卡及身份證等文件。12管理節(jié)點安裝和配置安裝和配置管理節(jié)點,包括RAID配置、操作系統(tǒng)安裝、BIOS/UEFI設置、微碼更新和群集管理軟件安裝(xCAT)。13以太網配置和驗證配置和驗證以太網,確保網絡正常運行。14節(jié)點RAID配置配置節(jié)點的RAID,確保存儲系統(tǒng)正常工作。15節(jié)點操作系統(tǒng)配置分發(fā)操作系統(tǒng)到節(jié)點,并配置BIOS/UEFI、微碼更新、驅動和軟件包更新。16高速網絡配置和驗證配置和驗證高速網絡(如InfiniBand或10Gb),并安裝相應的軟件包(如OFED)。17存儲系統(tǒng)配置和驗證在管理節(jié)點上安裝存儲管理軟件。18

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論