![人工智能教學(xué)實(shí)訓(xùn)綜合應(yīng)用平臺需求說明_第1頁](http://file4.renrendoc.com/view14/M08/0D/16/wKhkGWc0s-mAKU9JAAI481LM0jc108.jpg)
![人工智能教學(xué)實(shí)訓(xùn)綜合應(yīng)用平臺需求說明_第2頁](http://file4.renrendoc.com/view14/M08/0D/16/wKhkGWc0s-mAKU9JAAI481LM0jc1082.jpg)
![人工智能教學(xué)實(shí)訓(xùn)綜合應(yīng)用平臺需求說明_第3頁](http://file4.renrendoc.com/view14/M08/0D/16/wKhkGWc0s-mAKU9JAAI481LM0jc1083.jpg)
![人工智能教學(xué)實(shí)訓(xùn)綜合應(yīng)用平臺需求說明_第4頁](http://file4.renrendoc.com/view14/M08/0D/16/wKhkGWc0s-mAKU9JAAI481LM0jc1084.jpg)
![人工智能教學(xué)實(shí)訓(xùn)綜合應(yīng)用平臺需求說明_第5頁](http://file4.renrendoc.com/view14/M08/0D/16/wKhkGWc0s-mAKU9JAAI481LM0jc1085.jpg)
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
人工智能教學(xué)實(shí)訓(xùn)綜合應(yīng)用平臺需求說明一、建設(shè)背景與目標(biāo)2024年,全國共有618所高職院校備案人工智能技術(shù)應(yīng)用(服務(wù))專業(yè),占全國1547所高職院校的近40%;高職院校紛紛抓住“人工智能”這把打開未來之門的鑰匙,從找準(zhǔn)定位,培養(yǎng)人工智能產(chǎn)業(yè)鏈上的技能人才,到持續(xù)探索,應(yīng)對“人工智能+”的全面來臨;人工智能教學(xué)實(shí)訓(xùn)綜合應(yīng)用平臺,可服務(wù)全校師生的科研任務(wù),提供大模型訓(xùn)練、人工智能內(nèi)容生成、圖像渲染等任務(wù);同時,可服務(wù)于電子信息專業(yè)群開設(shè)人工智能實(shí)訓(xùn)課程(含大數(shù)據(jù)技術(shù)、計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)、電子信息工程技術(shù)、集成電路技術(shù)等4個專業(yè)學(xué)生),預(yù)計(jì)可服務(wù)人數(shù)450人/年;二、設(shè)備清單序號設(shè)備名稱數(shù)量單位1教學(xué)實(shí)訓(xùn)科研綜合平臺1套2AI計(jì)算節(jié)點(diǎn)12臺3AI計(jì)算節(jié)點(diǎn)21臺4存儲節(jié)點(diǎn)1臺5萬兆交換機(jī)2臺三、技術(shù)參數(shù)序號設(shè)備名稱技術(shù)參數(shù)1教學(xué)實(shí)訓(xùn)科研綜合平臺1.總體要求:采用國產(chǎn)AI算法集群管理平臺,面向深度學(xué)習(xí)開發(fā)場景,實(shí)現(xiàn)從數(shù)據(jù)管理、模型開發(fā)、模型訓(xùn)練、模型管理、模型測試及發(fā)布的全生命周期管理;為了保證軟件的成熟度及可迭代,須提供商業(yè)版人工智能開發(fā)平臺軟件;2.通過容器快速創(chuàng)建計(jì)算環(huán)境,基于Kubernetes進(jìn)行可移植容器的編排管理,計(jì)算環(huán)境隔離互不影響,內(nèi)置各種AI框架鏡像,例如TensorFlow、Caffe、PyTorch、PaddlePaddle、MXNet、昇思等主流框架,兼容web開源鏡像和用戶自定義鏡像;3.環(huán)境軟件應(yīng)提供最近一年的版本,并可持續(xù)升級更新;4.提供集群資源統(tǒng)一調(diào)度,能夠多用戶,多作業(yè)同時運(yùn)行,通過調(diào)度器來給作業(yè)動態(tài)分配資源,提供單節(jié)點(diǎn)單GPU,單節(jié)點(diǎn)多GPU,多節(jié)點(diǎn)多GPU以及多節(jié)點(diǎn)GPU,以及CPU/GPU混合的多種調(diào)度方式;5.數(shù)據(jù)管理:提供基于Web的文件管理功能,提供文件和文件夾的創(chuàng)建、刪除、重命名、在線編輯、權(quán)限設(shè)置,提供文件批量上傳和打包下載;平臺提供數(shù)據(jù)隔離與協(xié)同,個人數(shù)據(jù)可通過共享提供給平臺其他人員使用;平臺提供模型開發(fā)時的數(shù)據(jù)加速功能,用戶可直接使用遠(yuǎn)端共享存儲上的文件,也可以將遠(yuǎn)端存儲的文件拉取到計(jì)算節(jié)點(diǎn)本地參加計(jì)算,從而提升計(jì)算性能,同時減輕高并發(fā)下存儲Server端的I/O壓力;6.交互式開發(fā):用戶通過平臺內(nèi)置AI鏡像或用戶自定義鏡像進(jìn)行環(huán)境創(chuàng)建交互式開發(fā)環(huán)境,環(huán)境實(shí)例可以使用CPU資源也可以使用GPU資源;開發(fā)環(huán)境提供Jupyter、webshell等在線交互開發(fā),支持對接第三方開發(fā)工具(如VSCode、PyCharm等);平臺提供開發(fā)實(shí)例的持久化功能,在實(shí)例中安裝的軟件包在下次創(chuàng)建啟動后可以繼續(xù)使用;7.模型訓(xùn)練:提供基于容器的模型訓(xùn)練功能;對TensorFlow、Caffe、PyTorch、PaddlePaddle、MXNet等框架,用戶可自定義訓(xùn)練使用的框架版本,容器數(shù)量,GPU數(shù)量,內(nèi)存,指定不同的GPU型號資源,并且可以實(shí)時查看訓(xùn)練日志,監(jiān)控各容器內(nèi)資源使用狀況;提供AI模型的多機(jī)分布式訓(xùn)練,提供模板可以提交TensorFlow、Caffe、PyTorch、PaddlePaddle、MXNet等框架的分布式訓(xùn)練作業(yè);8.資源調(diào)度能力:提供任務(wù)級別的資源調(diào)度方式功能,提供指定節(jié)點(diǎn)、GPU型號親和調(diào)度、數(shù)據(jù)親和調(diào)度策略,提供用戶資源配額,用戶組輪詢調(diào)度等策略,高/中/低優(yōu)先調(diào)度、支持緊急任務(wù)調(diào)度;9.GPU利用率:為了更好的支持教學(xué)和科研,平臺須提供基于web的GPU細(xì)粒度調(diào)度設(shè)置,允許多個任務(wù)指定GPU顯存,調(diào)度到同一張GPU卡,GPU切分需同時支持:1)MIG模式:每張卡獨(dú)立配置MIG方案;2)GPU顯存切分(隔離模式):按GPU顯存進(jìn)行任意大小的切分,支持切分顯存≥1GB;3)復(fù)用率:按GPU上并發(fā)任務(wù)個數(shù)進(jìn)行配置;10.在進(jìn)行訓(xùn)練任務(wù)時,業(yè)務(wù)應(yīng)用支持資源彈性使用,用戶可基于業(yè)務(wù)需求對任務(wù)進(jìn)行擴(kuò)縮容管理,提升GPU使用效率;11.提供大模型訓(xùn)練容錯,平臺自動檢測異常訓(xùn)練節(jié)點(diǎn)、出現(xiàn)異常節(jié)點(diǎn)自動業(yè)務(wù)遷移,自動加載斷點(diǎn)重新發(fā)起任務(wù);12.報(bào)表統(tǒng)計(jì):從集群、資源組、節(jié)點(diǎn)三個維度進(jìn)行計(jì)算資源的性能及使用統(tǒng)計(jì),包括CPU利用率、GPU利用率、CPU使用核數(shù)、GPU使用卡數(shù)信息;對集群周期內(nèi)的任務(wù)情況進(jìn)行統(tǒng)計(jì),按任務(wù)規(guī)模和任務(wù)時長進(jìn)行數(shù)量統(tǒng)計(jì);用戶和用戶組統(tǒng)計(jì)周期內(nèi)的資源使用明細(xì),包括任務(wù)總量、任務(wù)總機(jī)時、任務(wù)總CPU核時、任務(wù)總GPU卡時、數(shù)據(jù)存儲;13.兼容性:提供異構(gòu)GPU管理,包括英偉達(dá)GPU和國產(chǎn)主流GPU(支持昇騰、天數(shù)智芯,燧原,昆侖芯等GPU卡)的統(tǒng)一管理與監(jiān)控;在界面能夠顯示納管的不同類型GPU型號、數(shù)量;14.提供對接多種存儲系統(tǒng),包括NFS、BeeGFS、HDFS等;支持通過界面配置同時對接多個存儲系統(tǒng);15.提供高可用:平臺自動檢測主備機(jī)狀態(tài)及HA服務(wù)狀態(tài),當(dāng)發(fā)現(xiàn)主機(jī)存在異常需要切換備機(jī)時,HA模塊會自動切換管理服務(wù)到備機(jī),并且在切換過程中不影響用戶運(yùn)行任務(wù);16.提供自動告警功能,能夠提供物理節(jié)點(diǎn)或容器的CPU、網(wǎng)絡(luò)、GPU、磁盤使用的實(shí)時數(shù)據(jù)統(tǒng)計(jì),達(dá)到告警閾值時自動告警;17.提供集群橫向擴(kuò)展:當(dāng)系統(tǒng)出現(xiàn)性能瓶頸,可以通過新增節(jié)點(diǎn),添加到集群中實(shí)時擴(kuò)展;18.提供數(shù)據(jù)緩存加速機(jī)制,數(shù)據(jù)集可高速并行緩存到計(jì)算節(jié)點(diǎn)本地,并提供緩存數(shù)據(jù)的生命周期管理,支持緩存進(jìn)度查看,可進(jìn)行緩存數(shù)據(jù)的增量更新、手動清理等;19.提供斷點(diǎn)續(xù)訓(xùn),針對長時間多機(jī)多卡分布式訓(xùn)練場景的斷點(diǎn)續(xù)訓(xùn)功能;在出現(xiàn)硬件故障或其他導(dǎo)致訓(xùn)練任務(wù)異常中斷的情況下,具備在上一次訓(xùn)練狀態(tài)的基礎(chǔ)上繼續(xù)訓(xùn)練的能力,避免從頭開始訓(xùn)練;20.提供用戶對大語言模型進(jìn)行微調(diào)功能,支持主流的SFT任務(wù),可以選擇Full、Freeze、LoRA等多種微調(diào)方法,滿足不同業(yè)務(wù)場景訴求;提供圖形化界面,降低用戶使用門檻;21.提供5年軟件升級維護(hù);2AI計(jì)算節(jié)點(diǎn)11.總體要求:機(jī)架式服務(wù)器,高度≥4U;2.處理器:配置≥兩顆Intel處理器,單顆處理器主頻≥2.1GHz,核數(shù)≥48核;3.內(nèi)存:配置≥1TBDDR5內(nèi)存,單條內(nèi)存≥64GB,頻率≥5600MHz,支持≥32個內(nèi)存插槽;4.硬盤:支持≥12塊2.5寸硬盤或24塊2.5寸硬盤,支持≥8塊NVME硬盤;本次配置≥2*960GSSD硬盤,≥4*7.68TNVMeSSD,配置Raid卡(含≥4G緩存);5.GPU擴(kuò)展:8張GPU卡(單張顯存≥48GB,帶寬≥864GB/s,F(xiàn)P32≥91TFLOPS,F(xiàn)P16≥733TFLOPS),提供PCIEswitch模塊,能夠?qū)崿F(xiàn)卡間的P2P通訊;6.網(wǎng)卡:≥2張雙口萬兆光口(含光模塊),≥1塊雙口千兆以太網(wǎng)端口;7.電源:配置≥4個2000W熱插拔冗余電源;8.5年原廠硬件保修;3AI計(jì)算節(jié)點(diǎn)21、CPU、AI處理器使用國產(chǎn)自研芯片;2.處理器:配置≥4顆處理器,單顆處理器主頻≥2.6GHz,單顆處理器核心數(shù)≥48核;3.內(nèi)存:配置≥512GBDDR4內(nèi)存,單條內(nèi)存≥32GB,頻率≥3200MHz;4.存儲:配置≥2塊960GBSSD硬盤,≥4塊7.68TBNVMeSSD硬盤;5.AI加速模組:配置8塊AI模組卡(單顆AI處理器提供不低于32GBHBM,速度不低于800GB/S,單顆AI處理器FP16算力≥280TFLOPS,F(xiàn)P32算力≥75TFLOPS),提供≥4.4POPSNT8或2.2PFLOPSFP16或0.6PFLOPSFP32;6.網(wǎng)卡:≥4個萬兆以太網(wǎng)端口(含光模塊);7.服務(wù)器管理系統(tǒng)支持國產(chǎn)自研管理芯片;
8.支持中文BIOS界面;9.需提供配套國產(chǎn)AI并行計(jì)算調(diào)度框架;10.RAID:raid卡采用國產(chǎn)自主可控芯片;11.電源:滿配冗余熱插拔電源,并提供配套的電源連接線:4個熱插拔2600W交流電源模塊,支持2+2冗余;12.5年原廠硬件保修;4存儲節(jié)點(diǎn)1.控制器框提供≥25個硬盤槽位;2.每個控制器均可提供NAS協(xié)議(包括NFS、CIFS以及NDMP)、不需單獨(dú)NAS網(wǎng)關(guān);3.支持控制器擴(kuò)展,最大支持≥8控;4.配置2個控制器,控制器采用多核處理器,且單控控制器處理器核心數(shù)≥16核,CPU主頻率≥2.0GHz;5.系統(tǒng)內(nèi)總一級緩存容量配置≥128GB,且任意控制器一級緩存容量≥64GB(不含任何性能加速模塊、FlashCache、PAM卡,SSDCache、SCM等);6.配置≥4*10GbpsEthernet接口(滿配多模光模塊),≥8*1GbpsEthernet接口;7.配置≥
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2025學(xué)年高中化學(xué)上學(xué)期第三周 氧化還原反應(yīng)說課稿
- 7 我們有新玩法 說課稿-2023-2024學(xué)年道德與法治二年級下冊統(tǒng)編版
- 2025二手車購買合同書
- 2025合同的履行、變更、轉(zhuǎn)讓、撤銷和終止
- 14 《窮人》說課稿-2024-2025學(xué)年六年級語文上冊統(tǒng)編版001
- 買方購車合同范本
- 公路修建合同范本
- 鋪設(shè)碎石土路面施工方案
- 輕鋼吊頂施工方案
- 路燈池施工方案
- 興海縣索拉溝銅多金屬礦礦山地質(zhì)環(huán)境保護(hù)與土地復(fù)墾方案
- 三相分離器原理及操作
- 新教科版五年級下冊科學(xué)全冊每節(jié)課后練習(xí)+答案(共28份)
- 輪值安全員制度
- 葫蘆島尚楚環(huán)保科技有限公司醫(yī)療廢物集中處置項(xiàng)目環(huán)評報(bào)告
- 冀教版七年級下冊英語課文翻譯
- 全國物業(yè)管理項(xiàng)目經(jīng)理考試試題
- 水文水利課程設(shè)計(jì)報(bào)告
- 600字A4標(biāo)準(zhǔn)作文紙
- GB/T 18015.2-2007數(shù)字通信用對絞或星絞多芯對稱電纜第2部分:水平層布線電纜分規(guī)范
- DJI 產(chǎn)品交付理論試題
評論
0/150
提交評論