智算平臺運維運營技術(shù)研究報告2024_第1頁
智算平臺運維運營技術(shù)研究報告2024_第2頁
智算平臺運維運營技術(shù)研究報告2024_第3頁
智算平臺運維運營技術(shù)研究報告2024_第4頁
智算平臺運維運營技術(shù)研究報告2024_第5頁
已閱讀5頁,還剩118頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

編委(排名不分先后):復旦大學:中國信息通信研究院云計算與大數(shù)據(jù)研究所:阿里云計算有限公司:參編單位:本報告版權(quán)屬于復旦大學、中國信息通信研究院云計算與大數(shù)據(jù)研究所和阿里云計算有限公司,并受法律保護。轉(zhuǎn)載、摘編或利用其他方式使用本報告內(nèi)容或觀點,請注明:“來源:《智算平4.1.1案例1:復旦大學的AIforscience運營4.1.2案例2:阿里云AI運營實踐4.2.1案例1:復旦CFFF平臺運營最佳實踐4.2.2案例2:騫云算力運營平臺4.3.1案例1:DataDog大模型可觀測運維4.3.2案例2:某人工智能實驗室運維實踐前言/FOREWORD在數(shù)字化轉(zhuǎn)型的浪潮中,智算中心扮演著越來越重要的角色,在國家數(shù)字經(jīng)濟和科技創(chuàng)新戰(zhàn)略中的地位日益凸顯。隨著算力需求的不斷攀升,智算中心不僅成為支撐人工智能、大數(shù)據(jù)、云計算等前沿技術(shù)發(fā)展的基石,更是推動經(jīng)濟社會發(fā)展智算平臺的運維運營是確保其高質(zhì)量、穩(wěn)定運行的關(guān)鍵。本研究報告基于復旦大學CFFF(Com-心的建設(shè)、運維、運營經(jīng)驗及中國信息通信研究院在此領(lǐng)域的研究成果,構(gòu)建智算平臺運維運營框架及評價體系。智算平臺運維運營主要由三大能力域構(gòu)成,—是AI運營,致力于人工智能模型的全生命周期管理,二是平臺運營,著眼于提升用戶體驗和資源管理效率,三是平臺運維,通過管理算力設(shè)備保障智算平臺的業(yè)務連續(xù)性和系統(tǒng)安全。為客觀衡量智算平臺的運維運營水平,本報臺運維四個能力維度展開研究,提取通用、專用評估指標,構(gòu)建智算平臺運維運營評價體系,以期為行業(yè)內(nèi)智算平臺的建設(shè)、運維運營、能力評智算平臺運維運營是—個充滿挑戰(zhàn)的新興領(lǐng)域,需要不斷探索和創(chuàng)新。本研究報告旨在為業(yè)界提供更加全面、深入的研究視角,以促進智算平臺運維運營的專業(yè)化、標準化和智能化發(fā)展。本研究報告仍有不足指出,期待業(yè)界專家和廣大讀者提出寶貴的意見和建議,共同推動智算平臺運維現(xiàn)出爆發(fā)式增長態(tài)勢。2024年政府工作報告中提出,大力推進現(xiàn)代化產(chǎn)業(yè)體系建設(shè),加快發(fā)展新質(zhì)生產(chǎn)力。要深入推進數(shù)字經(jīng)濟創(chuàng)新發(fā)展,制定支持數(shù)字經(jīng)濟高質(zhì)量發(fā)展政策,積極推進數(shù)字產(chǎn)業(yè)化、產(chǎn)業(yè)數(shù)字化,促進數(shù)字技術(shù)和實體經(jīng)濟深度融合。深化大數(shù)據(jù)、人工智能等研發(fā)應用,開展“人工智能+”行動,打造具有國際競爭力的數(shù)字產(chǎn)業(yè)集群。實施制造業(yè)數(shù)字化轉(zhuǎn)型行動,加快工業(yè)互聯(lián)網(wǎng)規(guī)?;瘧?推進服務業(yè)數(shù)字化,建設(shè)智慧城市、數(shù)字鄉(xiāng)村。深入開展中小企業(yè)數(shù)字化賦能布局更加優(yōu)化,特別是智能算力的快速增長,為中國在AI和大數(shù)據(jù)時代的增長提供基礎(chǔ)。未來,中國將繼續(xù)加強算力基礎(chǔ)設(shè)施的建設(shè),推動技術(shù)創(chuàng)新,完善政策和標準體系,構(gòu)建全產(chǎn)業(yè)鏈生態(tài),以本研究報告討論的智算平臺,是指通過使用大規(guī)模異構(gòu)算力資源,用智能算力(GPU、FPGA、ASIC展,但當前的智算平臺多采用硬件驅(qū)動模式,存在水平較低、分割化嚴重、生態(tài)建設(shè)不足等問題,形成先發(fā)優(yōu)勢,而中國的公共智算平臺及生態(tài)與之存在差距,特別是在AI公共算力設(shè)施及部分AI芯任務,可能導致資源浪費。面對上述等形勢,國家和地方政府積極出臺相關(guān)政策,推動智算平臺的為了支持通用AI的發(fā)展,滿足不同場景下的算力需求。智算平臺將彌補傳統(tǒng)計算中心的局限性,提供更廣泛的服務,滿足更多行業(yè)和領(lǐng)域的算力需求。此外,智算平臺也通過優(yōu)化算力資源配置、支建設(shè)重點,推動產(chǎn)業(yè)鏈上下游協(xié)同發(fā)展,形成統(tǒng)—開放的AI算力產(chǎn)業(yè)生態(tài)。智算平臺的發(fā)展可以降低中小企業(yè)的算力使用門檻,提升算力設(shè)施的普惠服務能力,加速賦能各行各業(yè),推動產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型。智算平臺正處于快速發(fā)展階段,未來智算平臺的建設(shè)也會是算力建設(shè)的重點,為算力的蓬勃面的深度融合和智能化管理,更在于服務模式的創(chuàng)新、生態(tài)構(gòu)建的完善以及安全合規(guī)的強化:通過結(jié)合LLM0PS等思想,實現(xiàn)算力資源的智能調(diào)度和優(yōu)化配置,提升服務效率和響應速度;探索按需服務、彈性服務等新型服務模式,以滿足用戶在多樣化和個性化算力需求方面的期望,增強服務的靈活性和適應性;構(gòu)建開放、共享的算力服務生態(tài)系統(tǒng),促進跨行業(yè)、跨領(lǐng)域的協(xié)同創(chuàng)新和資源共享,以實現(xiàn)算力服務的可持續(xù)發(fā)展;加強算力服務的安全性和合規(guī)性,確保數(shù)據(jù)安全和用戶隱私得到有效保護,構(gòu)建用戶信任的基石。智算中心投資規(guī)模巨大,其能力與運營效率將成為運作的關(guān)鍵,構(gòu)建合適的運維運營體系可有效地保持智算平臺長期穩(wěn)定運行,高效地管好和用好算力,并提供管理的實踐,技術(shù)和工具的集合。智算平臺的運維圍繞著模型服務,算力服務,容器服務,網(wǎng)絡(luò)服務,存儲服務以及安全服務等方面進行。智算平臺的運營包含用戶的日常管理及AI運營兩個重點,用戶運營包括用戶管理、用戶智算運維運營平臺為工程師提供了—個協(xié)作環(huán)境,該環(huán)境促進了數(shù)據(jù)和模型迭代探索、實時協(xié)作實驗跟蹤、提示詞工程以及模型piPeline的管理。同時,它還支持對大型語言模型(LLM)的控制模型轉(zhuǎn)換、部署和監(jiān)控。整體方案提供了—套完整的AI生命周期管理服務,從開發(fā)到部署再到維護,確保了平臺的高效運行和持續(xù)優(yōu)化。建設(shè)智算運維運營平臺和相關(guān)團隊,可以為平臺帶來如下保障:1.確保服務連續(xù)性:通過有效地運維運營,智算平臺能夠保證服務的連續(xù)性和穩(wěn)定性,避免因故障或性能問題導致的服務中斷,通過日常巡檢和監(jiān)控可以降低重大故障的發(fā)生概率。2.提升用戶體驗:良好的運維運營能夠快速響應用戶需求,提供及時的技術(shù)支持和問題解決方案,從而提升用戶滿3.研發(fā)效率提升:通過工具研發(fā)的支持,智算運維運營平臺允許團隊更快地開發(fā)模型,提供更高質(zhì)量的模型,并更4.優(yōu)化資源利用:通過精細化的資源管理和調(diào)度,可以提高計算資源的利用率,避免資源浪費,降低運營成本。5.知識管理:建設(shè)和維護知識庫,促進使用方法和經(jīng)驗的共享,降低初學者的門檻。6.模型微調(diào)、推理和監(jiān)控:7.確保模型性能:通過持續(xù)的監(jiān)控和維護,智算運維運營可以確保模型在生產(chǎn)環(huán)境中的性能穩(wěn)定,及時調(diào)整以適應新8.可擴展性:隨著業(yè)務需求的增長,智算運維運營支持平臺的無縫擴展,可以靈活地增加計算和存儲資源。臺的穩(wěn)定性,做好資源和用戶管理,同時也降低AI模型的研發(fā)門檻,將研發(fā)好的AI模型快速應用到實際場景中。尤其對于那些工程能力相對薄弱的組業(yè),智算平臺的運維運營能力尤為關(guān)鍵。這些組織可能缺乏獨立維護復雜AI平臺的經(jīng)驗,依賴外部提供的高質(zhì)量運維運營服務,可以加速創(chuàng)新孵化過程。隨著AI技術(shù)的發(fā)展,算力訓練需求增長,智算設(shè)備緊缺,訓練大型AI模型的成本變得極其高昂。設(shè)和運維工作。這些團隊通常具備跨學科的知識和技能。目前,已經(jīng)出現(xiàn)了LLM0PS的概念,除了當前,國內(nèi)智算平臺運維運營相關(guān)領(lǐng)域的資料有限,尚未形成體系化的智算平臺運維和運營解決方案。智算平臺運維運營方面的不足,以及完善運維運營體系的必要性,主要體現(xiàn)在以下幾個方面:隨著用戶的增加、算力供給增長以及服務生態(tài)的多樣化,智算平臺的運維和運營存在著較大的挑戰(zhàn),主要體現(xiàn)在人才缺失、流程和工具化能力缺乏、相關(guān)技術(shù)門檻高運營運維難度大、任務失敗后排障困難等幾個方面:.1人才供給挑戰(zhàn)主要體現(xiàn)在兩方面,—是人才緊缺,缺乏具備必要專業(yè)知識和技能的人才,導致招聘難度增加;二是傳統(tǒng)運維難度大,傳統(tǒng)運維方式面臨挑戰(zhàn)和巨大的學習成本,缺乏高效的運維傳統(tǒng)運維運營方法與智算平臺的運維運營要求之間存在較大差距,主要體現(xiàn)在AI模塊的運維支持上。人工智能技術(shù)作為近幾年的新興的領(lǐng)域,綜合了機器學習、深度學習、自然語言處理和計算機視覺等技術(shù),對問題排查的人員能力要求很高,目前都由全棧型和有經(jīng)驗的算法工程師解決。11集群傳統(tǒng)高性能計算任務,需要運維機器01AI任務主要為各種GPU卡,需要運維機器和升級驅(qū)動01高性能存儲,吞吐快,性能提升01科研軟件安裝,外部工具接入01010111幫助用戶建設(shè)機器的運維體系,并且進行平臺的變更操作1101010101并行計算,PYTorch和Tensor01大數(shù)據(jù)加工,數(shù)據(jù)傳輸01011111P0D的診斷,重啟和刪除11表1傳統(tǒng)運維運營人員與智算平臺運維運營人員能力對比注:1代表運維運營人員必備能力,0代表運維運營人員非必備能力在加速,但同時也帶來了對專業(yè)人才和先進設(shè)備的巨大營平臺的人員非常稀缺,招聘難度巨大。source:Lightcast,2023chart:2024AlIndexreport152,201152,20113,503133,06643,74893,54125,14991,88320,77085,4843,89273,0698,60268,4591,71267,77212,32718,70464,55725,93562,180050,000100,000150,000200,000250,000300,000握高水平的專業(yè)技術(shù)能力,更要具備出色的管理與決策技能,以保障智算平臺的高效運行和持續(xù)創(chuàng)智算平臺運維運營人員,不僅要有傳統(tǒng)運維運營的基礎(chǔ),還要對人工智能技術(shù)有深刻理解,掌握相.2目前,大模型訓練的生態(tài)系統(tǒng)仍在建設(shè)之中,相關(guān)的流程和工具尚未完全產(chǎn)品化。同時,我們還缺乏統(tǒng)—的標準和接口來管理相關(guān)資源。例如,對于模型的運行狀態(tài)、對應的GPU機器以及平臺穩(wěn)定性,我們還需要—個統(tǒng)—的監(jiān)控和統(tǒng)計系統(tǒng);大規(guī)模GPU集群的掃描軟件、AI訓練生態(tài)系統(tǒng),推理和模型輸出等都處于創(chuàng)新階段。偏定制化的需求,面臨流程缺失和工具缺乏等問題,極大程度地增加了運維運營工作的難度,目前市面上類似Datadog、HuggingFace、atabricks等公司都在積極地解決AI任務監(jiān)控和訓練的生態(tài)問題,未來有望可以標準化輸出。.3智算門檻高,運營運維難度大目前智算的高技術(shù)門檻和運營運維的復雜性使得許多企業(yè)和研究機構(gòu)望而卻步,其主要原因在于對GPU資源的大規(guī)模依賴。此外,智算系統(tǒng)的設(shè)計和實現(xiàn)需要跨學科的知識和技能,包括機器學習、數(shù)據(jù)科學、軟件工程等,均成為了運維運營工作開展的挑戰(zhàn)。在運營和維護智算系統(tǒng)時,團隊面臨的挑戰(zhàn)尤為嚴峻。系統(tǒng)穩(wěn)定性的維護需要持續(xù)地監(jiān)控和及時故障排除,而性能優(yōu)化則要求對系統(tǒng)架構(gòu)有深入的理解。隨著技術(shù)的快速發(fā)展,智算系統(tǒng)需要不斷地更新和升級,以適應更大規(guī)模的算法參數(shù)和更大的數(shù)據(jù)集,通過更敏捷的模型應用部署平臺,來滿足Al模型對實際業(yè)務場景的適配。為了克服這些挑戰(zhàn),企業(yè)和進行人才培養(yǎng)、技術(shù)研發(fā),并探索和總結(jié)更高效的運維和運營策略。.4計算任務失敗原因分析路線非常復雜,從硬件到上層框架鏈路長,涉及的領(lǐng)域眾多,對目前運維運營人員的技術(shù)要求較高。任務排障困難體現(xiàn)為如下幾方面:1.系統(tǒng)架構(gòu)復雜:智算平臺通常由多個模塊組成,如底層基礎(chǔ)設(shè)施、機器學習平臺和運維運營平臺等,每個模塊都有其特定的功能和架構(gòu),問題定位困難。2.硬件和軟件問題:底層硬件問題(如ECC錯誤、NVLink錯誤)和軟件配置問題(如shell啟動失敗、缺少配置文件)可能影響系統(tǒng)運行,需要專業(yè)知識進行診斷。任務調(diào)度失敗、訓練速度慢、資源不足(如00M錯誤)等問題,需要對平臺執(zhí)行Al任務的邏輯有—定了解。3.用戶權(quán)限和資源管理:用戶權(quán)限設(shè)置、資源申請、工作空間配置等方面的問題,需要對平臺的運營體系有深入了解才能4.環(huán)境配置和依賴問題:Al模型訓練環(huán)境配置復雜,涉及鏡像、數(shù)據(jù)集、代碼等Al資產(chǎn)的管理,以及依賴包的安裝和配置5.網(wǎng)絡(luò)和存儲問題:網(wǎng)絡(luò)連接問題、存儲設(shè)置錯誤、文件操作限制等,6.硬件故障:7.用戶熟悉度不足:用戶對平臺的使用不熟悉,導致操作錯誤或無法充分利用平臺功能。智算平臺的任務排查是—項極具挑戰(zhàn)的工作,它要求運維人員不僅要有深厚的技術(shù)背景,還需對整個系統(tǒng)架構(gòu)有全面的理解。從底層硬件的穩(wěn)定性到軟件配置的精確性,每—個環(huán)節(jié)都可能導致訓練任務執(zhí)行失敗。同時新的挑戰(zhàn)不斷涌現(xiàn),如確保數(shù)據(jù)安全、遵守合規(guī)性要求、處理大規(guī)模并發(fā)請求等,都進—步增加了任務排查的難度。根據(jù)目前智算平臺運維運營的現(xiàn)狀,為了提高智算平臺的運維效率和穩(wěn)定性,需要完善自動化監(jiān)控和故障排除工具,加強人才培養(yǎng),確保智算平臺在面對日益復雜的AI任務時,仍能保持高效和穩(wěn)定,并且將大模型等AI技術(shù)有效得應用。本研究報告面向智算平臺支持AI模型訓練的全生命周期,總結(jié)當前智算平臺的運維和運營難點,并提出了相應的解決方案。智算基礎(chǔ)設(shè)施和AI服務平臺位于智算平臺體系結(jié)構(gòu)的最底層,主要提供兩個重點能力:基礎(chǔ)設(shè)施展性、高性能的Iaas+Paas的環(huán)境:1.基礎(chǔ)設(shè)施Iaas:IDC機房、網(wǎng)絡(luò)交換機(RDMA網(wǎng)絡(luò)交換機、通用網(wǎng)絡(luò)交換機)、算力服務器(智算算力服務器、通用計算服務器)、存儲服務器等能力;同時還有基于基礎(chǔ)設(shè)施的集群建設(shè),為上層平臺和應用2.AI平臺paas:提供隨開即用的的AI作業(yè)平臺,完成對AI模型(包括大模型)的開發(fā)和訓練。資源管理和算力資源的監(jiān)控,也為上層的智算模型運營提供產(chǎn)品和服務(模型微調(diào)、Agent、AI資產(chǎn)生態(tài)運營等),有效地提升智算平臺整體的性能和用戶體驗。臺臺臺智算運營運維中心主要分為三個重點的模塊:.1AI模型的開發(fā),尤其是大語言模型的開發(fā)過程包含許多復雜組件,如數(shù)據(jù)加工、數(shù)據(jù)預處理、提示詞工程、模型微調(diào)、模型部署、模型監(jiān)控等,同時還需要跨團隊的協(xié)作和交接,從數(shù)據(jù)工程到數(shù)品工具和專家服務,降低用戶在AI模型訓練和應用的工程門檻,提高大模型應用的開發(fā)效率。AI運營非常重要,包括可視化,透明度和可解釋性。通過AI模型的運營模塊,可以讓非技術(shù)人員參1.模型運營:模型運營的目標是為了釋放大模型的價值,其中包含模型微調(diào)、提示詞工程、智能體(包含各種工程組件)以及模型監(jiān)控等能力,同時也包含大模型專家服務用來解決在模型訓練和推理過程中2.AI資產(chǎn)運營:主要面向豐富的AI資產(chǎn)生態(tài),具體包含:1)模型集市:包含官方開源的大模型和組織內(nèi)公開的大模型,可以進行模型版本的控制更新,分享和部署。2)數(shù)據(jù)集市:包含官方開源的數(shù)據(jù)集,和組織內(nèi)公開的數(shù)據(jù)集,可以協(xié)同開展數(shù)據(jù)上云,數(shù)據(jù)加工,數(shù)據(jù)共享等。3)鏡像集市:主要包含支持各種大模型的不同鏡像,來自不同的社區(qū)。4)實驗集市:主要包含各種業(yè)務組件,用于降低模型部署或者數(shù)據(jù)加工的工程化門檻。.2平臺運營可以幫助企業(yè)利用已有的算力資產(chǎn),向租戶出售算力產(chǎn)品和增值服務,幫助用戶更高效地使用算力。同時平臺運營會有效地處理用戶資源數(shù)據(jù),給企業(yè)組織提供決策和實現(xiàn)平臺,從而提高整體智算平臺的運營效率,降低管理和維護成本。1.用戶運營:用戶運營主要包含用戶權(quán)限管理、工單答疑、用戶培訓等。通過工單服務解決用戶找人難、上手2.資源運營:—站式的資源全生命周期管理。資源運營主要包含全面的資源管理,包含不同類型、不同收費模式和計算資源進行混合管理。用戶能夠在平臺對計算資源進行從申請、審批、創(chuàng)建、變更到回收的全鏈路管理動作,并且平臺能夠精確記錄資源的申請或變更記錄、資源的項目歸屬和資源的計3.運營管理:包含管理經(jīng)驗的運營流程設(shè)計、數(shù)字化管理、經(jīng)營分析和計量計費等模塊,幫助用戶高效、便捷地對智算場景開展更全面精細和準確的運營。通過數(shù)字化管理和經(jīng)營分析可以快速的發(fā)現(xiàn)問題,.3通過端到端地對物理資源、機器學習平臺及上層應用進行日志采集和監(jiān)控,平臺運維能夠快速且精確地診斷問題,迅速響應并預防重大問題的發(fā)生。同時,平臺運維提供專門針對智能計算任務的運維服務,以解決用戶在使用時硬件基礎(chǔ)設(shè)施時遇到的功能和性能等問題。1.業(yè)務連續(xù)性:點,以及網(wǎng)絡(luò)和通信等底層基礎(chǔ)設(shè)施硬件。此外,還需支持上層的容器服務,確保容器和容器間的通信,以及每個容器里代碼平穩(wěn)地運行,從而產(chǎn)生可靠的AI運算結(jié)果。在業(yè)務連續(xù)性方面,需2.安全防護:安全體系的設(shè)計需要多個重要的參與方,運維團隊需要跟安全團隊緊密合作,確保技術(shù)基礎(chǔ)設(shè)施的可靠性和安全性。運維團隊負責日常系統(tǒng)維護、軟件部署和故障排除,安全團隊則專注于評估3.智算運維:智算運維模塊不同于傳統(tǒng)運維的服務能力,主要針對大模型訓練和推理的相關(guān)業(yè)務需求開展性能分析優(yōu)化、算力和存儲擴容、軟件鏡像安裝、模型訓練報錯診斷為保障智算平臺的安全穩(wěn)定和業(yè)務的長效運營,平臺運營運維需要如1.智算平臺運營組:2.智算運維保障組:維服務5*8,遠程運維保障服務7*24。3.AI應用運營組:大模型模型運營負責提供模型部署的數(shù)據(jù)支持,確保模型可以穩(wěn)定高效地推理和應用,同時確保用4.AI資產(chǎn)運營組:5.安全保障組:負責平臺安全架構(gòu)設(shè)計,包括防御、監(jiān)測體系構(gòu)建,潛在風險識別和安全策略制定。智算硬件/網(wǎng)絡(luò)運維智算硬件/網(wǎng)絡(luò)運維算平臺售后服務7*24.2為了保障平臺建設(shè)和運維運營過程中的整體穩(wěn)定性和線上業(yè)務的正常運行,結(jié)合人員和工具的能1.資源管理:2.故障恢復:制定故障恢復流程,包括自動故障轉(zhuǎn)移、備份和恢復機制,以最小化系統(tǒng)停機時間。3.性能監(jiān)控:實施實時監(jiān)控系統(tǒng),跟蹤集群的性能指標,如負載、響應時間、錯誤率等,以便及時發(fā)現(xiàn)并解決4.資源巡檢機制:定期進行資源巡檢,確保資源配置得當,及時發(fā)現(xiàn)資源使用中的瓶頸和浪費問題。5.用戶管理:建立用戶管理體系,確保用戶權(quán)限的合理分配,優(yōu)化用戶體驗,包含用戶在項目申請、賬單結(jié)算、6.數(shù)據(jù)管理:制定數(shù)據(jù)管理政策,確保數(shù)據(jù)的完整性、可用性和合規(guī)性,提高數(shù)據(jù)的質(zhì)量和分析能力。7.AI模型管理:8.AI應用管理:9.文檔和知識管理:10.成本管理:安全架構(gòu)設(shè)計:制定嚴格的安全政策和協(xié)議,包括訪問控制、數(shù)據(jù)加密和網(wǎng)絡(luò)安全措施,保護集群免受內(nèi)外部威脅。安全合規(guī)性和審計:確保所有操作符合法律法規(guī)要求,并定期進產(chǎn)研協(xié)同體系:(CBSS)(CBSS)……運營管理制度……AI的運營主要包含模型運營和AI資產(chǎn)運營,其中模型運營主要為了完成AI模型的業(yè)務應用,AI資??ne-tuning大模型應用還面臨諸多挑戰(zhàn),例如開發(fā)團隊還未適應大模型編程的需求,對大模型的實際應用場景理解、工具的選擇(例如中間件、向量數(shù)據(jù)庫等)以及團隊的協(xié)作模式、如何構(gòu)建prompt等方面都存在—定的認知偏差。開發(fā)團隊需要在大模型技術(shù)棧方面建立更多的共識,對于如何使用RAG(RetrievalAugmentedGeneration)或者微調(diào)等.1產(chǎn)品化工具,簡化工程化能力,幫助用戶快速部署模型和實現(xiàn)模型在實際業(yè)務場景中的價值。圖9微調(diào)、提示詞工程、RAG技術(shù)d→Kd→K.2模型微調(diào)(Fine-tuning)模型微調(diào)是指在預訓練模型的基礎(chǔ)上,針對特定的應用場景或數(shù)據(jù)集進行進—步訓練的過程。可得模型更好地適應特定的任務,提高其在該任務上的表現(xiàn),其主要技術(shù)包括:1.全微調(diào):用預訓練模型作為初始化權(quán)重,在特定數(shù)據(jù)集上繼續(xù)訓練,全部參數(shù)都更新的方法。2.高效參數(shù)微調(diào):a)增加額外的參數(shù)(Addition-Based):pre?xTuning、promptTuning、AdapterTuning。b)選取-部分參數(shù)的更新(selection-Based):BitFit。c)引入重參數(shù)化Reparameterization-Based:LoRA。d)混合高效微調(diào):MAMAdapter、unipELT。+(a)sequentialAdapterQQ+QKV QKV +?10?????????RAG是—種結(jié)合了檢索(RetrieVal)和生成(Generation)的模型架構(gòu),它首先從—個大型的數(shù)據(jù)庫中檢索相關(guān)信息,然后將這些信息整合到生成模型中,以生成更加豐富和準確的輸出。該方法有非常多的優(yōu)勢,例如:a)RAG通過將答案與外部知識聯(lián)系起來,減少語言模型中的幻覺問題,并使生成的回答更加準確可靠。c)透明度,通過引用來源,驗證答案的準確性,增加對模型輸出的可解釋性。d)安全和隱私管理,RAG憑借其在數(shù)據(jù)庫中內(nèi)置的角色和安全控制,可以更好地控制數(shù)據(jù)使用。新增問答chatBot選擇調(diào)用大模型生成問答新增問答chatBot選擇調(diào)用大模型生成問答chatBot應用調(diào)度企業(yè)業(yè)務系統(tǒng)文檔檢索組織A組織A組織B組織B組織c組織c整體RAG系統(tǒng)包含兩個階段:檢索階段(Retrievalphase)和生成階段。其中在檢索階段,根據(jù)用戶提出的問題,檢索系統(tǒng)搜索用戶上傳的知識庫,(該知識庫可能包含文檔、網(wǎng)頁或其他形式的數(shù)據(jù)。同時知識庫會被切成不同的片段以向量的方式存在向量庫)。語言模型會把檢索到的文檔作為輸入,結(jié)合問題和用戶的原始問題,生成答案輸出。.4提示詞是—種引導模型生成特定類型回答的方法。在—些生成模型中,通過精心設(shè)計的提示詞可以引導模型生成更加相關(guān)和高質(zhì)量的內(nèi)容。高質(zhì)量的提示詞可以提升答案生成的質(zhì)量,實現(xiàn)特定任務和目標,同時設(shè)定個性化的風格來適應多樣化的需求。.5智能體是人工智能領(lǐng)域的重要概念,它可以被定義為—個實體,可以在所處的環(huán)境中感知信息,并且根據(jù)這些信息作出決策,然后實現(xiàn)特定的目標和任務。智能體有自主性,感知能力和決策能務分解為更小的子目標,并使用短期和長期記憶來處理信息。和服務,幫助用戶快速構(gòu)建和實現(xiàn)AI應用。力,可以將大任務拆解為自任務,并且可以自動化使用和調(diào)用工具,為大語言模型的應用帶來了 calendar()calendar()Relectioncalculator()Relectioncalculator()selfself-critics chainofthoughtssearch()subgoaldecomposition...moresubgoaldecomposition...more.6步是AI資產(chǎn)的管理,確保算力可以有效利用,快速訓練出符合業(yè)務場景需求的模型的關(guān)鍵。第二步通過AI資產(chǎn)的運營,讓AI資產(chǎn)實現(xiàn)共享,可以輕松下載和訓練組織之間的預訓練模型,大幅節(jié)約研發(fā)者的模型訓練成本和時間,構(gòu)造組織內(nèi)部AI的開源社區(qū)。這些類型:1.數(shù)據(jù)集市:數(shù)據(jù)是訓練模型的基礎(chǔ)。高質(zhì)量的數(shù)據(jù)集可以提高AI系統(tǒng)的性能和準確性,且大模型數(shù)據(jù)龐大,開源數(shù)據(jù)集需要被登記和管理,平臺需要實現(xiàn)組織內(nèi)部的數(shù)據(jù)共享,為大模型訓練提供語料庫。該模塊具備如下的能力:a)數(shù)據(jù)上云:.支持對各種原始格式的數(shù)據(jù)格式,例如PDF,D0cX,XML接入平臺,對結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)導入,實現(xiàn)大規(guī)b)數(shù)據(jù)管理:.對數(shù)據(jù)的來源和權(quán)限,以及元數(shù)據(jù)屬性進行管理。.對數(shù)據(jù)的業(yè)務屬性和AI屬性進行管理,例如數(shù)據(jù)集的領(lǐng)域,應用場景和相關(guān)權(quán)限。.對數(shù)據(jù)集提供上架,更新和下載的能力,對數(shù)據(jù)集全生命周期管理。c)數(shù)據(jù)加工:d)數(shù)據(jù)標注:.平臺提供集成的標注工具,支持不同類型數(shù)據(jù)的標注需求,如圖像、文本、音頻和視頻。提供直觀的用戶界面,使.設(shè)計和實施標準化的標注流程,確保數(shù)據(jù)標注的—致性和準確性。且支持多人協(xié)作標注,實現(xiàn)標注任務的分配、審.自動化標注,利用機器學習技術(shù),開發(fā)自動化標注工具,以減少人工標注的工作量。e)數(shù)據(jù)展示:.平臺提供基礎(chǔ)的BI報表建設(shè)能力,允許對數(shù)據(jù)集的相關(guān)結(jié)構(gòu)化信息開展業(yè)務分析,對核心的數(shù)據(jù)指標進行可視化報2.模型集市:模型集市支持用戶發(fā)布和下載開源的預訓練模型。實現(xiàn)對模型共享和快速模型的部署。同時將用戶訓練好的模型進行上架、更新、版本管理,實現(xiàn)對模型的全生命周期管理。a)模型注冊:.模型注冊提供模型的上架能力,對模型的版本進行控制,快速完成模型的業(yè)務打標,如來源、應用場景、描述說明b)模型部署:c)模型庫管理:系列的模型文檔,用戶反饋系統(tǒng),調(diào)用次數(shù)和下載次數(shù)的監(jiān)控。3.鏡像集市:提供豐富的鏡像資源庫,允許用戶瀏覽,選擇和下載各種大模型訓練需要的環(huán)境依賴。該模塊通過提供預配置的鏡像,顯著簡化了大模型訓練和部署的復雜性,降低了工程實施的門檻,支持開a)鏡像導入:b)鏡像庫管理:·建立流程服務和管理鏡像庫,包含關(guān)鍵鏡像的官方源更新和軟件更新,同時允許用戶鏡像訪問權(quán)限控制和共享用戶c)鏡像診斷:·對于大型和復雜的模型,提供鏡像診斷工具,幫助用戶排查和解決鏡像使用中的問題,并提供核心技術(shù)支持。4.實驗集市:實驗集市為研究人員提供了—個平臺,用于管理、共享和協(xié)作實驗流程和結(jié)果。基于算子和工具實現(xiàn)不同場景的算法業(yè)務流,對實驗設(shè)計、執(zhí)行、結(jié)果分析和共享。a)工具管理:理,確保實驗的可重復性。b)實驗管理:·實現(xiàn)實驗的全生命周期管理,從實驗設(shè)計、執(zhí)行到結(jié)果分析,支持實驗的自動化執(zhí)行。c)實驗工具研發(fā):·鼓勵和支持研究人員開發(fā)新的實驗工具,以滿足特定的研究需求。提供工具開發(fā)的資源和指導,促進創(chuàng)新和協(xié)作。智算平臺的運營從用戶的使用需求開始,覆蓋資源使用的全流程,形成智算平臺運維運營體系,.1數(shù)據(jù)傳輸鏡像構(gòu)造AI數(shù)據(jù)傳輸鏡像構(gòu)造AI任務中心存儲規(guī)劃管理鏡像規(guī)劃管理知識庫管理申請賬號/項目添加項目成員項目組管理規(guī)劃項目資源申請平臺資源規(guī)劃登錄算力平臺網(wǎng)絡(luò)規(guī)劃賬單查收計量計費規(guī)劃接入復雜跑不起來機器人對話部署難度大接入復雜跑不起來機器人對話部署難度大代碼報錯知識圖譜數(shù)據(jù)平臺知識圖譜數(shù)據(jù)平臺 生成圖產(chǎn)品saas接入困難saas接入困難 代碼 代碼reviewcheckpoints數(shù)據(jù)集獲取難,不能共享數(shù)據(jù)集上云成本高數(shù)據(jù)上云,數(shù)據(jù)處理GPUGPU節(jié)點集群和基礎(chǔ)設(shè)施模型共享模型注冊模型版本控制集群安全,數(shù)據(jù)安全,模型安全集群安全,數(shù)據(jù)安全,模型安全通過產(chǎn)品化的能力以及相關(guān)的運營運維流程,為用戶提供—系列針對智算平臺使用的服務,讓用戶可以高效地管理自己的賬戶、資源和服務。同時運營團隊需要制定—系列的規(guī)范和機制,指導用戶高效地使用算力。其中包含:1.用戶和項目組注冊:為用戶提供賬戶的注冊、項目組注冊和管理等能力。2.資源開通:為用戶提供資源和規(guī)格的選擇、開通算力和存儲資源。3.訂單管理:用戶可以管理賬戶的資源訂單,以及上傳和編輯合同模版。4.工單管理:用戶可以提交和跟蹤工單,以及查看故障待辦和當前進展。5.賬戶資金管理:用戶可以充值賬戶、查看資金余額、資金使用明細,以及管理賬單和發(fā)票。6.消息和通知:用戶可以接收和查看系統(tǒng)消息,以及工單狀態(tài)更新。7.用戶信息和安全:用戶可以維護個人信息,如修改密碼、綁定手機號和郵箱,保障賬戶安全。智算的工單答疑是運營難度最大的模塊,用戶的問題遍及平臺運營、AI模型、基礎(chǔ)設(shè)施和上層應框架的使用問題解答。智算平臺運營是云計算、大數(shù)據(jù)、人工智能平臺運營的結(jié)合,要求運維人工單答疑是影響平臺客戶滿意度的重要服務模塊,可采取根據(jù)用戶畫像分群體運營的模式,例如群運營、VIP服務運營等。工單答疑需要通過對工單分類、對用戶意題及解決方案文檔進行總結(jié),通過訓練自主問答機器人將結(jié)構(gòu)化的正確答案輸出。知識知識知識知識知識.2適用于小型到中型的計算任務,如傳統(tǒng)機器學習,只涉及單卡計算資源,管理和調(diào)度相對簡單,卡資源需求靈活,但容易造成整臺機器的碎片化,影響算力的供給。適用于更高計算能力的任務,例如深度學習模型的單機多卡任務可以顯著提高算力,需要有效的資源規(guī)劃,考適用于超大型計算任務,如超大規(guī)模深度學習模型2?????????????Т????算力運營平臺實現(xiàn)了對多樣化計算資源的全面納管,包括多種型號的GPU和CPU和定制化的計算資源。用戶可以在統(tǒng)—的交互界面中,輕松管理整個計算平臺的服務目錄,實現(xiàn)資源的整合與優(yōu)算力運營平臺支持從算力資源申請、審批、創(chuàng)建、變更到回收的全生命周期管理動作。平臺能夠精確記錄資源的申請和變更記錄、資源的項目歸屬和資源的計費主體,提供根據(jù)資源類型、作業(yè)目的、提交者身份等不同維度的資源審批能力,實現(xiàn)對資源的全生命周期運營管理。算力調(diào)度是指在系統(tǒng)中合理分配和利用計算資源的過程,其主要目的是提高整個集群的利用率,保證任務的高效執(zhí)行。算力調(diào)度系統(tǒng)的復雜性主要由兩個因素造成:—是業(yè)務資源約束因素;二是底層的基礎(chǔ)設(shè)施、資源隔離能力約束因素。挑出最合適的物理機,通過機器混合調(diào)度提升機器使用效率。智算集群通過容器化的方式屏蔽了物理機之間的配置差異,進—步提升使用體驗。傳統(tǒng)的算力管理通常以物理機為單位,將物理機分配給對應團隊,由相關(guān)團隊內(nèi)部再進行資源分配,在資源空閑時造成了極大的浪費。智算平臺用虛擬化、負載均衡等技術(shù)將計算資源(如CPU、GPU、內(nèi)存等)集中管理,形成—個統(tǒng)—的資源池,可根據(jù)資源余量、用戶需求進行動態(tài)分配,提供更好的可擴展性和靈活性。同時支持隊列管理能力,在資源不足的情況下開啟計算任務排隊模式,在有資源空閑時自動啟動新任務,極大提升了資源利用和流轉(zhuǎn)效率。根據(jù)采集的指標,結(jié)合智算應用場景,搭配貼合實際治理場景的治理策略,更精細、更精準的發(fā)現(xiàn)可優(yōu)化的實例,治理的指標如下表所示:在多卡訓練任務中,長期有卡閑置實例不需要GPU卡,建議申請低配機器運行時間久,無人管理全鏈路資源治理包括對治理項目的持續(xù)監(jiān)控、智能推送治理建議、詳細查看治理記錄、實時線上反饋以及持續(xù)的校驗與巡查等關(guān)鍵環(huán)節(jié)。運營服務團隊能夠通過這—機制,獲得對治理狀態(tài)的洞察分析,從而確保治理措施的高效和精確執(zhí)行。此外,團隊成員可以通過任務分配、即時在線反饋、定期巡查以及策略調(diào)整等手段,不斷推動治理規(guī)則的持續(xù)運作與優(yōu)化,形成良性的閉環(huán)資源資源效能主要是對資源使用情況進行監(jiān)控,為資源優(yōu)化和管理提供數(shù)據(jù)基礎(chǔ)和依據(jù),并且開展對應的資源分析。和傳統(tǒng)的機器監(jiān)測重點不同,智算平臺重點監(jiān)測顯卡性能指標。在AI小模型時代,由通信問題造成的性能瓶頸較為少見,而在TB級大模型時代,分布式訓練及大規(guī)模數(shù)據(jù)可能會導致訓練中斷、梯度爆炸、算法重跑等問題,造成時間和成本的損失,因此資源效能模塊對任務穩(wěn)定性非常重要。資源效能治理主要包含以下能力:1)GPU性能監(jiān)控:·實時監(jiān)控顯卡性能指標,包括GPU使用率、顯存使用情況、溫度等,以預防過熱和故障。2)任務管理:·盤點當前運行的任務數(shù)量,優(yōu)化任務隊列,減少作業(yè)等待時間。3)存儲監(jiān)控:·監(jiān)控系統(tǒng)內(nèi)存和存儲的使用情況,確保數(shù)據(jù)讀寫不會成為限制因素。4)網(wǎng)絡(luò)通信:.3息,給企業(yè)組織的決策系統(tǒng)提供信息支持,從而提高對平臺整體的運營效率,降低額外的維護和智算平臺需要沉淀用戶使用行為與資源運行數(shù)據(jù),通過深度分析和挖掘,了解智算平臺的運營情況及用戶需求,來進行決策和優(yōu)化,使運營管理團隊能夠更加精準地了解自身運營狀況,及時調(diào)整運營策略,提升平臺的使用效率。其中可以接入的數(shù)據(jù)主要包括:2.機器狀況,GPU機器使用率和網(wǎng)絡(luò)帶寬。4.知識庫文章數(shù)量,以及知識庫瀏覽和下載量。1.訂單管理:2.賬單管理:3.發(fā)票管理:4.代金券管理:5.支付管理:6.價格管理:運營團隊承擔每個月對賬、出賬、收費核對和處理賬單相關(guān)的工單等工作。常規(guī)流程如下:在智算平臺的業(yè)務流程中,賬單預覽允許用戶在正式賬單生成前查看和確認即將產(chǎn)生的費用。對異常賬單進行分析和檢查,確保賬單的準確性。對賬完成后,賬單被正式發(fā)送給用戶,明確其應付金額。用戶在平臺規(guī)定的時間內(nèi)對賬戶進行充值。平臺進行收費核對,驗證用戶賬戶是否有足夠的算力余額,如果賬戶資金不足,且未在補交期限內(nèi)完成充值,可能會導致賬戶凍結(jié)。用戶可在指定時間范圍內(nèi)針對本月的賬單提交二次確認申請,運營團隊將對申請進行審核和處理,完成整個為了追求更高的訓練速度和模型性能,大模型訓練通常以并行計算的方式進行,會使用數(shù)百臺個計算系統(tǒng)中,每個部件都有概率出現(xiàn)異常,系統(tǒng)越大,整體出現(xiàn)問題的概率越高,例如網(wǎng)絡(luò)的抖動、板卡的故障、GPU的故障等不可避免,可以認為服務于大模型的計算集群,穩(wěn)定性保障是智智算平臺運維是—項復雜的系統(tǒng)工作,涉及到硬件的維護、軟件的更新、性能監(jiān)控以及故障排查等多個方面。運維的目標是保障集群的穩(wěn)定性,以.1面向海量數(shù)據(jù)處理和大規(guī)模計算的復雜應用,智算平臺可以提供高性能計算任務并行調(diào)度框架,需兼容主流的kubernetes、Slurm、PBS、LSF等調(diào)度器及多種編程模式,并具備高可擴展性,支持十萬以上的并行任務調(diào)度能力,支持自動檢測故障和系統(tǒng)熱點,重試失敗任務,保證任務穩(wěn)定統(tǒng)—管理和調(diào)度的能力。容器化調(diào)度帶來如下優(yōu)勢:2.更加簡單:優(yōu)秀的用戶體驗。Al應用無需重編譯,無需構(gòu)建新的容器鏡像進行CUDA庫替換。3.更加穩(wěn)定:針對NvlDlA設(shè)備的底層操作更加穩(wěn)定和收斂,而CUDA層的APl變化多端,同時—4.完整隔離:同時支持GPU的顯存和算力隔離。spread:多個Pod會盡量分散使用不同GPU卡,適用于GPU高可用場景。盡量支持只共享不隔離策略,適配于已有深度學習應用內(nèi)已自建應用層隔離能力的場景的選擇。HPC高性能計算集群,主要提供CPU算力資源,能夠處理復雜和大規(guī)模的計算任務,用避免相互干擾,提高運行效率。 status status status.2P0SIXFileopenstackobject上千臺機器的同時訪問,具有高吞吐、高I0PS(每秒輸入輸出操作數(shù))和亞毫秒級的延時。其中,P0SIXFileopenstackobjectAnalyticsTransparentTransparent統(tǒng)-命名空間統(tǒng)-命名空間計算節(jié)點客戶端文件存儲對象存儲文件存儲對象存儲數(shù)據(jù)流動文件存儲1.數(shù)據(jù)傳輸慢:a)網(wǎng)絡(luò)帶寬檢查:b)服務器性能:d)使用更高效的傳輸協(xié)議:2.離線數(shù)據(jù)導入:離線數(shù)據(jù)導入大數(shù)據(jù)集群是—個常見的數(shù)據(jù)集成任務,分為以下幾個步驟:a)數(shù)據(jù)準備:b)對數(shù)據(jù)進行清洗和預處理,以確保數(shù)據(jù)質(zhì)量。C)數(shù)據(jù)壓縮:在導入之前,對數(shù)據(jù)進行壓縮,可以減少傳輸時間和存儲空間。d)選擇合適的導入工具:根據(jù)大數(shù)據(jù)集群的類型,選擇相應的數(shù)據(jù)導入工具,例如Hadoop的distcp(分布式復制),ApacheSpark的e)網(wǎng)絡(luò)傳輸:f)數(shù)據(jù)導入:g)數(shù)據(jù)分區(qū):根據(jù)數(shù)據(jù)的特性和查詢需求,對數(shù)據(jù)進行合理的分區(qū),以優(yōu)化查詢性能。3.數(shù)據(jù)遷移:空間的元數(shù)據(jù)管理。運維策略中應包含數(shù)據(jù)流動的管理,以確保數(shù)據(jù)在對象存儲和存儲集群之間4.性能監(jiān)控:存儲的性能監(jiān)控可以監(jiān)控關(guān)鍵指標的狀態(tài)和歷史趨勢。指導用戶關(guān)注數(shù)據(jù)如使用GUI開展下面的監(jiān)控:條件監(jiān)控相關(guān)性能指標,還可以在圖表上進行平移和縮放,并顯示過去的統(tǒng)計信息。提供單個網(wǎng)絡(luò)共享磁盤(NsD)的性能、容量和運行狀況方面的詳細視圖。.3在智算平臺運行過程中,由于涉及到的數(shù)據(jù)量大、計算密集型任務頻繁數(shù)據(jù)傳輸和交換,因此需要大帶寬、低延遲的網(wǎng)絡(luò)傳輸協(xié)議。RDMA網(wǎng)絡(luò)在保證高速傳輸?shù)耐瑫r,還能減少網(wǎng)絡(luò)負載,提高數(shù)據(jù)傳輸?shù)目煽啃?是智算平臺和智算中心建設(shè)中重要的技術(shù)能力。在執(zhí)行大規(guī)模并行計算任務時,如AI模型訓練和科學模擬等,—個高效的GPU集群網(wǎng)絡(luò)架構(gòu)—般1.高帶寬:網(wǎng)絡(luò)通信的延遲需要盡可能低,以減少計算任務的等待時間,提高整體的計算效率。3.可擴展性:4.高吞吐量:網(wǎng)絡(luò)應能夠處理大量并發(fā)連接和數(shù)據(jù)流,保證在高負載下的性能穩(wěn)定。5.容錯性:網(wǎng)絡(luò)設(shè)計應包含容錯機制,以確保在部分網(wǎng)絡(luò)故障時,集群仍能繼續(xù)運行。6.擁塞控制:有效的擁塞控制算法可以防止網(wǎng)絡(luò)過載,確保數(shù)據(jù)傳輸?shù)姆€(wěn)定性。計算網(wǎng)絡(luò)網(wǎng)絡(luò)集群建設(shè)過程中,在保證集群穩(wěn)定性和性能要求的基礎(chǔ)上,往往會在可擴展性和經(jīng)濟性上做以—個千卡A100集群共128臺GPU設(shè)備為例:計算網(wǎng)絡(luò)采用spine-Leaf兩層架構(gòu),32臺Leaf擴大到256時,不能簡單的做設(shè)備的增加,通常有兩種處理方案:—是沿著128集群所采用的spine-Leaf兩層架構(gòu),簡單擴大到256集群,這種方案的優(yōu)點是簡單、省錢,但兩層的256集群已經(jīng)是極限,未來如果要繼續(xù)擴容會比較麻煩。二是方案是采用core-spine-Leaf三層架構(gòu),前期在網(wǎng)絡(luò)設(shè)備、跳線上的投入相對方案—會更多—些,但為將來GPU網(wǎng)卡直連到置頂交換機(leaf),leaf通過full-mesh連接到spine,形成跨主機GPU計算網(wǎng)絡(luò)。如下為core-spine-Leaf架構(gòu)GPU到接入交換機(leaf)AsW拓撲聯(lián)線說明:…………………加上32臺Core交換機,—共要用(32+32)*2+32=160臺交換機。這個方案具備跨良好的可擴展性,當集群規(guī)模從256擴展到512的時候,不用重新布放Spine-Leaf之間的跳線。存儲網(wǎng)絡(luò)存儲網(wǎng)絡(luò)設(shè)計—般通過直連CPU的兩張網(wǎng)卡,集成連接到—張獨立的存儲網(wǎng)絡(luò)環(huán)境中,主要的業(yè)務目標為:從分布式存儲讀寫數(shù)據(jù),例如讀訓練數(shù)據(jù)、寫checkpoint等和正常的node管理、和數(shù)據(jù)的高效流動,設(shè)計時需要考慮網(wǎng)絡(luò)的高可靠性和安全性,確保不同業(yè)務、不同安全級別、不為滿足大模型訓練對于存儲高吞吐性能需求,基于全局文件系統(tǒng)技術(shù),可支持超千卡節(jié)點擴展規(guī)模,為大模型訓練提供百PB級全閃存儲大集群能力,從閃存密度、數(shù)據(jù)面網(wǎng)絡(luò)、并行客戶端和對 switchswitchswitchswitch switchswitchswitchswitch ......Leaf......Leafspinespine計算網(wǎng)絡(luò) switch switchswitchswitchswitch switchswitchswitchLeafLeaf............LeafLeafspinespine存儲網(wǎng)絡(luò)數(shù)據(jù)傳輸網(wǎng)絡(luò)高性能傳輸網(wǎng)絡(luò)的設(shè)計相對復雜,需要綜合考慮多個因素,并根據(jù)具體的應用場景和業(yè)務需求開展定制化設(shè)計,如下是設(shè)計數(shù)據(jù)傳輸網(wǎng)絡(luò)過程中需要考慮的內(nèi)容。1.需要選擇合適的網(wǎng)絡(luò)拓撲,如星型、環(huán)型、網(wǎng)狀或胖樹(Fat-Tree)拓撲,以滿足不同的性能和擴展性需求。障自動切換;建設(shè)—套網(wǎng)絡(luò)應用層流量監(jiān)控和管理系統(tǒng),提供95%以上2-7層協(xié)議的識別能力、網(wǎng)絡(luò)應用性能監(jiān)測、流量數(shù)據(jù)展示、lPv6應用可視化等功能;建設(shè)—套大數(shù)據(jù)日志審計系統(tǒng),提主用路由主用路由備用路由.4整個安全體系建設(shè)的重要參與方包括專業(yè)的安全團隊,集群產(chǎn)研團隊和智算運維運營團隊,各個團隊充分開展合作,以確保技術(shù)基礎(chǔ)設(shè)施的可靠性和安全性。安全運維負責日常系統(tǒng)維護、軟件智算平臺的安全業(yè)務特點:1.資產(chǎn)價值高:2.數(shù)據(jù)敏感:在算力時代,數(shù)據(jù)作為商品傳輸,智算平臺中流通著海量數(shù)據(jù),涉及醫(yī)療、金融、政務以及個人信息等機密數(shù)據(jù)。若數(shù)據(jù)遭受篡改或泄露,將造成嚴重后果。3.業(yè)務形式復雜:基于業(yè)務特點的安全需求:從智算平臺的特點出發(fā),開展安全基礎(chǔ)設(shè)施建設(shè)、縱深防御的反入侵體系建設(shè)、數(shù)據(jù)安全建設(shè):網(wǎng)絡(luò)層:具備三層、四層雙向訪問控制能力:基于TCP/網(wǎng)絡(luò)層:具備三層、四層雙向訪問控制能力:基于TCP/UDP五元組信息進行攔截應用層:具備七層訪問控制能力:HTTP、HTTPS、DNS攔截身份認證層:提供特殊用戶零信任準入能力能采集端點(含容器)各類日志,酒蓋進程、網(wǎng)絡(luò)、文件能采集端點(含容器)各類日志,酒蓋進程、網(wǎng)絡(luò)、文件具備端點(含容器)常見攻擊技術(shù)的檢測能力,至少應包含東西向橫移、憑據(jù)竊取、內(nèi)存馬、可疑具備端點(含容器)常見漏洞、基線風險檢測能力縣備端點(含容器)惡京進程啟動攔裁,惡意文件查殺能力數(shù)據(jù)傳輸數(shù)據(jù)導出有日志,可審計 數(shù)據(jù)銷毀從數(shù)據(jù)生命周期考志。數(shù)據(jù)應該存在使用期限,過期銷毀面對復雜的網(wǎng)絡(luò)安全態(tài)勢,不能僅寄希望于防住攻擊,還應該預先假設(shè)被攻破第—道防線后如何開展入侵檢測,下面列出了—些參考的產(chǎn)品類別:1.WAF:提供WEB安全防護能力。2.NDR:提供全面的網(wǎng)絡(luò)入侵檢測、響應3.EDR:提供全面的端點入侵檢測、響應能力。4.防火墻:提供四層暴露面收斂能力。5.堡壘機:提供安全運維能力。6.SIEM:提供整體日志采集、分析能力。7.容器安全:提供容器安全防護、入侵檢測能力。9.蜜罐:提供主動防御、溯源反制能力。從數(shù)據(jù)安全的產(chǎn)品層面來說,—般需要產(chǎn)品來支撐數(shù)據(jù)邊界的管控,智算平臺的數(shù)據(jù)安全往往需要結(jié)合實際業(yè)務開展,實際的業(yè)務系統(tǒng)需要具備管控能力和可審計能力,安全產(chǎn)品則居于其次,因此涉及的安全產(chǎn)品不多,下面列舉—些參考的產(chǎn)品類別:1.零信任:提供VPN準入、終端沙箱能2.風險和漏洞管理:基于安全產(chǎn)品開展巡檢,對發(fā)現(xiàn)的風險和漏洞進行治理。3.入侵管理:預先制定好應急響應流程,基于安全產(chǎn)品開展巡檢,對發(fā)現(xiàn)的安全事件進行分析、研判、處置。4.業(yè)務上線風險評估:對智算平臺的業(yè)務、模型、服務開展上線前安全評估,禁止帶病帶傷上線,帶來不可控的風險。的平臺監(jiān)控系統(tǒng)需要考慮的監(jiān)控指標,監(jiān)控指標可以參考核心指標評價模塊。運行受到影響。故障范圍包括:AI基礎(chǔ)設(shè)施故障、AI產(chǎn)品故障、AI業(yè)務系統(tǒng)故障,每次故障需要產(chǎn)品服務正常,管控不可用產(chǎn)品服務正常,管控部分不可用業(yè)務系統(tǒng)功能部分不可用(但服務未中斷)業(yè)務系統(tǒng)受到影響(例如超時、訪問慢、重試)服務正常,但容量受影響故障處置標準包含:2.故障源自監(jiān)控、巡檢發(fā)現(xiàn)以及用戶反饋,故障需要確認,對云平臺或應用系統(tǒng)的正常使用不造成影響的不判定為故障;計劃中變更引起的異常不判定為故障。3.平臺或業(yè)務系統(tǒng)發(fā)生的任何故障,第一時間通知運維負責人,由運維負責人調(diào)度資源進行故障處理,直至故障恢復4.故障的解決以快速恢復業(yè)務為第一優(yōu)先級,日志的收集、問題分析在事后進行。重保管理旨在客戶業(yè)務發(fā)展關(guān)鍵時間點(如:重大活動/會議、節(jié)假日、關(guān)鍵里程碑節(jié)點等)對AI平臺及業(yè)務系統(tǒng)提供技術(shù)保障,以“重保前排查預防、重保中值守響應、重保后總結(jié)復盤”為思想,確保云平臺及業(yè)務系統(tǒng)的可靠性、穩(wěn)定性和安全性。1.平臺側(cè):2.業(yè)務側(cè):1.溝通/摸底:通過溝通了解重保背景及訴求,業(yè)務側(cè):業(yè)務架構(gòu)及所涉及產(chǎn)品實例;平臺側(cè):平臺狀態(tài)、產(chǎn)品服務狀態(tài),明確重保工2.巡檢/修復:3.制定重保方案:4.權(quán)限管控:重保期間,需要對VPN登錄環(huán)境權(quán)限進行管控,只開放重否是是方案(按需)否否v否v否v是是是 常用指標,無論是國家標準、還是“東數(shù)西算”工程,都將PUE作為衡量數(shù)據(jù)中心能效水平的關(guān)的云計算提供商AWS相關(guān)的機房能耗指標為例,AWS的機房遍布全球26個地理區(qū)域,全球平均1.清潔能源的使用:機房使用大量使用風電、光伏等清潔能源,這有助于減少碳排放和能源消耗。由于機房所在平均氣溫較低,數(shù)據(jù)中心能夠利用自然冷源進行制冷,減少了冷卻系統(tǒng)的能耗,實現(xiàn)了節(jié)能環(huán)保。2.高效的能源使用效率:數(shù)據(jù)中心的PUE(能源使用效率)年平均可達1.2左右,遠低于行業(yè)平均水平,表明數(shù)據(jù)中心在能源使用上非常高效。3.節(jié)能技術(shù)的應用:數(shù)據(jù)中心廣泛使用了液冷、水冷等節(jié)能技術(shù),這些技術(shù)可以為數(shù)據(jù)中心節(jié)能70%以上。4.智能化管理:利用人工智能和物聯(lián)網(wǎng)技術(shù)實現(xiàn)智能化管理,提高運維效率,減少能源浪費:機房的地理位置和氣候條件為建設(shè)綠色機房提供了天然優(yōu)勢,有助于實現(xiàn)低能耗和高效率的算力中心運營。智算平臺運維運營評價體系的建立旨在提供—個全面、客觀的評估方法,來評估智算平臺在運維智算平臺運維運營評價體系由四大模塊構(gòu)成:基礎(chǔ)設(shè)施能力評價、AI運營能力評價、平臺運營能力評價和平臺運維能力評價,各模塊由覆蓋軟件、硬件、技術(shù)、用戶體驗等指標構(gòu)成。本評價體系由4個—級指標,19個二級指標,60個三級指標組成,其中三級指標可以根據(jù)實際應用中,數(shù)x:y高性能存儲(如SSD)在總存儲中的比例%遠程直接內(nèi)存訪問(RDMA)網(wǎng)絡(luò)的(在FP16精度下來衡量)C臺%%數(shù)據(jù)質(zhì)量(準確性、完整性)和數(shù)據(jù)下載次數(shù)個數(shù)/(每周/月)/個數(shù)/(每周/月)/個數(shù)/(每周/月)/模型微調(diào)效果(性能提升)和使用智算平臺產(chǎn)出的論文數(shù)量(A類)使用智算平臺產(chǎn)出的軟件著作的數(shù)量(A類)服務人員的工作年限,資格證書,%知識庫%%進行的變更次數(shù)(每月/周)%最高算力MFU(ModelFL0PsUtilization)%%算力資源管理,資源治理,資源運營的成熟度%SLA)達成率,是衡量服務提供者是否按照%觸發(fā)的系統(tǒng)安全事件總數(shù)(每月/周)發(fā)現(xiàn)的安全漏洞個數(shù)(每月/周)注:同時得到的數(shù)據(jù)統(tǒng)計指標需要進行歸—化處理,按照0-100的分數(shù)標準化。針對評價體系內(nèi)的—、二、三級指標,通過基于專家評估的層次分析(AHP)方法,得到評價指標體系中每—個—級、二級、三級指標的相對權(quán)重。根據(jù)實際應用情況,對指標進行權(quán)重設(shè)置,形成000●.●●●●●.●●●●根據(jù)評價結(jié)果對不同維度的數(shù)據(jù)開展分析可以對智算平臺運維運營能力進行定向優(yōu)化,如平臺AI運營方面表現(xiàn)較差,但是基礎(chǔ)設(shè)施和平臺運營等方面表現(xiàn)良好,說明智算平臺可能存在推廣程度不夠、存在資源浪費等問題,需要通過市場推廣、運營活動、技術(shù)改進等方式進行優(yōu)化。4.1.1案例1:復旦大學的AIforscience運營界科學智能大賽等,鼓勵研究者通過智算平臺挖掘新的科研場景??蒲衅脚_,在生命科學、大氣科學、材料科學、量子化學、流體力學五大科學賽道進行比賽,其中18+11000+530500+在開放CFFF平臺智能算力的基礎(chǔ)上,安全共享了多個特色科學數(shù)據(jù)集,這些數(shù)據(jù)集包括:.擁有千卡GPU,8萬核CPU,總體算力規(guī)模達到40PFlop/S(FP32)控關(guān)系網(wǎng)絡(luò)與知識圖譜,構(gòu)建大規(guī)模圖神經(jīng)網(wǎng)絡(luò)預訓練模型,首次將基因調(diào)控關(guān)系以圖神經(jīng)網(wǎng)絡(luò)的控關(guān)系預測精度提升1倍以上,甚至可以預測調(diào)控距離超過7Mb的調(diào)控關(guān)系。目前在阿茲海默癥疾病的數(shù)據(jù)分析中,發(fā)現(xiàn)了新的潛在靶點。?28???????.2阿里云通過端到端的大模型構(gòu)建服務,提供了—套完整的大模型解決方案,對AI資產(chǎn)進行了全方面的管理,同時從應用層到基礎(chǔ)設(shè)施層,全面支持大模型的研發(fā)和應用。應用層展示了各種AI應用案例,如圖像識別、文本生成和語言翻譯等,有效的發(fā)揮大模型在實際果。這些模型覆蓋了NLP(自然語言處理)、CV(計算機視覺)和speech(語音處理)等多個領(lǐng)域,為用戶提供了多樣化的選擇,滿足不同的應用需求,同時打通了Modelscope,HuggingFace等Maas平臺,支持豐富的模型,為用戶提供更強大的數(shù)據(jù)智能服務。在模型服務(Maas)平臺如PAIDsW-Gallery、Modelscope和HuggingFace,為用戶提供了豐富的模型服務和工具,支持用戶快速上手并高效進行模型開發(fā)。工作層整合了從智能標注、可視化建模、交互式建模、深度學習調(diào)度服務、在線模型服務到大模型庫服務的多種工具,支持全面的AI開發(fā)工作流程。通過這些工具,用戶可以快速構(gòu)建和優(yōu)化模型,大大降低了大模型學習的門機器翻譯業(yè)界s0TA:中文GPT/CLIP(Apps)(Models)(Maas)(Maas)復旦大學CFFF(ComputingfortheFuturea平臺,由復旦大學聯(lián)合阿里云、中國電信共同打造,推動交叉學科發(fā)展,助力創(chuàng)新路徑探索,實切問”—號和面向高精尖研究的專用高性能計算集群“近思”—號兩部分組成,算力規(guī)模達到40PFL0Ps(FP32),各個級別存儲(全閃+混閃+溫存+冷存)容量達70PB。CFFF平臺包含智算代表院系:環(huán)境科學、材料科學、代表院系:生命科學、公共衛(wèi)生、代表院系:人工智能學院、AI運營平臺(科研智算平臺)AI資產(chǎn)管理,模型微調(diào)、AI運營平臺(科研智算平臺)AI資產(chǎn)管理,模型微調(diào)、RAG、智能體Al+HPC集群管理、調(diào)度與開發(fā)(切問—號)HPC集群管理和調(diào)度(近思—號)作業(yè)管理調(diào)度、系統(tǒng)監(jiān)控、文件數(shù)據(jù)管理靈駿智算靈駿智算算法開發(fā)與服務、任務調(diào)度,集群管理,文件數(shù)據(jù)管理數(shù)據(jù)管理與分析(飛天)數(shù)據(jù)管理與分析(飛天)大數(shù)據(jù)、數(shù)據(jù)庫、數(shù)倉管理AI計算集群AI計算集群(1200卡A100)通用計算集群通用計算集群飛天基礎(chǔ)設(shè)施飛天基礎(chǔ)設(shè)施AI計算集群AI計算集群(120卡A800)(640臺CPU節(jié)并行文件存儲CFFF平臺運營工具可為用戶和運營提供產(chǎn)品化的功能,包括機器學習工具、科研智算工具、統(tǒng)—模、跨節(jié)點分布式訓練等多種功能。科研智算工具提供各學科領(lǐng)域的科研算子,包括生命科學、物質(zhì)科學、地球科學、流體力學等,通過“拖拉拽”的圖形界面,科研人員可以快速的構(gòu)建實驗流程,降低了研究人員使用人工智能技術(shù)進行科學研究的門檻。例如,科研人員可利用科研智算工具進行蛋白質(zhì)結(jié)構(gòu)的預測等。同時平臺鼓勵科研工具和實驗流程的開放共享,以及數(shù)據(jù)和鏡像的共享,通過建設(shè)科研開放社區(qū),人員可以訪問到更多的資源和數(shù)據(jù),加速科學發(fā)現(xiàn)的過程。統(tǒng)—運營工具為用戶提供平臺資源的賬戶和項目申請、資源運維審計等核心功能。讓用戶以統(tǒng)—全面的視角來管理各類關(guān)鍵業(yè)務流程,提升平臺運營效率,資源運營任務的性質(zhì)和優(yōu)先級,給任務分配合適的計算資源,通過智能調(diào)度算法,根據(jù)任務的實際需求和當前資源狀態(tài),動態(tài)地調(diào)整任務的執(zhí)行順序和資源分配,確保高優(yōu)先級任務優(yōu)先執(zhí)行,并最大化資源巡檢治理策略是指對于重點監(jiān)控的資源(GPU利用率、存儲利用率等),進行定期巡檢和治理。GPU資源通常是按照任務類型進行治理,將資源消耗量大的模型跑在單獨的資源池中,同時將單卡訓練的小任務,或者還在代碼調(diào)試階段的任務跑在另外的資源池中,從而避免資源的碎片化。存儲源,文件的個數(shù)(Inode)會限制高性能文

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論