2025年AIGC數據存儲技術研究報告_第1頁
2025年AIGC數據存儲技術研究報告_第2頁
2025年AIGC數據存儲技術研究報告_第3頁
2025年AIGC數據存儲技術研究報告_第4頁
2025年AIGC數據存儲技術研究報告_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

AIGC告目錄前言 01第一章AIGC加速數據存儲產業(yè)智能變革AIGC產業(yè)呈現(xiàn)創(chuàng)新發(fā)展態(tài)勢 02AIGC產業(yè)邁入發(fā)展新階段 02AIGC產業(yè)支持政策全面布局 02AIGC加速企業(yè)數據存儲創(chuàng)新發(fā)展 04第二章AIGC場景對數據存儲的挑戰(zhàn)AIGC業(yè)務階段概述 05AIGC整體架構 05AIGC作業(yè)流程下的存儲數據流動 06AIGC各階段對數據存儲的需求 07階段一:數據采集 07階段二:數據準備 08階段三:數據訓練 08階段四:數據推理 09階段五:數據歸檔 09AIGC場景下數據存儲的關鍵需求 10第三章AIGC場景下數據存儲的應對技術從場景需求到技術應對:數據存儲技術概述 11數據存儲的應對技術 11數據處理技術 13數據容納技術 13數據管理技術 15數據安全技術 15數據共享技術 16數據流動技術 16第四章AIGC數據存儲解決方案及案例AIGC數據存儲解決方案 18AIGC數據存儲經典案例 19案例一 19案例二 20案例三 22案例四 23第五章AIGC場景下數據存儲發(fā)展的未來趨勢與展望未來趨勢 24數據綠色存儲愈發(fā)成為關注的焦點 24數據安全存儲的重要性日益凸顯 24展望:最近技術發(fā)展趨勢 25AIGC催生新一代數據存儲架構 25AIGC加速數據存儲產業(yè)快速增長 26AIGC加速數據存儲標準完善 26前言軟件定義存儲成為數據基礎設施領域的關鍵技術。數字經濟時代,數據是數字經濟的新型生產要素,在作為勞動工具賦能其他生產要素的同時,數據還可以作為勞動對象展現(xiàn)本身的經濟價值。存儲設備是數據的最終物理載體,是行業(yè)、企業(yè)和用戶數據的保險柜。業(yè)務需求和計算技術的更新推動存儲設備向高擴展、高性能、快迭代的方向演進,軟件定義存儲憑借橫向節(jié)點擴展、性能近線性增長和軟硬件技術快速迭代的特點成為數據基礎設施領域的關鍵技術。分布式融合存儲是軟件定義存儲的發(fā)展趨勢。早期的軟件定義存儲,一套集群只能支撐一種數據的讀取和寫入,對外提供一種服務,數據存儲在單一介質中。隨著數字經濟的發(fā)展,一套作業(yè)流程往往包含不同的數據類型,跨集群進行數據處理無疑會增加用戶的操作復雜性。同時,一套作業(yè)采用多套存儲設備無疑會增加成本,只能將數據存儲在單一介質中的特性使用戶在數據存儲成本和效率之間不可兼得。立足于新時代數據存儲需求,基于多協(xié)議互通、多介質融合、多服務共享的分布式融合存儲將成為新的發(fā)展趨勢。AIGC具有廣闊的研究和應用前景。AI技術的快速革新極大地推進了AIGC的高速發(fā)展,其研究和應用亦被推廣到多個行業(yè)。據統(tǒng)計,AIGC在內容創(chuàng)作領域,可以將內容生成效率提升數倍至數十倍,降低人力成本高達50%以上。在廣告、游戲、影視等行業(yè),AIGC的應用不僅豐富了內容形式,還推動了行業(yè)的數字化轉型。未來,隨著技術的不斷進步,AIGC有望在更多領域實現(xiàn)突破,如教育、醫(yī)療、科研等,進一步拓寬其應用邊界。據預測,到2030年,AIGC的市場規(guī)模將達到數千億美元,成為推動全球經濟增長的重要力量。探討AIGC下的存儲應用具有十分重要的意義。當前,AIGC以其強大的創(chuàng)新能力和應用潛力,成為推動產業(yè)升級和經濟發(fā)展的重要力量。作為AIGC的核心支撐,數據存儲扮演著不可或缺的角色。數據存儲不僅為AIGC提供了海量的數據資源,還通過其高效、安全、智能的特性,為AIGC技術的創(chuàng)新和應用提供有力保障。因此,深入探討AIGC與數據存儲之間的關系,對于推動AIGC技術的進一步發(fā)展,以及實現(xiàn)數據價值的最大化,具有極其重要的意義。為全面分析AIGC與數據存儲的緊密關系,從數據存儲的角度揭示AIGC技術的內在邏輯和發(fā)展趨勢,我們推出《AIGC數據存儲技術研究報告》。在報告中,我們將深入探討AIGC場景下對數據存儲提出的新要求和新挑戰(zhàn),以及數據存儲對新要求和新挑戰(zhàn)的技術應對。同時,我們還將關注數據存儲技術的創(chuàng)新和發(fā)展,以期為AIGC技術的進一步應用和推廣提供有益的參考和啟示。在這個充滿變革與機遇的時代,AIGC與數據存儲的融合發(fā)展必將開啟新的篇章,為我們帶來更加豐富的應用場景和更加廣闊的發(fā)展空間。讓我們共同期待并見證這一領域的繁榮與進步。第一章AIGC加速數據存儲產業(yè)智能變革第一章AIGC加速數據存儲產業(yè)智能變革AIGC產業(yè)呈現(xiàn)創(chuàng)新發(fā)展態(tài)勢 1.1.1AIGC產業(yè)邁入發(fā)展新階段 縱觀AIGC(生成式人工智能)產業(yè)的發(fā)展歷程,大致可以分為三個階段,即早期階段、沉淀階段和發(fā)展階段。AIGC的早期階段可以追溯到20世紀50年代,人們開始探索如何利用人工智能(AI)技術來生成各種類型的內容。然而,受制于當時的科技水平,AIGC的應用主要停留在實驗室中。20世紀90年代中期至21世紀10年代中期,AIGC發(fā)展進入沉淀階段。這一階段,AIGC多數是通過預先設定的規(guī)則和算法來生成內容。例如,在自然語言處理領域中,研究人員嘗試利用規(guī)則和語法知識來生成語句,實現(xiàn)新聞稿件的自動化生成。同樣地,由于規(guī)則和模板的缺陷,生成的內容往往缺乏個性化和創(chuàng)意性。隨著人工智能技術的進步和深度學習算法的發(fā)展,從21世紀10年代中期至今,AIGC進入了快速發(fā)展階段,其大規(guī)模應用逐漸成為現(xiàn)實,開始出現(xiàn)在新聞、廣告、音樂、電影、游戲等多個領域中。生產的內容更加逼真、富有創(chuàng)意和個性化。同時,一些新興的技術框架,如生成對抗網絡(GAN),也為AIGC產業(yè)的發(fā)展提供了新的動力。2021年底,隨著ChatGPT的嶄露頭角,AIGC進入了大規(guī)模爆發(fā)時代。ChatGPT的強大表現(xiàn)進一步證明了AIGC技術在內容生成領域的巨大潛力,促使越來越多的企業(yè)和研究機構投入到AIGC產業(yè)中,助推AIGC全產業(yè)鏈的成形,涵蓋了數據層、算力層、算法/模型層和商業(yè)化應用層等多個環(huán)節(jié)。其中,產業(yè)鏈上游主要包括數據提供、算法模型訓練等環(huán)節(jié),為AIGC提供基礎支撐;中游則是AIGC技術提供商,他們專注于開發(fā)和優(yōu)化AIGC技術,為下游應用提供技術支持;下游則是各種AIGC應用場景,如媒體、娛樂、教育、廣告等,這些領域正在廣泛采用AIGC技術,實現(xiàn)內容創(chuàng)作的智能化和高效化。 1.1.2AIGC產業(yè)支持政策全面布局 AIGC產業(yè)的發(fā)展不僅得益于人工智能技術的進步,與政府政策支持也是密不可分的。近五年來,政府出臺了一系列政策,鼓勵人工智能技術的研發(fā)和應用,為AIGC產業(yè)的發(fā)展提供了良好的環(huán)境?,F(xiàn)將國家各部委支持、指導AIGC產業(yè)發(fā)展的主要相關政策梳理如下:表1-1AIGC產業(yè)支持政策時間發(fā)布單位政策主要內容政策類型2024.01工業(yè)和信息化部等七部門《關于推動未來產業(yè)創(chuàng)新發(fā)展的實施意見》和培育高潛能未來產業(yè)。支持類2024.01工業(yè)和信息化部指導類2023.08工信部等四部門工程實施方案(2023-2035年)》術等8大新興產業(yè),以及生成式人工智能等9大未來產業(yè),統(tǒng)籌推進標準的研究、制定、實施和國際化。支持類2023.07國家網信辦等七部門《生成式人工智能服務管理暫行辦法》勵采用安全可信的芯片、軟件、工具、算力和數據資源。規(guī)范類2023.01工業(yè)和信息化部等十六部門《關于促進數據安全產業(yè)發(fā)展的指導意見》力水平。指導類2022.08科技部《關于支持建設新一代人工智能示范應用場景的通知》礎較好的人工智能應用場景,加強研發(fā)上下游配合與新技術集支持類2022.07科技部等六部門《關于加快場景創(chuàng)新以人工智能高水平應用促進經濟高質量發(fā)展的指導意見》術應用場景,促進智能經濟高端高效發(fā)展。指導類2021.07工業(yè)和信息化部三年行動計劃(2021-2023年)》支持類2020.09科技部《國家新一代人工智能創(chuàng)新發(fā)展試驗區(qū)建設工作指引(修訂版)》(以下簡稱試驗區(qū))批可復制可推廣的經驗,引領帶動全國人工智能健康發(fā)展。指導類2020.07國家標準化管理委員會等五部門《國家新一代人工智能標準體系建設指南》指導類AIGC加速企業(yè)數據存儲創(chuàng)新發(fā)展目前,AIGC場景下存儲主要以分布式存儲和云存儲為主。很多企業(yè)或者組織在面對高昂的基礎設施成本,選擇使用云存儲以存儲AIGC的各類數據,特別是垂直行業(yè)的大模型構建,由于不需要大規(guī)模集群,更多的是選擇單一的云存儲方式。但是AIGC作為一種能夠自主生成新內容的智能系統(tǒng),在其作業(yè)流程中涉及數據采集、準備、訓練、推理、歸檔不同階段,在其應用中涵蓋了從文本創(chuàng)作、圖像生成到音樂和視頻制作等多個領域,單一的存儲架構很難滿足整個AIGC的存儲需求。為了應對AIGC場景下帶來的存儲領域需求的挑戰(zhàn),國內外存儲廠商紛紛加大研發(fā)力度,競相探索AIGC場景下的數據存儲技術的最前沿。聚焦于國際領先的DataDirectNetworks(DDN)與國內某存儲廠商,作為行業(yè)內的代表性企業(yè),其在存儲技術創(chuàng)新方面分別展現(xiàn)出獨特的優(yōu)勢。DDN作為全球領先的大數據存儲供應商,其A3I(Accelerated,Any-ScaleAI)解決方案是專為AI和深度學習設計的,它針對數據密集型工作負載提供了前所未有的靈活性和高性能。滿足從大型企業(yè)、服務提供商、研究機構到政府機構的廣泛需求,其優(yōu)勢主要體現(xiàn)在以下幾個方面:第一,并行架構的性能和效率。DDN的A3I解決方案采用真并行架構,確保在任何規(guī)模下都能提供高性能、高效率、GPU利用率和存儲容量;第二,全面的深度學習加速。A3I解決方案能夠同時為所有工作負載提供實時加速,確保數據密集型任務能夠連續(xù)且高效地執(zhí)行。第三,無縫部署和集成。A3I解決方案易于部署,是預配置、即插即用的,為AI工作負載和GPU支持解決方案提供了最強大的擴展平臺。第四,靈活的容量擴展。DDN的存儲平臺提供了靈活的容量擴展選項,支持從少量TB到幾十PB的擴展,滿足不同企業(yè)的需求。第二章AIGC場景對數據存儲的挑戰(zhàn)第二章AIGC場景對數據存儲的挑戰(zhàn)AIGC業(yè)務階段概述 2.1.1AIGC整體架構 在AIGC的發(fā)展浪潮中,數據的按需流動和存儲是支撐這一劃時代技術變革的關鍵基石之一。從數據的視角來看,AIGC數據的流動環(huán)節(jié)通常分為:數據采集、數據準備、數據訓練、數據推理、數據歸檔,這五個環(huán)節(jié)構成了AIGC數據處理的完整生命周期。橫向的數據流動各環(huán)節(jié)是分析存儲需求的著力點,而縱向的系統(tǒng)架構和各模塊作用及關系是厘清存儲需支撐對象的出發(fā)點。AIGC整體架構可歸納成應用、模型、數據、平臺、基礎五層以及每層的若干子模塊。通過這種分解期望能夠更清晰地理解存儲在AIGC整體架構中的地位,使得設計和優(yōu)化的存儲解決方案更具針對性。AIGC整體框架如下圖所示。數據采集數據準備數據訓練數據推理數據歸檔數據服務數據分析數據清洗結構化數據整合數據服務數據分析數據清洗結構化數據整合向量數據庫數據源C 數據源流式處理非結構化數據數據源F數據治理NFSCIFSHDDHDFS FTPHttpSSDNFSS3 SwiftTape/BD數據總線數據源A客戶端數據源E數據源B網絡資源池存儲資源池計算資源池數據底座安全服務網關服務務務數據調度數據集成定制應用部署推理調優(yōu)訓練下載檢索模型智慧醫(yī)療自動駕駛智能客服生物識別法律咨詢金融量化智慧網點應用SaaSMaaSDaaSPaaSIaaS數據集數據集數據集數據集數據集數據集數據集數據集數據集數據集數據集元數據數據數據集數據集數據集數據集數據集數據集數據集數據集數據集數據集數據集元數據對象服務視頻服務塊服務文件服務平臺對象服務視頻服務塊服務文件服務基礎圖2-1AIGC整體架構圖如圖2-1所示,AIGC整體架構分為五層,自上而下分別是:應用層SaaS、模型層MaaS、數據層DaaS、平臺層PaaS以及基礎設施層IaaS。應用層SaaS是AIGC技術產生價值的窗口,模型根據輸入數據生成新的內容;模型層MaaS是AIGC的核心環(huán)節(jié),主要通過大量的數據來訓練、驗證模型并支撐模型的運轉;數據層DaaS主要分為數據服務、數據集成、數據治理三個部分,其中數據服務主要負責數據的處理和高質量數據集的生成,數據集成主要對數據進行匯集,數據治理主要對各個來源的數據集進行統(tǒng)一管理、安全檢查等;平臺層PaaS對數據、計算、網絡和存儲資源進行調度,例如網關服務、數據庫服務、多租戶管理、鑒權認證,其中對于存儲的服務主要有文件服務、對象服務、塊服務和視頻服務等;基礎設施層IaaS構建了AIGC的基礎設施底座,包括計算資源(CPU、GPU、NPU)、介質資源(磁帶、HDD、SSD、內存等)、網絡資源(TCP/IP、In?niBandswitchA等)。在AIGC的整體架構中,存儲隨著數據流動而存在。如圖2-1所示,存儲主要在數據層、平臺層和基礎層,同時對應用層和模型層起支撐作用。由此可見,在AIGC整體架構中,存儲起著至關重要的作用。當前得益于數據量的快速增長和摩爾定律的快速發(fā)展,在更多的場景下,用戶更傾向于借助強大的算力以及數據驅動模型進步。而人工智能場景也逐漸從以模型為中心向以數據為中心轉變,算力、算法和數據已經成為推動AIGC發(fā)展的三駕馬車。就人工智能發(fā)展趨勢和實際應用而言,在AIGC場景中,存儲不再是簡單的數據容器,而是推動AIGC發(fā)展的核心組件。 2.1.2AIGC作業(yè)流程下的存儲數據流動 從數據的視角來看,數據采集、數據準備、數據訓練、數據推理和數據歸檔這五個階段緊密相連,共同支撐AIGC的整體業(yè)務流程。存儲系統(tǒng)在每個階段中都扮演著至關重要的角色,提供不同側重的支撐,以確保AIGC各層各業(yè)務模塊能夠高效、安全的運行。數據采集是AIGC流程的起點,它涉及從各種來源收集原始數據,這一過程要求存儲系統(tǒng)具備高吞吐量、可擴展性、低延遲高實時性、接口多樣性,以應對海量數據的及時收集。數據準備階段要求存儲系統(tǒng)能夠高效讀寫和靈活組織,支持數據清洗、轉換和規(guī)范化以適應復雜的數據處理任務。在訓練階段,存儲系統(tǒng)需提供強大的I/O性能和充足的可擴展的存儲空間,以支持大規(guī)模數據集的高效處理。數據推理階段對存儲系統(tǒng)的穩(wěn)定性和延遲響應速度要求極高,以保證內容生成的連續(xù)性和流暢性。數據歸檔是數據首輪生命周期的終點和次輪的起點,它涉及實現(xiàn)對數據進行長期有效存儲和經濟性的平衡。在傳統(tǒng)設計策略中,數據流動通常遵循一個線性且分離的過程,每個階段在物理或邏輯上相對獨立:數據采集階段通常照顧數據來源側的傳輸方式和協(xié)議,將采集的數據遷移到獨立的預處理系統(tǒng)上,進行清洗、格式化和轉換;然后將預處理后的數據遷移到訓練集群上,這不僅增加了數據傳輸的時間,還可能因為數據傳輸的延遲影響模型訓練的效率;最后模型訓練完成后,會按業(yè)務需求發(fā)布到數據推理生成階段,并定期將數據從生產環(huán)境遷移到備份或歸檔存儲中。這種策略涉及到多次數據移動,耗時增加,并提高業(yè)務系統(tǒng)管理存儲的復雜性和出錯的風險,可能導致數據一致性和安全性問題。在基于統(tǒng)一數據底座的設計策略中,存儲數據流動是一個連續(xù)的、無縫的過程,每個階段僅是邏輯上進行區(qū)分,在底層都是同一份數據以減少數據的移動和復制。數據采集一方面提供數據來源側的傳輸方式和協(xié)議,另一方面直接與后續(xù)的預處理階段統(tǒng)一考慮數據布局與存儲管理方式,在采集時就已經準備好進行下一步的處理;數據準備、數據訓練、數據推理生成等后續(xù)階段均能夠根據規(guī)劃和授權無需拷貝直接訪問數據;數據歸檔是一個自動化的過程,以減少業(yè)務管理的復雜度并平衡好數據長期有效存儲和經濟性存儲。高速并行存儲系統(tǒng)全閃存儲高速并行存儲系統(tǒng)全閃存儲多協(xié)議存儲MetadataserversStorageservers點 AI計算節(jié)點點 胖節(jié)點 可視化節(jié)點用戶&管理員10Gb以太管理網絡100Gb高速HDR100IB計算網絡圖2-2AIGC場景下存儲架構圖AIGC各階段對數據存儲的需求 2.2.1階段一:數據采集 數據采集階段是整個AIGC流程的基礎,也是決定后續(xù)數據質量、模型訓練效果及最終生成內容質量的重要環(huán)節(jié)。以下是對AIGC大模型數據采集階段存儲需求的詳細闡述。(1)大容量:數據采集階段面臨的是海量數據的收集與處理。隨著互聯(lián)網的快速發(fā)展,數據呈現(xiàn)爆炸式增長,AIGC系統(tǒng)需要處理的數據量動輒達到PB級別甚至EB級別。這些數據涵蓋文本、圖片、視頻、音頻等多種類型,每一種類型的數據都需要大量的存儲空間。因此,存儲系統(tǒng)必須具備基礎的大容量、可擴展的特點,以應對AIGC的數據存儲空間需求。(2)多協(xié)議:數據采集階段涉及的數據來源多種多樣,包括互聯(lián)網、企業(yè)內部數據庫、物聯(lián)網傳感器等。這些數據往往通過不同的協(xié)議進行傳輸和存儲,如HTTP、FTP、RTSP議,以便與各種數據源順暢對接,實現(xiàn)數據的無縫采集和傳輸。 2.2.2階段二:數據準備 AIGC大模型的數據預處理階段,涉及對海量原始數據的清洗、整理、轉換和增廣等操作,以生成適用于模型訓練的高質量數據集。因此,存儲系統(tǒng)需要滿足以下關鍵需求:(1)高I/O:數據預處理過程中,存儲系統(tǒng)需支持高速的數據讀寫操作,以減少數據加載和處理的時間,提高整體預處理效率。特別是對于大規(guī)模數據集,快速的數據訪問能力尤為關鍵。(2)高安全:數據預處理是數據從原始狀態(tài)到訓練輸入的關鍵步驟,任何數據丟失或損壞都可能對模型訓練產生負面影響。因此,存儲系統(tǒng)需提供可靠的數據保護機制,如數據備份、冗余存儲和故障恢復等,以確保數據的安全性和完整性。(3)易管理:數據預處理涉及多種操作,如數據清洗、格式轉換、特征提取等,這些操作往往需要根據具體的數據特性和業(yè)務需求進行調整。存儲系統(tǒng)應提供靈活的數據管理能力,支持數據的靈活組織、檢索和更新,以滿足數據預處理過程中的多樣化需求。 2.2.3階段三:數據訓練 在AIGC大模型的數據訓練階段,存儲系統(tǒng)的帶寬、容量及IOPS直接影響到模型訓練的效率、穩(wěn)定性和最終效果。以下是針對AIGC大模型數據訓練階段對存儲需求的詳細說明:(1)高I/O、低延遲:數據訓練階段需要頻繁地從存儲系統(tǒng)中讀取大量數據,用以更新模型的參數和權重。因此,存儲系統(tǒng)必須具備高性能的讀寫能力,如在萬卡集群、萬億參數大模型的快速訓練時,需要存儲提供TB級的帶寬,小模型的訓練推理則要求存儲系統(tǒng)提供超過百萬級的IOPS計算資源中,減少I/O等待時間,提高訓練效率。(2)快速數據檢索與索引:為了提高數據訓練的效率,存儲系統(tǒng)需要具備快速的數據檢索和索引能力。這有助于快速定位到需要的數據塊,減少不必要的數據讀取和處理時間。為了實現(xiàn)這一目標,存儲系統(tǒng)可以采用高效的索引結構和算法,如哈希表、B樹等,以支持快速的數據檢索和定位。(3)高并發(fā):AIGC大模型的訓練過程往往采用并行處理和分布式訓練的策略,以提高訓練速度和效率。存儲系統(tǒng)需要支持這種并行和分布式的工作模式,確保多個計算節(jié)點能夠同時訪問和修改存儲系統(tǒng)中的數據,而不會產生數據沖突或不一致。這通常要求存儲系統(tǒng)具備分布式鎖、數據同步和一致性控制等機制。(4)易管理:在數據訓練階段,存儲系統(tǒng)還需要提供靈活的數據管理和優(yōu)化功能。這包括數據壓縮、去重、緩存管理、冷熱數據分離等策略,以優(yōu)化存儲資源的利用率和性能。同時,還需要支持數據的動態(tài)遷移和平衡,以應對訓練過程中計算資源和存儲資源的變化。 2.2.4階段四:數據推理 在AIGC大模型的數據推理階段,存儲系統(tǒng)直接影響著模型推理的響應速度、效率以及用戶體驗。以下是針對AIGC大模型數據推理階段對存儲需求的詳細闡述:(1)低時延:數據推理階段要求存儲系統(tǒng)能夠快速響應數據請求,以支持模型在短時間內完成復雜計算并生成結果。因此,毫秒級或亞毫秒級的低時延的數據訪問是首要需求。這要求存儲系統(tǒng)具備高效的數據檢索和傳輸機制,能夠快速定位并傳輸所需數據至計算資源,減少等待時間,提高推理效率。(2)高并發(fā):在實際應用場景中,AIGC大模型往往需要同時處理多個推理請求,特別是在高并發(fā)場景下,(3)高安全:在數據推理階段,保持數據的一致性和準確性至關重要。任何數據的微小差異都可能導致推理結果的顯著變化,從而影響用戶體驗和應用效果。因此,存儲系統(tǒng)需要提供可靠的數據保護機制,確保數據在傳輸、處理和存儲過程中不被篡改或損壞。同時,還需要支持數據校驗和驗證功能,以確保推理過程中使用的數據是準確無誤的。(4)多協(xié)議:AIGC大模型的數據推理可能涉及多種類型的數據和復雜的數據結構,如文本、圖像、視頻、音頻等。因此,存儲系統(tǒng)需要提供靈活的數據訪問模式,支持多種數據格式和訪問協(xié)議,以滿足不同推理場景的需求。此外,還需要支持數據的快速轉換和預處理,以便在推理過程中快速提取和使用有效信息。 2.2.5階段五:數據歸檔 在AIGC大模型數據的生命周期中,數據歸檔階段是一個不可忽視的重要環(huán)節(jié)。此階段旨在將模型訓練、推理等過程中產生的大量數據,以及模型本身和相關的元數據,安全、有序地存儲起來,以便未來可能的查詢、審計、復用或進一步優(yōu)化。針對AIGC大模型數據歸檔階段,存儲系統(tǒng)需滿足以下關鍵需求:(1)高可靠:數據歸檔的首要目標是確保數據的長期保存與耐久性。這意味著存儲系統(tǒng)必須具備高可靠性和長壽命,能夠抵御物理損壞、電源故障、自然災害等風險,確保數據不會因時間流逝或外部環(huán)境變化而丟失。此外,還需定期執(zhí)行數據完整性檢查和修復,以保證數據的持續(xù)可用性。(2)高擴展:AIGC大模型在訓練、推理等階段產生的數據量巨大,且隨著模型的不斷迭代和升級,數據量還將持續(xù)增長。因此,存儲系統(tǒng)必須具備大容量和可擴展性,能夠容納不斷增長的歸檔數據,并支持靈活的擴容操作,以應對未來可能的數據增長需求。(3)易管理:為了提高數據歸檔的效率和查詢的便捷性,存儲系統(tǒng)應支持數據的分類存儲和索引功能。通過對歸檔數據進行合理的分類和索引,可以方便用戶快速定位到所需數據,提高數據利用價值。同時,分類存儲也有助于優(yōu)化存儲資源的使用,提高存儲效率。(4)高效能:在保障數據安全和長期保存的前提下,存儲系統(tǒng)還需考慮成本效益和能效問題。通過采用高效的存儲技術和優(yōu)化存儲資源的使用,可以降低存儲成本,提高存儲系統(tǒng)的能效比。同時,合理的存儲規(guī)劃和管理策略也有助于降低數據歸檔的長期運營成本。AIGC場景下數據存儲的關鍵需求如下圖所示,AIGC的各階段對存儲提出了多方面的需求,對以上需求進行歸納總結,可以分為存儲對數據數據流動能力跨介質、跨設備流動長期保存和耐久性

數據處理能力流動處理AIGC流動處理AIGC存儲安全管理數據共享能力 共享多協(xié)議互訪互通,靈活數據訪問數據安全能力可靠數據保護保證數據的一致性和準確性

容納 數據容納能力橫向擴展大容量存儲數據管理能力靈活數據管理并行處理,分布式訓練圖2-3AIGC場景下數據存儲關鍵需求圖在AIGC場景下,數據的主要類型為非結構化數據,數據呈現(xiàn)大容量的特點,不僅需要存儲具備高性能,還需要有極佳的擴展性,能對數據進行長周期存儲。基于以上分析,以上六種能力均需要具備,才能滿足AIGC場景下數據存儲的多樣化需求。第三章AIGC場景下數據存儲的應對技術第三章AIGC場景下數據存儲的應對技術從場景需求到技術應對:數據存儲技術概述在第二章中,我們詳細分析AIGC場景下從數據采集到數據歸檔的各個階段對存儲系統(tǒng)的特定需求。為了方便分析,對第二章中所提需求做進一步整理,對整個AIGC作業(yè)流程的需求分為軟件和硬件兩個層面。在硬件層面上,為滿足海量數據存儲需求,存儲需要具有大容量、可擴展,同時在歸檔階段還需要存儲可長期保存數據,具有耐久性。在軟件功能上,為滿足多模態(tài)數據存儲需求,存儲需要支持多種協(xié)議,同時,為滿足高性能場景的存儲需求、提升大模型訓練效率,存儲需要具有高性能、高并發(fā)、低延遲和快速數據檢索的功能,支持并行數據處理和分布式訓練。此外,在整個流程中,數據管理和數據治理也是非常重要的需求。在面對海量數據存儲及其復雜需求時,分布式存儲與備份歸檔的組合方案展現(xiàn)出了獨特的優(yōu)勢,能夠全面滿足這些要求。分布式存儲以其卓越的擴展性和大容量的特性,為海量數據的持續(xù)增長提供了堅實的基礎。它能夠根據實際需求無縫擴展存儲資源,確保數據的靈活性和可用性,滿足不斷增長的數據存儲需求。同時,分布式存儲能通過優(yōu)化算法和架構設計來提升性能,滿足高性能存儲需求。在數據歸檔階段,備份歸檔方案的重要性尤為凸顯。它確保了重要數據能夠長期保存,并且具備高度的耐久性,有效應對數據丟失或損壞的風險。不僅保護了數據的完整性,還通過合理的存儲策略和生命周期管理,優(yōu)化了存儲資源的使用效率。在數據管理和數據治理方面,通過集成的數據管理工具,可以實現(xiàn)數據的集中管理和有效治理,確保數據的質量、安全性和合規(guī)性。無論是分布式存儲,還是備份歸檔,都是以數據存儲的技術發(fā)展為基礎的,厘清AIGC場景下復雜數據存儲需求的應對技術是必然要求,也是本研究報告重點討論的內容。數據存儲的應對技術AIGC場景下對數據存儲的多樣化需求促使數據存儲技術進一步發(fā)展以適應其要求,具體來看,AIGC場景下數據存儲的應對技術可以從六個維度進行論述,分別是:數據處理技術、數據容納技術、數據管理技術、數據安全技術、數據共享技術和數據流動技術。 3.2.1數據處理技術 (1)數控分離AIGC應用在數據處理階段對存儲系統(tǒng)的訪問性能有極高的要求,包括數據采集、訓練、推理階段的海量小RDMARDMA客戶ECI/O密集讀寫和大文件讀寫等場景。存儲系統(tǒng)采用數控分離架構,通過將I/O的控制面和數據面解耦合,控制面主要負責管理數據的屬性信息,如位置、大小等,通過優(yōu)化邏輯控制和數據管理算法來提高存儲系統(tǒng)的訪問效率和數據一致性。而數據面則直接負責數據的讀寫操作。將數據管理流和數據傳輸流進行分離,分別在不同的I/O路徑進行處理,各存儲節(jié)點在收到數據訪問請求后,即可與客戶端之間直接建立連接發(fā)起數據傳輸,大幅降低了數據傳輸流在節(jié)點間東西向的轉發(fā)操作,可極大地降低由于數據在存儲集群節(jié)點間轉發(fā)所帶來的網絡和系統(tǒng)處理開銷,提高系統(tǒng)訪問性能。客戶EC控制流控制流數據傳遞數控分離節(jié)點1節(jié)點2節(jié)點3節(jié)點N圖3-1數控分離架構示意圖(2)內核親和力調度在當前的AI基礎設施平臺中,計算服務器配置非常高,更高性能的CPU和更多的插槽數帶來了NUMA(Non-UniformMemoryAccess)節(jié)點數據的增加。在多核處理器環(huán)境下,會產生大量的跨NUMA問。如圖3-3所示,在未經過NUMA均衡的存儲系統(tǒng)中,存儲的緩存空間集中在單個NUMA節(jié)點內存內。當請求量增大時,所有其他NUMA節(jié)點的CPU核的數據訪問均集中在單個Socket內,造成了大量跨Socket、跨NUMA訪問。這不僅導致了CPU核的超負荷運載和大量閑置,還使得單次遠端NUMA節(jié)點訪問造成的微小時延累積,進一步增大整體時延。為了降低跨NUMA訪問帶來的時延,通過內核親和力調度技術,在數控分離架構下使內核客戶端可自主控制數據頁緩存分配策略并主動接管用戶下發(fā)的I/O任務。這種方式能夠更加靈活地實現(xiàn)各類客戶端內核態(tài)到遠端存儲池的數據移動策略。其中,針對不同的I/O線程進行NUMA感知優(yōu)化,將業(yè)務讀線程與數據自動分配到相同的NUMA節(jié)點上,使所有數據均在本地NUMA內存命中,有效減少了高并發(fā)下NUMA節(jié)點間數據傳輸,降低了I/O鏈路時延并提升內存訪問效率,保證各NUMA節(jié)點的負載均衡。pppppppaapppppppaaaaaaaagggggggeeeeeeeeSocket0NUMANode1pppppppppaaaaaaaaaagggggggggeeeeeeeeeeNUMANode2pppppppppaaaaaaaaaagggggggggeeeeeeeeeeSocket1NUMANode3pppppppppaaaaaaaaaagggggggggeeeeeeeeee文件系統(tǒng)內核客戶端15141312GPU111098GPUpagepageNUMANode03210GPU7654GPU遠程存儲系統(tǒng)圖3-2NUMA均衡效果示意圖遠程存儲系統(tǒng)(3)小文件聚合小文件聚合也是AIGC場景下實現(xiàn)文件性能加速的重要手段。具體來看,第一,寫入過程。首先,小文件寫入時先進入到快速層,介質是快于HDD的NVME或持久內存,配置的EC或副本模式也更快速,對數據進行落盤,并記錄元數據;然后,文件拼接后形成4MB-10MB的大文件落向HDD層,如果聚合模塊中的數據需要釋放時,更改元數據文件,使其數據索引到HDD位置,整體過程根據文件的尺寸不同提升小文件5-10倍的性能。第二,讀出過程。根據數據所在位置分別從聚合層和HDD層讀取,EC算法支持從單分片中讀取,讀取通常不受影響,同時并發(fā)性能也會隨之提高。第三,GC過程。如果數據刪除過多或產生空洞,后臺需要進行GC的數據整理。GC過程的常用方法有兩種:一是搬移數據,搬移數據可以重新排列得到更多的可用空間利用率,但是大量的搬移則會占用帶寬和資源,適用于刪除一次就刪掉了大量數據且需要重新排布的數據較少的場景;二是對空洞管理的方案,根據空洞的管理進行聚合,性能比較穩(wěn)定,但是磁盤空間利用率低,適用于少量刪除或整體文件尺寸比較平均一致的場景。HDDHDD寫4NVMEECCache(聚合模塊)3File大文件直接寫21小文件File大文件File圖3-3小文件聚合流程圖3.2.2數據容納技術(1)高密硬件設計數據存儲中的高密硬件設計包括高密硬盤設計、免工具設計、高性能接口、高效散熱設計、簡易維護設計等。分開來看,高密硬盤布局可以在有限的機箱空間(如4U或5U高度)內,通過優(yōu)化硬盤布局和排列方式最大化硬盤數量;免工具設計,旨在方便拆卸,大大縮短運維時間成本,如HDD硬盤框抽屜設計,支持單獨抽出維護(內滑軌+坦克鏈);高性能接口技術,如PCIe4.0轉SAS4.0、PCIe5.0SI設計等,能夠支持更高的帶寬和更低的延遲,滿足AIGC等高性能計算場景的需求;高效散熱設計,如優(yōu)化氣流通道、使用高性能風扇和散熱器,以及通過智能溫控技術配合先進的風冷系統(tǒng),可以實現(xiàn)最佳工作環(huán)境,保障系統(tǒng)穩(wěn)定運行;簡易維護設計,如BMC技術,技術人員可以通過Web管理界面、故障診斷LED等指引設備,并可通過UID指示燈標記有故障的機器,提高系統(tǒng)可用性。(2)大容量存儲介質在大容量存儲介質方面NAND的崛起為大容量存儲介質的發(fā)展提供了契機。NAND閃存每個存儲單元可記錄4個位的數據,相比傳統(tǒng)的SLC、MLC、TLC,具有更高的數據密度,能夠在相同空間內存儲更多的數據。由于技術的快速發(fā)展,當前NVMeSSD最大容量已經超過百TB,大大提升了高速存儲介質的存儲密度。同時,X-NAND等關鍵技術的誕生,也緩解了采用ALC介質所帶來的性能下降問題,提升TLC/QLC的性能,進而加速QLC的普及。而在數據的備份歸檔階段,HDD仍然是主要的選擇之一,在HDD內部,通過改進磁記錄技術,如采用垂直磁記錄(PMR)和疊瓦式磁記錄(SMR)技術,可以增加磁盤表面的存儲密度。對于以讀取為主的冷數據存儲場景,這種介質能夠在同樣的盤片數量下實現(xiàn)更大的存儲容量,滿足AIGC系統(tǒng)中大量歷史數據和模型參數的存儲需求。(3)數據壓縮和重刪數據壓縮本質是通過使用算法和技術減少數據存儲或傳輸過程中所占空間或帶寬的過程。傳統(tǒng)的數據壓縮算法包含了無損壓縮(如Hu?man編碼、LZ系列編碼等)和有損壓縮(分形壓縮、小波壓縮等),技術很難滿足AIGC場景下量大、類多、速度快的數據的壓縮需求,新的數據壓縮技術順勢而生?;旌狭袎嚎s(HCC)技術以塊的形式組織數據,同時利用行存儲和列存儲的方法存儲數據。數據一旦被定位,一個行集合中的列值會被分組到一起,然后將其進行壓縮,待壓縮完成后數據會被存儲到壓縮單元中。利用HCC技術的倉庫壓縮和存檔壓縮都取得了高效的壓縮比,其中,倉庫壓縮在典型情況下可以提供10:1的壓縮率,存檔壓縮比可以達到15:1,極大的節(jié)省了存儲空間。此外,存儲系統(tǒng)支持基于固定長度數據塊或可變長度數據塊的重復數據判斷和刪除機制,通過SHA256等算法計算數據指紋表記錄數據特征,當有相同指紋特征的數據寫入時只保留一份數據,將重復數據刪除,其中基于可變長度數據塊計算的指紋信息更加靈活和精確,可支持更高的數據重刪率。通過數據重刪技術可在重復數據占比較高的數據類型存儲時顯著節(jié)省存儲空間。 3.2.3數據管理技術 (1)全局文件系統(tǒng)在AIGC數據采集階段得到的數據來源廣泛、格式多樣,存儲需要提供不同的接入協(xié)議,在數據訓練和數據推理階段產生的高價值數據需要在溫冷存儲介質中長期保存,以及在異構存儲或跨地域存儲系統(tǒng)之間遷移和保存。大規(guī)模AIGC訓練集群可能需要分布在不同地域的多個智算中心的集群間進行數據協(xié)作,分享某個階段訓練完成的數據,通過存儲系統(tǒng)的全局文件系統(tǒng)管理能力,可支持數據在跨地域的存儲系統(tǒng)之間以及不同存儲介質之間自動流動,并支持按照設置的策略對過期數據自動刪除,實現(xiàn)數據高效管理。同時全局文件系統(tǒng)支持基于全閃存介質構建緩存加速層,提高系統(tǒng)整體的訪問性能。存儲系統(tǒng)管理本地存儲和后端冷存儲介質中的全量數據及元數據,采用全局統(tǒng)一的元數據管理機制,全局文件系統(tǒng)與后端存儲之間的元數據同步可采用快照或日志方案??煺辗桨竿ㄟ^snapdi?inode列表,再遍歷讀取每個inode的詳細元數據后對比元數據的差異,將差異部分進行同步更新。日志方案則需記錄每次元數據變更的日志,通過重放日志的方式在另一套存儲系統(tǒng)中將元數據構建出來,實現(xiàn)元數據的同步。從而保證全局文件系統(tǒng)與后端存儲之間元數據的一致性。通過全局元數據共享技術構建全局統(tǒng)一命名空間,對外提供統(tǒng)一的數據視圖,可視化呈現(xiàn)熱冷數據的分布,檢索系統(tǒng)任意位置的數據并進行訪問,在高速池上實現(xiàn)海量百億級文件秒級檢索。 3.2.4數據安全技術 (1)故障恢復故障恢復技術通過多副本和糾刪碼算法實現(xiàn)數據的冗余保護,這與中國傳統(tǒng)醫(yī)學中的邏輯理念不謀而合,即“治已病”。存儲系統(tǒng)的K+M糾刪碼級別有:K+1、K+2、K+3和K+4,其中,K代表數據塊的數量機柜級或節(jié)點級的故障。只要系統(tǒng)中同時故障的節(jié)點數不超過M,系統(tǒng)就可以持續(xù)提供服務。通過數據重構過(2)故障預測與故障恢復不同,故障預測是要對可能發(fā)生的故障進行精準預測來實現(xiàn)對數據保護,即“治欲病”。存儲SSD和HDD硬盤的健康狀態(tài)參數進行周期性收集分析,結合硬盤的失效模型對SSD壽命和HDD盤故障給出精確的預測結果,保障存儲系統(tǒng)長期穩(wěn)定運行。(3)數據安全防護故障預測、故障恢復和數據安全防護構成了對數據安全的全方位保護體系,數據安全防護更強調在“治未病”中的保護作用,通過數據加密和防病毒技術實現(xiàn)數據保護。具體來看,數據加密是指存儲系統(tǒng)支持數據傳輸加密和數據存儲加密技術,使數據在傳輸過程到寫入落盤的全過程都保持密文狀態(tài),防止數據被竊取篡改。對敏感數據的訪問擁有認證、授權或加密機制,對于認證憑據的安全存儲,在不需要還原明文的場景下,使用不可逆算法加密。通過加密機制確保了即使非法竊取物理磁盤也無法獲取實際數據,保證非法途徑無法獲取明文數據。在讀取數據時通過加密密鑰解密后返回給客戶端,保證數據在解密后內容不發(fā)生變化。加密算法支持標準AES加密算法及國密SM4算法等,滿足客戶不同的加密要求。防病毒技術的實現(xiàn)主要通過對系統(tǒng)讀寫IO的實時捕獲并進行IO行為特征分析,與病毒庫樣本對比校驗,系統(tǒng)可發(fā)現(xiàn)正常的IO讀寫行為與勒索軟件/惡意軟件的行為差異,及時偵測出異常訪問行為,將存疑文件及時隔離并上報告警。另外也可通過機器學習模型,對未和病毒庫匹配的可疑IO行為并結合已知病毒樣本的特征進行分析,提高病毒攔截的準確率,確保數據安全。 3.2.5數據共享技術 (1)多協(xié)議融合互通推理過程不同階段的重復存儲,并支持數據的跨協(xié)議、跨區(qū)域、跨系統(tǒng)調度能力,提高系統(tǒng)的數據處理效率。議不同造成的數據拷貝,極大提高數據訪問和處理效率。 3.2.6數據流動技術 (1)數據分層單一形態(tài)的存儲已無法同時滿足用戶對于存儲性能、存儲容量和存儲成本的需求,可通過數據分級功能實現(xiàn)在兼顧性能和成本的雙重需求下對數據進行分類管理和存儲。文件分級包括分級遷移和分級刪除。根據系統(tǒng)中文件大小、類型、路徑、存放時間等元數據屬性,將滿足用戶所設置分級策略的文件分別遷移到不同性能存儲介質的存儲池中,或實現(xiàn)數據的自動刪除,從而實現(xiàn)系統(tǒng)文件的生命周期管理。數據分層管理基于數據的訪問頻率、重要性以及其他相關屬性,通過機器學習、數據挖掘等技術,建立數據訪問頻率預測模型,準確識別出熱數據和冷數據,并分別存儲在不同的存儲介質或存儲層級上。當數據在變?yōu)闇乩錉顟B(tài)并滿足設定的分層遷移策略時,自動遷移到異地的存儲系統(tǒng)中或是不同存儲介質的異構存儲系統(tǒng)中,當后續(xù)的作業(yè)階段觸發(fā)了對已遷移數據的訪問請求時,自動將數據回遷至原存儲系統(tǒng)中。通過數據分層管理策略實現(xiàn)數據在全生命周期內的自動遷移和透明流動,包括在后端存儲使用磁帶庫和藍光存儲等冷存儲介質的場景,實現(xiàn)數據在高性能的SSD介質、HDD磁盤、以及低成本的冷存儲介質之間的高效流轉。同時,存儲系統(tǒng)根據設定的存儲策略判斷匹配的存儲池資源,通過自動遷移功能按前端I/O負載的變化調整數據遷移速率,可最大限度地降低數據遷移動作本身對系統(tǒng)的性能影響。(2)數據跨域流動存儲系統(tǒng)支持遠程復制功能,實現(xiàn)數據在跨地域的兩套存儲集群間流動,提供系統(tǒng)級的故障冗余保護。數據復制可采用目錄級的快照技術,將主端存儲系統(tǒng)新增快照中的數據復制到從端存儲系統(tǒng),使得從集群的數據和主集群快照保存一致。數據同步包括初始同步和增量同步。初始同步采用目錄遍歷對比的方式,增量同步是基于snapdi?journal能實現(xiàn)周期性的定時同步,也可以通過手動創(chuàng)建快照,將從集群數據同步到某一個時刻。第四章AIGC數據存儲解決方案及案例第四章AIGC數據存儲解決方案及案例AIGC數據存儲解決方案AIGC數據存儲解決方案采用分布式存儲和備份歸檔作為存儲底座。采用不同盤位的分布式全閃和混閃存儲與備份歸檔存儲共同構建統(tǒng)一資源池,分布式并行存儲的burstbu?er功能,能夠智能識別熱點數據,精準分級。統(tǒng)一資源池和全局文件系統(tǒng)能保證數據跨介質、跨設備流動,防止形成數據孤島,備份歸檔的存儲特性則保證數據的長期保存和耐久性,具備數據流動能力?;跀悼胤蛛x架構、內核親和力調度、多任務并行無鎖I/O和GPU直通存儲等技術,當前方案可以讀寫速度不同的存儲介質作為AIGC不同階段的存儲池,滿足全流程的數據讀寫要求。在高速存儲池上,當前方案可提供百GB/s的大帶寬、百萬級IOPS和毫秒級低時延,具備強大的數據處理能力。 文本生成 音頻生成 圖像生成 視頻生成 代碼生成 多模態(tài) 大容量、多協(xié)議共享百萬-千萬IOPS100GB-TB級帶寬節(jié)能、能耗、歸檔AI智能運維數據采集數據采集數據準備數據訓練數據推理數據歸檔HDDHDDHDDHDDHDDHDDHDDNVMeNVMeNVMeNVMeNVMeNVMeNVMeHDDHDDHDDHDDHDDHDDHDDNVMeNVMeNVMeNVMeNVMeNVMeNVMeAS13000帶庫/光盤一套存儲提供全閃、混閃、帶庫、光盤四種介質,提供文件、對象、大數據、視頻、塊協(xié)議圖4-1AIGC場景下分布式存儲多協(xié)議融合互通一套存儲提供全閃、混閃、帶庫、光盤四種介質,提供文件、對象、大數據、視頻、塊協(xié)議1.4PB-2.3PB。同時,此方案使用HDD疊瓦式磁記錄(SMR)、二維磁記錄(TDMR)、點陣式磁記錄(BPMR)以及能量輔助磁記錄,以降低冷數據歸檔存儲成本,具備強大的數據容納能力?;诜植际酱鎯軜嫼蛿祿⒃獢祿芾砉δ?,則可對外提供數據并行處理、模型分布式訓練的數據管理能力。存儲系統(tǒng)發(fā)生故障時會導致數據讀寫操作失敗、降低CHK讀寫性能,影響訓練效率。字節(jié)級分布式鎖、系統(tǒng)故障快速恢復、系統(tǒng)故障預測和系統(tǒng)防護相結合,可以加快故障恢復、提前預測故障和進行系統(tǒng)防護,達到為存儲底座提供全方位保護的效果,保證數據安全?;诜植际酱鎯Χ鄥f(xié)議融合互通的功能,該方案可實現(xiàn)同時支持文件、對象和大數據存儲服務,對外同時提供POSIX、NFS、CIFS、FTP、FTPS、HTTP、HDFS、S3和CSI等多種數據協(xié)議,實現(xiàn)不同協(xié)議下用戶權限共享、語義無損、性能一致,同時數據在存儲池內僅保存一份,但是可以通過多種協(xié)議訪問,避免不同協(xié)議下數據的拷貝,節(jié)省50%的數據存儲空間。而通過全局元數據共享技術則可以構建統(tǒng)一命名空間,支持跨平臺、跨形態(tài)、跨地域的全局數據管理,并對外提供統(tǒng)一的數據視圖,用戶可方便地檢索任意位置系統(tǒng)的數據并進行訪問,在高速池上可實現(xiàn)10億文件秒級檢索,體現(xiàn)了此方案的數據共享能力。綜上所述,基于分布式存儲和備份歸檔的AIGC數據存儲解決方案具備數據流動、處理、容納、管理、安全和共享六種能力,滿足數據采集、數據準備、數據訓練、數據推理和數據歸檔五個階段的存儲要求,可以提供端到端的數據支持,滿足面向文本、音頻、圖像、視頻、代碼以及多模態(tài)和全模態(tài)的大模型數據處理的需求。AIGC數據存儲經典案例 4.2.1案例一 項目背景:上海某大學服務國家創(chuàng)新驅動發(fā)展戰(zhàn)略,瞄準基礎學科研究的前沿領域,推動學科交叉和科教融合,在光子科學、人工智能、生物醫(yī)藥、能源科學等重大創(chuàng)新領域積極布局,是一所小規(guī)模、高水平、國際化研究型、創(chuàng)新型的大學。該大學和某存儲廠商合作以計算和存儲為平臺融合新技術應用,推進重大科研創(chuàng)新平臺建設,提升創(chuàng)新體系效能,加速科技創(chuàng)新,共同搭建跨學科多模態(tài)人工智能計算平臺。面向多模態(tài)大模型訓練,搭建了跨學科技術研究的平臺,滿足了數字材料、生命制藥、芯片制造、數字孿生、人機協(xié)作等多個研究方向的大模型科研需求。解決方案:存儲集群采用先進的全閃存分布式存儲系統(tǒng),提供高帶寬和高IOPS,同時存儲集群支持高冗余模式,即當某節(jié)點出現(xiàn)故障時,可以自動切換至備用節(jié)點,提供存儲系統(tǒng)的高可用性,保障科研平臺數據不丟失,保證了數據安全性和項目課題運行的持續(xù)性。根據后期業(yè)務的增長,長期存儲系統(tǒng)在線橫向擴展新的存儲節(jié)點,系統(tǒng)的性能和容量會隨著節(jié)點數量的增加線性增長,為科研項目的持續(xù)研究保駕護航。客戶價值:以上存儲解決方案為計算平臺提供超高的性能支持,可達400萬IOPS和500GB帶寬,滿足大模型訓練過程中大規(guī)模數據讀寫的帶寬需求,有效避免大模型訓練過程中大量小文件token讀取時延的問題,滿足整個存儲資源的整體性能。同時,該方案可提供全數據生命周期管理的能力,實現(xiàn)數據按熱度進行流動、提供熱、溫、冷、冰四級存儲介質,實現(xiàn)高效、節(jié)能的數據分級存儲。在上層,智能化運維管理平臺,采用AIOPS主動運維監(jiān)控、預測分析、提升管理效率、降低運維成本。以上功能特性滿足AIGC模型訓練場景下極低時延與極高IOPS需求。滿足跨學科領域研究的需求,為智慧醫(yī)療、智能感知、人機協(xié)同、數字孿生、材料發(fā)現(xiàn)、芯片制造、視覺影像多個研究方向的大模型研究提供了安全可靠的數據存儲底座。價值收益IOPS≥400萬,模型毫秒級讀寫,縮短訓練等待時間40%價值收益IOPS≥400萬,模型毫秒級讀寫,縮短訓練等待時間40%文件、對象融合存儲,TCO降低30%解決方案HDRIB交換機全NVMe資源池20*AS1300024盤位全閃節(jié)點計算節(jié)點計算節(jié)點計算節(jié)點數據匯集數據處理數據訓練數據推理數據匯集數據處理數據訓練數據推理AI相關五學科、數百人、多站點導入,數據多源多態(tài)多模型、百GB數據在線操作小文件快速訪問要求高圖4-2案例一解決方案圖 4.2.2案例二 項目背景:隨著AIGC大模型的快速發(fā)展,對于稀缺計算資源的需求越來越大,在拓展AIGC模型訓練和推理時,如何構解決方案:價值收益異構數據管理和多租戶共享協(xié)議高效互通,快速流轉數據的分級策略有效管理熱溫數據解決方案HOME目錄 工具鏡像倉庫 容器持久存儲高速網絡高速網絡圖4-3二級容量存儲池高速全閃存儲池某存儲方案可以將各種異構計算匯聚,共享硬件資源(包括CPU價值收益異構數據管理和多租戶共享協(xié)議高效互通,快速流轉數據的分級策略有效管理熱溫數據解決方案HOME目錄 工具鏡像倉庫 容器持久存儲高速網絡高速網絡圖4-3二級容量存儲池高速全閃存儲池需求痛點復雜數據特征的有效管理需求痛點復雜數據特征的有效管理集群節(jié)點間的高效數據交換最大化釋放大模型算力文件存儲文件存儲塊存儲登錄服務器計算節(jié)點客戶價值:該方案的平臺配置的存儲系統(tǒng)采取分級策略,配置一級高性能存儲+二級大容量存儲,實現(xiàn)數據在不同層級間自由流轉。存儲模塊全部支持多種存儲類型,多種功能模塊協(xié)同工作,打破單一軟硬件技術壁壘,使業(yè)務運行更加順暢。并且該方案提供閃存存儲空間300TB,存儲吞吐可達100GB/s+。該解決方案配備高性能存儲系統(tǒng),為用戶提供強大、高效的數據存儲空間和數據訪問的能力,同時提供了多種數據特征提取、整合,多維度動態(tài)組織數據集的能力,為用戶“再創(chuàng)新,再發(fā)現(xiàn)”提供了強力的工具。計算模塊提供了異構計算框架的兼容能力,復雜流程的解析能力/并發(fā)能力和異構資源的高效利用能力。實現(xiàn)一套集群中多種業(yè)務并行,多種計算并行,多租戶共享。 4.2.3案例三 項目背景:某醫(yī)學研究中心,主要業(yè)務為醫(yī)學影像,如X光片、CT(計算機斷層掃描)、MRI(磁共振成像)等的分析AIGC數據存儲技術研究報告求。其中,配置了全閃存儲集群來支持數百億參數的醫(yī)學影像生成模型的訓練和推理,通過提供高性能存儲解決方案,保證訓練、推理各個階段數據傳輸效率和數據的安全性??蛻粜枰惶赘咝阅艿娜W存儲系統(tǒng),支持數百億參數的醫(yī)學影像生成模型訓練,規(guī)劃3PB全閃存儲集群,要求聚合帶寬200GB/s,集群OPS達到350萬。為了支持數據采集、預處理和歸檔,客戶還需要一套大容量的混閃存儲系統(tǒng),規(guī)劃30PB混閃存儲集群,要求性能達到50GB/s,集群OPS為135萬。醫(yī)療數據的安全和隱私保護至關重要,客戶要求存儲系統(tǒng)在保證高性能的同時,必須具備強大的數據安全和隱私保護機制。解決方案:為滿足大規(guī)模醫(yī)學影像生成模型訓練的需求,提供一套3PB的全閃存儲集群,與500節(jié)點的算力集群進行交互。全閃存儲集群主要負責支撐AI模型訓練和推理流程,滿足客戶對存儲集群帶寬和OPS集、預處理和歸檔階段的需求,配備30PB的采集、預處理和歸檔存儲。針對數據安全和隱私保護需求,通過數據傳輸和存儲的加密以及嚴格的訪問控制和審計策略來確保。需求痛點海量數據,按需擴展多模態(tài)和跨模態(tài)數據管理需求痛點海量數據,按需擴展多模態(tài)和跨模態(tài)數據管理數百億訓練高性能要求解決方案數據采集 數據處理 數據訓練 數據推理圖4-4混閃集群全閃集群流轉客戶價值分布式架構在線靈活擴展數據生命周期管理全閃存儲高200GB帶寬,350萬OPS客戶價值:數據預處理階段有大量醫(yī)學影像數據需要快速上傳和預處理。通過優(yōu)化數據路徑,減少數據傳輸路徑中的瓶頸,提高上傳和預處理速度。通過并發(fā)優(yōu)化算法,提升多客戶端同時上傳和處理數據的效率(上傳速率和性能),利用智能緩存技術,加快常用數據的訪問速度,高并發(fā)上傳和智能緩存技術使數據處理時間節(jié)省30%。模型訓練階段深度學習模型訓練需要高性能存儲系統(tǒng),訓練過程中需要頻繁讀取和寫入大量數據,因此需要較高的吞吐性能,3PB全閃存儲集群支持高帶寬和高OPS,滿足深度學習模型訓練需求。數據分片和并行處理技術通過將大文件分成多個小塊存儲和處理,提高數據存儲和訪問效率。通過內置的智能調度算法自動調整存儲資源分配,確保高性能需求的訓練任務順利進行。通過全局去重技術,減少重復數據存儲量,提升存儲利用率。全閃存儲集群優(yōu)化后,聚合帶寬達到250GB/s,OPS超過400萬,訓練和推理效率提升110%護機制確保醫(yī)療數據的安全性和隱私保護,提升系統(tǒng)的合規(guī)性和可靠性,確保了研究中心醫(yī)療影像數據安全的相關保密規(guī)定得到嚴格落實。 4.2.4案例四 項目背景:某金融公司的實際業(yè)務中數據量巨大,且以非結構化數據類型為主,除了需要存儲系統(tǒng)具備提供多種存儲服務的能力之外,對數據存取的性能也有較高的要求。在以往的業(yè)務流程中,數據存取性能是整個分析建模和訓練過程中的最主要的瓶頸。同時,該類用戶對數據處理和分析的性能也有嚴苛要求,要求具有充分利用資源進行并發(fā)計算的能力。解決方案:首先,底層采用分布式全閃系統(tǒng)來支撐金融數據的高效存取,配合端到端的Roce或者IB的網絡,提供卓越的數據存儲吞吐和IOPS,支撐金融數據的高效存取。其次,采用可以提供文件/塊/對象等多種存儲服務的統(tǒng)一存儲系統(tǒng),為量化分析需要的結構化數據和非結構化數據提供統(tǒng)一的存儲引擎。最后,在應用層配合分布式計算系統(tǒng)來整合計算資源,并且利用高級調度策略確保最大化的計算資源利用率。需求痛點GPU訪問存儲的效率小文件高IOPS和低延時需求痛點GPU訪問存儲的效率小文件高IOPS和低延時金融海量數據分析處理解決方案容器服務 模型訓練 分析任務 高頻交易全閃存分布式存儲系統(tǒng)圖4-5分布式計算系統(tǒng)客戶價值支持GDSGPU直通訪問高性能全閃并行文件系統(tǒng)文件/對象/大數據協(xié)議融合客戶價值:該方案不僅提供了極高的IOPS,還具備了極低的延遲和極強的小文件讀寫能力以及元數據處理能力。在面對海量小文件場景下,性能無衰減。配合分布式計算系統(tǒng),可以承載多種分析應用,并且通過進程和容器的方式運行批量計算、并行計算,動態(tài)高效分配資源。提供對GPU等稀缺資源的管理和調度能力,高效利用人工智能技術助力量化分析流程。面對智能分析數據處理過程中的性能瓶頸,通過計算和存儲的協(xié)同,解決了I/O瓶頸帶來的分析效率低下和計算資源利用率低的問題。第五章AIGC場景下數據存儲發(fā)展的未來趨勢與展望第五章AIGC場景下數據存儲發(fā)展的未來趨勢與展望未來趨勢 5.1.1數據綠色存儲愈發(fā)成為關注的焦點 隨著AIGC產業(yè)的大力發(fā)展,各地方政府也在積極推進大型智算中心的構建,例如北京、深圳、上海等地已經出臺了多種布局算力基礎設施的實施方案。目前,國內單個智算中心的存儲規(guī)模均在EB級,智算中心的規(guī)模和數量不斷擴大,帶來了存儲的能耗的快速上升。相關數據顯示,2023年,全國數據中心耗電量達到2700億千瓦時,占社會總用電量的3%。而智算中心引入了更多的算力相關設備,其耗電量將遠高于同等規(guī)模的數據中心。根據斯坦福人工智能研究院發(fā)布的《2023年人工智能指數報告》顯示,GPT-3單次訓練耗電量就已高達128720%,50%,存儲能耗中80%于存儲介質。目前主流的存儲介質主要包括HDD磁盤和SSD磁盤。其中HDD磁盤功耗大約在6W以上,而SSD磁盤在靜態(tài)無負荷條件下,功耗僅大約在0.05W到1.2W之間。然而,由于SSD單盤價格相對較高,且在相同容量下,需要更多數量的HDD,直接導致存儲的總能耗大幅上升,嚴重阻礙國內“碳達峰&碳中和”的進展。對于滿足AIGC高性能需求的同時提升存儲系統(tǒng)的能效比并降低能耗成本這一問題,各存儲廠商紛紛出臺了相應的解決方案。比較典型的有以下幾種,一是采用能耗更低的全閃存存儲(All-FlashStorage,AFS)存存儲方案。全閃存存儲利用固態(tài)硬盤(SSD)的高速讀寫能力,提供極低的延遲和高吞吐量,非常適合AIGC應用中的實時數據處理需求?;扉W存存儲則結合了SSD和傳統(tǒng)硬盤驅動器(HDD),通過智能數據分層技術,將最活躍的數據存儲在SSD上,而將較少訪問的數據存儲在HDD上,從而在性能和成本之間取得平衡。二是智能數據管理策略。這些策略包括自動數據分層,它根據數據訪問的頻率和模式,動態(tài)地將數據在不同存儲層之間遷移。通過冷數據歸檔技術將不常訪問的數據移動到更節(jié)能的存儲介質上,減少對高性能存儲資源的需求,減少不必要的數據存儲和訪問。此外,還有在數據中心的存儲中實施數據去重和壓縮技術,減少存儲需求以及利用軟件定義存儲和存儲虛擬化技術提高資源利用率等技術。這些綠色存儲技術的實施有助于提高存儲系統(tǒng)的能效,降低企業(yè)存儲成本,為未來存儲技術的發(fā)展提供了新的思路。 5.1.2數據安全存儲的重要性日益凸顯 隨著AIGC在各領域的廣泛應用,數據已成為越來越重要的資產。目前來看,AIGC場景下性能成為廠商和用戶關注的焦點,嚴重缺乏對數據的嚴格監(jiān)管和風險識別,尤其是在醫(yī)療、金融、法律等非公開的數據方面,由于缺乏數據安全防護,在各類惡意攻擊下,數據信息被嚴重泄露,制約AIGC應用的發(fā)展。在模型攻擊中,攻擊者可通過逆向工程或者對抗攻擊,竊取模型訓練采用的隱私數據。在數據遷移或數據處理中,攻擊者篡改訓練數據內個人原始信息,操控模型生成意向。例如,攻擊者可在金融大模型中篡改貸款用戶的貸款歷史和信譽度信息,從而降低各類人群的貸款信譽度。存儲作為數據的載體,除了考慮性能和管理,也需要制定安全等級,全方位識別數據風險和數據安全問題,從數據移動過程中涉及的存儲區(qū)域、存儲介質、軟件棧進行全面數據加密和權限認證,防止AIGC各個階段的數據篡改和惡意提取。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論