數(shù)據(jù)密集型超算發(fā)展白皮書2023_第1頁
數(shù)據(jù)密集型超算發(fā)展白皮書2023_第2頁
數(shù)據(jù)密集型超算發(fā)展白皮書2023_第3頁
數(shù)據(jù)密集型超算發(fā)展白皮書2023_第4頁
數(shù)據(jù)密集型超算發(fā)展白皮書2023_第5頁
已閱讀5頁,還剩91頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

超級計算創(chuàng)新聯(lián)盟數(shù)據(jù)密集型超算工作組2023年8月編寫委員會陳國良張云泉周躍峰金鐘林新華唐卓張興軍王毅肖利民王怡東龐鑫顧雪軍副主編潘景山李少波韋建文王繼彬高巍蘇亮徐恩松張洋李亞子賈海鵬韓振興王旭東陳陽陳振華柴旭清戴奇志段芳成丁江波樊春范靖龔斌高亦沁高芬郭武郭洪星胡俊胡廣超李會民李昕偉劉暢李斌杰魯蔚征郄軍利宋平宋天宇孫曉藝孫敏淮唐小勇王青王成偉王繼彬王炳強萬林魏旗鵬姚舸曾帆曾令仿張凱麗張震鄒有趙順存責任編輯王世葆感謝以下機構參編支持(排名不分先后):北京大學北京航空航天大學長沙理工大學貴州大學河南師范大學湖南大學蘭州大學南京大學上海交通大學山東大學深圳大學西安交通大學中國人民大學中國醫(yī)學科學院中國科學技術大學中南大學超級計算創(chuàng)新聯(lián)盟國家超算濟南中心國家超算長沙中心華為技術有限公司科大訊飛嶗山實驗室聯(lián)科中國鵬城實驗室青島國實科技有限公司中科院科學計算所中國信息通信研究院之江實驗室數(shù)據(jù)是對客觀世界狀態(tài)變化的數(shù)字化記錄,在數(shù)字經(jīng)濟和數(shù)字中國的大戰(zhàn)略下,數(shù)據(jù)已成為國家基礎性戰(zhàn)略資源和關鍵生產(chǎn)要素,是數(shù)字化、網(wǎng)絡化、智能化的基礎。今年發(fā)布的《數(shù)字中國建設整體布局規(guī)劃》進一步強調夯實數(shù)字基礎設施和數(shù)據(jù)資源體系“兩大基礎”。眾所周知,高性能計算是國家綜合國力和信息化建設能力的一個重要體現(xiàn),被譽為“國之重器”。數(shù)據(jù)密集型超算,是高性能計算與人工智能、大數(shù)據(jù)等新一代信息技術融合后圍繞數(shù)據(jù)價值,而產(chǎn)生的一個重要新增類型,是在高性能計算領域的一次有益的創(chuàng)新探索,在一定程度上代表了高性能計算的未來發(fā)展趨勢。我們很欣喜地看到,在過去兩年中數(shù)據(jù)密集型超算在產(chǎn)業(yè)各界的多方合作下持續(xù)創(chuàng)新,相繼在商業(yè)應用、標準規(guī)范等取得了顯著的進展。如文中所述,數(shù)據(jù)密集型超算在國家超算中心、高校等場景、基因測序、AI大模型等行業(yè)應用中產(chǎn)生了很多優(yōu)秀實踐。與此同時,我們也看到中國高性能計算所面臨的挑戰(zhàn)和機遇:應用層面,隨著數(shù)據(jù)爆炸,高性能計算從重計算模型,衍生到重IO,大帶寬包括混合負載的數(shù)據(jù)模型;算力層面,通過AI賦能,科學研究正邁向科學智能新階段,推動AI異構加速;連接層面,隨著超算互聯(lián)作為國家戰(zhàn)略,需要實現(xiàn)更高效的網(wǎng)絡互聯(lián)和跨域全局管理。另外,在新的復雜國際安全形勢和低碳化全球趨勢下,超算安全、綠色節(jié)能、自主創(chuàng)新也成為高性能計算業(yè)內人士關注的問題。白皮書結合高性能計算在數(shù)據(jù)密集型場景的發(fā)展趨勢給出了分析和建議,值得深思。面向未來,以ChatGPT為代表的AI大模型興起,數(shù)以千億的參數(shù)投入訓練,產(chǎn)生對算力和數(shù)據(jù)的雙重需求。HPC與AI逐步走向融合,將成為數(shù)據(jù)密集型超算的典型應用場景。數(shù)據(jù)的準備至關重要,數(shù)據(jù)的質量和規(guī)模決定AI的精度。為了更好應對諸如新應用帶來的生態(tài)復雜性變化、新業(yè)務催生的混合業(yè)務負載壓力、新數(shù)據(jù)與算力協(xié)同帶來的數(shù)據(jù)跨地域訪問等挑戰(zhàn),白皮書中創(chuàng)新性地提出新型數(shù)據(jù)密集型超算5A架構,以應用為中心,較好地支撐HPDA(HPC+大數(shù)據(jù)+AI)多系統(tǒng)融合業(yè)務發(fā)長風破浪會有時,直掛云帆濟滄海!HPDA正在加速提升科研創(chuàng)新及生產(chǎn)效率,在新的趨勢和發(fā)展機遇下,期待產(chǎn)業(yè)各方深化合作和持續(xù)創(chuàng)新,數(shù)據(jù)密集型超算在推動科研和數(shù)字經(jīng)濟發(fā)展上發(fā)揮更房一年一度的CCFHPCChina,給業(yè)界提供了很好的契機,促使我們去系統(tǒng)化地思考超算的過去、當下和未來。數(shù)據(jù)密集型超算HPDA白皮書發(fā)布已經(jīng)兩年,這兩年間超算領域已經(jīng)發(fā)生了許多令人驚訝的變化,尤其當生成式人工智能AIGC技術爆發(fā),超算的發(fā)展也正在迎來一個新的階段。超算正在加速與AI深度融合,驅動科學研究邁入科學智能時代AIGC熱潮的背后其實就是超級計算機技術與AI大模型技術相結合的結晶:早在2019年,微軟就為OpenAI的ChatGPT大模型訓練部署超過上萬個GPU組成的大型AI超級計算機。超算從誕生開始就致力于加速重大科研的創(chuàng)新,而超算與AI的融合將實現(xiàn)科研創(chuàng)新的又一次通過Al賦能科學研究,可以解決傳統(tǒng)HPC算不了、算不準、算不動的問題。且從科研創(chuàng)新的角度來看,提出問題比解決問題更重要。而AI的本質上實際上是數(shù)據(jù)驅動通過AI算法擬合成一個符合大概率的規(guī)律,盡管有可能這些規(guī)律缺乏可解釋性,但這些“意料之外”的規(guī)律反而就是科研創(chuàng)新突破的最佳指引。這相當于給科研人員開啟了一個上帝視角,一切未知皆為參數(shù),數(shù)據(jù)可及皆為樣本,洞明世事皆為模型,進而讓科學研究邁入到了科學智能實際上數(shù)據(jù)密集型超算概念的提出就是洞悉到了超算與AI的融合,因為其核心就是數(shù)據(jù)驅動,數(shù)據(jù)的重要性也隨著AI大模型的發(fā)展變得愈發(fā)凸顯。AI的三要素,數(shù)據(jù)、算法和算力。在算力水平基本一致的前提下,如果說當前的AI時代角逐還是數(shù)據(jù)和算法并重,那么隨著AI算法的逐步標準化趨同,決定下一輪勝負的關鍵必然在數(shù)據(jù)上。譬如,Meta基于650億參數(shù)和4.5TB訓練數(shù)據(jù)開發(fā)了LLaMA,而OpenAI基于1750億參數(shù)和570GB訓練數(shù)據(jù)開發(fā)了GPT-3.5。雖然LLaMA在參數(shù)規(guī)模上不及GPT-3.5的50%,但其表現(xiàn)能力在多數(shù)基準上均超越了后者,其主要原因在于數(shù)據(jù)規(guī)模提升了8倍。由此可見,提升AI大模型精度、數(shù)據(jù)規(guī)模以及數(shù)據(jù)質量比模型參數(shù)更具決定性的作用,可以說數(shù)據(jù)決定了AI智能的高度。超算互聯(lián)上升為國家級戰(zhàn)略,數(shù)據(jù)互聯(lián)與流動“一橋飛架南北,天塹變通途”,超算互聯(lián)正是這一理念構想在超算產(chǎn)業(yè)的踐行。在東數(shù)西算、算力互聯(lián)網(wǎng)等國家戰(zhàn)略實施的大背景下,超算互聯(lián)旨在構建一體化超算算力網(wǎng)絡和服務平臺的目標也上升為國家級戰(zhàn)略。歐盟等區(qū)域和國家也相繼發(fā)布了其國家版的超算互聯(lián)戰(zhàn)略,為下一個戰(zhàn)略制高點所謂內行看門道,互聯(lián)普遍意義上是指算力的互聯(lián),實際上數(shù)據(jù)的互聯(lián)和流動才是超算互聯(lián)的底.從超算中心的物理部署來看,需要實現(xiàn)不同超算中心的數(shù)據(jù)互聯(lián),并提供跨地域、跨系統(tǒng)的全局統(tǒng)一數(shù)據(jù)視圖以及調度。讓任意位置的數(shù)據(jù)都隨時隨地可快速訪問,并實現(xiàn)數(shù)據(jù)的按需分級與流.從業(yè)務集群的建設模式來看,需要實現(xiàn)不同業(yè)務集群間的數(shù)據(jù)互聯(lián)。這是因為數(shù)據(jù)密集型HPDA往往對應的是數(shù)據(jù)驅動的一套序貫式科學業(yè)務流,譬如基因測序往往包括文庫制備、格式轉換以及生信分析等多個業(yè)務階段,傳統(tǒng)意義上不同的業(yè)務集群往往是煙囪式獨立建設模式,頻繁的數(shù)據(jù)拷貝與遷移成為影響科研效率的關鍵。因此,我們認為超算互聯(lián)要面向多樣化業(yè)務要構建安全、可靠的統(tǒng)一數(shù)據(jù)底座,基于高性能專業(yè)存儲的多協(xié)議、冷熱溫自動分級以及全局文件系統(tǒng)GFS等技術打破影響數(shù)據(jù)流動的層層壁壘。所謂流水不腐戶樞不蠹,數(shù)據(jù)只有在更大范圍的充分流動與共享,才能真正促進信息的數(shù)字化,才會有價值超算中心大規(guī)模集群化,低碳綠色成為關鍵訴求。E級超算的建設當前已經(jīng)是屢見不鮮,并且隨著整體應用算力需求與單卡之間的算力剪刀差持續(xù)加大,導致集群規(guī)模越來越大。盡管大規(guī)模集群往往意味著國之重器,科研利器,但與此同時超算系統(tǒng)的能耗和散熱問題日益突出。因此,提高超算系統(tǒng)的能效比和降低碳排放已經(jīng)成為超算行業(yè)的重要.全面加速存儲閃存化:超算中心以及智算中心由于其極致的業(yè)務性能訴求,特別是隨著AIGC業(yè)務的爆發(fā),高性能的全閃專業(yè)存儲將成為首選。全閃存一方面意味著應用性能的極致表現(xiàn);另一方面在單位容量的功耗上要大幅降低。不僅如此,隨著業(yè)界閃存大容量盤的加速推出,其逐步凸顯的性價比優(yōu)勢也將加速業(yè)界全.存儲創(chuàng)新提升GPU利用率:隨著超算業(yè)務的多樣化趨勢,算力的多元化以及數(shù)據(jù)的多模態(tài)發(fā)展愈發(fā)明顯。數(shù)據(jù)密集型應用驅動在算力層面GPU占比越來越高。提升GPU的資源利用率,也就意味著用更少的GPU資源能耗去滿足相對確定的應用算力需求,提高能效比。在存儲創(chuàng)新方面,一方面通過面向混合負載的極致高性能,通過減少GPU在數(shù)據(jù)加載等待時間提升利用率;另一方面還可以有通過近存計算實現(xiàn)近數(shù)據(jù)預處理,讓數(shù)據(jù)在存儲就完成部分數(shù)據(jù)準備任務,減少計算和存儲之間的數(shù)據(jù)搬遷,進一步提升GPU的這次數(shù)據(jù)密集型超算發(fā)展白皮書2023的發(fā)布,正好是在AI大模型這樣的時代背景下,其對于中國超算行業(yè)之重大意義,絲毫不亞于無線通訊領域從3G/4G時代突破式地邁向了5G時代。在全新的產(chǎn)業(yè)賽道上,中國科技要攜手起來堅定并堅持自主創(chuàng)新,引領超算行業(yè)的“5G”浪潮。1數(shù)據(jù)密集型超算最新趨勢1.1數(shù)據(jù)密集型趨勢下,高性能計算面臨六大挑戰(zhàn)和需求011.2數(shù)據(jù)密集型應用加速發(fā)展,對存儲性能提出更高要求021.2.1大數(shù)據(jù)、AI技術應用及科學觀測儀器能力提升,帶來更大數(shù)據(jù)量021.2.2數(shù)據(jù)密集型應用,數(shù)據(jù)模型對存儲大帶寬和IOPS有更高的要求031.2.3多技術融合的新興業(yè)務,帶來多業(yè)務混合負載041.3HPC和AI融合,加速改變科研及生產(chǎn)效率051.3.1AI加速科學研究范式變遷,數(shù)據(jù)驅動的AI方法改變科學的漸進發(fā)展051.3.2數(shù)據(jù)決定AI智能的高度,數(shù)據(jù)存儲成為大模型時代的核心基礎設施061.3.3發(fā)展先進數(shù)據(jù)存力基礎設施,是構建大模型時代高質量發(fā)展的基石071.4超算互聯(lián)上升至世界各國國家戰(zhàn)略,數(shù)據(jù)基礎設施先行081.4.1美國大力推動高性能數(shù)據(jù)密集型基礎設施互聯(lián)081.4.2歐洲成立超算聯(lián)合體,構建一體化超算基礎設施091.4.3中國超算互聯(lián)網(wǎng)工程,構建一體化算力網(wǎng)絡和數(shù)據(jù)平臺101.5超算安全關系國計民生,數(shù)據(jù)資產(chǎn)安全成為重點121.5.1國家級網(wǎng)絡攻擊對抗愈演愈烈,科研重點單位成為重點目標之一121.5.2各國陸續(xù)出臺法律法規(guī),提升數(shù)據(jù)戰(zhàn)略地位,加強數(shù)據(jù)安全保護力度131.6中國“數(shù)據(jù)基礎設施”關鍵根技術有突破、有創(chuàng)新,可支持全棧自主可控141.7提高能效比和降低碳排放,支持超算發(fā)展和持續(xù)演進151.7.1超算系統(tǒng)商業(yè)應用和未來演進面臨能效挑戰(zhàn)151.7.2通過軟硬件設計優(yōu)化提升超級計算機能效,實現(xiàn)超算系統(tǒng)可持續(xù)發(fā)展162數(shù)據(jù)密集型超算技術架構2.1HPC與AI走向融合,構建“5A”新型超算架構2.2AnyApplication:新型應用不斷涌現(xiàn),數(shù)據(jù)密集型超算應具備豐富的應用生態(tài)承載及演進能力2.2.1應用快速發(fā)展,需要多協(xié)議融合互通能力支撐業(yè)務未來演進2.2.2數(shù)據(jù)分析廣泛應用,需要支持科學計算工作流,提升業(yè)務效率2.3AnyWorkload:多技術融合帶來多樣負載,數(shù)據(jù)密集型超算應具備承載動態(tài)混合負載及應用加速能力2.3.1HPC+AI+BigData多樣性應用,需要動態(tài)混合負載承載能力212.3.2E級大規(guī)模應用,需要近計算實現(xiàn)加速222.3.3超算“性能墻”和“能耗墻”兩大挑戰(zhàn),推動分布式全閃存儲替代勢在必行232.4Anywhere:多地域超算互聯(lián),需要跨域全局數(shù)據(jù)統(tǒng)一管理能力242.4.1算力和數(shù)據(jù)協(xié)同調度,數(shù)據(jù)全局可視242.4.2數(shù)據(jù)分級管理,應用無感訪問242.5AnyCondition:全方位可信設計,保障業(yè)務永遠在線,數(shù)據(jù)永不丟失252.5.1應對數(shù)據(jù)風險與業(yè)務風險挑戰(zhàn),超算平臺進行全方面安全保障252.5.2應對災難事件時生產(chǎn)中斷挑戰(zhàn),超算平臺穩(wěn)定性設計保障業(yè)務永遠在線262.5.3數(shù)字資產(chǎn)作為企業(yè)核心財富,存儲數(shù)據(jù)要做到永遠可靠不丟失272.6AnyView:多應用場景的統(tǒng)一智能管理平臺提升管理效率272.6.1統(tǒng)一設備管理系統(tǒng),提升運維管理效率272.6.2超算建設模式走向集約化,需要統(tǒng)一高效的作業(yè)管理282.6.3數(shù)據(jù)全生命周期管理,夯實高效、全面、智能的數(shù)據(jù)底座283數(shù)據(jù)密集型超算優(yōu)秀實踐3.1國家超算濟南中心:打造中國最大規(guī)模數(shù)據(jù)密集型超算應用標桿293.1.1國超濟南中心發(fā)展勢頭迅猛,構建引領全球科技發(fā)展的“最強大腦”293.1.2面對海量數(shù)據(jù)存儲和計算效率的挑戰(zhàn),國超濟南中心積極追求HPC架構轉型293.1.3國超濟南中心采用統(tǒng)一存儲底座,打造標桿級新型超算中心303.1.4統(tǒng)一存力底座助力國超濟南中心成就超算標桿303.2上海交通大學:AI存力基座助力教育科研發(fā)展3.2.1AI時代,學校高性能計算中心面臨新場景海量數(shù)據(jù)挑戰(zhàn)323.2.2“一存力,多算力”的統(tǒng)一存力基座方案333.2.3存力基座助力教育科研發(fā)展343.3中國醫(yī)學科學院:全棧自主可控、GPU生信加速打造安全、高效的基因測序超算平臺363.3.1快速測序、海量基因數(shù)據(jù)存儲成為基因測序領域的重大挑戰(zhàn)363.3.2高效、敏捷、自主可控的一站式基因測序全棧解決方案373.3.3全棧國產(chǎn)化平臺助力醫(yī)學科研成果轉化383.4科大訊飛:高性能、穩(wěn)定可靠的統(tǒng)一數(shù)據(jù)管理底座是大模型訓練的關鍵383.4.1AI大模型訓練中的挑戰(zhàn)393.4.2強強聯(lián)合,打造最佳大模型算力+存力全棧方案403.4.3在HPC與AI的融合創(chuàng)新中走向獨立自主41縱觀全球,新一輪的科技革命和產(chǎn)業(yè)變革正在全方位的改變著社會生產(chǎn)生活,一個以數(shù)據(jù)服務能力為基礎的,萬物感知、萬物互聯(lián)、萬物智能的數(shù)字經(jīng)濟世界正在加速到來。實施數(shù)據(jù)戰(zhàn)略、積累數(shù)據(jù)資源、保障數(shù)據(jù)安全、做大做強數(shù)據(jù)產(chǎn)業(yè),已經(jīng)據(jù)國際權威數(shù)據(jù)分析研究機構IDC《數(shù)據(jù)時代2025》報告預測,從2018年至2025年,全球數(shù)據(jù)將從2018年的33ZB增至2025年的175ZB,數(shù)據(jù)量增長4倍多。其中,中國數(shù)據(jù)圈增速迅速,預計將從2018年的7.6ZB到2025年將增至48.6ZB,占全球數(shù)據(jù)圈比重將從23.4%發(fā)展到27.8%,中國將成為全球最大的數(shù)據(jù)圈。因此,更先進的數(shù)字技術、更強大的數(shù)據(jù)服務能力和更高水平的數(shù)字產(chǎn)業(yè),將成為新時代我國發(fā)展數(shù)字經(jīng)濟的根本內容。超大規(guī)模的數(shù)據(jù)量對數(shù)據(jù)的存儲、數(shù)據(jù)的安全提出了前所未有的挑戰(zhàn),可靠高效的存儲能力是數(shù)據(jù)供給安全的高性能計算HPC是構建下一代數(shù)據(jù)產(chǎn)業(yè)和科學計算的基石,是驅動科研創(chuàng)新的重要計算引擎,幫助人們從海量的數(shù)據(jù)中探索人類社會和宇宙的未來。早在2007年,圖靈獎得主詹姆斯·格雷就在題目為《科學方法的革命》的演講中提出,隨著數(shù)據(jù)的爆炸性增長,科學計算(即“第三范式”)中的數(shù)據(jù)密集型范式將成為一個獨特的科學研究范式,即“第四范式”。數(shù)據(jù)密集型超算,成為高性能計算與人工智能、大數(shù)據(jù)等新一代信息技術融合后而產(chǎn)生的一個重要新增類型,在一定程度上代表了高在此趨勢下,我們發(fā)現(xiàn)在高性能計算在應用層、算力層、超算網(wǎng)絡互聯(lián)及全局管理、安全、綠色節(jié)能、系統(tǒng)全棧自主可控六個方面都面臨新的挑.應用層面,隨著生成式AI、大數(shù)據(jù)應用以及科學觀測儀器能力提升,帶來更大數(shù)據(jù)量,新的數(shù)據(jù)密集型應用,產(chǎn)生了新的數(shù)據(jù)模邁向科學智能新階段,數(shù)據(jù)規(guī)模和質量決定了AI智能高度。發(fā)展先進數(shù)據(jù)存力基礎設.聯(lián)接層面,需要科研機構之間的大數(shù)據(jù)量互訪,推進超算互聯(lián)工程進程,打造集應用、數(shù)據(jù)、算力服務于一體的超算,實現(xiàn)跨超算中心的聯(lián)接,一體化數(shù)據(jù)基礎設施已成為超.安全層面,對數(shù)據(jù)資產(chǎn)的安全提出更高的要求,提升數(shù)據(jù)戰(zhàn)略地位,保證數(shù)據(jù)安全和主.自主可控層面,從處理器,先進閃存等核心硬件,到跨域數(shù)據(jù)管理系統(tǒng),分布式并行文件系統(tǒng),以及超算集群等軟件具備全棧自主.綠色節(jié)能層面,通過改進硬件設計和制造過程,優(yōu)化軟件設計,提高超算系統(tǒng)的能源效應用,數(shù)據(jù)密集型化從重計算模型,到重IO、大帶、混合負載數(shù)據(jù)模型算力,AI算力,AI異構加速從科學計算到科學智能從網(wǎng)絡互聯(lián),到跨域超算互聯(lián)從科學計算到科學智能新安全,數(shù)據(jù)資產(chǎn)保護新安全,數(shù)據(jù)資產(chǎn)保護oo綠色,軟硬系統(tǒng)節(jié)能從網(wǎng)絡安全,到數(shù)據(jù)資產(chǎn)安全從計算能效節(jié)能,到軟件、硬件系統(tǒng)節(jié)能 全棧自主可控從芯片自主可控,到全棧自主可控隨著與大數(shù)據(jù)、AI等新的數(shù)據(jù)分析技術和工具結合,HPC的訴求從以數(shù)值計算為主,衍生到與大數(shù)據(jù)知識挖掘及AI訓練推理結合的HPDA高性能數(shù)據(jù)分析時代。大數(shù)據(jù)、AI技術及科學觀測儀器能力提升,給應用帶來更大的處理數(shù)據(jù)量。同時新的數(shù)據(jù)密集型應用,產(chǎn)生了新的數(shù)據(jù)模型,驅動新的近1.2.1大數(shù)據(jù)、1.2.1大數(shù)據(jù)、AI技術應用及科學觀測儀器能力提升,帶來更大數(shù)據(jù)量隨著物聯(lián)網(wǎng)技術、大數(shù)據(jù)技術的飛速發(fā)展,超算系統(tǒng)處理的數(shù)據(jù)量爆炸式增長。得益于科學觀測儀器能力的不斷提升,大幅提高了采集的速度和廣度,如:高通量測序儀通量從幾十個GB,提升到現(xiàn)在幾個TB級別通量;全球數(shù)以百萬計的傳感器都在對宇宙、氣象、生物、物理和化學過程進行實時觀測和記錄,在取得更好的計算或者模擬效果的同時也產(chǎn)生大量觀測數(shù)據(jù)。計算設備運行各種科學模型任務,在進行大規(guī)模模擬計算的同時會產(chǎn)生大量的10-30TB/天->6PB/年一臺冷凍電鏡500T/天->180PB/年1個FAST天眼6TB/天->8.5PB/年(含膨脹)1臺基因測序儀60TB/天->200PB/年1輛自動駕駛汽車50T/天->18PB/年1顆遙感衛(wèi)星1立方厘米->PB類腦研究500T/天>180PB/年1個高能同步輻射光源中心1Pb/s->4000EB/年1個SKA平方公里陣列圖1-2典型超算場景的數(shù)據(jù)量03從初步統(tǒng)計看,目前大部分典型的超算應用起步檔已經(jīng)是PB級。面向新興的應用譬如腦科學等,其單場80%的應用場景數(shù)據(jù)量80%的應用場景數(shù)據(jù)量PB級圖1-3典型場景數(shù)據(jù)量分析1.2.2數(shù)據(jù)密集型應用,數(shù)據(jù)模型對存儲大帶寬和1.2.2數(shù)據(jù)密集型應用,數(shù)據(jù)模型對存儲大帶寬和IOPS有更高的要求根據(jù)測試和分析,數(shù)據(jù)量的變大,會導致對應的計算數(shù)據(jù)模型和存儲訪問數(shù)據(jù)模型也發(fā)生較大變化。基因測序、氣象預測、油氣勘探等數(shù)據(jù)密集型應用相對分子動力學、化學等數(shù)值型計算應用,在寫IOPS和讀寫帶寬上產(chǎn)生數(shù)量級的增加,其文件大小普遍超過1GB以上。讀IOPS寫IOPS350015.8MB/s130B/s233739.56MB/s5KB/s20003.373GB/s1.275GB/s700460600MB/s500MB/s6000337MB/s729MB/s大文件(IO為4K以下,文表1-1數(shù)據(jù)模型041.2.3多技術融合的新興業(yè)務,帶來多業(yè)務混合負載1.2.3多技術融合的新興業(yè)務,帶來多業(yè)務混合負載隨著一些新興業(yè)務的出現(xiàn),帶來業(yè)務流程的復雜多樣。如自動駕駛業(yè)務涉及超過10個處理環(huán)節(jié),各個環(huán)節(jié)存在數(shù)據(jù)互訪、數(shù)據(jù)采集、標注、訓練集仿真數(shù)據(jù)訪問、AI推理。其中數(shù)據(jù)采集和預處理會借助大數(shù)據(jù)技術和組件;在AI訓練階段會采用AI深度學習訓練技術;仿真階段會采用HPC技術。超聲波傳感器GPS激光雷達毫米波雷達攝像頭NFS/CIFSNFS/CIFSNFS/HDFS數(shù)據(jù)收集和預處理數(shù)據(jù)導入HDFSNFS仿真仿真驗證驗證S3/NFSPB級數(shù)十GB/S帶寬海量小文件極致OPS和時延數(shù)十~百GB/S帶寬<1ms時延同時,各個環(huán)節(jié)數(shù)據(jù)模型各有差異:如在數(shù)據(jù)收集和導入環(huán)節(jié)使用NFS/CIFS上傳脫敏數(shù)據(jù)到存儲資源池,此環(huán)節(jié)IO特征為大IO順序寫;在數(shù)據(jù)預處理環(huán)節(jié)采用大文件聚合,大IO順序讀,存在多客戶端順序寫小文件;AI模型訓練主要是多線程小IO隨機讀多個小文件。仿真驗證則是單線程大IO順序S3單客戶端順序寫大文件AI訓練綜上所述,由于大數(shù)據(jù)、AI、HPC仿真等多技術的融合,業(yè)務呈現(xiàn)多樣業(yè)務混合負載特征。數(shù)據(jù)模型既需要支持高帶寬又需要支持高IOPS。HPC和AI融合,加速改變科研及生產(chǎn)效率1.3.11.3.1AI加速科學研究范式變遷,數(shù)據(jù)驅動的AI方法改變科學的漸進發(fā)展AI賦能機理計算是目前超算的一大趨勢,通過數(shù)據(jù)驅動AI計算,利用人工智能技術對機理計算進行優(yōu)化和加速,提高計算效率和精度,從而實現(xiàn)更圖1-5華為盤古氣象大模型研究成果在《Nature》正刊發(fā)表例如日前國際頂級學術期刊《Nature》雜志正刊發(fā)表了華為云盤古大模型研發(fā)團隊研究成果《三維神經(jīng)網(wǎng)絡用于精準中期全球天氣預報》。受限于氣象觀測的準確度,大氣系統(tǒng)中物理過程的復雜性,傳統(tǒng)數(shù)值方法所需計算資源規(guī)模巨大,全球中期天氣預報的有效性每10年才提高1天。而華為盤古氣象大模型是首個精度超過傳統(tǒng)數(shù)值預報方法的AI模型,速度相比傳統(tǒng)數(shù)值預報提速10000倍以上,改變了近些年數(shù)值天氣預報精度提升緩慢的科學計算(HPC)面臨挑戰(zhàn)面臨挑戰(zhàn)算不了、算不準、算不動算不了、算不準、算不動++AI催生AI賦能機理計算DeePMD:分子動力學模擬AI賦能機理計算DeePMD:分子動力學模擬AI+分子動力學科學智能(HPDA=HPC+BigData+AI)數(shù)據(jù)驅動的AI計算AI+蛋白質結構預測機理計算與AI計算相結合AI+HPCAI+HPCAI+生物制藥圖1-6HPC和AI融合,科學計算走向科學智能科學研究正邁向科學智能新階段,通過Al賦能科學研究,解決傳統(tǒng)HPC算不快、算不準、算不動的問題。如AI賦能機理計算,DeePMD基于深度學習的分子動力學模擬方法,將Al嵌入機理計算中,在空間尺度和時間尺度上基于數(shù)學方程推演,計算效率提高1000倍,計算空間尺度增大100倍。在數(shù)據(jù)驅動的Al計算中,如AlphaFold蛋白質結構預測,通過Al加速可以使藥物臨床研究耗時從年減少到月。1.3.2數(shù)據(jù)決定1.3.2數(shù)據(jù)決定AI智能的高度,數(shù)據(jù)存儲成為大模型時代的核心基礎設施一、數(shù)據(jù)數(shù)量和質量決定AI智能的高度在我們探討機器學習的效果時,無法忽略的一點是高質量數(shù)據(jù)的重要性。數(shù)據(jù)質量越高,意味著更準確、更可信、更相關、更有價值的數(shù)據(jù),給人工智能提供更可靠的輸入,提高模型的可用性和可靠性。如果沒有高質量的數(shù)據(jù)輸入,無論多么先進的算法、多么龐大的算力都無法帶來高質量的成果。數(shù)據(jù)質量決定AI智能的高度。傳統(tǒng)數(shù)據(jù)處理方法主要是針對小規(guī)模數(shù)據(jù),以統(tǒng)計模型為基礎尋找數(shù)據(jù)中的規(guī)律。然而基于小規(guī)模數(shù)據(jù)所建立的模型,其表達能力受限于數(shù)據(jù)規(guī)模,只能進行粗粒度的模擬與預測,在精度要求比較高的情況就不再適用。如果想要進一步提升模型精度就需要利用海量數(shù)據(jù)生成相關模型。數(shù)據(jù)規(guī)模越大,意味著更多的信息、更多的樣本、更多的特征,給人工智能模型提供更充分的訓練和學習的機會,提高人工智能的泛化能力。數(shù)據(jù)數(shù)量同樣決定AI智能的高度。以華為盤古大模型研發(fā)團隊發(fā)現(xiàn)為例,AI氣象預報模型的精度不足主要有兩個原因:第一,原有的AI氣象預報模型都是基于2D神經(jīng)網(wǎng)絡,無法很好地處理不均勻的3D氣象數(shù)據(jù);第二,AI方法缺少數(shù)學物理機理約束,因此在迭代的過程中會不斷積累迭代誤差。為此,研究團隊創(chuàng)造性地提出了適應地球坐標系統(tǒng)的三維神經(jīng)網(wǎng)絡(3DEarth-SpecificTransformer)來處理復雜的不均勻3D氣象數(shù)據(jù),通過提升數(shù)據(jù)數(shù)量還有質量,并且使用層次化時域聚合策略來減少預報迭代次數(shù),從而減少迭代誤差。通過在43年的全球天氣數(shù)據(jù)上訓練深度神經(jīng)網(wǎng)絡,盤古氣象大模型在精度和速度方面超越傳統(tǒng)數(shù)二、數(shù)據(jù)存儲是大模型時代發(fā)展AI的核心在科學領域,從“數(shù)據(jù)”中可以提煉出經(jīng)驗性“原理”,也可以使用“原理”來仿真模擬出“數(shù)首先,數(shù)據(jù)準備時間長,數(shù)據(jù)來源分散,歸集慢,預處理百TB數(shù)據(jù)需10天左右,這不利于系統(tǒng)的其次,如今大模型的規(guī)模越來越大,達到千億甚至萬億的參數(shù)級,訓練需要海量的計算資源和存儲空間。比如多模態(tài)大模型以海量文本、圖片為訓練集,但是當前海量小文件的加載速度不足其三,大模型參數(shù)頻繁調優(yōu),訓練平臺不穩(wěn)定,平均約2天出現(xiàn)一次訓練中斷,需要Check-最后,大模型實施門檻高,系統(tǒng)搭建繁雜,資源調度難,GPU資源利用率通常不到40%。為此,需要非常專業(yè)的軟件、硬件工程師來進行實施并進綜上所述,構建大容量、高性能的存力數(shù)據(jù)基數(shù)據(jù)準備時間長數(shù)據(jù)來源分散,歸集慢預處理時間長,百TB級需10天訓練集加載效率低模型參數(shù)大,千億級、萬億級小文件性能差,數(shù)據(jù)加載不足100MB/s訓練過程易中斷參數(shù)頻繁調優(yōu),訓練平臺不穩(wěn)定平均約2天中斷一次企業(yè)實施門檻高系統(tǒng)搭建繁雜,資源調度難GPU資源利用率不到40%數(shù)據(jù)編織,近存計算海量小文件高吞吐Checkpoints并行高帶寬一站式交付圖1-7大模型訓練時的關鍵數(shù)據(jù)挑戰(zhàn)1.3.3發(fā)展先進數(shù)據(jù)存力基礎設施,是構建大模型時代高質量發(fā)展的1.3.3發(fā)展先進數(shù)據(jù)存力基礎設施,是構建大模型時代高質量發(fā)展的基石過去十年,人工智能(AI)的飛速增長與數(shù)據(jù)基礎設施逐步演變密切相關。從存儲技術的革新,云計算的大規(guī)模采用,到數(shù)據(jù)湖和數(shù)據(jù)倉庫的出現(xiàn),以及向量數(shù)據(jù)庫的日益利用,每次的演變都在AI繁由于大模型的訓練需要快速地處理數(shù)據(jù),對性能指標有更高的要求,將會催生高性能存儲的新品類,也會加速存儲在各環(huán)節(jié)的融合,類似于數(shù)據(jù)湖存儲,而不是像過去預處理、訓練、推理、歸集各自構建。在原有的基礎架構上,AIforScience時代下的先進數(shù)據(jù)存力基礎設施將有以下四個方面的一、支持數(shù)據(jù)新范式:數(shù)據(jù)編織大幅縮短AI大模型數(shù)據(jù)準備時間多樣化數(shù)據(jù)快速歸集:基于GFS,針對S3、HDFS、文件等多種協(xié)議接入,支持多樣化數(shù)據(jù)0遷近計算加速:隨路處理縮短IO路徑,減少數(shù)據(jù)搬移,釋放CPU資源。AI高性能存儲:大、小文件自適應讀寫,高IOPS支撐預處理和訓練集聚合優(yōu)化,通過算力、存向量檢索:滿足千萬并發(fā)下的實時推理要求,三、面向AI業(yè)務模型分析的可靠數(shù)據(jù)存儲IO級負載均衡:單客戶端同時訪問多個節(jié)點,元數(shù)據(jù)快速修復:元數(shù)據(jù)損壞快速定界,支持故障快速恢復:高性能、大容量存儲滿足PB級高頻度CheckPoint要求。四、支持數(shù)據(jù)價值精準識別與治理,降低數(shù)據(jù)全生命周期管理TCO全域統(tǒng)一元數(shù)據(jù):將線上、線下的元數(shù)據(jù)統(tǒng)一采集到線下進行統(tǒng)計、分析,為客戶展示統(tǒng)一的數(shù)08級預取和淘汰。熱點數(shù)據(jù)識別后,數(shù)據(jù)安全流動,同步到多個集群上去。多源數(shù)據(jù)共池,一個集群故障后,客戶端自動failover到其他集群對應的備份目錄。訓練數(shù)據(jù)傳輸訓練數(shù)據(jù)傳輸存儲網(wǎng)絡優(yōu)化訓練據(jù)層原始數(shù)據(jù)層預處理服務器性能型存儲(必選)CheckPoint長期留存容量型存儲全局數(shù)據(jù)視圖非結構化文件訓練服務器推理服務器近數(shù)據(jù)隨路處理推理結果修正和加速向量化存儲按需讀取訓練數(shù)據(jù)結構化文件模型長期留存模型加載視頻圖片CADE圖1-8面向AI先進存力基礎設施1.4.1美國大力推動高性能數(shù)據(jù)密集型基礎設施互聯(lián)1.4.1美國大力推動高性能數(shù)據(jù)密集型基礎設施互聯(lián)美國將高性能數(shù)據(jù)密集型基礎設施上升至國家任務,2023年3月10日美國能源部(DOE)宣布了一項提案,要求國家實驗室主導高性能數(shù)據(jù)設施(HPDF)。該項目旨在創(chuàng)建一個專門從事數(shù)據(jù)密集型科學先進基礎設施的新科學用戶設施,DOE預計HPDF項目在投資約為3-5億美元。HPDF的使命將是通過提供最先進的數(shù)據(jù)管理基礎架構、功能和工具來實現(xiàn)和加速科學發(fā)現(xiàn)。HPDF將在管理科學數(shù)據(jù)生命周期方面發(fā)揮領導作用,并將推進能源部和政府對公眾獲取科學數(shù)據(jù)和公平數(shù)據(jù)原則(可查找、可訪問、可互操作和可重復使用)的承諾。該設施將設計為動態(tài)配置計算、網(wǎng)絡和存儲資源,以訪問靜止或運動中的數(shù)據(jù),支持使用精心策劃的數(shù)據(jù)集,以及直接從實驗或儀器對流數(shù)據(jù)進行近乎實時的分析。09圖1-9ESnet6網(wǎng)絡連接地圖來源:/news-and-publications/welcome-esnet6/esnet6-maps/DOE的研究機構之間經(jīng)常有任務式的PB級大數(shù)據(jù)量搬運,數(shù)據(jù)增長越來越快,且新型科學研究需要科研機構之間的大數(shù)據(jù)量互訪。能源部設想,將以HPDF為基礎采用“Hub-and-Spoke”模型,在Hub處托管集中的資源,并通過在Spoke或其他地點部署和協(xié)調分布式基礎設施來支持高優(yōu)先級的美國能源部任務應用。Hub和Spoke將通過Esnet進行互聯(lián)。1.4.2歐洲成立超算聯(lián)合體,構建一體化超算基礎設施1.4.2歐洲成立超算聯(lián)合體,構建一體化超算基礎設施一、“一體化超算基礎設施”成為歐洲未來超算建設重點歐洲超算聯(lián)合體(EuroHPCJU),成立于2018年,旨在承載構建一體化的世界級超算&數(shù)據(jù)基礎設施,支撐歐洲高競爭力創(chuàng)新的HPC&大數(shù)據(jù)生態(tài)的使命。圖1-10Federation2023+項目計劃互聯(lián)所有EuroHPC系統(tǒng)的HPC資源來源:https://eurohpc-ju.europa.eu/index_en2021-2033年期間將投資80億歐元新預算用于持續(xù)擴大部署世界級的超算中心,其中Federation2023+項目,計劃互聯(lián)所有EuroHPC系統(tǒng)的HPC資源并提供以下服務:(1)身份驗證、授權和認證服務2)算力服務,包括交互式計算和云接入-虛擬機-容器的服務;(3)數(shù)據(jù)服務,包括歸檔服務和數(shù)據(jù)庫服務,數(shù)據(jù)流動和傳輸服務;(4)用戶和資源管理服務。二、意大利打造“國家數(shù)據(jù)湖云計算基礎設施”,打破計算存儲資源孤島壁壘意大利國家超算中心(ICSC),是由PNRR投資贊助的的五個國家中心之一,目標最終建設成一個共享與開放的Cloud/HPC分布式基礎設施,為國家戰(zhàn)略部門存儲計算資源,最終通過科研界以及工業(yè)界加速國家的數(shù)字化。該中心超算建設戰(zhàn)略目標是為國家戰(zhàn)略部門(超算,人工智能,數(shù)值模擬等)提供創(chuàng)新ICT資源,讓意大利成為一個建設配備國家數(shù)據(jù)湖云計算基礎設施的國家,該基礎設施可被動態(tài)和虛擬的分配給科研組織或者用戶,打破計算存儲資源孤島壁壘。所有用戶之間資源共享,以提升資源分配與使用的靈活性。ICSC成立博洛尼亞意大利數(shù)據(jù)谷(DataVal-ley),打造1個超算云架構,連接15+數(shù)據(jù)中心,承接10大領域科研課題。一方面將集中維護和加強意大利的HPC和大數(shù)據(jù)基礎設施,另一方面將開發(fā)先進的數(shù)值方法,應用程序以及軟件工具,將基礎設施和計算、模擬、收集和分析科研活動進行整合,同時向云和分布式數(shù)據(jù)湖架構演進。1.4.3中國超算互聯(lián)網(wǎng)工程,構建一體化算力網(wǎng)絡和數(shù)據(jù)平臺1.4.3中國超算互聯(lián)網(wǎng)工程,構建一體化算力網(wǎng)絡和數(shù)據(jù)平臺近年來,在科技部和各省市政府的積極推動下,中國超算建設已取得一定成績,有效支撐了科技創(chuàng)新、社會民生、數(shù)字經(jīng)濟發(fā)展。隨著以大數(shù)據(jù)、人工智能為代表的新一代信息技術迅猛發(fā)展,全社會對算力提出了更高要求,亟需突破現(xiàn)有單體超算中心運營模式,以應對算力設施分布不均衡、接口不統(tǒng)一、應用軟件自主研發(fā)和推廣不足等問題,更好地統(tǒng)籌協(xié)調全國超算中心算力。為了解決上述挑戰(zhàn),科技部于2023年4月啟動國家超算互聯(lián)網(wǎng)部署工作,用互聯(lián)網(wǎng)思維運營超算,將全國眾多超算中心連接起來,并連接產(chǎn)業(yè)生態(tài)中的算力供給、應用開發(fā)、運營服務、用戶等各方能力和資源,構建一體化超算算力網(wǎng)絡和服務平臺。按照計劃,到2025年底,國家超算互聯(lián)網(wǎng)將可形成技術先進、模式創(chuàng)新、服務優(yōu)質、生態(tài)完善的總體布局,有效支撐原始科學創(chuàng)新、重大工程突破、經(jīng)濟高質量發(fā)展等目標達成。國家超級計算濟南中心(以下簡稱“濟南超算”)在超算互聯(lián)走在了全國前列。2022年7月22日,2022中國算力峰會,超算互聯(lián)網(wǎng)工程正式上線。通過這一工程,各地的超算中心和大數(shù)據(jù)中心將實現(xiàn)數(shù)據(jù)和算力的互聯(lián)互通,整合成為一個算力圖1-12超算互聯(lián)網(wǎng)上線啟用圖1-13“東數(shù)西算”數(shù)據(jù)存儲集群系統(tǒng)上線濟南超算率先在建設省域沿黃9市的算力平臺,并逐步構建濟南超算-山西超算-西安超算-鄭州超算的黃河流域高性能算力圈,并與黃河中上游三個國家一體化大數(shù)據(jù)中心樞紐節(jié)點相互聯(lián)接,圍繞數(shù)據(jù)存儲和應用需求,建立健全多元異構、云邊協(xié)同的一體化算力體系。濱州東營煙臺德州煙臺威海濟南超算中心聊城淄博濟南超算中心聊城青島海洋實青島海洋實驗室泰安濟寧菏澤臨沂菏澤棗莊世界各國都在加速高性能數(shù)據(jù)基礎設施部署,推進超算互聯(lián)工程進程,打造集應用、數(shù)據(jù)、算力服務于一體的超算平臺,實現(xiàn)跨超算中心的鏈接,包括算力資源和數(shù)據(jù)資產(chǎn)的統(tǒng)籌與調度。打破計算存儲資源孤島壁壘,支持所有用戶之間資源共享,以提升資源分配與使用的靈活性。一體化數(shù)據(jù)基礎設施已成為超算互聯(lián)建設共性需求。1.5.1國家級網(wǎng)絡攻擊對抗愈演愈烈,科研重點單位1.5.1國家級網(wǎng)絡攻擊對抗愈演愈烈,科研重點單位成為重點目標之一超算中心是國家計算基礎設施,是推動科研創(chuàng)新和工業(yè)發(fā)展的關鍵動力,其平臺及數(shù)據(jù)安全關乎國計民生,也是國家級黑客組織的重點攻擊目標之一。近年來,隨著網(wǎng)絡空間大國博弈的持續(xù)深入,網(wǎng)絡攻擊從民間組織上升到國家級黑客組織,對他2022年3月,根據(jù)360公司報告披露,具有境外背景的黑客組織對中國開展無差別網(wǎng)絡攻擊,攻擊行為極為隱蔽,持續(xù)長達十余年。目標對象涵蓋了黨政機關、科研院所、高等院校、醫(yī)療機構、行業(yè)龍頭企業(yè),以及關乎國計民生的各個行業(yè)關鍵信2022年9月,國家計算機病毒應急處理中心和擊的調查報告。調查顯示,境外組織使用40余種網(wǎng)網(wǎng)絡交換機、路由器、防火墻等數(shù)以萬計的網(wǎng)絡設2023年7月,奇安信公司發(fā)布的《全球高級持續(xù)性威脅(APT)2023年中報告》顯示,2023年上半年全球范圍內,政府部門和國防軍事領域是APT攻擊的首要目標。與去年同期相比,教育、科研領域相關的攻擊事件比例增高,占比分別為11%和9%。從近年網(wǎng)絡攻擊態(tài)勢看,國家級黑客組織的猖獗活動將愈發(fā)增多、愈演愈烈,各類基礎設施的安全將長期處于前所未有的戰(zhàn)略承壓期和高危風險期,這一特征在相當長一段時間內不會改變。媒體3%制造3%加密貨幣4%通信4%30%金融9%9%9%圖1-152023年上半年高級威脅事件涉及行業(yè)分布情況1.5.2各國陸續(xù)出臺法律法規(guī),提升數(shù)據(jù)戰(zhàn)略地位,加強數(shù)據(jù)安全保1.5.2各國陸續(xù)出臺法律法規(guī),提升數(shù)據(jù)戰(zhàn)略地位,加強數(shù)據(jù)安全保護力度近幾年,全球主要經(jīng)濟體包括中國、美國、歐盟、英國等紛紛把數(shù)據(jù)競爭力上升為國家級戰(zhàn)略。雖然2020年受疫情影響,全球整體經(jīng)濟增長減緩,但“減少接觸,遠程辦公”等措施反而使得數(shù)字經(jīng)濟發(fā)展的勢頭更加迅猛。各國更加重視數(shù)據(jù)競爭力,并紛紛出臺政策制定數(shù)據(jù)戰(zhàn)略,宣誓數(shù)據(jù)安全和主權。在保護數(shù)據(jù)安全的前提下,承認數(shù)據(jù)價值、促進數(shù)據(jù)利用,爭相在數(shù)據(jù)政策制訂方面建立·中國2020年4月,《中共中央國務院關于構建更加完善的要素市場化配置體制機制的意見》公布,中央首次明確數(shù)據(jù)成為繼土地、勞動力、資本、和技術之外的第五大生產(chǎn)要素。2022年,黨的二十大報告提出了“加快建設網(wǎng)絡強國、數(shù)字中國”、“健全網(wǎng)絡綜合治理體系,推動形成良好網(wǎng)絡生態(tài)”、“強化網(wǎng)絡、數(shù)據(jù)安全保障體系建設”等重要部署要求,對“推進國家安全體系和能力現(xiàn)代化,堅決維護國家安全和社會穩(wěn)定”進行全局部署,為今后國家網(wǎng)絡安全和信息化的發(fā)展定下了主基調。為應對數(shù)據(jù)安全風險帶來的嚴峻威脅,2021年陸續(xù)頒布《中華人民共和國數(shù)據(jù)安全法》及《中華人民共和國個人信息保護法》?!吨腥A人民共和國數(shù)據(jù)安全法》是數(shù)據(jù)要素國家戰(zhàn)略的基本法,是我國數(shù)據(jù)時代的重要一步,體現(xiàn)了國家對支持數(shù)字經(jīng)濟的決心與信息,是數(shù)字經(jīng)濟“安全與發(fā)展”并重的體現(xiàn)。同期,各個行業(yè)配套落地措施及標準陸續(xù)出臺。2022年,國家進一步強化了前期法規(guī)的縱深推進與落地實施,有力夯實了國家數(shù)據(jù)安全保障基結合我國前期發(fā)布的《國家安全法》、《網(wǎng)絡安全法》與上述其他規(guī)范形成配套組合,作為國家整體安全觀的組成部分,共同構筑了國家信息網(wǎng)絡空間與基礎設施的安全壁壘,為保護國家和個人信息數(shù)據(jù)安全提供了法律依據(jù)?!っ绹?019年12月,美國白宮發(fā)布了《聯(lián)邦數(shù)據(jù)戰(zhàn)略和2020年行動計劃》。聯(lián)邦數(shù)據(jù)戰(zhàn)略以2020年為起始點,描述了美國政府未來十年的數(shù)據(jù)愿景,其核心思想是將數(shù)據(jù)作為戰(zhàn)略資源來開發(fā),通過確立了一致的數(shù)據(jù)基礎設施和標準實踐,來逐步建立強大的數(shù)據(jù)治理能力,為國家經(jīng)濟和安全提供保障。2020年10月8日,美國國防部發(fā)布了《國防部數(shù)據(jù)戰(zhàn)略》(DoDDataStrategy),提出國防部應加快向“以數(shù)據(jù)為中心”的過渡,并制定了數(shù)據(jù)戰(zhàn)略框架。并提出:數(shù)據(jù)是戰(zhàn)略資產(chǎn)、數(shù)據(jù)要集體管理、數(shù)據(jù)倫理、數(shù)據(jù)采集、數(shù)據(jù)訪問和可用性、人工智能訓練數(shù)據(jù)、數(shù)據(jù)適當目的、合規(guī)設計等八大原則;數(shù)據(jù)應當:可見的、可訪問的、易于理解的、可鏈接的、可信賴的、可互操作的、安全的等可見,不管是美國白宮的《聯(lián)邦數(shù)據(jù)戰(zhàn)略》,還是美國國防部的《數(shù)據(jù)戰(zhàn)略》,都希望促進美國內部數(shù)據(jù)的訪問、共享、互操作性和安全性,使數(shù)據(jù)發(fā)揮更大的價值,支持更多創(chuàng)新算法的應用,最終支持美國國家戰(zhàn)略和數(shù)字現(xiàn)代化戰(zhàn)略的實現(xiàn)?!W盟2020年2月,歐盟發(fā)布了《歐盟數(shù)字化戰(zhàn)略》、《數(shù)據(jù)戰(zhàn)略》、《人工智能戰(zhàn)略》。其核心思想亦是在建立聯(lián)邦數(shù)據(jù)平臺的基礎上實現(xiàn)數(shù)據(jù)主權和技術主權,從而達到數(shù)字經(jīng)濟時代,國家競爭同時,歐盟非常重視信息數(shù)據(jù)流通與個人權利保護相結合,在2018年5月發(fā)布了《通用數(shù)據(jù)保護條例》(GDPR),明確了個人數(shù)據(jù)定義和條例適用范圍。條例還確定了數(shù)據(jù)保護的合法性基礎、數(shù)據(jù)主體權利、數(shù)據(jù)控制者義務、數(shù)據(jù)流通標準、數(shù)據(jù)救濟和處罰等內容。通過GDPR,歐盟對出境的個人數(shù)據(jù)保持了高水平保護。同時,歐盟認為GDPR應該成為世界的標桿,在推動世界在數(shù)據(jù)戰(zhàn)略方面向歐盟看齊。因此GDPR也成為全球眾多國家、地區(qū)制定數(shù)據(jù)保護條例的重要參考對象。高性能計算做為體現(xiàn)國家綜合國力和信息化建設能力的“國之重器”,各國均頻繁從國家層面啟動研制計劃。在中國多次上榜全球高性能計算TOP500后,高性能計算從產(chǎn)業(yè)鏈條和技術層面被遏制,中國E級和后E級高性能計算的發(fā)展遇到在嚴峻的國際環(huán)境下,如何突破外部限制與封鎖,保持我國超級計算機的持續(xù)發(fā)展,自主可控成為唯一出路!面對挑戰(zhàn),中國超算產(chǎn)業(yè)需要在超算系統(tǒng)體系結構的創(chuàng)新,關鍵技術的突破和軟件硬件的協(xié)同上發(fā)力。近十幾年,中國在超算關鍵根技術上不斷加大投入和自主創(chuàng)新,初步完成了超算自主可控生態(tài)體系的建設。隨著“天河”和“神威”超級計算機、“飛騰”和“申威”處理器等標志性成果的出現(xiàn),打破了長期以來國產(chǎn)超級計算機平臺無“芯”可用的局面,奠定了安全、自主、可控的國產(chǎn)平臺技術基礎。在“磁退硅進”的全球發(fā)展趨勢下,我國大力發(fā)展以半導體為核心的新一代閃存技術。目前我國企業(yè)已實現(xiàn)一部分關鍵技術的領先和芯片供貨的國產(chǎn)化,具備了一定的產(chǎn)業(yè)基礎。通過提升閃存等先進存儲在超算存儲系統(tǒng)占比,可以有效規(guī)避當前機械硬盤面臨的卡脖子風險,進一步構筑自主可控數(shù)據(jù)底座。截至目前,中國在跨域數(shù)據(jù)管理系統(tǒng)、分布式并行文件系統(tǒng)以及超算集群等方面,相比國外廠家已取得優(yōu)勢;在超算/AI/大數(shù)據(jù)等應用生態(tài)、容器應用平臺。以歐拉為代表的操作系統(tǒng)等均實現(xiàn)對國外廠家的追趕。中國在存儲性能、集群擴展、安全可信、綠色節(jié)能等領域充分體現(xiàn)了數(shù)據(jù)基礎設施技術的先進性。領域國內方案國際地位領域國內方案國際地位集群擴展支持10EF級計算集群并發(fā)支持擴展至集群擴展支持10EF級計算集群并發(fā)支持擴展至EB級存儲集群綠色節(jié)能數(shù)據(jù)零丟失,服務永遠在線自帶防攻擊,數(shù)據(jù)安全共享等保三級聚合帶寬>10TB/s聚合IOPS>3億IO時延<500us碳達峰、碳中和綠色數(shù)據(jù)中心安全可信存儲性能存儲根技術存儲根技術是中國超算產(chǎn)業(yè)健康發(fā)展的基石堅持科技自立自強,發(fā)展自主可控數(shù)據(jù)基礎設施分布式文件系統(tǒng)CPU處理器介質顆粒SSD控制器具備端到端全棧自主可控能力應用生態(tài)HPC/AI應用生態(tài)HPC/AI/大數(shù)據(jù)并跑容器應用平臺并跑跨域數(shù)據(jù)管理系統(tǒng)GFS領跑分布式并行文件系統(tǒng)OceanFS領跑存儲介質長江,長鑫等國家廠家追趕操作系統(tǒng)EulerOS并跑集群OceanStorPacificHPDA集群領跑存儲處理器&控制器鯤鵬+SSD鯤鵬+并跑圖1-16中國“數(shù)據(jù)基礎設施”關鍵根技術持續(xù)突破創(chuàng)新,實目前中國已初步具備建立自主可控數(shù)據(jù)基礎設施的條件,可基于端到端全棧完全自主能力構建安全可信的1.7.1超算系統(tǒng)商業(yè)應用和未來演進面臨能效挑戰(zhàn)1.7.1超算系統(tǒng)商業(yè)應用和未來演進面臨能效挑戰(zhàn)隨著超算系統(tǒng)規(guī)模的不斷擴大和性能的不斷提高,其能耗和散熱問題日益突出。根據(jù)國際能源署的數(shù)據(jù),全球超級計算機的能源消耗量已經(jīng)超過了一些小國家的總能源消耗量。在當前可持續(xù)發(fā)展的宏觀背景下,超級計算的能效不僅影響了超算的運行效率和可靠性,也關系到環(huán)境保護和資源利用效率。因此,提高超算系統(tǒng)的能效比和降低碳排放已經(jīng)成為超算行業(yè)的重要目標。其中能效比是衡量計算機性能和能源消耗之間關系的指標,它表示單位計算能力所消耗的能源量。下圖是過去10年根據(jù)Green500榜單公布的歷年最佳超級計算機的能效比,雖然十年間能效比提升了10余倍,但是近兩年持平,維持在60GFLOPS/W。GFLOPS/W7060504030201020132014201520162017201820192020202120222023圖1-17近10年Green500最佳超算計算機能效比目前超算系統(tǒng)性能和能效的提升速度之間有大概十多倍的差距,如果性能提升1000倍,能效可能只能提高不到100倍?,F(xiàn)在E級計算機能耗大概50兆瓦,按此推算Z級計算機能耗大約在500兆瓦左右。從經(jīng)濟角度來說,P級計算機一年運營經(jīng)費大概幾千萬人民幣,E級大概幾個億,而Z級一年運營經(jīng)費需要幾十個億。超級計算機的高能耗也導致高過去超算技術進步有兩條路,包括單個芯片性能的提高,以及系統(tǒng)所含的處理器數(shù)量的提高,即并行規(guī)模的擴大。目前這兩條路都碰到了天花板,芯片工藝逐漸接近極限,摩爾定律接近失效;而并行規(guī)模基于上述能效原因也不能再無限擴展。從超1.7.2通過軟硬件設計優(yōu)化提升超級計算機能效,實現(xiàn)超算系統(tǒng)可1.7.2通過軟硬件設計優(yōu)化提升超級計算機能效,實現(xiàn)超算系統(tǒng)可持續(xù)發(fā)展為了解決超算系統(tǒng)的能源效率問題,研究人員和工程師們已經(jīng)提出了一系列的解決方案。首先,改進硬件設計是提高能源效率的重要途徑。例如,通過改進超級計算機的制造工藝,減少電子元件的能耗,提高能源利用效率;采用更先進的散熱技術,如液冷技術和熱管技術,可以提高散熱效率,減少能耗。此外,研究人員還提出了一些新的功耗管理技術,如采用動態(tài)電壓頻率調整(DVFS)技術,根據(jù)負載情況動態(tài)調整處理器的電壓和頻率,其次,改進軟件設計也是提高能源效率的關鍵。如通過優(yōu)化并行計算算法和任務調度策略,減少計算過程中的能耗;另外,超級計算機的大規(guī)模數(shù)據(jù)處理和存儲也是能耗的重要來源。通過采用數(shù)據(jù)壓縮和存儲優(yōu)化技術,減少數(shù)據(jù)傳輸和存儲過程中的能耗。最后,通過采用能耗感知的任務調度策略,根據(jù)不同任務的能耗需求和計算資源的能耗特了很多優(yōu)秀實踐。國家超級計算無錫中心的神威太湖之光E級系統(tǒng)通過軟硬協(xié)同的多層級功耗管理和基礎設施“智冷”技術,等將能耗指標PUE值已降至1.22,實現(xiàn)年均節(jié)電量300萬千瓦時。超級計算機的能源效率是一個重要的研究領域,對于實現(xiàn)超算系統(tǒng)可持續(xù)發(fā)展具有重要意義。通過改進硬件設計和制造過程,優(yōu)化軟件設計,以及借助新的能源技術,可以有效提高超算系統(tǒng)的能2.1HPC與AI走向融合,構建“5A”新型超算架構為更好應對新應用帶來的生態(tài)復雜性變化、新業(yè)務催生的混合業(yè)務負載壓力、新數(shù)據(jù)與算力協(xié)同帶來的數(shù)據(jù)跨地域訪問需求、新平臺帶來的安全穩(wěn)定可靠及數(shù)據(jù)管理挑戰(zhàn),需要構建以應用為中心,支撐HPC、大數(shù)據(jù)、AI多系統(tǒng)融合業(yè)務的新型超任何視圖管理(AnyView)作業(yè)管理設備管理用戶管理數(shù)據(jù)管理統(tǒng)一作業(yè)調度統(tǒng)一設備監(jiān)控任何視圖管理(AnyView)作業(yè)管理設備管理用戶管理數(shù)據(jù)管理統(tǒng)一作業(yè)調度統(tǒng)一設備監(jiān)控統(tǒng)一用戶分析多維數(shù)據(jù)透視…任何應用生態(tài)(AnyApplication)制造模擬生命科學天氣預測精準醫(yī)療工業(yè)質檢智能辦公……人工智能高性能計算+大數(shù)據(jù)人工智能高性能計算+CIFS、NFS、HDFS、S3、Posix、MPIOBurstBuffer存算均衡大規(guī)模部署全對稱架構橫向擴展動態(tài)混合負載性能型平衡型歸檔型 BurstBuffer存算均衡大規(guī)模部署全對稱架構橫向擴展動態(tài)混合負載性能型平衡型歸檔型 數(shù)據(jù)密集型存儲底座任何業(yè)務負載(AnyWorkload)ParallelIO、GCC、SparkShuffle、CheckPoint、BatchLoad……近計算機加速并行文件系統(tǒng)任何位置訪問任何位置訪問(AnyWhere)DC1DC3DC2一體化存儲集群,數(shù)據(jù)互聯(lián)互通邊緣邊緣任何狀況在線任何狀況在線(AnyCondition)設備故障、病毒攻擊、數(shù)據(jù)泄露、數(shù)據(jù)中心故障、供應安全 穩(wěn)定多活多DC數(shù)據(jù)持久訪問 安全防病毒、防勒索全棧國密自主可控健康監(jiān)測 可靠冗余保護數(shù)據(jù)中心災備圖示2-1數(shù)據(jù)密集型超算異構融合全棧架構·任何應用生態(tài)(AnyApplication)HPC高性能計算、大數(shù)據(jù)分析及AI人工智能分析新型應用不斷涌現(xiàn),業(yè)務生態(tài)走向融合,需要具備支持多協(xié)議融合、科學計算工作流優(yōu)化等能力。實現(xiàn)制造模擬、生命科學、天氣預測等傳統(tǒng)HPC應用向精準醫(yī)療、工業(yè)質檢、智能辦公等HPC+大數(shù)·任何業(yè)務負載(AnyWorkload)HPC、大數(shù)據(jù)、AI多技術融合帶來多業(yè)務混合負載,面對HPC應用并行IO訪問、GCC編譯、大數(shù)據(jù)SparkShuffle、AI大模型CheckPoint、BatchLoad等混合負載訴求,需要近計算加速Burst并行文件系統(tǒng)可解決帶寬和IOPS型業(yè)務共存的問題,應對動態(tài)混合I/O負載,需要全對稱分布式架構設計,根據(jù)不同業(yè)務訪問需求,多協(xié)議按需訪問,·任何位置訪問(AnyWhere)多中心部署正在成為新常態(tài),數(shù)據(jù)分布在核心超算中心、邊緣超算中心等多超算中心,需要融合數(shù)據(jù)資源池,面向不同類型的異構設備及產(chǎn)生的海量數(shù)據(jù),提供統(tǒng)一數(shù)據(jù)存儲,實現(xiàn)跨超算中心的熱、溫、冷數(shù)據(jù)自動分級,全生命周期數(shù)據(jù)管理。面向跨集群的統(tǒng)一元數(shù)據(jù)管理,元數(shù)據(jù)全局可見,數(shù)據(jù)在任何位置都能輕松就近訪問、安全流動,突·任何狀況在線(AnyCondition)為了滿足新型HPDA多應用場景對安全穩(wěn)定可靠的更高要求,應對病毒攻擊、數(shù)據(jù)泄露新挑戰(zhàn),需要具備主動健康監(jiān)測、防病毒、防勒索、全棧國密的能力,同時保障供應安全,實現(xiàn)安全的超算平臺,針對設備故障、超算中心故障等風險,需要具備多活多DC、數(shù)據(jù)冗余保護、數(shù)據(jù)中心災備等關鍵能力,保障超算數(shù)據(jù)平臺的穩(wěn)定可靠,實現(xiàn)數(shù)據(jù)訪·任何視圖管理(AnyView)面向HPDA平臺作業(yè)管理、設備管理、用戶管理、數(shù)據(jù)管理等全場景管理訴求,需要統(tǒng)一智能管理平臺提供統(tǒng)一作業(yè)調度、統(tǒng)一設備監(jiān)控、統(tǒng)一用戶管理、多維度數(shù)據(jù)透視,實現(xiàn)設備狀態(tài)持續(xù)監(jiān)AnyApplication:新型應用不斷涌現(xiàn),數(shù)據(jù)密集型超算應具備隨著數(shù)據(jù)密集型超算的發(fā)展,業(yè)務生態(tài)場景趨向復雜,常常需要考慮傳統(tǒng)HPC、大數(shù)據(jù)、AI混合疊加的情況。以油氣勘探場景數(shù)據(jù)的處理為例,需要對野外地震勘探所采集的地震數(shù)據(jù)進行現(xiàn)場處理,然后到超算中心進行多步預處理、合成地震記錄、三維地震解釋標注、時深轉換、地質建模、油藏模擬、數(shù)據(jù)歸檔等十多步數(shù)據(jù)處理環(huán)節(jié),最終由地質專家根據(jù)生成的地質構造圖確定油氣位置、儲量大小、開采價值和策略等。數(shù)據(jù)采集階段需要使用CIFS/S3格式把數(shù)據(jù)存儲在邊緣存儲中,經(jīng)過預處理后,以NFS/POSIX格式傳入中心存儲作為核心數(shù)據(jù)。由中心存儲以POSIX格式共享給其他各個業(yè)務環(huán)節(jié)使用。場景中使用Omega、Geo-vation、Vista、Echos等幾十種軟件,中間數(shù)據(jù)會有10-20倍的膨脹,達到10PB級別。油氣勘探場景天然需要高性能計算對大規(guī)模的數(shù)據(jù)進行三維重建,為滿足場景中多業(yè)務流程的需求,超算需要具備支持多協(xié)議互通、科學計算工作流優(yōu)化等能力,同時兼顧全應用生態(tài)演進,立足當下,滿足未來5-10年的發(fā)展需求。2.2.1應用快速發(fā)展,需要多協(xié)議融合互通能力支撐業(yè)務未來演進2.2.1應用快速發(fā)展,需要多協(xié)議融合互通能力支撐業(yè)務未來演進(1)從業(yè)務角度來看,各種應用需要不同隨著業(yè)務應用的發(fā)展,一套超算常常需要支持多種業(yè)務應用。HPC業(yè)務采用S3、NFS、CIFS、SMB、標準POSIX、MPI-IO等協(xié)議訪問,大數(shù)據(jù)業(yè)務采用HDFS、MapReduce等協(xié)議訪問,AI業(yè)務采用NFS、標準POSIX等協(xié)議。面向未來業(yè)務應用的融合超算,需要支撐兼容業(yè)務應用的多種協(xié)(2)應用不斷演進,新的協(xié)議還將層出業(yè)務的交叉演進,數(shù)據(jù)的不斷增加,迫使應用不斷演進出新的協(xié)議需求,如何面向未來,兼容新協(xié)議接口,做到系統(tǒng)內部改動最小,接口迭代開(3)超算應具備容器native承載能力容器作為一種輕量級的虛擬化技術,可以將應用程序及其依賴項打包成一個可移植的容器,通過讓應用程序在不同的環(huán)境中運行,提高業(yè)務的部署效率和可靠性,減少部署時間和成本。容器化還可以實現(xiàn)快速擴容和縮容,以應對業(yè)務高峰期和低谷期的變化,提高了系統(tǒng)的彈性和可靠性?;谌萜麟S著業(yè)務的發(fā)展,還將涌現(xiàn)出更多協(xié)議、技術棧,未來的超算應支持多協(xié)議無損互通,支持多技2.2.2數(shù)據(jù)分析廣泛應用,需要支持2.2.2數(shù)據(jù)分析廣泛應用,需要支持科學計算工作流,提升業(yè)務效率科學計算工作流是指在科學研究中,通過計算機模擬、數(shù)據(jù)分析、比對等方式,對實驗數(shù)據(jù)進行處理和分析,從而得出科學結論的一系列流程。在現(xiàn)代科學研究中,計算已被廣泛使用,然而不同應用的計算流程差異很大,不同環(huán)節(jié)對超算系統(tǒng)要求也不同,如何針對應用場景,支持計算流程是提升業(yè)務速率的關鍵,甚至直接決定了科研的商業(yè)轉化(1)存儲需要支持科學計算工作流,目錄以AI模型訓練為例,業(yè)務流主要包括數(shù)據(jù)獲數(shù)據(jù)獲取主要是把多方獲取的數(shù)據(jù)進行脫敏、合規(guī)、匯聚到邊緣存儲,再用NAS協(xié)議或S3協(xié)議統(tǒng)一存儲到中心存儲元數(shù)據(jù)庫中,作為原始數(shù)據(jù)。數(shù)據(jù)預處理是由預處理服務器對數(shù)據(jù)進行格式統(tǒng)一、錯誤糾正、異常數(shù)據(jù)清理、重復數(shù)據(jù)清理的過程。這步一般采用NAS協(xié)議或HDFS協(xié)議進行數(shù)據(jù)訪問,最終形成訓練集數(shù)據(jù)和索引數(shù)據(jù)集。20流程階段數(shù)據(jù)預處理原始數(shù)據(jù)->訓練數(shù)據(jù)推理應用輸入數(shù)據(jù)+模型->Vector流程階段數(shù)據(jù)預處理原始數(shù)據(jù)->訓練數(shù)據(jù)推理應用輸入數(shù)據(jù)+模型->Vector->應用模型訓練原始數(shù)據(jù)+訓練+調優(yōu)+評估-》模型數(shù)據(jù)獲取三方收集、網(wǎng)絡爬取、邊緣匯聚…計算處理流程計算處理流程預處理服務器格式標準化錯誤糾正異常數(shù)據(jù)清理重復數(shù)據(jù)清除 GPU4基礎大模型訓&推理行業(yè)模型訓推一體化預處理服務器格式標準化錯誤糾正異常數(shù)據(jù)清理重復數(shù)據(jù)清除 GPU4基礎大模型訓&推理行業(yè)模型訓推一體化脫敏、合規(guī)、審批、匯聚GPU1脫敏、合規(guī)、審批、匯聚GPU1GPU2邊緣存儲邊緣存儲GPU2邊緣存儲邊緣存儲GPU3…GPU3…模型加載數(shù)據(jù)并行模型加載數(shù)據(jù)并行小文件、高IO向量存儲加速HDFS協(xié)議小文件、高IO向量存儲加速HDFS協(xié)議NAS協(xié)議多協(xié)議融合互通GDS全域數(shù)據(jù)管理動態(tài)混合負載數(shù)據(jù)處理流程全域數(shù)據(jù)管理動態(tài)混合負載數(shù)據(jù)處理流程高性能層高性能層CheckCheck原始數(shù)據(jù)訓練集數(shù)據(jù)索引數(shù)據(jù)LOG向量庫業(yè)務數(shù)據(jù)原始數(shù)據(jù)訓練集數(shù)據(jù)索引數(shù)據(jù)LOG向量庫業(yè)務數(shù)據(jù)向量庫智能分級智能分級熱溫冷智能分級跨域數(shù)據(jù)災備全域數(shù)據(jù)管理熱溫冷智能分級跨域數(shù)據(jù)災備全域數(shù)據(jù)管理數(shù)據(jù)安全可信大容量層圖示2-2AI大模型業(yè)務全流程模型訓練是由計算使用訓練數(shù)據(jù)集對模型進行訓練,不斷調整模型參數(shù),使其能夠更好地擬合數(shù)據(jù)。一般采用GDS或POSIX等高速接口滿足動態(tài)推理應用是通過訓練好的模型對輸入數(shù)據(jù)進行處理,系統(tǒng)需要存儲過程向量,完成明確目的的任務。多次訓練需要頻繁訪問向量庫,處理過程是對GPT4未來訓練數(shù)據(jù)可達PB級別,從單模態(tài)發(fā)展為兼容多模態(tài),海量數(shù)據(jù)分配到不同CPU、GPU上并行計算,小文件存儲被頻繁讀取,涉及到數(shù)據(jù)的頻繁遷移,系統(tǒng)間的IO性能差異可能成為制約業(yè)務的瓶頸。資源的使用需要通過科學計算工作流進行管理和調度,以確保資源的充分利用和任務因此,加速AI全流程,需要系統(tǒng)支持多協(xié)議融合互通、支持混合負載的高性能訪問、支持數(shù)據(jù)的全生命周期管理。當前AI大模型訓練有多種實現(xiàn)方式,早期的計算+共享存儲+本地SSD盤的存儲架構已無法滿足大模型的未來發(fā)展要求。新的高性能、大容量、獨立融合的統(tǒng)一數(shù)據(jù)基座正成為新的主流(2)利用AI模型優(yōu)化傳統(tǒng)業(yè)務計算流,例如:利用盤古AI大模型優(yōu)化氣象預報。傳統(tǒng)業(yè)務把WRF、GFS、ECMWF、CAM等天氣預測軟件部署在超算上,軟件求解物理方程進行預測,求解過程高頻反復迭代,累積誤差影響精度。如中國氣象局臺風路徑預報精度很難控制在60km范圍內,面臨計算量大、高IO、耗時長(高IO)挑戰(zhàn),每天僅能進行2-3次預報,通過將原先的HPC數(shù)值模擬流程采用。通過采用大模型預測算法,使推理過程迭代次數(shù)減少,累積誤差減小,計算更加高效,實現(xiàn)10秒~1分鐘內出7天預報結果,每天可進行多次預報。氣象人員還可根據(jù)經(jīng)驗通過構建多個數(shù)據(jù)模型初值,生成預報集合(集合預報),進一氣象預報服務盤古氣象大模型(AI)同化系統(tǒng)預報系統(tǒng)(AI大模型推理)后處理系統(tǒng)氣象預報服務盤古氣象大模型(AI)圖示2-3氣象AI大模型推理流程AnyWorkload:多技術融合帶來多樣負載,數(shù)據(jù)密集型超算2.3.12.3.1HPC+AI+BigData多樣性應用,需要動態(tài)混合負載承載能力世界各大超算系統(tǒng)被廣泛使用于需要高算力與高數(shù)據(jù)量的應用,而近年來人工智能的發(fā)展也使愈來愈多的與人工智能技術相結合,更進一步對超算系統(tǒng)·自動駕駛應用隨著自動駕駛技術由L3向L4演進,數(shù)據(jù)量倍增,每車每天可產(chǎn)生約60TB數(shù)據(jù)。數(shù)據(jù)收集導入階段為PB級別的數(shù)據(jù)量寫入,而預處理后的數(shù)據(jù)集寫入即可對存儲系統(tǒng)產(chǎn)生百GB/s的帶寬需求。之后的訓練階段則需要從存儲讀出海量大小文件,要求存儲提供百萬級IOPS。而仿真階段,亦要求存儲提供百GB/s以上帶寬。最后在推理階段,應用的實時性要求數(shù)據(jù)讀寫.AI大模型訓練如GPT-3這樣的大模型,擁有千億級參數(shù),訓練數(shù)據(jù)集可達幾千億級,而文件平均大小往往在10KB-500KB之間。訓練階段需要從存儲快速加載海量小文件,要求存儲系統(tǒng)提供千萬級IOPS性能。而下一代的GPT-4大模型,則會要求存儲提供億級IOPS性能用于訓練。同時,由于大模型訓練的出錯率較高,平均每天需要多次將體量較大的CheckPoint文件寫入存儲,而之后的模型評估也對存儲系統(tǒng)中模型的讀出有極高的帶寬要求。這意味著存儲系統(tǒng)需要能同時提供小文件的億級IOPS讀寫,以及大文件的TB/s級別讀寫帶寬。諸多應用在統(tǒng)一超算平臺上同時運行,需要超算平臺的數(shù)據(jù)存儲系統(tǒng)能同時滿足高性能計算(HPC)、人工智能(AI)、大數(shù)據(jù)分析(BigData)類別的數(shù)據(jù)訪問。順序大IO的帶寬類、隨機小IO的高IOPS類、批量元數(shù)據(jù)操作的OPS類、還有同時訪問同一個文件的并行IO類這些數(shù)據(jù)訪問包·批量元數(shù)據(jù)操作的OPS密集型··小文件隨機小IO的IOPS密集型···超算平臺的數(shù)據(jù)存儲系統(tǒng)需要設計動態(tài)均衡能實現(xiàn)以應用為中心,面向高性能計算(HPC)、人2.3.2E級大規(guī)模應用,需要近計算實現(xiàn)加速2.3.2E級大規(guī)模應用,需要近計算實現(xiàn)加速新一代E級超算,作為國家在新信息技術領域的重要部署,將有力驅動國家信息技術產(chǎn)業(yè)創(chuàng)新發(fā)展,研發(fā)適配國產(chǎn)超級計算系統(tǒng)的關鍵技術和應用軟件,構建新的國產(chǎn)E級超級計算應用生態(tài)。國家超級中心聯(lián)合發(fā)布了“面向新一代國產(chǎn)E級超算系統(tǒng)的十大應用”,例如:面向通用人工智能的超大規(guī)模預訓練模型、FAST超大規(guī)模觀測數(shù)據(jù)的高分辨率巡天圖像處理、全腦千億神經(jīng)元動力學仿真、完全分辨率的全球次中尺度海洋數(shù)值模擬等,以解決世上述大規(guī)模應用對E級超算系統(tǒng)帶來了如下挑大規(guī)模RDMA連接導致內存資源開銷大、網(wǎng)絡交互端口沖突帶來了長尾時延;(2)大規(guī)模應用如何應對整體系統(tǒng)可靠性:業(yè)界E級大規(guī)模集群MTBF較小,對CheckPoint具有較高依賴,業(yè)務效率對BB互相干擾:IO性能無法達到預期,單系統(tǒng)利用率不高;(4)如何避免少量存儲節(jié)點慢對整體速度的影響:少量存儲節(jié)點處于亞健康狀態(tài),導致的短木板BurstBuffer作為在E級超算中應用的一種高速緩存技術,需要提供近計算加速部署,突破性能和擴容性瓶頸,利用分布式計算的優(yōu)勢加速大規(guī)模應用計算問題的解決。同時,也要求計算節(jié)點和緩存節(jié)點根據(jù)拓撲關系分組配對,就近創(chuàng)建作業(yè),作業(yè)間數(shù)據(jù)隔離。通過RDMA網(wǎng)絡,實現(xiàn)大規(guī)模網(wǎng)絡快速收斂,滿足數(shù)萬級計算擴展能力,支撐EF/10EF計算匯聚網(wǎng)絡計算匯聚網(wǎng)絡計算接入網(wǎng)絡計算層計算接入網(wǎng)絡計算接入網(wǎng)絡計算接入網(wǎng)絡加速層加速層BurstbutterBurstbutter存儲層存儲接入網(wǎng)絡存儲層存儲接入網(wǎng)絡智能分級智能分級SSD存儲池

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論