版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
DPUCPUGPU比是肌肉,而DPUCPU負責數(shù)據(jù)在各種CPUCPU與GPU、以及GPU與GPU上決定了系統(tǒng)是否能協(xié)同工作。DPU網(wǎng)絡(luò)、存儲、安全等處理性能,助力服務(wù)器運行效率顯著提升,有效降低成本。因此,DPU構(gòu)建數(shù)據(jù)中心網(wǎng)絡(luò)的基礎(chǔ)設(shè)施,在其上掛載了各種DPU與阿里云在DPUDPU大規(guī)模落地DPUDPU的產(chǎn)品形態(tài)定義逐漸清晰,DPU的技術(shù)標準也在不斷完善。從此DPUDPU的優(yōu)勢運用到自身業(yè)務(wù)系統(tǒng)之中,例如RedHatVMwarePaloAlto些方案背后共同的本質(zhì)思想是:將云計算的IaaS層組件從服務(wù)器側(cè)卸載后圍繞DPU、阿里云的技術(shù)路線不謀而合。IaaSonDPU簡稱IoD。本文重點闡述了IoDDPU構(gòu)建云計算基礎(chǔ)設(shè)施服務(wù)(IaaS)的性能優(yōu)勢與建設(shè)路徑。隨著DPU技術(shù)的成熟,不論從功能完備性、系統(tǒng)穩(wěn)定性還是性價比角度,DPUIoD能算力底座的核心技術(shù)與最佳實踐。前言第1章云計算發(fā)展趨勢ii11.1云計算系統(tǒng)已經(jīng)成為數(shù)字世界的“操作系統(tǒng)”................11.1.1 云計算的發(fā)展歷程 ...........................11.1.2 .............................21.2AI產(chǎn)業(yè)催生高性能云計算需求.........................31.2.1 AI技術(shù)發(fā)展概述 ............................31.2.2 AI計算影響重大....................41.2.3 AI訓練的云計算支撐架構(gòu)....................51.3IaaSonDPU(IoD)算力底座技術(shù)路線 .....................61.3.1 IoD發(fā)展歷程 ..............................61.3.2 IoD............................71.3.3 高性能云計算的規(guī)格定義 .......................101.4IoD高性能云計算應(yīng)用范式...........................131.4.1 .........................131.4.2 .........................141.4.3 .........................151.4.4 .........................151.4.5 “電光火石”的低時延云 .......................16第2章云計算業(yè)務(wù)模型分析182.1當前主流云計算體系結(jié)構(gòu)............................182.1.1 .................................182.1.2 .................................192.1.3 .................................192.1.4 .................................202.2計算業(yè)務(wù)分析 ..................................202.2.1 裸金屬服務(wù)器..............................21TOC\o"1-2"\h\z\u2.2.2 虛擬機 212.2.3 容器 22GPU服務(wù)器 22應(yīng)用場景與選擇策略 23網(wǎng)絡(luò)業(yè)務(wù)分析 24存儲業(yè)務(wù)分析 25安全業(yè)務(wù)分析 26平臺服務(wù)業(yè)務(wù)分析 27數(shù)據(jù)庫 27中間件 27服務(wù)治理 28第3章高性能云計算基礎(chǔ)設(shè)施建設(shè)路徑293.1通用算力技術(shù)分析................................293.1.1 CPU的計算能力發(fā)展歷程.......................293.1.2 CPU算力提升帶來的優(yōu)勢............303.1.3 IoD技術(shù)為Hypervisor卸載提供最佳支撐 ..............323.2智算算力技術(shù)分析................................343.2.1 GPU的計算能力發(fā)展歷程.......................343.2.2 GPU..............353.2.3 AI...............363.3云計算網(wǎng)絡(luò)技術(shù)分析 ..............................383.3.1 .....................383.3.2 .....................393.3.3 高性能云計算需要網(wǎng)絡(luò)卸載進行性能提升..............393.4云計算存儲技術(shù)分析 ..............................423.4.1 單一存儲技術(shù)方案無法滿足云計算要求 ...............423.4.2 .................433.4.3 IoD............443.5云計算安全技術(shù)分析 ..............................453.5.1 ......................453.5.2 .................463.5.3 安全卸載技術(shù)在高性能云安全中至關(guān)重要..............473.5.4 DPU將成為可信計算服務(wù)中的重要組件...............473.5.5 IoD技術(shù)助力構(gòu)建“零信任”網(wǎng)絡(luò) ..................483.6云計算服務(wù)治理技術(shù)分析............................503.6.1 服務(wù)治理技術(shù)是云原生時代的重要基礎(chǔ) ...............503.6.2 ......................503.6.3 IoD....................513.7IaaSonDPU(IoD)高性能云計算全景 .....................51第4章高性能云計算系統(tǒng)架構(gòu)持續(xù)演進534.1高性能云計算可觀測性建設(shè) ..........................534.1.1 可觀測建設(shè)是云計算運維體系的關(guān)鍵環(huán)節(jié)..............534.1.2 ......................544.1.3 ......................554.2輕量級虛擬化系統(tǒng)演進架構(gòu)革新........................564.2.1 ......................564.2.2 輕量級虛擬化技術(shù)為云計算帶來新氣象 ...............574.2.3 DPU+................584.3“一云多芯”系統(tǒng)融合.............................594.3.1 “一云多芯”的應(yīng)用困境 .......................594.3.2 IoD技術(shù)有助于完善“一云多芯”的服務(wù)評估體系.........59第5章高性能云計算為PaaS服務(wù)賦能615.1高性能大數(shù)據(jù)計算服務(wù).............................615.2高性能中間件服務(wù)................................625.3高性能數(shù)據(jù)庫服務(wù)................................62第6章未來展望64第1章云計算發(fā)展趨勢云計算系統(tǒng)已經(jīng)成為數(shù)字世界的“操作系統(tǒng)”云計算的發(fā)展歷程云計算技術(shù)的最初起源可以追溯到20世紀50年代ChristopherStrachey發(fā)表的《TimeSharinginLargeComputer》論文,開啟了對虛擬化技術(shù)探討的大門。隨后60IBMMIT為首的產(chǎn)業(yè)與學術(shù)巨頭紛紛投入相關(guān)研究并在虛擬化領(lǐng)域1974年,GeraldJ.PopekRobertGoldbergFormalRequirementsVirtualizableThirdGenerationArchitectures(PopekandGoldbergvirtualizationrequirements)和I型與II型虛擬化類型。隨著虛擬化技術(shù)的不斷成熟與基礎(chǔ)算力設(shè)施能力的提升,使得具備“彈性、按用Qemu、、KVM2006Google時任CEOEricSchmidtCloudS2010年,OpenStack項目創(chuàng)建,標志著云計算技術(shù)進入平民化時代,將云計算行業(yè)發(fā)展正式推向了高潮。2070UnixV72009年以形式成為LinuxCNCF2018年發(fā)布的云原生技術(shù)漸顯現(xiàn)出強大的統(tǒng)治力,成為未來發(fā)展的主要方向。伴隨著云計算的蓬勃發(fā)展,當前世界上的主要算力基礎(chǔ)設(shè)施幾乎都是通過云計算云計算技術(shù)特點云計算的發(fā)展呈現(xiàn)出顯著的業(yè)務(wù)驅(qū)動特征,當前AIGC、、5G/B5G、等行業(yè)的發(fā)展一方面要求云計算技術(shù)能為其提供融合性的底層技術(shù)支撐,能夠按需以裸ZunMagnum等,CNCFKubevirt、Metal3等項目也逐漸成熟,這些都是為提供多模態(tài)服務(wù)CPUGPU與DPU3U負責調(diào)度管理與運行業(yè)務(wù)進程,是通用“算力”負歷史的經(jīng)驗告訴我們,技術(shù)的發(fā)展總是呈現(xiàn)出螺旋式上升的樣貌。也總有人調(diào)侃,一體”的融合算力基礎(chǔ)設(shè)施構(gòu)建的融合性云計算平臺,正是支撐不斷爆發(fā)的上層業(yè)務(wù)應(yīng)用運轉(zhuǎn)的最佳實踐方案。圖1.1:“3U一體”融合基礎(chǔ)設(shè)施業(yè)務(wù)承載多?;癁榱藵M足業(yè)務(wù)向云端平滑遷移的需求,會要求云平臺能夠適配業(yè)務(wù)系統(tǒng)的當前情況,從容器、虛擬機、裸金屬中選擇最佳的云上承載方式。例如對硬件設(shè)施有特殊需求的業(yè)務(wù)需要通過裸金屬承載,對操作系統(tǒng)有特殊需求的業(yè)務(wù)以虛擬機承載,其余業(yè)務(wù)以容器承載。計算性能極致化AIGC大爆發(fā)的背景下,上層業(yè)務(wù)系統(tǒng)從網(wǎng)絡(luò)性能、存儲性能、安全性能等眾G為云計算系統(tǒng)的標配,400G的無損網(wǎng)絡(luò)接入也逐漸在行業(yè)落地。系統(tǒng)構(gòu)成組件化云計算技術(shù)體系越來越龐雜,單獨的封閉體系很難滿足來自業(yè)務(wù)系統(tǒng)層出不窮的API設(shè)計已經(jīng)成為主流云計算系統(tǒng)的構(gòu)成基礎(chǔ)放、可替換”模式已經(jīng)成為云計算技術(shù)架構(gòu)的主旋律。AI產(chǎn)業(yè)催生高性能云計算需求AI技術(shù)發(fā)展概述(ArtificialIntelligence,簡稱樣思考和學習,并最終實現(xiàn)自主決策的智能化行為。21AI了算法的發(fā)展。2006Hinton教授提出了深度學習的概念,極大地發(fā)展了人工2012在ImageNet時代的到來。AI大發(fā)展的時期。過去十多年基于深度學習++人類對齊”的大模型,經(jīng)歷了從小數(shù)據(jù)到大數(shù)據(jù),從小模型到大模型,從專用到通用的發(fā)展歷程,人工智能技術(shù)正逐步進入大模型時代。2017GoogleTransformer模型以來,AI大語言模型(LLM,LargeLanguageModel)已取得飛速進展。2022年底,由OpenAI發(fā)布的基于GPT3.5的語言大模型ChatGPT大數(shù)據(jù)ChatGPT為代表的潮。2024年被稱為AGI元年,文生視頻大模型Sora的問世再次引爆了行業(yè)熱點,在通用問題上AI通過自學習實現(xiàn)從GPT到GPT-Zero的升級,開啟了AGI時代。云計算性能對AI計算影響重大隨著大模型和生成式AI2017年20236大模型參數(shù)量從Transformer6500GPT41.8萬億,2Al《計算能力Al21.32010年深度學(小模型時代Al算力需求縮短至5.72023要的Al1-2個月就翻—番,摩爾定律的增速顯著落后于社會對Al算力的指數(shù)級需求增長速度,即“Al超級需求曲線”遙遙領(lǐng)先傳統(tǒng)架構(gòu)的Al算力供給,帶來了Al202310月發(fā)布《算力基20236197EFLOPS,25.4%20232024300EFLOPSAI訓練過程有關(guān)鍵影響,是AI大模型訓練質(zhì)量(效率、穩(wěn)定性、能耗、成本、信任等)的關(guān)鍵因素。底層智AI訓練的質(zhì)量有著重大影響,體現(xiàn)在多個方面:數(shù)據(jù)處理能力:千億級模型的訓練需要使用文件、對象、塊等多種存取協(xié)議處理PBcheckpoint的讀寫吞吐性能要10TB/s?,F(xiàn)有智算存儲設(shè)施在協(xié)議處理、數(shù)據(jù)管理、吞吐性能等方面面臨難以滿足萬卡級集群的數(shù)據(jù)吞吐性能要求。高性能云計算平臺能夠高效地存儲和處理海量的訓練數(shù)據(jù)。數(shù)據(jù)預(yù)處理、清洗和標注等步驟可以在云端高效完成,確保輸入模型的數(shù)據(jù)質(zhì)量,從而提升模型的準確性和泛化能力。GPUTPU等加速器,AI模型的訓練時間。大規(guī)模并行處理能力使得處理復(fù)雜的深度學習模型成為可能,這對于模型收斂速度和訓練質(zhì)量至關(guān)重要。AllRightsReserved 4分布式訓練:云計算平臺支持模型的分布式訓練,通過多節(jié)點并行計算,可以處圖像識別模型等尤為重要。型架構(gòu)搜索等,找到最優(yōu)模型配置。云計算的靈活性允許數(shù)據(jù)科學家和工程師快速迭代,提高模型性能。IOIO性能減少了數(shù)據(jù)讀寫瓶頸,確保訓練過程中數(shù)據(jù)的快速存取,這對于大規(guī)模數(shù)據(jù)處理和模型訓練至關(guān)重要。AI訓練任務(wù)的需求動態(tài)調(diào)整資源分配,保證計算資源的高效利用。自動化工具和服務(wù)進一步簡化了模型訓練流程,降低了操作復(fù)雜度。成本效益:云計算的按需付費模式降低了進入門檻,使得企業(yè)和研究機構(gòu)無需前AIAI技術(shù)的普及和創(chuàng)新。AI訓練,還通過其靈活、高AIAI發(fā)展和廣泛應(yīng)用。主流AI訓練的云計算支撐架構(gòu)智算云數(shù)據(jù)中心架構(gòu)可劃分為基礎(chǔ)設(shè)施層、管理調(diào)度層、大模型平臺層、AIGC應(yīng)用層,各層的作用說明如圖1.2所示:圖1.2:智算中心架構(gòu)基礎(chǔ)設(shè)施層適度超前建設(shè),滿足面向未來客戶的算力多元化需求,基于開放計算,兼顧軟硬一體協(xié)同,構(gòu)建多元融合型架構(gòu),將通用CPU與多元異構(gòu)芯片集成,融合多種算力,充分釋放算力的價值。基于領(lǐng)先的AI服務(wù)器為算力單元,支持成熟豐富的軟件生態(tài),形成高性能、高吞吐的計算系統(tǒng),為AI訓練和AI推理生產(chǎn)輸出強大、高效、易用的計算力。管理調(diào)度層硬件資源與AI應(yīng)用松耦合,CPU算力與AI算力按需配比,AI算力資源按需調(diào)用,隨需應(yīng)變,顯存可擴展、算力可超分。任務(wù),AI卡及多機多卡不同場景要求。大模型平臺層覆蓋AI算法模型持續(xù)升級、提供專業(yè)化數(shù)據(jù)和算法服務(wù),讓更多的用戶享受普適普惠的智能計算服務(wù)。AIGC應(yīng)用層AI互服務(wù)、文本交互服務(wù)、圖像生成服務(wù)與視頻生成服務(wù)等。需要滿足業(yè)務(wù)系統(tǒng)高可用性與快速迭代等需求。AIAI圖1.3所示。IaaSonDPU(IoD)算力底座技術(shù)路線IoD發(fā)展歷程IaaSCPU算力承載,但是隨著對云計算性能需求的提升以及極致利用CPUDPU構(gòu)建IaaS2013年發(fā)布Nitro(DPU)DPUNitro設(shè)CPU100%構(gòu)建了一整套高性能、高穩(wěn)定性的云服務(wù)體系,成為全球范圍內(nèi)最大圖1.3:主流分布式訓練框架DPU設(shè)備緊密配合,幫助阿里云取得了巨大的成功。on,簡稱為等企業(yè)的DPUNvidia、Intel、AMD等芯片行業(yè)的領(lǐng)軍企業(yè)進軍DPUDPU合的路徑成為業(yè)內(nèi)關(guān)注的焦點。上述芯片企業(yè)通過行業(yè)論壇或技術(shù)文章等方式發(fā)表過IaaSDPURedHat、VMware等也順應(yīng)趨勢,展開了相關(guān)研究并在其產(chǎn)品中納入了相關(guān)能力。其中關(guān)鍵性事件是OPI與ODPU等標準化組織的成立,云廠商與DPU參與其中探討DPUAPIAPI規(guī)范可以將云平臺與DPU設(shè)備解耦,將IoD術(shù)規(guī)范化并全面推向云計算行業(yè)。IoD技術(shù)路線解析IoDDPU的異構(gòu)運算能力,將云計算平臺的基礎(chǔ)設(shè)施組件盡可能下沉到DPUCPU開銷與提升IaaS礎(chǔ)設(shè)施組件下沉到DPU1.4IoD架構(gòu)下的系統(tǒng)模型。圖1.4:IoD系統(tǒng)模型OpenstackKubernetes在虛擬技術(shù)和容器編排方向各有側(cè)重,但它們可以互補使用,并且隨著不斷地技術(shù)迭代,二者的業(yè)務(wù)覆蓋范圍也有所重疊。級IaaSKubernetes系統(tǒng)則是從上層業(yè)務(wù)的架構(gòu)設(shè)計與生命周期管理角度出發(fā),提供更好的業(yè)務(wù)編排特性與抽象層次更高的網(wǎng)絡(luò)與存儲特性,擁有更加豐富的系統(tǒng)組件和更加靈活的插件機制,更適合作為以容器業(yè)務(wù)為主的IaaS+PaaSKubernetes體系中提供的ServiceMesh組件,在底層平臺提供了豐富的服務(wù)治理能力,其內(nèi)置的服務(wù)發(fā)現(xiàn)、負載均衡、業(yè)務(wù)自體系更友好的插件機制,CNCFKubernetes其在虛擬化與業(yè)務(wù)隔離性方面的劣勢。GartnerKubernetes構(gòu)建AI相關(guān)的云計算基礎(chǔ)設(shè)施中,Kubernetes體系占據(jù)絕對數(shù)量優(yōu)勢,已經(jīng)成為云計算技術(shù)發(fā)展與應(yīng)用最主要的方向。由于以上原因,IoD技術(shù)架構(gòu)更推薦選擇采用擴展Kubernetes的形式,通過眾多插件將DPU能力引入到云原生技術(shù)棧中,并將Worker節(jié)點的基礎(chǔ)設(shè)施組件完全運行在DPU中。圖1.5:IoD技術(shù)架構(gòu)圖如圖1.5所示,典型的IoD技術(shù)部署在DPU上的核心組件包括:DPU盤中掛載用戶鏡像,可以實現(xiàn)裸金屬業(yè)務(wù)的快速切換與業(yè)務(wù)溫遷移。器上所有虛機實例的管理。CM-Agent:容器業(yè)務(wù)組件,定期從Kubernetes接收新的或修改的Pod規(guī)范,并確保Pod及其容器在期望規(guī)范下運行。CNI-DPU可以靈活高效對接各種外部網(wǎng)絡(luò)。CSI-DPU:存儲插件,提供高性能存儲卸載方案,同時兼容多種存儲方案。點。Service理功能,為虛擬機、容器以及裸金屬業(yè)務(wù)提供通用的服務(wù)治理能力。節(jié)點,以避免其頻繁拉取遠端鏡像。DPUDPU開發(fā)套件進行適配。DPUKubernetes系統(tǒng),IoDKubernetes平臺也需要進行相應(yīng)擴展,核心擴展包括:BM-Component:實現(xiàn)裸金屬業(yè)務(wù)定義與生命周期管理。VM-Component:實現(xiàn)虛擬機業(yè)務(wù)定義與生命周期管理。Kubernetes原生組件:實現(xiàn)容器業(yè)務(wù)定義與生命周期管理。CNI-Controller:實現(xiàn)網(wǎng)絡(luò)服務(wù)定義與管理。CSI-Controller:實現(xiàn)存儲服務(wù)定義與管理。Sec-Controller:實現(xiàn)安全服務(wù)定義與管理。Service-Mesh:服務(wù)治理組件,實現(xiàn)服務(wù)治理規(guī)則定義與管理。Image-Controller:鏡像管理組件,提供容器、虛擬機、裸金屬鏡像統(tǒng)一管理與預(yù)熱策略下發(fā)功能。Cluster-ProviderDPUAPI-ServerAPIIaaS能力。通過以上設(shè)計,已經(jīng)完成了云計算IaaS體系與DPU的結(jié)合并將主要組件下沉到DPU系統(tǒng)。類似的設(shè)計方案對Openstack體系也完全適用。API-ServerIoD基礎(chǔ)環(huán)境OpenstackAPI集成,IoD改造。IoDDPU為核心構(gòu)造、軟硬件一體化高性能IaaS為“3U一體”和“一云多芯”的異構(gòu)算力管理提供更好的解決方案。通過對網(wǎng)絡(luò)、存運行效率。此外,通過IoD金屬業(yè)務(wù)的統(tǒng)一調(diào)度和運維管理能力,提升運維管理效率。高性能云計算的規(guī)格定義高性能網(wǎng)絡(luò)規(guī)格定義在高性能云計算底座中,高性能網(wǎng)絡(luò)需要滿足一系列嚴格的要求:(Throughput):提供極高的帶寬,以確保數(shù)據(jù)可以在節(jié)點間快速流動,減少傳輸瓶頸。例如,在PBGB甚至更高。延遲(Latency):秒級甚至納秒級,以保證系統(tǒng)的響應(yīng)速度和實時性。并發(fā)連接(Concurrency):在高負載和大規(guī)模分布式環(huán)境中,單節(jié)點需要同時處理成數(shù)萬并發(fā)連接,確保每個連接都能得到及時響應(yīng)。(QoS):不同類型的數(shù)據(jù)流和服務(wù)對網(wǎng)絡(luò)資源的需求和優(yōu)先級不同,QoS功能允許網(wǎng)絡(luò)管理員根據(jù)服務(wù)類型動態(tài)分配帶寬和其他資源,確保關(guān)鍵應(yīng)用的性能不受非關(guān)鍵流量的影響。冗余:(Redundancy)現(xiàn)故障,也能保持網(wǎng)絡(luò)的連通性和穩(wěn)定性。這意味著網(wǎng)絡(luò)需要有多條路徑和備份鏈路,以及自動故障檢測和恢復(fù)機制。(Manageability)記錄,幫助運維人員及時發(fā)現(xiàn)和解決問題。高性能存儲規(guī)格定義儲對于處理性能的規(guī)格定義通常包括以下關(guān)鍵指標和參數(shù):吞吐量(Throughput100-400Gb/s,根據(jù)云規(guī)模的不同略有浮動。IOP(Iput/OutputOperationserSecondIOPS是指存儲系統(tǒng)每秒鐘可以執(zhí)行的輸入/IOPS數(shù)據(jù)處理能AIGC應(yīng)用中,單個存儲前端也需要百萬級的單磁盤IOPSLatenc存儲系統(tǒng)的額外延遲開銷,高性能云計算的延遲總體開銷應(yīng)控制在亞毫秒級(即百微秒量級。容量(Capacity:存儲系統(tǒng)的容量指的是其可以存儲的數(shù)據(jù)量。在高性能存儲方EB級。魯棒性(obutnes:高性能存儲系統(tǒng)需要具備高可靠性和高可用性,以確保數(shù)據(jù)的安全性和持續(xù)性。這包括數(shù)據(jù)冗余、故障恢復(fù)能力、備份與恢復(fù)機制等。數(shù)據(jù)保護(Security:高性能存儲系統(tǒng)需要提供有效的數(shù)據(jù)保護機制,包括數(shù)據(jù)加密、訪問控制、數(shù)據(jù)備份等,以確保數(shù)據(jù)的安全性和完整性。Extendibility擴展存儲容量和性能,以適應(yīng)不斷增長的數(shù)據(jù)需求。IntegrationNFSMBObject、iSCSI、FC、NVMe-oF等,以滿足不同應(yīng)用場景的需求。高性能安全規(guī)格定義算環(huán)境中,而傳統(tǒng)網(wǎng)絡(luò)安全軟件無論是防火墻、VPN、IPS等產(chǎn)品都非常消耗服務(wù)器主全防護比較薄弱的一個重要原因。算力損耗(Loss-rate5%。吞吐量(Throughput有丟失情況下的最大數(shù)據(jù)傳輸速率,開啟安全功能后,安全吞吐量可能為正常情70-90%。延時Latency:開啟安全功能后,網(wǎng)絡(luò)延時需要控制在微秒級。會話數(shù)量(umberofsession:最大會話數(shù)量指基于防火墻所能順利建立和保持TCP/UDP會話數(shù),對于高性能網(wǎng)絡(luò),最大會話數(shù)量至少為千萬級。每秒新建連接數(shù)(ConnectionerSecond,CPS:每秒新建連接數(shù)指一秒以內(nèi)所能TCP/UDP新建連接請求的數(shù)量,每秒新建連接數(shù)通常需要幾十萬級。誤報率(alsealarmrate:誤報率是指某種類型的網(wǎng)絡(luò)業(yè)務(wù)流量被誤識別為其它類型網(wǎng)絡(luò)業(yè)務(wù)流量在所有被測試網(wǎng)絡(luò)業(yè)務(wù)流量樣本中的占比,此指標需要接近于0%。漏判率(Missrate:漏判率是指網(wǎng)絡(luò)業(yè)務(wù)流量中預(yù)期應(yīng)該被識別出來的業(yè)務(wù)類型0%Identificationaccuracy100%95%以上。隧道會話數(shù)(umberofIPSectunnels:最大IPSec隧道會話數(shù)量指IPSec話所能順利建立和保持的最大并發(fā)會話數(shù),IPSec隧道會話數(shù)量至少為數(shù)萬級到數(shù)十萬級。每秒新建IPSec會話數(shù)(IPsecConnectionerSecond:每秒新建連接數(shù)指一秒以IPSecIPSec隧道會話的數(shù)量,至少要求在幾千或數(shù)萬級。IoD高性能云計算應(yīng)用范式“兼容并包”的公有云態(tài)?;A(chǔ)設(shè)施能力的提升會為公有云服務(wù)商帶來很多優(yōu)勢:拓展用戶寬度:云計算服務(wù)的性能是對部分客戶至關(guān)重要,云計算服務(wù)的網(wǎng)絡(luò)帶寬、存儲性能、響應(yīng)時間等往往成為客戶是否選擇一家云廠商的關(guān)鍵因素,因此更高的性能有助于云計算廠商有效的拓展用戶寬度。降低客戶成本:更高的性能意味著云計算客戶可以用更短的時間完成任務(wù),直接關(guān)系到客戶的使用成本,高性能云計算平臺可以幫助云服務(wù)商在價格競爭中取得身位領(lǐng)先。CPU可售賣資源,因此高性能云底座將直接關(guān)系到云服務(wù)商的生產(chǎn)能力。提升資源池與存儲后端等領(lǐng)域也可以通過性能提升為云服務(wù)商帶來更高的經(jīng)濟效益。DPU的方式來獲得更高DPU可定制能力以及服務(wù)支持能力將成為至關(guān)重要的因素?!鞍踩珡姶蟆钡乃接性疲ㄋ接性疲ㄍ泄芩接性?。由于其承載的控等需求更為強烈,IoD技術(shù)也將為私有云帶來諸多好處:IoD技術(shù),云平臺的基礎(chǔ)設(shè)施層與業(yè)務(wù)運行環(huán)境做到了最大限度的隔離,并且各種基礎(chǔ)設(shè)施能力僅通過虛擬設(shè)備形式對業(yè)務(wù)系統(tǒng)呈現(xiàn),最大限度的完成了運維與業(yè)務(wù)的解耦部署。高安全性:借助DPUDPU監(jiān)控。性能提升:通過定向的性能提升,能夠幫助私有云延續(xù)老式設(shè)備的服役周期,保護既有投資。節(jié)能減排:通過IoD技術(shù)提升集群整體性能,可以用更少的設(shè)備與能耗提供同等算力,幫助客戶實現(xiàn)節(jié)能減排的目標。IoD技術(shù)對于私有云建設(shè)的優(yōu)勢非常明顯,但是目前在運行的私有云改造確面臨著諸多問題,涉及適配改造、業(yè)務(wù)遷移等方面,典型的建設(shè)方案有:IoDIoD集群能夠與源集群較好的適配與互通,能夠?qū)崿F(xiàn)安全方案的平滑遷移以及能夠共享存儲系統(tǒng)。此方法優(yōu)勢是遷移過程較平滑,但是整體項目實施周期可控性較低,遷移啟動時無法充分驗證系統(tǒng)對上層業(yè)務(wù)需求的支持情況。推動當前云平臺完成IoD業(yè)務(wù)改造并確保同一平臺同時支持DPU服務(wù)器與非DPU服務(wù)器同時存在的情況。此方案的優(yōu)勢是可以保持云平臺的一致性,在前期但是存在前期資源投入大的缺點?!靶∏删馈钡倪吘壴艻oD技術(shù)對于邊緣云的發(fā)展來說也具有重大意義:空間節(jié)約:由于邊緣云的部署方式往往受空間限制較大,集群規(guī)模很小,因此借助IoDDPUDPU中,進一步減少邊緣集群服務(wù)器數(shù)量,實現(xiàn)對物理空間的節(jié)約。DPU5GMEC系統(tǒng)可以借助DPUUPF接入能力,視頻監(jiān)控邊緣云系統(tǒng)中可以實現(xiàn)視頻數(shù)據(jù)包的預(yù)處理等。性能提升:DPU緣部署的應(yīng)用對系統(tǒng)時延較為敏感,DPU統(tǒng)應(yīng)對更多的業(yè)務(wù)挑戰(zhàn)。DPU系統(tǒng)對不同邊緣云應(yīng)用需求的DPU的可編程能力與服務(wù)廠商的定制研發(fā)支撐能力具有很強的要求。“異軍突起”的智算云AI提供IaaSPaaSSaaSAI訓練和推理服務(wù)兩種業(yè)務(wù)需求。智算云可以以公有云或私有云等各種形式呈現(xiàn),但由于其專門為AI/HPC基礎(chǔ)設(shè)施層多采用CPU+DPU+GPU3UCPUX86ARM兩種處理器架構(gòu),LoongArch,AlphaGPU的引入可以良好的支持人工智能的推DPU系列產(chǎn)品,通過將智DPU硬件層處理,實現(xiàn)在超高帶寬、超圖1.6:智算云架構(gòu)圖低延遲的網(wǎng)絡(luò)環(huán)境中發(fā)揮極致效能,同時DPU為多租戶智算云業(yè)務(wù)提供安全隔離保護,良好地支撐了AI人工智能的GDR和GDS場景下的推理和訓練業(yè)務(wù),保證了智算云平臺所有業(yè)務(wù)及數(shù)據(jù)安全、穩(wěn)定、可靠的運行。KubernetesIoDDPU硬件上,實現(xiàn)了超高性能的容器云業(yè)務(wù)環(huán)境。算資源管理和調(diào)度平臺提供GPU合AIDPUGPUCPU靈活調(diào)度。AI業(yè)務(wù)應(yīng)用提供開發(fā)框架、預(yù)訓練框架、訓練框架、推理引擎等基礎(chǔ)服務(wù)。AI應(yīng)用層是指智算云平臺上承載的各種智算應(yīng)用服務(wù)。“電光火石”的低時延云行業(yè)對時延要求從毫秒下降到微秒,比如證券領(lǐng)域的極速交易場景對時延要求下探到15%1ms,自動駕駛場景3ms。更低的時延,在產(chǎn)業(yè)中,意味著更高的收益、工智能、工業(yè)控制、邊緣計算等時延敏感場景提供超低時延的云計算服務(wù)。通過IoD技術(shù)體系的異構(gòu)算力管理能力,將低時延傳輸能力納入云平臺管理與調(diào)度,可以更好的支撐低時延云場景的業(yè)務(wù)需求。第2章云計算業(yè)務(wù)模型分析當前主流云計算體系結(jié)構(gòu)(云管理平臺說明:硬件部分硬件部分構(gòu)成了云計算的物理基礎(chǔ),包括服務(wù)器、存儲設(shè)備、網(wǎng)絡(luò)設(shè)備(路由器等)以及可能的專用硬件(如GPU服務(wù)器、FPGA加速器等。向擴展。高密度服務(wù)器:為了提高數(shù)據(jù)中心的空間利用率,現(xiàn)代云數(shù)據(jù)中心傾向于使用高密度服務(wù)器,如刀片服務(wù)器,它們能在有限的空間內(nèi)提供更多的計算能力。CPUGPUFPGATPU(針對特定工作負載,如機器學習、圖形渲染和高性能計算)來提升特定應(yīng)用的處理效率。存儲設(shè)備涉及分布式存儲系統(tǒng),以提供高可用性和數(shù)據(jù)冗余。CephGlusterFS據(jù)的高可用性和容錯性。I/O供低延遲、高吞吐的存儲服務(wù)。網(wǎng)絡(luò)方面,SDN(Software-DefinedNetworking,軟件定義網(wǎng)絡(luò))技術(shù)被廣泛應(yīng)用,實現(xiàn)網(wǎng)絡(luò)資源的靈活配置和管理。SD(軟件定義網(wǎng)絡(luò)OpenFlowOpenDaylight。NF(網(wǎng)絡(luò)功能虛擬化(軟件形態(tài),運行在通用服務(wù)器上,提高靈活性和可擴展性?;A(chǔ)軟件(如Linux(如KVMeHypeV、容器技術(shù)(如Doer、以及分布式系統(tǒng)基礎(chǔ)組件(如分布式文件系統(tǒng)、數(shù)據(jù)庫、消息隊列等。虛擬化技術(shù)允許在單個物理服務(wù)器上運行多個虛擬機,提高硬件資源的利用(ServerlessComputing)操作系統(tǒng)輕量化OS:針對云環(huán)境優(yōu)化的輕量級操作系統(tǒng),如CoreOS、ContainerOS,減少不必要的服務(wù),更適合容器運行環(huán)境。rkt虛擬化技術(shù)1近物理機的性能。2VirtualBoxWorkstation,更適合桌面虛擬化和開發(fā)測試環(huán)境。分布式系統(tǒng)基礎(chǔ)組件Cassandra高可用性和水平擴展性。消息隊列:如Kafka、RabbitMQ,用于解耦服務(wù)、異步處理和高并發(fā)處理。云管平臺及服務(wù)交付。這一層常見的平臺包括OpenStackCloudFormationAzureResourceManagerGoogleCloudConsole等。云管平臺提供了一個統(tǒng)一的界面或API用性和經(jīng)濟性。資源調(diào)度與編排IaaS的管理。監(jiān)控與日志管理Prometheus+Grafana:Prometheus負責收集指標,Grafana用于數(shù)據(jù)可視化,共同實現(xiàn)全面的監(jiān)控。ELKStack:ElasticsearchLogstashKibana安全與合規(guī)IAM(IdentityandccessManaemen:管理用戶身份和權(quán)限,確保只有授權(quán)用戶能訪問相應(yīng)資源。安全組與網(wǎng)絡(luò)的安全性。業(yè)務(wù)服務(wù)不限于:EC2,ECSBMSLambda,Azureunction。存儲服務(wù):對象存儲(S3,AzureBlobtorae、塊存儲、文件存儲等。數(shù)據(jù)庫服務(wù):關(guān)系型數(shù)據(jù)庫服務(wù)RDSoSQL網(wǎng)絡(luò)服務(wù):VPC、EIP、VPN、負載均衡、CDN、DNS管理等。安全服務(wù):身份與訪問管理IAM開發(fā)者服務(wù):持續(xù)集成持續(xù)部署(CI/CAPI網(wǎng)關(guān)、消息隊列等。AI服務(wù):大數(shù)據(jù)處理、機器學習平臺、數(shù)據(jù)湖等。提供按需付費的靈活性,幫助企業(yè)根據(jù)實際需求動態(tài)調(diào)整資源規(guī)模。計算業(yè)務(wù)分析GPU服務(wù)器作為四大核心服務(wù)形態(tài),各自擁有獨特的性能廣泛需求。裸金屬服務(wù)器性能特點:極致性能與低延遲:裸金屬服務(wù)器直接運行在物理硬件之上,消除了虛擬化層的開銷,提供了接近硬件極限的性能。這使得它們成為對計算性能和低延遲有極高要求應(yīng)用的理想選擇,如高頻交易系統(tǒng)、大規(guī)模數(shù)據(jù)庫和高性能計算(HPC)場景。(CPU為單一用戶所用,避免了資源競爭,確保了性能的穩(wěn)定性和可預(yù)測性,適合對資源隔離性有嚴格要求的應(yīng)用。CPUGPU衡量指標:CPUSPECCPUBenchmarkSuite運算性能。StreamBenchmark測試內(nèi)存讀寫速度,反映大塊數(shù)據(jù)操作的效率。存儲I/O性能:使用fio工具測量磁盤讀寫速度和IOP(每秒輸入輸出操作估存儲系統(tǒng)的響應(yīng)能力。iperfnetperf工具測試網(wǎng)絡(luò)接口的最大吞吐量和數(shù)據(jù)包往返時間。虛擬機性能特點:資源靈活分配與管理:虛擬機能夠在一臺物理服務(wù)器上創(chuàng)建多個獨立的運行環(huán)境,每個環(huán)境都擁有自己的操作系統(tǒng)、內(nèi)存、CPU份額和存儲。這使得資源的分配和回收變得非常靈活,適合快速開發(fā)和測試環(huán)境的搭建。隔離與安全性:雖然不如裸金屬服務(wù)器,但虛擬化層提供了基本的隔離能力,防止一個虛擬機的崩潰或攻擊影響到其他虛擬機,提升了整體環(huán)境的安全性。衡量指標:虛擬化開銷評估:比較虛擬機與裸金屬服務(wù)器在相同工作負載下的資源使用和執(zhí)行時間,評估虛擬化層引入的性能損耗。資源調(diào)度效率:觀察CPU穩(wěn)定性。熱遷移能力:測試虛擬機在不同物理主機間遷移的速度和業(yè)務(wù)中斷時間,評估云平臺的靈活性。vCPU、內(nèi)存資源時,虛擬機性能的變化情況。容器性能特點:動速度極快,資源占用小,適合快速部署和擴展微服務(wù)架構(gòu)。高度可移植性:容器鏡像標準化,便于跨平臺、跨環(huán)境部署,提高了開發(fā)到生產(chǎn)的效率和一致性。資源利用率高:相比于虛擬機,容器在資源使用上更為高效,能夠支持更密集的部署,降低資源成本。衡量指標:啟動時間:容器從創(chuàng)建到就緒的平均時間,反映容器的快速響應(yīng)能力。CPU、內(nèi)存使用效率。網(wǎng)絡(luò)性能:容器網(wǎng)絡(luò)模型(Dockerbridge、KubernetesCNI)的吞吐量和延遲,影響服務(wù)間的通信效率。cgroups和namespace險。GPU服務(wù)器性能特點:并行計算加速:GPU(圖形處理器)3DCPU能顯著縮短計算時間。GPU(如HBMGDDR集,減少內(nèi)存訪問瓶頸。能效比:在處理特定類型的工作負載時,GPU相比CPU展現(xiàn)出更高的能源效率,有利于降低長期運營成本。衡量指標:FP32FP16INT8GPU的計算能力。GPU內(nèi)存的數(shù)據(jù)傳輸速度,對處理大型數(shù)據(jù)集至關(guān)重要。(ImagesPerSecond,或模型訓練時間,評估GPU加速效果。GPU中心的運維成本。應(yīng)用場景與選擇策略在實際應(yīng)用中,往往會根據(jù)業(yè)務(wù)特點選擇使用不同的云計算服務(wù):裸金屬服務(wù)器:適合對性能和安全性有極端要求的場景,如核心數(shù)據(jù)庫、大規(guī)模數(shù)據(jù)分析、金融交易系統(tǒng)、高性能計算等。虛擬機:適合需要靈活資源分配、快速部署和低成本試錯的場景,如開發(fā)測試環(huán)境、網(wǎng)站托管、輕量級應(yīng)用部署。容器:適合微服務(wù)架構(gòu)、持續(xù)集成/持續(xù)部署(CI/CD)流程、快速迭代的軟件開發(fā),以及需要快速擴展和高密度部署的場景。GPU3D算需求,以及對計算效率和能效比有特殊要求的應(yīng)用。服務(wù)將更加靈活、高效,更好地服務(wù)于多樣化的業(yè)務(wù)場景。網(wǎng)絡(luò)業(yè)務(wù)分析Spine-Leaf架構(gòu)替代。經(jīng)典的大二層網(wǎng)絡(luò)經(jīng)歷設(shè)備虛擬化方案、L2L3VPC(VirtualPrivateCloud)網(wǎng)絡(luò)。Defined發(fā)揮著至關(guān)重要的作用。SDN技術(shù)是對傳統(tǒng)網(wǎng)絡(luò)架構(gòu)的一次重構(gòu),其核心思想是通過控制面與數(shù)據(jù)面的分SDN網(wǎng)絡(luò)架構(gòu)通常包含三個關(guān)鍵層次:應(yīng)用層:SDN的最上層,承載著云上各種網(wǎng)絡(luò)應(yīng)用和服務(wù),允許開發(fā)人員根據(jù)具體業(yè)務(wù)需求創(chuàng)建自定義的網(wǎng)絡(luò)應(yīng)用程序。同時提供了與控制層交互的API接口,SDN網(wǎng)絡(luò)發(fā)出指令、獲取網(wǎng)絡(luò)狀態(tài)信息以及實時調(diào)整網(wǎng)絡(luò)行為??刂茖樱篠DNSDNController,負責收集全局網(wǎng)絡(luò)視圖,將來自應(yīng)用層的需求轉(zhuǎn)化為具體的網(wǎng)絡(luò)配置指令,并將這些指令傳遞給底層的網(wǎng)絡(luò)設(shè)備。SDNController基礎(chǔ)設(shè)施層:包含了網(wǎng)絡(luò)中的實際設(shè)備,如交換機、路由器等,這些設(shè)備既可以是物理設(shè)備,也可以是虛擬設(shè)備?;A(chǔ)設(shè)施層負責執(zhí)行來自控制層的指令,將其翻譯為底層設(shè)備的配置,實現(xiàn)數(shù)據(jù)的實際傳輸和處理。SDN的控制層和基礎(chǔ)設(shè)施層,控制器、網(wǎng)關(guān)和虛擬交換機協(xié)設(shè)施,其性能很大程度決定了整個云網(wǎng)絡(luò)的整體性能。在云網(wǎng)絡(luò)的早期階段,網(wǎng)關(guān)主要基于傳統(tǒng)的硬件設(shè)備,負責不同網(wǎng)絡(luò)之間的數(shù)據(jù)包轉(zhuǎn)NFV(NetworkFunctionVirtualization)概念的提出,網(wǎng)關(guān)開始向虛擬化方向發(fā)展。NFV允許將傳統(tǒng)網(wǎng)關(guān)的功能(如路由、防NFVSDN集成網(wǎng)關(guān)能夠與SDN控制器配合,實現(xiàn)網(wǎng)絡(luò)策略的集中控制和動態(tài)配置,提高了網(wǎng)絡(luò)的自動化水平和響應(yīng)速度。SDN網(wǎng)關(guān)不LinuxDPDKDPU、智能網(wǎng)卡等設(shè)備的硬件卸載能力,來進一步提升虛擬交換能力。傳統(tǒng)虛擬交換機的大部分數(shù)據(jù)包處理任務(wù)(如封包轉(zhuǎn)發(fā)、VLAN標記/去標記、流量控制等)CPU。隨著虛擬機數(shù)量的增長,網(wǎng)絡(luò)流量的增加,CPU負擔加重,成為性能瓶頸。DPUCPU卸載到專門的硬件設(shè)備上,顯著減輕了CPUDPU等設(shè)備通常配備高性能的網(wǎng)絡(luò)接存儲業(yè)務(wù)分析對特定業(yè)務(wù)場景的需求進行有針對性的考量,以確保系統(tǒng)能夠滿足不同場景下的性能要求。大數(shù)據(jù)分析場景:在大數(shù)據(jù)分析場景下,存儲系統(tǒng)需要具備高吞吐量和低延遲的特性,以支持快速的數(shù)據(jù)讀取和處理。同時,大數(shù)據(jù)分析通常涉及大規(guī)模數(shù)據(jù)的并行處理,因此存儲系統(tǒng)需要具備良好的擴展性和并發(fā)處理能力。人工智能應(yīng)用場景:對于人工智能應(yīng)用,存儲系統(tǒng)需要具備高速的數(shù)據(jù)讀取和寫入能力,以支持大規(guī)模的數(shù)據(jù)訓練和推理過程。低延遲和高IOPS對于實時推理和訓練任務(wù)至關(guān)重要,同時數(shù)據(jù)的一致性和可靠性也是關(guān)鍵指標。在線交易場景:在線交易場景對存儲系統(tǒng)的響應(yīng)速度和數(shù)據(jù)一致性要求較高。存時,數(shù)據(jù)的持久性和可靠性也是關(guān)鍵考量因素。多媒體存儲與流媒體場景:在多媒體存儲和流媒體場景下,存儲系統(tǒng)需要具備高帶寬、高吞吐量和低延遲的特性,以支持大規(guī)模的多媒體數(shù)據(jù)的存儲和傳輸。同時,數(shù)據(jù)的穩(wěn)定性和可靠性對于保障媒體數(shù)據(jù)的完整性至關(guān)重要。安全業(yè)務(wù)分析系。向流量的網(wǎng)絡(luò)攻擊,無論是從成本還是機房空間等其他方面考慮無法部署到計算環(huán)境圍包括VPC之間和VPC臨如下挑戰(zhàn):網(wǎng)絡(luò)引流路徑長,產(chǎn)生額外開銷,防護效率低。需要操作交換機,網(wǎng)絡(luò)操作復(fù)雜,出錯風險增加。無法對跨虛擬機、容器的流量進行隔離防護。需要增加額外的服務(wù)器,占用機房物理空間,綜合成本增加。/不增加額外的機房空間。平臺服務(wù)業(yè)務(wù)分析數(shù)據(jù)庫TP/AP性能、分布式數(shù)據(jù)庫的業(yè)務(wù)場景分為計算密集型、IO密集型和網(wǎng)絡(luò)密集型,分別容易造成計算瓶頸、IO瓶頸和網(wǎng)絡(luò)瓶頸,傳統(tǒng)方案中,一般都是通過增加相對應(yīng)的資源來解決相應(yīng)的業(yè)務(wù)瓶頸,這無疑增加了相應(yīng)的建設(shè)成本。OLAPTP性能提出了較高的要求。OLAP場景AP性能、低資源使用率提出了較高的要求。IaaS基礎(chǔ)能力上,高并發(fā)處理能力,需要高計算處理能力、高帶寬、高IO(高IOPSIOIaaS整體架構(gòu)對于資源使用的優(yōu)化能力。中間件常IO性能。高性能中間件應(yīng)具IO性IO的低延遲。服務(wù)治理如SpringCloudDubbo等。但是一般都存在SetupMesh技術(shù)具有明顯的優(yōu)勢,業(yè)務(wù)開發(fā)人員只ServiceMesh體系的邊車容器完成。但是,ServiceMesh體系中邊車容器的引入,造成了整體通信鏈路的性能降低,這又成為了新的痛點。因此,在云計算場景下,高性能服務(wù)治理是在微服務(wù)時代必須要解決的核心問題,一方面要能夠提供兼具高吞吐與低時延性能的方案,另一方面也需要盡量減少資源消耗。第3章高性能云計算基礎(chǔ)設(shè)施建設(shè)路徑通用算力技術(shù)分析CPU的計算能力發(fā)展歷程CPU計算能力的發(fā)展大致可分為以下幾個階段:早期發(fā)展(1971-2000):19714004開始,CPU18-24個月翻一番。多核時代(2000-2010):單核心頻率提升遇到瓶頸后一時期出現(xiàn)了雙核、四核等多核心處理器通過并行計算提高性能。異構(gòu)計算與專用處理器(2010-2015):除了繼續(xù)提高核心數(shù)量,處理器開始整合GPU等專用單元,形成異構(gòu)計算架構(gòu)。同時,針對特定應(yīng)用如AI的專用處理器開始出現(xiàn)。4.10(2015-2024):核心數(shù)量持續(xù)增加:消費級CPU從四核發(fā)展到現(xiàn)在的16核甚至更多,服務(wù)器CPU則已達到64核甚至128核。制程工藝不斷進步:從22nm、14nm,到現(xiàn)在主流的7nm、5nm,甚至已有3nm制程的CPU問世。更先進的制程帶來了更高的能效比和更強的性能。架構(gòu)創(chuàng)新:各大廠商不斷推出新的CPU架構(gòu),如英特爾的Skylake、AMD的Zen等,通過優(yōu)化指令集、緩存結(jié)構(gòu)等提升性能。異構(gòu)計算:CPU在同一芯片上越來越多地集成了GPU、AI加速器和安全處理器等專用組件。3D封裝技術(shù):AMD3D技術(shù),通過堆疊更大容量的緩存來提升性能。大小核設(shè)計:借鑒移動處理器的設(shè)計理念,將高性能核心和高能效核心結(jié)合,如英特爾的AlderLake架構(gòu)。AI加速:集成專門的AI處理單元,以應(yīng)對日益增長的AI計算需求。安全性增強:加入更多硬件級安全特性,如英特爾的SGX、AMD的SEV等。在具體性能方面,CPU為例,2014CPU(i7-4790K)單2500points(Passmark單核測試),10000points2024年的CPU(AMDRyzen97950X)4000+points,50000points,105倍。服務(wù)器CPU2014年的高端服務(wù)器CPU(如IntelXeonE5-269918核心,36線程24000points2024年的頂級服務(wù)器CPU(如AMD9654)96核心,192線程150000points,6倍。除了原始計算能力的提升,現(xiàn)代CPU還在功耗效率、特定任務(wù)加速(如AI、加密等)、安全性等方面取得了巨大進步。例如,支持AVX-512指令集的CPU在某些特定計算任務(wù)上可以獲得數(shù)倍于傳統(tǒng)指令集的性能提升。然而,CPU的發(fā)展也遇到了一些瓶頸主要包括以下幾個方面:摩爾定律放緩:傳統(tǒng)上,18-24個月翻倍的摩爾定律已經(jīng)難以為繼。制程工藝進入納米級后,面臨量子效應(yīng)等物理極限。功耗墻:隨著晶體管密度的提高單位面積的功耗不斷增加限制了時鐘頻率的進一步提升。存儲墻:CPU速度,CPU經(jīng)常處于等待數(shù)據(jù)的狀態(tài)影響整體性能。(ILP)瓶頸:單核中能夠并行執(zhí)行的指令數(shù)量已接近極限,難以通過增加流水線深度等方法獲得顯著性能提升。多核擴展性問題:增加核心數(shù)量面臨軟件并行化的挑戰(zhàn)以及核心間通信和同步開銷增加的問題。制造成本上升:先進制程研發(fā)和生產(chǎn)線建設(shè)成本呈指數(shù)級增長限制了性能提升的經(jīng)濟可行性。展望未來,CPU的發(fā)展可能會繼續(xù)朝著以下方向前進更先進的制程(2nm1nm)3D封裝技術(shù),以及可能的新型計算范式(如量子計算輔助單元)等。云計算卸載技術(shù)為CPU算力提升帶來的優(yōu)勢從技術(shù)角度分析,云計算卸載技術(shù)可以為CPU算力提升帶來顯著優(yōu)勢,主要體現(xiàn)在卸載基礎(chǔ)服務(wù)釋放CPU資源以及卸載后的性能提升兩個方面。CPU資源卸載技術(shù)將網(wǎng)絡(luò)、存儲、安全、管理等基礎(chǔ)服務(wù)CPUDPUCPU負載:網(wǎng)絡(luò)處理:如TCP/IP協(xié)議棧處理、數(shù)據(jù)包分類、負載均衡等耗費大量CPU周期的任務(wù)被卸載。存儲操作:如數(shù)據(jù)壓縮、加密、RAID計算等I/O密集型任務(wù)被轉(zhuǎn)移。安全功能:如加密/虛擬化管理:Hypervisor的部分功能,如設(shè)備模擬、內(nèi)存管理等被轉(zhuǎn)移。CPU效率:CPU核態(tài)之間切換。I/OCPU處理負擔。優(yōu)化資源分配:更多CPU資源可以分配給核心業(yè)務(wù)應(yīng)用,提高應(yīng)用性能和響應(yīng)速度。支持更高的虛擬機或容器密度,提升整體計算資源利用率。簡化CPU調(diào)度:減少了CPU需要處理的任務(wù)類型,簡化了調(diào)度算法,提高調(diào)度效率。基礎(chǔ)服務(wù)卸載后性能提升將基礎(chǔ)服務(wù)卸載到專門的硬件不僅釋放了CPU資源,還能在性能上超越純CPU處理:硬件加速:DPU可以為特定任務(wù)提供高度優(yōu)化的處理能力。網(wǎng)絡(luò)處理可以實現(xiàn)線速性能,大幅超越CPU軟件處理。低延遲處理:卸載硬件直接與I/O設(shè)備交互,繞過了操作系統(tǒng)內(nèi)核,顯著降低延遲。例如,RDMA技術(shù)可以實現(xiàn)微秒級的網(wǎng)絡(luò)延遲。一致性能:卸載處理不受主機CPU負載波動影響,提供更穩(wěn)定、可預(yù)測的性能。特別適合需要QoS保證的關(guān)鍵業(yè)務(wù)應(yīng)用。能效提升:專用硬件通常比通用CPU更節(jié)能,特別是在處理特定任務(wù)時。整體系統(tǒng)功耗降低,提高了數(shù)據(jù)中心的能源效率。安全性增強:安全功能在獨立硬件上運行,提供了更好的隔離性和防御能力。例如,加密操作在專用硬件中進行,降低了密鑰泄露的風險。CPU資源,還通過專門的硬件加速創(chuàng)新應(yīng)用。IoD技術(shù)為Hypervisor卸載提供最佳支撐核心通常是基于KVM-QEMU架構(gòu)的Hypervisor系統(tǒng)。這種虛擬層平臺通過Hypervisor為上層業(yè)務(wù)提供了靈活且高效的虛擬機環(huán)境。然而,傳統(tǒng)的Hypervisor系統(tǒng)存在一個顯著的缺點:它需要占用主機相當大比例(10%~20%)CPUIoDHypervisorDPU上。這種卸載策略的核心思想是將Hypervisor分為前端和后端兩個部分:前端(運行在主機側(cè):維護邏輯CPU的上下文同步KVMvCPUIO和內(nèi)存的映射關(guān)系后端(運行在DPU上:在虛擬機生命周期的各個階段(如啟動、關(guān)閉)與前端協(xié)同,管理資源的分配和釋放與Libvirt交互,實現(xiàn)虛擬機的全生命周期管理如圖3.1所示,這種架構(gòu)設(shè)計帶來的好處是顯著的:Hypervisor預(yù)留的計算資源可以降低到接近”零”提高了系統(tǒng)的整體效率和性能為了進一步優(yōu)化主機CPU資源的利用率,可以考慮對HostOS進行精簡:圖3.1:IoD技術(shù)Hypervisor卸載方案大部分IO操作都由DPU直接傳遞給虛擬機,HostOS幾乎不需要管理IO硬件設(shè)備HostOS的主要任務(wù)簡化為支持運行虛擬機vCPU線程和管理服務(wù)代理程序采用更為精簡的初始化系統(tǒng),進一步減少HostOS的資源占用這種優(yōu)化策略的最終目標是實現(xiàn)主機CPU資源占用接近”零”的理想狀態(tài)。此外,這種架構(gòu)還為未來的發(fā)展提供了更多可能性:更好的資源隔離:DPU可以提供更強的安全隔離,減少潛在的安全風險靈活的資源調(diào)度:可以根據(jù)負載動態(tài)調(diào)整DPU和主機之間的任務(wù)分配簡化管理:集中化的DPU管理可以簡化整個數(shù)據(jù)中心的運維工作性能優(yōu)化:通過專門的硬件加速某些虛擬化功能,可以進一步提升性能IoDDPUKVM、等系統(tǒng)交互,實現(xiàn)云計算業(yè)務(wù)調(diào)DPU,幫助下沉的云管系統(tǒng)完成對服務(wù)DPU的功能需求。此方法的優(yōu)勢是可以用最小的改造成本完成業(yè)務(wù)卸載,劣勢是犧牲了部分處理性能。長遠來看,更具優(yōu)勢的方案是通過對Linux內(nèi)核的擴展來輔助完成業(yè)務(wù)下沉功能,建議通過增加內(nèi)核線程來對DPU的請求快速響應(yīng),另外通過eBPF機制完成對服務(wù)器操作系統(tǒng)事件的監(jiān)控。這種方案可以提供最優(yōu)的性能,但是需要對Linux內(nèi)核做出較大的改動,相信隨著DPU技術(shù)規(guī)范的完善,后一種方案會快速成熟起來。DPUHypervisor卸載技術(shù)代表了虛擬化技術(shù)的一個重要發(fā)展方向,有望在提高資源利用率、改善性能和簡化管理等方面帶來顯著的進步。智算算力技術(shù)分析GPU的計算能力發(fā)展歷程追溯GPUIBM5150于1981年由IBMPC(monochromedisplayadapter,M)colorgraphicsadapterC,這便是最早的圖形顯示控制1999年,NVIDIA公司在發(fā)布其標志性產(chǎn)品GeForce256時,首次提出了GPU的概transormandlightingT&L256DirectXOpenGLGPU。2011TESLAGPUNVIDIAGPU產(chǎn)品線獨立出來。憑借著架構(gòu)上的優(yōu)勢,GPU成為主角。如圖3.2GPU技術(shù)的發(fā)展歷程。圖3.2:GPU發(fā)展歷程GPU的并行處理結(jié)構(gòu)非常適合人工智能計算,但傳統(tǒng)的基于流處理器的GPU,其流處理器一般只能處理FP32/FP64等精度的運算,而AI計算的精度要求往往不高,INT4/INT8/FP16往往可滿足絕大部分AI計算應(yīng)用。針對AI應(yīng)用,NVIDIA設(shè)計了專用的TensorCore用于AI計算,支持INT4/INT8/FP16等不同精度計算,RTX2080集成了544個TensorCore,INT4計算能力可達455TOPS。NVIDIAGPUAIGPUAI計算往往具有更好的靈活性和通用性,在數(shù)據(jù)中心、云端等環(huán)境下具有更廣泛的AI計算更傾向于獨立的面向特定應(yīng)用領(lǐng)域GPUSOCNPUIP過去8年英偉達GPU算力的發(fā)展如圖3.3所示:圖3.3:Nvidia產(chǎn)品演進八年中GPU性能卻提高了1,000多倍?,F(xiàn)在可以使用Blackwell系統(tǒng)在十天左右的時間內(nèi)訓練出具有1.8萬億個參數(shù)的大型模型,比如GPT-4。兩年前使用最先進的HopperGPU很難在數(shù)月內(nèi)訓練出數(shù)千億級參數(shù)的模型。GPU的未來趨勢有3GPGPU計算AIGPU、更加逼真的圖形展現(xiàn)(光線追蹤RyracingGPU)。GPU算力提升帶來與網(wǎng)絡(luò)吞吐的矛盾現(xiàn)狀由于GPU算力提升與網(wǎng)絡(luò)帶寬發(fā)展的不匹配,在實際使用中,引發(fā)了諸多矛盾點,主要體現(xiàn)在以下幾個方面:GPUGPU絡(luò)或存儲系統(tǒng)中傳輸而處于空閑狀態(tài),造成算力浪費。數(shù)據(jù)局部性問題:在分布式計算環(huán)境中,數(shù)據(jù)需要在不同節(jié)點間傳輸以供計算。GPU算力的提升使得數(shù)據(jù)處理速度加快,但頻繁的數(shù)據(jù)移動會占用大量網(wǎng)絡(luò)資源,影響網(wǎng)絡(luò)的總體吞吐量,尤其是在涉及大數(shù)據(jù)集的應(yīng)用中。通信開銷增加:在并行計算和分布式訓練場景中,GPU之間的通信成為性能的關(guān)GPUGPU應(yīng)用的規(guī)模臟張,需要同步和交換的信大模型的爆發(fā)給云原生智算基礎(chǔ)設(shè)施帶來巨大的技術(shù)挑戰(zhàn),帶動智算云底座網(wǎng)絡(luò)和存儲架構(gòu)向大帶寬、低延遲方向演進:超高算力需求GPT3175B3640PFlop/s-dayARK1500031271PFlop/s-day。超大規(guī)模組網(wǎng)AI大模型/超大模型訓練等智算業(yè)務(wù)場景需要同時使用數(shù)千或數(shù)萬個GPU卡訓練,AI服務(wù)器集群規(guī)模達到10萬+。超高帶寬單臺AI服務(wù)器內(nèi)多塊GPU卡間通信,千億參數(shù)規(guī)模的AI模型AllReduce100GB+;多臺AI100GB+。超低時延us1750模型訓10us1000us時,GPU有效計算時間占比將降低接10%,當網(wǎng)絡(luò)丟包率為千分之一時,GPU13%。高性能存儲自然語言處理模型到1.1717505GBPB外置存儲進一步升級為“性能型存儲高效調(diào)度AI/AIAI算力性能。無損網(wǎng)絡(luò)技術(shù)為AI訓練帶來的性能提升AI(IB承載GDS、GDRGPUGPU與后端存儲之前的高效互聯(lián)。這種實現(xiàn)方式能夠給智算集群的網(wǎng)絡(luò)處理性能帶來質(zhì)的飛躍。提升數(shù)據(jù)傳輸速度、InfiniBand等,其協(xié)議特性相比傳統(tǒng)網(wǎng)絡(luò),能AI訓練過程中數(shù)據(jù)交換更快,從而加速模型參數(shù)的同步,減少訓練周期。減少通信開銷通過流量控制、擁塞管理、負載均衡等機制,減少數(shù)據(jù)包丟失、傳輸錯誤和重傳所造成的額外開銷,是得整個訓練過程更加高效。提高算力資源利用率RDMACPU算力的消耗,計算節(jié)點可以更長時間地處于活躍計算狀態(tài),而不是等待數(shù)據(jù)傳輸,從而提CPU、GPU等昂貴計算資源的使用效率。增強大規(guī)模并行計算的穩(wěn)定性在大規(guī)模分布式訓練中,無損網(wǎng)絡(luò)能夠更好地管理網(wǎng)絡(luò)擁塞,確保數(shù)據(jù)包的順序傳輸,這對于保持模型訓練的收斂性和一致性至關(guān)重要。支持更大模型和數(shù)據(jù)集無損網(wǎng)絡(luò)技術(shù)提高了網(wǎng)絡(luò)的帶寬和效率,使得處理更大模型和更大數(shù)據(jù)集成為可能,這對于提升AI模型的精度和泛化能力是非常關(guān)鍵的。降低能耗由于減少了數(shù)據(jù)傳輸?shù)闹卦嚭偷却龝r間,無損網(wǎng)絡(luò)技術(shù)在提高效率的同時,也有可能降低數(shù)據(jù)中心的能耗,符合綠色計算的趨勢。圖3.4:IoD技術(shù)輔助改善擁塞控制算法在無損網(wǎng)絡(luò)中,DPU擔任了至關(guān)重要的角色,作為網(wǎng)絡(luò)接入點設(shè)備,DPU實現(xiàn)了RDMA協(xié)議棧與擁塞處理技術(shù)的硬件卸載,大幅提升了網(wǎng)絡(luò)性能。由于擁塞處理的復(fù)3.4DPU側(cè)通過軟件定義的方式實現(xiàn)網(wǎng)絡(luò)擁塞狀態(tài)的監(jiān)控與擁塞處理控制,將網(wǎng)絡(luò)處理與上層業(yè)務(wù)解耦,為整個擁塞處理機制提供更好的靈活性。云計算網(wǎng)絡(luò)技術(shù)分析云計算網(wǎng)絡(luò)是算力連通的基礎(chǔ)化配置,確保數(shù)據(jù)和計算任務(wù)可以在不同地理區(qū)域和不同層級的計算節(jié)點間流暢傳輸和執(zhí)行。其中關(guān)鍵的技術(shù)點包括:網(wǎng)絡(luò)架構(gòu)網(wǎng)絡(luò)架構(gòu)是數(shù)字世界的信息流動基礎(chǔ),它定義了數(shù)據(jù)如何在不同節(jié)點間傳輸、交換和存儲。隨著數(shù)據(jù)量的爆炸性增長和計算需求的多元化,傳統(tǒng)的網(wǎng)絡(luò)架構(gòu)面臨前所未有的挑戰(zhàn)。一方面,數(shù)據(jù)的實時性、可靠性和安全性要求網(wǎng)絡(luò)具備更高的帶寬、更低的延遲和更強的穩(wěn)定性;另一方面,計算任務(wù)的復(fù)雜性和多樣性要求網(wǎng)絡(luò)能夠靈活適應(yīng),實現(xiàn)資源的高效分配和智能調(diào)度。算力分布算力分布則是將計算資源按照需求和場景合理布局的過程。在過去,計算資源往往集中在少數(shù)幾個大型數(shù)據(jù)中心,這種集中式布局雖然有利于資源的統(tǒng)一管理和算和分布式計算的興起,算力開始向網(wǎng)絡(luò)邊緣和用戶側(cè)擴散,形成了多層次、多維度的算力分布格局。這種分布式的算力布局不僅能夠降低數(shù)據(jù)傳輸?shù)难舆t,提高數(shù)據(jù)處理的效率,還能增強系統(tǒng)的彈性和安全性,實現(xiàn)計算資源的就地可用和智能調(diào)度。網(wǎng)絡(luò)架構(gòu)與算力分布的協(xié)同優(yōu)化網(wǎng)絡(luò)架構(gòu)與算力分布的協(xié)同優(yōu)化是構(gòu)建高效計算生態(tài)的關(guān)鍵。一方面,網(wǎng)絡(luò)架構(gòu)需要根據(jù)算力分布的特點和需求進行設(shè)計和優(yōu)化,如采用軟件定義網(wǎng)絡(luò)、網(wǎng)絡(luò)功能虛擬化(NFV)和網(wǎng)絡(luò)切片等技術(shù),實現(xiàn)網(wǎng)絡(luò)資源的動態(tài)分配和智能管理,以適應(yīng)算力分布的靈活性和多樣性。另一方面,算力分布也需要充分考慮網(wǎng)絡(luò)架構(gòu)的約束和優(yōu)勢,如利用邊緣計算節(jié)點的低延遲特性,進行實時數(shù)據(jù)處理和決策支持;利用數(shù)據(jù)中心的強大算力和海量存儲,進行復(fù)雜計算和數(shù)據(jù)分析。云計算網(wǎng)絡(luò)通過實現(xiàn)了資源的池化和算力的動態(tài)分配,構(gòu)建了一個高度靈活、可擴的安全性和隱私保護,是現(xiàn)代云計算體系架構(gòu)中不可或缺的核心組成部分。資源可以在不同的云提供商之間靈活調(diào)配,增強了算力的連通性和可用性。云計算網(wǎng)關(guān)是算力開放的門戶實現(xiàn)資源高效調(diào)度的重要環(huán)節(jié)。訓練等至關(guān)重要。100Gbps200Gbps用零拷貝技術(shù)減少數(shù)據(jù)在操作系統(tǒng)內(nèi)核與用戶空間之間的復(fù)制,以及采用更高效的網(wǎng)絡(luò)協(xié)議(QUIC、HTTP/3)來加速數(shù)據(jù)傳輸。云計算網(wǎng)關(guān)內(nèi)置智能路由算法,能夠根據(jù)網(wǎng)絡(luò)狀況和數(shù)據(jù)傳輸需求動態(tài)選擇最優(yōu)量控制,平衡負載,確保數(shù)據(jù)傳輸?shù)姆€(wěn)定性和高效性。加載數(shù)據(jù)到緩存,減少等待時間。高性能云計算需要網(wǎng)絡(luò)卸載進行性能提升高性能云計算旨在提供強大的計算能力以處理大規(guī)模數(shù)據(jù)集、執(zhí)行復(fù)雜的計算任務(wù)和滿足實時性要求。然而,隨著數(shù)據(jù)量的激增和計算需求的多樣化,網(wǎng)絡(luò)性能成為了制約高性能云計算發(fā)展的關(guān)鍵因素之一。CPUDPUCPU網(wǎng)絡(luò)性能瓶頸,助力其實現(xiàn)更高效、更安全、更具成本效益的網(wǎng)絡(luò)傳輸與處理能力。網(wǎng)絡(luò)卸載的概念與原理(NetworkOffloading)央處理器(CPU)DPUCPU的負擔,提高網(wǎng)絡(luò)數(shù)據(jù)處理的效率和速度,從而提升整個系統(tǒng)的性能。CPUCPU的資源過度消耗,影響系統(tǒng)的響應(yīng)速度和整體性能。網(wǎng)絡(luò)卸載技術(shù)利用DPU//解CPU就可以專注于運行應(yīng)用程序和執(zhí)行更為復(fù)雜的計算任務(wù),而不再需要頻繁地處理網(wǎng)絡(luò)數(shù)據(jù)包,從而提高了CPU網(wǎng)絡(luò)卸載有助于云網(wǎng)絡(luò)性能提升網(wǎng)絡(luò)卸載通過將特定的任務(wù)從CPU轉(zhuǎn)移到專用的硬件設(shè)備上執(zhí)行,以提高系統(tǒng)的整體性能和效率,特別是在吞吐量方面。在高性能計算、云計算、網(wǎng)絡(luò)處理等場景中,硬件卸載能夠顯著提升數(shù)據(jù)處理能力和網(wǎng)絡(luò)傳輸速度。CPU負擔:在服務(wù)器和網(wǎng)絡(luò)設(shè)備中,網(wǎng)絡(luò)數(shù)據(jù)包的處理如接收、解析、轉(zhuǎn)發(fā)、加解密等會占用大量CPU資源,導(dǎo)致CPU成為系統(tǒng)瓶頸。網(wǎng)絡(luò)卸載技術(shù)將原本需要CPUCPUCPU以專注于更復(fù)雜的計算任務(wù),提高了CPU的利用率和系統(tǒng)的整體性能。降低網(wǎng)絡(luò)延遲:DPU通過旁路CPUCPU增加吞吐量:DPU對比CPUDPUIP地址、端口號或協(xié)議類型。這種流分類既提升了包處理的并發(fā)度,還有助于實現(xiàn)高QoS策略,確保關(guān)鍵數(shù)據(jù)流獲得優(yōu)先處理。IoD技術(shù)是云計算卸載技術(shù)的主要實現(xiàn)方案IoDIaaS架構(gòu)面臨的挑戰(zhàn)。如圖3.5DPU內(nèi),提供了基于硬件的網(wǎng)絡(luò)設(shè)備虛擬化,以及虛擬交換與路由的能力。圖3.5:IoD網(wǎng)絡(luò)卸載加速原理DPU技術(shù),直接在硬件層面(VF),充分滿足大規(guī)模虛擬機及容器環(huán)境的網(wǎng)絡(luò)需求。另外,VirtIODPU技術(shù),該架VirtIO設(shè)備接口,還在確保卓越性能的同時,強化了虛擬機熱遷移能力,提升了云環(huán)境的靈活性與可靠性。在虛擬交換與路由方面,DPU內(nèi)置了高性能網(wǎng)絡(luò)交換處理單元(NP/eSwit,不僅支持用戶按需構(gòu)建靈活多變、功能完備的SDN網(wǎng)絡(luò)架構(gòu),而且在虛擬功能(VF)之間乃至VFPath)經(jīng)由DPUDPUCPU單元進行處理。為確保從傳統(tǒng)IaaS架構(gòu)平滑高效過渡到IoD架構(gòu),如圖3.6所示,DPU設(shè)計上普遍兼容通過OVS流表卸載或集成LinuxTCFlower規(guī)則的配置方式,以此靈活編程和優(yōu)化DPU的數(shù)據(jù)轉(zhuǎn)發(fā)邏輯,實現(xiàn)無縫遷移與高性能網(wǎng)絡(luò)管理。圖3.6:IoD云計算系統(tǒng)對接示意圖云計算存儲技術(shù)分析單一存儲技術(shù)方案無法滿足云計算要求的特點和數(shù)據(jù)處理方式。這種差異性導(dǎo)致了單一存儲技術(shù)方案無法滿足所有業(yè)務(wù)需求的情況。需要能夠快速響應(yīng)請求并確保數(shù)據(jù)的實時性和一致性。這種業(yè)務(wù)場景對存儲系統(tǒng)的讀寫速度和數(shù)據(jù)保護要求非常高。種業(yè)務(wù)場景對存儲系統(tǒng)的數(shù)據(jù)保護和數(shù)據(jù)完整性要求較高。儲需求。這種多元化的存儲技術(shù)方案選擇能夠更好地適應(yīng)云計算業(yè)務(wù)的多樣性和復(fù)雜性,提升整體業(yè)務(wù)的效率和靈活性。云存儲需要引入新技術(shù)突破性能限制用不同類型的存儲協(xié)議來實現(xiàn)數(shù)據(jù)存儲和訪問。文件存儲:適用于需要以文件為單位進行管理和訪問的場景,如共享文件、應(yīng)用程序數(shù)據(jù)存儲等,通常會使用網(wǎng)絡(luò)文件系統(tǒng)(NetworkFileSystem,NFS)或者服(ServerMessage等協(xié)議來實現(xiàn)文件級訪問和共享。對象存儲:適用于存儲大規(guī)模非結(jié)構(gòu)化數(shù)據(jù),如圖片、視頻、文檔等,并具有高HTTP/HTTPSRESTfulAPI作為存AmazonS3APIOpenStackSwiftAPI塊存儲:適用于需要高性能、低延遲和數(shù)據(jù)一致性要求較高的場景,如數(shù)據(jù)庫存SmallComputerInterface)NVMe-oF(NVMeFabrics)來提供塊級訪問,以便直接將存儲設(shè)備映射到主機并提供塊級數(shù)據(jù)傳輸。AIGC這一類應(yīng)用的爆發(fā),對包含塊存儲、文件存儲以及對象存儲都提出了更高的性能要求。IOPS需求,微秒級的存儲時延需求等。因此需要綜合考慮業(yè)務(wù)E-BoFCASDPU存儲加速等新技術(shù)來綜合提升存儲系統(tǒng)性能,才能夠為應(yīng)用類型的發(fā)展提供完備的存儲能力支撐。IoD技術(shù)可以提升存算分離架構(gòu)下的處理性能DPUCPU負擔,提高整體計算效率;其數(shù)據(jù)安全功化的存儲需求。IaaS架構(gòu)中存儲服務(wù)效率低下的困境,IoD架構(gòu)從兩方面進行策略優(yōu)CPU卸載至DPUPCIe接口為宿主機呈現(xiàn)遵循標準驅(qū)動協(xié)議的NVMe或VirtIOCPUDPU集成的RDMADPU與存儲后端間的數(shù)據(jù)交互效率,實TCP/IP協(xié)議棧中的性能瓶頸。如圖3.7所示,IoDCPU資源得以釋放,更專注于RDMA的高效數(shù)據(jù)傳輸能力,確保了存儲服務(wù)的高性能表現(xiàn),為云環(huán)境下的數(shù)據(jù)密集型應(yīng)用提供了強有力的支撐。存儲領(lǐng)域也沿襲IaaS后端處理邏輯的下沉至VirtIO塊設(shè)備接口。這一設(shè)計不僅確保了存儲訪問的高性能表現(xiàn),還通過標準化接口強化了虛擬機的熱遷移特性,提升了云平臺的整體靈動性和可靠性。存儲的數(shù)據(jù)安全直接關(guān)系到信息資產(chǎn)的防護與合規(guī)問題。在實施存算分離架構(gòu)的IaaSCPUCPU資源,拖累運算效能,尤其在處理大數(shù)據(jù)應(yīng)用時,性能瓶頸更為突出。IoDDPU硬件層面,實現(xiàn)實時隨路(inline)CPU圖3.7:IoD云計算存儲卸載圖NVMe-oF卸載到DPU來更高性能和低延遲,更好的系統(tǒng)擴展性等優(yōu)勢。云計算安全技術(shù)分析紛繁龐雜的云計算安全體系和傳統(tǒng)數(shù)據(jù)中心業(yè)務(wù)環(huán)境相比,云計算環(huán)境租戶網(wǎng)絡(luò)邊界模糊,共用基礎(chǔ)網(wǎng)絡(luò)結(jié)多的安全風險,這些問題導(dǎo)致云計算安全體系更加紛繁龐雜。同租戶群之間的安全隔離,云租戶基于云計算平臺自建業(yè)務(wù),為自身整體安全負責。云計算安全體系中的短木板,亟待加強。持久穩(wěn)定的運行,是打造高性能云計算安全系統(tǒng)的重中之重。安全處理性能提升需要異構(gòu)算力加持增加。網(wǎng)絡(luò)安全處理機制需要對網(wǎng)絡(luò)報文進行細粒度的處理,需要對全流量進行解析和100GE200GE借助網(wǎng)絡(luò)處理芯片的異構(gòu)算力來提升安全性能,已成為業(yè)內(nèi)共識。DPU成為高性能云計算異構(gòu)算力的關(guān)鍵組件,將高算力消耗的安全組件從主機側(cè)下沉到DPU,實現(xiàn)業(yè)務(wù)應(yīng)用工作負載和安全基礎(chǔ)設(shè)施工作負載分離,是當前云計算安全體系主流趨勢。讓寶貴的服務(wù)器算力資源聚焦于業(yè)務(wù)應(yīng)用工作負載上,由專用DPU完成高消耗的安全基礎(chǔ)設(shè)施工作負載,可以為客戶提供更加安全高效的業(yè)務(wù)體驗。借助強大的安全異構(gòu)算力,DPU可以對一系列安全功能進行硬件加速,而不會增CPU檢測、可信計算等方面。安全卸載技術(shù)在高性能云安全中至關(guān)重要DPU中,使主機將寶貴的算力真正聚焦在高性能應(yīng)用服務(wù)上,所以安全卸載技術(shù)在高性能云安全中至關(guān)重要。安全卸載技術(shù)需要具有如下功能和特點:支持安全卸載技術(shù),充分釋放服務(wù)器主機算力。/以實時檢測和阻斷。具有靈活可編程的網(wǎng)絡(luò)處理器,實現(xiàn)網(wǎng)絡(luò)解析和編輯。采用專用硬件加速器,具有高性能安全處理能力。支持控制面、數(shù)據(jù)面的靈活卸載方式,滿足客戶各種應(yīng)用場景的安全加速需求。支持功能彈性可擴展,網(wǎng)絡(luò)、安全可以隨時獲取,靈活可擴展,安全隨著業(yè)務(wù)變化而變化。具有通用的產(chǎn)品適配性,即插即用的驅(qū)動和封裝接口,靈活對接主流的服務(wù)器硬件、操作系統(tǒng)、OVS、云平臺等,具有良好的兼容性。DPU將成為可信計算服務(wù)中的重要組件2.0強化了可信計算功能要求,把可信驗證列入各個級別并逐級提出各個環(huán)節(jié)的主要可信驗證要求,可基于可信根對設(shè)備的系統(tǒng)引導(dǎo)程序、系統(tǒng)程序、重要配置參數(shù)和應(yīng)用程序等進行可信驗證。OSDPU可以通過內(nèi)置硬件可信根芯片,支持TRNGSM2/SM3/SM4DPU卡自身的可信安全。DPU通常以PCIe動度量、OS可信、應(yīng)用程序全信任鏈可信,提升整體安全防護能力。圖3.8:I
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 七年級英語Whatisyourfavorite課件
- 駕考題庫-70歲以上老年人C2駕照年審三力測試題
- 《證券銷戶寶典》課件
- 單位管理制度集粹選集【職工管理篇】十篇
- 2024服務(wù)合同范文(32篇)
- 單位管理制度合并選集【人員管理】
- 單位管理制度范例選集人事管理十篇
- 七年級英語Nationalheroes課件
- 3ds Max動畫制作實戰(zhàn)訓練(第3版)教學教案
- 2024年醫(yī)院個人工作總結(jié)范文
- 2024廣東省基本醫(yī)療保險門診特定病種業(yè)務(wù)經(jīng)辦規(guī)程-申請表
- 2023年輔導(dǎo)員職業(yè)技能大賽試題及答案
- 講師與教育平臺合作合同
- 2025屆江蘇省丹陽市丹陽高級中學高一數(shù)學第一學期期末統(tǒng)考試題含解析
- 汽車保險與理賠課件 3.4認識新能源汽車車上人員責任保險
- GB/T 33629-2024風能發(fā)電系統(tǒng)雷電防護
- 建筑工程施工現(xiàn)場安全檢查手冊
- 小學英語語法練習模擬試卷
- 高標準農(nóng)田建設(shè)項目安全文明施工方案
- 2024-2025學年一年級上冊數(shù)學北師大版4.6《挖紅薯》(教學設(shè)計)
- 糖尿病患者體重管理專家共識(2024年版)解讀
評論
0/150
提交評論