阿里云-2023云棲大會容器服務(wù)ACK分享實(shí)錄合輯:智算時代的容器技術(shù)演進(jìn)與實(shí)踐_第1頁
阿里云-2023云棲大會容器服務(wù)ACK分享實(shí)錄合輯:智算時代的容器技術(shù)演進(jìn)與實(shí)踐_第2頁
阿里云-2023云棲大會容器服務(wù)ACK分享實(shí)錄合輯:智算時代的容器技術(shù)演進(jìn)與實(shí)踐_第3頁
阿里云-2023云棲大會容器服務(wù)ACK分享實(shí)錄合輯:智算時代的容器技術(shù)演進(jìn)與實(shí)踐_第4頁
阿里云-2023云棲大會容器服務(wù)ACK分享實(shí)錄合輯:智算時代的容器技術(shù)演進(jìn)與實(shí)踐_第5頁
已閱讀5頁,還剩420頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

的智能化水平取決于其對算力的利用能力。云計算為智算時代帶來無限可能, 第一章容器產(chǎn)品最新發(fā)布阿里云ACK新升級,打造智算時代的現(xiàn)代化應(yīng)用平臺持,確保了賽事系統(tǒng)萬無一失?!?788越來越多的ACK客戶選擇倚天芯片作為新算力選即時彈性完全兼容現(xiàn)有節(jié)點(diǎn)池能力和使用習(xí)慣,可以配合托管節(jié)點(diǎn)池實(shí)現(xiàn)節(jié) .在全面兼容Kubernetes現(xiàn)有調(diào)度能力基礎(chǔ)上提供批量任務(wù)的調(diào)度元語,如Gang告警等。然后會基于大模型進(jìn)行數(shù)據(jù)分析與歸集,給出當(dāng)前問題的可能原因與修復(fù)方案。萬元/月。兩全其美:Sidecarless與Sidecar模式 正如一個文明社會的科技水平取決于其對能源的利用能力,企業(yè)的智能化水平取決于其對容器服務(wù)典型企業(yè)案例云原生場景下月省10萬元資源成本,這家企業(yè)做對了什么 本次分享的企業(yè)是中國領(lǐng)先的以人工智能和機(jī)器學(xué)習(xí)為基礎(chǔ)的科技型量化投資公司,使用.穩(wěn)定的系統(tǒng)應(yīng)用 高的資源利用率,但大量小規(guī)模應(yīng)用使用大量閑置資源。傳統(tǒng)部署模型下的資源成本統(tǒng)計.歸因到業(yè)務(wù)應(yīng)用/個人的監(jiān)控大盤這里的路徑在跨部門的協(xié)同關(guān)系上反而是至下而上反方向的。Infra團(tuán)隊(duì)就算找到對應(yīng)的成本治理方面的工作經(jīng)驗(yàn),幫助其他互聯(lián)網(wǎng)金融客戶等云上客戶更好地建設(shè)FinOps體系。”深入溝通、了解企業(yè)對于容器成本治理的需求和問題自動彈性策略、或通過混部場景的動態(tài)資源超賣等提高資源利用率。在不感知業(yè)務(wù)的情況平衡過冗余時的浪費(fèi)且保證過度超賣的穩(wěn)定性的推薦算法。我們的推薦算法主要考慮了以.使用多種資源維度進(jìn)行統(tǒng)計,并使用類似分位數(shù)的統(tǒng)計方法區(qū)分應(yīng)用突發(fā)峰值需求和度也是為了享受集群池化的資源帶來的資源利用率提同時我們也提供一些領(lǐng)域垂直的彈性伸縮解決方案,如業(yè)務(wù)事件驅(qū)動的Keda、以及米哈游大數(shù)據(jù)云原生實(shí)踐始選擇擁抱云原生,并開始將AI、大數(shù)據(jù)等類型的企業(yè)應(yīng)用部署運(yùn)行在云原生之上。以 方式。架構(gòu)設(shè)計依據(jù)的原理是,不同的業(yè)務(wù)系統(tǒng)會有不同的業(yè)務(wù)高峰時間。大數(shù)據(jù)離線業(yè) 該架構(gòu)的優(yōu)點(diǎn)是可以通過在離線業(yè)務(wù)的混合部署和錯峰運(yùn)行,來提升機(jī)器資源利用率并降 Apiserver按需申請Executor,并由Executor去執(zhí)行具體的Task 符合用戶的習(xí)慣,但是不方便進(jìn)行作業(yè)狀態(tài)跟蹤和管理,無法自動配置SparkUI的在生產(chǎn)環(huán)境上,我們采用spark-k8s-cli的方式進(jìn)行任務(wù)的提交。spark-k8.支持按照不同部門或業(yè)務(wù)線,對大規(guī)模補(bǔ)數(shù)任務(wù)進(jìn)行限流和管控功能 彈性容器實(shí)例ECI是一種Serverless容器運(yùn)行服務(wù),ECI和EC 查詢服務(wù)。在早期,我們的Spark 由于總?cè)蝿?wù)量較大,且Hive任務(wù)也在不斷遷移至Spark,目前仍然有部分任務(wù)運(yùn)行在在上線初期任務(wù)量較少時,SparkOperator服務(wù)運(yùn)行良好,但隨著任務(wù)不斷增多,Operator處理各類Event事件的速度越來越慢,甚至集群出現(xiàn)大量的ConfigMap、Ingress、Service等任務(wù)運(yùn)行過程中產(chǎn)生的資源無法及時清理導(dǎo)致堆積的情況,新提交 Spark任務(wù)在啟動Driver時,會創(chuàng)建對Executor的事件監(jiān)聽器,用于實(shí)時獲取所有 此我們的解決方案如下:鐘請求一次ExecutorPod的創(chuàng)建也可能會由于Quota鎖沖突而失敗,這種情況可以不用處理,練一次千億參數(shù)量模型的成本可能就高達(dá)百萬美元,依然有很多企業(yè)希望擁有自己的專屬習(xí)習(xí)務(wù)原取勢到化力參人工智能機(jī)器學(xué)習(xí)深度學(xué)習(xí)習(xí)務(wù)原取勢到化力參人工智能機(jī)器學(xué)習(xí)深度學(xué)?AI在計算機(jī)視覺、語音、NLP等領(lǐng)域得突破,已深入影響各行各業(yè)?AI服上云形成趨?深度學(xué)/AIGC應(yīng)用廣泛采用容器等云生技術(shù)AP5ARA云棲大會發(fā)人工智能(AI)展概述發(fā)NewNewFutureonCloud深度學(xué)習(xí)的特點(diǎn)?端端流水線–Rawdatain,executablemodelout?任務(wù)長時運(yùn)行–小時/天/周?持續(xù)迭代優(yōu)–梯度下降,超數(shù)調(diào)優(yōu),Prompt工程?消耗大量算和海量數(shù)據(jù)APSARA云棲大會為習(xí)以深度學(xué)代表的為習(xí)OS、Nvidia驅(qū)、CUDA、cuDNN等環(huán)境?NVIDIADriver367,370;CUDAToolkit7.5,8.0;cuDNN5.軟件的依賴系?Python,GCC,Bazel…GPU用率如資源分配策略多樣?GPU型更新頻繁?應(yīng)用要指定張或多張GPU?甚至要使用一張GPU的部資源GPU運(yùn)維復(fù)雜?監(jiān)控維度多?故障排查難?彈性不靈活我的GPU還正常工作嗎?如何提GPU還有多少GPU空閑?復(fù)雜、多、低效卡分動關(guān)卡單利升卡變?yōu)榱?wù)單參利?工程效率:持續(xù)快速迭代?資源效率為力務(wù)單參利?工程效率:持續(xù)快速迭代?資源效率:高用率、可擴(kuò)展規(guī)模性能力務(wù)儲?算:千卡GPU任,萬卡集群?數(shù)據(jù):PB級存,TB級吞吐?網(wǎng)絡(luò):800Gbps~3.2TbpsRDMA務(wù)化優(yōu)分?訓(xùn)練:布式,混合并行?推理:模型、服QoSAP5ARA云棲大會大模型對基礎(chǔ)設(shè)施帶來更多挑戰(zhàn)?大模型對基礎(chǔ)設(shè)施服能的挑戰(zhàn)是階躍式的。效率效率卡千GPT3:175B數(shù),次訓(xùn)練使用45TB數(shù)據(jù),近A100/1個月卡千化到到發(fā)到傳統(tǒng)架構(gòu)?資源管理分化到到發(fā)到傳統(tǒng)架構(gòu)?資源管理分散?生產(chǎn)流程割裂、效率低?團(tuán)隊(duì)協(xié)作、共享困難AP5ARA云棲大會勢原為基于容器的AI/大數(shù)據(jù)成云生時勢原為AI工程向云原生架構(gòu)演進(jìn)從無狀態(tài)應(yīng)用,企業(yè)核心應(yīng)用,AI工程向云原生架構(gòu)演進(jìn)云原云原生架構(gòu)?資源池化:彈性、靈活?生產(chǎn)流程高效閉環(huán)?多角色協(xié)同,加速迭代更快的創(chuàng)新和迭代交付更高的穩(wěn)定性要求更彈性的算力需求?Gartner預(yù)測:2023年70%的AI應(yīng)用是基于容器和Serverless技術(shù)開。?IDC預(yù)測:By2025,Nearly50%ofAllAcceleratedInfrastructureforPerformance-IntensiveComputing(AI,HPC,andBigDataAnalytics)willBeCloudBasedasTheseSystemsAreIncreasinglyIntegratedwithEnterpriseSoftware.用、微服務(wù)等領(lǐng)域都在從傳統(tǒng)架構(gòu)轉(zhuǎn)向云原生架構(gòu)。互聯(lián)網(wǎng)應(yīng)用大多是基于容器、統(tǒng)一任務(wù)統(tǒng)一任務(wù)流程提AI工程效率統(tǒng)一任務(wù)調(diào)度保障規(guī)模與性能統(tǒng)一資源管理持續(xù)優(yōu)化利用率升AP5ARA云棲大會原原充用云的資源彈性充用云的資源彈性、異構(gòu)算、便捷服以容器、自、微服等云生技術(shù)手段,AI/ML提供工程效率高、成本低、擴(kuò)展、復(fù)的端端解方案。務(wù)制可化務(wù)化動力可及到利分決原為統(tǒng)一管理統(tǒng)一管理AI等異構(gòu)工作負(fù)載算法和場景框架統(tǒng)一工作流,統(tǒng)一調(diào)度異構(gòu)資源AI模型生產(chǎn)流水線AI模型生產(chǎn)流水線工程效率最大化支持AIGC/LLM等新范式快速迭代創(chuàng)新速度最大化圍繞這兩個核心場景,可以擴(kuò)展出更多用戶定制化場景,比如構(gòu)建符合用戶使用習(xí)慣的AP5ARA云棲大會力主原力主原異構(gòu)資源管理異構(gòu)資源管理資源效率最大化另一個主要能力是能夠在分鐘級內(nèi)準(zhǔn)備好開發(fā)環(huán)境和集群測試環(huán)境,幫助算法工程師開始務(wù)開源AI能力阿里云提供和支撐的AI平臺與服務(wù)AI平臺/服務(wù)開源AI能力阿里云提供和支撐的AI平臺與服務(wù)AI平臺/服云原生AI基礎(chǔ)設(shè)施層容器平臺基礎(chǔ)資源層云IDC AP5ARA云棲大會原原分云原生AI系統(tǒng)層架構(gòu)分參考實(shí)現(xiàn)-阿里云ACK云原生AI套件生態(tài)集成生態(tài)集成ACKACK云原生AI套件大模型訓(xùn)練推理框架支持任務(wù)調(diào)度和隊(duì)列數(shù)據(jù)&模型訪問加速模型&Prompt管理開源大模型驗(yàn)證高性能智算集群交叉技術(shù)領(lǐng)域。后續(xù)我們將轉(zhuǎn)向更為具體的技術(shù)層面,介紹已經(jīng)落地并相對成熟的一些云節(jié)點(diǎn)視角監(jiān)控指標(biāo):?GPUdutycycle?GPUmemoryusage?GPUTemperature?Powerusage?節(jié)點(diǎn)視角監(jiān)控指標(biāo):?GPUdutycycle?GPUmemoryusage?GPUTemperature?Powerusage?Total/allocatedGPU.應(yīng)用視角監(jiān)控指標(biāo):?GPUdutycycle?GPUmemoryusage?AllocatedGPU應(yīng)用實(shí)例伸縮Kubernetes資源節(jié)點(diǎn)伸縮?最后一層是通過統(tǒng)一的工具鏈和標(biāo)準(zhǔn)API向上提供所有這些能力,并與內(nèi)外部生態(tài)集AP5ARA云棲大會原原動內(nèi)分加?GPU多維度監(jiān)控,使用和健康狀況一動內(nèi)分加?置NPD,自動檢測和告警設(shè)備異常?自彈性伸縮,自定義伸縮指標(biāo)和策略?支持GPU競價實(shí)例,ECI彈性容器實(shí)例?將RDMA網(wǎng)絡(luò)資源作為K8s集群資源調(diào)度和管理?支持NvidiaNCCL,GPUDirectoverRDMA,速布式AI訓(xùn)練利升力力義升利?利升力力義升利?業(yè)界首款K8sGPU共享調(diào)度方案,應(yīng)用代碼零侵入?支持所有NvidiaGPU型號的自定顯存、算共享,結(jié)合cGPU技術(shù)支持顯存,算和錯誤隔離,同時避免虛擬化開銷?GPU用率提100%以上AP5ARA云棲大會原原GPUSharing&Isolation2.持續(xù)提GPU用率2.持續(xù)提GPU用率發(fā)動務(wù)卡之包分利化?自現(xiàn)多GPU/服器/機(jī)架間的通信鏈路,括NvidiaP2P/發(fā)動務(wù)卡之包分利化?調(diào)度器自動選擇最大帶寬的通信鏈路,實(shí)現(xiàn)分布式訓(xùn)練加速?支持Gang/Binpack配策略,最大用率,同時避免資源碎片GPUShareScheduler務(wù)PMPIKube-Scheduler務(wù)PMPIKube-Scheduler/kubernetes-sigs/scheduler-plugins/kube-queue/kube-queue調(diào)高A支持10多種任調(diào)度策略AP5ARA云棲大會原原務(wù)務(wù)侵列務(wù)原務(wù)義區(qū)?擴(kuò)展Kubernetes調(diào)度器框架,生實(shí)現(xiàn)Batch調(diào)度,任隊(duì)侵列務(wù)原務(wù)義區(qū)?支持Gang,Capacity,PriorityQueue,Fair,Topology等復(fù)雜場景,擴(kuò)展K8s滿足大規(guī)模AI/大數(shù)據(jù)/HPC任調(diào)度?有效解決資源碎片浪費(fèi)、作業(yè)擠占、租戶公平性、動態(tài)負(fù)載感知、數(shù)據(jù)親和性、資源預(yù)留等分布式系統(tǒng)資源分配難題?與社共推Batch工作組,定BatchJob,Queue等Spec動動務(wù)發(fā)兼利減利升動發(fā)動動務(wù)發(fā)兼利減利升動發(fā)變化 量調(diào)度或任務(wù)級別調(diào)度策略插件貢獻(xiàn)給上游開源社區(qū),并已被眾多社區(qū)用戶使用。例如AP5ARA云棲大會原原ETOperator/AliyunContainerService/et-operator4.彈性伸縮分布式ETOperator/AliyunContainerService/et-operator?自現(xiàn)、適配訓(xùn)練節(jié)點(diǎn)數(shù),觸計算和通信鏈路調(diào)整?支持手/自擴(kuò)、縮容訓(xùn)練任,支持容錯?支持競價實(shí)例,便于GPU舊,大幅節(jié)省AI訓(xùn)練成本?提集群用率,小節(jié)點(diǎn)故障影響,顯著減少作業(yè)啟動等待時間?支持CV/NLP/推薦類模型,容HorovodElasticAPI,ElasticTorch,Tensorflow,DLRover等框架在解決了任務(wù)調(diào)度的問題后,我們將探討如何將訓(xùn)練任務(wù)或推理服務(wù)與云資源的彈性相結(jié)加訓(xùn)性dCNCFSandbox項(xiàng)目/fluid-cloudnative/fluidK8s的存儲視角Fluid的數(shù)據(jù)使用視角CSICSIIDC/VPC加訓(xùn)性dCNCFSandbox項(xiàng)目/fluid-cloudnative/fluidK8s的存儲視角Fluid的數(shù)據(jù)使用視角CSICSIIDC/VPCOSSNode1Node2彈性訓(xùn)練的收益會相對明顯,尤其是在使用競價實(shí)例的場景下。雖然競都不會被浪費(fèi)。這是一種非常有趣且富有挑戰(zhàn)的AP5ARA云棲大會原原可加可可務(wù)制加減動壓力FluidDataset管理計算任使用數(shù)據(jù)的生命周期,使不同存儲源的數(shù)據(jù)在K8s中管理可加可可務(wù)制加減動壓力排調(diào)度。?克服存算分離架構(gòu)帶來的數(shù)據(jù)訪問延遲?顯著速AI等數(shù)據(jù)密集計算30%以上,小遠(yuǎn)程I/O帶寬?適配公有云、私有云、混合云,多存儲類型,多數(shù)據(jù)源統(tǒng)一管理?緩存數(shù)據(jù)訪問控、數(shù)據(jù)感知調(diào)度、緩存自彈性伸縮128128GPU50%FluidvsOSSFS(20Gb/s)務(wù)加務(wù)加 通過分布式緩存加速技術(shù),我們可以顯著提高分布式訓(xùn)練的效率,如右下角所示的),AP5ARA云棲大會原原5.2Fluid速大模型推理服啟動4504003503002502000單加單加-67%-86%85%-85%Llama-30BLlama-30B務(wù)發(fā)Arena/kubeflow/arena開數(shù)據(jù)務(wù)發(fā)Arena/kubeflow/arena開數(shù)據(jù)訓(xùn)練評估推理#提交分布式訓(xùn)練任務(wù)arenasubmitmpijob--name=tf-dist-data--workers=6--gpus=2--data=tfdata:/data_dir–rdma--gang\--env=num_batch=100--env=batch_size=80--tensorboard--image=ali-tensorflow:gpu-tf-1.6.0\"/root/hvd-distribute.sh122”我們不僅將Fluid彈性數(shù)據(jù)集加速的能力應(yīng)用于分布式訓(xùn)練場景,也可以將其應(yīng)用大模型AP5ARA云棲大會原原壓分發(fā)分口臺務(wù)務(wù)制務(wù)兼?Arena覆蓋AI壓分發(fā)分口臺務(wù)務(wù)制務(wù)兼?屏蔽所有資源、K8s集群、運(yùn)行環(huán)境管理、任調(diào)度、GPU配和監(jiān)控等底層復(fù)雜性?容多種計算框架–Jupyter,Tensorflow,Pytorch,MPI,Hovorod,DeepSpeed,Megatron-LM,Spark等?提供CLI,go/java/pythonSDK和WebUI控,統(tǒng)一接,三端互通ArenaArena命周期AAa,命周期AAa,AP5ARA云棲大會原原6.2支持從 到 到模型模型務(wù)務(wù)DataScientistContinuousTraining Melele MelelelMulti-versionmodelsKubernetesfortraining 1.arenasubmitOperatorUpdatingmodelforinference2.arenaservetensorflow3.arenaservetraffic-router-splitApplicationsREST3.arenaservetraffic-router-splitApplicationsRESTAPIorgRPC7%3%Kubernetesforserving7%3%90%主3提升20%主3提升20%提升30%AP5ARA云棲大會原原6.Arena支持Arena支持推理AP5ARA云棲大會原原準(zhǔn)力化化基于標(biāo)Kubernetes,提供組件能,全棧優(yōu)AI生產(chǎn)系統(tǒng)的性能準(zhǔn)力化化原原建設(shè)成果建設(shè)成果AP5ARA云棲大會臺化原任意門:臺化原客戶痛點(diǎn)客戶痛點(diǎn)方案亮點(diǎn)方案亮點(diǎn)客戶證言客戶證言AP5ARA云棲大會臺臺習(xí)小米機(jī)器學(xué)平:基于Fluid的Serverless混合云容器AI臺臺習(xí)xleoml小米機(jī)器學(xué)習(xí)平臺(CloudML)承載了圖像、NLP、聲學(xué)、搜索推薦等應(yīng)用業(yè)務(wù),是小米針對機(jī)器學(xué)習(xí)進(jìn)行全流程優(yōu)化的高性能、分布式云服務(wù)。客戶痛點(diǎn)客戶痛點(diǎn)方案亮點(diǎn)方案亮點(diǎn)發(fā)制臺AI開控發(fā)制臺AI開控開發(fā)、調(diào)試提交、管理訓(xùn)練任務(wù)定時服務(wù)工作流編排模型評測一鍵發(fā)布服務(wù)控制臺集群大盤GPU大盤用戶權(quán)限配額管理作業(yè)大盤成本分析數(shù)據(jù)集一鍵速加AP5ARA云棲大會原原11223344加創(chuàng)管理員建ACK集群,添GPU節(jié)點(diǎn)加創(chuàng)原管理員一鍵選擇安裝ACK云生AI套件原務(wù)算法工程師向ACK集群提交模型訓(xùn)練任務(wù)AI平臺運(yùn)維人員將訓(xùn)練好的模型在ACK集群中發(fā)布為線上推理服務(wù)AP5ARA云棲大會原原兩類角色通過命令行工具兩類角色通過命令行工具和控制臺簡便操作,高效協(xié)同用戶volumevolume原80%30%原80%30%微信AP5ARA云棲大會原助力原助力20%入歡迎掃碼群與我們交流入云原生場景下,AIGC模型服務(wù)的工程挑戰(zhàn)和應(yīng)對為大模型的成本挑戰(zhàn)在于模型規(guī)模越來越大,使用的資源越來越多,而模型的運(yùn)行平臺接著就是好:用戶使用復(fù)雜不?用戶代碼是否需要相應(yīng)的修改。運(yùn)維團(tuán)隊(duì)工作量大嗎?模 4)隨處運(yùn)行,與Kubernetes運(yùn)行時平臺無關(guān):可以支持原生、邊緣、Serverless幫您實(shí)現(xiàn)需要的時候可以彈出來不用的時候縮并自動創(chuàng)建一個PVC。而對于想要訪問這個模型數(shù)據(jù)的推理應(yīng)用來說,只需要掛載這個 Kubernetes由于其易用性、低負(fù)擔(dān)的好處,已經(jīng)越來越多的成為用戶的選擇;但是這里講的是如何提供高性能。為什么需要彈性伸縮的計算側(cè)分布式緩存?只是使用簡單的集群內(nèi)可以彈性伸縮的可用帶寬,這個可用帶寬的大小取決于你分布式緩存的節(jié)點(diǎn)數(shù)量。介紹完如何提升性能之后,接下來考慮的問題就是如何在盡可能節(jié)省成本的前提下最大化統(tǒng)準(zhǔn)備數(shù)據(jù)緩存的過程,對于這些流程我們用數(shù)據(jù)操作抽象以及數(shù)據(jù)流編排能力去幫助用 觀察服務(wù)的就緒時間,我們可以看到部署只花了22秒。我們還可以嘗試對現(xiàn)有的阿里云ACK云上大規(guī)模Kubernetes集群高可靠性保障apiserver/etcd/scheduler/kube-controller-manger/cloud-controller-manager。我們已經(jīng)了解了K8s集群架構(gòu),那么如何評估K8s集群的穩(wěn)定性呢?集群穩(wěn)定性涵蓋請求來源復(fù)雜。包括隨節(jié)點(diǎn)規(guī)模正增長的kubelet/kube-proxy/daemonset,也包括系 a.高可用架構(gòu)c.集群容量規(guī)劃和自動彈性f.數(shù)據(jù)面優(yōu)化控制面實(shí)現(xiàn)可用區(qū)級別高可用全部控制面組件實(shí)現(xiàn)與阿里云ECS的可用區(qū)能力對齊的控制面實(shí)現(xiàn)可用區(qū)級別高可用全部控制面組件實(shí)現(xiàn)與阿里云ECS的可用區(qū)能力對齊的高c.托管組件可觀測性透出.集群檢查,定位運(yùn)維操作前的檢查。例如企業(yè)在業(yè)務(wù)升級過程中經(jīng)常遇到的K8s版本.自愈是指自動修復(fù)運(yùn)行時和內(nèi)核問題。例如發(fā)現(xiàn)NotReady的節(jié)點(diǎn),并治愈恢復(fù)為基于阿里云ACK與ACR構(gòu)建企業(yè)級端到端DevSecOps流程安全一直是企業(yè)上云關(guān)注的核心問題。隨著云原生對云計算基礎(chǔ)設(shè)施和企業(yè)應(yīng)用架構(gòu)的重為此,企業(yè)安全人員需要針對云原生時代的安全挑戰(zhàn)重新進(jìn)行系統(tǒng)性的威脅分析并的安全產(chǎn)品能力構(gòu)建端到端的DevSecOps流程,維持企業(yè)應(yīng)用全生命周期的持續(xù)安全水其中第一部分會介紹當(dāng)下云原生安全的現(xiàn)狀以及企業(yè)應(yīng)用在云原生化轉(zhuǎn)型中面臨的主要安在第二部分中會概要性介紹云原生安全相對成熟的一.云原生平臺基礎(chǔ)設(shè)施架構(gòu):云原生平臺層組件相較于傳統(tǒng)架構(gòu)引入了更多的配置項(xiàng)和用系統(tǒng)的安全審計和監(jiān)控能力,這些新的挑戰(zhàn)都需要云服務(wù)商和企業(yè)安全管理運(yùn)維人供應(yīng)鏈架構(gòu)變革的同時需要構(gòu)建和實(shí)施適配供應(yīng)鏈各階計算等技術(shù)要求云服務(wù)商在基礎(chǔ)設(shè)施層具備更強(qiáng)的安全隔離性和監(jiān)控能力,而應(yīng)用的面對重重的安全挑戰(zhàn),企業(yè)的安全現(xiàn)狀是如何呢?上圖是一些主流云原生安全領(lǐng)域廠 在云原生時代的企業(yè)開發(fā)流程中,開源軟件和開發(fā)工具可以幫助推動企業(yè)提升研發(fā)效率。在云原生時代,企業(yè)對開源生態(tài)越來越依賴,三方軟件包的安全成為了無法回避的問題。生產(chǎn)供應(yīng)鏈生命周期的每個階段進(jìn)行安全審核和部署防風(fēng)險意識與有效的供應(yīng)鏈風(fēng)險管理和防護(hù)措施的實(shí)這樣的安全流程顯然已經(jīng)無法滿足云原生時及構(gòu)建全鏈路的自動化流程等幾個要點(diǎn)來加固.身份和訪問管理:線上授予的權(quán)限與實(shí)際需要的權(quán)限之間存在??梢栽趹?yīng)用設(shè)計開發(fā)的早期階段,幫助安全人員識別企業(yè)應(yīng)用架構(gòu)中潛藏的安全風(fēng)險和針對身份和控制面的不當(dāng)配置以及網(wǎng)絡(luò)攻擊是攻擊者可以利用的主要途徑,攻擊者可以通在網(wǎng)絡(luò)側(cè),不同容器微服務(wù)應(yīng)用之間的東西向流量也提供給攻擊者更多的可 同時在企業(yè)應(yīng)用架構(gòu)發(fā)生動態(tài)變化的同時,也需要重新可以幫助企業(yè)構(gòu)建容器化應(yīng)用安全體系,也是企業(yè)構(gòu)建云原生威脅情報體系可以利用和借陣從左至右可以代表一個通常的容器側(cè)攻擊路徑。通過了解矩陣中每一個攻擊階段攻擊者可以利用的技術(shù)手段,可以幫助企業(yè)安全運(yùn)維人員有針對性地進(jìn)行安全設(shè)計和測試演練,為了進(jìn)一步理解云原生應(yīng)用安全風(fēng)險并構(gòu)建完整的安全防護(hù)方案,企業(yè)安全運(yùn)維人的迭代。我們知道企業(yè)安全文化意識以及開發(fā)、安全運(yùn)維團(tuán)隊(duì)之間的流程協(xié)同是只有通過這樣不斷循環(huán)反饋,才能保證在云原生下應(yīng)用的高速迭代的過程中持續(xù)的安全水企業(yè)應(yīng)用的安全性需要貫穿應(yīng)用程序的整個生命周期。開發(fā)是整個應(yīng)用生命周期的第一個及運(yùn)行時威脅檢測方向上基于安全原則實(shí)現(xiàn)高效的自動化監(jiān)控和管理能力,并且通過全局性的安全資產(chǎn)管理和態(tài)勢感知能力不斷發(fā)現(xiàn)風(fēng)險并反饋 力可以幫助企業(yè)安全運(yùn)維人員從容應(yīng)對突發(fā)的攻擊事件,并在規(guī)劃的指導(dǎo)下做出快速的決在應(yīng)用制品的供應(yīng)鏈生命周期中應(yīng)盡早地以自動化方式嵌入安全,通過引入自動化的安全企業(yè)在落地并實(shí)踐了安全左移理念后,并不意味著安全工作的結(jié)束。在應(yīng)用的生產(chǎn)運(yùn)行階通過上面的介紹,我們對云原生安全面臨的挑戰(zhàn)以及當(dāng)下比較成熟的云原生安全理論體系企業(yè)安全管理員提供了開箱即用的產(chǎn)品能力,安全人員可以通過簡單的可視化白屏操作完當(dāng)作為基本且必要的需求融入設(shè)計環(huán)節(jié),并在安全專家的指導(dǎo)下審核架構(gòu)設(shè)計中潛藏的風(fēng)密鑰管理一直是企業(yè)應(yīng)用上云的核心問題,云服務(wù)商有哪些安全方案可以幫助保護(hù)應(yīng)用密 基于該插件機(jī)制我們實(shí)現(xiàn)了阿里云自己的secrets-store-csi-driver-provider,并且支持憑據(jù)的請求權(quán)限綁定在插件使用的獨(dú)立serviceaccount上,避免將權(quán)限泄露給應(yīng)用pod戶態(tài)進(jìn)程的檢測分析都存在不足。而eBPF天然的技術(shù)優(yōu)勢是提升云原生應(yīng)用安全可觀測幫助安全運(yùn)維人員獲取攻擊者進(jìn)入到容器實(shí)例后發(fā)起攻擊的命令審計,有效幫助針對安全 提供了可疑的漏洞利用活動的溯源和告警能力,并且通過時間線圖表的方式直觀的展現(xiàn)給權(quán)限最小化原則是企業(yè)安全運(yùn)維中最基本也是最重要的準(zhǔn)則之一。傳統(tǒng)應(yīng)用架構(gòu)下,系統(tǒng)企業(yè)安全管理人員需要在安全系統(tǒng)設(shè)計中規(guī)劃和覆蓋應(yīng)用周期中的每個階段,在安全左移這里也列舉了企業(yè)生產(chǎn)供應(yīng)鏈中在開發(fā),構(gòu)建部署、 流程:制定正確的流程可以確保每個人都站在同一起跑線上,并為安全一致性和凝聚力奠核,并且通過一些具體指標(biāo)和分級問責(zé)機(jī)制的建立也是讓DevSecOps快速融入團(tuán)隊(duì)的有機(jī)密計算容器前沿探索與AI場景應(yīng)用術(shù)事業(yè)部的高級經(jīng)理朱江云共同分享了阿里云容器服務(wù)團(tuán)隊(duì)與社區(qū)和生態(tài)伙伴一起,在機(jī)阿里云容器服務(wù)高級技術(shù)專家壯懷首先分享了對當(dāng)前容業(yè)應(yīng)該堅守的安全原則及阿里云容器服務(wù)如何與機(jī)密計算領(lǐng)域生態(tài)伙伴一起,為客戶提供/到可以對更大內(nèi)存空間做機(jī)密計算的SGX2.0,到今天應(yīng)用無感的平滑遷移進(jìn)入安全容器 .提權(quán)攻擊和內(nèi)存溢出/數(shù)據(jù)攻擊在云環(huán)境中運(yùn)行容器時,底層基礎(chǔ)設(shè)施的安全性和云服務(wù)提供商的可信度變得至關(guān)重要。鑰或個人身份信息)可能會被未經(jīng)授權(quán)的人員訪問或竊取。今天云原生的安全手段通過相RunD安全容器是龍蜥社區(qū)開源的下一代容器解決方案,包含RustKataruntime和DragonballVMM。RunD安全容器已經(jīng)于2022年由龍蜥云原生儲插件和AttestProxy插件,從而允許在實(shí)際場景中對接不同的第三方存儲服務(wù)和支持租戶深度定制的證明策略。通過ACK應(yīng)用 通過ACK應(yīng)用市場,云原生的方式一鍵部署遠(yuǎn)程證明和代理服務(wù)實(shí)例,helminstallkata-dragonball-tdx,kata-qemu-tdx以及增強(qiáng)安全特性后的runc,helminstall 來自英特爾中國軟件與先進(jìn)技術(shù)事業(yè)部的高級經(jīng)理朱江云代表ACK機(jī)密容器生態(tài)合作重 .在線服務(wù)資源使用量隨著終端用識別為低效節(jié)點(diǎn)后標(biāo)記出來,virtual平臺需要通過建設(shè)更為細(xì)粒度的資源管理與調(diào)度能力來實(shí)現(xiàn)均值利用率提升的目標(biāo),具體形式下發(fā)到統(tǒng)一調(diào)度系統(tǒng)。統(tǒng)一調(diào)度系統(tǒng)基于不同的調(diào)度需求,對在線服務(wù)提供強(qiáng)保障的離線服務(wù)資源調(diào)度的基本原理是基于在線服務(wù)負(fù)載感知能力的動態(tài)超賣,具體實(shí)現(xiàn)是其中離線可用資源為節(jié)點(diǎn)上的空閑資源(包含未分配資源和已分配未使用資源之和扣):離線資源質(zhì)量和離線服務(wù)運(yùn)行穩(wěn)定性,通過資源畫像對上述公式中的在線服務(wù)實(shí)際使用量enableenabledisable低share(默認(rèn))share(默認(rèn)).share.reclaimed ResourceManager調(diào)度到具體節(jié)點(diǎn),并由節(jié)點(diǎn)上的Nodemanager組件拉起。其中 在小紅書近一年多混部技術(shù)探索過程中,我們在資源效能提升方面積累了較為豐富的落地.混合工作負(fù)載調(diào)度能力支持:包括大數(shù)據(jù),AI在內(nèi)的任務(wù)型工作負(fù)載調(diào)度能力.資源干擾檢測:基于底層指標(biāo)、感知容器資源競爭情況,識別異常Pod,消除干擾并輕松搭建基于服務(wù)網(wǎng)格的AI應(yīng)用,然后開始玩Sidecar模式融合的服務(wù)網(wǎng)格新形態(tài)》主題演講,并在演講中展示了一個基于服務(wù)網(wǎng)格 .已按照實(shí)際操作系統(tǒng)及平臺,下載Istioctl服務(wù)網(wǎng)格調(diào)試工具。詳細(xì)信息,請參見將交給多個運(yùn)行時工作負(fù)載來完成。每個運(yùn)行時支持不同的模型格式;并且可以同時提供.要使用這個能力,我們首先使用kubectl連接到ASM實(shí)例(參考通過控制面apiVersion:apiVersion:istio.alibabapkl等模型推理服務(wù)器可以加載并利用這些模型文件對外提供訓(xùn)練好的機(jī)器學(xué)習(xí)模型 模型的獲取也非常簡單,不需要大家去自己訓(xùn)練了。我們只需要通過Tensorflow和https://tfhub.dev/google/magenta/arbitrary-image-stylization-v1-256/2下載到本地后,我們隨便找個路徑作為根目錄,新建一個tensorflow文件夾和一個variables.data-00000-of-00002variables.data-00001-of-00002mountPath:"/mnt/models"claimName:"my-models-pvc"kubectlkubectlcp-nmodelmesh-servingtensorflowkubectlcp-nmodelmesh-servingpytorchpapiVersion:apiVersion:serving.serving.kserve.io/dpath:tensorflow/style-traapiVersion:serving.serving.kserve.io/dpath:pytorch/style-tra grpc://modelmesh-serving.modelmegrpc://modelmesh-serving.modelmeprogressDeadlineSecondun'terminationMessagePath:/deprogressDeadlineSecondmodel-format:tensorfmodel-format:tensorf/build-test/style-istio-ingressgateway.istio-system.terminationMessagePath:/deprogressDeadlineSecond/build-test/style-istio-ingressgateway.istio-system.terminationMessagePath:/de.在全局命名空間頁面的數(shù)據(jù)面模式列,單擊apsara-demo命名空間對應(yīng)的切換為 apiVersion:networkingapiVersion:networkingname:vs-modelmesh-seapiVersion:networkingname:dr-modelmesh-sehost:modelmesh-serviapiVersion:istio.alibabaname:grpcjsontranscoder-for-ksbuiltinProtoDescriptor:kserve_predapiVersion:networking.name:grpcjsontranscoder-increaper_connection_buffer_limit_bytes:10 .針對模型推理服務(wù)中不同運(yùn)行時工作負(fù)載的動態(tài)子集路由能力高apiVersion:apiVersion:networkingapiVersion:networkingapiVersion:networking-style-transfer.apsara-dhost:style-transfer.apsara-demo.svc.clhost:style-transfer.apsara-demo.svc.clapiVersion:networkinghost:style-transfer.apsara-demo.svc.clmodel-format:tensorf值得注意的是,我們使用用戶jwtclaim中的額外字段user_定義為user_class每個運(yùn)行時支持不同的模型格式;并且可以同時提供多個模型的推理服務(wù)。當(dāng)我們使用要實(shí)現(xiàn)動態(tài)子集路由能力,我們只需要使用針對服務(wù)配置的DestinationRule資源與 調(diào)用鏈路的上游是集群中的style-transfer業(yè)務(wù)服務(wù),對于這個業(yè)務(wù)服務(wù),我們針對style-transfer-torch的不同工作負(fù)載,負(fù)責(zé)將下游應(yīng)用傳入的圖片處理為模型可以接受往不同的工作負(fù)載,用不同的模型對請求進(jìn)行響應(yīng)。其中請求的用戶信息則是用戶的/zh/asm/user-guide/create-an-asm-instance#task-2370/zh/asm/user-guide/restrictions-on-use#rwA6T/zh/ack/ack-managed-and-ack-dedicated/user-guide/create-an-ack-dedicated-cluster#steps-7hk-mqa-7wa/zh/ack/ack-managed-and-ack-dedicated/user-guide/creat

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論