阿里云虛擬化技術(shù)自研之路_第1頁(yè)
阿里云虛擬化技術(shù)自研之路_第2頁(yè)
阿里云虛擬化技術(shù)自研之路_第3頁(yè)
阿里云虛擬化技術(shù)自研之路_第4頁(yè)
阿里云虛擬化技術(shù)自研之路_第5頁(yè)
已閱讀5頁(yè),還剩31頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、張獻(xiàn)濤、沈益斌阿里云虛擬化技術(shù)自研之路議程 阿里云彈性計(jì)算服務(wù)ECS介紹 ECS虛擬化架構(gòu)及關(guān)鍵技術(shù) ECS虛擬化架構(gòu) 虛擬機(jī)熱遷移技術(shù) Hypervisor 熱補(bǔ)丁技術(shù) ECS實(shí)戰(zhàn)案例分享 阿里云ECS下一代虛擬化架構(gòu)設(shè)計(jì) 未來(lái)展望2議程 阿里云彈性計(jì)算服務(wù)ECS介紹 ECS虛擬化架構(gòu)及關(guān)鍵技術(shù) ECS虛擬化架構(gòu) 虛擬機(jī)熱遷移技術(shù) Hypervisor 熱補(bǔ)丁技術(shù) ECS實(shí)戰(zhàn)案例分享 阿里云ECS下一代虛擬化架構(gòu)設(shè)計(jì) 未來(lái)展望3ECS產(chǎn)品定位應(yīng)用程序的基礎(chǔ)運(yùn)行環(huán)境ECS(云服務(wù)器)是阿里云產(chǎn)品體系中,最基礎(chǔ)的計(jì)算服務(wù),通常用作應(yīng)用程序的運(yùn)行環(huán)境,其最重要的特點(diǎn)是彈性。 每個(gè)ECS實(shí)例上都運(yùn)行

2、著用戶選擇的操作系統(tǒng),一般是某個(gè)Linux或Windows的發(fā)行版。用戶的應(yīng)用程序運(yùn)行在實(shí)例的操作系統(tǒng)之上。彈性的伸縮能力ECS的最重要的特點(diǎn)是彈性,支持垂直和水平擴(kuò)展兩種能力。垂直擴(kuò)展,可以根據(jù)業(yè)務(wù)需要即時(shí)的升級(jí)或降級(jí)ECS實(shí)例的CPU、內(nèi)存和帶寬; 水平擴(kuò)展,可以根據(jù)業(yè)務(wù)需要即時(shí)創(chuàng)建數(shù)百個(gè)ECS實(shí)例.4ECS在阿里云中的位置Linux 集群資源管理(伏羲)安全管理(鐘馗)遠(yuǎn)程過(guò)程調(diào)用(夸父)分布協(xié)同服務(wù)(女?huà)z)(大禹)集群布署(神農(nóng))集群監(jiān)控分布式文件系統(tǒng)(盤(pán)古)任務(wù)調(diào)度(伏羲)云服務(wù)引擎 ACE彈性計(jì)算服務(wù)ECS關(guān)系型數(shù)據(jù)庫(kù)服務(wù)RDS開(kāi)放數(shù)據(jù)處理服務(wù)ODPS議程 阿里云彈性計(jì)算服務(wù)ECS

3、介紹 ECS虛擬化架構(gòu)及關(guān)鍵技術(shù) ECS虛擬化架構(gòu) 虛擬機(jī)熱遷移技術(shù) Hypervisor 熱補(bǔ)丁技術(shù) ECS實(shí)戰(zhàn)案例分享 阿里云ECS下一代虛擬化架構(gòu)設(shè)計(jì) 未來(lái)展望6議程 阿里云彈性計(jì)算服務(wù)ECS介紹 ECS虛擬化架構(gòu)及關(guān)鍵技術(shù) ECS虛擬化架構(gòu) 虛擬機(jī)熱遷移技術(shù) Hypervisor 熱補(bǔ)丁技術(shù) ECS實(shí)戰(zhàn)案例分享 阿里云ECS下一代虛擬化架構(gòu)設(shè)計(jì) 未來(lái)展望7ECS軟件架構(gòu)8后羿控制系統(tǒng)計(jì)算虛擬化存儲(chǔ)虛擬化網(wǎng)絡(luò)虛擬化盤(pán)古分布式存儲(chǔ)ECS軟件架構(gòu)Hypervisor 虛擬層(Including Xen , Xen Tools, Xend等)基于成熟的開(kāi)源軟件Xen基于KVM的其它Hyperv

4、isor方案為優(yōu)化性能和穩(wěn)定性,Xen核心代碼改動(dòng)數(shù)百項(xiàng)Dom0 內(nèi)核基于ali kernel+ pv_ops 內(nèi)核分支,獨(dú)立研發(fā)涉及數(shù)百個(gè)內(nèi)核改動(dòng)高性能前后端通訊技術(shù)(PV Driver)基于開(kāi)源的PV Driver進(jìn)行研發(fā)優(yōu)化優(yōu)化后的高性能Driver提供更穩(wěn)定高性能服務(wù),優(yōu)化項(xiàng)達(dá)幾十個(gè)ECS虛擬化關(guān)鍵技術(shù)硬件虛擬化技術(shù)CPU采用硬件虛擬化技術(shù)VT-x, 內(nèi)存采用EPT方式熱遷移技術(shù)底層基于Xen熱遷移研發(fā),改動(dòng)超過(guò)20+項(xiàng)獨(dú)立研發(fā)熱遷移控制系統(tǒng)優(yōu)化后的熱遷移達(dá)到業(yè)界領(lǐng)先水平Hotfix技術(shù)獨(dú)立研發(fā)Dom0 kernel Hotfix技術(shù)獨(dú)立研發(fā)Hypervisor Hotfix技術(shù),獨(dú)具

5、創(chuàng)新型獨(dú)立研發(fā)用戶態(tài)進(jìn)程Hotfix技術(shù)正在研發(fā)VM內(nèi)核的Hotfix技術(shù)議程 阿里云彈性計(jì)算服務(wù)ECS介紹 ECS虛擬化架構(gòu)及關(guān)鍵技術(shù) ECS虛擬化架構(gòu) 虛擬機(jī)熱遷移技術(shù) Hypervisor 熱補(bǔ)丁技術(shù) ECS實(shí)戰(zhàn)案例分享 阿里云ECS下一代虛擬化架構(gòu)設(shè)計(jì) 未來(lái)展望11議程 阿里云彈性計(jì)算服務(wù)ECS介紹 ECS虛擬化架構(gòu)及關(guān)鍵技術(shù) ECS虛擬化架構(gòu) 虛擬機(jī)熱遷移技術(shù) Hypervisor 熱補(bǔ)丁技術(shù) ECS實(shí)戰(zhàn)案例分享 阿里云ECS下一代虛擬化架構(gòu)設(shè)計(jì) 未來(lái)展望12虛擬機(jī)熱遷移技術(shù)13CPU Usage30%CPU Usage90%CPU UsageCPU Usage動(dòng)態(tài)的熱點(diǎn)均衡場(chǎng)景災(zāi)難

6、恢復(fù)虛擬機(jī)熱遷移技術(shù) 熱遷移定義 在不同物理機(jī)之間在線遷移虛擬機(jī)實(shí)例 做到VM內(nèi)的業(yè)務(wù)基本無(wú)感知 熱遷移技術(shù)應(yīng)用場(chǎng)景 線上系統(tǒng)Hotfix 機(jī)器硬件故障修復(fù) 過(guò)保機(jī)器替換 集群內(nèi)的負(fù)載均衡 綠色計(jì)算 主動(dòng)運(yùn)維14熱遷移面臨的挑戰(zhàn)熱遷移面臨的挑戰(zhàn)線上運(yùn)維標(biāo)準(zhǔn)極高 要求VM Downtime控制在毫秒級(jí) 網(wǎng)絡(luò)鏈接無(wú)中斷 存儲(chǔ)無(wú)感知線上系統(tǒng)的復(fù)雜性 鏡像多樣,機(jī)器型號(hào)復(fù)雜 無(wú)法在線升級(jí)hypervisor, dom0 歷史遺留問(wèn)題較多虛擬化層熱遷移不成熟 虛擬化層Bug較多 Tool stack層熱遷移算法和流程問(wèn)題較多 Qemu問(wèn)題也較多Guest內(nèi)核及PV driver支持不足 Debian,

7、ubuntu等內(nèi)核問(wèn)題較多15議程 阿里云彈性計(jì)算服務(wù)ECS介紹 ECS虛擬化架構(gòu)及關(guān)鍵技術(shù) ECS虛擬化架構(gòu) 虛擬機(jī)熱遷移技術(shù) Hotfix 技術(shù) ECS實(shí)戰(zhàn)案例分享 阿里云ECS下一代虛擬化架構(gòu)設(shè)計(jì) 未來(lái)展望16ECS Hotfix 技術(shù) 系統(tǒng)Hotfix對(duì)業(yè)務(wù)運(yùn)維的意義 軟件系統(tǒng)存在Bug在所難免 宕機(jī)修復(fù)引起業(yè)務(wù)中斷 在云環(huán)境中,物理機(jī)重啟影響面更廣 用戶無(wú)感知修復(fù),一切盡在不言中 無(wú)需宕機(jī),增強(qiáng)系統(tǒng)的可用性 ECS Hotfix技術(shù)分類(lèi) Xen Dom0 內(nèi)核 Hotfix技術(shù) Xen Hypervisor Hotfix技術(shù) 用戶態(tài)進(jìn)程Hotfix技術(shù) 客戶機(jī)內(nèi)核的Hotfix技術(shù)1

8、7Hotfix技術(shù)是規(guī)?;瘶I(yè)務(wù)運(yùn)維立命之本Xen Dom0 內(nèi)核Hotfix技術(shù)業(yè)界較成熟的Hotfix方案 Ksplice by Oracle Kgraft by Novell Kpatch by Redhat采用自主研發(fā)的AliHotfix技術(shù) 修復(fù)Dom0內(nèi)核Bug 修復(fù)PV 驅(qū)動(dòng)Bug 修復(fù)系統(tǒng)安全漏洞18Xen Dom0 內(nèi)核Hotfix技術(shù)AliHotfix技術(shù)原理 基于函數(shù)動(dòng)態(tài)替換技術(shù) 新函數(shù)會(huì)以模塊內(nèi)函數(shù)的形式鏈接入內(nèi)核 舊函數(shù)的第一個(gè)指令改成強(qiáng)制跳轉(zhuǎn)指令指向新函數(shù) 在替換過(guò)程中需要暫停所有CPU,切到一個(gè)內(nèi)核線程并關(guān)閉本地中斷。 刷新指令緩存,重新讓CPU恢復(fù)執(zhí)行Hotfix

9、過(guò)程中需要注意的點(diǎn) 修復(fù)NMI處理函數(shù)是不安全的 修復(fù)的函數(shù)正在內(nèi)核棧上,修復(fù)過(guò)程是不安全的 新函數(shù)絕對(duì)不能調(diào)用舊函數(shù),否則無(wú)窮遞歸 Inline函數(shù)不能被直接修復(fù),需要修復(fù)調(diào)用者19Xen Hypervisor HotfixHypervisor Hotfix需求 Xen 安全漏洞: /xsa/ Xen功能性BugHypervisor hotfix挑戰(zhàn)極大 Xen Hypervisor 邏輯復(fù)雜 Xen 是type-1 Hypervisor, 不允許Dom0訪問(wèn)Hypervisor內(nèi)存 線上系統(tǒng)無(wú)法新增Hotfix接口Hypervisor hotfix

10、 是創(chuàng)新性工作 僅理論上可行的一種方法,無(wú)成功先例 如何解決從Dom0 訪問(wèn) Hypervisor內(nèi)存 如何精確定位Hypervisor function 物理地址 如何精確替換有問(wèn)題的代碼段和數(shù)據(jù)段20Xen Hypervisor 安全架構(gòu)Dom0內(nèi)存Xen內(nèi)存DomU內(nèi)存CPU設(shè)備Dom0iommu=offDom0無(wú)法通過(guò)CPU訪問(wèn)Xen hypervisor內(nèi)存Dom0可通過(guò)設(shè)備DMA方式訪問(wèn) Xen hypervisor 內(nèi)存Xen HypervisorDom0HVM DomainKernelKernelGuest ModeHost Mode系統(tǒng)內(nèi)存如何解決Hypervisor 內(nèi)存訪

11、問(wèn)如何通過(guò)設(shè)備DMA訪問(wèn)Hypervisor內(nèi)存 如何構(gòu)造DMA請(qǐng)求 不能隨意構(gòu)造不存在的DMA請(qǐng)求 需要截獲一個(gè)正常DMA請(qǐng)求,修改DMA的目的地址,以及要寫(xiě)入的數(shù)據(jù) 選取哪個(gè)硬件設(shè)備, 網(wǎng)卡 ?硬盤(pán)?其它? 截獲DMA請(qǐng)求的方法 DMA請(qǐng)求的內(nèi)存管理來(lái)自于兩個(gè)函數(shù) swiotlb_map_sg_attrs/swiotlb_unmap_sg_attrs 利用Alihotfix 替換內(nèi)核的這兩個(gè)函數(shù) 在新的map_sg/unmap_sg中加入過(guò)濾邏輯 篩選出特定的DMA請(qǐng)求,修改DMA目的地址22利用硬盤(pán)DMA請(qǐng)求Hotfix Hypervisor 內(nèi)存議程 阿里云彈性計(jì)算服務(wù)ECS介紹 EC

12、S虛擬化架構(gòu)及關(guān)鍵技術(shù) ECS虛擬化架構(gòu) 虛擬機(jī)熱遷移技術(shù) Hypervisor 熱補(bǔ)丁技術(shù) ECS實(shí)戰(zhàn)案例分享 阿里云ECS下一代虛擬化架構(gòu)設(shè)計(jì) 未來(lái)展望23實(shí)戰(zhàn)案例一24酷炫的熱遷移熱遷移面臨的熱遷移面臨的挑戰(zhàn)(續(xù))挑戰(zhàn)(續(xù))存儲(chǔ)層面 Pangu分布式存儲(chǔ)系統(tǒng) 鎖爭(zhēng)搶 cache刷新網(wǎng)絡(luò)層面 線上網(wǎng)絡(luò)環(huán)境比較復(fù)雜 各種型號(hào)交換機(jī) Mac, ARP, SLB,VPC等25熱熱遷移增強(qiáng)遷移增強(qiáng)修復(fù)虛擬化層面的一系列問(wèn)題Centos中斷風(fēng)暴問(wèn)題Windows雙鼠標(biāo)光點(diǎn)問(wèn)題ubuntu1204 2059年時(shí)間漂移問(wèn)題ubuntu1204 3500次遷移失敗一次問(wèn)題VNC端口綁死問(wèn)題RDTSC模擬引

13、起的性能問(wèn)題解除Downtime和VM 內(nèi)存大小的綁定修復(fù)網(wǎng)絡(luò)層面的多個(gè)問(wèn)題解決了i350網(wǎng)卡問(wèn)題解決了mac漂移導(dǎo)致的交換機(jī)封端口問(wèn)題解決了某型交換機(jī)在遷移場(chǎng)景下的bug解決了vm遷移后fake arp網(wǎng)絡(luò)不通問(wèn)題解除網(wǎng)絡(luò)Breaktime和VM內(nèi)存大小的綁定存儲(chǔ)層面解決了鎖爭(zhēng)搶問(wèn)題: chunksweep, snapshot解決熱遷移vm downtime過(guò)長(zhǎng)的問(wèn)題2627實(shí)戰(zhàn)案例二XSA-108事件亞馬遜EC2重啟公告http:/ Ive received a few questions about a maintenance update were performing late th

14、is week through early next week, so I thought it would be useful to provide an update.Yesterday we started notifying some of our customers of a timely security and operational update we need to perform on a small percentage (less than 10%) of our EC2 fleet globally.AWS customers know that security a

15、nd operational excellence are our top two priorities. These updates must be completed by October 1st before the issue is made public as part of an upcoming Xen Security Announcement (XSA). Following security best practices, the details of this update are embargoed until then. The issue in that notic

16、e affects many Xen environments, and is not specific to AWS.As we explained in emails to the small percentage of our customers who are affected and on our forums, the instances that need the update require a system restart of the underlying hardware and will be unavailable for a few minutes while th

17、e patches are being applied and the host is being rebooted.While most software updates are applied without a reboot, certain limited types of updates require a restart. Instances requiring a reboot will be staggered so that no two regions or availability zones are impacted at the same time and they

18、will restart with all saved data and all automated configuration intact. Most customers should experience no significant issues with the reboots. We understand that for a small subset of customers the reboot will be more inconvenient; we wouldnt inconvenience our customers if it wasnt important and

19、time-critical to apply this update.Customers who arent sure if they are impacted should go to the “Events“ page on the EC2 console, which will list any pending instance reboots for their AWS account.As always, we are here to help walk customers through this or to answer questions after the maintenan

20、ce update completes. Just open a support case.P.S. Note that this update is not in any way associated with what is being called the “Bash Bug” in the news today. For information on that issue, see this security bulletin on the AWS security center.28XSA-108近年來(lái)最為嚴(yán)重的安全漏洞, 造成的損失不可估量由于漏洞存在于VMM中,比心臟滴血以及ba

21、shshock更為嚴(yán)重嚴(yán)重影響基于Xen的公有云安全導(dǎo)致客戶機(jī)可以訪問(wèn)大量的Hypervisor內(nèi)存頁(yè) 擁有讀寫(xiě)權(quán)限 泄露大量的內(nèi)存頁(yè)面,包含關(guān)鍵信息 最嚴(yán)重會(huì)導(dǎo)致Xen Crash一個(gè)字母引起的血案 0 x3ff -0 xff Local APIC MSR連續(xù)編址到 業(yè)內(nèi)寄存器稀疏編址映射存在于Xen4.1及以后的所有版本攻擊成本極低 只需要用rdmsr/wrmsr指令在客戶機(jī)內(nèi)核讀寫(xiě)即可29問(wèn)題根源KVM 引入了客戶機(jī)x2apic 支持 增強(qiáng)APIC訪問(wèn)的效率 Patch來(lái)自KVM maintainer MSR寄存器組的邊界計(jì)算錯(cuò)誤 KVM代碼進(jìn)行了出錯(cuò)處理,因此幸免Xen 移植了KVM Patch到Xen4.1 Xen無(wú)相關(guān)的錯(cuò)誤處理,造成安全漏洞 每個(gè)vCPU就造成4個(gè)頁(yè)面泄露 黑客可以通過(guò)重復(fù)啟動(dòng)VM,獲得幾乎所有的hypervisor內(nèi)存30TPR.0 xfee00000 xapic:0 xfee00080 x2apic:MSR(0 x808)PA=0 xfee00000+ (MSR_index -0 x800) *

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論