介紹技術(shù)培訓(xùn)_第1頁
介紹技術(shù)培訓(xùn)_第2頁
介紹技術(shù)培訓(xùn)_第3頁
介紹技術(shù)培訓(xùn)_第4頁
介紹技術(shù)培訓(xùn)_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

H3CCASHA技術(shù)ISSUE1.0日期:20150410杭州華三通信技術(shù)有限公司,云及軟件支持部:陳威智在虛擬化環(huán)境下,每臺物理服務(wù)器往往運(yùn)行多個(gè)虛擬的應(yīng)用服務(wù)器。在這種應(yīng)用背景下,如何保證虛擬化環(huán)境下業(yè)務(wù)應(yīng)用的高可靠性和高可用性,成為急需解決的一個(gè)技術(shù)問題。引入熟悉H3CCASHA集群工作原理熟悉H3CCASHA典型應(yīng)用場景熟悉H3CCASHA應(yīng)用注意事項(xiàng)課程目標(biāo)學(xué)習(xí)完本課程,您應(yīng)該能夠:H3CCASHA技術(shù)基礎(chǔ)及實(shí)現(xiàn)原理H3CCASHA典型應(yīng)用場景H3CCASHA常見問題及注意事項(xiàng)目錄H3CCASHA技術(shù)基礎(chǔ)HA故障遷移共享存儲故障遷移主機(jī)故障或虛擬機(jī)故障后,將虛擬機(jī)遷移到其他正常主機(jī)HighAvailability高可用性群集,是保證業(yè)務(wù)連續(xù)性的有效解決方案共享存儲可允許多個(gè)服務(wù)器訪問的存儲介質(zhì),一般由存儲設(shè)備提供H3CCAS集群HA是一組協(xié)同工作并運(yùn)行H3CCASHA軟件模塊的物理服務(wù)器集合。H3CCASHA技術(shù)基礎(chǔ)——共享存儲H3CCAS中的存儲用于保存虛擬機(jī)的磁盤文件、配置文件以及與其活動相關(guān)的其它數(shù)據(jù),是虛擬機(jī)正常工作的基本前提條件。H3CCAS通過存儲資源池化,在共享存儲基礎(chǔ)上采用優(yōu)化后的高性能集群文件系統(tǒng)OCFS2,可以讓不同服務(wù)器上的虛擬機(jī)都可以訪問到該存儲,從而消除了單點(diǎn)故障。H3CCASHA技術(shù)基礎(chǔ)——故障遷移H3CCAS故障遷移基于共享存儲池實(shí)現(xiàn),由集群HA進(jìn)程檢測到主機(jī)故障、虛擬機(jī)故障后,cvk_ha進(jìn)程通知cvm_ha進(jìn)程告知CVM管理平臺,CVM管理平臺調(diào)用libvirt接口進(jìn)行虛擬機(jī)配置文件在集群內(nèi)正常主機(jī)上的重新定義并啟動虛擬機(jī)。CVM主機(jī)報(bào)告存儲池\虛擬機(jī)狀態(tài)CVM前臺故障遷移虛擬機(jī)CVK主機(jī)1CVK主機(jī)2cvm_ha進(jìn)程通知前臺H3CCAS集群HA架構(gòu)CVKCVKCVKCVKCVMTCPTCPTCPTCPCAS集群共享存儲集群H3CCASHA基本術(shù)語一CVM節(jié)點(diǎn):安裝了CVM虛擬化管理平臺的服務(wù)器節(jié)點(diǎn),為整個(gè)虛擬化環(huán)境的集中管理平臺,包括對集群HA的管理。在HA的實(shí)現(xiàn)中,CVM節(jié)點(diǎn)管理集群內(nèi)的所有CVK節(jié)點(diǎn),并建立與所有CVK之間的心跳。CVK節(jié)點(diǎn):安裝了CVK虛擬化內(nèi)核系統(tǒng)的服務(wù)器節(jié)點(diǎn),承載CAS虛擬化內(nèi)核的實(shí)現(xiàn)。在HA實(shí)現(xiàn)中,每個(gè)CVK節(jié)點(diǎn)都會安裝一個(gè)HA的后臺進(jìn)程(cvk_ha),用于檢測主機(jī)和虛擬機(jī)的故障。H3CCASHA基本術(shù)語二管理網(wǎng)絡(luò)心跳:一種定期發(fā)送的心跳報(bào)文,來檢測管理網(wǎng)絡(luò)中CVK節(jié)點(diǎn)的HA進(jìn)程是否運(yùn)行正常。網(wǎng)絡(luò)心跳的時(shí)間間隔可以調(diào)整,支持5~120秒的設(shè)置,默認(rèn)的網(wǎng)絡(luò)心跳周期為10秒。存儲網(wǎng)絡(luò)心跳:存儲心跳用于檢測在存儲網(wǎng)絡(luò)中CVK主機(jī)是否能夠正常訪問與它連接的共享存儲池,主機(jī)的故障判斷基于該主機(jī)是否能夠正常訪問它所連接的共享存儲池。存儲心跳時(shí)間間隔可以調(diào)整,支持5~120秒的設(shè)置,默認(rèn)的存儲心跳心跳周期為10秒。H3CCAS物理主機(jī)HA工作原理管理網(wǎng)絡(luò)心跳主機(jī)心跳,用于檢測CVK主機(jī)與CVM主機(jī)之間的管理網(wǎng)絡(luò)連接是否正常,維護(hù)集群HA主機(jī)狀態(tài),心跳檢測失敗不代表主機(jī)故障。CVK主機(jī)存儲池1存儲池2寫主機(jī)時(shí)間戳寫主機(jī)時(shí)間戳CVMHA進(jìn)程TCPH3CCAS物理主機(jī)HA工作原理集群HA主機(jī)狀態(tài)InitializeConnectDisconnect主機(jī)加入集群收到心跳消息主機(jī)退出集群三個(gè)周期沒有收到心跳報(bào)文收到心跳報(bào)文三個(gè)周期沒有收到心跳報(bào)文主機(jī)退出集群H3CCASHA技術(shù)特點(diǎn)主機(jī)故障檢測物理主機(jī)HAH3CCASHA虛擬機(jī)HA虛擬機(jī)進(jìn)程故障檢測操作系統(tǒng)HA虛擬機(jī)操作系統(tǒng)故障檢測應(yīng)用軟件HA開發(fā)中…虛擬機(jī)遷移虛擬機(jī)重啟失敗H3CCAS物理主機(jī)HA工作原理主機(jī)故障檢測由CVK節(jié)點(diǎn)實(shí)現(xiàn),CVK節(jié)點(diǎn)通過存儲心跳機(jī)制來檢測該主機(jī)是否運(yùn)行正常。CVK共享存儲池/vms/sharefile/.cvk_ha下會有對應(yīng)主機(jī)的時(shí)間戳文件,cvk_ha進(jìn)程會讀出文件內(nèi)容的值和當(dāng)前時(shí)間進(jìn)行比較,如果執(zhí)行結(jié)果失敗或者讀出的時(shí)間不對就認(rèn)為本次執(zhí)行寫時(shí)間戳失敗。如果連續(xù)三次執(zhí)行失敗,則cvk_ha進(jìn)程通過消息上報(bào)給cvm_ha進(jìn)程存儲池檢測失敗,上報(bào)內(nèi)容為失敗的存儲池名稱。CVK主機(jī)存儲池1存儲池2寫主機(jī)時(shí)間戳寫主機(jī)時(shí)間戳CVMHA進(jìn)程報(bào)告存儲池狀態(tài)H3CCAS物理主機(jī)HA工作原理主機(jī)故障分為兩種情況:整個(gè)物理主機(jī)硬件故障導(dǎo)致無法啟動或者系統(tǒng)宕機(jī)。主機(jī)連接的某個(gè)共享存儲池?zé)o法正常訪問。CVK主機(jī)存儲池1存儲池2寫主機(jī)時(shí)間戳CVMHA進(jìn)程報(bào)告存儲池狀態(tài)時(shí)間戳寫失敗CVM前臺通知遷移虛擬機(jī)H3CCAS物理主機(jī)HA處理機(jī)制物理主機(jī)硬件故障導(dǎo)致無法啟動或者系統(tǒng)宕機(jī):CASHA模塊會將此物理主機(jī)上的所有非關(guān)閉、啟用了高可靠性的虛擬機(jī)故障遷移到集群內(nèi)其他正常運(yùn)行的主機(jī)上,虛擬機(jī)遷移后重新啟動。服務(wù)器集群VMVMVMVM共享存儲池CVMH3CCAS物理主機(jī)HA處理機(jī)制物理主機(jī)連接的某個(gè)共享存儲池訪問異常1:CVK節(jié)點(diǎn)與CVM節(jié)點(diǎn)管理網(wǎng)絡(luò)正常,CVM節(jié)點(diǎn)接收到CVK節(jié)點(diǎn)發(fā)送的存儲池故障消息后,將查詢該存儲池部署的虛擬機(jī)信息,并將這些虛擬機(jī)進(jìn)行故障遷移。CVK主機(jī)存儲池1存儲池2寫主機(jī)時(shí)間戳CVMHA進(jìn)程報(bào)告存儲池狀態(tài)時(shí)間戳寫失敗CVM前臺通知遷移虛擬機(jī)H3CCAS物理主機(jī)HA處理機(jī)制物理主機(jī)連接的某個(gè)共享存儲池訪問異常2:CVK1節(jié)點(diǎn)與CVM節(jié)點(diǎn)管理網(wǎng)絡(luò)異常,CVM節(jié)點(diǎn)將選擇同一個(gè)HA集群中掛載了相同共享存儲池的其他CVK主機(jī)作為代理主機(jī)。代理主機(jī)與CVM的管理網(wǎng)絡(luò)通信正常,CVMHA進(jìn)程發(fā)送消息到該代理主機(jī)的HA進(jìn)程,請求返回CVK1的存儲心跳檢測結(jié)果。CVK代理節(jié)點(diǎn)獲取CVK1與該主機(jī)掛載的共享存儲的存儲心跳檢測結(jié)果后,將該信息通過消息返回給CVM節(jié)點(diǎn)。CVM節(jié)點(diǎn)判斷出CVK節(jié)點(diǎn)1的存儲心跳檢測結(jié)果后,后續(xù)的處理流程就和第一種情況一致。CVK1主機(jī)存儲池1存儲池2寫主機(jī)時(shí)間戳寫主機(jī)時(shí)間戳CVMHA進(jìn)程請求讀CVK1存儲池時(shí)間戳代理主機(jī)讀CVK1的時(shí)間戳值,返回給CVMH3CCAS虛擬機(jī)故障HA工作原理虛擬機(jī)故障檢測:CVK節(jié)點(diǎn)通過cvk_ha進(jìn)程定時(shí)檢測(30秒)主機(jī)上所有處于managed狀態(tài)的虛擬機(jī)進(jìn)程的運(yùn)行狀態(tài)。Managed狀態(tài)的虛擬機(jī)是運(yùn)行在共享存儲,且勾選了高可靠性非關(guān)閉狀態(tài)的虛擬機(jī)。對于managed狀態(tài)的虛擬機(jī),連續(xù)三個(gè)周期虛擬機(jī)進(jìn)程異?;蛘卟皇莚unning狀態(tài),就認(rèn)為虛擬機(jī)故障。CVK主機(jī)根據(jù)檢測周期定時(shí)檢測虛擬機(jī)故障狀態(tài)H3CCAS虛擬機(jī)故障HA處理機(jī)制虛擬機(jī)故障HA處理機(jī)制:CVK節(jié)點(diǎn)定時(shí)檢測(30秒)所有虛擬機(jī)的進(jìn)程運(yùn)行狀態(tài),當(dāng)檢測到有虛擬機(jī)進(jìn)程故障時(shí),則CVK主機(jī)嘗試本地將虛擬機(jī)重啟一次,如果啟動失敗,則通過TCP消息通知CVMHA進(jìn)程,CVMHA進(jìn)程再通知管理臺進(jìn)行虛擬機(jī)遷移。當(dāng)主機(jī)心跳故障而存儲池正常時(shí),此時(shí)虛擬機(jī)無法及時(shí)遷移,等到主機(jī)心跳恢復(fù)時(shí),若此時(shí)虛擬機(jī)還是故障,則故障虛擬機(jī)才會進(jìn)行遷移。CVK主機(jī)CVMHA進(jìn)程報(bào)告虛擬機(jī)狀態(tài)前臺界面虛擬機(jī)故障,通知遷移虛擬機(jī)根據(jù)檢測周期定時(shí)檢測虛擬機(jī)故障狀態(tài)虛擬機(jī)操作系統(tǒng)故障HA工作原理H3CCASCVK虛擬化內(nèi)核系統(tǒng)支持虛擬機(jī)藍(lán)屏(Windows)和崩潰(Linux)的故障檢測及HA處理,通過虛擬機(jī)操作系統(tǒng)上CAStools的虛擬串口通道保持與H3CCASCVK虛擬化內(nèi)核系統(tǒng)的實(shí)時(shí)通信,判定虛擬機(jī)的存活狀態(tài)如果在3個(gè)時(shí)間周期(一個(gè)周期為30秒)內(nèi)沒有接收到操作系統(tǒng)CAStools的應(yīng)答,則通過探測虛擬機(jī)磁盤I/O讀寫來進(jìn)一步判定虛擬機(jī)的存活狀態(tài),如果在6個(gè)時(shí)間周期(一個(gè)周期為30秒)內(nèi)沒有探測到虛擬機(jī)磁盤I/O讀寫活動,則判定虛擬機(jī)操作系統(tǒng)藍(lán)屏。虛擬機(jī)操作系統(tǒng)故障HA處理機(jī)制當(dāng)確定虛擬機(jī)出現(xiàn)操作系統(tǒng)故障之后,有三種HA處理方式,可由系統(tǒng)管理員在H3CCASCVM虛擬化管理平臺上配置:不處理:即使檢測到虛擬機(jī)藍(lán)屏故障,也不會做任何處理(默認(rèn)配置)。故障重啟:將藍(lán)屏后的虛擬機(jī)在本地物理主機(jī)上重新啟動。故障遷移:將藍(lán)屏后的虛擬機(jī)遷移到集群內(nèi)其它正常工作的物理主機(jī)上。要判斷一個(gè)虛擬機(jī)操作系統(tǒng)故障,總共需要至少30*3+30*6=270秒時(shí)間。H3CCAS虛擬機(jī)故障HA處理機(jī)制HA遷移主機(jī)選擇:主機(jī)上有相同的虛擬交換機(jī),主機(jī)已用內(nèi)存+分配給虛擬機(jī)的內(nèi)存<主機(jī)總內(nèi)存*80%,主機(jī)cpu利用率小于80%,主機(jī)上有相同共享存儲,可用大小滿足存儲文件的需要。滿足第一條的主機(jī)皆為可用的主機(jī)。從可用主機(jī)中,挑選已有虛擬機(jī)最少、主機(jī)內(nèi)存最大的主機(jī)作為備選主機(jī)A,挑選一段時(shí)間內(nèi)內(nèi)存、CPU利用率最低的主機(jī)作為備選主機(jī)B。比較兩個(gè)主機(jī)的的內(nèi)存、CPU利用率,如果二者內(nèi)存和CPU利用率相差都小于20%,則選擇主機(jī)A,若內(nèi)存和CPU中一個(gè)利用率相差小于20%且當(dāng)主機(jī)A的虛擬機(jī)<主機(jī)B個(gè)數(shù)+3,選擇主機(jī)A,否則選擇主機(jī)B。按照以上原則選出最優(yōu)主機(jī),將虛擬機(jī)遷移到該主機(jī)H3CCASHA技術(shù)基礎(chǔ)及實(shí)現(xiàn)原理H3CCASHA典型應(yīng)用場景H3CCASHA常見問題及注意事項(xiàng)目錄H3CCASHA典型應(yīng)用場景H3CCASHA典型應(yīng)用場景說明對于具有特殊硬件訪問要求的業(yè)務(wù)應(yīng)用(如高性能計(jì)算、高性能圖形處理、特殊串并行加密應(yīng)用等)和需要占用大量I/O和內(nèi)存資源的大負(fù)載應(yīng)用(如視頻點(diǎn)播、Exchange郵件服務(wù)器等),不適合采用虛擬化,需要部署在獨(dú)立的物理服務(wù)器或小型機(jī)上。利用H3CCASCVM組件提供的服務(wù)器虛擬化能力,將非關(guān)鍵性業(yè)務(wù)和非大負(fù)載業(yè)務(wù)部署到虛擬化環(huán)境中。考慮到HA和動態(tài)資源調(diào)整所要求的資源冗余,總體資源使用率不超過2/3較合適。根據(jù)應(yīng)用程序?qū)PU和磁盤I/O等資源的依賴程度,為虛擬機(jī)建立不同的服務(wù)等級(SLA),設(shè)置不同的資源調(diào)度優(yōu)先級,以確保這些應(yīng)用的高可用性。H3CCASHA配置集群HA配置:集群菜單下,高可靠性選項(xiàng),啟用HA。最小主機(jī)數(shù)配置:當(dāng)集群中運(yùn)行正常的主機(jī)數(shù)小于該值時(shí),HA將失效。HA判斷主機(jī)正常的標(biāo)準(zhǔn)是主機(jī)心跳和存儲心跳都正常。H3CCASHA配置HA系統(tǒng)參數(shù)配置:可以進(jìn)行主機(jī)心跳檢測周期和存儲心跳檢測周期的配置。H3CCASHA配置虛擬機(jī)操作系統(tǒng)HA配置:開啟集群HA,虛擬機(jī)安裝并運(yùn)行CAStool禁用操作系統(tǒng)故障自動重啟功能配置系統(tǒng)故障策略H3CCASHA技術(shù)基礎(chǔ)及實(shí)現(xiàn)原理H3CCASHA典型應(yīng)用場景H3CCASHA常見問題及注意事項(xiàng)目錄H3CCASHA注意事項(xiàng)HA的實(shí)現(xiàn)依賴于CVM節(jié)點(diǎn),如果CVM節(jié)點(diǎn)異常,則HA不能正常工作。當(dāng)集群規(guī)模大時(shí),使能HA操作、新建共享文件系統(tǒng)時(shí),前臺操作會比較慢。HA暫不支持本地存儲、NFS存儲、塊存儲的故障檢測,如果虛擬機(jī)部署在這些存儲上,則不會進(jìn)行故障檢測。HA與OCFS2當(dāng)主機(jī)與存儲連接斷開超過1分鐘時(shí),OCFS2會把主機(jī)fence重啟。此時(shí)會影響虛擬機(jī)的故障遷移:當(dāng)主機(jī)重啟完成,運(yùn)行正常,而此時(shí)HA檢測周期未超時(shí),則虛擬機(jī)不會遷移。當(dāng)主機(jī)重啟完成,運(yùn)行正常,而此時(shí)HA檢測周期已經(jīng)超時(shí),則HA會將此主機(jī)上的虛擬機(jī)遷移走。H3CCASHA機(jī)制本身

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論