陣列級容災(zāi)解決方案計劃_第1頁
陣列級容災(zāi)解決方案計劃_第2頁
陣列級容災(zāi)解決方案計劃_第3頁
陣列級容災(zāi)解決方案計劃_第4頁
陣列級容災(zāi)解決方案計劃_第5頁
免費預(yù)覽已結(jié)束,剩余2頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、陣列級容災(zāi)解決方案一、概述XXX單位現(xiàn)有華為賽門鐵克Oceanspace S5300存儲陣列一套,本次擬再上一套存儲陣列作為本地災(zāi)備陣列,以備在主陣列故障、數(shù)據(jù)不可用的情況下的緊急之需,保證數(shù)據(jù)的安全性和業(yè)務(wù)的連續(xù)性。因為涉及到主陣列和容災(zāi)陣列間的數(shù)據(jù)同步和反向同步,容災(zāi)陣列需要選用和主存儲陣列同一廠家和同一系列的產(chǎn)品,建議容災(zāi)陣列采用華賽Oceanspace S5300,硬盤可以采用低級別SATA硬盤。 二、方案簡介XXX單位采用基于陣列的容災(zāi)解決方案,這種方案是指在磁盤陣列一層,利用磁盤陣列本身的智能控制系統(tǒng)/軟件進(jìn)行陣列到陣列的數(shù)據(jù)復(fù)制,從而實現(xiàn)對生產(chǎn)環(huán)境數(shù)據(jù)的容災(zāi)。部署在生產(chǎn)站點(現(xiàn)網(wǎng)

2、已有S5300)和災(zāi)備站點(本次擬建陣列)的兩臺陣列之間可以使用FC或IP鏈路進(jìn)行連接,生產(chǎn)站點的磁盤陣列可以實時的自動將更新后的數(shù)據(jù)傳送至災(zāi)備站點的陣列中,以保持兩臺磁盤陣列中的數(shù)據(jù)完全一致。所有工作由兩臺陣列自身自動完成,對主機(jī)系統(tǒng)完全透明,不占用任何主機(jī)資源。當(dāng)生產(chǎn)站點由于地震、火災(zāi)等災(zāi)難導(dǎo)致整個業(yè)務(wù)系統(tǒng)癱瘓時,災(zāi)備站點的業(yè)務(wù)系統(tǒng)能夠完全接管全部工作,在較短時間內(nèi)恢復(fù)業(yè)務(wù)系統(tǒng)的運行。華賽陣列容災(zāi)解決方案主要有陣列異地容災(zāi)和陣列同城容災(zāi)兩種方案。兩種方案都是利用華賽的HostAgent軟件保證業(yè)務(wù)系統(tǒng)數(shù)據(jù)一致性,并利用華賽Oceanspace磁盤陣列的遠(yuǎn)程鏡像功能(HyperMirror)

3、進(jìn)行陣列間的數(shù)據(jù)復(fù)制。陣列異地容災(zāi)方案主要采用Oceanspace磁盤陣列的異步遠(yuǎn)程鏡像功能(HyperMirror/A)實現(xiàn)生產(chǎn)站點和災(zāi)備站點的數(shù)據(jù)復(fù)制。陣列同城容災(zāi)方案主要采用Oceanspace磁盤陣列的同步遠(yuǎn)程鏡像功能(HyperMirror/S)實現(xiàn)生產(chǎn)站點和災(zāi)備站點的數(shù)據(jù)復(fù)制。因為本工程屬于同城容災(zāi),可以采用同步遠(yuǎn)程鏡像技術(shù)實現(xiàn)??紤]到數(shù)據(jù)復(fù)制的性能,建議采用FC鏈路進(jìn)行數(shù)據(jù)傳輸,當(dāng)然也可以采用IP鏈路。陣列同城容災(zāi)方案的原理圖如圖1所示。圖1 陣列同城容災(zāi)解決方案原理圖正常情況下,生產(chǎn)站點的數(shù)據(jù)會利用Oceanspace磁盤陣列的遠(yuǎn)程鏡像功能將生產(chǎn)卷的數(shù)據(jù)復(fù)制到災(zāi)備站點的災(zāi)備卷中

4、;在災(zāi)難發(fā)生時,災(zāi)備站點可以通過災(zāi)備卷中的數(shù)據(jù)拉起客戶業(yè)務(wù);生產(chǎn)站點恢復(fù)后,可以利用Oceanspace磁盤陣列遠(yuǎn)程鏡像功能進(jìn)行反向同步,將災(zāi)備卷的數(shù)據(jù)同步至生產(chǎn)站點的生產(chǎn)卷中,并在生產(chǎn)站點啟動客戶業(yè)務(wù)。三、Oceanspace磁盤陣列遠(yuǎn)程同步鏡像技術(shù)遠(yuǎn)程鏡像功能的實現(xiàn)需要考慮以下三個設(shè)計需求:1、 盡可能保證主、從LUN之間的緊密同步,從而減少災(zāi)難發(fā)生時的數(shù)據(jù)丟失量(data loss);2、 盡可能減少系統(tǒng)對前臺應(yīng)用程序的寫延遲,從而達(dá)到減少系統(tǒng)響應(yīng)時間、提高數(shù)據(jù)吞吐量和性能的效果;3、 在異?;驗?zāi)難發(fā)生時,能夠保證生產(chǎn)站點和災(zāi)備站點數(shù)據(jù)可用性。由于通信鏈路上存在不可避免的延時,前兩個設(shè)計

5、需求幾乎不可能同時最優(yōu)化:當(dāng)前者達(dá)到最優(yōu)時,生產(chǎn)站點收到本地I/O寫操作后,立即發(fā)向災(zāi)備站點,等待寫I/O同時寫入主LUN和從LUN后才返回前臺應(yīng)用程序?qū)懲瓿蛇@種方式稱為同步遠(yuǎn)程鏡像;當(dāng)后者達(dá)到最優(yōu)時,生產(chǎn)站點先記錄收到的I/O寫操作導(dǎo)致的差異,寫入主LUN后就立即返回寫完成,當(dāng)差異累積到一定程度時(或經(jīng)過一段固定的時間)再一次性把所有差異更新到災(zāi)備站點的從LUN這種方式稱為異步遠(yuǎn)程鏡像。無論是同步遠(yuǎn)程鏡像還是異步遠(yuǎn)程鏡像,都必須滿足第三個設(shè)計需求任何情況下的數(shù)據(jù)可用性。 HostAgent保證數(shù)據(jù)一致性數(shù)據(jù)一致性是指關(guān)聯(lián)數(shù)據(jù)之間的邏輯關(guān)系是否正確和完整。因為某種異常情況的發(fā)生,數(shù)據(jù)并沒有按照

6、應(yīng)用程序規(guī)定的邏輯關(guān)系完整的寫入磁盤。導(dǎo)致應(yīng)用程序讀入的數(shù)據(jù)無法按照原有的邏輯解釋,導(dǎo)致應(yīng)用程序無法啟動。比如在數(shù)據(jù)庫的事務(wù)操作中,實際發(fā)出了五個寫操作,當(dāng)系統(tǒng)把前面三個寫操作的數(shù)據(jù)成功寫入磁盤以后,系統(tǒng)突然故障,導(dǎo)致后面兩個寫操作沒有寫入磁盤中。此時應(yīng)用程序和磁盤對數(shù)據(jù)狀態(tài)的理解就不一致。Oceanspace ISSP HostAgent主機(jī)套件由HyperManager、ConsistentAgent和InbandAgent三部分組成。HostAgent根據(jù)時間策略定期將應(yīng)用在主機(jī)緩存中的數(shù)據(jù)刷新到陣列磁盤中,有效保證數(shù)據(jù)的一致性,同時與虛擬快照、Lun拷貝、遠(yuǎn)程鏡像等增值功能結(jié)合,保證應(yīng)

7、用主機(jī)與生產(chǎn)陣列、生產(chǎn)陣列與災(zāi)備陣列的數(shù)據(jù)一致性與可用性。HyperManager是面向應(yīng)用的方案中的“大腦”,起著調(diào)度、協(xié)調(diào)和管理的功能。每個策略執(zhí)行時,HyperManager通知ConsistentAgent對應(yīng)用進(jìn)行刷數(shù)據(jù),保證數(shù)據(jù)一致性,然后InbandAgent發(fā)送帶內(nèi)命令到陣列,比如讓陣列做快照。圖2 ISSP HostAgent 原理圖注:在使用陣列間同步復(fù)制方式進(jìn)行容災(zāi)的方案中不需要使用HostAgent。3.2 同步數(shù)據(jù)復(fù)制(HyperMirror/S)Oceanspace 存儲陣列的同步遠(yuǎn)程鏡像名為HyperMirror/S,利用日志原理實現(xiàn)主、從LUN的數(shù)據(jù)一致性,能夠

8、實現(xiàn)數(shù)據(jù)零丟失。其實現(xiàn)原理如下:1. 當(dāng)生產(chǎn)站點的主LUN和遠(yuǎn)端災(zāi)備站點的從LUN建立同步遠(yuǎn)程鏡像關(guān)系以后,會啟動一個初始同步,也就是將主LUN數(shù)據(jù)全量拷貝到從LUN。2. 如果在初始同步時主LUN收到生產(chǎn)主機(jī)寫請求,需要檢查同步進(jìn)度:若要寫入位置的數(shù)據(jù)塊尚未拷貝到從LUN,只需要寫主LUN即可返回主機(jī)成功,稍后利用同步任務(wù)將整個數(shù)據(jù)塊同步到從LUN;若要寫入位置的數(shù)據(jù)塊已經(jīng)拷貝,需要分別寫入主LUN和從LUN;若要寫入位置的數(shù)據(jù)塊正在拷貝,需要等待該數(shù)據(jù)塊拷貝完成后分別寫入主LUN和從LUN。3. 初始同步完成以后,主、從LUN數(shù)據(jù)完全一致,如果此時主LUN收到生產(chǎn)主機(jī)寫請求,按照下面的流程

9、進(jìn)行I/O處理(原理圖見圖5):1) 主LUN接收生產(chǎn)主機(jī)寫請求,記錄這個I/O對應(yīng)數(shù)據(jù)塊的差異日志值為“有差異”;2) 同時把寫請求的數(shù)據(jù)寫入主LUN和從LUN,寫從LUN時需要利用配置好的鏈路將數(shù)據(jù)發(fā)送到遠(yuǎn)端災(zāi)備站點;3) 判斷寫主LUN和寫從LUN的執(zhí)行結(jié)果,如果都成功,則將差異日志改為“無差異”,否則保留“有差異”,在下一次啟動同步時重新拷貝這一個數(shù)據(jù)塊;4) 主LUN返回生產(chǎn)主機(jī)寫請求完成。圖3 同步遠(yuǎn)程鏡像I/O處理原理圖四、 故障處理 常用災(zāi)難處理方法系統(tǒng)的運行可能會出現(xiàn)各種各樣的故障甚至災(zāi)難。華為賽門鐵克存儲虛擬化異地容災(zāi)解決方案的設(shè)計考慮了系統(tǒng)運行中的各種異常,針對各種故障類

10、型,都有相應(yīng)的保障措施。當(dāng)異常狀況發(fā)生時,針對故障和災(zāi)難的類型,采取合適的故障處理措施,避免異常啟動容災(zāi)系統(tǒng),減少容災(zāi)系統(tǒng)的運行成本。l 上層應(yīng)用中間件故障: 如果故障發(fā)生在上層中間件,則需要通過部署中間件雙機(jī)來解決,如果未在本地部署雙機(jī),則需要啟動容災(zāi)設(shè)備,將業(yè)務(wù)切換到容災(zāi)站點。l 業(yè)務(wù)鏈路故障: 如果業(yè)務(wù)鏈路故障,導(dǎo)致業(yè)務(wù)中斷,且業(yè)務(wù)鏈路無法在短時間內(nèi)恢復(fù),則需要啟用容災(zāi)設(shè)備。l 某一個雙機(jī)節(jié)點故障: 如果Oracle雙機(jī)中的某一節(jié)點故障,業(yè)務(wù)會自動切換到備機(jī),此時不需要啟動容災(zāi)設(shè)備。l 雙機(jī)節(jié)點全部故障: 如果是整套(雙機(jī))生產(chǎn)設(shè)備的全部物理故障,且在短期內(nèi)無法修復(fù),則需要啟用容災(zāi)設(shè)備。

11、l 磁盤陣列內(nèi)部故障(RAID組失效,硬盤故障,邏輯錯誤,病毒等): 如果是磁盤陣列內(nèi)部故障,比如RAID組失效、硬盤故障、單控制器故障,這類故障發(fā)生時業(yè)務(wù)暫時不會中斷,但是風(fēng)險很大,可以直接在本地通過快照,備份進(jìn)行修復(fù)。不需要啟用容災(zāi)設(shè)備l 磁盤陣列整體故障: 如果是磁盤陣列整體故障,導(dǎo)致生產(chǎn)設(shè)備的業(yè)務(wù)均中斷(如程序異常終止),且在短期內(nèi)無法修復(fù),則需要啟用容災(zāi)設(shè)備。建議在生產(chǎn)站點部署兩臺磁盤陣列進(jìn)行鏡像配置,當(dāng)某一臺磁盤陣列整體故障時,可以通過另外一臺鏡像陣列繼續(xù)提供使用,避免業(yè)務(wù)中斷。l 自然災(zāi)害(地址,水災(zāi),風(fēng)災(zāi)等): 如果是自然災(zāi)害導(dǎo)致生產(chǎn)設(shè)備全部物理故障,這類故障肯定在短期內(nèi)無法修

12、復(fù),需要立即啟用容災(zāi)設(shè)備。l 站點故障(空調(diào)故障,供電系統(tǒng)故障等): 因為機(jī)房空調(diào)、供電等故障,導(dǎo)致生產(chǎn)站點設(shè)備不可用,并且在短期內(nèi)無法恢復(fù),則需要啟動災(zāi)備設(shè)備。l 復(fù)制鏈路故障: 如果是復(fù)制鏈路故障,生產(chǎn)站點業(yè)務(wù)不受影響,此時不需要啟動容災(zāi)。只需要在鏈路恢復(fù)后對生產(chǎn)站點數(shù)據(jù)和災(zāi)備站點數(shù)據(jù)進(jìn)行重同步。 容災(zāi)切換l 容災(zāi)切換決策當(dāng)系統(tǒng)檢測到災(zāi)難發(fā)生時,系統(tǒng)上報告警,等待人工進(jìn)行切換決策;系統(tǒng)接收到下發(fā)的切換命令之后,才進(jìn)行容災(zāi)切換處理。l 容災(zāi)切換本方案容災(zāi)切換處理包括:容災(zāi)預(yù)啟動和容災(zāi)切換后處理;容災(zāi)預(yù)啟動過程為:磁盤陣列主備節(jié)點倒換,啟動數(shù)據(jù)庫、文件系統(tǒng)、應(yīng)用軟件;在預(yù)啟動完成之后進(jìn)行容災(zāi)切

13、換后處理,包括停止生產(chǎn)站點與容災(zāi)站點之間的復(fù)制關(guān)系,在生產(chǎn)機(jī)執(zhí)行切換后的相關(guān)處理;災(zāi)備站點的Oceanspace磁盤陣列需要將遠(yuǎn)程鏡像的從LUN切換為主LUN,使得災(zāi)備服務(wù)器通過重掃描磁盤后可用。 容災(zāi)切回在生產(chǎn)設(shè)備遭受災(zāi)難或者發(fā)生故障后實施容災(zāi)切換,容災(zāi)切換成功后容災(zāi)設(shè)備開始對外提供服務(wù)。當(dāng)生產(chǎn)設(shè)備修復(fù)后,系統(tǒng)對外的服務(wù)需要從容災(zāi)設(shè)備重新切換到生產(chǎn)設(shè)備來提供,這個過程稱為容災(zāi)回切。容災(zāi)回切包括下面幾個步驟:l 反向同步生產(chǎn)機(jī)恢復(fù)后,需要將業(yè)務(wù)回切到生產(chǎn)機(jī)上,但是此時的生產(chǎn)機(jī)上已經(jīng)沒有最新的數(shù)據(jù),需要從容災(zāi)機(jī)上同步過來,即從容災(zāi)機(jī)側(cè)向生產(chǎn)機(jī)側(cè)進(jìn)行一次反向同步。Oceanspace磁盤陣列重新建立遠(yuǎn)程鏡像pair關(guān)系,將災(zāi)備站點上“新主LUN”的數(shù)據(jù)同步到生產(chǎn)站點的“新從LUN”(異步遠(yuǎn)程鏡像模式下在災(zāi)備站點停止業(yè)務(wù)之前需要多次同步,保證“新主LUN”與“新從LUN”間滯后的寫操作降到比較小的程度,并在災(zāi)備站點停止業(yè)務(wù)后再同步一次,保證數(shù)據(jù)完整可用);災(zāi)備站點停止業(yè)務(wù)后再次進(jìn)行主從切換,恢復(fù)最初的遠(yuǎn)程鏡像的鏡像關(guān)系。這個過程會占用一定系統(tǒng)資源,但業(yè)務(wù)可在容災(zāi)機(jī)正常運行。l 業(yè)務(wù)切回反向同步完成后

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論