銀行雙活容災(zāi)建設(shè)方案技術(shù)手冊(cè)-分析篇_第1頁
銀行雙活容災(zāi)建設(shè)方案技術(shù)手冊(cè)-分析篇_第2頁
銀行雙活容災(zāi)建設(shè)方案技術(shù)手冊(cè)-分析篇_第3頁
銀行雙活容災(zāi)建設(shè)方案技術(shù)手冊(cè)-分析篇_第4頁
銀行雙活容災(zāi)建設(shè)方案技術(shù)手冊(cè)-分析篇_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 銀行雙活容災(zāi)建設(shè)方案技術(shù)手冊(cè)分析篇 目 錄 TOC o 1-3 h z u HYPERLINK l _Toc65362699 1、雙活數(shù)據(jù)中心的驅(qū)動(dòng)力 PAGEREF _Toc65362699 h 3 HYPERLINK l _Toc65362700 2、定義符合自己的雙活模式 PAGEREF _Toc65362700 h 4 HYPERLINK l _Toc65362701 3、實(shí)現(xiàn)雙活需要考慮的關(guān)鍵因素 PAGEREF _Toc65362701 h 14隨著全球IT產(chǎn)業(yè)的飛速發(fā)展,金融行業(yè)的IT建設(shè)逐步成為主導(dǎo)金融企業(yè)業(yè)務(wù)發(fā)展的核心驅(qū)動(dòng)力,基于金融行業(yè)IT系統(tǒng)建設(shè)的各種行業(yè)標(biāo)準(zhǔn)以及監(jiān)管標(biāo)

2、準(zhǔn)也相應(yīng)提高。IT系統(tǒng)架構(gòu)的擴(kuò)展性、靈活性以及容災(zāi)能力就成為衡量企業(yè)IT建設(shè)很重要的標(biāo)準(zhǔn)。本手冊(cè)以某銀行同城雙數(shù)據(jù)中心建設(shè)過程為背景,詳細(xì)從系統(tǒng)架構(gòu)集成、資源云化、存儲(chǔ)整合以及數(shù)據(jù)容災(zāi)等多個(gè)關(guān)鍵方面闡述其規(guī)劃思路以及建設(shè)過程,旨在為同業(yè)在此類項(xiàng)目規(guī)劃和建設(shè)過程中提供一些啟示和幫助。1、雙活數(shù)據(jù)中心的驅(qū)動(dòng)力近年來,隨著互聯(lián)網(wǎng)金融的快速發(fā)展,金融企業(yè)數(shù)據(jù)中心建設(shè)面臨著新的挑戰(zhàn)。那就是對(duì)RTO和RPO的極限追求。從而也就誕生了近年來的熱點(diǎn)話題雙活數(shù)據(jù)中心建設(shè)。那么我們?yōu)槭裁匆ㄔO(shè)雙活數(shù)據(jù)中心,它能給我們帶來什么樣的價(jià)值?什么樣的數(shù)據(jù)中心架構(gòu)叫做雙活數(shù)據(jù)中心?如何認(rèn)識(shí)適合自己業(yè)務(wù)模式的雙活模式?建設(shè)階

3、段我們應(yīng)該以什么樣的原則來指導(dǎo)我們的建設(shè)工作?具體的建設(shè)思路以及具體的建設(shè)方案應(yīng)該如何把握?基于這些問題,本文將進(jìn)行深入研究并展開探討。從科技工作層面來講,其實(shí)雙活數(shù)據(jù)中心并不是一個(gè)行業(yè)標(biāo)準(zhǔn)或者規(guī)范。行業(yè)的標(biāo)準(zhǔn)是對(duì)RTO和RPO約束,銀監(jiān)局和中國人民銀行對(duì)商業(yè)銀行業(yè)最嚴(yán)格的要求標(biāo)準(zhǔn)是5級(jí)容災(zāi)標(biāo)準(zhǔn),RPO=15分鐘,RTO=30分鐘。而根據(jù)國際標(biāo)準(zhǔn)share78,六級(jí)容災(zāi)標(biāo)準(zhǔn)是RPO=0,RTO=分鐘級(jí);七級(jí)容災(zāi)標(biāo)準(zhǔn)是RPO=0,RTO近似為0。雙活的概念也就由此而來,為了達(dá)到國際最高標(biāo)準(zhǔn)。那么決策是否建設(shè)雙活數(shù)據(jù)中心的依據(jù)也就在于此,首先確定自己企業(yè)合適的目標(biāo),是不是要必須追求7級(jí)標(biāo)準(zhǔn)?是不是

4、所有業(yè)務(wù)都必須追求這個(gè)目標(biāo)?如果不是,那么首先要對(duì)企業(yè)業(yè)務(wù)進(jìn)行細(xì)分并詳細(xì)規(guī)劃每一個(gè)業(yè)務(wù)的容災(zāi)目標(biāo)。這將決定要不要建設(shè)雙活數(shù)據(jù)中心以及建設(shè)什么樣的雙活數(shù)據(jù)中心。2、定義符合自己的雙活模式2.1 明確雙活目標(biāo)其實(shí)對(duì)于雙活數(shù)據(jù)中心的定義,從來就沒有一個(gè)標(biāo)準(zhǔn)的定義或者是行業(yè)標(biāo)準(zhǔn)。所有的描述或者所謂的定義暫時(shí)都來自廠商的描述。按照目前技術(shù)發(fā)展的現(xiàn)狀以及行業(yè)建設(shè)狀況調(diào)查分析,本文認(rèn)為雙活的基礎(chǔ)架構(gòu)基本如下圖所描述:雙活數(shù)據(jù)中心架構(gòu)基礎(chǔ)輪廓雙活模式主要分三種,主要區(qū)別在于途中(A、B、C、D、E、F幾個(gè)位置的技術(shù)架構(gòu)差異),接下來詳細(xì)探討。1. 數(shù)據(jù)中心級(jí)別的廣義雙活雙活認(rèn)定的標(biāo)準(zhǔn)以數(shù)據(jù)中心工作模式為基準(zhǔn),

5、只要兩個(gè)數(shù)據(jù)中心正常時(shí)都工作,災(zāi)難時(shí)能自動(dòng)切換,那么認(rèn)為是雙活數(shù)據(jù)中心模式。如下圖中的位置參數(shù)表示如下:A = 業(yè)務(wù)定義(讀寫)B = 業(yè)務(wù)定義(讀寫)A BE = 數(shù)據(jù)庫HA模式F = 存儲(chǔ)復(fù)制數(shù)據(jù)中心級(jí)別雙活架構(gòu)注1:數(shù)據(jù)復(fù)制可以選擇存儲(chǔ)的同步復(fù)制也可以選擇數(shù)據(jù)庫層面的同步復(fù)制。故障切換模型設(shè)計(jì)這種雙活架構(gòu)屬于廣義上的雙活模式,兩個(gè)數(shù)據(jù)心之間除了存儲(chǔ)端的復(fù)制,基本沒有其他聯(lián)系。其實(shí)這種模式的雙活是傳統(tǒng)主備模式容災(zāi)組合架構(gòu)的簡(jiǎn)單升級(jí)版。唯一區(qū)別的是傳統(tǒng)容災(zāi)模式下的存儲(chǔ)復(fù)制是基于異步單向模式的,而雙活架構(gòu)下的復(fù)制是基于同步雙向模式的。具體架構(gòu)描述如下圖:數(shù)據(jù)中心級(jí)雙活架構(gòu)這種模式下需要的基本關(guān)

6、鍵技術(shù)必備的功能如下所述:域名解析設(shè)備需要實(shí)現(xiàn)動(dòng)態(tài)及全局智能解析,當(dāng)本地應(yīng)用無法訪問時(shí),DNS能跟負(fù)載均衡設(shè)備實(shí)現(xiàn)聯(lián)動(dòng)的健康檢查而偵測(cè)到這一故障。并且按照解析的動(dòng)態(tài)規(guī)則實(shí)現(xiàn)解析變化。負(fù)載均衡設(shè)備需要實(shí)現(xiàn)本地集群化,保證本地負(fù)載均衡功能的高可用性。應(yīng)用最好以虛擬化方式實(shí)現(xiàn),這樣可以平衡資源的嚴(yán)重浪費(fèi)與高可用的冗余部署之間的矛盾。數(shù)據(jù)庫在兩個(gè)數(shù)據(jù)中心也需要雙份部署,同一個(gè)業(yè)務(wù)部署在兩個(gè)數(shù)據(jù)中心的數(shù)據(jù)庫節(jié)點(diǎn)之間沒有任何聯(lián)系,因?yàn)榫W(wǎng)絡(luò)二層沒有打通,無法實(shí)現(xiàn)HA。一般來講需要手動(dòng)切換。當(dāng)然如果不用存儲(chǔ)復(fù)制技術(shù)而是用的ORACLE的ADG技術(shù)或者是DB2的DR技術(shù),那么可以實(shí)現(xiàn)半自動(dòng)化或全自動(dòng)。如果采用的

7、存儲(chǔ)層面的復(fù)制技術(shù),那么必須是同步復(fù)制,必須是雙向復(fù)制。2. 業(yè)務(wù)級(jí)別雙活雙活認(rèn)定的標(biāo)準(zhǔn)以業(yè)務(wù)是否可以在雙中心內(nèi)同時(shí)進(jìn)行為判定標(biāo)準(zhǔn)。只要同類業(yè)務(wù)能分布在兩個(gè)數(shù)據(jù)中心執(zhí)行,就認(rèn)為是雙活數(shù)據(jù)中心模式。如下圖中的位置參數(shù)表示如下:A = 業(yè)務(wù)定義B = 業(yè)務(wù)定義A = BD = 跨數(shù)據(jù)中心應(yīng)用集群(區(qū)分優(yōu)先級(jí))E = HAF = HA業(yè)務(wù)級(jí)別雙活架構(gòu)故障切換模型設(shè)計(jì)這種雙活架構(gòu)雖然實(shí)現(xiàn)了同類業(yè)務(wù)在前端的負(fù)載分擔(dān),但是在數(shù)據(jù)庫層面還是屬于單點(diǎn)模式。這種模式比前一種模式最大的技術(shù)變更就是要求網(wǎng)絡(luò)上的二層打通。具體實(shí)現(xiàn)架構(gòu)如下所示:業(yè)務(wù)級(jí)雙活架構(gòu)以上架構(gòu),各個(gè)層面應(yīng)該具備的功能描述如下:雙中心DNS設(shè)備為

8、主備模式,域名全局解析,DNS設(shè)備跟負(fù)載均衡設(shè)備能實(shí)現(xiàn)聯(lián)動(dòng)健康檢查。網(wǎng)絡(luò)層面必須實(shí)現(xiàn)二層聯(lián)通以保證數(shù)據(jù)庫層面的跨數(shù)據(jù)中心HA以及應(yīng)用服務(wù)器的應(yīng)用大集群。負(fù)載均衡層,如果是兩個(gè)小集群方式,那么不能將其放入大二層,只保證其三層可達(dá)就可以了,否則客戶端無法實(shí)現(xiàn)請(qǐng)求路由切換;如果是大集群方式,那么可以放入大二層網(wǎng)絡(luò),但是要設(shè)計(jì)好會(huì)話同步問題;數(shù)據(jù)庫在兩個(gè)數(shù)據(jù)中心實(shí)現(xiàn)跨數(shù)據(jù)中心HA部署,主要是以操作系統(tǒng)的HA,將數(shù)據(jù)庫服務(wù)作為HA的服務(wù)方式來實(shí)現(xiàn),例如IBM的HyperSwap。存儲(chǔ)層面需要實(shí)現(xiàn)HA以及同步復(fù)制,例如IBM的SVC集群解決方案,NETAPP的MCC解決方案。3. 應(yīng)用級(jí)別的雙活應(yīng)用級(jí)別的

9、雙活,本文將其定義為同一個(gè)應(yīng)用系統(tǒng)的IO可以從兩個(gè)數(shù)據(jù)中心分別訪問數(shù)據(jù)庫節(jié)點(diǎn),當(dāng)然這個(gè)訪問又會(huì)分為讀操作和寫操作。那么相應(yīng)的這種模式下的雙活又分為兩種:一種是讀寫分離的模式;另外一種是混合模式,也就是業(yè)內(nèi)相對(duì)較為徹底的雙活架構(gòu)。如下圖中的位置參數(shù)表示如下:A = 業(yè)務(wù)定義B = 業(yè)務(wù)定義A = BE = 數(shù)據(jù)庫AA集群模式F = HA/AA業(yè)務(wù)級(jí)別雙活架構(gòu)故障切換模型設(shè)計(jì)這種雙活架構(gòu)雖然實(shí)現(xiàn)了應(yīng)用IO級(jí)別的雙活,是目前金融行業(yè)較為徹底的雙活。具體架構(gòu)如下:應(yīng)用級(jí)雙活架構(gòu)各個(gè)層面應(yīng)該具備的功能與前述架構(gòu)區(qū)別最大的幾個(gè)關(guān)鍵點(diǎn)描述如下:數(shù)據(jù)庫在兩個(gè)數(shù)據(jù)中心實(shí)現(xiàn)跨數(shù)據(jù)中心集群模式。存儲(chǔ)層可以選擇HA方

10、式也可以選擇EMC提供的VPLEX虛擬化集群方式。2.2 明確業(yè)務(wù)連續(xù)性要求一、銀行業(yè)務(wù)連續(xù)性管理的現(xiàn)狀與問題近年來我國銀行業(yè)業(yè)務(wù)發(fā)展迅猛,大型銀行的資本總額、開戶數(shù)量、業(yè)務(wù)處理量已位居世界前列,經(jīng)營(yíng)范圍遍及全國并在海外快速擴(kuò)張,一旦業(yè)務(wù)停頓,可能影響全行乃至整個(gè)金融體系的正常運(yùn)轉(zhuǎn),并影響社會(huì)穩(wěn)定。因此,數(shù)據(jù)大集中后,銀行業(yè)積極推進(jìn)災(zāi)難恢復(fù)、應(yīng)急管理和IT服務(wù)持續(xù)性管理有關(guān)工作。初步構(gòu)建了信息系統(tǒng)應(yīng)急管理體系。確立了應(yīng)急管理組織架構(gòu),區(qū)分信息系統(tǒng)突發(fā)事件等級(jí),形成統(tǒng)一的應(yīng)急響應(yīng)流程和通知報(bào)告程序。并注重與地方政府、新聞媒體的溝通協(xié)調(diào),加強(qiáng)機(jī)構(gòu)內(nèi)部各職能部門的協(xié)調(diào)配合,增強(qiáng)了突發(fā)事件的應(yīng)對(duì)處置能

11、力。積極開展災(zāi)難備份系統(tǒng)建設(shè)工作。按照“統(tǒng)籌規(guī)劃、資源共享、平戰(zhàn)結(jié)合”的原則,大型和股份制銀行積極推進(jìn)“兩地三中心”的建設(shè),建立了同城和異地災(zāi)備中心,應(yīng)對(duì)建筑類故障和區(qū)域性(例如地震、洪災(zāi)、戰(zhàn)爭(zhēng)等)災(zāi)難。大多數(shù)商業(yè)銀行基本建立了核心業(yè)務(wù)的災(zāi)難恢復(fù)系統(tǒng),保障核心業(yè)務(wù)數(shù)據(jù)安全和災(zāi)難發(fā)生時(shí)核心業(yè)務(wù)的恢復(fù)。提升危機(jī)處理能力。積極開展應(yīng)急演練和災(zāi)難恢復(fù)演練,加強(qiáng)銀行內(nèi)部各部門,及銀行與通訊、電力等外部機(jī)構(gòu)的聯(lián)防協(xié)作。實(shí)施了包括核心系統(tǒng)在內(nèi)的重要業(yè)務(wù)系統(tǒng)切換演練,提高銀行應(yīng)對(duì)信息系統(tǒng)突發(fā)事件的能力和信心。二、我國銀行業(yè)在業(yè)務(wù)連續(xù)性管理方面的不足對(duì)業(yè)務(wù)連續(xù)性管理的重要性和價(jià)值認(rèn)識(shí)不足,尚未形成有效的BCM管

12、理體系。部分銀行對(duì)業(yè)務(wù)持續(xù)性管理缺乏必要的理解,認(rèn)為“投入大、收益小”,對(duì)金融服務(wù)持續(xù)性與公眾生活、經(jīng)濟(jì)社會(huì)正常運(yùn)轉(zhuǎn)的緊密關(guān)系缺乏足夠的認(rèn)識(shí),銀行改善BCM管理的動(dòng)力大多來自國家或監(jiān)管政策壓力,主觀意愿不足,將業(yè)務(wù)持續(xù)性管理等同于信息系統(tǒng)的災(zāi)難恢復(fù)、日常故障處置的模糊意識(shí)大量存在,參與的多為IT部門、部分人員,業(yè)務(wù)連續(xù)性計(jì)劃僅作為事件處理的應(yīng)急預(yù)案,未建立起B(yǎng)CM的管理組織體系。應(yīng)急預(yù)案體系不夠完整,業(yè)務(wù)應(yīng)急機(jī)制匱乏,外部應(yīng)急協(xié)調(diào)不足。大多數(shù)銀行沒有業(yè)務(wù)層面應(yīng)急管理機(jī)制的開發(fā)和演練,場(chǎng)地應(yīng)急、人員應(yīng)急等BCM重要環(huán)節(jié)缺乏實(shí)質(zhì)性的建設(shè)。信息系統(tǒng)應(yīng)急預(yù)案流于形式,不少銀行對(duì)業(yè)務(wù)連續(xù)性的認(rèn)識(shí)不足,認(rèn)

13、為業(yè)務(wù)連續(xù)性就是信息系統(tǒng)應(yīng)急恢復(fù),就是科技部門的責(zé)任,沒有在全行層面建立整體管理體系,缺乏科技與業(yè)務(wù)、公關(guān)等部門的聯(lián)動(dòng),缺少業(yè)務(wù)應(yīng)急手段和客戶安撫、媒體公關(guān)等處理措施。業(yè)務(wù)部門配合不足、業(yè)務(wù)人員參與力度不大、業(yè)務(wù)覆蓋面不全,一旦出現(xiàn)意外,應(yīng)急預(yù)案可能無法發(fā)揮作用,與外部機(jī)構(gòu)(如政府機(jī)構(gòu)、公共事業(yè)機(jī)構(gòu)、銀行同業(yè)、外部合作金融服務(wù)機(jī)構(gòu)等)的協(xié)作聯(lián)動(dòng)不足。多數(shù)銀行業(yè)務(wù)連續(xù)性演練僅停留在信息科技層面,缺乏涵蓋業(yè)務(wù)、技術(shù)和后勤保障等多方面的全行性演練,導(dǎo)致應(yīng)急和災(zāi)備能力有效性無法得到驗(yàn)證。業(yè)務(wù)的災(zāi)難恢復(fù)目標(biāo)不明確、信息系統(tǒng)災(zāi)備覆蓋面不夠、災(zāi)備資源的有效性保障不足。缺乏風(fēng)險(xiǎn)評(píng)估和業(yè)務(wù)影響分析,缺乏對(duì)業(yè)務(wù)中

14、斷損失與災(zāi)備建設(shè)投入的成本效益測(cè)算,導(dǎo)致災(zāi)備系統(tǒng)、科技應(yīng)急體系建設(shè)盲目投入、缺乏規(guī)劃,災(zāi)備系統(tǒng)覆蓋不足等問題。雖然銀行大多已建立了災(zāi)備中心,但是業(yè)務(wù)分類分級(jí)及差異化的業(yè)務(wù)恢復(fù)目標(biāo)還不十分明確,部分銀行災(zāi)備中心只停留在核心賬務(wù)數(shù)據(jù)保護(hù)的層面,一旦發(fā)生災(zāi)難,很難實(shí)現(xiàn)重要交易渠道的恢復(fù)、重要客戶及交易數(shù)據(jù)的恢復(fù)。災(zāi)備切換演練未能真正貼近實(shí)戰(zhàn),災(zāi)備人員配置、系統(tǒng)演練有效性驗(yàn)證等方面存在不足。三、加強(qiáng)銀行業(yè)務(wù)連續(xù)性管理的意義信息科技連續(xù)運(yùn)作的根本目標(biāo)是保障業(yè)務(wù)的持續(xù)性,商業(yè)銀行更應(yīng)從業(yè)務(wù)角度出發(fā),以業(yè)務(wù)持續(xù)為目標(biāo),形成應(yīng)對(duì)突發(fā)事件、災(zāi)害災(zāi)難的各部門協(xié)同管理體系,加強(qiáng)頂層設(shè)計(jì)。隨著經(jīng)濟(jì)、金融全球化和信息技

15、術(shù)發(fā)展加速,信息科技的廣泛應(yīng)用使得金融機(jī)構(gòu)之間的關(guān)聯(lián)度大大提升,各個(gè)國家金融機(jī)構(gòu)間的外部依賴度也不斷加強(qiáng),單家機(jī)構(gòu)的故障可能使關(guān)聯(lián)金融機(jī)構(gòu)遭受損失,并且風(fēng)險(xiǎn)擴(kuò)散的速度更快、范圍更大,外部性大大增強(qiáng),因此推動(dòng)和加強(qiáng)銀行業(yè)的業(yè)務(wù)連續(xù)性體系建設(shè),從全行層面進(jìn)行規(guī)劃,進(jìn)一步加強(qiáng)整體業(yè)務(wù)連續(xù)性規(guī)范和深層次機(jī)制建設(shè),實(shí)現(xiàn)對(duì)各種事故和災(zāi)難的有效應(yīng)對(duì),維護(hù)正常的經(jīng)濟(jì)金融運(yùn)行秩序非常迫切。從長(zhǎng)遠(yuǎn)來看,BCM的價(jià)值并非僅僅是企業(yè)應(yīng)對(duì)災(zāi)難、提高生存能力的工具,在許多發(fā)達(dá)國家金融行業(yè),BCM已成為改善經(jīng)營(yíng)管理、承擔(dān)社會(huì)責(zé)任的基本準(zhǔn)則,是銀行提高風(fēng)險(xiǎn)預(yù)測(cè)和快速應(yīng)對(duì)能力,適應(yīng)需求變化和威脅,保持競(jìng)爭(zhēng)優(yōu)勢(shì)的重要基礎(chǔ)??梢哉f

16、,業(yè)務(wù)連續(xù)性管理直接關(guān)系到中國銀行業(yè)的國際競(jìng)爭(zhēng)力,對(duì)整個(gè)行業(yè)長(zhǎng)期、可持續(xù)健康發(fā)展具有深遠(yuǎn)的意義。為此,銀監(jiān)會(huì)在充分借鑒新加坡金管局SINGAPORE STANDARD SS 507、英國BSI PAS 56及一些國際先進(jìn)銀行的業(yè)務(wù)連續(xù)性管理經(jīng)驗(yàn)基礎(chǔ)上,結(jié)合我國國情和商業(yè)銀行實(shí)際情況,編寫并正式發(fā)布了商業(yè)銀行業(yè)務(wù)連續(xù)性監(jiān)管指引(下稱指引)。2.3 明確整體容災(zāi)架構(gòu)本節(jié)將重點(diǎn)通過架構(gòu)對(duì)比、功能對(duì)比、實(shí)現(xiàn)復(fù)雜度對(duì)比等方面來分析三種雙活架構(gòu)的優(yōu)劣勢(shì),以幫助明確企業(yè)自己的整體容災(zāi)架構(gòu)。雙活架構(gòu)對(duì)比2.4 明確企業(yè)自身科技實(shí)力為什么要明確銀行自身的科技實(shí)力,因?yàn)榭萍紝?shí)力直接決定企業(yè)對(duì)雙活容災(zāi)體系的建設(shè)水平

17、和掌控能力。在數(shù)據(jù)中心容災(zāi)架構(gòu)建設(shè)之間必須明確以下幾個(gè)問題,以對(duì)容災(zāi)建設(shè)起到正確的決策作用:(1)運(yùn)維管理能力(2)應(yīng)急處理能力(3)對(duì)運(yùn)營(yíng)商的掌控能力(4)科技項(xiàng)目質(zhì)量保障能力如果運(yùn)維管理能力和應(yīng)急處理的能力不足的話,那么容災(zāi)架構(gòu)越簡(jiǎn)單越好,復(fù)雜了反而是一種巨大的風(fēng)險(xiǎn);如果對(duì)運(yùn)營(yíng)商的掌控能力不足的話,那么雙數(shù)據(jù)中心之間的復(fù)制技術(shù)選型和具體的數(shù)據(jù)傳輸量和數(shù)據(jù)傳輸類型的設(shè)計(jì)就是整個(gè)容災(zāi)架構(gòu)的最關(guān)鍵的地方了,一定需要將鏈路的風(fēng)險(xiǎn)考慮到第一位;如果科技項(xiàng)目質(zhì)量保障能力不足的話,那么在整個(gè)建設(shè)過程當(dāng)中就很難把握其中的關(guān)鍵架構(gòu)實(shí)施的質(zhì)量,從而也就無法保障整體架構(gòu)的完整性。3、實(shí)現(xiàn)雙活需要考慮的關(guān)鍵因素3

18、.1 數(shù)據(jù)復(fù)制技術(shù)3.1.1 數(shù)據(jù)復(fù)制在容災(zāi)中的必要性1. RPO保障如果沒有數(shù)據(jù)復(fù)制技術(shù),那么容災(zāi)也就無從談起。當(dāng)面臨站點(diǎn)及故障時(shí),由于沒有數(shù)據(jù)復(fù)制技術(shù)的支撐,我們的數(shù)據(jù)無法在其他站點(diǎn)再現(xiàn),這將意味著RPO將無法保障。對(duì)于一個(gè)金融企業(yè)來講,最終要的就是客戶的數(shù)據(jù),它是企業(yè)的生命。從這個(gè)意義上來講,金融企業(yè)不能沒有容災(zāi)體系,容災(zāi)體系的前提條件是能夠?qū)崿F(xiàn)數(shù)據(jù)復(fù)制。那么數(shù)據(jù)復(fù)制的效率如何,復(fù)制的效果如何,復(fù)制技術(shù)的先進(jìn)與否也就決定了金融企業(yè)生命線的穩(wěn)固與否。2. RTO保障所謂RTO就是在容災(zāi)系統(tǒng)在面臨站點(diǎn)級(jí)故障時(shí),多長(zhǎng)時(shí)間能夠恢復(fù)業(yè)務(wù)。假設(shè)站點(diǎn)故障恢復(fù)的時(shí)間不可容忍或者根本沒有可能,那么業(yè)務(wù)必須

19、能夠切到另外一個(gè)數(shù)據(jù)中心,從數(shù)據(jù)、應(yīng)用以及網(wǎng)絡(luò)層都需要具備這個(gè)切換能力。但是最終的目的就是要保障業(yè)務(wù)能正?;謴?fù),而業(yè)務(wù)恢復(fù)的前提條件就是數(shù)據(jù),沒有數(shù)據(jù)的應(yīng)用切換和網(wǎng)絡(luò)切換沒有任何意義。也就是說數(shù)據(jù)恢復(fù)是應(yīng)用切換以及網(wǎng)絡(luò)切換的前提條件,從這個(gè)意義上講,數(shù)據(jù)復(fù)制效率和效果直接決定了一些列切換,也就是它使得RTO成為可能。3.1.2 評(píng)價(jià)數(shù)據(jù)復(fù)制技術(shù)的維度分析對(duì)于數(shù)據(jù)復(fù)制來講,我們可以從多個(gè)層面、多種技術(shù)去實(shí)現(xiàn)。各有各的特點(diǎn),那么究竟哪一種數(shù)據(jù)復(fù)制技術(shù)更適合我們?活著說哪一種復(fù)制技術(shù)更科學(xué)合理?這需要一系列從不同緯度進(jìn)行的科學(xué)評(píng)估。本文認(rèn)為應(yīng)該從以下幾個(gè)方面來展開分析,并結(jié)合我們自己的需求來選擇合理

20、的數(shù)據(jù)復(fù)制方案。一、投資成本分析建設(shè)任何一個(gè)項(xiàng)目,投資成本的分析都是必不可少的分析維度。對(duì)數(shù)據(jù)復(fù)制技術(shù)的投資成本分析來講,我們需要從它的首次建設(shè)成本、持續(xù)維護(hù)成本以及容災(zāi)管理成本等多方面去考慮。二、技術(shù)成熟度及健壯性分析對(duì)于數(shù)據(jù)復(fù)制技術(shù)的成熟度和健壯性分析來講,一方面我們要從技術(shù)本身的原理上來分析,另外我們還需要從技術(shù)的發(fā)展以及應(yīng)用范圍以及應(yīng)用的持久穩(wěn)定性等方面來考慮。三、風(fēng)險(xiǎn)評(píng)估分析數(shù)據(jù)復(fù)制技術(shù)本身來講是要幫助我們解決站點(diǎn)級(jí)故障帶給我們的IT風(fēng)險(xiǎn),但是對(duì)于技術(shù)應(yīng)用本身來講,它也會(huì)存在一些技術(shù)風(fēng)險(xiǎn)。比如說特殊場(chǎng)合下的一些技術(shù)風(fēng)險(xiǎn)、容災(zāi)管理過程中的一些風(fēng)險(xiǎn)、極端場(chǎng)合下的一些技術(shù)風(fēng)險(xiǎn)等等。四、功能

21、拓展性分析對(duì)于數(shù)據(jù)復(fù)制技術(shù)本身來講,其主要功能就是完成數(shù)據(jù)的復(fù)制。但是在完成數(shù)據(jù)復(fù)制的同時(shí),由于其架構(gòu)的特點(diǎn)以及技術(shù)特點(diǎn)等因素有可能對(duì)于我們的應(yīng)用產(chǎn)生積極的拓展性作用,也有可能限制了我們的應(yīng)用架構(gòu)模式,還有可能對(duì)我們的基礎(chǔ)架構(gòu)擴(kuò)展性以及靈活性造成一定的限制。3.2 數(shù)據(jù)邏輯錯(cuò)誤同步存儲(chǔ)層面的復(fù)制技術(shù)基本以存儲(chǔ)塊兒為單位進(jìn)行的數(shù)據(jù)復(fù)制,對(duì)于塊兒內(nèi)數(shù)據(jù)的應(yīng)用層面的邏輯錯(cuò)誤是沒有完整校驗(yàn)的,它只保證存儲(chǔ)塊兒的可用性,這個(gè)可用性僅僅保障存儲(chǔ)層面的卷可用,并不能完全保證應(yīng)用層面的數(shù)據(jù)可用性。假設(shè)數(shù)據(jù)塊發(fā)生了邏輯錯(cuò)誤,那么存儲(chǔ)是無法檢測(cè)到的,它會(huì)繼續(xù)將壞的數(shù)據(jù)塊兒同步到災(zāi)備端,如果因此數(shù)據(jù)庫發(fā)生宕機(jī),那么

22、災(zāi)備端的數(shù)據(jù)庫也同樣無法正常啟動(dòng)。對(duì)于這個(gè)問題發(fā)生的概率是非常低的,但是畢竟存在這個(gè)風(fēng)險(xiǎn),解決這個(gè)問題的方法就是對(duì)于重要數(shù)據(jù)增加數(shù)據(jù)庫層面的數(shù)據(jù)復(fù)制方案,比如ORACLE的ADG,比如DB2的HADR。當(dāng)然這個(gè)可能會(huì)帶來一些功能上的重復(fù),因?yàn)闊o論是存儲(chǔ)復(fù)制還是數(shù)據(jù)庫復(fù)制,其實(shí)都是數(shù)據(jù)保障的手段。但是存儲(chǔ)的復(fù)制解決的問題不僅僅是數(shù)據(jù)庫層的數(shù)據(jù)保護(hù),所以在基礎(chǔ)架構(gòu)中的角色,他還是不能丟棄的。3.3 集群仲裁一致性所謂的仲裁一致性問題,是指雙中心之間的VPlex存儲(chǔ)集群和數(shù)據(jù)庫RAC集群的仲裁結(jié)果是否能保證一致性。VPlex集群是靠仲裁站點(diǎn)分別于兩個(gè)站點(diǎn)之間的網(wǎng)絡(luò)連通性來判定站點(diǎn)故障。而數(shù)據(jù)庫集群是

23、通過以太網(wǎng)心跳和OCR仲裁盤來做數(shù)據(jù)庫仲裁。而數(shù)據(jù)庫的OCR仲裁盤是存儲(chǔ)集群提供的分布式共享卷。二者仲裁時(shí)的一致性如何保障是非常重要的一個(gè)問題。假設(shè)在發(fā)生站點(diǎn)級(jí)別故障時(shí),數(shù)據(jù)庫集群首先根據(jù)網(wǎng)絡(luò)故障觸發(fā)仲裁,判定站點(diǎn)A的節(jié)點(diǎn)存活。而存儲(chǔ)隨后再發(fā)生存儲(chǔ)集群的仲裁,這個(gè)時(shí)候如果根據(jù)Witness判定的結(jié)果恰恰仲裁委站點(diǎn)B的節(jié)點(diǎn)存活。那么數(shù)據(jù)庫集群整體就會(huì)宕掉,這對(duì)于業(yè)務(wù)來講就是一個(gè)災(zāi)難。在這個(gè)問題上,風(fēng)險(xiǎn)發(fā)生的引發(fā)點(diǎn)有兩個(gè):數(shù)據(jù)庫和集群的仲裁觸發(fā)以及仲裁過程的時(shí)間順序發(fā)生紊亂;資源被1:1割裂之后的默認(rèn)仲裁策略不一致。也就是說,只要控制這兩個(gè)引發(fā)點(diǎn),那么這個(gè)問題從理論上也就避免了。對(duì)于第一個(gè)引發(fā)點(diǎn)來

24、講,實(shí)際上存儲(chǔ)集群的默認(rèn)仲裁觸發(fā)時(shí)間會(huì)是15秒左右,而數(shù)據(jù)庫仲裁觸發(fā)的控制參數(shù)由misscount這個(gè)參數(shù)來決定,所以只要我們將misscount這個(gè)參數(shù)調(diào)整到45秒之后,也就是說理論上絕對(duì)保障存儲(chǔ)集群仲裁在前,而數(shù)據(jù)庫仲裁在后,那么第一個(gè)引發(fā)點(diǎn)就沒有了。對(duì)于第二個(gè)引發(fā)點(diǎn)來講,假設(shè)兩站點(diǎn)節(jié)點(diǎn)資源對(duì)等,仲裁選票同樣對(duì)等的情況下,存儲(chǔ)集群會(huì)有一個(gè)默認(rèn)的Winner策略,同樣在這種情況下數(shù)據(jù)庫集群也有一個(gè)默認(rèn)仲裁策略:選擇實(shí)例號(hào)小的集群存活。只要我們保證這兩個(gè)策略結(jié)果的一致性,那么第二個(gè)引發(fā)點(diǎn)也就不存在了。3.4 雙中心之間的通訊雙中心間的通訊不可控問題主要表現(xiàn)為兩個(gè)方面:鏈路穩(wěn)定狀況不可控;IO延

25、時(shí)指標(biāo)不可控。因?yàn)殡p中心之間的鏈路是通過租用運(yùn)營(yíng)商的裸光纖鏈路實(shí)現(xiàn)的,那么這其中會(huì)經(jīng)歷很多的中繼設(shè)備及節(jié)點(diǎn)。無論從管理上還是從技術(shù)把控上都是金融企業(yè)自身不可控制的因素。假設(shè)雙中心間鏈路延時(shí)指標(biāo)不穩(wěn)定,也就是說數(shù)據(jù)庫節(jié)點(diǎn)之間私網(wǎng)傳輸?shù)难訒r(shí)會(huì)經(jīng)常出現(xiàn)長(zhǎng)延時(shí)情況,這勢(shì)必導(dǎo)致這種延時(shí)會(huì)加倍放大到數(shù)據(jù)庫節(jié)點(diǎn)之間的讀寫熱點(diǎn)競(jìng)爭(zhēng)上。由于數(shù)據(jù)庫集群之間的數(shù)據(jù)傳輸量非常大(緩存、鎖、心跳等),在讀寫熱點(diǎn)相對(duì)突出的業(yè)務(wù)上,輕則導(dǎo)致數(shù)據(jù)庫讀寫性能災(zāi)難,重則導(dǎo)致數(shù)據(jù)庫節(jié)點(diǎn)直接處于僵死狀態(tài)。另外,鏈路的不穩(wěn)定會(huì)導(dǎo)致存儲(chǔ)鏈路頻繁切換,甚至?xí)?dǎo)致集群仲裁頻繁發(fā)生,這對(duì)于業(yè)務(wù)連續(xù)性更是一個(gè)災(zāi)難。對(duì)于這個(gè)問題來講,就目前金融行業(yè)的傳統(tǒng)數(shù)據(jù)架構(gòu)來講,并沒有一個(gè)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論