版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材大數(shù)據(jù)系統(tǒng)運(yùn)維劉 鵬 張 燕 總主編姜才康 主編 陶建輝 副主編第1頁,共22頁。第四章性能管理6.1高可用性概述6.2高可用性技術(shù)6.3業(yè)務(wù)連續(xù)性管理習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材第2頁,共22頁。6.1 高可用性概述第六章 高可用性管理衡量系統(tǒng)運(yùn)行穩(wěn)定性的關(guān)鍵指標(biāo)是系統(tǒng)的可用性,可用性(availability)指的是系統(tǒng)的無故障運(yùn)行時(shí)間的百分比,計(jì)算公式為:無故障運(yùn)行時(shí)間/計(jì)劃對(duì)外服務(wù)時(shí)間*100%。為了保證系統(tǒng)有較高的可用性,會(huì)采取一些高可用(High Availability,簡(jiǎn)稱HA)技術(shù)來減少故障中斷時(shí)間。高可用技術(shù)的核心思想是冗余,即關(guān)鍵部件要不止一個(gè)
2、,在原部件故障或者維修的的時(shí)候,備用的零部件要能頂替原有部件的作用。當(dāng)發(fā)生大規(guī)模故障時(shí),如機(jī)房整體電力故障,對(duì)外網(wǎng)絡(luò)被物理切斷,在一定區(qū)域內(nèi)的部件冗余也失效,此時(shí)就需要考慮容災(zāi)相關(guān)的方案。通過在其他物理區(qū)域的數(shù)據(jù)中心建立備份系統(tǒng),第3頁,共22頁。第四章性能管理6.1高可用性概述6.2高可用性技術(shù)6.3業(yè)務(wù)連續(xù)性管理習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材第4頁,共22頁。6.2 高可用性技術(shù)第六章 高可用性管理系統(tǒng)架構(gòu)機(jī)房環(huán)境機(jī)房環(huán)境的高可用主要考慮的是電力和機(jī)柜分配的方面。網(wǎng)絡(luò)、主機(jī)、存儲(chǔ)網(wǎng)絡(luò)是數(shù)據(jù)中心的核心,主機(jī)是高可用方案的主要部分,主機(jī)層面的高可用技術(shù)分為主從模式、雙機(jī)模式和集群模式。數(shù)據(jù)庫在
3、數(shù)據(jù)庫領(lǐng)域,有一些經(jīng)典的高可用技術(shù),不同產(chǎn)品的原理和實(shí)現(xiàn)上都略有區(qū)別。應(yīng)用在實(shí)現(xiàn)某個(gè)特定功能點(diǎn)時(shí),應(yīng)用程序可以通過多個(gè)實(shí)例完成該功能的服務(wù)。第5頁,共22頁。6.2 高可用性技術(shù)第六章 高可用性管理容災(zāi)一般情況下,談到高可用技術(shù)時(shí),討論的范圍都是在數(shù)據(jù)中心內(nèi)部的各種保障技術(shù),但當(dāng)數(shù)據(jù)中心整體發(fā)生故障,或者稱之為災(zāi)難時(shí),就需要依靠容災(zāi)技術(shù),在6.3的業(yè)務(wù)連續(xù)性管理中,會(huì)有詳細(xì)闡述。第6頁,共22頁。6.2 高可用性技術(shù)第六章 高可用性管理監(jiān)控指標(biāo)項(xiàng)應(yīng)用自身狀態(tài):服務(wù)進(jìn)程狀況、服務(wù)狀態(tài)、業(yè)務(wù)開關(guān)或可使用標(biāo)志狀態(tài)。數(shù)據(jù)服務(wù):數(shù)據(jù)及時(shí)、數(shù)據(jù)關(guān)鍵路徑、數(shù)據(jù)完整性和正確性關(guān)鍵表記錄變化情況、關(guān)鍵業(yè)務(wù)數(shù)據(jù)、
4、關(guān)鍵數(shù)據(jù)按預(yù)期清空。性能容量:用戶數(shù)量(終端/API),內(nèi)存加載量、消息并發(fā)量、事務(wù)響應(yīng)時(shí)間。批量作業(yè):批量處理情況、批量開始時(shí)間、批量結(jié)束時(shí)間、批量加載時(shí)間、批處理狀態(tài)。應(yīng)用占用系統(tǒng)資源:文件句柄數(shù)、應(yīng)用分區(qū)空間、應(yīng)用文件增長情況、網(wǎng)絡(luò)連接、單個(gè)用戶或請(qǐng)求進(jìn)程占用的系統(tǒng)資源。應(yīng)用中間件(Weblogic、Tomcat):Weblogic Server、線程池、JVM、數(shù)據(jù)源、連接池、APP狀態(tài)。MQ:隊(duì)列管理器、通道、隊(duì)列、事件、(Event)。WEB服務(wù)器(例如Apache):Apache吞吐率、Apache并發(fā)連接數(shù)、httpd 進(jìn)程數(shù)、httpd線程數(shù)目、提供網(wǎng)站服務(wù)的字節(jié)數(shù)、處理連接
5、的耗時(shí)時(shí)間。第7頁,共22頁。6.2 高可用性技術(shù)第六章 高可用性管理故障轉(zhuǎn)移主機(jī)/存儲(chǔ)/網(wǎng)絡(luò)/數(shù)據(jù)庫一般都是心跳包機(jī)制來進(jìn)行健康狀態(tài)的監(jiān)控。由管理模塊向各個(gè)模塊之間按照一定時(shí)間間隔發(fā)送心跳包,或者兩個(gè)模塊之間互相發(fā)送心跳包,如果超過設(shè)定時(shí)間周期,某個(gè)模塊沒有響應(yīng),則判斷該模塊出現(xiàn)故障,備份模塊接管該模塊的服務(wù),這個(gè)過程被稱為故障轉(zhuǎn)移(Failover)。在主備機(jī)的高可用系統(tǒng)中,在特殊情況下會(huì)發(fā)生腦裂(split-brain)的故障。發(fā)生這種故障的原因是心跳線或者網(wǎng)絡(luò)出現(xiàn)問題,造成主備機(jī)互相探測(cè)不到對(duì)方的心跳,都以為對(duì)方發(fā)生了故障,于是便主動(dòng)獲取存儲(chǔ)或者服務(wù)IP等資源,雙方都啟動(dòng)服務(wù),造成服務(wù)
6、異常。為了解決腦裂問題,一般會(huì)在主備機(jī)之外,引入一個(gè)第三方模塊,作為仲裁者,由它來判斷到底是誰應(yīng)該接管資源,對(duì)外提供服務(wù)。第8頁,共22頁。第四章性能管理6.1高可用性概述6.2高可用性技術(shù)6.3業(yè)務(wù)連續(xù)性管理習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材第9頁,共22頁。6.3 業(yè)務(wù)連續(xù)性管理第六章 高可用性管理災(zāi)備系統(tǒng)等級(jí)類別主要要求第一級(jí)每周一次的數(shù)據(jù)備份,場(chǎng)外存放備份介質(zhì)。第二級(jí)每周一次的數(shù)據(jù)備份,有備用的基礎(chǔ)設(shè)施場(chǎng)地。第三級(jí)每天一次的數(shù)據(jù)備份,利用通信網(wǎng)絡(luò)將關(guān)鍵數(shù)據(jù)定時(shí)批量傳送至備用場(chǎng)地。第四級(jí)每天一次的數(shù)據(jù)備份,利用通信網(wǎng)絡(luò)將關(guān)鍵數(shù)據(jù)定時(shí)批量傳送至備用場(chǎng)地,配備災(zāi)難恢復(fù)所需的全部數(shù)據(jù)處理設(shè)備,并處
7、于就緒狀態(tài)或運(yùn)行狀態(tài)。第五級(jí)采用遠(yuǎn)程數(shù)據(jù)復(fù)制技術(shù),并利用通信網(wǎng)絡(luò)將關(guān)鍵數(shù)據(jù)實(shí)時(shí)復(fù)制到備用場(chǎng)地,配備災(zāi)難恢復(fù)所需的全部數(shù)據(jù)處理設(shè)備,并處于就緒狀態(tài)或運(yùn)行狀態(tài)。第六集遠(yuǎn)程實(shí)時(shí)備份,實(shí)現(xiàn)數(shù)據(jù)零丟失,具備遠(yuǎn)程集群系統(tǒng)的實(shí)時(shí)監(jiān)控和自動(dòng)切換能力。第10頁,共22頁。6.3 業(yè)務(wù)連續(xù)性管理第六章 高可用性管理災(zāi)備恢復(fù)能力要求要素要求數(shù)據(jù)備份系統(tǒng)完全數(shù)據(jù)備份至少每天一次;備份介質(zhì)場(chǎng)外存放; 遠(yuǎn)程實(shí)時(shí)備份,實(shí)現(xiàn)數(shù)據(jù)零丟失。備用數(shù)據(jù)處理系統(tǒng)備用數(shù)據(jù)處理系統(tǒng)具備與生產(chǎn)數(shù)據(jù)處理系統(tǒng)一致的處理能力并完全兼容;、應(yīng)用軟件是“集群的”,可實(shí)時(shí)無縫切換;具備遠(yuǎn)程集群系統(tǒng)的實(shí)時(shí)監(jiān)控和自動(dòng)切換能力。備用網(wǎng)絡(luò)系統(tǒng)配備與主系統(tǒng)相同等
8、級(jí)的通信線路和網(wǎng)絡(luò)設(shè)備;備用網(wǎng)絡(luò)處于運(yùn)行狀態(tài);最終用戶可通過網(wǎng)絡(luò)同時(shí)接入主、備中心。備用基礎(chǔ)設(shè)施有符合介質(zhì)存放條件的場(chǎng)地;有符合備用數(shù)據(jù)處理系統(tǒng)和備用網(wǎng)絡(luò)設(shè)備運(yùn)行要求的場(chǎng)地;有滿足關(guān)鍵業(yè)務(wù)功能恢復(fù)運(yùn)作要求的場(chǎng)地;以上場(chǎng)地應(yīng)保持7x24小時(shí)運(yùn)作。 專業(yè)技術(shù)支持能力在災(zāi)難備份中心7x24小時(shí)有專職的: 計(jì)算機(jī)機(jī)房管理人員;專職數(shù)據(jù)備份技術(shù)支持人員;專職硬件、網(wǎng)絡(luò)技術(shù)支持人員;專職操作系統(tǒng)、數(shù)據(jù)庫和應(yīng)用軟件技術(shù)支持人員。 運(yùn)行維護(hù)管理能力有介質(zhì)存取、驗(yàn)證和轉(zhuǎn)儲(chǔ)管理制度;按介質(zhì)特性對(duì)備份數(shù)據(jù)進(jìn)行定期的有效性驗(yàn)證;有備用計(jì)算機(jī)機(jī)房運(yùn)行管理制度;有硬件和網(wǎng)絡(luò)運(yùn)行管理制度;有實(shí)時(shí)數(shù)據(jù)備份系統(tǒng)運(yùn)行管理制度;有
9、操作系統(tǒng)、數(shù)據(jù)庫和應(yīng)用軟件運(yùn)行管理制度。災(zāi)難恢復(fù)預(yù)案有相應(yīng)的經(jīng)過完整測(cè)試和演練的災(zāi)難恢復(fù)預(yù)案。第11頁,共22頁。6.3 業(yè)務(wù)連續(xù)性管理第六章 高可用性管理數(shù)據(jù)復(fù)制基于數(shù)據(jù)庫的復(fù)制基于應(yīng)用的復(fù)制基于存儲(chǔ)的數(shù)據(jù)復(fù)制第12頁,共22頁。6.3 業(yè)務(wù)連續(xù)性管理第六章 高可用性管理災(zāi)備切換災(zāi)備切換是一系列操作的組合,不是單一的技術(shù)動(dòng)作,服務(wù)的啟動(dòng)順序也有嚴(yán)格的要求。比如數(shù)據(jù)庫必須先啟動(dòng),之后才能啟動(dòng)應(yīng)用程序;應(yīng)用服務(wù)器接管完成,才能進(jìn)行網(wǎng)絡(luò)的切換。如果應(yīng)用程序先于數(shù)據(jù)庫啟動(dòng),會(huì)出現(xiàn)報(bào)錯(cuò)。最好通過操作手冊(cè)和切換腳本對(duì)切換的步驟進(jìn)行固化,并安排一定頻率的災(zāi)備演練。第13頁,共22頁。6.3 業(yè)務(wù)連續(xù)性管理
10、第六章 高可用性管理應(yīng)急預(yù)案需要對(duì)系統(tǒng)可能出現(xiàn)的故障做出預(yù)案,以便發(fā)生故障時(shí)能夠快速處理以恢復(fù)服務(wù)。應(yīng)急預(yù)案中需要明確適用的故障場(chǎng)景,啟動(dòng)預(yù)案的觸發(fā)條件,相關(guān)人員的職責(zé),以及應(yīng)急的操作步驟。其中,應(yīng)急的操作步驟包括可能的技術(shù)操作步驟如重啟進(jìn)程,業(yè)務(wù)操作步驟如發(fā)出通知。第14頁,共22頁。6.3 業(yè)務(wù)連續(xù)性管理第六章 高可用性管理日常演練01沙盤推演0203模擬演練真實(shí)切換第15頁,共22頁。第四章性能管理6.1高可用性概述6.2高可用性技術(shù)6.3業(yè)務(wù)連續(xù)性管理習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材第16頁,共22頁。1.一個(gè)系統(tǒng)24*365小時(shí)對(duì)外服務(wù),2017年度中斷服務(wù)20小時(shí),該系統(tǒng)的可用性為多少?2.簡(jiǎn)述腦裂現(xiàn)象是如何產(chǎn)生的,怎么避免?3.請(qǐng)列出三種數(shù)據(jù)復(fù)制技術(shù)。4.請(qǐng)列出三種常見的監(jiān)控指標(biāo)項(xiàng)。習(xí)題:第17頁,共22頁。AIRack人工智能實(shí)驗(yàn)平臺(tái)一站式的人工智能實(shí)驗(yàn)平臺(tái)DeepRack深度學(xué)習(xí)一體機(jī)開箱即用的AI科研平臺(tái)BDRack大數(shù)據(jù)實(shí)驗(yàn)平臺(tái)一站式的大數(shù)據(jù)實(shí)訓(xùn)平臺(tái)第18頁,共22頁。云計(jì)算頭條微信號(hào):chinacloudnj中國大數(shù)據(jù)微信號(hào):cstorbigdata劉鵬看未來微信號(hào):lpoutlook云創(chuàng)大數(shù)據(jù)訂閱號(hào)微信號(hào):cStor_cn云創(chuàng)公眾號(hào)推薦深度學(xué)習(xí)世界微信號(hào):dl-world云創(chuàng)大數(shù)據(jù)服務(wù)號(hào)微信號(hào):cstorfw高校大數(shù)據(jù)與人工智能微信號(hào):d
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 工作述職報(bào)告3篇
- 二零二五年度綠色環(huán)保廣告字制作與安裝服務(wù)合同3篇
- 2025年度跨行業(yè)員工借調(diào)與資源共享合作協(xié)議3篇
- 2025年度年度勞動(dòng)爭(zhēng)議調(diào)解律師委托協(xié)議終止書3篇
- 2025年度無人機(jī)農(nóng)業(yè)病蟲害防治與智慧農(nóng)業(yè)平臺(tái)合同3篇
- 2025年度農(nóng)莊租賃與農(nóng)業(yè)資源整合合同3篇
- 二零二五年度獸醫(yī)疾病防控中心獸醫(yī)聘用協(xié)議3篇
- 二零二五年度月嫂服務(wù)滿意度評(píng)價(jià)及改進(jìn)合同2篇
- 二零二五年度化學(xué)論文版權(quán)轉(zhuǎn)讓及國際學(xué)術(shù)交流合同3篇
- 2025年度教育資源共享合作協(xié)議書模板集3篇
- 2023教學(xué)工作檢查評(píng)估總結(jié)
- 銅排設(shè)計(jì)技術(shù)規(guī)范
- 英國文學(xué)史及選讀復(fù)習(xí)要點(diǎn)總結(jié)
- 貴州省貴陽市花溪區(qū)2023-2024學(xué)年數(shù)學(xué)三年級(jí)第一學(xué)期期末聯(lián)考試題含答案
- 整改回復(fù)書樣板后邊附帶圖片
- 中小學(xué)校園人車分流方案模板
- 廣東省惠州市博羅縣2022-2023學(xué)年六年級(jí)上學(xué)期期末數(shù)學(xué)試卷
- 2023年04月2023年外交學(xué)院招考聘用筆試參考題庫附答案解析
- 中國自身免疫性腦炎診治專家共識(shí)2023年版
- 單片機(jī)與微機(jī)原理及應(yīng)用第二版張迎新習(xí)題答案
- 深部真菌病課件
評(píng)論
0/150
提交評(píng)論