




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、FusionStorage Block運維故障處理指南技術(shù)創(chuàng)新,變革未來FusionStorage Block是華為分布式存儲,了解和掌握FusionStorage Block的故障處理方法,可以更好的部署和維護(hù)企業(yè)云計算存儲環(huán)境。學(xué)完本課程后,您將能夠:FusionStorage Block故障簡介FusionStorage Block告警機(jī)制介紹FusionStorage Block日志機(jī)制介紹FusionStorage Block故障處理流程FusionStorage Block典型故障案例分析FusionStorage Block備份與恢復(fù)方法FusionStorage Block應(yīng)急
2、預(yù)案介紹FusionStorage Block高危操作FusionStorage Block故障簡介FusionStorage Block告警機(jī)制介紹FusionStorage Block日志機(jī)制介紹FusionStorage Block故障處理流程FusionStorage Block典型故障案例分析FusionStorage Block備份與恢復(fù)方法FusionStorage Block應(yīng)急預(yù)案介紹FusionStorage Block高危操作FusionStorage Block軟件組成FusionStorage Block功能簡介FusionStorage Manager(FSM)管理
3、進(jìn)程,提供告警、監(jiān)控、日志、配置等操作維護(hù)功能,推薦主備節(jié)點部署。FusionStorage Agent (FSA)管理代理進(jìn)程,部署在各節(jié)點(服務(wù)器)上,實現(xiàn)各節(jié)點與FSM通信。MDC業(yè)務(wù)控制進(jìn)程,實現(xiàn)對分布式集群的狀態(tài)控制,以及控制數(shù)據(jù)分布式規(guī)則、數(shù)據(jù)重建規(guī)則等。創(chuàng)建控制集群時,元數(shù)據(jù)管理服務(wù)(zookeeper)部署在3個、5個或者7個節(jié)點上,每個元數(shù)據(jù)管理服務(wù)節(jié)點上部署一個MDC進(jìn)程,形成控制集群。VBS業(yè)務(wù)IO進(jìn)程,負(fù)責(zé)卷元數(shù)據(jù)的管理,提供分布式集群接入點服務(wù),使計算資源能夠通過VBS訪問分布式存儲資源。每個服務(wù)器上部署一個VBS進(jìn)程,形成VBS集群。OSD業(yè)務(wù)IO進(jìn)程,執(zhí)行具體的I
4、/O操作。在每個服務(wù)器上部署多個OSD進(jìn)程,一塊磁盤對應(yīng)部署一個OSD進(jìn)程。FusionStorage Block故障概覽FusionStorage Block故障硬件故障控制集群故障塊客戶端故障存儲池故障管理節(jié)點故障操作維護(hù)故障FusionStorage Block故障簡介FusionStorage Block告警機(jī)制介紹FusionStorage Block日志機(jī)制介紹FusionStorage Block故障處理流程FusionStorage Block典型故障案例分析FusionStorage Block備份與恢復(fù)方法FusionStorage Block應(yīng)急預(yù)案介紹FusionSto
5、rage Block高危操作告警機(jī)制硬盤,SSD卡/盤,網(wǎng)絡(luò),進(jìn)程,服務(wù).FS_OSDFS_VBSFS_MDCFS_AGENTFS_MANAGEROMM告警模塊(接收告警的上報和恢復(fù),并記錄到DB)Portal告警是由系統(tǒng)中各個部件,實時監(jiān)控或在處理業(yè)務(wù)時,發(fā)現(xiàn)影響系統(tǒng)可靠性的事件時,通過告警模塊上報至數(shù)據(jù)庫,并且在portal上呈現(xiàn)給維護(hù)人員告警的嚴(yán)重程度從低到高依次為:提示一般嚴(yán)重緊急告警收集需要重點關(guān)注的告警 (1)告警ID告警名稱告警影響51001OSD退出服務(wù)表示有節(jié)點或磁盤被踢出存儲池,存儲池容量受損51003存儲池故障表示有全副本故障,或曾出現(xiàn)過全副本故障(該告警從C02SPC2
6、00版本開始才可以自動清除,之前的版本都無法自動清除),全副本故障會導(dǎo)致上層無法寫新的數(shù)據(jù)51009硬盤不在位硬盤被拔出,或沒插好,持續(xù)5min以后,該盤(OSD)會被踢出集群51004硬盤故障表示硬盤出現(xiàn)某種故障,且檢測到該故障后,該硬盤會被立刻踢出集群,更換新的硬盤時會自動將新盤加入集群51013硬盤介質(zhì)故障51014硬盤即將故障51015硬盤溫度異常51005硬盤空間不足當(dāng)硬盤占用率大于等于告警閾值95%時,系統(tǒng)會上報告警,單盤占用率超過95%時,該盤會寫保護(hù),系統(tǒng)業(yè)務(wù)會中斷需要重點關(guān)注的告警 (2)告警ID告警名稱告警影響51006存儲池空間占用率超過閾值次要:存儲池空間使用比例 80
7、% 90% 嚴(yán)重:存儲池空間使用比例 90% 93% 緊急:存儲池空間使用比例 93%以上上報次要告警時就需要考慮擴(kuò)容事宜,因為如果達(dá)到95%,會出現(xiàn)寫保護(hù),上層業(yè)務(wù)會中斷51007MDC與VBS通信異常MDC失去某個VBS的心跳而上報的告警,有可能是VBS所在的節(jié)點異常,也有可能是存儲平面網(wǎng)絡(luò)異常51016SSD卡故障SSD做主存時,如果上報SSD相關(guān)告警,則SSD對應(yīng)的OSD會被踢出集群SSD做緩存時,如果上報SSD相關(guān)告警,則SSD所在節(jié)點的所有OSD均會被踢出集群故障恢復(fù)后需手動將節(jié)點或磁盤再擴(kuò)容進(jìn)來51017SSD卡溫度異常51018SSD卡電容失效51019SSD卡平均磨損值即將超
8、額51020SSD卡壞塊過多需要重點關(guān)注的告警 (3)告警ID告警名稱告警影響51024存儲池降級某些硬盤或節(jié)點發(fā)生異常,但由于容量不足或其他限制條件導(dǎo)致這些OSD無法被踢出集群,持續(xù)12小時后上報該告警51813NVDIMM不在位NVDIMM為FusionStorage的緩存,如果上報NVDIMM相關(guān)告警,則該NVDIMM所在節(jié)點的所有OSD均會被踢出集群51814NVDIMM故障51816NVDIMM電容不在位51801MDC進(jìn)程異常FusionStorage的主要進(jìn)程異常,對系統(tǒng)均會有不同程度的影響,發(fā)現(xiàn)后需立刻排查恢復(fù);OSD進(jìn)程異常超過一定時間后會被踢出集群51802VBS進(jìn)程異常5
9、1803OSD進(jìn)程異常51825FusionStorage Agent進(jìn)程異常51804ZooKeeper進(jìn)程異常FusionStorage Block故障簡介FusionStorage Block告警機(jī)制介紹FusionStorage Block日志機(jī)制介紹FusionStorage Block故障處理流程FusionStorage Block典型故障案例分析FusionStorage Block備份與恢復(fù)方法FusionStorage Block應(yīng)急預(yù)案介紹FusionStorage Block高危操作關(guān)于日志必須了解的日志輸出有分類-FSM,FSA,MDC,OSD,VBS,DI等日志輸出
10、有級別區(qū)分-DEBUG,INFO,WARNING,ERROR歷史日志有備份-根據(jù)場景不同,備份場所也不同關(guān)鍵流程有日志-啟動,初始化,創(chuàng)卷等業(yè)務(wù)流程,CRB等流程日志輸出有考慮性能-每15分鐘從內(nèi)存向磁盤持久化一次,緊急情況下,可以用工具立即輸出常用日志路徑(1)節(jié)點名稱日志文件(示例)描述所在目錄FusionStorage Managerdsware-manager-web.logdsware-manager-web.日期.log.zipFusionStorage manager運行時的日志/var/log/dsware/managerinstall.logFusionStorage man
11、ager安裝日志/var/log/dsware/managerinstallAgent_.logFusionStorageAgent安裝日志/var/log/dsware/managerbackup_20130308.logFusionStorageManager管理數(shù)據(jù)產(chǎn)生的日志/var/log/dsware/manager/backuptimes_20130304.log/var/log/ntpNTP服務(wù)產(chǎn)生的日志/var/log/dsware/manager/times和/var/log/ha.log.2013-03-05_12-00-00.gz/scriptlog/*.logHA日志/
12、var/log/omm/oms/ha常用日志路徑(2)節(jié)點名稱日志文件(示例)描述所在目錄 FusionStorage Agentagent_handle.logagent執(zhí)行shell腳本產(chǎn)生的日志/var/log/dswaredsware_agent.log*agent運行時的日志/var/log/dswareinstall.log.0 安裝agent的日志/var/log/dswarelog-MDC.*MDC運行時的日志/var/log/dswarelog-OSD.*OSD運行時的日志/var/log/dswarelog-VBS.*VBS運行時的日志/var/log/dswarezook
13、eeper.log.*ZK運行時的日志/var/log/dsware常用日志歸檔路徑配有日志服務(wù)器時,CNA節(jié)點產(chǎn)生的日志每15min被壓縮打包一次并上傳到日志服務(wù)器未配置日志服務(wù)器時,CNA節(jié)點產(chǎn)生的日志仍會每15min被壓縮打包一次并被收到特定目錄,當(dāng)OS安裝在U盤上時,日志被放到“/tmp/udisk/log/節(jié)點名/日期/時間”目錄,當(dāng)OS安裝在硬盤上時,路徑是“/tmp/disk/log/節(jié)點名/日期/時間”CNA的日志路徑:/var/log/galaxenginelog/VRM日志路徑:歷史日志/var/backuplog/galaxenginelog/日期/實時日志/var/lo
14、g/galaxengine/* 日志獲取方法1 - 信息收集工具信息收集工具:收集存儲計算節(jié)點、主備FSM節(jié)點的運行業(yè)務(wù)日志、元數(shù)據(jù)信息、內(nèi)存信息、系統(tǒng)環(huán)境配置信息、core文件。工具位置信息:主FSM節(jié)點下的/opt/dsware/tools/ops_tool/infoCollect/CollectInfo.sh,同時需要root用戶權(quán)限執(zhí)行。(說明:備FSM節(jié)點無權(quán)限執(zhí)行該工具)日志獲取方法2 - ELK信息收集工具描述:日志的收集轉(zhuǎn)儲,并提供關(guān)鍵字搜索日志功能的工具日志獲取方法3 - 工具收集日志獲取方法4 - 手動收集使用putty工具,用非root用戶登錄需要取日志的節(jié)點執(zhí)行su -
15、 root命令,并提示輸入root用戶的密碼,切換至root用戶執(zhí)行TMOUT=0命令,防止PuTTY超時退出執(zhí)行 tar -czvf log.tar,gz 日志文件,例如tar czvf log.tar.gz /var/log/dsware/*執(zhí)行 cp log.tar.gz /home/XXX 將日志考入可考出的目錄chown 777 /home/XXX/log.tar.gz.將日志拷貝到可拷貝目錄下使用非root用戶通過winscp登錄,拷貝日志以下是常用的默認(rèn)密碼:節(jié)點名非root用戶名默認(rèn)密碼root密碼默認(rèn)目錄FSMdswareHuaweiCLOUD8HuaweiCLOUD8!/h
16、ome/dswareVRMgandalfHuaweiCLOUD8HuaweiCLOUD8!/home/GalaX8800CNAgandalfHuaweiCLOUD8HuaweiCLOUD8!/home/GalaX8800存儲和DB節(jié)點(數(shù)據(jù)庫)dswareHuaweiCLOUD8HuaweiCLOUD8!/home/dsware日志收集(命令行方式)FusionStorage Block信息收集項列表節(jié)點類型收集項ID描述FusionStorage Manager(FSM)4502FSM進(jìn)程日志4503FSM安裝日志4507OMM進(jìn)程內(nèi)存異常Core日志4508OMM Agent側(cè)進(jìn)程日志45
17、09OMM Server側(cè)進(jìn)程日志FusionStorage Agent(FSA)4500FusionStorage存儲集群信息4501FusionStorage系統(tǒng)節(jié)點信息4504FSA節(jié)點進(jìn)程日志4505FSA節(jié)點進(jìn)程內(nèi)存異常Core日志4507OMM進(jìn)程內(nèi)存異常Core日志4508OMM Agent側(cè)進(jìn)程日志4700操作系統(tǒng)信息及日志4800硬件信息及錯誤事件日志日志收集(命令行方式)使用“PuTTY”,登錄FSM主節(jié)點。以“dsware”用戶,通過管理IP地址登錄。執(zhí)行以下命令,進(jìn)入指定路徑。 cd /opt/dsware/client/bin如果將日志信息收集到第三方FTP服務(wù)器執(zhí)行
18、以下命令,并根據(jù)提示輸入相關(guān)密碼,進(jìn)行日志信息的收集sh dswareTool.sh -op infoCollector -ftpIp ftpIp -user ftpUser -port ftpPort -dir uploadDictionary -nodeIp nodeIp1,nodeIp2,. -nodeType nodeType -period beginTime-endTime -items item1,item2,. -nodeUserName nodeUserName如果將日志信息收集到FSM主節(jié)點執(zhí)行以下命令,并根據(jù)提示輸入相關(guān)密碼,進(jìn)行日志信息的收集。 sh dswareToo
19、l.sh -op infoCollectorToFsm -nodeIp nodeIp1,nodeIp2,. -nodeType nodeType -period beginTime-endTime -items item1,item2,. -nodeUserName nodeUserNameFusionStorage Block故障簡介FusionStorage Block告警機(jī)制介紹FusionStorage Block日志機(jī)制介紹FusionStorage Block故障處理流程FusionStorage Block典型故障案例分析FusionStorage Block備份與恢復(fù)方法Fus
20、ionStorage Block應(yīng)急預(yù)案介紹FusionStorage Block高危操作FusionStorage Block安裝配置流程部署FusionStorage Manager(FSM)組件通過FusionSphere OpenStack安裝部署界面,創(chuàng)建兩臺FSM虛擬機(jī),創(chuàng)建完成后即可登錄FusionStorage Block自助維護(hù)平臺進(jìn)行后續(xù)配置。部署FusionStorage Agent(FSA)組件首先通過FusionStorage Block自助維護(hù)平臺對服務(wù)器批量安裝FSA組件。開始確認(rèn)環(huán)境滿足系統(tǒng)要求部署FSM組件部署FSA組件將存儲資源接入虛擬化環(huán)境創(chuàng)建控制集群創(chuàng)建
21、存儲池結(jié)束創(chuàng)建塊客戶端FusionStorage Block軟件安裝FSA組件配置介紹項目說明配置原則MDC元數(shù)據(jù)控制組件,實現(xiàn)對分布式集群的狀態(tài)控制,以及控制數(shù)據(jù)分布式規(guī)則、數(shù)據(jù)重建規(guī)則等。 創(chuàng)建控制集群時,元數(shù)據(jù)管理服務(wù)(zookeeper)部署在3個、5個或者7個節(jié)點上,每個元數(shù)據(jù)管理服務(wù)節(jié)點上部署一個MDC進(jìn)程,形成控制集群,如圖2所示。 系統(tǒng)最多可創(chuàng)建96個MDC。圖2 控制集群 部署元數(shù)據(jù)管理服務(wù)需要占用獨立的存儲空間,該空間稱為元數(shù)據(jù)。若將單個磁盤分給元數(shù)據(jù)使用,該磁盤稱為元數(shù)據(jù)盤;若將磁盤分區(qū)分給元數(shù)據(jù)使用,該分區(qū)稱為元數(shù)據(jù)分區(qū)。如圖3所示。圖3 元數(shù)據(jù)部署方式 FSA組件配置
22、介紹項目說明配置原則OSD服務(wù)端軟件進(jìn)程,其功能是處理VBS下發(fā)的IO消息,進(jìn)行數(shù)據(jù)冗余保護(hù)并持久化到存儲介質(zhì)中。OSD進(jìn)程部署在為FusionStorage Block存儲池提供存儲資源的服務(wù)器上,若當(dāng)前服務(wù)器除系統(tǒng)磁盤以外沒有存儲設(shè)備,則不需要部署OSD。 每個部署OSD進(jìn)程的服務(wù)器上會有多個OSD進(jìn)程,每個磁盤對應(yīng)一個OSD進(jìn)程。VBS客戶端軟件進(jìn)程,其功能是將虛擬機(jī)或者應(yīng)用下發(fā)的SCSI/iSCSI命令進(jìn)行解析,并轉(zhuǎn)化為系統(tǒng)內(nèi)部的IO消息發(fā)送給OSD進(jìn)行處理。VBS進(jìn)程部署在使用FusionStorage Block存儲資源的服務(wù)器上,若當(dāng)前服務(wù)器僅提供存儲資源,不提供虛擬機(jī)或應(yīng)用,則
23、不需要部署VBS。 每個部署VBS進(jìn)程的服務(wù)器上默認(rèn)啟動一個VBS進(jìn)程。刪除創(chuàng)建流程Create MDCCreate OSDCreate VBSDelete OSDDelete VBSDelete MDCFusionStorage Block故障點控制集群存在對應(yīng)進(jìn)程存儲接口硬盤不顯示存在對應(yīng)進(jìn)程硬件故障存儲接口配置錯誤進(jìn)程異常網(wǎng)絡(luò)問題殘余進(jìn)程MDC,VBS,OSD物理網(wǎng)絡(luò)故障排查具體現(xiàn)網(wǎng)網(wǎng)絡(luò)排查可根據(jù)現(xiàn)網(wǎng)不同的組網(wǎng)、網(wǎng)絡(luò)設(shè)備及排查經(jīng)驗進(jìn)行排查物理服務(wù)器RH2288H交換機(jī)存儲網(wǎng)絡(luò)FusionStorage Block物理服務(wù)器上執(zhí)行ping 臨時IP 交換機(jī)執(zhí)行:interface Vlan
24、if 存儲Vlan ID ip address 臨時IP 子網(wǎng)掩碼commitping 存儲設(shè)備IP undo interface vlanif xx commit 存儲設(shè)備IP 1.排查端口鏈接狀2.判斷目標(biāo)服務(wù)器IP是否可達(dá)1.檢查目標(biāo)存儲控制面IP可達(dá)2.檢查目標(biāo)存儲數(shù)據(jù)面IP可達(dá)FusionStorage Block故障簡介FusionStorage Block告警機(jī)制介紹FusionStorage Block日志機(jī)制介紹FusionStorage Block故障處理流程FusionStorage Block典型故障案例分析FusionStorage Block備份與恢復(fù)方法Fusio
25、nStorage Block應(yīng)急預(yù)案介紹FusionStorage Block高危操作故障處理案例:硬盤不顯示故障處理案例:控制集群創(chuàng)建失敗故障處理案例:存儲池創(chuàng)建失敗故障FusionStorage Block故障簡介FusionStorage Block告警機(jī)制介紹FusionStorage Block日志機(jī)制介紹FusionStorage Block故障處理流程FusionStorage Block典型故障案例分析FusionStorage Block備份與恢復(fù)方法FusionStorage Block應(yīng)急預(yù)案介紹FusionStorage Block高危操作備份策略簡介維護(hù)工程師在對Fu
26、sionStorage Block進(jìn)行重大操作(如升級、重大數(shù)據(jù)調(diào)整等)前,為了保證FusionStorage Block在出現(xiàn)異?;蛭催_(dá)到預(yù)期結(jié)果時可以及時進(jìn)行數(shù)據(jù)恢復(fù),將對業(yè)務(wù)的影響降到最低,需要提前對管理節(jié)點的數(shù)據(jù)進(jìn)行備份。FusionStorage Block同時支持對關(guān)鍵數(shù)據(jù)進(jìn)行自動備份和手工備份。備份機(jī)制在對系統(tǒng)數(shù)據(jù)進(jìn)行備份時,F(xiàn)usionStorage Block支持自動備份和手動備份兩種方式,并遵循以下備份機(jī)制: 每日凌晨02:00自動進(jìn)行備份。 本地自動與手工備份文件存放在同一目錄。 本地自動備份文件超過保存份數(shù)上限時,系統(tǒng)會自動清理創(chuàng)建時間最早的備份文件;本地手動備份的備份
27、文件超過保存份數(shù)上限時,系統(tǒng)會提示清理文件。 若存在可使用的第三方備份服務(wù)器,則開啟第三方備份后,在完成本地自動與手工備份后FusionStorage Block會自動將備份文件上傳到第三方服務(wù)器。 當(dāng)?shù)谌絺浞莘?wù)器上的備份文件未超過最多保留份數(shù)時,新備份文件不覆蓋舊備份文件;超過最多保留份數(shù)時,系統(tǒng)會自動清理創(chuàng)建時間最早的備份文件。備份存放備份文件名“FusionStorageManager-Backup-YYYY-MM-DD-hh-mm-ss-sn.tar.gz”備份文件存放路徑備份類型存放路徑(自動備份)存放路徑(手工備份)本地備份FusionStorage Manager(FSM)節(jié)
28、點的“/opt/dsware/manager/backup”說明: 使用root帳戶登錄FSM節(jié)點,執(zhí)行cat /opt/dsware/manager/webapps/dsware/WEB-INF/BackupCperties?;仫@信息中“backupFileDir”后面的目錄為自動備份目錄,如下所示。. backupFileDir=/opt/dsware/manager/backup .FSM節(jié)點的“/opt/dsware/manager/backup/manual”說明: 手工備份路徑為自動備份路徑下的“manual”目錄。第三方備份Linux系統(tǒng):“FTPS服務(wù)配置的路徑/CloudCo
29、mputing/DswareMgr_FSM浮動IP” Windows系統(tǒng):“FTPS服務(wù)配置的路徑CloudComputingDswareMgr_FSM浮動IP”Linux系統(tǒng):“FTPS服務(wù)配置的路徑/CloudComputing/DswareMgr_FSM浮動IP/manual” Windows系統(tǒng):“FTPS服務(wù)配置的路徑CloudComputingDswareMgr_FSM浮動IPmanual”備份FSM數(shù)據(jù)登錄FSM主節(jié)點使用“PuTTY”,登錄FSM主節(jié)點。以“dsware”用戶,通過FSM節(jié)點浮動IP地址登錄FSM主節(jié)點。備份FSM數(shù)據(jù)到本地執(zhí)行以下命令,進(jìn)入FSM命令行工具所在
30、目錄。cd /opt/dsware/client/bin/執(zhí)行以下命令,進(jìn)行本地手工備份命令下發(fā)。sh dswareTool.sh -op executeBackupCmd檢查本地備份結(jié)果切換至root帳戶。 su - root命令下發(fā)成功約5分鐘,本地手工備份數(shù)據(jù)完成后執(zhí)行以下命令,進(jìn)入手工備份文件的存放路徑。 cd /opt/dsware/manager/backup/manual/執(zhí)行以下命令,查看路徑下的文件信息。檢查是否含有最新的備份文件。ll開始結(jié)束登錄FSM主節(jié)點備份FSM數(shù)據(jù)到本地檢查本地備份結(jié)果檢查遠(yuǎn)端備份結(jié)果是否備份到第三方否是恢復(fù)FSM數(shù)據(jù)停止FSM進(jìn)程進(jìn)入FSM停止進(jìn)程
31、腳本所在路徑。 cd /opt/dsware/manager/setup/停止FSM備節(jié)點所有進(jìn)程。 sh MonitorTool.sh stop恢復(fù)FSM主節(jié)點數(shù)據(jù)進(jìn)入FSM恢復(fù)腳本所在目錄。 cd /opt/dsware/manager/setup/恢復(fù)FSM主節(jié)點的數(shù)據(jù)。 sh DataRecovery.sh /home/dsware/FusionStorageManager-Backup-YYYY-MM-DD-hh-mm-ss-sn.tar.gz啟動FSM進(jìn)程進(jìn)入FSM恢復(fù)腳本所在目錄。 cd /opt/dsware/manager/setup/執(zhí)行以下命令,啟動FSM主節(jié)點進(jìn)程。 s
32、h MonitorTool.sh start開始結(jié)束停止FSM進(jìn)程恢復(fù)FSM主節(jié)點數(shù)據(jù)恢復(fù)FSM備節(jié)點數(shù)據(jù)啟動FSM進(jìn)程可用本地數(shù)據(jù)恢復(fù)否是從第三方備份服務(wù)器拷貝數(shù)據(jù)FusionStorage Block故障簡介FusionStorage Block告警機(jī)制介紹FusionStorage Block日志機(jī)制介紹FusionStorage Block故障處理流程FusionStorage Block典型故障案例分析FusionStorage Block備份與恢復(fù)方法FusionStorage Block應(yīng)急預(yù)案介紹FusionStorage Block高危操作應(yīng)急預(yù)案簡介應(yīng)急預(yù)案當(dāng)系統(tǒng)發(fā)生大面積
33、故障,導(dǎo)致部分或全部業(yè)務(wù)中斷,嚴(yán)重影響用戶使用時,啟動應(yīng)急預(yù)案應(yīng)急處理原則以快速恢復(fù)客戶的業(yè)務(wù)為核心以對客戶的影響最低為原則以日常的演練為保障應(yīng)急場景&應(yīng)急工具補(bǔ)齊(1)分類工具/應(yīng)急場景說明運維工具一鍵式日志收集工具一鍵式收集運行日志,內(nèi)存關(guān)鍵信息,系統(tǒng)配置,元數(shù)據(jù),OS配置,監(jiān)控數(shù)據(jù)等,與ELK互補(bǔ)日志分析與ELK集成通過與ELK的對接,滿足德電的運維需求,整理出常見問題的關(guān)鍵字,快速分析和定位問題巡檢與ZABBIX集成將運維人員最關(guān)注的常見指標(biāo),現(xiàn)網(wǎng)最容易出現(xiàn)的典型問題做成ZABBIX監(jiān)控項,幫助運給人員及時發(fā)現(xiàn)問題應(yīng)急工具M(jìn)DC元數(shù)據(jù)可視化和編輯快速查看和修改MDC元數(shù)據(jù),保證全系統(tǒng)最
34、重要的元數(shù)據(jù)在極端情況下有辦法修改,快速恢復(fù)故障MDC元數(shù)據(jù)分析工具通過元數(shù)據(jù)分析工具,提前發(fā)現(xiàn)問題VBS元數(shù)據(jù)分析工具通過元數(shù)據(jù)分析工具,提前發(fā)現(xiàn)問題亞健康類問題快速分析工具將現(xiàn)網(wǎng)遇到的最常見,最難處理的亞健康問題的分析過程工具化,快速找出亞健康節(jié)點,分析亞健康原因應(yīng)急場景&應(yīng)急工具補(bǔ)齊(2)分類工具/應(yīng)急場景說明應(yīng)急預(yù)案優(yōu)化基于操作日志的VBS元數(shù)據(jù)修復(fù)增加了底層元數(shù)據(jù)與VRM間一致性的校驗,保證元數(shù)據(jù)恢復(fù)準(zhǔn)確無誤優(yōu)化了元數(shù)據(jù)和關(guān)鍵元數(shù)據(jù)日志的備份方案,保證備份數(shù)據(jù)更加可靠簡化了元數(shù)據(jù)恢復(fù)流程,讓恢復(fù)流程更加快速半數(shù)以上ZK故障的應(yīng)急處理增加了校驗全量備份與當(dāng)前視圖一致性的處理,保證恢復(fù)高
35、效的同時,降低了恢復(fù)過程中的風(fēng)險MDC元數(shù)據(jù)故障或損壞的應(yīng)急處理優(yōu)化了元數(shù)據(jù)和關(guān)鍵元數(shù)據(jù)日志的備份方案簡化了元數(shù)據(jù)恢復(fù)流程,讓恢復(fù)流程更加快速增加了MDC無條件踢盤的逃生工具,保證極端場景下,有恢復(fù)手段增加了校驗全量備份與當(dāng)前視圖一致性的處理,保證恢復(fù)高效的同時,降低了恢復(fù)過程中的風(fēng)險FSA節(jié)點配置丟失的應(yīng)急處理簡化了操作復(fù)雜度,將大部分的手動操作腳本化,將原有的恢復(fù)時間縮短40%以上FSM主備同時故障的應(yīng)急處理簡化了操作復(fù)雜度,將大部分的手動操作腳本化,將原有的恢復(fù)時間縮短40%以上OSD元數(shù)據(jù)故障的應(yīng)急處理增加了修改SNAP主區(qū)和備區(qū)元數(shù)據(jù)的工具增加了修改AIO元數(shù)據(jù)的工具細(xì)化了SNAP中
36、元數(shù)據(jù)有KEY重復(fù)的處理流程和指導(dǎo)書常見的應(yīng)急場景元數(shù)據(jù)損壞故障場景故障模塊可能的故障原因故障特征應(yīng)急指導(dǎo)文檔SPC2006.0備注元數(shù)據(jù)損壞ZKZK盤物理故障ZK盤所在節(jié)點OS損壞ZK盤數(shù)據(jù)被人為破壞誤操作將配置刪除ZK的BUG將ZK中數(shù)據(jù)損壞超過一半ZK故障FusionStorage V100R003C30U1 半數(shù)以上ZK故障的應(yīng)急處理指導(dǎo) 01.doc支持支持完善流程,優(yōu)化操作MDC元數(shù)據(jù)損壞FusionStorage V100R003C30U1 MDC元數(shù)據(jù)故障或損壞應(yīng)急處理指導(dǎo) 01.doc支持支持完善流程,優(yōu)化操作VBSVBS的BUG導(dǎo)致元數(shù)據(jù)損壞VBS的BUG導(dǎo)致元數(shù)據(jù)丟失元數(shù)
37、據(jù)存儲介質(zhì)靜默錯誤VBS元數(shù)據(jù)損壞或卷丟失FusionStorage V100R003C30U1 VBS元數(shù)據(jù)故障應(yīng)急處理指導(dǎo) 01.doc支持支持完善流程,優(yōu)化操作OSD介質(zhì)自然產(chǎn)生的靜默錯誤硬件的BUG導(dǎo)致靜默錯誤人為誤操作損壞元數(shù)據(jù)自身軟件的BUG誤清除元數(shù)據(jù)OSD各模塊的元數(shù)據(jù)損壞FusionStorage V100R003C30U1 OSD元數(shù)據(jù)故障的應(yīng)急處理指導(dǎo) 01.doc支持支持完善流程常見的應(yīng)急場景 - 用戶數(shù)據(jù)損壞故障場景故障模塊可能的故障原因故障特征應(yīng)急指導(dǎo)文檔SPC2006.0備注用戶數(shù)據(jù)損壞OSD硬盤+硬盤硬盤+cachecache+硬盤OS損壞+硬盤OS損壞+cac
38、he上下電中單盤損壞其它+元數(shù)據(jù)損壞硬盤+OS損壞cache+OS損壞OS損壞+OS損壞非存儲介質(zhì)損壞最后一個副本是存儲介質(zhì)發(fā)生故障FusionStorage V100R003C30U1 存儲介質(zhì)故障導(dǎo)致存儲池故障的應(yīng)急處理指導(dǎo) 01.doc支持支持完善流程,優(yōu)化操作最后一個副本所在節(jié)點配置丟失FusionStorage V100R003C30U1 FSA節(jié)點配置丟失導(dǎo)致的存儲池故障的應(yīng)急處理指導(dǎo) 01.doc支持支持完善流程,優(yōu)化操作OM最后一個副本是非存儲介質(zhì)發(fā)生故障FusionStorage V100R003C30U1 由非存儲介質(zhì)導(dǎo)致的存儲池故障的應(yīng)急處理指導(dǎo) 01.doc支持支持完善
39、流程,優(yōu)化操作常見的應(yīng)急場景其它故障場景故障模塊可能的故障原因故障特征應(yīng)急指導(dǎo)文檔SPC2006.0備注系統(tǒng)配置丟失OMFSM數(shù)據(jù)庫損壞FSM主備虛擬機(jī)同時故障FSM的業(yè)務(wù)中斷FusionStorage V100R003C30U1 FSM主備同時故障的應(yīng)急處理指導(dǎo) 01.doc支持支持完善流程,優(yōu)化操作存儲池寫保護(hù)OM寫入數(shù)據(jù)量大導(dǎo)致寫保護(hù)節(jié)點故障導(dǎo)致寫保護(hù)存儲池寫保護(hù)FusionStorage V100R003C30U1 存儲池寫保護(hù)的應(yīng)急處理指導(dǎo) 01.doc支持支持修改了部分描述不準(zhǔn)的文檔問題卷被誤刪除VBS用戶誤操作卷被誤刪除FusionStorage V100R003C30U1 卷被
40、誤刪除應(yīng)急處理指導(dǎo) 01.doc支持支持修改了部分描述不準(zhǔn)的文檔問題時間跳變OM時間跳變Portal不可登陸FusionStorage V100R003C30U1 系統(tǒng)時間跳變導(dǎo)致FusionStorage界面登錄失敗的應(yīng)急處理指導(dǎo) 01.doc支持支持修改了部分描述不準(zhǔn)的文檔問題ZK分區(qū)盤符漂移MDCZK分區(qū)盤符漂移ZK故障FusionStorage V100R003C30U1 ZK分區(qū)盤符漂移導(dǎo)致ZK故障的應(yīng)急處理指導(dǎo) 01.doc不支持支持完善流程,優(yōu)化操作升級過程中的應(yīng)急ALL升級過程中遇到的所有支持的應(yīng)急場景跟故障類型相關(guān)FusionStorage V100R003C30U1 升級過
41、程中的應(yīng)急處理指導(dǎo)01.doc支持支持完善流程,優(yōu)化操作FusionStorage Block故障簡介FusionStorage Block告警機(jī)制介紹FusionStorage Block日志機(jī)制介紹FusionStorage Block故障處理流程FusionStorage Block典型故障案例分析FusionStorage Block備份與恢復(fù)方法FusionStorage Block應(yīng)急預(yù)案介紹FusionStorage Block高危操作高危操作類別操作操作風(fēng)險業(yè)務(wù)恢復(fù)時間機(jī)房管理空調(diào)下電或制冷失效,未對存儲池進(jìn)行保護(hù)處理全局高溫 硬件損壞,導(dǎo)致數(shù)據(jù)丟失大于30分鐘對存儲機(jī)柜進(jìn)行下電服務(wù)器安全:將導(dǎo)致存儲池故障,虛擬機(jī)藍(lán)屏,業(yè)務(wù)IO中斷 機(jī)柜級安全:如果多柜下電則導(dǎo)致存儲池故障,虛擬機(jī)藍(lán)屏,業(yè)務(wù)IO中斷約10分鐘存儲平面交換機(jī)網(wǎng)絡(luò)整改,并且未對存儲池與計算池進(jìn)行保護(hù)如果引發(fā)網(wǎng)絡(luò)環(huán)路,將有可能導(dǎo)致存儲平面與業(yè)務(wù)平面網(wǎng)絡(luò)中斷 存儲平面中斷時間過長,有可能導(dǎo)致虛擬機(jī)HA大于10分鐘操作維護(hù)非應(yīng)急場景,禁止對存儲池進(jìn)行強(qiáng)制移除磁盤、移除SSD卡等操作可能引發(fā)部分?jǐn)?shù)據(jù)丟失,數(shù)據(jù)重構(gòu)完成后將導(dǎo)致部分?jǐn)?shù)據(jù)無法恢復(fù)大于30分鐘刪除節(jié)點上的塊客戶端被刪除節(jié)點的IO中斷約10分鐘在系統(tǒng)中執(zhí)行dswareTool命令,停止VBS集群服務(wù)所有的業(yè)務(wù)中斷 所有虛擬機(jī)的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 修理河道占地補(bǔ)償協(xié)議書
- 技術(shù)指導(dǎo)委托合同范本
- 大廳收費人員代理協(xié)議書
- 智慧城市三方合作協(xié)議書
- 公司股份贈予分紅協(xié)議書
- 學(xué)校店鋪轉(zhuǎn)讓合同范本
- 二人開加工廠合同范本
- 四川大學(xué)應(yīng)屆畢業(yè)協(xié)議書
- 蛋白蟲養(yǎng)殖協(xié)議書
- 敖漢旗離婚協(xié)議書
- GB 45671-2025建筑防水涂料安全技術(shù)規(guī)范
- 2025至2030年中國全身螺旋CT掃描系統(tǒng)行業(yè)投資前景及策略咨詢研究報告
- 1、人教部編版二年級下冊語文看拼音寫詞語(一類生字和書后詞語)
- 增材制造在虛擬現(xiàn)實輔助機(jī)械制造中的應(yīng)用-洞察闡釋
- 重慶金太陽2025屆高三5月聯(lián)考英語及答案
- 醫(yī)院新建門急診醫(yī)技綜合樓工程施工組織設(shè)計
- 外籍人員雇傭合同(中英文對照)6篇
- 玻璃瓶合同協(xié)議
- 《不可或缺的醫(yī)療保障:課件中的健康險》
- 財產(chǎn)申報表-被執(zhí)行人用
- 云南郵政面試題及答案
評論
0/150
提交評論