HC1209205 第五章 集群NAS存儲(chǔ)系統(tǒng)故障處理2.0_第1頁(yè)
HC1209205 第五章 集群NAS存儲(chǔ)系統(tǒng)故障處理2.0_第2頁(yè)
HC1209205 第五章 集群NAS存儲(chǔ)系統(tǒng)故障處理2.0_第3頁(yè)
HC1209205 第五章 集群NAS存儲(chǔ)系統(tǒng)故障處理2.0_第4頁(yè)
HC1209205 第五章 集群NAS存儲(chǔ)系統(tǒng)故障處理2.0_第5頁(yè)
已閱讀5頁(yè),還剩44頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

修訂記錄課程編碼適用產(chǎn)品產(chǎn)品版本課程版本ISSUEHC1209205N8500V100R002V2.0開發(fā)/優(yōu)化者時(shí)間審核人開發(fā)類型(新開發(fā)/優(yōu)化)張博2013-09-20余雷新開發(fā)本頁(yè)不打印HC1209205

集群NAS存儲(chǔ)系統(tǒng)故障處理目標(biāo)學(xué)完本課程后,您將能夠:了解N8500問題處理流程掌握N8500常見問題及故障的處理方法具備集群NAS典型故障分析處理能力

目錄N8500故障處理的原則、方法N8500故障處理的流程N(yùn)8500分類故障以及典型問題處理方法N8500故障處理案例

先外部后內(nèi)部先高級(jí)后低級(jí)先共性后個(gè)別故障處理原則故障處理方法分析法替換法看告警信息并配合對(duì)性能數(shù)據(jù)的分析替換懷疑工作不正常的部件

目錄N8500故障處理的原則、方法N8500故障處理的流程N(yùn)8500分類故障以及典型問題處理方法N8500故障處理案例N8500故障處理流程N(yùn)8500信息收集故障發(fā)生時(shí),需要第一時(shí)間收集故障相關(guān)信息,主要包括:故障發(fā)生的具體時(shí)間故障現(xiàn)象的詳細(xì)描述N8000設(shè)備的版本故障后已經(jīng)采取的措施和結(jié)果客戶業(yè)務(wù)組網(wǎng)環(huán)境、目前業(yè)務(wù)情況收集N8000設(shè)備的日志信息集群NAS引擎日志系統(tǒng)日志位置日志文件日志用途/var/logmessage操作系統(tǒng)相關(guān)的所有關(guān)鍵事件/var/logsfsfs_event.log引擎的network,storage服務(wù)所產(chǎn)生的事件日志/opt/VRTSnasgw/logUpgrade.log引擎系統(tǒng)升級(jí)中的過程/opt/VRTSnasgw/logscanbus.log引擎掃描磁盤操作中搜集的相關(guān)信息和關(guān)鍵事件/opt/VRTSnasgw/logCIFS.logCIFS共享操作相關(guān)的集群管理服務(wù)操作及相關(guān)事件/opt/VRTSnasgw/logNFSAgent.logNFS共享代理操作相關(guān)的集群管理服務(wù)操作及相關(guān)事件/var/VRTSvcs/logEngine_A.logVCS集群日志故障分析定位和排除故障分析判斷和定位通過對(duì)收集的信息進(jìn)行分析,從眾多可能原因中找出故障原因的過程,通過故障分析,可以確定故障范圍、故障種類、故障發(fā)生的具體原因以及故障排除的手段。故障排除是指采取適當(dāng)?shù)拇胧┗虿襟E清除故障、恢復(fù)系統(tǒng)及業(yè)務(wù)的過程,具體的方式有檢修線路、更換硬件、修改配置數(shù)據(jù)、重新啟動(dòng)服務(wù)或應(yīng)用程序、替換損壞文件、重新啟動(dòng)系統(tǒng)、修復(fù)文件系統(tǒng)及服務(wù)等故障分析定位的主要方法原始信息分析指示燈狀態(tài)分析告警信息分析告警信息分析日志信息分析消息跟蹤分析故障分析定位的主要方法原始信息分析指示燈狀態(tài)分析告警信息分析告警信息分析日志信息分析消息跟蹤分析

目錄N8500故障處理的原則、方法N8500故障處理的流程N(yùn)8500分類故障以及典型問題處理方法N8500故障處理案例1、節(jié)點(diǎn)控制器故障2、接口卡故障3、節(jié)點(diǎn)系統(tǒng)硬盤故障4、節(jié)點(diǎn)電源風(fēng)扇故障1、引擎軟件安裝和登錄故障2、集群容錯(cuò)故障3、

功能使用故障1、硬件故障2、RAID和LUN故障3、性能故障4、主機(jī)與存儲(chǔ)連接故障5、數(shù)據(jù)丟失故障引擎節(jié)點(diǎn)硬件故障引擎節(jié)點(diǎn)軟件故障存儲(chǔ)單元故障集群NAS系統(tǒng)故障分類集群NAS系統(tǒng)故障影響1、業(yè)務(wù)中斷2、業(yè)務(wù)性能下降1、無法登錄2、集群節(jié)點(diǎn)無法切換3、

業(yè)務(wù)性能下降4、業(yè)務(wù)功能無法使用1、文件資源失效2、業(yè)務(wù)中斷3、性能下降4、數(shù)據(jù)丟失引擎節(jié)點(diǎn)硬件故障引擎節(jié)點(diǎn)軟件故障存儲(chǔ)單元故障集群NAS典型故障診斷后端存儲(chǔ)故障引起系統(tǒng)異常引擎節(jié)點(diǎn)硬件故障引起系統(tǒng)異常內(nèi)部通信鏈路問題診斷管理模塊問題診斷文件系統(tǒng)故障診斷文件讀寫性能問題診斷NFS掛載和訪問問題診斷CIFS掛載和訪問問題診斷網(wǎng)絡(luò)問題診斷1、后端存儲(chǔ)故障引起NAS系統(tǒng)異常2、引擎節(jié)點(diǎn)硬件故障引起系統(tǒng)異常3、集群NAS內(nèi)部網(wǎng)絡(luò)問題內(nèi)部通信鏈路問題分析和處理方法引擎之間心跳網(wǎng)絡(luò)故障序號(hào)問題解決方案1腦裂1、停止業(yè)務(wù)2、修復(fù)心跳網(wǎng)絡(luò)3、配置iofencing硬盤,引擎識(shí)別到iofencing硬盤,但是不用加入pool4、啟用iofencing功能,重啟整個(gè)集群內(nèi)部通信鏈路問題分析和處理方法引擎與存儲(chǔ)單元的鏈路故障序號(hào)問題解決方案1某個(gè)節(jié)點(diǎn)不能掃描到硬盤1、檢查該節(jié)點(diǎn)的系統(tǒng)狀態(tài)

2、查看該節(jié)點(diǎn)的HBA卡的狀態(tài)并恢復(fù)正常2執(zhí)行scanbus、mount操作時(shí)掛死1、檢查所有存儲(chǔ)單元的狀態(tài)2、查看所有存儲(chǔ)單元與引擎的FC連接狀態(tài),如果有存儲(chǔ)單元的FC連接異常,需要修復(fù)連接。3、在引擎主節(jié)點(diǎn)的support模式下,通過kill命令刪除scanbus進(jìn)程4、重啟主節(jié)點(diǎn)內(nèi)部通信鏈路問題分析和處理辦法序號(hào)問題解決方案1存儲(chǔ)單元端FC誤碼率過高1、更換光纖線、光模塊和FC主機(jī)口

2、更換控制器2引擎、存儲(chǔ)單元與光纖交換機(jī)的協(xié)商問題1、登錄存儲(chǔ)單元,查看HBA卡的連接狀態(tài)和速率,修改HBA的連接狀態(tài)為點(diǎn)對(duì)點(diǎn)或者交換機(jī)模式2、登錄光纖交換機(jī),更改端口模式4、管理模塊問題管理模塊問題解決方案序號(hào)問題解決方案1console口所在的物理網(wǎng)卡沒有連網(wǎng)線連上網(wǎng)線,等待1分鐘后重新登錄2console地址與網(wǎng)絡(luò)上其他主機(jī)有沖突1、通過KVM修改console地址

2、修改沖突主機(jī)上的IP地址3資源offline1、通過hagrp-stat|grepMan

2、通過hagrp-onlineManagementConsole-sysN8300_01命令上線5、集群NAS文件系統(tǒng)故障故障集群NAS文件系統(tǒng)故障分析和處理步驟步驟一:確認(rèn)引擎和存儲(chǔ)單元間的鏈路是否正常登錄N8000,執(zhí)行storagedisklistpaths,查看每個(gè)節(jié)點(diǎn)鏈路狀態(tài)若存在非active的鏈路,恢復(fù)鏈路后執(zhí)行storagescanbus,手動(dòng)online文件系統(tǒng)步驟二:登錄存儲(chǔ)單元,確認(rèn)存儲(chǔ)單元狀態(tài)查看是否有存儲(chǔ)單元故障,參考存儲(chǔ)單元故障處理內(nèi)容。是否誤刪N8000文件系統(tǒng)在用的LUN,請(qǐng)聯(lián)系技術(shù)支持是否誤刪映射,恢復(fù)LUN映射,執(zhí)行storagescanbus,文件系統(tǒng)可自動(dòng)恢復(fù),若無法恢復(fù),聯(lián)系技術(shù)支持。集群NAS文件系統(tǒng)故障分析和處理步驟步驟三:通過master賬號(hào)登錄引擎,確認(rèn)是否文件系統(tǒng)故障手動(dòng)online文件系統(tǒng),如果online成功,則恢復(fù)業(yè)務(wù),收集debuginfo信息如果無法online,查看文件系統(tǒng)標(biāo)志位如果文件系統(tǒng)需要做fsck,請(qǐng)聯(lián)系技術(shù)支持。步驟四:fsck完成后,手動(dòng)online文件系統(tǒng)如果可以,收集debuginfo供技術(shù)支持定位原因;如果不能,則重啟系統(tǒng)再嘗試online,執(zhí)行過程時(shí)請(qǐng)聯(lián)系技術(shù)支持。6、文件讀寫性能問題文件讀寫性能問題原因分析文件讀寫性能問題診斷-業(yè)務(wù)變更原因分析原來只有順序讀寫業(yè)務(wù),現(xiàn)在變成了隨機(jī)讀寫業(yè)務(wù);原來有只有讀業(yè)務(wù),現(xiàn)在加入了寫業(yè)務(wù);原來有10路用戶并發(fā),現(xiàn)在更多路用戶同時(shí)并發(fā);其他復(fù)雜業(yè)務(wù)變更。處理意見:由于業(yè)務(wù)類型的變化而造成的流量上的下降屬正?,F(xiàn)象,無需處理。文件讀寫性能問題診斷-存儲(chǔ)單元原因文件讀寫性能問題診斷思路-引擎原因原因分析文件系統(tǒng)存儲(chǔ)及文件系統(tǒng)參數(shù)配置不當(dāng)文件系統(tǒng)存放大量小文件,并且文件系統(tǒng)利用率大于80%,造成檢索速度下降集群狀態(tài):IP地址在集群各節(jié)點(diǎn)上分布不均勻服務(wù)狀態(tài)(NFS/CIFS)參數(shù)設(shè)置不當(dāng)。7、NFS掛載和訪問問題NFS掛載和訪問問題總結(jié)NFS掛載和訪問問題常見問題包括:客戶端原因:掛載參數(shù)錯(cuò)誤、防火墻原因、權(quán)限問題。網(wǎng)絡(luò)原因:無法ping通N8000的虛擬IP;DNS服務(wù)器無法連通;網(wǎng)絡(luò)鏈路不穩(wěn)定。N8000原因:NFS服務(wù)或虛擬IPoffline;文件系統(tǒng)故障;NFS相關(guān)服務(wù)資源異常。8、CIFS掛載和訪問問題診斷CIFS掛載和訪問問題總結(jié)CIFS模塊問題常見問題包括:客戶端原因:掛載參數(shù)錯(cuò)誤、防火墻原因、權(quán)限問題網(wǎng)絡(luò)原因:無法ping通N8000的虛擬IP;DNS服務(wù)器出現(xiàn)問題;網(wǎng)絡(luò)鏈路不穩(wěn)定N8000原因:CIFS服務(wù)或虛擬IPoffline;文件系統(tǒng)故障;CIFS相關(guān)服務(wù)資源異常9、NAS網(wǎng)絡(luò)問題NAS網(wǎng)絡(luò)問題診斷總結(jié)

目錄N8500故障處理的原則、方法N8500故障處理的流程N(yùn)8500分類故障以及典型問題處理方法N8500故障處理案例案例1:管理模塊無法登錄問題描述:客戶反映無法通過master登錄集群,顯示該賬號(hào)不可用原因分析:1、通過終端可以ping通管理console地址2、通過KVM連接到集群,通過support賬號(hào)登錄集群,使用hastatus–sum|grepMan查詢狀態(tài)為offline,執(zhí)行hagrp-onlineManagementConsole-systestN8300_013、在集群的support賬號(hào)下,使用ethtool查看管理網(wǎng)口的物理狀態(tài)。通過在主機(jī)端檢查arp–a發(fā)現(xiàn)consoleip的mac地址不是集群管理網(wǎng)口的mac地址,表明網(wǎng)絡(luò)中的ip地址有沖突案例2問題及故障描述集群在設(shè)置IOfencing后,重啟整個(gè)集群,出現(xiàn)部分節(jié)點(diǎn)無法加入集群的情況,此現(xiàn)象概率出現(xiàn)原因分析集群重啟時(shí),IO防護(hù)為了防止集群腦裂,會(huì)將部分啟動(dòng)較慢的節(jié)點(diǎn)排除出集群。因此不允許直接重啟整個(gè)集群。若必須將所有節(jié)點(diǎn)都進(jìn)行重啟,請(qǐng)一次只重啟一個(gè)節(jié)點(diǎn),待該節(jié)點(diǎn)完全啟動(dòng)并可以提供業(yè)務(wù)時(shí),再重啟下一個(gè)節(jié)點(diǎn),直到所有節(jié)點(diǎn)全部重啟完畢,且可以正常提供業(yè)務(wù)

處理步驟該現(xiàn)象發(fā)生后,重啟未能加入集群的節(jié)點(diǎn)即可修復(fù)案例3問題及故障描述在有NFS業(yè)務(wù)時(shí),重啟一個(gè)業(yè)務(wù)節(jié)點(diǎn)后,一個(gè)文件系統(tǒng)offline,導(dǎo)致該文件系統(tǒng)不可訪問原因分析重啟節(jié)點(diǎn)與主節(jié)點(diǎn)的時(shí)間不一致導(dǎo)致,集群為保護(hù)文件系統(tǒng)一致性,強(qiáng)制將文件系統(tǒng)標(biāo)志位設(shè)置為1,引起文件系統(tǒng)offline處理步驟登錄到集群管理界面的storage模式下,使用fsfsckfs100g命令進(jìn)行文件系統(tǒng)修復(fù),修復(fù)完成后需要使用fsonlinefs100g的命令將文件系統(tǒng)上線案例4問題及故障描述把一個(gè)節(jié)點(diǎn)從集群刪除后再加入集群,該節(jié)點(diǎn)的NFS共享服務(wù)fault,業(yè)務(wù)IP無法切換到該節(jié)點(diǎn)原因分析在添加一個(gè)新的節(jié)點(diǎn)加入集群時(shí),必須保證該節(jié)點(diǎn)是全新安裝的節(jié)點(diǎn),否則由于原來刪除的節(jié)點(diǎn)依然保留有原有集群的信息,可能導(dǎo)致發(fā)生異常情況處理步驟出現(xiàn)此問題時(shí),執(zhí)行nfsserverstart命令重啟NFS服務(wù),即可將虛擬IPonline到新加入的節(jié)點(diǎn)案例5問題及故障描述將系統(tǒng)時(shí)區(qū)從GMT+8改為GMT+9,系統(tǒng)時(shí)間應(yīng)該增加一個(gè)小時(shí),實(shí)際情況是減少了一個(gè)小時(shí),反之亦然原因分析該問題是由于linux下的時(shí)區(qū)修改和windows的處理方式不一致導(dǎo)致的處理步驟出現(xiàn)該現(xiàn)象時(shí),立即進(jìn)行系統(tǒng)時(shí)間修改,修改時(shí)區(qū)會(huì)導(dǎo)致文件系統(tǒng)全部掛掉時(shí)區(qū)修改應(yīng)在系統(tǒng)安裝完畢后立即修改使用clocktimezone設(shè)置時(shí)區(qū)時(shí)直接使用時(shí)區(qū)名進(jìn)行設(shè)置,不要使用GMT時(shí)間進(jìn)行設(shè)置案例6問題及故障描述使用fsonline命令online一個(gè)offline狀態(tài)的文件系統(tǒng)時(shí),提示該文件系統(tǒng)“Filesystemisalreadyonline”原因分析由于文件系統(tǒng)在節(jié)點(diǎn)上mtab信息丟失,但cfs層掛載點(diǎn)正常,而fslist命令是檢測(cè)系統(tǒng)mount信息判斷文件系統(tǒng)是否online的,因此顯示文件系統(tǒng)為offline,而fsonline是檢測(cè)cfs層掛載點(diǎn)狀態(tài),因此導(dǎo)致無法online文件系統(tǒng)處理步驟出現(xiàn)該現(xiàn)象時(shí),可以在support用戶下,將該文件系統(tǒng)信息手動(dòng)加入/etc/mtab文件中,則文件系統(tǒng)可以正常顯示為online案例7問題及故障描述對(duì)未創(chuàng)建快照的文件系統(tǒng)進(jìn)行刪除時(shí),提示有快照存在不可刪除原因分析

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論