HC1209105HCNP-StorageSSAM第五章SAN存儲(chǔ)系統(tǒng)故障診斷與排除V1.1_第1頁(yè)
HC1209105HCNP-StorageSSAM第五章SAN存儲(chǔ)系統(tǒng)故障診斷與排除V1.1_第2頁(yè)
HC1209105HCNP-StorageSSAM第五章SAN存儲(chǔ)系統(tǒng)故障診斷與排除V1.1_第3頁(yè)
HC1209105HCNP-StorageSSAM第五章SAN存儲(chǔ)系統(tǒng)故障診斷與排除V1.1_第4頁(yè)
HC1209105HCNP-StorageSSAM第五章SAN存儲(chǔ)系統(tǒng)故障診斷與排除V1.1_第5頁(yè)
已閱讀5頁(yè),還剩147頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

修訂記錄課程編碼適用產(chǎn)品產(chǎn)品版本課程版本ISSUE開(kāi)發(fā)/優(yōu)化者時(shí)間審核人開(kāi)發(fā)類(lèi)型(新開(kāi)發(fā)/優(yōu)化)本頁(yè)不打印第五章SAN存儲(chǔ)系統(tǒng)故障診斷與排除目標(biāo)學(xué)完本課程后,您將能夠:熟悉SAN存儲(chǔ)系統(tǒng)故障處理流程、規(guī)范、工具和資源了解存儲(chǔ)系統(tǒng)故障定義和主要分類(lèi)掌握存儲(chǔ)陣列設(shè)備典型場(chǎng)景故障診斷思路和處理方法掌握SAN網(wǎng)絡(luò)故障診斷思路和處理方法掌握SAN存儲(chǔ)主機(jī)側(cè)典型故障診斷思路和處理方法目錄SAN存儲(chǔ)系統(tǒng)故障處理基礎(chǔ)1.1

SAN存儲(chǔ)系統(tǒng)故障診斷基本概念;1.2SAN存儲(chǔ)系統(tǒng)故障診斷基本流程和工具軟件。SAN存儲(chǔ)陣列故障診斷與排除SAN存儲(chǔ)網(wǎng)絡(luò)故障診斷與排除SAN存儲(chǔ)主機(jī)軟件與主機(jī)側(cè)故障診斷與排除故障管理定義故障管理定義:指系統(tǒng)出現(xiàn)異常以及為預(yù)防系統(tǒng)出現(xiàn)異常所進(jìn)行的管理操作,是用來(lái)動(dòng)態(tài)地維持系統(tǒng)或網(wǎng)絡(luò)正常運(yùn)行并達(dá)到一定的服務(wù)水平的一系列活動(dòng)。故障驅(qū)動(dòng)型維護(hù):遇到問(wèn)題時(shí)、系統(tǒng)出現(xiàn)性能故障時(shí)或者接到系統(tǒng)故障事故報(bào)告后才去進(jìn)行維護(hù)的方法??赡軙?huì)忽視對(duì)系統(tǒng)和網(wǎng)絡(luò)健康性很重要的長(zhǎng)期維護(hù)任務(wù)??赡懿粫?huì)按照維護(hù)任務(wù)的優(yōu)先級(jí)或緊急程度來(lái)執(zhí)行維護(hù)任務(wù)。不能防患于未然。主動(dòng)維護(hù):時(shí)時(shí)監(jiān)控系統(tǒng)狀態(tài)、日志告警,分析系統(tǒng)潛在或可能出現(xiàn)的問(wèn)題或異常,提前或及時(shí)修復(fù)處理,減少系統(tǒng)異常帶來(lái)客戶(hù)業(yè)務(wù)和數(shù)據(jù)的損失。結(jié)構(gòu)化故障管理采取預(yù)定義的網(wǎng)絡(luò)維護(hù)步驟和維護(hù)流程來(lái)進(jìn)行主動(dòng)的網(wǎng)絡(luò)維護(hù)。很多組織制定了相關(guān)的維護(hù)方法并形成知識(shí)體系。服務(wù)臺(tái)事件管理問(wèn)題管理配置管理變更管理發(fā)布管理故障管理配置管理計(jì)費(fèi)管理性能管理安全管理性能管理故障管理配置管理計(jì)費(fèi)管理安全管理FCAPSTMN(電信類(lèi))ITIL故障診斷與處理素質(zhì)觀察全局謹(jǐn)慎行事數(shù)據(jù)備份保持冷靜保持溝通技術(shù)和經(jīng)驗(yàn)責(zé)任心、客戶(hù)數(shù)據(jù)與業(yè)務(wù)至上流程規(guī)范故障處理規(guī)范與要求1、了解客戶(hù)現(xiàn)場(chǎng)情況2、查看設(shè)備檔案信息3、了解問(wèn)題單目前的處理接口人4、和客戶(hù)溝通到達(dá)現(xiàn)場(chǎng)時(shí)間5、準(zhǔn)備好相應(yīng)的備件、工具、軟件和文檔6、配置和和必要業(yè)務(wù)數(shù)據(jù)備份1、和客戶(hù)溝通故障處理的流程和方案2、協(xié)助遠(yuǎn)程維護(hù)人員搭建遠(yuǎn)程環(huán)境3、收集詳細(xì)故障信息4、按照方案進(jìn)行故障維護(hù)的操作1、配置數(shù)據(jù)備份2、確認(rèn)業(yè)務(wù)恢復(fù)情況3、分析問(wèn)題產(chǎn)生的根本原因并提出整改方案4、更新設(shè)備檔案5、建議客戶(hù)修改密碼維護(hù)前維護(hù)中維護(hù)后故障處理常用方法替換法替換法就是使用一個(gè)工作正常的部件去替換一個(gè)懷疑工作不正常的部件,從而達(dá)到定位故障、排除故障的目的。這里的部件,可以是一段光纖跳線、一根網(wǎng)線、一個(gè)控制器或者一個(gè)級(jí)聯(lián)模塊。告警信息分析法系統(tǒng)發(fā)生故障時(shí),一般會(huì)伴隨有大量的告警信息產(chǎn)生,通過(guò)查看告警信并配合對(duì)性能數(shù)據(jù)的分析,可大概判斷出所發(fā)生故障的類(lèi)型和位置。最小測(cè)試法拔去懷疑有故障的板卡和設(shè)備,并根據(jù)機(jī)器在此前和此后的運(yùn)行情況對(duì)比,判斷定位故障所在。拔插板卡和設(shè)備的基本要求是保留系統(tǒng)工作的最小配置,以便縮小故障的范圍。

故障處理常用方法替換法替換法就是使用一個(gè)工作正常的部件去替換一個(gè)懷疑工作不正常的部件,從而達(dá)到定位故障、排除故障的目的。這里的部件,可以是一段光纖跳線、一根網(wǎng)線、一個(gè)控制器或者一個(gè)級(jí)聯(lián)模塊。告警信息分析法系統(tǒng)發(fā)生故障時(shí),一般會(huì)伴隨有大量的告警信息產(chǎn)生,通過(guò)查看告警信并配合對(duì)性能數(shù)據(jù)的分析,可大概判斷出所發(fā)生故障的類(lèi)型和位置。最小測(cè)試法拔去懷疑有故障的板卡和設(shè)備,并根據(jù)機(jī)器在此前和此后的運(yùn)行情況對(duì)比,判斷定位故障所在。拔插板卡和設(shè)備的基本要求是保留系統(tǒng)工作的最小配置,以便縮小故障的范圍。

目錄SAN存儲(chǔ)系統(tǒng)故障處理基礎(chǔ)1.1

SAN存儲(chǔ)系統(tǒng)故障診斷基本概念1.2SAN存儲(chǔ)系統(tǒng)故障診斷基本流程和工具軟件SAN存儲(chǔ)陣列故障診斷與排除SAN存儲(chǔ)網(wǎng)絡(luò)故障診斷與排除SAN存儲(chǔ)主機(jī)軟件與主機(jī)側(cè)故障診斷與排除故障處理一般進(jìn)程了解故障基本信息收集詳細(xì)信息分析原因故障處理驗(yàn)證恢復(fù)故障排除編制和更新文檔循環(huán)2循環(huán)1YN存儲(chǔ)系統(tǒng)與網(wǎng)絡(luò)故障診斷工具存儲(chǔ)設(shè)備維護(hù)工具軟件網(wǎng)絡(luò)維護(hù)工具軟件性能測(cè)試工具軟件業(yè)務(wù)分析軟件對(duì)存儲(chǔ)端設(shè)備進(jìn)行信息收集和日志分析的工具軟件,可以從華為的官方網(wǎng)站上下載網(wǎng)絡(luò)抓包的工具軟件,可以從相應(yīng)軟件的官網(wǎng)上下載,比如Packetyzer、WireShark可以對(duì)存儲(chǔ)空間的性能進(jìn)行測(cè)試的工具軟件,可以從相應(yīng)的網(wǎng)站上下載,比如iomter、iozone操作系統(tǒng)或者業(yè)務(wù)軟件自帶的信息查看和收集工具配置異常顯示此系統(tǒng)故障的信息顯示日志分析演示網(wǎng)絡(luò)維護(hù)工具故障診斷文檔資源文檔資源備件BOM信息信息收集指導(dǎo)書(shū)產(chǎn)品文檔兼容性信息設(shè)備檔案信息案例和預(yù)警信息預(yù)警發(fā)布與處理預(yù)警的發(fā)布預(yù)警的處理預(yù)警預(yù)警的獲取華為的官方網(wǎng)站上可以獲取已發(fā)布的預(yù)警信息華為會(huì)不定期的發(fā)布有關(guān)產(chǎn)品的預(yù)警信息根據(jù)預(yù)警的緊急程度安排整改或升級(jí)的計(jì)劃存儲(chǔ)系統(tǒng)與網(wǎng)絡(luò)常用故障診斷命令showctrlinfo-控制器狀態(tài)showsys-系統(tǒng)狀態(tài)showrg-RAID狀態(tài)showlun-LUN狀態(tài)ethtool-網(wǎng)卡物理狀態(tài)

陣列常見(jiàn)命令目錄SAN存儲(chǔ)系統(tǒng)故障處理基礎(chǔ)SAN存儲(chǔ)陣列故障診斷與排除2.1SAN存儲(chǔ)陣列故障分類(lèi)和定義2.2SAN存儲(chǔ)陣列故障診斷流程2.3SAN存儲(chǔ)陣列典型故障診斷思路和方法SAN存儲(chǔ)網(wǎng)絡(luò)故障診斷與排除SAN存儲(chǔ)主機(jī)軟件與主機(jī)側(cè)故障診斷與排除SAN存儲(chǔ)系統(tǒng)故障分類(lèi)-硬件SAN存儲(chǔ)系統(tǒng)故障主要分為:硬件類(lèi)故障控制器故障(異常)硬盤(pán)故障電源故障風(fēng)扇故障電池故障鏈路故障管理網(wǎng)口異常光模塊異常接口卡故障軟件類(lèi)故障系統(tǒng)配置異常(不一致)RAID組降級(jí)RAID組失效重構(gòu)異常Copyback異常性能問(wèn)題軟件BUGSAN存儲(chǔ)系統(tǒng)故障分類(lèi)-軟件SAN存儲(chǔ)系統(tǒng)故障主要分為:硬件類(lèi)故障控制器故障(異常)硬盤(pán)故障電源故障風(fēng)扇故障電池故障鏈路故障管理網(wǎng)口異常光模塊異常接口卡故障軟件類(lèi)故障系統(tǒng)配置異常(不一致)RAID組降級(jí)RAID組失效重構(gòu)異常Copyback異常性能問(wèn)題軟件BUG目錄SAN存儲(chǔ)系統(tǒng)故障處理基礎(chǔ)SAN存儲(chǔ)陣列故障診斷與排除2.1SAN存儲(chǔ)陣列故障分類(lèi)和定義2.2SAN存儲(chǔ)陣列故障診斷流程2.3SAN存儲(chǔ)陣列典型故障診斷思路和方法SAN存儲(chǔ)網(wǎng)絡(luò)故障診斷與排除SAN存儲(chǔ)主機(jī)軟件與主機(jī)側(cè)故障診斷與排除SAN存儲(chǔ)陣列故障診斷流程SAN存儲(chǔ)日志系統(tǒng)1日志在位置1、登錄存儲(chǔ)CLI進(jìn)入debug模式;2、在/OSM下面有l(wèi)og、log_conf_local兩個(gè)目錄存放存儲(chǔ)的調(diào)試日志,通過(guò)信息收集工具收集的也包括這兩部分。SAN存儲(chǔ)日志系統(tǒng)2A部分是系統(tǒng)配置數(shù)據(jù)B部分包括debug和backup_info;

Debug_information目錄含控制器當(dāng)前message和SESlog。OSM目錄的log_conf_local含控制器的歷史日志。OSM目錄的log_conf_mirror只含對(duì)端控制器日志信息。C部分為硬盤(pán)smart信息其它為系統(tǒng)當(dāng)前(收集日志時(shí))運(yùn)行狀態(tài)信息以及配置信息

SAN存儲(chǔ)日志系統(tǒng)3Debug_information目錄下最重要的信息為message和SES_log。log_reset.txt記錄系統(tǒng)重啟次數(shù)和原因。log_debug.txt記錄系統(tǒng)內(nèi)核日志信息。通過(guò)ISM日志無(wú)法分析定位的故障可以分析以上3個(gè)日志文件。目錄SAN存儲(chǔ)系統(tǒng)故障處理基礎(chǔ)SAN存儲(chǔ)陣列故障診斷與排除2.1SAN存儲(chǔ)陣列故障分類(lèi)和定義2.2SAN存儲(chǔ)陣列故障診斷流程2.3SAN存儲(chǔ)陣列典型故障診斷思路和方法SAN存儲(chǔ)網(wǎng)絡(luò)故障診斷與排除SAN存儲(chǔ)主機(jī)軟件與主機(jī)側(cè)故障診斷與排除SAN存儲(chǔ)陣列故障診斷2.3.1RAID/LUN組失效故障診斷2.3.2陣列控制器故障2.3.3電源、風(fēng)扇、電池故障2.3.4License問(wèn)題2.3.5主機(jī)發(fā)現(xiàn)存儲(chǔ)設(shè)備失敗2.3.6登錄ISM失敗2.3.7主機(jī)IO錯(cuò)誤或超時(shí)2.3.8DB/配置丟失或不一致2.3.9SAN存儲(chǔ)系統(tǒng)啟動(dòng)異?;蚴?.3.10升級(jí)失敗2.3.11硬盤(pán)框擴(kuò)容失敗RAID/LUN組失效故障診斷思路RAID/LUN故障處理步驟1序號(hào)問(wèn)題解決方案1硬盤(pán)故障1、查看控制器版本是否帶BST功能,如果有則打開(kāi)BST功能;如果控制器版本沒(méi)有BST功能,需要升級(jí)控制器軟件版本到帶BST功能版本S2600、S5000V1R5及其以上版本,S5000TV1R1及其以上版本帶BST功能;2、更換故障硬盤(pán),完成重構(gòu)或回拷;2雙盤(pán)失效引起RAID失效1、進(jìn)入MML查看控制器版本是否帶BST功能,要求打開(kāi)BST功能。如果不帶BST功能需要升級(jí)控制器軟件版本至V100R005;MML>bstenable3,顯示Status:1(1-enable2-disable)2、設(shè)置系統(tǒng)中所有熱備盤(pán)為空閑盤(pán),避免在處理故障過(guò)程,系統(tǒng)系統(tǒng)自動(dòng)重構(gòu)3、通過(guò)分析故障硬盤(pán)日志,確定硬盤(pán)故障順序,先revive后失效硬盤(pán)和lun舉例:MML>revivedisk03//revive(0.3)硬盤(pán)MML>revivelun2//revivelunid=2的lunMML>reviveraidlun0//reviveraid組0下所有l(wèi)un4、用備件硬盤(pán)更換最先失效硬盤(pán),啟動(dòng)自動(dòng)重構(gòu),5、恢復(fù)熱備盤(pán)狀態(tài);RAID/LUN故障處理步驟2序號(hào)問(wèn)題解決方案3硬盤(pán)被拔出1、在ISM管理軟件中查看硬盤(pán)被拔插先后順序,記下先失效硬盤(pán)槽位;2、使用在CLI執(zhí)行showdisk–p查看所有硬盤(pán)是否在位;3、插入后失效的硬盤(pán),revivie硬盤(pán)和失效RAID組下的LUN;4、將后拔出的硬盤(pán)插入系統(tǒng)框,啟動(dòng)重構(gòu);4級(jí)聯(lián)框異常查看ISM日志確認(rèn)級(jí)聯(lián)框是否掉電,將級(jí)聯(lián)框上電,RAID組和lun一般會(huì)自動(dòng)恢復(fù)如果RAID組成員盤(pán)有跨兩個(gè)框的情況,需要按照硬盤(pán)被拔出的操作方式恢復(fù)RAID5控制框異常掉電1、revive失效硬盤(pán)(熱備盤(pán)除外)、LUN,(第03塊盤(pán)后故障)舉例:MML>revivedisk03//revive(0.3)硬盤(pán)MML>revivelun2//revivelunid=2的LUNMML>reviveraidlun0//reviveraid組0下所有LUN2、更換先失效硬盤(pán),啟動(dòng)自動(dòng)重構(gòu)至本地;3、revive熱備盤(pán)、恢復(fù)熱備盤(pán)狀態(tài);6LUN失效RAID正常1、升級(jí)存儲(chǔ)系統(tǒng)軟件,打開(kāi)BST功能;2、檢查系統(tǒng)熱備盤(pán)是否正常;3、revivie失效的lun,拔插先失效硬盤(pán)啟動(dòng)重構(gòu);RAID/LUN故障診斷總結(jié)對(duì)于RAID/LUN故障,務(wù)必要有正確的診斷思路:登錄管理頁(yè)面ISM/OSM查看告警日志;收集存儲(chǔ)底層日志,定位RAID/LUN失效原因及硬盤(pán)失效先后順序;擬定RAID/LUN恢復(fù)方案以及恢復(fù)失敗時(shí)保全數(shù)據(jù)安全的補(bǔ)救措施;恢復(fù)RAID/LUN基本原則:revive后失效硬盤(pán),重構(gòu)先失效硬盤(pán);重構(gòu)前先打開(kāi)控制器軟件BST功能,啟動(dòng)硬盤(pán)壞道標(biāo)記功能;沒(méi)有BST功能的版本需要先做存儲(chǔ)系統(tǒng)軟件升級(jí);硬盤(pán)的物理狀態(tài)為normal才能在MML下恢復(fù)邏輯狀態(tài);RAID/LUN故障案例分享雙盤(pán)失效問(wèn)題:描述問(wèn)題某局點(diǎn)一臺(tái)S2600在運(yùn)行過(guò)程中系統(tǒng)狀態(tài)指示燈,兩塊硬盤(pán)故障指示燈亮紅燈,主機(jī)側(cè)存儲(chǔ)資源丟失導(dǎo)致業(yè)務(wù)中斷。分析原因LUN狀態(tài)為fault(CLI:showlun)RAID組狀態(tài)為fault(CLI:showrg)同一RAID組中有兩塊以上硬盤(pán)邏輯狀態(tài)fault(CLI:showdisk–l)告警:有兩塊以上硬盤(pán)失效,失效原因?yàn)镠ardwareError的告警。解決步驟:詳細(xì)操作步驟見(jiàn)備注。SAN存儲(chǔ)陣列故障診斷2.3.1RAID/LUN組失效故障診斷2.3.2陣列控制器故障2.3.3電源、風(fēng)扇、電池故障2.3.4License問(wèn)題2.3.5主機(jī)發(fā)現(xiàn)存儲(chǔ)設(shè)備失敗2.3.6登錄ISM失敗2.3.7主機(jī)IO錯(cuò)誤或超時(shí)2.3.8DB/配置丟失或不一致2.3.9SAN存儲(chǔ)系統(tǒng)啟動(dòng)異?;蚴?.3.10升級(jí)失敗2.3.11硬盤(pán)框擴(kuò)容失敗控制器故障診斷思路控制器故障原因分析和處理方法序號(hào)問(wèn)題解決方案1控制器異常復(fù)位如何收集日志可用下面兩種方式收集日志1、通過(guò)信息收集工具收集存儲(chǔ)系統(tǒng)日志2、debug下運(yùn)行os_backupinfo.shfalse命令收集2如何查看控制器啟動(dòng)失敗mml下S2600R1執(zhí)行devkeyvar、S2600R2&R5執(zhí)行devstatus、S5000R1執(zhí)行devfailreason、S5000R2&R5執(zhí)行devstatus查看3串口無(wú)打印如果串口無(wú)打印,要使用COM1和COM2兩個(gè)串口進(jìn)行綜合判斷,在滿足下面幾個(gè)條件時(shí)可以判斷為控制器故障。1、確保串口線無(wú)問(wèn)題2、確保存儲(chǔ)已上電3、確保波特率等已配置正確重啟控制器后依舊故障,更換控制器。控制器故障診斷總結(jié)對(duì)于控制器故障,務(wù)必要有正確的診斷思路:查看控制器指示燈查看管理軟件告警信息控制器重啟,通過(guò)CLI觀察啟動(dòng)狀態(tài),記錄啟動(dòng)異常界面和錯(cuò)誤在故障診斷過(guò)程中,需要注意以下幾點(diǎn):在拔插控制器之前,務(wù)必保證業(yè)務(wù)已停止或者已切換到對(duì)端控制器在切換業(yè)務(wù)到對(duì)端控制器后,務(wù)必在主機(jī)側(cè)檢查系統(tǒng)中多路徑軟件已安裝且生效確認(rèn)cahce臟數(shù)據(jù)是否已經(jīng)保存,見(jiàn)備注;控制器故障診斷案例分享描述問(wèn)題:某局點(diǎn)S2600控制器B亮紅燈、系統(tǒng)狀態(tài)指示燈亮紅燈,業(yè)務(wù)切換至A控。分析原因:控制器B硬件故障解決步驟:登錄ISM軟件,發(fā)現(xiàn)有緊急告警:控制器B離線;用信息收集工具收集日志,從日志中發(fā)現(xiàn)以下信息:Jan401:12:13linuxkernel:[8698236497]SYS_ERR:SystemisalreadyinSingleControllerstatus@[jif=8698236497]SYS_EmmFanSingleFault:5805Jan401:11:43linuxkernel:[8698206379]SYS_ERR:Synchronizefaultrecordfailforcontrolleroffline初步判斷控制器B故障;拔插控制器、拔插電源,B控均無(wú)法上電,判定控制器故障;申請(qǐng)備件,更換控制器,根據(jù)故障組網(wǎng)恢復(fù)主機(jī)端口連接,檢查路和業(yè)務(wù)狀態(tài);驗(yàn)證恢復(fù):檢查控制器指示燈是否綠燈常亮;在ISM管理軟件上檢查控制器是否在線,狀態(tài)是否為normal,確認(rèn)業(yè)務(wù)正常切換至B控;SAN存儲(chǔ)系統(tǒng)故障診斷2.3.1RAID/LUN組失效故障診斷2.3.2陣列控制器故障2.3.3電源、風(fēng)扇、電池故障2.3.4License問(wèn)題2.3.5主機(jī)發(fā)現(xiàn)存儲(chǔ)設(shè)備失敗2.3.6登錄ISM失敗2.3.7主機(jī)IO錯(cuò)誤或超時(shí)2.3.8DB/配置丟失或不一致2.3.9SAN存儲(chǔ)系統(tǒng)啟動(dòng)異?;蚴?.3.10升級(jí)失敗2.3.11硬盤(pán)框擴(kuò)容失敗電源、風(fēng)扇、電池故障診斷思路電源/風(fēng)扇/電池故障原因分析和處理方法序號(hào)問(wèn)題解決方案1電源,電池故障1、觀察指示燈確認(rèn)電源輸入輸出狀態(tài)是否正常,用萬(wàn)用表檢查機(jī)房供電是否正常;2、在命令行下運(yùn)行showpower、showbattery電源、電池狀態(tài)是否為:normal,異常狀態(tài)時(shí),重新拔插,故障依舊則更換;2查看電池壽命admin:/>showbattery參數(shù)RemainLife(days)顯示電池生命剩余天數(shù)3更換電源電池模塊1、插拔電源模塊時(shí)用力要均勻,避免用力過(guò)大或強(qiáng)行插拔等操作,以免損壞部件或?qū)е陆硬寮收?、更換電源模塊時(shí),拆卸和安裝電源模塊的時(shí)間建議控制器在2分鐘內(nèi),特別是風(fēng)扇模塊;具體操作步驟詳見(jiàn)相關(guān)產(chǎn)品文檔《OceanstorS2600存儲(chǔ)系統(tǒng)故障處理-(V100R003_01).pdf》5.3章節(jié)SAN存儲(chǔ)系統(tǒng)故障診斷2.3.1RAID/LUN組失效故障診斷2.3.2陣列控制器故障2.3.3電源、風(fēng)扇、電池故障2.3.4License問(wèn)題2.3.5主機(jī)發(fā)現(xiàn)存儲(chǔ)設(shè)備失敗2.3.6登錄ISM失敗2.3.7主機(jī)IO錯(cuò)誤或超時(shí)2.3.8DB/配置丟失或不一致2.3.9SAN存儲(chǔ)系統(tǒng)啟動(dòng)異?;蚴?.3.10升級(jí)失敗2.3.11硬盤(pán)框擴(kuò)容失敗License問(wèn)題原因分析和處理方法License注冊(cè)失敗問(wèn)題小結(jié):查看license文件,是否缺失功能項(xiàng)查看license文件中的SN是否與物理陣列SN匹配收集日志,反饋給400工程師協(xié)助定位注意:在申請(qǐng)license文件時(shí),反饋的LAC、ESN務(wù)必核實(shí)準(zhǔn)確序號(hào)問(wèn)題解決方案1License注冊(cè)失敗或啟用失敗1、確認(rèn)ISM版本是否最新版本;2、使用寫(xiě)字板打開(kāi)license文件,查看Resource項(xiàng)是否與項(xiàng)目需求配置一致;3、查看ESN號(hào)是否與當(dāng)前設(shè)備序列號(hào)匹配;4、是否存在合并license;License問(wèn)題故障診斷案例分享描述問(wèn)題:某局點(diǎn)S5500新擴(kuò)容LUN虛擬快照功能,導(dǎo)入擴(kuò)容license后在ISM軟件上查看虛擬快照為未啟用。分析原因:查看客戶(hù)申請(qǐng)的license文件,發(fā)現(xiàn)文件中缺失function信息。解決步驟:?jiǎn)?dòng)license回退流程,重新申請(qǐng)license文件。驗(yàn)證恢復(fù):在CLI命令行下查看license信息。admin:/>showlicensefunction==============================================================LicenseFunctionList--------------------------------------------------------------FeatureName|HyperImageDeadlineforrunning|PermanentFunctioninformationname|LCC3SNAPC01SAN存儲(chǔ)系統(tǒng)故障診斷2.3.1RAID/LUN組失效故障診斷2.3.2陣列控制器故障2.3.3電源、風(fēng)扇、電池故障2.3.4License問(wèn)題2.3.5主機(jī)發(fā)現(xiàn)存儲(chǔ)設(shè)備失敗2.3.6登錄ISM失敗2.3.7主機(jī)IO錯(cuò)誤或超時(shí)2.3.8DB/配置丟失或不一致2.3.9SAN存儲(chǔ)系統(tǒng)啟動(dòng)異?;蚴?.3.10升級(jí)失敗2.3.11硬盤(pán)框擴(kuò)容失敗主機(jī)發(fā)現(xiàn)LUN失敗故障診斷思路主機(jī)發(fā)現(xiàn)LUN失敗原因分析和處理步驟序號(hào)問(wèn)題解決方案1iSCSI鏈路故障1、檢查主機(jī)網(wǎng)口、存儲(chǔ)主機(jī)端口指示燈是否正常2、檢查網(wǎng)線是否存在質(zhì)量問(wèn)題(替換法)3、排查主機(jī)是否能ping通存儲(chǔ)業(yè)務(wù)IP,端口是否telnet成功telnet0032602FC鏈路故障1、檢查主機(jī)HBA卡指示燈是否顯示正常2、檢查存儲(chǔ)光模塊指示燈是否正常3、檢查FC速率和端口模式是否匹配4、檢查主機(jī)側(cè)HBA卡驅(qū)動(dòng)版本和加載狀態(tài)3iSCSI配置問(wèn)題1、檢查啟動(dòng)器配置是否已添加存儲(chǔ)目標(biāo)器信息,是否登錄成功2、檢查存儲(chǔ)是否為主機(jī)添加正確啟動(dòng)器端口3、檢查存儲(chǔ)是否為主機(jī)添加lun映射4FC配置問(wèn)題1、檢查存儲(chǔ)是否為主機(jī)添加正確端口信息2、檢查存儲(chǔ)是否為主機(jī)添加正確lun映射主機(jī)發(fā)現(xiàn)LUN失敗故障診斷總結(jié)在遇到主機(jī)發(fā)現(xiàn)lun失敗問(wèn)題是,應(yīng)從以下幾個(gè)方面去排查問(wèn)題:鏈路是否正常,交換機(jī)配置是否正常iSCSI啟動(dòng)器配置是否正確HBA卡驅(qū)動(dòng)是否正確、速率是否匹配光纖模塊是否正常存儲(chǔ)端主機(jī)映射是否正確主機(jī)發(fā)現(xiàn)LUN失敗案例分享描述問(wèn)題:某局點(diǎn)S2600存儲(chǔ)映射一個(gè)LUN給一臺(tái)Windows2003主機(jī),在主機(jī)端掃描不到LUN操作系統(tǒng)版本:windows2003R232bitHBA卡:HPFC2142SRHBA卡驅(qū)動(dòng)版本:

服務(wù)器型號(hào):HPDE580G7分析原因:HBA卡驅(qū)動(dòng)加載異常。解決步驟:排查光纖連接狀態(tài),指示燈狀態(tài)正常檢查HBA卡狀態(tài),設(shè)備管理否有帶問(wèn)號(hào)的未知設(shè)備,如果有HBA驅(qū)動(dòng)未加載重裝HBA卡驅(qū)動(dòng),并重啟服務(wù)器,重新發(fā)現(xiàn)設(shè)備成功SAN存儲(chǔ)系統(tǒng)故障診斷2.3.1RAID/LUN組失效故障診斷2.3.2陣列控制器故障2.3.3電源、風(fēng)扇、電池故障2.3.4License問(wèn)題2.3.5主機(jī)發(fā)現(xiàn)存儲(chǔ)設(shè)備失敗2.3.6登錄ISM失敗2.3.7主機(jī)IO錯(cuò)誤或超時(shí)2.3.8DB/配置丟失或不一致2.3.9SAN存儲(chǔ)系統(tǒng)啟動(dòng)異常或失敗2.3.10升級(jí)失敗2.3.11硬盤(pán)框擴(kuò)容失敗登錄ISM失敗故障診斷思路圖2-5登錄ISM失敗故障診斷思路登錄ISM失敗原因分析和處理步驟序號(hào)問(wèn)題解決方案1主機(jī)ISM端口是否被占用在windows主機(jī)的DOS命令模式下輸入netstat–nab查看哪個(gè)進(jìn)程占用了80,5988,5989,7890,8000-8090,8901等端口,確認(rèn)占用端口的服務(wù)可以停止,在任務(wù)管理器中結(jié)束掉占用此端口的應(yīng)用程序。2ISM服務(wù)未啟動(dòng)1在陣列debug模式下切換目錄到“/ISM/ism_cs/sbin”.輸入命令Service.shshow,運(yùn)行該命令,命令行顯示lighttpdserviceisrunning,則表明WEB服務(wù)正常;不正常需要重啟服務(wù)service.shstart。2執(zhí)行Storage:/ISM/ism_ap/agent/conf#./show_agent.sh,查看agent是否啟動(dòng),沒(méi)有啟動(dòng)成功需要重啟3加載或雙擊ISM后,能否正常彈出ISM修改本機(jī)JWS緩存文件:檢查本機(jī)JAVA虛擬機(jī)是否申請(qǐng)的最大內(nèi)容能否為512M,如果能否申請(qǐng)到,將會(huì)顯示當(dāng)前的java版本信息。如果申請(qǐng)不到,需要手動(dòng)釋放PC機(jī)的一些資源。登錄ISM失敗故障診斷總結(jié)導(dǎo)致ISM登錄失敗主要有下面幾種原因:端口被占用服務(wù)未正常啟動(dòng)客戶(hù)機(jī)JRE環(huán)境異?;騄AVA版本不匹配,查看本地java版本命令:java–versionISM版本兼容性問(wèn)題登錄ISM失敗案例分享描述問(wèn)題:江蘇某局點(diǎn)S6800E在開(kāi)局過(guò)程中ISM登錄失敗,管理口可以ping通,SSH也可以登錄到控制器命令行。分析原因:工程師在使用筆記本上自帶ISM軟件登錄,ISM版本與控制器內(nèi)自帶ISM版本不兼容造成解決步驟:筆記本與存儲(chǔ)S6800E管理口可以通信的情況下,在瀏覽器輸入管理口ip地址,下載S6800E控制器自帶ISM軟件并安裝登錄即可。驗(yàn)證恢復(fù):重新登錄ISM軟件成功,功能選項(xiàng)顯示正常。SAN存儲(chǔ)系統(tǒng)故障診斷2.3.1RAID/LUN組失效故障診斷2.3.2陣列控制器故障2.3.3電源、風(fēng)扇、電池故障2.3.4License問(wèn)題2.3.5主機(jī)發(fā)現(xiàn)存儲(chǔ)設(shè)備失敗2.3.6登錄ISM失敗2.3.7主機(jī)IO錯(cuò)誤或超時(shí)2.3.8DB/配置丟失或不一致2.3.9SAN存儲(chǔ)系統(tǒng)啟動(dòng)異?;蚴?.3.10升級(jí)失敗2.3.11硬盤(pán)框擴(kuò)容失敗主機(jī)IO錯(cuò)誤或超時(shí)故障診斷思路主機(jī)IO錯(cuò)誤或超時(shí)失敗故障診斷總結(jié)對(duì)于FCSAN建議在存儲(chǔ)側(cè)打開(kāi)端口統(tǒng)計(jì)查看FC端口是否有誤碼網(wǎng)絡(luò)阻塞可以通過(guò)PING命令查看網(wǎng)絡(luò)響應(yīng)時(shí)間,一般出現(xiàn)丟包或者延遲較大可以初步判斷為網(wǎng)絡(luò)阻塞;通過(guò)直連主機(jī)與存儲(chǔ)設(shè)備測(cè)試,排查是交換網(wǎng)絡(luò)阻塞還是存儲(chǔ)原因?qū)е麓鎯?chǔ)引起的IO超時(shí)問(wèn)題一般都是硬盤(pán)故障引起,登錄至控制器并進(jìn)入debug模式,使用iostat–x–d1命令查看磁盤(pán)的io情況,當(dāng)觀察到某些磁盤(pán)的平均服務(wù)時(shí)間(svctm)在一段時(shí)間內(nèi)明顯大于其它磁盤(pán),或者利用率(%util)接近100%(而其它盤(pán)較空閑),說(shuō)明該盤(pán)可能是瓶頸。主機(jī)IO錯(cuò)誤或超時(shí)失敗案例分享描述問(wèn)題:在客戶(hù)測(cè)試的時(shí)候登錄存儲(chǔ)的debug下查看IO情況,執(zhí)行iostat–xd2命令,查看成員盤(pán)的讀寫(xiě)狀態(tài)數(shù)據(jù)await(平均等待時(shí)間)和util(利用率),一般觀察時(shí)間為30S。分析解決:確認(rèn)sddg硬盤(pán)在統(tǒng)計(jì)數(shù)據(jù)中出現(xiàn)了await在一段時(shí)間明顯大于其他硬盤(pán)且util值為100%??梢钥闯鲈摫P(pán)性能明顯低于其它硬盤(pán),該硬盤(pán)為慢盤(pán)。直接更換該硬盤(pán),待重構(gòu)完成后,再測(cè)試此問(wèn)題是否解決。SAN存儲(chǔ)系統(tǒng)故障診斷2.3.1RAID/LUN組失效故障診斷2.3.2陣列控制器故障2.3.3電源、風(fēng)扇、電池故障2.3.4License問(wèn)題2.3.5主機(jī)發(fā)現(xiàn)存儲(chǔ)設(shè)備失敗2.3.6登錄ISM失敗2.3.7主機(jī)IO錯(cuò)誤或超時(shí)2.3.8DB/配置丟失或不一致2.3.9SAN存儲(chǔ)系統(tǒng)啟動(dòng)異?;蚴?.3.10升級(jí)失敗2.3.11硬盤(pán)框擴(kuò)容失敗DB/配置類(lèi)問(wèn)題診斷思路DB/配置類(lèi)問(wèn)題分析和處理步驟序號(hào)問(wèn)題解決方案1DB不一致

1、先確認(rèn)是否備份DB,沒(méi)有備份手動(dòng)導(dǎo)出DB,清除后再重新導(dǎo)入exportcofferdb-i-di0-uadmin-p123456-f/tmp/disk0.dat(將4塊保險(xiǎn)箱盤(pán)的DB都導(dǎo)出)

2、清除存儲(chǔ)系統(tǒng)DB(在線系統(tǒng)需要謹(jǐn)慎操作)S5000V1R1:claencofferdbormml:syscleardbS5000V1R2:mml:vaultsysclearS5000S2600V1R5:claercofferdbormml:vaultsysclearS5600T:mml>nvramclearheadS5500T:mml>vaultsysclear3、在ISM導(dǎo)入備份DB,檢查系統(tǒng)配置是否恢復(fù);2DB丟失

如果沒(méi)有備份DB,出現(xiàn)系統(tǒng)配置丟失,可以通過(guò)查看run_log獲取所有創(chuàng)建RAID組LUN的信息,從中分析出現(xiàn)在設(shè)備應(yīng)該包含的RAID及LUN的配置信息。確定RAID組包含的硬盤(pán)、RAID級(jí)別、名稱(chēng)、RAIDID,該RAID組下創(chuàng)建的LUN的大小,分條深度、LUN名稱(chēng)、創(chuàng)建順序(以上信息務(wù)必準(zhǔn)確,一旦與原配置有差別,可能造成數(shù)據(jù)丟失)DB配置類(lèi)案例分享升級(jí)前后版本DB結(jié)構(gòu)不一致導(dǎo)致配置丟失問(wèn)題描述對(duì)設(shè)備進(jìn)行過(guò)上下電操作或升級(jí)操作;設(shè)備重新上電起來(lái)后,業(yè)務(wù)配置RAID、LuN等配置信息丟失。故障處理將預(yù)先導(dǎo)出備份的DB重新導(dǎo)入系統(tǒng),重新導(dǎo)入后系統(tǒng)會(huì)復(fù)位;在未備份DB的情況下,使用下面的方法恢復(fù):根據(jù)先前保存的運(yùn)行數(shù)據(jù)整理RAID組以及LUN的配置過(guò)程;確認(rèn)當(dāng)前版本是否支持創(chuàng)建LUN不格式化的命令,如果不支持,需要先升級(jí)到支持該命令的版本再做下面的操作。支持創(chuàng)建LUN不格式化的命令的版本如下備注:嚴(yán)格按照整理的RAID組及LUN的配置過(guò)程,重新創(chuàng)建RAID組和LUN,注意創(chuàng)建LUN需要使用創(chuàng)建LUN不格式化的命令創(chuàng)建(在創(chuàng)建LUN的命令最后加-f,如createlun-i0-nLun005-s20000-u64-ca–f;將LUN重新映射給主機(jī),并恢復(fù)主機(jī)側(cè)業(yè)務(wù)。SAN存儲(chǔ)系統(tǒng)故障診斷2.3.1RAID/LUN組失效故障診斷2.3.2陣列控制器故障2.3.3電源、風(fēng)扇、電池故障2.3.4License問(wèn)題2.3.5主機(jī)發(fā)現(xiàn)存儲(chǔ)設(shè)備失敗2.3.6登錄ISM失敗2.3.7主機(jī)IO錯(cuò)誤或超時(shí)2.3.8DB/配置丟失或不一致2.3.9SAN存儲(chǔ)系統(tǒng)啟動(dòng)異?;蚴?.3.10升級(jí)失敗2.3.11硬盤(pán)框擴(kuò)容失敗SAN存儲(chǔ)系統(tǒng)啟動(dòng)問(wèn)題診斷思路SAN存儲(chǔ)系統(tǒng)啟動(dòng)問(wèn)題分析和處理步驟如何確定系統(tǒng)是否啟動(dòng)失敗從系統(tǒng)上電后15分鐘內(nèi)控制框還未正常啟動(dòng)(系統(tǒng)狀態(tài)指示燈一直閃橘黃色),初步可以判斷系統(tǒng)上電失敗。進(jìn)入MML模式下sysstatus查看系統(tǒng)狀態(tài),SystemRunningStatus:[normalmode]normalmode表明系統(tǒng)上電是成功的.如果不是normalmode,可以判斷為系統(tǒng)上電失敗.如果SystemRunningStatus的狀態(tài)為flashcache,則此時(shí)是刷臟數(shù)據(jù)的過(guò)程,屬于正常狀態(tài),待刷盤(pán)完成就顯示正常模式。SAN存儲(chǔ)系統(tǒng)啟動(dòng)問(wèn)題分析和處理步驟存儲(chǔ)S2600S5000V1R5版本及S5000T系列,通過(guò)mml>sysstatus檢查Systemerrorreason,判斷系統(tǒng)啟動(dòng)失敗原因。

序號(hào)Systemerrorreason定位方法定位結(jié)果1.01masterDEVstartVAULTfailed查看設(shè)備管理啟動(dòng)情況設(shè)備管理啟動(dòng)保險(xiǎn)箱失敗1.02masterstartVAULTfailed查看設(shè)備管理啟動(dòng)情況主控啟動(dòng)保險(xiǎn)箱失敗1.03readdbfailed查看設(shè)備管理啟動(dòng)情況設(shè)備管理啟動(dòng)成功,讀DB失敗1.04masterstartDEVfailed查看設(shè)備管理啟動(dòng)情況設(shè)備管理啟動(dòng)失敗SAN存儲(chǔ)系統(tǒng)啟動(dòng)問(wèn)題分析和處理步驟檢查設(shè)備管理開(kāi)工狀態(tài)通過(guò)mml>devstate請(qǐng)檢查failreason:devispoweron表示設(shè)備管理正在啟動(dòng)。說(shuō)明:查詢(xún)?cè)O(shè)備管理啟動(dòng)具體狀態(tài),根據(jù)錯(cuò)誤代碼查詢(xún)啟動(dòng)失敗處理方法。

SAN存儲(chǔ)系統(tǒng)啟動(dòng)問(wèn)題分析和處理步驟檢查框的狀態(tài)命令行:mml>devframeinfo主要是檢查框當(dāng)前的狀態(tài),框的MAC,F(xiàn)WWN,WWN,SN以及框的SCSIAddr,當(dāng)前框上盤(pán)的數(shù)量以及SCSIADDRSAN存儲(chǔ)系統(tǒng)啟動(dòng)問(wèn)題分析和處理步驟檢查硬盤(pán)狀態(tài)mml>devdiskinfo檢查當(dāng)前所有盤(pán)的狀態(tài),盤(pán)所在的框號(hào)和槽號(hào),綜合狀態(tài),本端和對(duì)端狀態(tài),WWN以及盤(pán)的類(lèi)型,廠商,是否被隔離,是否即將失效。SAN存儲(chǔ)系統(tǒng)啟動(dòng)問(wèn)題分析和處理步驟檢查接口板的狀態(tài)mml>devboardinfo檢查當(dāng)前所有板的WWN,板的框號(hào)和槽號(hào),綜合狀態(tài),A控和B控狀態(tài)以及板的電子標(biāo)簽。SAN存儲(chǔ)系統(tǒng)啟動(dòng)問(wèn)題分析和處理步驟檢查當(dāng)前DB中設(shè)備管理記錄信息mml>devgetdbdevinfo查看DB中記錄的控制框產(chǎn)品型號(hào)以及SN。mml>devframerecord查看DB中記錄的框MAC地址。SAN存儲(chǔ)系統(tǒng)啟動(dòng)問(wèn)題分析和處理步驟序號(hào)打印描述定位方法解決方法1failreasonid為3:0&1or2&3disk--->notexist,ormaybediskinvalid請(qǐng)檢查4塊保險(xiǎn)箱盤(pán)是否插入保證0&1號(hào)槽位和2&3號(hào)槽位至少有一個(gè)保險(xiǎn)箱盤(pán)確認(rèn)保險(xiǎn)箱槽位硬盤(pán)狀態(tài)2failreasonid為8:processvaultdisk20minutetimeout1.請(qǐng)檢查保險(xiǎn)箱所在的框是否插入。2.請(qǐng)檢查保險(xiǎn)箱所在的框接的接口卡是否插在控制框A0和B0槽位。3.請(qǐng)檢查保險(xiǎn)箱所在的框連接的接口卡端口是否為第一個(gè)下行級(jí)聯(lián)口,及狀態(tài)4.請(qǐng)檢查級(jí)聯(lián)線是否連接保險(xiǎn)箱所在的框的上行級(jí)聯(lián)口1.連接保險(xiǎn)箱所在為的接口卡必須插在A0和B0槽位。2.級(jí)聯(lián)線必須插在接口卡的第一個(gè)下行級(jí)聯(lián)口。3.級(jí)聯(lián)線必須連接級(jí)聯(lián)框的上行級(jí)聯(lián)口及從左數(shù)第一個(gè)端口。SAN存儲(chǔ)系統(tǒng)故障診斷2.3.1RAID/LUN組失效故障診斷2.3.2陣列控制器故障2.3.3電源、風(fēng)扇、電池故障2.3.4License問(wèn)題2.3.5主機(jī)發(fā)現(xiàn)存儲(chǔ)設(shè)備失敗2.3.6登錄ISM失敗2.3.7主機(jī)IO錯(cuò)誤或超時(shí)2.3.8DB/配置丟失或不一致2.3.9SAN存儲(chǔ)系統(tǒng)啟動(dòng)異?;蚴?.3.10升級(jí)失敗2.3.11硬盤(pán)框擴(kuò)容失敗升級(jí)失敗問(wèn)題診斷思路升級(jí)失敗問(wèn)題總結(jié)S5000V1R1升級(jí)到V1R2注意:格式化未完成不允許升級(jí);管理口IP、日志、License丟失,升級(jí)后需要重新添加;S5000V1R2升級(jí)到V1R5能做到平滑升級(jí)S5000V1R1升級(jí)到V1R5,需要下先升級(jí)到V1R2,再升級(jí)到V1R5,直接由V1R1升級(jí)到V1R5可能導(dǎo)致DB丟失、管理口IP、日志、License丟失DB原始數(shù)據(jù)還在,可通過(guò)回退版本恢復(fù)S5000V1R5和S5000TV1R1后續(xù)版本均可實(shí)現(xiàn)平滑升級(jí),不需要升級(jí)中間版本;升級(jí)失敗問(wèn)題案例分享描述問(wèn)題與分析S2600R1直接升級(jí)到S2600R5,未先升級(jí)到S2600R2過(guò)渡;S2600R1升級(jí)到S2600R5未轉(zhuǎn)換DB配置數(shù)據(jù),升級(jí)成功后會(huì)發(fā)現(xiàn)DB配置丟失。解決方法參考備注SAN存儲(chǔ)系統(tǒng)故障診斷2.3.1RAID/LUN組失效故障診斷2.3.2陣列控制器故障2.3.3電源、風(fēng)扇、電池故障2.3.4License問(wèn)題2.3.5主機(jī)發(fā)現(xiàn)存儲(chǔ)設(shè)備失敗2.3.6登錄ISM失敗2.3.7主機(jī)IO錯(cuò)誤或超時(shí)2.3.8DB/配置丟失或不一致2.3.9SAN存儲(chǔ)系統(tǒng)啟動(dòng)異常或失敗2.3.10升級(jí)失敗2.3.11硬盤(pán)框擴(kuò)容失敗硬盤(pán)框擴(kuò)容失敗問(wèn)題診斷思路描述問(wèn)題某局點(diǎn)S5000在線擴(kuò)容硬盤(pán)框,接入新硬盤(pán)框前,存儲(chǔ)設(shè)備運(yùn)行正常,接入硬盤(pán)框后所有硬盤(pán)上報(bào)失效,在線擴(kuò)容失敗。分析原因新接入的硬盤(pán)框與環(huán)路速率不匹配導(dǎo)致FC環(huán)路故障解決方法參考備注硬盤(pán)框擴(kuò)容失敗問(wèn)題案例分享思考題存儲(chǔ)系統(tǒng)故障分類(lèi)中,請(qǐng)描述控制器、硬盤(pán)、RAID主要故障分類(lèi)和特征?存儲(chǔ)系統(tǒng)故障診斷流程中,一般從哪些方面進(jìn)行排查系統(tǒng)故障?存儲(chǔ)側(cè)CLI常用的狀態(tài)查詢(xún)命令有哪些?SAN存儲(chǔ)系統(tǒng)的日志通常有哪些文件組成?Debug_information下常用的兩個(gè)文件是?RAID失效恢復(fù)中,為什么需要先恢復(fù)后失效的硬盤(pán)?RAID失效故障處理中需要重點(diǎn)注意哪些事項(xiàng)?控制器故障后,一般最直接查看狀態(tài)和關(guān)鍵錯(cuò)誤信息的方式是哪種?主機(jī)發(fā)現(xiàn)LUN失敗,主要的一個(gè)原因是鏈路故障,請(qǐng)問(wèn)一般如何快速診斷?FC和iSCSI有什么區(qū)別?導(dǎo)致ISM登錄失敗的原因,你能說(shuō)出常見(jiàn)的幾種嗎?查看主機(jī)IO狀態(tài)的命令有哪些?一般如何使用?如何判斷存儲(chǔ)系統(tǒng)啟動(dòng)失敗,通過(guò)哪些關(guān)鍵信息斷定?實(shí)驗(yàn)8-1:主機(jī)LUN業(yè)務(wù)異常故障診斷實(shí)驗(yàn)實(shí)驗(yàn)內(nèi)容與目標(biāo)完成本實(shí)驗(yàn),您應(yīng)該能夠:掌握主機(jī)LUN異常,引起業(yè)務(wù)異常故障診斷與處理實(shí)驗(yàn)時(shí)間2h實(shí)驗(yàn)硬件、軟件版本與組網(wǎng)IPSAN組網(wǎng):每套IPSAN包含1臺(tái)Windows或Linux主機(jī),主機(jī)分別用1個(gè)GE網(wǎng)口連接1臺(tái)交換機(jī),陣列的每個(gè)控制器都與交換機(jī)相連,組成多路徑組網(wǎng)。實(shí)驗(yàn)8-2:SAN存儲(chǔ)系統(tǒng)登錄失敗診斷實(shí)驗(yàn)實(shí)驗(yàn)內(nèi)容與目標(biāo)完成本實(shí)驗(yàn),您應(yīng)該能夠:掌握存儲(chǔ)管理登錄失敗問(wèn)題或故障診斷與處理實(shí)驗(yàn)時(shí)間1h實(shí)驗(yàn)硬件、軟件版本與組網(wǎng)IPSAN組網(wǎng):每套IPSAN包含1臺(tái)Windows或Linux主機(jī),主機(jī)分別用1個(gè)GE網(wǎng)口連接1臺(tái)交換機(jī),陣列的每個(gè)控制器都與交換機(jī)相連,組成多路徑組網(wǎng)。目錄SAN存儲(chǔ)系統(tǒng)故障處理基礎(chǔ)SAN存儲(chǔ)陣列故障診斷與排除SAN存儲(chǔ)網(wǎng)絡(luò)故障診斷與排除3.1SAN存儲(chǔ)網(wǎng)絡(luò)故障診斷基礎(chǔ)3.2FC-SAN網(wǎng)絡(luò)故障診斷和排除3.3IP-SAN網(wǎng)絡(luò)故障診斷和排除SAN存儲(chǔ)主機(jī)軟件與主機(jī)側(cè)故障診斷與排除SAN網(wǎng)絡(luò)故障分類(lèi)和定義按故障對(duì)象不同分:IPSAN:1)IP無(wú)法連通;2)端口限制:3)VLAN設(shè)置不合理:4)交換機(jī)端口故障:5)網(wǎng)卡故障:FCSAN:1)端口模式不匹配;2)端口速率不匹配;3)兼容性;4)SFP光功率不足;5)光纖或端口物理故障;6)HBA卡驅(qū)動(dòng)加載異常;按故障性質(zhì)分:物理故障:硬件設(shè)備或者物理設(shè)備出現(xiàn)異常,無(wú)法正常工作;邏輯故障:設(shè)備邏輯狀態(tài)異常;例如驅(qū)動(dòng)或模塊加載異常;配置異常:鏈路通信參數(shù)(速率、模式)配置不合理導(dǎo)致異常;SAN網(wǎng)絡(luò)故障診斷整體流程目錄SAN存儲(chǔ)系統(tǒng)故障處理基礎(chǔ)SAN存儲(chǔ)陣列故障診斷與排除SAN存儲(chǔ)網(wǎng)絡(luò)故障診斷與排除3.1SAN存儲(chǔ)網(wǎng)絡(luò)故障診斷基礎(chǔ)3.2FC-SAN網(wǎng)絡(luò)故障診斷和排除3.3IP-SAN網(wǎng)絡(luò)故障診斷和排除SAN存儲(chǔ)主機(jī)軟件與主機(jī)側(cè)故障診斷與排除FCSAN網(wǎng)絡(luò)不通問(wèn)題診斷思路FCSAN網(wǎng)絡(luò)不通問(wèn)題分析與處理序號(hào)問(wèn)題解決方案1陣列主機(jī)口與光纖交換機(jī)協(xié)商失敗1、更改陣列主機(jī)端口模式為點(diǎn)對(duì)點(diǎn)或者交換機(jī)模式,再重新連接

2、更改陣列主機(jī)端口速率為1G、2G或者4G再重新連接

3、升級(jí)陣列版本2交換機(jī)zone配置問(wèn)題1、刪除原來(lái)的zone;

2、重新創(chuàng)建zone,保證陣列主機(jī)口和業(yè)務(wù)服務(wù)器的HBA卡在一個(gè)zone里;3HBA卡驅(qū)動(dòng)問(wèn)題1、卸載原有的HBA卡驅(qū)動(dòng)

2、重新安裝新的HBA卡驅(qū)動(dòng)4硬件故障采用替換法確定故障點(diǎn),是光模塊還是光纖還是HBA卡故障,確定后更換。FCSAN網(wǎng)絡(luò)不通問(wèn)題分析與處理序號(hào)問(wèn)題解決方案5存儲(chǔ)單元端FC誤碼率過(guò)高登錄管理界面查看光纖端口誤碼情況,如果誤碼率持續(xù)增長(zhǎng),表示誤碼率過(guò)高,如果誤碼持續(xù)增長(zhǎng),屬于非正常情況,應(yīng)該從以下幾個(gè)方面排除誤碼:1)查看存儲(chǔ)側(cè)是否有光模塊告警信息。如是否有告警信息,存儲(chǔ)側(cè)光模塊工作不正常,會(huì)出現(xiàn)大量誤碼,應(yīng)及時(shí)更換存儲(chǔ)對(duì)應(yīng)端口光模塊或與之連接的主機(jī)側(cè)光模塊。2)更換光纖線。某些情況下,光纖線彎曲過(guò)大,會(huì)導(dǎo)致光纖內(nèi)部斷裂;光纖出口有沾污會(huì)導(dǎo)致接收光或發(fā)射光信號(hào)質(zhì)量下降,這些都有可能導(dǎo)致數(shù)據(jù)傳輸中產(chǎn)生誤碼。3)更換主機(jī)端口。某些情況下,主機(jī)HBA卡與光纖線接觸不好,可能造成光信號(hào)傳輸質(zhì)量不好;另外,主機(jī)側(cè)光模塊工作不正常也有可能制造誤碼。FCSAN網(wǎng)絡(luò)不通問(wèn)題案例分享描述問(wèn)題通過(guò)OSM或ISM或CLI查看FC主機(jī)端口誤碼數(shù)過(guò)高,且持續(xù)增長(zhǎng);有光模塊工作參數(shù)異常告警;通過(guò)CLI命令showfibermodel查看FC主機(jī)端口信息可以看到接收光功率過(guò)低;查看光纖線路徑,有過(guò)度彎折或束線過(guò)緊。分析原因使用光功率測(cè)試議測(cè)試光纖線兩端光功率看是否有異常;如果沒(méi)有光功率測(cè)試議,可采用交插換線的方式,將問(wèn)題光纖插入別的端口進(jìn)行測(cè)試在檢查完光纖線沒(méi)有問(wèn)題后,通過(guò)更換光模塊的方式判斷光模塊是否有問(wèn)題;更換有問(wèn)題的光模塊或線后,清空FC主機(jī)端口誤碼統(tǒng)計(jì);手動(dòng)清楚告警,恢復(fù)業(yè)務(wù)或起讀寫(xiě),觀察是否仍然有誤碼產(chǎn)生;FCSAN網(wǎng)絡(luò)不通問(wèn)題案例分享解決方法將S5600和光纖交換機(jī)的端口速率都調(diào)整到2Gbit/s,狀態(tài)異常。將S5600和光纖交換機(jī)的端口模式固定為L(zhǎng)_Port,狀態(tài)異常。將同一主機(jī)端口模塊的FC0和FC1的2條鏈路斷開(kāi)其中1條,狀態(tài)正常。將同一主機(jī)端口模塊的FC0和FC1的2條鏈路,分別連接到FC0和FC2,狀態(tài)正常。經(jīng)驗(yàn)總結(jié)S5600存儲(chǔ)設(shè)備(含部分其它存儲(chǔ)設(shè)備)的同一主機(jī)端口模塊上,相鄰的2個(gè)FC端口由同一FC芯片控制,在連接光纖交換機(jī)時(shí),同一芯片的2個(gè)FC口不能同時(shí)連接到同臺(tái)光纖交換機(jī)的同一個(gè)zone。目錄SAN存儲(chǔ)系統(tǒng)故障處理基礎(chǔ)SAN存儲(chǔ)陣列故障診斷與排除SAN存儲(chǔ)網(wǎng)絡(luò)故障診斷與排除3.1SAN存儲(chǔ)網(wǎng)絡(luò)故障診斷基礎(chǔ)3.2FC-SAN網(wǎng)絡(luò)故障診斷和排除3.3IP-SAN網(wǎng)絡(luò)故障診斷和排除SAN存儲(chǔ)主機(jī)軟件與主機(jī)側(cè)故障診斷與排除IPSAN網(wǎng)絡(luò)不通問(wèn)題診斷思路IPSAN網(wǎng)絡(luò)不通問(wèn)題診斷思路序號(hào)問(wèn)題解決方案1檢查速度和雙工模式是否為autoWindows平臺(tái):打開(kāi)網(wǎng)絡(luò)連接,本地連接狀態(tài),查看連接速度;打開(kāi)設(shè)備管理器,網(wǎng)卡屬性,查看雙工模式。Linux平臺(tái):使用命令ethtooleth0查看連接速度和雙工模式。2檢查虛擬交換機(jī)配置1、確保虛擬交換機(jī)使用的物理網(wǎng)卡和存儲(chǔ)業(yè)務(wù)網(wǎng)絡(luò)連通2、確保虛擬機(jī)網(wǎng)卡選擇了正確的虛擬網(wǎng)絡(luò)3檢查iSCSI主機(jī)端口配置存儲(chǔ)業(yè)務(wù)IP如果和主機(jī)IP地址不在同一子網(wǎng),必須設(shè)置網(wǎng)關(guān),確保路由可達(dá)。IPSAN網(wǎng)絡(luò)不通問(wèn)題案例分享問(wèn)題描述某局點(diǎn),Windows2003服務(wù)器通過(guò)iSCSI連接存儲(chǔ),在Initiator軟件添加目標(biāo)端,報(bào)“ConnectionFailed.”錯(cuò)誤。分析原因檢查服務(wù)器端配置,可以ping通存儲(chǔ)目標(biāo)端IP地址;檢查存儲(chǔ)端配置正常,Raid組和映射沒(méi)有問(wèn)題;檢查交換機(jī)配置,服務(wù)器和存儲(chǔ)在同一個(gè)VLAN;檢查防火墻配置,發(fā)現(xiàn)防火墻沒(méi)有開(kāi)放3260端口;解決步驟在防火墻上開(kāi)放服務(wù)器和存儲(chǔ)間3260端口驗(yàn)證恢復(fù)在Initiator軟件重新添加目標(biāo)端并掃描磁盤(pán)成功IPSAN網(wǎng)絡(luò)不通問(wèn)題案例分享問(wèn)題描述某局點(diǎn)客戶(hù)無(wú)法通過(guò)iSCSI掛載硬盤(pán)。通過(guò)執(zhí)行iscsiadm-mdiscovery-tst-ptargetip命令可以發(fā)現(xiàn)啟動(dòng)器名稱(chēng),但是執(zhí)行iscsiadm–mnode–ptargetip–l命令卻無(wú)法login,提示iscsi驅(qū)動(dòng)有問(wèn)題。S2600V1R5,操作系統(tǒng)版本為RedHat5.0分析原因執(zhí)行iscsiadm-mdiscovery-tst-ptargetip可以發(fā)現(xiàn)啟動(dòng)器名稱(chēng)。執(zhí)行iscsiadm–mnode–ptargetip–l卻無(wú)法login。由此得出結(jié)論:openiscsi版本不一致導(dǎo)致S2600無(wú)法通過(guò)iSCSI連接到應(yīng)用服務(wù)器解決步驟安裝RedHat5.0第一張光盤(pán)里的openiscsi安裝包。安裝完成后,執(zhí)行iscsiadm–mnode–ptargetip–l命令使啟動(dòng)器生效。實(shí)驗(yàn)9-1:FCSAN網(wǎng)絡(luò)故障診斷實(shí)驗(yàn)實(shí)驗(yàn)內(nèi)容與目標(biāo)完成本實(shí)驗(yàn),您應(yīng)該能夠:掌握FCSAN交換端口/Zone/鏈路等異常問(wèn)題診斷和處理方法實(shí)驗(yàn)時(shí)間1h實(shí)驗(yàn)硬件、軟件版本與組網(wǎng)本實(shí)驗(yàn)一臺(tái)裝有SuSE10的服務(wù)器,通過(guò)1根FC光纖線分別連接到NS2120光纖交換機(jī),存儲(chǔ)設(shè)備選S2600或S5000R5,通過(guò)2跟光纖線分別連接到兩臺(tái)SNS2120光纖交換機(jī),服務(wù)器和存儲(chǔ)組成了多路徑FCSAN網(wǎng)絡(luò)。實(shí)驗(yàn)9-2:IPSAN故障診斷實(shí)驗(yàn)實(shí)驗(yàn)內(nèi)容與目標(biāo)完成本實(shí)驗(yàn),您應(yīng)該能夠:掌握IPSAN網(wǎng)卡/VLAN等異常問(wèn)題診斷和處理方法實(shí)驗(yàn)時(shí)間1h實(shí)驗(yàn)硬件、軟件版本與組網(wǎng)本實(shí)驗(yàn)一臺(tái)裝有SuSE10的服務(wù)器,通過(guò)1根網(wǎng)線分別連接到GE交換機(jī),存儲(chǔ)選S2600或S5000R5,通過(guò)2跟網(wǎng)線分別連接到GE交換機(jī),服務(wù)器和存儲(chǔ)組成了多路徑IPSAN網(wǎng)絡(luò)。目錄SAN存儲(chǔ)系統(tǒng)故障處理基礎(chǔ)SAN存儲(chǔ)陣列故障診斷與排除SAN存儲(chǔ)網(wǎng)絡(luò)故障診斷與排除SAN存儲(chǔ)主機(jī)軟件與主機(jī)側(cè)故障診斷與排除4.1SAN存儲(chǔ)系統(tǒng)主機(jī)側(cè)故障診斷基礎(chǔ)4.2主機(jī)故障診斷流程和信息收集4.3主機(jī)故障診斷和排除存儲(chǔ)主機(jī)側(cè)故障分類(lèi)和定義多路徑安裝失敗

多路徑包異常安裝失敗、安裝環(huán)境異常、兼容性問(wèn)題安裝失敗。多路徑failover異常多路徑組網(wǎng)情況下,一條路徑故障后,failover失敗,業(yè)務(wù)受影響。多路徑failback異常多路徑failover后,多路徑無(wú)法成功failback的故障與win/linux/AIX主機(jī)兼容性問(wèn)題主機(jī)軟件與OS含補(bǔ)丁版本、HBA含驅(qū)動(dòng)、iSCSI驅(qū)動(dòng)、存儲(chǔ)系統(tǒng)軟件間的兼容性問(wèn)題和版本配套不合理帶來(lái)的問(wèn)題。目錄SAN存儲(chǔ)系統(tǒng)故障處理基礎(chǔ)SAN存儲(chǔ)陣列故障診斷與排除SAN存儲(chǔ)網(wǎng)絡(luò)故障診斷與排除SAN存儲(chǔ)主機(jī)軟件與主機(jī)側(cè)故障診斷與排除4.1SAN存儲(chǔ)系統(tǒng)主機(jī)側(cè)故障診斷基礎(chǔ)4.2主機(jī)故障診斷流程和信息收集4.3主機(jī)故障診斷和排除主機(jī)側(cè)與主要軟件故障診斷流程Window平臺(tái)下Ultrapath狀態(tài)查詢(xún)命令Windows2003/2008下多路徑查詢(xún)命令命令功能upadm.exeverson顯示版本信息。upadm.exeshowdiskMap磁盤(pán)映射信息。upadm.exeshowarray服務(wù)器連接的陣列信息。upadm.exeshowarrayCtrl服務(wù)器連接控制器信息。upadm.exeshowlunIo虛擬LUNIO統(tǒng)計(jì)信息upadm.exeshowlunScsi顯示虛擬LUN詳細(xì)信息。upadm.exeshowconfig查詢(xún)多路徑配置信息Windows7/Solaris下多路徑查詢(xún)命令命令功能upadmhelp顯示幫助信息upadmshowversion查詢(xún)版本信息upadmshowarrays查詢(xún)連接的陣列信息upadmshowvluns所有映射的LUN信息。upadmshowvlunid=<ID1,ID2,...>查詢(xún)指定LUN的信息upadmshowluntrespass查看當(dāng)前LUN切換功能的狀態(tài)Linux平臺(tái)下Ultrapath常用命令Liunx常用命令列表命令功能up_esn查看設(shè)備序列號(hào)信息upadmhelp查看簡(jiǎn)要幫助信息。upadmchconfig檢查系統(tǒng)相關(guān)配置。upadmshowpath查看路徑信息。upadmshowarray查看管理的陣列信息。upadmshowversion查看版本信息。upadmshowconnectarray查看連接到服務(wù)器上的所有存儲(chǔ)系統(tǒng)信息upadmshowiostatarray=array_id{lun=lun_idinterval=seconds}查看IO性能統(tǒng)計(jì)upadmstarthotscan動(dòng)態(tài)識(shí)別LUNupadmstartfailback手動(dòng)啟動(dòng)Failback功能upadmstartforcerebalance強(qiáng)制切換LUN的工作控制器為歸屬控制器AIX平臺(tái)下Ultrapath狀態(tài)查詢(xún)命令A(yù)IX平臺(tái)下Ultrapath狀態(tài)查詢(xún)命令命令功能upadmhelp顯示簡(jiǎn)要幫助信息。upadmshowversion查詢(xún)軟件版本信息。upadmshowdaemon查詢(xún)守護(hù)進(jìn)程運(yùn)行狀態(tài)。upadmshowoption查看可配置選項(xiàng)。cfgmgr掃描硬盤(pán)。lspv查看硬盤(pán)的概要信息。upadmshowlun[dev=updiskxx]查看虛擬硬盤(pán)的詳細(xì)信息。lspath-F查看硬盤(pán)的路徑信息。lspath查看路徑的優(yōu)先級(jí)屬性。主機(jī)信息收集-Windows平臺(tái)(1/4)準(zhǔn)備主機(jī)側(cè)信息收集工具,并上傳到主機(jī)側(cè)。雙擊”HostInfoTools-1.4.EXE”。信息收集完成后收集到的信息包將會(huì)自動(dòng)彈出,在C:\WINDOWS\Upreports\collection\ZIP目錄下,壓縮包名稱(chēng)為:XXXX_20111205_1727_Uprptv31_x86.zip,其中XXXX為主機(jī)名。包含下面三個(gè)文件夾。HBAINFO目錄下主要包含主機(jī)HBA卡相關(guān)信息。HOST目錄下主要包含主機(jī)及操作系統(tǒng)相關(guān)信息。UPINFO目錄下主要包含多路徑相關(guān)信息。主機(jī)信息收集-Windows平臺(tái)(2/4)HBAINFO目錄下主要包含主機(jī)HBA卡相關(guān)信息。HBA_INFO.TXT文件包含HBA卡的型號(hào)、Firmware和驅(qū)動(dòng)版本信息。Qlogic_INFO.TXT文件包含HBA卡的相關(guān)配置信息。注:以主機(jī)HBA卡為Qlogic卡為例。主機(jī)信息收集-Windows平臺(tái)(3/4)HOST目錄下主要包含:MEMERY.DMP文件是操作系統(tǒng)藍(lán)屏?xí)r產(chǎn)生的內(nèi)存轉(zhuǎn)儲(chǔ)文件,用于定位系統(tǒng)藍(lán)屏問(wèn)題。Application.evt和APPLACATION_EVENTLOG.TXT文件包含主機(jī)應(yīng)用程序日志信息。System.evt和SYSTEM_EVENTLOG.TXT

文件包含主機(jī)系統(tǒng)日志信息。Winmsd.nfo和winmsd.txt文件包含主機(jī)系統(tǒng)信息。主機(jī)信息收集-Windows平臺(tái)(4/4)UPINFO目錄下主要包含:cfg文件夾主要包含多路徑的相關(guān)配置文件Log文件夾主要包含多路徑相關(guān)的日志文件InstallationLog.txt文件包含多路徑的安裝和卸載日志信息。UPLOG_x.txt文件包含多路徑的運(yùn)行日志信息,通過(guò)日志里wwn、failover、switchlun、removepending、MPGdeleted!等關(guān)鍵字可以定位LUN的上報(bào)、failover、切換工作控制器、主機(jī)刪除鏈路、主機(jī)刪除虛擬盤(pán)等信息,通過(guò)日志里的check關(guān)鍵字可以定位鏈路IO錯(cuò)誤、超時(shí)以及對(duì)應(yīng)的錯(cuò)誤碼等信息。主機(jī)信息收集-Linux平臺(tái)(1/5)準(zhǔn)備主機(jī)側(cè)信息收集腳本,并上傳到主機(jī)。

腳本文件如下:安裝包目錄\Linux\Tools\HostInfoTools-1.2.sh轉(zhuǎn)換該腳本格式:dos2unixHostInfoTools-1.2.sh,修改腳本權(quán)限為可執(zhí)行:chmod+xHostInfoTools-1.2.sh,執(zhí)行腳本:./HostInfoTools-1.2.sh腳本運(yùn)行完成后,將會(huì)將運(yùn)行該腳本的當(dāng)前目錄下生成output.tar.gz文件,將該文件從主機(jī)上下載下來(lái)。主機(jī)信息收集-Linux平臺(tái)(2/5)注:以主機(jī)HBA卡位Qlogic卡為例。解壓output.tar.gz后,文件內(nèi)容如下:主機(jī)信息收集-Linux平臺(tái)(3/5)ARRAY_INFO.txt主機(jī)到陣列控制器上路徑條數(shù)、路徑好壞信息。與主機(jī)相連所有陣列陣列信息、陣列上LUN信息和控制器信息。FS_INFO.txtscsi設(shè)備信息、磁盤(pán)掛載信息、磁盤(pán)容量信息等。HARDWARE_INFO.txtCPU信息。內(nèi)存信息。PCI信息。HBA_INFO.txtHBA卡信息,比如版本號(hào)等。主機(jī)信息收集-Linux平臺(tái)(4/5)HISTORY.txt控制臺(tái)歷史命令信息。LOG_INFO.txt主機(jī)message日志。MENULST_INFO.txt主機(jī)menu.lst信息。MPP_INFO.txt物理LUN設(shè)備IO統(tǒng)計(jì)、設(shè)備狀態(tài)、控制器狀態(tài)等。虛擬LUN設(shè)備IO統(tǒng)計(jì)。OS_TYPE_INFO.txt主機(jī)版本、內(nèi)核版本、系統(tǒng)位數(shù)、主機(jī)名等。主機(jī)信息收集-Linux平臺(tái)(5/5)PROC.txt/proc/mpp目錄下陣列信息,包括控制器信息、主機(jī)到控制器的路徑信息、物理LUN和虛擬LUN信息。SOFTWARE_INFO.txt已經(jīng)安裝的RPM包列表。已經(jīng)加載的模塊列表,可以查看是否加載多路徑模塊。UP_INFO.txt多路徑版本號(hào)信息。upUpper.ko和upVhba.ko多路徑內(nèi)核模塊。主機(jī)信息收集-AIX平臺(tái)(1/2)解壓HostInfoTools-1.3.tar后,當(dāng)前目錄結(jié)構(gòu)如下:確認(rèn)確定此目錄下的文件具有可執(zhí)行權(quán)限chmod–R+xdirName運(yùn)行:./HostInfoTools-1.3.sh,運(yùn)行完畢后當(dāng)前目錄結(jié)構(gòu)如下:其中收集的信息備份在outputs目錄中,其為壓縮包:主機(jī)信息收集-AIX平臺(tái)(2/2)將收集的信息拷貝到windows上,解壓后目錄結(jié)構(gòu)如右:Aix_UltraPath目錄中文件如下

:主機(jī)軟件信息收集-HostAgentHostAgent軟件由下面組件組成:ConsistenAgent、InbandAgent、Hypermanager,各組件的日志如下:ConsistentAgent:收集其安裝目錄下的log文件夾下的所有文件和對(duì)應(yīng)的所有的.log文件。InbandAgent:收集其安裝目錄下的log文件下的所有文件和bi下的InbandAgent.log文件。HyperManager:收集其安裝目錄下的.log文件。

目錄SAN存儲(chǔ)系統(tǒng)故障處理基礎(chǔ)SAN存儲(chǔ)陣列故障診斷與排除SAN存儲(chǔ)網(wǎng)絡(luò)故障診斷與排除SAN存儲(chǔ)主機(jī)軟件與主機(jī)側(cè)故障診斷與排除4.1SAN存儲(chǔ)系統(tǒng)主機(jī)側(cè)故障診斷基礎(chǔ)4.2主機(jī)故障診斷流程和信息收集4.3主機(jī)故障診斷和排除存儲(chǔ)主機(jī)側(cè)典型故障診斷4.3.1多路徑安裝失敗問(wèn)題4.3.2多路徑運(yùn)行過(guò)程問(wèn)題(failover/failback異常)4.3.3與Win/Linux/AIX主機(jī)兼容性問(wèn)題4.3.4HostAgent部署異常問(wèn)題多路徑安裝失敗問(wèn)題診斷forWindows多路徑安裝失敗問(wèn)題處理for

Windows序號(hào)問(wèn)題解決方案1多路徑重復(fù)安裝,安裝時(shí)提示“已安裝”1在注冊(cè)表中存在殘留安裝信息,搜索‘UltraPath’關(guān)鍵字的注冊(cè)項(xiàng),刪除注冊(cè)表中UltraPath相關(guān)的鍵值。2刪除當(dāng)前安裝程序中的UltraPathforWindows,重新安裝2安裝時(shí)提示reg.exe未安裝1系統(tǒng)文件reg.exe丟失,在安裝盤(pán)SUPPORT\TOOLS下運(yùn)行Setup.exe,資源工具包的安裝,安裝reg.exe注冊(cè)表程序2由于在資源工具包的安裝過(guò)程中,程序自動(dòng)將資源工具包的路徑添加到WindowsXP的“PATH”變量下,因此安裝完成后,用戶(hù)可以直接在DOS命令行下運(yùn)行reg.exe;3安裝提示沒(méi)有環(huán)境變量可能出現(xiàn)用戶(hù)手動(dòng)修改環(huán)境變量時(shí)刪除了系統(tǒng)的環(huán)境變量,在系統(tǒng)環(huán)境變量Path的值中添加“%SystemRoot%\system32;%SystemRoot%;”重新安裝。4SANboot場(chǎng)景安裝多路徑出現(xiàn)藍(lán)屏或其他環(huán)境出現(xiàn)藍(lán)屏1、多數(shù)情況屬于OS系統(tǒng)未安裝SP1/SP2補(bǔ)丁,先安裝SP1/SP2補(bǔ)丁以后再安裝多路徑。2、如果系統(tǒng)已經(jīng)安裝SP1/SP2補(bǔ)丁,則需要分析藍(lán)屏?xí)r產(chǎn)生的MEMERY.DMP文件,確認(rèn)藍(lán)屏發(fā)生的原因。多路徑安裝失敗問(wèn)題診斷forLinux多路徑安裝失敗問(wèn)題處理forLinux

序號(hào)問(wèn)題解決方案1安裝時(shí)提示多路徑已安裝該主機(jī)已經(jīng)安裝了多路,先卸載再安裝。1、執(zhí)行rpm-qUltraPath查詢(xún)已安裝的多路徑版本。2、卸載舊版本的多路徑。例如,執(zhí)行rpm-eUltraPath。3、安裝新版本的多路徑。例如,執(zhí)行rpm-ivhUltraPath*.rpm。如果不能解決問(wèn)題,執(zhí)行rpm-e-allmatchesXXX.rpm,清除與多路徑相關(guān)的文件,重新安裝。2使用光盤(pán)安裝報(bào)錯(cuò),提示找不到安裝源(安裝路徑問(wèn)題)1、將光盤(pán)中的多路徑安裝包拷貝到OS系統(tǒng)其它目錄下。2、將小寫(xiě)的路徑名稱(chēng)修改為正確路徑名(區(qū)分大小寫(xiě)),再重新安裝。3安裝時(shí)提示安裝rpm包Error檢查多路徑安裝包格式是否為正確,執(zhí)行dos2unixXXX.rpm或者重新獲取原始格式的多路徑安裝包。多路徑安裝失敗問(wèn)題處理forLinux

序號(hào)問(wèn)題解決方案4多路徑查詢(xún)或卸載失敗rpm管理器失敗可能出現(xiàn)rpm數(shù)據(jù)庫(kù)損壞,執(zhí)行rpm-rebuilddb,修復(fù)rpm數(shù)據(jù)庫(kù),重新執(zhí)行查詢(xún)或者卸載。5重啟系統(tǒng)后多路徑?jīng)]有自動(dòng)加載1、查看/boot/grub/menu.lst文件中,確定存在多路徑啟動(dòng)選項(xiàng)“LinuxwithUltraPath”并且default的值指向該多路徑啟動(dòng)選項(xiàng)“LinuxwithUltraPath”。如果不是,則先卸載掉多路徑,修改/boot/grub/menu.lst,把default的指向值改為default0,再重新安裝多路徑。2、確定/boot/grub/menu.lst文件中“LinuxwithUltraPath”啟動(dòng)項(xiàng)中“initrd(hd0,5)/boot/mpp-***-smp.img”中的文件“mpp-***-smp.img”在本地硬盤(pán)的/boot目錄下存在。多路徑安裝失敗問(wèn)題診斷(AIX)多路徑安裝失敗問(wèn)題處理forAIX序號(hào)問(wèn)題解決方案1安裝失敗,bin用戶(hù)被屏蔽1、檢查/etc/passwd,去掉“#bin:*:8:2::/bin:/usr/bin/ksh”的#。2、沒(méi)有bin用戶(hù)時(shí),需手動(dòng)添加bin用戶(hù)。2bosboot驗(yàn)證未通過(guò)跳過(guò)bosboot校驗(yàn)方式安裝1、將/usr/sbin/下備份bosboot文件為bosboot.bak,修改bosboot在第二行添加exit02、成功安裝多路徑以后,恢復(fù)bosboot文件。參見(jiàn)案例。多路徑安裝失敗診斷總結(jié)對(duì)于多路徑安裝失敗,務(wù)必要有正確的診斷思路:首先確認(rèn)是否存在兼容性問(wèn)題。根據(jù)多路徑安裝失敗提示,檢查OS系統(tǒng)環(huán)境和配置參數(shù)。查看多路徑安裝日志信息,查看安裝日志信息診斷。參考多路徑升級(jí)指導(dǎo)書(shū)(一般在多路徑軟件包中有多路徑升級(jí)指導(dǎo)),制定安裝方案以及安裝失敗時(shí)的補(bǔ)救措施。多路徑安裝失敗案例分享描述問(wèn)題AIX主機(jī),安裝多路徑軟件時(shí)提示如下錯(cuò)誤:0503-409installp:

bosbootverificationstarting...0503-497installp:

Anerroroccurredduringbosbootverificationprocessing.ERROR:installfailed!pleaseaccordingtoerrorinfotocheck!原因分析bosboot驗(yàn)證未通過(guò),該命令用于保存磁盤(pán)的設(shè)備配置數(shù)據(jù).“bosboot:/unixand/usr/lib/boot/unixmustlinktothesamekernelfile.”,即/unix和/usr/lib/boot/unix指向的必須是

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論