




已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
IBM P系列小型機日常維護/故障定位/故障排除手冊1. 機房環(huán)境及物理檢查1.1. 機房內(nèi)環(huán)境要求1.1.1. 溫度與濕度:最佳工作溫度:20-25攝氏度極限工作溫度:10-40攝氏度 濕度: 8-80%(在23攝氏度條件下)如果不是工作在最佳溫度,請注意改善機房環(huán)境1.1.2. 機房要保證清潔.機房應(yīng)保持清潔,若空氣灰塵過多,很容易造成資源讀寫錯誤及磁盤機中磁盤或讀寫磁頭毀損。1.1.3. 電源要求電 壓: 要求電壓穩(wěn)定, 尖峰電壓會損壞設(shè)備電壓范圍: 220V +/- 10%, 即200-240V, 50-60Hz電源功率: 視機器類型和系統(tǒng)配置而定電源線 : 標準的零, 地, 火三相電, 其中零, 地電壓不得超過1.0V.電源接駁: 用符合電流要求的空氣開關(guān)或其他設(shè)備和主機電源線接駁,保證計算機系統(tǒng)的可靠工作應(yīng)使用穩(wěn)壓電源和UPS,并建議配備發(fā)電機組;對于冗于電源的接入,建議采用兩路單獨輸入.1.2. 硬件檢查檢查服務(wù)器、磁陣的安裝、電源線、7133和主機接線符合要求。1.3. 服務(wù)器狀態(tài)檢查及其相關(guān)命令1.3.1. 外觀狀態(tài)檢查:1. 當服務(wù)器處于啟動和正常工作狀態(tài)時,其前面板上的液晶顯示屏上應(yīng)無信息顯示。2. 當液晶顯示器上出現(xiàn)帶數(shù)字和字母的信息時,說明有硬件告警??梢酝ㄟ^查詢相關(guān)機型的Service Guide查到相應(yīng)告警原因,情況嚴重的,則要立即通知IBM技術(shù)專家進行問題排查。1.3.2. 命令狀態(tài)檢查1、運行l(wèi)sdev 命令配以各種參數(shù),所列各種設(shè)備狀態(tài)都應(yīng)為Available。#lsdev C H S a 列出系統(tǒng)中可用設(shè)備。#lsdev Cc processor 列出系統(tǒng)中的所有CPU。#lsdev Cc memory 列出系統(tǒng)中的所有內(nèi)存。#lsdev Cc disk 列出系統(tǒng)中的所有硬盤。#lsdev -Cc adapter | grep ent 列出系統(tǒng)中的所有網(wǎng)卡#lsdev -Cc adapter | grep scsi 列出系統(tǒng)中的所有SCSI卡。#lsdev -Cc adapter | grep ssa 列出系統(tǒng)中的所有SSA卡。2、lspv命令#lspv 顯示系統(tǒng)中可用的PV。#lspv hdiskn 顯示hdiskn的具體信息。#lsdev Cc pdisk 顯示磁盤陣列的硬盤的具體信息。對SSA硬盤的檢測:在對主機進行工作之前可以先把磁盤陣列上電,等主機完全啟動后,登錄到主機上,運行以下命令“ lsdev Cc pdisk “,應(yīng)該可以看到所有SSA硬盤,并且狀態(tài)應(yīng)為Available.。3、 lsattr命令# lsattr E l mem0 列出系統(tǒng)中內(nèi)存mem0的大小,本項目中內(nèi)存有4GB。4 、lsvg命令#lsvg 列出系統(tǒng)中所有的vg。#lsvg rootvg 列出rootvg的詳細信息。#lsvg o 列出激活的vg5、 oslevel命令#oslevel 顯示操作系統(tǒng)版本信息。6、 netstat命令#netstat in 顯示系統(tǒng)中各網(wǎng)卡的配置。可查看網(wǎng)卡的IP配置好了沒有。7、 # diag 命令通過運行# diag 命令運行硬件診斷程序檢測主機內(nèi)所有硬件,檢測結(jié)果為 “No trouble found ”顯示各部分工作正常。8、 使用#diag命令(選擇:Task Selection- SSA Service Aids)對SSA硬盤鏈路連接的校驗,可以通過SSA 工具里的Link Verification 來檢測。如有必要,可以用 Certify Disk運行硬盤診斷部分進行硬盤的表面分析測試 ,由1% 至100%,檢測結(jié)果顯示主機內(nèi)置硬盤的所有扇區(qū)均讀寫正常。9、 lsps a 查看PAGING SPACE的使用情況如果使用率超過70%,就需要采取措施。10、 lsvg o | lsvg il | grep i stale查看有無stale的lv,如果輸入該命令之后有輸出結(jié)果,就需要采取措施11、 有否發(fā)給root用戶的錯誤報告(mail)。12、 檢查雙機狀態(tài)lssrc g cluster 檢查ha三個工作進程是否激活,/usr/sbin/cluster/clstat a檢查雙機狀態(tài)是否up,并檢查hacmp.out日志,看是否有異常信息。13、 用vmstat, topas,sar 命令檢查系統(tǒng)性能檢查cpumemoyrIO ,是否存在性能瓶頸。14、 檢查能否順利進入CDE界面如果不能進入的話,要檢查/etc/hosts表中有否錯誤的項目。15、 用smitty ssaraid 查看磁盤陣列RAID盤的狀態(tài)是否是Good。如果是degrade或其他狀態(tài)表示RAID盤出現(xiàn)問題了16、 用sysdumpdev l 查看系統(tǒng)的DUMP設(shè)置是否正常。17、 用instfix ik | grep ML當前操作系統(tǒng)補丁版本補丁程序(PTF)是否滿足穩(wěn)定運行的需要。一般要求433操作系統(tǒng)補丁要打到10以上,5.1操作系統(tǒng)補丁要打到5以上18 、使用df kP查看磁盤空間占用率請確保以下文件系統(tǒng)的占用率高于80%立即上報: / /var /usr /home /tmp /zxindata/zxinbak,其余文件系統(tǒng)的占用率高于95%立即上報也可以到各文件系統(tǒng)下使用組合命令:find . size +2048 o ctime 1 exec ls l ; 查出大于1M或一天之內(nèi)修改過的文件。19、系統(tǒng)性能 內(nèi)存:svmon、lsps -a Cpu :sar 硬盤:iostat 文件系統(tǒng):filemon 其他命令: vmstat、topas、lvmstat20、磁帶機是否需要清洗 /usr/lpp/diagnostics/bin/utape -cd rmt0 n顯示結(jié)果為磁帶機使用的小時數(shù),若大于72小時,則不論磁帶機黃燈是否亮都應(yīng)用清潔帶清洗21、syncd 參數(shù)值: 缺省值:60;范圍:1 到任何正整數(shù)顯示: grep syncd /sbin/rc.boot 或 vi /sbin/rc.boot更改: 更改在下次引導后有效,而且是永久有效。備用方法是使用命令 kill 來終止守護程序syncd 并用命令 /usr/sbin/syncd interval 從命令行重新啟動它。診斷: 當 syncd 正在運行時,文件的 I/O 被阻塞了。調(diào)整: 在缺省級別上,這個參數(shù)幾乎不影響性能。不推薦對這個參數(shù)進行更改。為了保持數(shù)據(jù)完整性對于 HACMP而使 syncd interval 明顯縮小,會導致性能下降。更改命令為: #vi /sbin/rc.boot22、檢查 errdaemon, srcmstr 是否正常運行# ps -ef|grep err# ps -ef|grep src1.4. 性能監(jiān)控與調(diào)優(yōu)通過命令vmstat 1 來觀察.kthr memory page faults cpu- - - - -r b avm fre re pi po fr sr cy in sy cs us sy id wa命令解析:vmstat 命令的輸出可以反映系統(tǒng)整體運行狀況,包括cpu、內(nèi)存、虛擬頁面、系統(tǒng)進程和系統(tǒng)調(diào)用情況。檢查CPU是否為瓶頸,分別檢查CPU的四項數(shù)值和kthr的兩項數(shù)值.檢查MEM是否為瓶頸,分別檢查Memory的兩項數(shù)值和Page 的六項數(shù)值.命令解析: sar可以用來收集反映系統(tǒng)運行狀況,在這里主要是查看CPU的運行狀況,CPU是否負載均衡,是否存在分配不均的情況。通過命令ps gv | more來觀察。PID TTY STAT TIME PGIN SIZE RSS LIM TSIZ TRS %CPU %MEM COMMAND 0 - A 4:20 7 12 14516 xx 0 14504 0.0 5.0 swapper 1 - A 1:33 103 78952 79044 32768 25 36 0.0 29.0 /etc/init命令解析:ps可以用來查看進程的當前狀態(tài)。在這里通過參數(shù)的配搭,可以觀察目前正在運行的進程所耗的時間,CPU和memory 量.其中,%CPU表示進程所占用的CPU資源情況,%MEM表示進程所占用的內(nèi)存情況。主要檢查是否有標示為的僵尸進程耗用系統(tǒng)資源,以及informix 數(shù)據(jù)庫的oninit進程的系統(tǒng)消耗情況。在機器上用dd命令進行磁盤陣列的寫操作校驗,與此同時用iostat 1 d hdiskX觀察磁盤。Disks: % tm_act Kbps tps Kb_read Kb_wrtn命令解析: iostat可以用來查看系統(tǒng)的 I/O的輸入輸出情況,在這里主要查看陣列上的硬盤的每秒讀寫量,同時估算磁盤陣列讀寫速度HHhHhh 通過命令netstat a 進行查看。Active Internet connections (including servers)Proto Recv-Q Send-Q Local Address Foreign Address (state)命令解析: netstat可以用來查看系統(tǒng)的網(wǎng)絡(luò)情況,在這里主要是查看網(wǎng)絡(luò)客戶端連接的情況和開銷,檢查參數(shù)為state,如有死連接,state狀態(tài)為fin_wait, 這樣耗用系統(tǒng)網(wǎng)絡(luò)資源,從而導致網(wǎng)絡(luò)性能下降構(gòu)成瓶頸。1.5. 安全工作守則a.系統(tǒng)定期進行系統(tǒng)備份,系統(tǒng)盤建議鏡像。b.當有系統(tǒng)變更或進行操作系統(tǒng)補丁安裝的時候,必須作一次系統(tǒng)備份。c.在7133和shark發(fā)現(xiàn)有硬盤故障的時候,請?zhí)嵝芽蛻糇⒁猱斕斓臄?shù)據(jù)備份。在更換硬盤的時候,請確認當天數(shù)據(jù)備份已經(jīng)完成。d.在更換敏感的電子元件,時候一定要防靜電。e.在插拔外圍設(shè)備的時候,請把外圍設(shè)備下電。f.在進行主機微碼升級時候,請留意微碼的完整性。 g.在進行文件刪除的時候,請留意當前路徑是否正確。h.在進行文件解壓縮的時候,請留意參數(shù)和路徑。2. 系統(tǒng)日常維護流程2.1. 系統(tǒng)啟動系統(tǒng)啟動正常順序如下:首先對外設(shè)(磁盤陣列、磁帶庫等)加電。待所有外設(shè)加電自檢完成后, 主機加電正常起機。主機加電后,系統(tǒng)進行自檢,在液晶顯示屏顯示”ok”后,才能按白色POWER鍵起機.啟動主機HACMP,啟動后可用命令 tail -f /tmp/hacmp.out 來檢查啟動情況,在HACMP未完全啟動前不要進行下一步。檢查服務(wù)器的網(wǎng)絡(luò)地址,路由表(可用netstat -i , netstat -rn 等),檢查文件系統(tǒng),邏輯卷(可用 mount , lsvg -o 等)。檢查各項應(yīng)用是否工作正常。2.2. 系統(tǒng)關(guān)閉停止HACMP ( smitty clstop)。查看HACMP的狀態(tài),檢查服務(wù)器的網(wǎng)絡(luò)地址,路由表(可用netstat -i , netstat -rn 等),檢查文件系統(tǒng),邏輯卷(可用 mount , lsvg -o 等)。在HACMP未完全停止前不要進行下一步。關(guān)閉主機 (shutdown F)。重啟系統(tǒng)可以使用:shutdown -Fr如有必要的話,按磁盤陣列前方的白色按鈕關(guān)閉磁盤陣列。2.3. 查看系統(tǒng)的錯誤記錄在系統(tǒng)運行時,一些系統(tǒng)錯誤會記錄在errlog 中,其中有些錯誤還會在終端上顯示。檢查錯誤日志可用以下命令:#errpt|more 查看系統(tǒng)所有的記錄IDENTIFIER TIMESTAM P T C RESOURCE_NAME DESCRIPTIONE85C5C4C 0426104399 P S CFGLFT SOFTWARE PROGRAM ERROR2BFA76F6 0426104099 T S SYSPROC SYSTEM SHUTDOWN BY USER9D4CF6E7 0426104399 T O errdemon ERROR LOGGING TURNED ON1E2AC07E 0426103999 T O errdemon ERROR LOGGING TURNED OFF1E5EER4T 0423132999 T O clstrmgr OPERATOR NOTIFICATION 其中IDENTIFIER 為錯誤編號,當需要檢查詳細信息時常會用到。TIME STAMP 為時間標簽,它記錄的是出錯時間,其格式:月月日日時時分分年年T 為Type , 它記錄的是錯誤類型P :為永久錯誤,需引起注意T :為臨時錯誤。C 為Class, 它記錄的是錯誤種類,如H : HardwareS : SoftwareO : Errloger command messagesU : undeterminedRESOURCE_NAME 為錯誤來源DESCRIPTION 為錯誤描述#errpt -aj 查看系統(tǒng)詳細記錄內(nèi)容其中IDENTIFIER為錯誤編號,如 #errpt -aj 0426104399#errpt -dH 查看系統(tǒng)所有的硬件出錯記錄2.4. 系統(tǒng)與數(shù)據(jù)備份有效及時的系統(tǒng)備份是系統(tǒng)管理的非常重要的一環(huán)。當系統(tǒng)出現(xiàn)故障時,特別是文件系統(tǒng)被嚴重損壞或硬盤損壞時,常需要使用系統(tǒng)備份來恢復系統(tǒng)。在以下情況下應(yīng)做系統(tǒng)備份:1、新裝機。在硬件及系統(tǒng)軟件安裝完成后,應(yīng)做系統(tǒng)備份。2、軟件改動。系統(tǒng)軟件或應(yīng)用軟件有改動時,應(yīng)做系統(tǒng)備份。3、定期備份。對系統(tǒng)進行定期備份,最好每兩或三個月做一次備份備份注意事項:進行系統(tǒng)備份無須停止業(yè)務(wù),業(yè)務(wù)可以繼續(xù)進行。建議客戶進行定期的系統(tǒng)備份(使用命令smitty mksysb)??蛻粢部筛鶕?jù)需要利用SMIT對系統(tǒng)的特定的VG或FS進行備份。smitty mksysb只備份rootvg中mount起來的文件系統(tǒng),其它文件系統(tǒng)或數(shù)據(jù)并沒有做備份,所以數(shù)據(jù)備份需要另外完成(建議客戶使用TAR格式)在條件允許的情況下,最好有一盤以上備份帶,以防止磁帶損壞。 系統(tǒng)備份過程中有時候會提示有些/tmp目錄下的文件無法備份,顯示如下:Creating list of files to back up.Backing up 34025 files.1694 of 34025 files (4%).2733 of 34025 files (8%).backup: 0511-449 An error occurred accessing ./tmp/sh34736.1: A file or directory in the path name does not exist.backup: 0511-449 An error occurred accessing ./tmp/sh34736.2: A file or directory in the path name does not exist.backup: 0511-449 An error occurred accessing ./tmp/sh34736.3: A file or directory in the path name does not exist.15458 of 34025 files (45%).31920 of 34025 files (93%).0512-003 mksysb may not have been able to archive some files.The messages displayed on the Standard Error contained additionalinformation.這是正?,F(xiàn)象,備份成功。2.5. 系統(tǒng)恢復當系統(tǒng)發(fā)生比較嚴重的故障以致采取一般性維護手段不能在短期內(nèi)恢復原系統(tǒng),在與客戶進行蹉商后,可將最近一次的系統(tǒng)備份帶倒回機器內(nèi)以全面恢復系統(tǒng)到最近一次做備份時的系統(tǒng)環(huán)境,然后可將當日的數(shù)據(jù)備份再倒回系統(tǒng)內(nèi)。至此,系統(tǒng)可恢復正常運行。此后,客戶應(yīng)當與IBM工程師再進行整個事件的全面分析與回顧,以期找到故障發(fā)生的原因,并采取相應(yīng)措施以杜絕類似事件再次發(fā)生。2.6. DUMP當系統(tǒng)運行出現(xiàn)軟件故障導致系統(tǒng)down機時,機器的液晶顯示器會出現(xiàn) 888 102 xxx 0c0 (xxx可能為700或其它),AIX常會將當時系統(tǒng)的運行情況記錄下來,這就是DUMP。當DUMP產(chǎn)生后,請將磁帶放入磁帶機,用命令 # snap -a -o /dev/rmt0將DUMP 文件拷貝到磁帶設(shè)備/dev/rmt0 中。注明磁帶機的block size, DUMP產(chǎn)生的日期和機器的型號及序列號。同時,請用# errpt -a /tmp/err.log 將errorlog 記在/tmp/err.log中,并將 /tmp/err.log 和 /tmp/hacmp.* 拷貝到軟盤或磁帶上。將磁帶和軟盤交給IBM工程師。3. 故障定位、故障排除根據(jù)我們在實際商用系統(tǒng)中碰到問題,我們總結(jié)出了以下幾種常見故障及其定位方式和解決方法。3.1. 硬件故障硬件故障有很多種,對系統(tǒng)產(chǎn)生的影響也不一樣,這里按其故障對系統(tǒng)的影響程度分:致命影響的硬件故障和只影響功能的硬件故障兩類進行硬件分類:其損壞對系統(tǒng)產(chǎn)生致命影響(將使機器宕機或無法啟動)的硬件包括:主板、CPU、I/O柜(包含本地盤、光驅(qū)、PCI插槽等的柜子)或CEC柜(包含CPU/MEMORY等的柜子)、I/O柜與CEC柜的接線、電源模塊、風扇、本地硬盤、內(nèi)存損壞等等注:I/O柜和CEC柜一般在比較高端的小型機才有,如M80,低端的是合一的。這些設(shè)備的損壞等將使系統(tǒng)無法完成自檢、引導和啟動,液晶顯示屏上都將有錯誤信息,可根據(jù)液晶顯示屏上的錯誤碼對照Service Guide查的錯誤原因,如果是工作狀態(tài)下出現(xiàn)這些硬件損壞,則系統(tǒng)將被掛起或宕機。其損壞對僅對系統(tǒng)產(chǎn)生功能影響(機器不會宕機并能正常啟動)的硬件包括:網(wǎng)卡、本地硬盤有壞塊、顯卡、SSA卡和其他外圍設(shè)備這些設(shè)備的損壞只影響特定功能,如網(wǎng)絡(luò)功能、顯示功能、訪問磁陣的功能等,對于本地硬盤有壞塊的情況,則要看壞塊中是否包含了重要的系統(tǒng)文件,如果不是重要系統(tǒng)文件,則系統(tǒng)功能不受影響,但也建議立即更換該硬盤。故障定位和排除:以上硬件故障信息都可以使用:液晶屏上的錯誤碼或:errpt dH 查看到根據(jù)錯誤碼確定是什么硬件出了故障,對商用系統(tǒng)來講,由于是雙機系統(tǒng),如果損壞機器是主機可以將此服務(wù)器切換成備機,然后修復故障機器,恢復系統(tǒng)。3.2. 磁陣故障磁陣引起的故障是目前碰到的最頻繁、危害最大的故障,據(jù)不完全統(tǒng)計,其故障覆蓋到總故障的70%以上,具體來講,可能引起磁陣故障的環(huán)節(jié)包括:磁陣硬盤、7133柜子、主機上的SSA卡、連接7133與主機的SSA線、硬盤的位置和ssa線的接線方式、以及盤柜使用的電壓及周圍磁場、磁陣/硬盤/ssa卡的微碼等都可能造成7133的異常。7133磁陣的問題是最復雜的,一般有物理損壞的原因也有環(huán)境原因,這是主因,如接線、插盤位置不符合要求、未及時查看系統(tǒng)告警等造成系統(tǒng)中斷等輔因。按照我們的經(jīng)驗,不管是什么硬件故障導致7133故障,系統(tǒng)都會產(chǎn)生告警,如果能及時發(fā)現(xiàn)問題并采取措施,一般都能防止故障的發(fā)生。故障定位:7133硬件故障也可以使用:errpt dH 查看到伴隨的錯誤碼有:B4C00618 0115140004 P H ssa0 RESOURCE UNAVAILABLEFE9E9357 0401082304 P H ssa0 DISK OPERATION ERRORFE9E9357 1205000803 P H pdisk3 DISK OPERATION ERROR03913B94 1122031103 U H LVDD HARDWARE DISK BLOCK RELOCATION ACHIEVED613E5F38 1121125103 P H LVDD I/O ERROR DETECTED BY LVM625E6B9A 0401090004 P H ssa0 ADAPTER DETECTED OPEN SERIAL LINK26CA120B 0206081104 P H ssa0 CACHE STORAGE CARD所有的錯誤碼都預示著7133有異常,紅色部分則表示肯定出現(xiàn)了硬件故障,需要立即進行檢查并采取措施,否則磁陣將很快不能訪問。對于藍色部分:625E6B9A 0401090004 P H ssa0 ADAPTER DETECTED OPEN SERIAL LINK表示ssa出現(xiàn)了開環(huán),出現(xiàn)開環(huán)不僅影響IO性能,也增加了風險,即如果另一個環(huán)路也出現(xiàn)問題,將不能訪問磁陣。開環(huán)一般有兩種情況:1)如果625E6B9A報錯比較頻繁,如每天幾次,則表示系統(tǒng)很有可能出了硬件故障,雖然不會導致訪問磁陣失敗,但需要立即查出原因并解決。查錯方法可以參考下面的描述。2)如果 625E6B9A錯誤偶爾報一次,則要具體情況具體對待,有可能是讀寫忙出現(xiàn)的誤報,也按下面方法進行排查,如果沒有查出具體的原因,則可以繼續(xù)觀察。26CA120B 0206081104 P H ssa0 CACHE STORAGE CARD該錯誤一般是在:SSA卡帶write cache并打開FastWrite,而ssa卡上用于write cache供電的可充電鎳鎘電池達到或接近安全壽命的情況下產(chǎn)生的。這類錯誤產(chǎn)生將影響IO寫性能,并且由于在FastWrite打開的情況下,主備機需要同步ssa卡上的write cache,所以甚至會影響到主備機同步。具體解決方法可參考下文。故障排除:對于紅色部分錯誤的問題排除,一般可以使用diag命令進行進一步診斷:#diag - Task Selection - SSA Service Aids - Link Verification 檢查環(huán)路中是否出現(xiàn)了?的盤符或狀態(tài)不是good的硬盤或使用:#smitty ssaraid - List All Defined SSA RAID Arrays查看磁盤陣列RAID盤的狀態(tài)是否是Good。如果是degrade或其他狀態(tài)表示RAID盤出現(xiàn)問題了這時候不建議再進行單獨硬盤的Certify,而是趕緊通知IBM準備好相同型號和大小的硬盤(至少兩塊)到現(xiàn)場進行進一步的診斷和壞盤更換。625E6B9A 0401090004 P H ssa0 ADAPTER DETECTED OPEN SERIAL LINK的排查方法:1、要求將7133中未插硬盤的槽位全部插上dummy盤。 (dummy盤:啞元盤,就是那個空殼子,相當于代替SSA硬盤裝在磁盤陣列的塑料模型,當磁盤陣列的16個槽位沒有被SSA硬盤插滿時才用到.)2、看看Loop狀態(tài):diag-Task Selection-SSA Service Aids-Link Verification.正常Adapter Port下的兩列數(shù)字是連續(xù)不間斷的排列,且Status都為good,如果Physical列有?符號.或Status不是good,則說明已經(jīng)存在硬盤或鏈路故障,這種情況則要立即采取行動,做進一步檢查以確定是否要更換硬盤。檢查單盤是否有問題的方法如下: diag-Task Selection-SSA Service Aids-Certify Disk 選擇認為存在故障的硬盤進行檢查3、如果7133存在硬件故障時,可從狀態(tài)燈上觀察到:當單塊硬盤出現(xiàn)故障或未被使用時,其面板上的硬盤狀態(tài)燈會不亮 陣列的狀態(tài)燈黃燈會亮 或接SSA線的端口的指示燈也會熄滅如果通過以上三種方法都未發(fā)現(xiàn)問題,而系統(tǒng)仍報Open Serial Link錯誤,建議繼續(xù)跟蹤。26CA120B 0206081104 P H ssa0 CACHE STORAGE CARD的處理方法:背景介紹: IBM小型機上連接7133磁陣所配置的SSA卡一般都帶有一塊充電電池,該電池用于在突然停電的情況下保護ssa卡上的fast write cache中的信息不丟失,這塊電池的安全壽命一般是22000小時,差不多兩年半的時間,也就是說,當fast write模式啟動的情況下,一般兩年半以后需要更換這塊電池。問題表現(xiàn): 對ssa卡上的電池保護是通過卡上的一個計數(shù)器實現(xiàn)的,每運行一小時該計數(shù)器會增加一,當該計數(shù)接近或超過22000時,系統(tǒng)會有26CA120B硬件報警:26CA120B 0206120904 P H ssa1 CACHE STORAGE CARD 可以用如下命令檢查ssa卡上的狀態(tài):(-a 后帶上卡的邏輯設(shè)備名,這里假設(shè)是ssa0) ssa_fw_status -a ssa0 -p (檢查電池已經(jīng)工作的時間,小時為單位) ssa_fw_status -a ssa0 -l (檢查電池安全工作壽命,小時為單位) ssa_fw_status -a ssa0 -c (檢查ssa卡上的fast write功能是否被激活)處理步驟: (按優(yōu)選方式列出,從中選擇一種即可)1)更換電池 選擇系統(tǒng)閑時,更換主備機ssa卡電池,可以采用: 停備機更換備機ssa卡電池起備機(雙機服務(wù))主備倒換 停原主機更換原主機ssa卡電池起原主機(雙機服務(wù))2)如果系統(tǒng)出現(xiàn)26CA120B電池告警,使用ssa_fw_status -a ssa0 -c 檢查主用ssa卡(一般是ssa0)的Fast Write是否處于inactive(未被激活)狀態(tài),如果是,則以root執(zhí)行如下命令: ssa_format -l ssa0 -b errclear 0 /usr/lib/errstop /usr/lib/errdemon 可以暫緩更換電池時間,等有電池后再更換,但這段時間對磁陣讀寫性能會有所影響。3)如果短期內(nèi)不能更換電池,同時主機主用卡的Fast Write仍然處于Active狀態(tài),建議手工屏蔽fast write功能 1)先停止雙機 2)在1號機修改hdisk該屬性: smitty dev-ssa disks-ssa logical disks-change /show characters of . - choose hdisk2 - fast write no 3)在1號機激活卷組 varyonvg zxinvg 4)在1號機去激活卷組 varyoffvg zxinvg 5)在2號機上執(zhí)行 smitty dev-ssa disks-ssa logical disks-change /show characters of . - choose hdisk2 - fast write no 檢查fast write是否已經(jīng)改為no (只要1號機做了2好機就不用再修改了) 6)在2號機上執(zhí)行 rmdev -dl hdisk2 cfgmgr -v 7)在2號機上執(zhí)行 lspv (查看hdisk2是否已找到) 8)然后執(zhí)行 varyonvg zxinvg varyoffvg zxinvg 9)重新啟動雙機對于出現(xiàn)錯誤:B4C00618 0115140004 P H ssa0 RESOURCE UNAVAILABLE而不伴隨其他紅色標出錯誤的情況,則通過以下方式排查:可能是hdisk中將enable user of hot spare打開了,而實際并沒有配置hot spare盤,可以通過如下方式解決:檢查RAID的狀態(tài):#smitty ssaraid list all defined SSA RAID arrays : all are in status good (ssa0 ) 檢查是否配置了hot spare: list/identify SSA Physical disks-List hot spares : none修改每個ssa卡所配置的hdisk的屬性:: set enable use of hot spare to no然后再執(zhí)行:# /usr/lib/errstop# cp /var/adm/ras/errlog /var/adm/ras/errlog.bak#/usr/lib/errdemon#errclear 0對于物理硬盤的接法可參考如下說明:(有可能老局未配置hot spare,則連線方法按未配置hot spare盤的個數(shù)計算)分以下幾種情況講述:1) 數(shù)據(jù)盤小于等于6塊,建議配置一塊hotspare2) 數(shù)據(jù)盤大于等于8塊小于等于10塊,建議配置兩塊hotspare3) 數(shù)據(jù)盤大于等于12塊小于等于14塊,建議配置兩塊hotsparel 數(shù)據(jù)盤小于等于6塊,配置一塊hotspare的接線和配置規(guī)則:a) 主機A1、A2接磁陣1、8位置;備機A1、A2接磁陣4、5位置b) 保證磁陣前排1458硬盤位置一定要插盤,其余的盤可以挑空位插,注意1-4、5-8兩側(cè)的數(shù)據(jù)盤保持軸對稱關(guān)系插入(如1和8是軸對稱的、4和5是軸對稱的)c) 沒有插硬盤的位置一定要插上dummy盤d) 做RAID01時,考慮到性能問題,請將1-4、5-8以軸對稱方式一一對應(yīng)做硬盤鏡像,舉例如下:ibm對pdisk的排序與實際的物理位置是不同的,所以必須先通過lsdev -C |grep pdisk的方式找出其對應(yīng)關(guān)系并記錄下來,如: pdisk0 Available 11-08-1641-01-P SSA160 Physical Disk Drive pdisk1 Available 11-08-1641-05-P SSA160 Physical Disk Drive pdisk2 Available 11-08-1641-04-P SSA160 Physical Disk Drive pdisk3 Available 11-08-1641-08-P SSA160 Physical Disk Drive 看第三列中間字符中有-01-的字樣,表示其物理硬盤位置,以上對應(yīng)關(guān)系表示pdisk0-pdisk3對應(yīng)的物理槽位分別是前排1548的位置,所以在使用smitty ssaraid做RAID0+1時,需將18位置的硬盤(pdisk0/pdisk3)做成鏡像、45位置的硬盤(pdisk2/pdisk1)做成鏡像,所以選擇Primary Disks/Secondary Disks時如下: smitty ssaraid- Add an SSA RAID Array - . Primary Disks 需要選擇:pdisk0 pdisk2 - 14槽位的硬盤作為主盤 Secondary Disks 需要選擇:pdisk3 pdisk1 - 85槽位的硬盤作為從盤 該要求只是從性能考慮,并不增加其他特性。 e) hot spare盤插入位置可以找前排8個位置中的空位插入即可。無特殊位置要求,制作方法如下:使用lsdev -C |grep pdisk方式找出其pdisk號,如pdisk5 然后使用如下方式將其做成hot spare盤。smitty ssaraid-Change Use of Multiple SSA Physical Disks-選擇ssa卡(連接磁陣的ssa卡,缺省為ssa0)-選擇作為hotspare的pdisk,如pdisk6 -New Use-選擇 hot spare 按回車創(chuàng)建即可l 數(shù)據(jù)盤大于等于8塊小于等于10塊,配置兩塊hotspare的接線和配置規(guī)則:a) 主機A1、A2接磁陣1、12位置;備機A1、A2接磁陣8、9位置b) 保證磁陣前排18位置插滿數(shù)據(jù)盤,9-12位置的數(shù)據(jù)盤和hot spare盤位置可任意。c) 沒有插硬盤的位置一定要插上dummy盤d) 做RAID01時,考慮到性能問題,請將1-4、5-8以軸對稱方式一一對應(yīng)做硬盤鏡像,9-12位置中有數(shù)據(jù)盤的,將其對應(yīng)做鏡像,其余兩塊做hot spare,舉例如下:ibm對pdisk的排序與實際的物理位置是不同的,所以必須先通過lsdev -C |grep pdisk的方式找出其對應(yīng)關(guān)系并記錄下來,如: pdisk0 Available 11-08-1641-01-P SSA160 Physical Disk Drive pdisk1 Available 11-08-1641-05-P SSA160 Physical Disk Drive pdisk2 Available 11-08-1641-04-P SSA160 Physical Disk Drive pdisk3 Available 11-08-1641-08-P SSA160 Physical Disk Drive pdisk4 Available 11-08-1641-02-P SSA160 Physical Disk Drive pdisk5 Available 11-08-1641-03-P SSA160 Physical Disk Drive pdisk6 Available 11-08-1641-07-P SSA160 Physical Disk Drive pdisk7 Available 11-08-1641-06-P SSA160 Physical Disk Drive pdisk8 Available 11-08-1641-09-P SSA160 Physical Disk Drive pdisk9 Available 11-08-1641-11-P SSA160 Physical Disk Drive pdisk10 Available 11-08-1641-10-P SSA160 Physical Disk Drive pdisk11 Available 11-08-1641-12-P SSA160 Physical Disk Drive 看第三列中間字符中有-01-的字樣,表示其物理硬盤位置,以上對應(yīng)關(guān)系表示pdisk0-pdisk11對應(yīng)的物理槽位分別是154823769111012的位置,所以在使用smitty ssaraid做RAID0+1時,前面八塊盤按1-4、5-8軸對稱方式對應(yīng)做mirror,9-12中如選擇9(pdisk8)/12(pdisk11)位置做mirror所以選擇Primary Disks/Secondary Disks時如下: smitty ssaraid- Add an SSA RAID Array - . Primary Disks 選擇:pdisk0 pdisk4 pdisk5 pdisk2 pdisk8 物理1-4,9槽位 Secondary Disks 選擇:pdisk3 pdisk6 pdisk7 pdisk1 pdisk11物理8-5,12槽位 該要求只是從性能考慮,并不增加其他特性。 e) 剩余物理位置10(pdisk10)/11(pdisk9)盤做成hot spare,方法同上e)步驟l 數(shù)據(jù)盤大于等于12塊小于等于14塊,配置兩塊hotspare的接線和配置規(guī)則:a) 主機A1、A2接磁陣1、16位置;備機A1、A2接磁陣8、9位置b) 空出3、14位置插hot spare,如果是12塊數(shù)據(jù)盤,空出2、15位置插dummy盤,其余都插入數(shù)據(jù)盤;如果是14塊數(shù)據(jù)盤,則將剩余的14個位置全部插上數(shù)據(jù)盤c) 做RAID01時,考慮到性能問題,請將1-8、9-16以軸對稱方式一一對應(yīng)做硬盤鏡像, hot spare也滿足軸對稱關(guān)系,舉例如下:ibm對pdisk的排序與實際的物理位置是不同的,所以必須先通過lsdev -C |grep pdisk的方式找出其對應(yīng)關(guān)系并記錄下來,如: pdisk0 Available 11-08-1641-01-P SSA160 Physical Disk Drive pdisk1 Available 11-08-1641-05-P SSA160 Physical Disk Drive pdisk2 Available 11-08-1641-04-P SSA160 Physical Disk Drive pdisk3 Available 11-08-1641-08-P SSA160 Physical Disk Drive pdisk4 Available 11-08-1641-02-P SSA160 Physical Disk Drive pdisk5 Available 11-08-1641-03-P SSA160 Physical Disk Drive pdisk6 Available 11-08-1641-07-P SSA160 Physical Disk Drive pdisk7 Available 11-08-1641-06-P SSA160 Physical Disk Drive pdisk8 Available 11-08-1641-09-P SSA160 Physical Disk Drive pdisk9 Available 11-08-1641-11-P SSA160 Physical Disk Drive pdisk10 Available 11-08-1641-10-P SSA160 Physical Disk Drive pdisk11 Available 11-08-1641-12-P SSA160 Physical Disk Drive pdisk12 Available 11-08-1641-16-P SSA160 Physical Disk Drive pdisk13 Available 11-08-1641-13-P SSA160 Physical Disk Drive pdisk14 Available 11-08-1641-15-P SSA160 Physical Disk Drive pdisk15 Available 11-08-1641-14-P SSA160 Physical Disk Drive 看第三列中間字符中有-01-的字樣,表示其物理硬盤位置,以上對應(yīng)關(guān)系表示pdisk0-pdisk15對應(yīng)的物理槽位分別是15482376911101216131514的位置,所以在使用smitty ssaraid做RAID0+1時,以1-8、9-16以軸對稱創(chuàng)建mirror所以選擇Primary Disks/Secondary Disks時如下: smitty ssaraid- Add an SSA RAID Array - . Primary Disks 選擇:pdisk0 pdisk4 pdisk2 pdisk1 pdisk7 pdisk6 pdisk3 物理1-8槽位,除3位置以外 Secondary Disks 選擇:pdisk12 pdisk
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 兩癌項目管理制度
- 嚴格準入管理制度
- 嚴格紀律管理制度
- 個人匯款管理制度
- 中國中車管理制度
- 中國農(nóng)藥管理制度
- 中國地區(qū)管理制度
- 中國封建管理制度
- 中國退休管理制度
- 中天企業(yè)管理制度
- 模具保養(yǎng)記錄表
- 形象店加盟管理方案
- 1.《鄭人買履》課件PPT
- T∕ZS 0128-2020 既有建筑結(jié)構(gòu)安全智慧監(jiān)測技術(shù)規(guī)程
- 發(fā)電機定子繞組泄漏電流和直流耐壓試驗作業(yè)指導書
- 冀教版小學美術(shù)六年級下冊教案
- 甘肅省生態(tài)功能區(qū)劃
- DB22∕T 1073-2011 綠色淫羊藿生產(chǎn)技術(shù)規(guī)程
- 教練技術(shù)LP三階段教練手冊
- 國家開放大學《人文英語3》章節(jié)測試參考答案
- 鉆孔灌注樁超灌混凝土管理辦法
評論
0/150
提交評論