IBM服務器維護手冊_第1頁
IBM服務器維護手冊_第2頁
IBM服務器維護手冊_第3頁
已閱讀5頁,還剩17頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第一類、機房環(huán)境及物理檢查一、機房內環(huán)境要求??溫度與濕度:最佳工作溫度:20-25攝氏度極限工作溫度:10-40攝氏度??????濕度:8-80%(在23攝氏度條件下)如果不是工作在最佳溫度,請注意改善機房環(huán)境??同時機房要保證活潔.機房應保持活潔,若空氣灰塵過多,很容易造成資源讀寫錯誤及磁盤機中磁盤或讀寫磁頭毀損。二、電源要求電??壓:??要求電壓穩(wěn)定,尖峰電壓會損壞設備電壓范圍:??220V+/-10%,即200-240V,50-60Hz電源功率:??視機器類型和系統(tǒng)配置而定電源線??:??標準的零,地,火三相電,其中零,地電壓不得超過.電源接駁:??用符合電流要求的空氣開關或其他設備和主機電源線接駁,保證計算機系統(tǒng)的可靠工作應使用穩(wěn)壓電源和ups并建議配備發(fā)電機組;對丁冗丁電源的接入,建議采用兩路單獨輸入.三、硬件檢查]檢查服務器、磁陣的安裝、電源線、7133和主機接線符合要求。服務器狀態(tài)檢查:??當服務器處丁啟動和正常工作狀態(tài)時,其前面板上的液晶顯示屏上應無信息顯示。??當液晶顯示器上出現(xiàn)帶數(shù)字和字母的信息時,說明有硬件告警??梢酝ㄟ^查詢相關機型的ServiceGuide查到相應告警原因,情況嚴重的,則要立即通知舊M技術專家進行問題排查。7133狀態(tài)檢查:磁陣前面板上有7133機柜的狀態(tài)燈(與電源燈并排)和各硬盤的狀態(tài)燈(一排小燈,與各硬盤位置一一對應)。當機柜的狀態(tài)燈出現(xiàn)橙黃色時,說明有硬件告警,此時要檢查磁柜的電源、接線、硬盤等。如果有硬件故障則立即進行更換和更正,如果查不出具體問題,則需要聯(lián)系相關專家進一步診斷。當硬盤工作正常時,與各硬盤對應的硬盤燈會呈綠色,如無讀寫,則綠燈一直亮,如該硬盤有讀寫操作,則綠燈會不規(guī)則閃爍,當硬盤損壞時或SSA環(huán)路出現(xiàn)問題時,則硬盤狀態(tài)燈將熄滅,或者呈閃爍狀態(tài):以1?3秒的頻率有規(guī)律地、不停地閃爍第二類、系統(tǒng)日常維護流程系統(tǒng)啟動系統(tǒng)啟動正常順序如下:首先對外設(磁盤陣列、磁帶庫等)加電。待所有外設加電自檢完成后,主機加電正常起機。主機加電后,系統(tǒng)進行自檢,在液晶顯示屏顯示”ok”后,才能按白色POWE鍵起機.啟動主機HACMP啟動后可用命令tail-f/tmp/來檢查啟動情況,在HACM未完全啟動前不要進行下一步。檢查服務器的網(wǎng)絡地址,路由表(可用netstat-i,netstat-rn等),檢查文件系統(tǒng),邏輯卷(可用mount,lsvg-o等)。檢查各項應用是否工作正常。系統(tǒng)關閉停止HACMP??(smittyclstop)。查看HACM的狀態(tài),檢查服務器的網(wǎng)絡地址,路由表(可用netstat-i,netstat-rn等),檢查文件系統(tǒng),邏輯卷(可用mount,lsvg-o等)。在HACM床完全停止前不要進行下一步。關閉主機(shutdown-F)。重啟系統(tǒng)可以使用:shutdown-Fr如有必要的話,按磁盤陣列前方的白色按鈕關閉磁盤陣列。查看系統(tǒng)的錯誤記錄在系統(tǒng)運行時,一些系統(tǒng)錯誤會記錄在errlog中,其中有些錯誤還會在終端上顯示。檢查錯誤日志可用以下命令:#errpt|more查看系統(tǒng)所有的記錄IDENTIFIER??TIMESTAMP??T??C??RESOURCE_NAME??DESCRIPTIONE85C5C4C??09??P??S??CFGLFT????SOFTWAREPROGRAMERROR2BFA76F6??09??T??S??SYSPROC????SYSTEMSHUTDOWNBYUSER9D4CF6E7??09??T??O??errdemon????ERRORLOGGINGTURNEDON1E2AC07E??09??T??O??errdemon????ERRORLOGGINGTURNEDOFF1E5EER4T??09??T??O??clstrmgr??????OPERATORNOTIFICATION???其中IDENTIFIER為錯誤編號,當需要檢查詳細信息時常會用到。TIMESTAMP%時間標簽,它記錄的是出錯時間,其格式:月月日日時時分分年年T為Type,它記錄的是錯誤類型P:為永久錯誤,需引起注意T:為臨時錯誤。C為Class,??它記錄的是錯誤種類,如H:HardwareS:SoftwareO:ErrlogercommandmessagesU:undeterminedRESOURCE_NAMW?來源DESCRIPTIONS錯誤描述#errpt-aj<IDENTIFIER>查看系統(tǒng)詳細記錄內容其中IDENTIFIER為錯誤編號,如#errpt-aj09#errpt-dH????????查看系統(tǒng)所有的硬件出錯記錄系統(tǒng)與數(shù)據(jù)備份有效及時的系統(tǒng)備份是系統(tǒng)管理的非常重要的一環(huán)。當系統(tǒng)出現(xiàn)故障時,特別是文件系統(tǒng)被嚴重損壞或硬盤損壞時,常需要使用系統(tǒng)備份來恢復系統(tǒng)。在以下情況下應做系統(tǒng)備份:1、新裝機。在硬件及系統(tǒng)軟件安裝完成后,應做系統(tǒng)備份。2、軟件改動。系統(tǒng)軟件或應用軟件有改動時,應做系統(tǒng)備份。3、定期備份。對系統(tǒng)進行定期備份,最好每兩或三個月做一次備份備份注意事項:進行系統(tǒng)備份無須停止業(yè)務,業(yè)務可以繼續(xù)進行。建議客戶進行定期的系統(tǒng)備份(使用命令smittymksysb)??蛻粢部筛鶕?jù)需要利用SMIT對系統(tǒng)的特定的VG或FS進行備份。smittymksysb只備份rootvg中mount起來的文件系統(tǒng),其它文件系統(tǒng)或數(shù)據(jù)并沒有做備份,所以數(shù)據(jù)備份需要另外完成(建議客戶使用TAR格式)在條件允許的情況下,最好有一盤以上備份帶,以防止磁帶損壞。系統(tǒng)備份過程中有時候會提示有些/tmp目錄下的文件無法備份,顯示如下:Creatinglistoffilestobackup...Backingup34025files1694of34025files(4%)2733of34025files(8%)backup:0511-449Anerroroccurredaccessing./tmp/:Afileordirectoryinthepathnamedoesnotexist.backup:0511-449Anerroroccurredaccessing./tmp/:Afileordirectoryinthepathnamedoesnotexist.backup:0511-449Anerroroccurredaccessing./tmp/:Afileordirectoryinthepathnamedoesnotexist.15458of34025files(45%)31920of34025files(93%)0512-003mksysbmaynothavebeenabletoarchivesomefiles.ThemessagesdisplayedontheStandardErrorcontainedadditionalinformation.這是正?,F(xiàn)象,備份成功。系統(tǒng)恢復??????當系統(tǒng)發(fā)生比較嚴重的故障以致采取一般性維護手段不能在短期內恢復原系統(tǒng),在與客戶進行蹉商后,可將最近一次的系統(tǒng)備份帶倒回機器內以全面恢復系統(tǒng)到最近一次做備份時的系統(tǒng)環(huán)境,然后可將當日的數(shù)據(jù)備份再倒回系統(tǒng)內。至此,系統(tǒng)可恢復正常運行。此后,客戶應當與舊M工程師再進行整個事件的全面分析與回顧,以期找到故障發(fā)生的原因,并采取相應措施以杜絕類似事件再次發(fā)生。DUMP當系統(tǒng)運行出現(xiàn)軟件故障導致系統(tǒng)down機時,機器的液晶顯示器會出現(xiàn)888102xxx0c0(xxx可能為700或其它),AIX常會將當時系統(tǒng)的運行情況記錄下來,這就是DUMP當DUM產生后,請將磁帶放入磁帶機,用命令#snap-a-o/dev/rmt0將DUMPC件拷貝到磁帶設備/dev/rmt0中。注明磁帶機的blocksize,DUMP產生的日期和機器的型號及序歹0號。同時,請用#errpt-a>/tmp/將errorlog記在/tmp/中,并將/tmp/和/tmp/hacmp.*拷貝到軟盤或磁帶上。將磁帶和軟盤交給舊M工程師。日常檢查服務器狀態(tài)的項B及其相關命令1運行l(wèi)sdev命令配以各種參數(shù),所歹0各種設備狀態(tài)都應為Available。#lsdev-C-H-Sa??????????列出系統(tǒng)中可用設備。#lsdev-Ccprocessor??????歹0出系統(tǒng)中的所有CPU#lsdev-Ccmemory??????歹U出系統(tǒng)中的所有內存。#lsdev-Ccdisk??????????列出系統(tǒng)中的所有硬盤。#lsdev-Ccadapter|grepent????列出系統(tǒng)中的所有網(wǎng)卡#lsdev-Ccadapter|grepscsi????列出系統(tǒng)中的所有SCSI卡。#lsdev-Ccadapter|grepssa????列出系統(tǒng)中的所有SSA卡。2lspv命令#lspv????????顯示系統(tǒng)中可用的PV#lspvhdiskn????顯示hdiskn的具體信息。#lsdev-Ccpdisk??顯示磁盤陣歹U的硬盤的具體信息對SSA硬盤的檢測:在對主機進行工作之前可以先把磁盤陣列上電,等主機完全啟動后,登錄到主機上,運行以下命令“l(fā)sdev-Ccpdisk",應該可以看到所有SSA硬盤,并且狀態(tài)應為Available.。3??lsattr命令#lsattr-E-lmem0??出系統(tǒng)中內存mem0勺大小,本項目中內存有4GB4??lsvg命令#lsvg????????列出系統(tǒng)中所有的vg。#lsvgrootvg????歹0出rootvg的詳細信息。#lsvg-o??????列出激活的vg5??oslevel命令#oslevel??????顯示操作系統(tǒng)版本信息。6??netstat命令#netstat-in??顯示系統(tǒng)中各網(wǎng)卡的配置。可查看網(wǎng)卡的IP配置好了沒有。7??#diag命令運行硬件診斷程序檢測主機內所有硬件,檢測結果為“Notroublefound”顯示各部分工作正常。8??使用#diag命令(選擇:TaskSelection->SSAServiceAids)對SSAM盤鏈路連接的校驗,可以通過SSA工具里的LinkVerification來檢測。如有必要,可以用CertifyDisk運行硬盤診斷部分進行硬盤的表面分析測試,由1%至100%檢測結果顯示主機內置硬盤的所有扇區(qū)均讀寫正常。9??lsps-a查看PAGINGSPACE使用情況,如果使用率超過70%就需要采取措施10??lsvg-o|lsvg-il|grep-istale查看有無stale的lv,如果輸入該命令之后有輸出結果,就需要采取措施11??有否發(fā)給root用戶的錯誤報告(mail)12??檢查雙機狀態(tài):lssrc-gcluster檢查ha三個工作進程是否激活,/usr/sbin/cluster/clstat-a檢查雙機狀態(tài)是否up,并檢查日志,看是否有異常信息。13??用vmstat,topas,sar命令檢查系統(tǒng)性能,檢查cpu\memoyr\IO,是否存在性能瓶頸。14??檢查能否順利進入CD畔面,如果不能進入的話,要檢查/etc/hosts表中有否錯誤的項目。15??用smittyssaraid查看磁盤陣歹URAID盤的狀態(tài)是否是Good如果是degrade或其他狀態(tài)表示RAID盤出現(xiàn)問題了16??用sysdumpdev-l查看系統(tǒng)的DUMPS置是否正常。17??用instfix-ik|grepML當前操作系統(tǒng)補丁版本補丁程序(PTF)是否滿足穩(wěn)定運行的需要。一般要求433操作系統(tǒng)補丁要打到10以上,操作系統(tǒng)補丁要打到5以上18??使用df-kP查看磁盤空間占用率,請確保以下文件系統(tǒng)的占用率高丁80吩即上報:性能監(jiān)控與調優(yōu)通過命令vmstat1來觀察.kthr????memory????????page??????????faults??????cpur??b??avm??fre??re??pi??po??fr??sr??cy??in??sy??csussyidwa命令解析:vmstat命令的輸出可以反映系統(tǒng)整體運行狀況,包括cpu、內存、虛擬頁面、系統(tǒng)進程和系統(tǒng)調用情況。檢查CP昵否為瓶頸,分別檢查CPU勺四項數(shù)值和kthr的兩項數(shù)值.檢查ME思否為瓶頸,分別檢查Memory的兩項數(shù)值和Page的六項數(shù)值.通過命令sar-mu-PALL來觀察。命令解析:??sar可以用來收集反映系統(tǒng)運行狀況,在這里主要是查看CPU的運行狀況,CPIM否負載均衡,是否存在分配不均的情況。通過命令psgv|more來觀察。/IEMPID??TTYSTAT??TIMEPGIN??SIZE??RSS??LIM??TSIZ??TRS%CPU%PCOMMAND????0????-A????4:20??7??1214516??xx????014504????swapper????1????-A????1:33??103789527904432768??25??36??/etc/ini命令解析:ps可以用來查看進程的當前狀態(tài)。在這里通過參數(shù)的配搭,可以觀察目前正在運行的進程所耗的時間,CPU和memory量.其中,%CPUfe示進程所占用的CPLK源情況,%MEM示進程所占用的內存情況。主要檢查是否有標示為<defunc>的僵尸進程耗用系統(tǒng)資源,以及informix數(shù)據(jù)庫的oninit進程的系統(tǒng)消耗情況。/IEM在機器上用dd命令進行磁盤陣歹0的寫操作校驗,與此同時用iostat1-d??hdiskX觀察磁盤。Disks:??????%tm_act????Kbps????tps??Kb_read??Kb_wrtn命令解析:iostat苛以用來查看系統(tǒng)的I/O的輸云輸出情況,在這里主要查看陣列上的硬盤的每秒讀寫量,同時估算磁盤陣列讀寫速度HHhHhh??通過命令netstat-a??進行查看。ActiveInternetconnections(includingservers)Proto??Recv-Q??Send-Q??LocalAddress??????ForeignAddress?????(state命令解析:netstat可以用來查看系統(tǒng)的網(wǎng)絡情況,在這里主要是查看網(wǎng)絡客戶端連接的情況和開銷,檢查參數(shù)為state,如有死連接,state狀態(tài)為fin_wait,這樣耗用系統(tǒng)網(wǎng)絡資源,從而導致網(wǎng)絡性能下降構成瓶頸。安全工作守則系統(tǒng)定期進行系統(tǒng)備份,系統(tǒng)盤建議鏡像。當有系統(tǒng)變更或進行操作系統(tǒng)補丁安裝的時候,必須作一次系統(tǒng)備份。在7133和shark發(fā)現(xiàn)有硬盤故障的時候,請?zhí)嵝芽蛻糇⒁猱斕斓臄?shù)據(jù)備份。在更換硬盤的時候,請確認當天數(shù)據(jù)備份已經完成。在更換敏感的電子元件,時候一定要防靜電。在插拔外圍設備的時候,請把外圍設備下電。在進行主機微碼升級時候,請留意微碼的完整性。在進行文件刪除的時候,請留意當前路徑是否正確。在進行文件解壓縮的時候,請留意參數(shù)和路徑。維護電話在日常維護中碰到問題和疑難,可以致電:舊M免費技術支持保修熱線:????800-810-6677??0100客戶技術咨詢熱線:????????800-810-1818舊M廣州分公司聯(lián)系電話:??????[本帖最后由mfkqwyc86丁2010-11-412:32編輯]ItItItItffffItItffItItffItItffffItItffItItffItItffffItItffItItffItItffffItItffItItffItItffffItItffItItffffffffffffffffffffffffffItIt7T7T7T7T7T7T7T7T7T7T7T7Tfifi'TTTTTTTTTTTTTTTTnnTTTTTT7TTTfif17TfifiTTTTufiTTufiTTuuTTTTufiTTfffiTTuuTTTTfiuTT1111TT'fif17T7Tffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff7TffuuuuuuuuuuuuuuuuuuuuuuuuuuuuTfTfT7ffTfTfT7ffTfT7ffTfT7ffTfTfT7ffTfT7ffTfT7ffTfTfT7ffTfTf啟子務本,本立而道生。mfkqwyc86,飛鷹工作室ITPUT個人空間:01.[OracleRAC】Linux+Oracle11gR2RAC安裝配置詳細過程??02.[OracleRAC】OracleRAC更改VIPIP地址_2節(jié)點的實驗??03.[OracleRAC】OracleRAC刪除一個節(jié)點_3節(jié)點的實驗??04.[OracleRAC】OracleRAC增加一個節(jié)點_3節(jié)點的實驗??05.[OracleRAC+DGOracleRAC+ASM+DataGuar通己置實驗記錄??06.[OracleRAC】OracleRACCRSOCRVoting破壞重建??07.[Oracle表分區(qū)管理】OraclePartition表分區(qū)與分區(qū)索引幾種方式的實驗操作08.【IBMDB2表空間管理】db2表空間管理一實例講解之精華??09.【IBMDB2補丁升級】從升級到DB2??10.【中間件資料下載匯總】WebSphere,MQ,Portal,WebLogic資料下載匯總【PDF格式-共51類】??只看該作者??mfkqwyc86飛鷹工作室mfkqwyc86飛鷹工作室精華貼數(shù)1個人空問400技術積分826精華貼數(shù)1個人空問400技術積分826(3079)社區(qū)積分28(9086)注冊日期2007-428論壇徽章:1???????????跟貼說明:大家看了以下日常維護及故障處理匯總方法后,請大家在貼后跟上自己遇到過的錯誤問題,及解決方法??!第三類、故障定位、故障排除根據(jù)我們在實際商用系統(tǒng)中碰到問題,我們總結出了以下幾種常見故障及其定位方式和解決方法。硬件故障硬件故障有很多種,對系統(tǒng)產生的影響也不一樣,這里按其故障對系統(tǒng)的影響程度分:致命影響的硬件故障和只影響功能的硬件故障兩類進行硬件分類:其損壞對系統(tǒng)產生致命影響(將使機器宕機或無法啟動)的硬件包括:主板、CPUI/O柜(包含本地盤、光驅、PCI插槽等的柜子)或CEC柜(包含CPU/MEMO制勺柜子)、I/O柜與CECfg的接線、電源模塊、風扇、本地硬盤、內存損壞等等注:I/O柜和CEC巨一般在比較高端的小型機才有,如M8Q低端的是合一的。這些設備的損壞等將使系統(tǒng)無法完成自檢、引導和啟動,液晶顯示屏上都將有錯誤信息,可根據(jù)液晶顯示屏上的錯誤碼對照ServiceGuide查的錯誤原因,如果是工作狀態(tài)下出現(xiàn)這些硬件損壞,則系統(tǒng)將被掛起或宕機。其損壞對僅對系統(tǒng)產生功能影響(機器不會宕機并能正常啟動)的硬件包括:網(wǎng)卡、本地硬盤有壞塊、顯卡、SSA卡和其他外圍設備這些設備的損壞只影響特定功能,如網(wǎng)絡功能、顯示功能、訪問磁陣的功能等,對丁本地硬盤有壞塊的情況,則要看壞塊中是否包含了重要的系統(tǒng)文件,如果不是重要系統(tǒng)文件,則系統(tǒng)功能不受影響,但也建議立即更換該硬盤。故障定位和排除:以上硬件故障信息都可以使用:液晶屏上的錯誤碼或:errpt-dH查看到根據(jù)錯誤碼確定是什么硬件出了故障,對商用系統(tǒng)來講,由丁是雙機系統(tǒng),如果損壞機器是主機可以將此服務器切換成備機,然后修復故障機器,恢復系統(tǒng)。磁陣故障磁陣引起的故障是目前碰到的最頻繁、危害最大的故障,據(jù)不完全統(tǒng)計,其故障覆蓋到總故障的70恕上,具體來講,可能引起磁陣故障的環(huán)節(jié)包括:磁陣硬盤、7133柜子、主機上的SSM、連接7133與主機的SSAtfe、硬盤的位置和ssa線的接線方式、以及盤柜使用的電壓及周圍磁場、磁陣/硬盤/ssa卡的微碼等都可能造成7133的異常。7133磁陣的問題是最復雜的,一般有物理損壞的原因也有環(huán)境原因,這是主因,如接線、插盤位置不符合要求、未及時查看系統(tǒng)告警等造成系統(tǒng)中斷等輔因。按照我們的經驗,不管是什么硬件故障導致7133故障,系統(tǒng)都會產生告警,如果能及時發(fā)現(xiàn)問題并采取措施,一般都能防止故障的發(fā)生。故障定位:7133硬件故障也可以使用:errpt-dH查看到伴隨的錯誤碼有:B4C00618??04PHssa0????RESOURCEUNAVAILABLEFE9E9357??04PHssa0????DISKOPERATIONERRORFE9E9357??03PHpdisk3??DISKOPERATIONERRORON03913B94??03UHLVDD????HARDWAREDISKBLOCKRELOCATONACHIEVED613E5F38??03PHLVDD????I/OERRORDETECTEDBYLVM625E6B9A??04PHssa0????ADAPTERDETECTEDOPENSERIALLINK26CA120B??04PHssa0????CACHESTORAGECARD所有的錯誤碼都預示著7133有異常,紅色部分則表示肯定出現(xiàn)了硬件故障,需要立即進行檢查并采取措施,否則磁陣將很快不能訪問。對丁藍色部分:625E6B9A??04PHssa0????ADAPTERDETECTEDOPENSERIALLINK表示ssa出現(xiàn)了開環(huán),出現(xiàn)開環(huán)不僅影響IO性能,也增加了風險,即如果另一個環(huán)路也出現(xiàn)問題,將不能訪問磁陣。開環(huán)一般有兩種情況:1)如果625E6B9A艮錯比較頻繁,如每天幾次,則表示系統(tǒng)很有可能出了硬件故障,雖然不會導致訪問磁陣失敗,但需要立即查出原因并解決。查錯方法可以參考下面的描述。2)如果625E6B9A?誤偶爾報一次,則要具體情況具體對待,有可能是讀寫忙出現(xiàn)的誤報,也按下面方法進行排查,如果沒有查出具體的原因,則可以繼續(xù)觀察。26CA120B??04PHssa0????CACHESTORAGECARD該錯誤一般是在:SSA卡帶writecache并打開FastWrite,而ssa卡上用丁writecache供電的可充電銳鎘電池達到或接近安全壽命的情況下產生的。這類錯誤產生將影響IO寫性能,并且由丁在FastWrite打開的情況下,主備機需要同步ssa卡上的writecache,所以甚至會影響到主備機同步。具體解決方法可參考下文。故障排除:對丁紅色部分錯誤的問題排除,一般可以使用diag命令進行進一步診斷:#diag->TaskSelection->SSAServiceAids->LinkVerification檢查環(huán)路中是否出現(xiàn)了的盤符或狀態(tài)不是good的硬盤或使用:#smittyssaraid->ListAllDefinedSSARAIDArrays查看磁盤陣歹URAID盤的狀態(tài)是否是Good如果是degrade或其他狀態(tài)表示RAID盤出現(xiàn)問題了_INK這時候不建議再進行單獨硬盤的Certify,而是趕緊通知舊M準備好相同型號和大小的硬盤(至少兩塊)到現(xiàn)場進行進一步的診斷和壞盤更換。_INK625E6B9A??04PHssa0????ADAPTERDETECTEDOPENSERIAL的排查方法:1、要求將7133中未插硬盤的槽位全部插上dumm州。(dummy盤:啞元盤,就是那個空殼子,相當丁代替SSA硬盤裝在磁盤陣列的塑料模型,當磁盤陣列的16個槽位沒有被SSA<盤插滿時才用到.)2、看看Loop狀態(tài):diag>TaskSelection-->SSAServiceAids-->LinkVerification.正常AdapterPort下的兩歹U數(shù)字是連續(xù)不問斷的排歹0,且Status都為good,如果Physical歹0有符號.或Status不是good,則說明已經存在硬盤或鏈路故障,這種情況則要立即采取行動,做進一步檢查以確定是否要更換硬盤。檢查單盤是否有問題的方法如下:??diag>TaskSelection-->SSAServiceAids-->CertifyDisk??選擇認為存在故障的硬盤進行檢查3、如果7133存在硬件故障時,可從狀態(tài)燈上觀察到:??當單塊硬盤出現(xiàn)故障或未被使用時,其面板上的硬盤狀態(tài)燈會不亮??陣列的狀態(tài)燈黃燈會亮??或接SSA線的端口的指示燈也會熄滅如果通過以上三種方法都未發(fā)現(xiàn)問題,而系統(tǒng)仍報OpenSerialLink錯誤,建議繼續(xù)跟蹤。26CA120B??04PHssa0????CACHESTORAGECARD的處理方法:背景介紹:??IBM小型機上連接7133磁陣所配置的SSA#一股都帶有一塊充電電池,該電池用丁在突然停電的情況下保護ssa卡上的fastwritecache中的信息不丟失,這塊電池的安全壽命一般是22000小時,差不多兩年半的時間,也就是說,當fastwrite模式啟動的情況下,一般兩年半以后需要更換這塊電池。問題表現(xiàn):??對ssa卡上的電池保護是通過卡上的一個計數(shù)器實現(xiàn)的,每運行一小時該計數(shù)器會增加一,當該計數(shù)接近或超過22000時,系統(tǒng)會有26CA120B?件報警:26CA120B??04PHssa1????????CACHESTORAGECARD??可以用如下命令檢查ssa卡上的狀態(tài):(-a后帶上卡的邏輯設備名,這里假設是ssa0)檢查電池已經工作的時間,小檢查電池安全工作壽命,小時檢查ssa卡上的fastwrite??ssa_fw_status-assa0??-p????(時為單位)??ssa_fw_status-assa0??-l????(為單位)??ssa_fw_status-assa0??-c????(功能是否萩激活)處理步驟:(按優(yōu)選方式列出,從中選擇一種即可)1)檢查電池已經工作的時間,小檢查電池安全工作壽命,小時檢查ssa卡上的fastwrite??停備機—〉〉更換備機ssa卡電池—〉〉起備機(雙機服務)—〉〉主備倒換一〉〉??停原主機—〉〉更換原主機ssa卡電池—〉〉起原主機(雙機服務)2)如果系統(tǒng)出現(xiàn)26CA120地池告警,使用ssa_fw_status-assa0??-c檢查主用ssa卡(一般是ssa0)的FastWrite是否處丁inactive(未被激活)狀態(tài),如果是,則以root執(zhí)行如下命令:??ssa_format-lssa0-b??errclear0??/usr/lib/errstop??/usr/lib/errdemon??可以暫緩更換電池時間,等有電池后再更換,但這段時間對磁陣讀寫性能會有所影響。3)如果短期內不能更換電池,同時主機主用卡的FastWrite仍然處丁Active狀態(tài),建議手工屏蔽fastwrite功能??1)先停止雙機??2)在1號機修改hdisk該屆性:????smittydev->ssadisks->ssalogicaldisks->change/showcharactersof...->[choosehdisk2]->fastwrite[no]??3)在1號機激活卷組????varyonvgzxinvg??4)在1號機去激活卷組????varyoffvgzxinvg??5)在2號機上執(zhí)行????smittydev->ssadisks->ssalogicaldisks->change/showcharactersof...->[choosehdisk2]->fastwrite[no]????檢查fastwrite是否已經改為no(只要1號機做了2好機就不用再修改了)??6)在2號機上執(zhí)行????rmdev-dlhdisk2????cfgmgr-v??7)在2號機上執(zhí)行????lspv??(查看hdisk2是否已找到)??8)然后執(zhí)行????varyonvgzxinvg????varyoffvgzxinvg??9)重新啟動雙機B4C00618??04PHssa0????RESOURCEUNAVAILABLE而不伴隨其他紅色標出錯誤的情況,則通過以下方式排查:可能是hdisk中將’enableuserofhotspare'打開了,而實際并沒有配置hotspare盤,可以通過如下方式解決:檢查RAID的狀態(tài):#smittyssaraid????????????????????????????????????????listalldefinedSSARAIDarrays:allareinstatusgood(ssa0)????檢查是否配置了hotspare:??list/identifySSAPhysicaldisks-->Listhotspares:none修改每個ssa卡所配置的hdisk的屆性::set"enableuseofhotspare"to"no"然后再執(zhí)行:/usr/lib/errstopcp/var/adm/ras/errlog??/var/adm/ras/#/usr/lib/errdemon#errclear0對丁物理硬盤的接法可參考如下說明:(有可能老局未配置hotspare,則連線方法按未配置hotspare盤的個數(shù)計算)分以下幾種情況講述:??數(shù)據(jù)盤小丁等丁6塊,建議配置一塊hotspare??數(shù)據(jù)盤大丁等丁8塊小丁等丁10塊,建議配置兩塊hotspare??數(shù)據(jù)盤大丁等丁12塊小丁等丁14塊,建議配置兩塊hotsparel??數(shù)據(jù)盤小丁等丁6塊,配置一塊hotspare的接線和配置規(guī)則:??主機A1、A2接磁陣1、8位置;備機A1、A2接磁陣4、5位置??保證磁陣前排1\4\5\8硬盤位置一定要插盤,其余的盤可以挑空位插,注意1-4、5-8兩側的數(shù)據(jù)盤保持軸對稱關系插入(如1和8是軸對稱的、4和5是軸對稱的)??沒有插硬盤的位置一定要插上dumm^ft??做RAID凹1時,考慮到性能問題,請將1-4、5-8以軸對稱方式一一對應做硬盤鏡像,舉例如下:ibm對pdisk的排序與實際的物理位置是不同的,所以必須先通過lsdev-C|greppdisk的方式找出其對應關系并記錄下來,如:??pdisk0????Available-PSSA160PhysicalDiskDrive??pdisk1????Available-PSSA160PhysicalDiskDrive??pdisk2????Available-PSSA160PhysicalDiskDrive??pdisk3????Available-PSSA160PhysicalDiskDrive??看第三列中間字符中有-01-的字樣,表示其物理硬盤位置,以上對應關系表小pdisk0-pdisk3對應的物理槽位分別是前排1\5\4\8的位置,所以在使用smittyssaraid做RAID0+1時,需將1\8位置的硬盤(pdisk0/pdisk3)做成鏡像、4\5位置的硬盤(pdisk2/pdisk1)做成鏡像,所以選擇PrimaryDisks/SecondaryDisks時如下:??smittyssaraid->AddanSSARAIDArray->...??PrimaryDisks????[需要選擇:pdisk0pdisk2]??--1\4槽位的硬盤作為主盤??SecondaryDisks??[需要選擇:pdisk3pdisk1]??--8\5槽位的硬盤作為從盤??該要求只是從性能考慮,并不增加其他特性。????hotspare盤插入位置可以找前排8個位置中的空位插入即可。無特殊位置要求,制作方法如下:使用lsdev-C|greppdisk方式找出其pdisk號,如pdisk5然后使用如下方式將其做成hotspare盤。smittyssaraid->ChangeUseofMultipleSSAPhysicalDisks->選擇ssa卡(連接磁陣的ssa卡,缺省為ssa0)->選擇作為hotspare的pdisk,如pdisk6->NewUse->選擇hotspare按回車創(chuàng)建即可??l??數(shù)據(jù)盤大丁等丁8塊小丁等丁10塊,配置兩塊hotspare的接線和配置規(guī)則:??主機A1、A2接磁陣1、12位置;備機A1、A2接磁陣8、9位置??保證磁陣前排1—8位置插滿數(shù)據(jù)盤,9-12位置的數(shù)據(jù)盤和hotspare盤位置可任意。??沒有插硬盤的位置一定要插上dumm麻??做RAID眼1時,考慮到性能問題,請將1-4、5-8以軸對稱方式一一對應做硬盤鏡像,9-12位置中有數(shù)據(jù)盤的,將其對應做鏡像,其余兩塊做hotspare,舉例如下:ibm對pdisk的排序與實際的物理位置是不同的,所以必須先通過lsdev-C|greppdisk的方式找出其對應關系并記錄下來,如:??pdisk0????Available-PSSA160PhysicalDiskDrive??pdisk1????Available-PSSA160PhysicalDiskDrive??pdisk2????Available-PSSA160PhysicalDiskDrive??pdisk3????Available-PSSA160PhysicalDiskDrive??pdisk4????Available-PSSA160PhysicalDiskDrive??pdisk5????Available-PSSA160PhysicalDiskDrive??pdisk6????Available-PSSA160PhysicalDiskDrive??pdisk7????Available-PSSA160PhysicalDiskDrive??pdisk8????Available-PSSA160PhysicalDiskDrive??pdisk9????Available-PSSA160PhysicalDiskDrive??pdisk10????Available-PSSA160PhysicalDiskDrive??pdisk11????Available-PSSA160PhysicalDiskDrive??看第三列中間字符中有-01-的字樣,表示其物理硬盤位置,以上對應關系表小pdisk0-pdisk11對應的物理槽位分別是1\5\4\8\2\3\7\6\9\11\10\12的位置,所以在使用smittyssaraid做RAID0+1時,前面八塊盤按1-4、5-8軸對稱方式對應做mirror,9-12中如選擇9(pdisk8)/12(pdisk11)位置做mirror所以選擇PrimaryDisks/SecondaryDisks時如下:??smittyssaraid->AddanSSARAIDArray->...??PrimaryDisks??[選擇:pdisk0pdisk4pdisk5pdisk2pdisk8]物理1-4,9槽位??SecondaryDisks??[選擇:pdisk3pdisk6pdisk7pdisk1pdisk11]物理8-5,12槽位??該要求只是從性能考慮,并不增加其他特性。????剩余物理位置10(pdisk10)/11(pdisk9)盤做成hotspare,方法同上e)步驟l??數(shù)據(jù)盤大丁等丁12塊小丁等丁14塊,配置兩塊hotspare的接線和配置規(guī)則:??主機A1、A2接磁陣1、16位置;備機A1、A2接磁陣8、9位置??空出3、14位置插hotspare,如果是12塊數(shù)據(jù)盤,空出2、15位置插dumm嫦,其余都插入數(shù)據(jù)盤;如果是14塊數(shù)據(jù)盤,則將剩余的14個位置全部插上數(shù)據(jù)盤??做RAID眼1時,考慮到性能問題,請將1-8、9-16以軸對稱方式一一對應做硬盤鏡像,hotspare也滿足軸對稱關系,舉例如下:ibm對pdisk的排序與實際的物理位置是不同的,所以必須先通過lsdev-C|greppdisk的方式找出其對應關系并記錄下來,如:??pdisk0????Available-PSSA160PhysicalDiskDrive??pdisk1????Available-PSSA160PhysicalDiskDrive??pdisk2????Available-PSSA160PhysicalDiskDrive??pdisk3????Available-PSSA160PhysicalDiskDrive??pdisk4????Available-PSSA160PhysicalDiskDrive??pdisk5????Available-PSSA160PhysicalDiskDrive??pdisk6????Available-PSSA160PhysicalDiskDrive??pdisk7????Available-PSSA160PhysicalDiskDrive??pdisk8????Available-PSSA160PhysicalDiskDrive??pdisk9????Available-PSSA160PhysicalDiskDrive??pdisk10????Available-PSSA160PhysicalDiskDrive??pdisk11????Available-PSSA160PhysicalDiskDrive??pdisk12????Available-PSSA160PhysicalDiskDrive??pdisk13????Available-PSSA160PhysicalDiskDrive??pdisk14????Available-PSSA160PhysicalDiskDrive??pdisk15????Available-PSSA160PhysicalDiskDrive??看第三列中間字符中有-01-的字樣,表示其物理硬盤位置,以上對應關系表小pdisk0-pdisk15對應的物理槽位分別是1\5\4\8\2\3\7\6\9\11\10\12\16\13\15\14的位置,所以在使用smittyssaraid做RAID0+1時,以1-8、9-16以軸對稱創(chuàng)建mirror所以選擇PrimaryDisks/SecondaryDisks時如下:??smittyssaraid->AddanSSARAIDArray->...??PrimaryDisks??[選擇:pdisk0pdisk4pdisk2pdisk1pdisk7pdisk6pdisk3]物理1-8槽位,除3位置以外??SecondaryDisks[選擇:pdisk12pdisk14pdisk13pdisk11pdisk9pdisk10pdisk8]物理16-9槽位,除14位置以外??該要求只是從性能考慮,并不增加其他特性。剩余物理位置3(pdisk5)/14(pdisk15)盤做成hotspare,方法同上e)步驟網(wǎng)絡故障由丁我們應用對網(wǎng)絡依賴很強,所以當網(wǎng)絡出現(xiàn)全阻或瞬斷都將對系統(tǒng)產生重大影響,網(wǎng)絡故障一般可分為硬件故障(如網(wǎng)卡故障和交換機、路由器故障)和軟件故障(網(wǎng)絡中有IP包攻擊或網(wǎng)絡擁塞)兩種情況。硬件故障:網(wǎng)卡對丁網(wǎng)卡故障,由丁商用系統(tǒng)中都是采用舊M的HA雙機系統(tǒng),而且每臺機器都配置有至少兩塊網(wǎng)卡,所以當單塊網(wǎng)卡或網(wǎng)線出現(xiàn)問題時,HA軟件都將采取措施實現(xiàn)ServiceIP切換。網(wǎng)卡故障定位方法:使用errpt-dH可查看到網(wǎng)卡服務中斷的錯誤,再使用diag進行網(wǎng)卡診斷網(wǎng)卡故障排查方法:如果診斷出網(wǎng)卡有問題,則關閉系統(tǒng)后進行更換'(如果是主機,則先手工切換為備機后再操作)交換機我們的網(wǎng)絡一般都采取雙網(wǎng)雙平■面的結構,所以當一個網(wǎng)絡平■面的交換機出現(xiàn)問題時,也不會中斷網(wǎng)絡服務,但值得重視的是:主、備交換機之間的直連線要保持暢通,否則一單發(fā)生舊M服務器主機或SIU主機的網(wǎng)卡切換,將導致舊M服務器主機和SIU主機斷鏈,從而導致業(yè)務全阻。還有一種情況,有些地方為了網(wǎng)絡安全,對連到switch上的不同設備劃分了不同的VLAN同時乂將主、備switch之間改成通過兩個口連接,并劃分在一個channelgroup里,當時碰到的一種情況是:1)當時舊M服務器的主網(wǎng)卡從缺省VLANCEUVLAN或現(xiàn)遷移時,網(wǎng)絡將出現(xiàn)15秒?30秒的瞬斷2)當時主、備交換機之間的channelgroup工作不正常,鏈路不通。當1)發(fā)生時,舊M雙機發(fā)生主、備網(wǎng)卡倒換,但由丁2)的問題,導致舊M主機無法與SIU建鏈。問題排查及建議:1)??建議開局時一定要做雙網(wǎng)雙平■面中一個平■面的swith發(fā)生掉電的故障測試2)??建議一定要做主、備交換機之I可的設備之I可的網(wǎng)絡互訪測試,確保暢通??盡量不要在白天在switch上進行配置修改,如果需要修改,也要在晚上進行,并有嚴格的方案軟件故障:網(wǎng)絡擁塞由丁系統(tǒng)在封閉網(wǎng)絡中運行,所以發(fā)生網(wǎng)絡擁塞的可能性比較小,但如果網(wǎng)絡拓撲比較復雜的話,也可能發(fā)生這種情況,在主機上的表現(xiàn)為ping主機丟包嚴重,主機到SIU之間鏈路時通時斷,數(shù)據(jù)包丟失,設備功能異常。問題排查及建議:??盡量使NT/2000的機器從網(wǎng)絡上隔離出去??如果情況仍未改善,建議啟動SIU應急流程??在恢復呼叫的前提下,使用網(wǎng)絡工具抓包,找出攻擊源、逐步必設備恢復到網(wǎng)絡。2.切換失敗??現(xiàn)場碰到過一種情況,當發(fā)生主、備機切換時老是切換不成功,檢查發(fā)現(xiàn)是備機的主網(wǎng)卡綁定浮動IP老是失敗,再進一步排查,發(fā)現(xiàn)失敗的原因是備機主網(wǎng)卡綁定MAX地址失敗,由丁舊M雙機配置時需要將ServiceIP配置為一個固定的MAO址,規(guī)則是取主機主網(wǎng)卡的MAO址,將最后兩位改為固定的兩個數(shù)字(要求與原主網(wǎng)卡地址不同,如定制為89)。但這樣的規(guī)則在現(xiàn)場不成功問題排除:最后修改了HA拓撲圖中以太網(wǎng)配置中ServiceAdapter配置,去掉MAO址的配置(置為空),讓后同步雙機,再進行倒換,一切OK由丁網(wǎng)絡故障出現(xiàn)會導致遠程登錄失效,所以無法進行系統(tǒng)維護。所以建議任何一套舊M服務器都要配置一個維護臺。OS故障AIX是一個比較穩(wěn)定的操作系統(tǒng),出現(xiàn)故障一般是人為因素引起的:??沒按要求打OS#丁,如433打了09的補丁造成內存泄漏??應用程序或數(shù)據(jù)庫消耗內存太多或存在內存泄漏導致物理內存和pagingspace被耗盡導致系統(tǒng)掛起??人為刪除了重要的目錄或文件,如:/dev、/usr、/bin、/sbin、/etc等故障排查:.查操作系統(tǒng)補丁是否符合要求(433要求10以上,要求5以上)檢查內存、pagingspace的使用情況(使用lsps-a查看使用率要小丁20%檢查shell命令執(zhí)行時是否有報錯,errpt有無相關報錯HA故障對丁HA安裝時出現(xiàn)的故障,如同步拓撲圖失敗,要求檢查以下條款看是否符合要求:對丁版本的HA一定要打上15以上的補丁,版本的HA要求打上9以上的補丁網(wǎng)絡相關的配置文件一定要按照安裝手冊去設置網(wǎng)絡ip配置要正確并且保證物理鏈路暢通所有、版本一律使用標準版不能在同一臺機器中同時安裝標準版或ES版打補丁時請使用smittyupdate_all方式,不要選擇打所有補丁,因為標準版和ES版的補丁往往在一這樣會導致版本不一致如果是新開局,一定要保證做雙機倒換測試并確保成功。如果在后續(xù)使用中,進行了如下操作,以后再做雙機切換會失?。?在主機上做過磁陣RAID或共享VG相關信息的修改,如:增加了新的RAID盤,修改了共享VG的配置.在共享VG中增加了新的FS、增加了新LV以上配置或修改只在主機上進行了操作,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論