




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、資料編碼產(chǎn)品名稱業(yè)務(wù)與軟件產(chǎn)品使用對(duì)象技術(shù)支援產(chǎn)品版本編寫部門集成產(chǎn)品部資料版本v0.9業(yè)務(wù)與軟件產(chǎn)品ibm rs6000小型機(jī)日維檢查指導(dǎo)(評(píng)估版)擬制:盧山日期:2004-12-29審核:日期:審核:日期:批0準(zhǔn):日期:修訂記錄日期修訂版本作者描述華為技術(shù)有限公司版權(quán)所有侵權(quán)必究ibm rs6000小型機(jī)日維檢查步驟評(píng)估版1 日檢41.1 檢查系統(tǒng)錯(cuò)誤報(bào)告41.2 是否有給root發(fā)送的mail ,并關(guān)注內(nèi)容41.3 檢查磁盤剩余空間51.4 忙時(shí)/閑時(shí) 磁盤、cpu、內(nèi)存、swap區(qū)的使用情況51.4.1 忙時(shí)/閑時(shí)十分鐘cpu實(shí)時(shí)觀測(cè)51.4.2 忙時(shí)/閑時(shí)十分鐘disk實(shí)時(shí)觀測(cè)51.
2、4.3 忙吋/閑吋十分鐘mem 實(shí)吋觀測(cè)51.4.4 忙時(shí)/閑時(shí)十分鐘cpu平均數(shù)據(jù)51.4.5 忙時(shí)/閑時(shí)十分蝕disk平均數(shù)據(jù)61.5 swap空間使用率檢測(cè)61.6 檢查 hacmp 狀態(tài)61.7 檢查 hacmp 進(jìn)程71.8 檢查 cluster h/usr/es/sbin/cluster/historyhacmp.out; clusterog ;72 月檢72.1 系統(tǒng)備份72.2 檢查系統(tǒng)硬件指示燈82.3 檢查系統(tǒng)啟動(dòng)信息alog -ot boot82.4 swap分區(qū)大小檢測(cè)82.5 操作系統(tǒng)時(shí)間以及cluster各節(jié)點(diǎn)之間的時(shí)間一致性93 季檢93增加操作系統(tǒng)配置參數(shù)檢測(cè)9
3、2. /etc/environment 中的tz不能有夏時(shí)制93.1.2檢查aio是否被啟用9# 檢查 hacmp 中 i/opacing:high water mark/low water mark:33/24 9# 檢查系統(tǒng) syncd:1010# 檢查 sysdumpdev10# ulimit 檢查10# vmtune 檢查11a) 邏輯卷stale檢測(cè)11b) 通信檢測(cè)124 年檢(或半年檢)詳見華為ibm聯(lián)合巡檢指導(dǎo)書124.1 增加cluster切換檢測(cè)124.2 增加機(jī)房環(huán)境檢測(cè)124.3 增加硬件診斷124.4 補(bǔ)丁微碼檢測(cè)124.5 rootvg鏡像檢測(cè)124.6 hotsp
4、are 磁盤檢測(cè)124.7 snap信息收集124.8 清潔設(shè)備12ibm rs6000小型機(jī)日維檢查步驟評(píng)估版日維檢查目的:其出發(fā)點(diǎn)是從常見問題入手,對(duì)常見的、可預(yù)測(cè)問題,提供一種簡(jiǎn)單可 行的對(duì)照原則。檢測(cè)系統(tǒng)屮出現(xiàn)的明顯瓶頸或故障,通過常用的命令和維護(hù)方法,建立盡早 發(fā)現(xiàn)問題的途徑。.日檢1.1檢查系統(tǒng)錯(cuò)誤報(bào)告當(dāng)ibm小型機(jī)出現(xiàn)重要告警事件吋會(huì)通過errdemon上報(bào)錯(cuò)誤消息,可以使用errpt 查看消息內(nèi)容。#errpt |more根據(jù)timestamp字段看是否有新增的事件輸出,注:某些重耍的系統(tǒng)維護(hù)操作也會(huì)產(chǎn)生新記錄,可以結(jié)合errpt-可詳細(xì)輸出結(jié)果判斷是否屈于錯(cuò)誤信 息。#err
5、pt -t perm -d h 查看是否有新增的硬件故障#errpt -aj <identifier> |more參考:需要進(jìn)一步定位故障時(shí),使用errpt -aj指定identifier號(hào)碼查看故障詳細(xì)信 息,重點(diǎn)關(guān)注 resource name、 descriptions probable causes> failure causes recommended actions 了解故障產(chǎn)生的原因以及建議的處理方法參考值:errpt無近期輸出,errpt -t perm -d h無新內(nèi)容顯示1.2是否有給root發(fā)送的mail ,并關(guān)注內(nèi)容原因同上# mail參考值:無近期的
6、mail輸出1.3檢查磁盤剩余空間磁盤空間滿會(huì)引發(fā)各種莫名其妙的問題,需要關(guān)注df-k查看磁盤空間使用率used%是否有大于70-90%,根據(jù)需要?jiǎng)h除沒有用的文件或擴(kuò)展文件系統(tǒng)參考值:無使用率大于70-90%的文件系統(tǒng)1.4忙時(shí)/閑時(shí)磁盤、cpu、內(nèi)存、swap區(qū)的使用情況cpu、內(nèi)存/swap、磁盤幾個(gè)子系統(tǒng)的使用情況,與業(yè)務(wù)運(yùn)行息息相關(guān),重點(diǎn)關(guān)注其各 項(xiàng)指標(biāo)超出正常范圍的規(guī)律,趾合業(yè)務(wù)應(yīng)用解決或解釋出現(xiàn)的各類瓶頸問題。同時(shí)也可以根 據(jù)長(zhǎng)期觀測(cè)積累經(jīng)驗(yàn),判斷當(dāng)前系統(tǒng)是否正常,其連續(xù)觀察結(jié)果可以作為后續(xù)系統(tǒng)升級(jí)的依 據(jù)。監(jiān)測(cè)磁盤、cpu、內(nèi)存、swap的使用情況,分為業(yè)務(wù)忙、閑兩個(gè)時(shí)間段進(jìn)行。
7、可以打開 多個(gè)終端窗口同時(shí)執(zhí)行下列操作,兩個(gè)時(shí)段各取十分鐘數(shù)據(jù)進(jìn)行觀測(cè)或記錄。141忙時(shí)/閑時(shí)十分鐘cpu實(shí)時(shí)觀測(cè)#vmstat 2 300持續(xù)觀測(cè)us、sy、id、wa的使用情況,查找資源瓶頸參考值:id>30, wa<30 參考1441.4.2忙時(shí)/閑時(shí)十分鐘disk實(shí)時(shí)觀測(cè)#iostat 2 300|grep -v 0.0持續(xù)觀測(cè)熱點(diǎn)盤的使用情況,查找資源瓶頸參考值:%tm_act<701.4.3忙時(shí)/閑時(shí)十分鐘mem實(shí)時(shí)觀測(cè)#vmstat 2 300持續(xù)觀測(cè)內(nèi)存換頁操作pi、po,查找資源瓶頸參考值:pi=0 , po-0盡可能保證pi/po趨向于零1.4.4忙時(shí)/閑
8、時(shí)十分鐘cpu平均數(shù)據(jù)#sar-p all 10 60對(duì)cpu進(jìn)行六十次的十秒鐘采樣,計(jì)10分鐘,最后一組數(shù)據(jù)為平均值參考值:%idle>3()%, %wio<30%此項(xiàng)監(jiān)測(cè)等同于1.4、重點(diǎn)關(guān)注最后一組數(shù)據(jù),%wio<30是一個(gè)臨界參考值,當(dāng)誠。超過10%,就應(yīng)該了以關(guān)注。如果mo超過40-50%,則系統(tǒng)處于癱瘓邊緣。1.4.5忙時(shí)/閑時(shí)十分鐘disk平均數(shù)據(jù)#sar -d 10 60對(duì)disk進(jìn)行六十次的十秒鐘采樣,計(jì)十分種,最后一組數(shù)據(jù)為平均值參考值:%busy < 70%當(dāng)%busy長(zhǎng)期處于90上時(shí),磁盤io處于臨界值,需要分析業(yè)務(wù)或進(jìn)行硬件擴(kuò)容。4.5 swa
9、p空間使用率檢測(cè)swap空間使用率過高代表著內(nèi)存不足,同時(shí)當(dāng)swap空間滿時(shí),系統(tǒng)會(huì)出現(xiàn)異?;蛲?全失去功能。可以結(jié)合pi> po進(jìn)一步觀察。#lsps -s查看 percent used 項(xiàng)參考值:persent used < 50%對(duì)系統(tǒng)性能要求高時(shí),程序多會(huì)在物理內(nèi)存上運(yùn)行,該值應(yīng)該盡量接近1 %4.6 檢查hacmp狀態(tài)clstat可以用來觀測(cè)cluste各節(jié)點(diǎn)通訊,它的信息來源需要hacmp的三個(gè)服務(wù)進(jìn)程支 持。每日檢查cluster是否處于穩(wěn)定狀態(tài),各接口狀態(tài)是否為up,進(jìn)而保證資源的正常切 換。/usr/es/sbin/cluster/clstat -a 檢查輸出結(jié)果
10、是否正常(hacmp5.1)/usr/sbin/cluster/clstat -a檢查輸出結(jié)果是否正常(hacmp4.4)參考值:/、cluster 的 state 為 up, substate 為 stable (穩(wěn)定)2、所有節(jié)點(diǎn)狀態(tài)為up3、所有接口狀態(tài)為up ( boot ip可以出現(xiàn)down狀態(tài):cluster的service ip 地址有兩種配置模式ip alias or no ip alias .非定制的hacmp 4.5以下的版本只支持no ip alias 一種配置方式,hcianp4.5及hacmp5.1支持ip alias與no ip alias兩種配置方 j-c .當(dāng)使
11、用no ip alias配置方式配置service ip時(shí),當(dāng)擁有資源組的節(jié)點(diǎn)啟動(dòng)后,hoot ip地址將被seracelp地址替換,具體表現(xiàn)為down)4、resource group 為 upclstat命令位置隨hacmp版本不同而不同,如與上述冃錄有出入,請(qǐng)?jiān)?ush下查找該文件1.7檢查hacmp進(jìn)程hacmp按照我司規(guī)范運(yùn)行時(shí)可以看到三個(gè)進(jìn)程,分別控制資源和信息傳遞。同時(shí)也 可以根據(jù)hacmp服務(wù)進(jìn)程的狀態(tài)觀測(cè)cluster是否已經(jīng)啟動(dòng)或停止。#issrc -g cluster可以看到info、mux、mgr三個(gè)服務(wù)進(jìn)程,服務(wù)進(jìn)程的名稱隨hacmp版本不同而不同參考值:三個(gè)服務(wù)進(jìn)程
12、狀態(tài)應(yīng)該為acibe,如果沒有特殊要求,不應(yīng)該出現(xiàn)其他進(jìn)程1.8 檢查 cluster 日志/usr/es/sbin/cluster/history/*; /usr/es/adm/cluster.log ; /tmp/hacmp.out;查看是錯(cuò)誤信息提示,無errorfaik switch> down等字樣,根據(jù)行的內(nèi)容判斷是否 正常。(日檢中只需要檢查新增的記錄即可)因?yàn)閔acmp.out的日值信息非常多,日常維護(hù)可以重點(diǎn)關(guān)注history目錄下的文件(日 期結(jié)尾)以及cluster.log文件。當(dāng)發(fā)現(xiàn)異常后再仔細(xì)核查hacmp.out文件。參考值:日志中無錯(cuò)誤信息關(guān)鍵字出現(xiàn),無例外
13、事件產(chǎn)成,該項(xiàng)監(jiān)測(cè)較為復(fù)雜,同時(shí)難 度較髙,需要日常維護(hù)中逐步熟悉,對(duì)比系統(tǒng)正常時(shí)的日值文件結(jié)構(gòu)做判斷。重點(diǎn)關(guān)注項(xiàng):丁 history目錄下產(chǎn)生的新文件/ cluster.log戈件中的failed (注意大小寫)以及新增記錄/ hacmp r. out文件中的error 1注意大小寫)history以及cluster.log的位置隨hacmp版木不同而不同,如與上述目錄有出入,請(qǐng)& /usr/下查找該目錄或文件2月檢2.1系統(tǒng)備份a)卸載不需要進(jìn)行系統(tǒng)備份的根盤文件系統(tǒng),減少備份所需空間umount <no use filesystem>b)#mksysb -i /dev
14、/rmto系統(tǒng)備份,假設(shè)/dev/rmto為磁帶機(jī)設(shè)備參考值:備份結(jié)束時(shí)查看屏幕打印結(jié)果,無錯(cuò)誤信息提示2.2檢查系統(tǒng)硬件指示燈指示燈隨設(shè)備的不同有多種定義方法,原則上系統(tǒng)中不應(yīng)該出現(xiàn)黃色或紅色的告警燈出 現(xiàn)。正常指示燈多為常亮綠燈(網(wǎng)卡以及特殊定義的指示燈除外)參考值:無異常指示燈2.3檢查系統(tǒng)啟動(dòng)信息alog -ot boot# alog-ot boot檢查最近一次系統(tǒng)啟動(dòng)時(shí)記錄的信息。該檢查項(xiàng)目應(yīng)該在系統(tǒng)重啟后完 成,但是為了避免遺忘,所以放在月檢屮。此項(xiàng)內(nèi)容很難給出關(guān)鍵字進(jìn)行指導(dǎo),可以根據(jù)具體英文內(nèi)容判斷是否異常(出現(xiàn)異常時(shí) 口志中所顯示的內(nèi)容格式與正常時(shí)有所不同)。參考值:無異常信息
15、錯(cuò)誤信息:failure replaying log: 0mount: 0506-324 cannot mount /dev/bsclv202 on /usrl/sjz: the media is not formatted or the format is not correct.0506-342 the superblock on /dev/bsclv202 is dirty. run a full fsck to fix.mount: 0506-324 cannot mount /dev/bsclv801 on /usr1/zz: a file or directory in the p
16、ath name does not exist.mount: 0506-326 +b is not a valid flag.mount: 0506-326 +b is not a valid flag.mount: 0506-324 cannot mount /dev/lviinscu on /tellin/iinscu: a file or directory in the path name does not exist.swap分區(qū)大小檢測(cè)#lssp -s查看total paging space項(xiàng),很難說paging space空間到底多大才適合,可以根據(jù)業(yè)務(wù)要求設(shè)定。小的paging
17、 space在出現(xiàn)大暈異常pageout時(shí)很容易被迅速 填滿(如運(yùn)行了錯(cuò)誤的命令或內(nèi)存溢出),paging space填滿后系統(tǒng)將無法建立新的進(jìn)程, 導(dǎo)致系統(tǒng)崩潰。當(dāng)業(yè)務(wù)無具體耍求,同時(shí),系統(tǒng)磁盤空間足夠的情況下,paging space可以 収實(shí)際物理內(nèi)存的1 1.5倍或以上,更多的paging space會(huì)給異常情況處理提供更多的時(shí) i'可。參考值:paging space可以取實(shí)際物理內(nèi)存的1 _1.5倍或以上,更多的paging space 會(huì)給異常情況處理提供更多的時(shí)間。2.5操作系統(tǒng)時(shí)間以及cluster各節(jié)點(diǎn)之間的時(shí)間一致性#date查看各節(jié)點(diǎn)日期、時(shí)間是否一致。查看各節(jié)
18、點(diǎn)口期、時(shí)間是否與當(dāng)前標(biāo)準(zhǔn)時(shí)間相符參考值:時(shí)間正確、各節(jié)點(diǎn)吋間一致注:根據(jù)不同的業(yè)務(wù)需要,對(duì)于時(shí)間的監(jiān)測(cè)可以作為日監(jiān)測(cè)或周監(jiān)測(cè)內(nèi)容3季檢3.1增加操作系統(tǒng)配置參數(shù)檢測(cè)3.1.1 /etc/environment中的tz不能有夏時(shí)制#date方法1:運(yùn)行date命令,查看命令輸出是否有”dt“字樣。#grep dt /etc/environment 方法2:查看enviromnent tz一行是否有 ”dt"字樣此參數(shù)由stnit chtz設(shè)定3.1.2檢查aio是否被啟用# lsdev -cc aio查看 aio 狀態(tài)應(yīng)該是 availableaioo a vailable asyn
19、chronous i/o此參數(shù)由smitty aio設(shè)定3.1.3 檢查 hacmp 中 i/o pacing:high water mark/low water mark:33/24maxpout33high water mark for pending write i/os per file trueminpout24low water mark for pending write i/os per filetrue此參數(shù)由smltty chgsys設(shè)定檢查系統(tǒng) syncd:10# ps -ef igrep syncd查看syncd的同步間隔,建議值為10root 930010 dec 0
20、8- 428:54 /usr/sbin/syncd 10此參數(shù)fl /sbin/rc.boot 中的 nohup /usr/sbin/syncd 10 > /dev/mdl 2>& 行設(shè)定檢查 sysdumpdev# sysdumpdev -1運(yùn)行sysdumpdev命令檢查sysdumpdev的狀態(tài)primary/dev/lg_dumplvprimary dumpdev 不得與paging space重疊secondary/dev/sysdumpnullcopy directory/var/adm/rasforced copy flagtruealways allow d
21、umptruealways allow dump 為 truedump compressionoff# sysdumpdev -esysdump大小v主dump設(shè)備大小*80%0453-041 estimated dump size in bytes: 160432128單位:byte主dump設(shè)備空間估算=pp size * lps 單位:mislv <pri dumpdev>pp size * lpsulimit 檢查#ulimitulimit -atime(seconds)unlimitedfile(blocks)unlimiteddata(kbytes)unlimitedmemory(kbytes)unlimitedcoredump(blocks)unlimitednofiles(descriptors)2000stack(kbytes)132768win產(chǎn)品的特殊要求:2) ulimit參數(shù)修改:/etc/security/limits 文件中的stack(kbytes)參數(shù)為一1。1 . nofiles修改為-1。修改完重起機(jī)器后,cluster軟件clinfo進(jìn)程不能起來,把參數(shù)值調(diào)整為默認(rèn)的 nofiles=2000后重起
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中醫(yī)護(hù)理學(xué)(第5版)課件 第十章 其他常用中醫(yī)護(hù)理技術(shù)
- 三農(nóng)產(chǎn)品包裝與運(yùn)輸管理手冊(cè)
- 物理力學(xué)概念引入與實(shí)踐活動(dòng)設(shè)計(jì)
- 政府部門信息化建設(shè)和數(shù)據(jù)治理方案
- 銷售員工心態(tài)培訓(xùn)課程
- 可行性研究報(bào)告封面格式
- 建筑智能化系統(tǒng)設(shè)計(jì)技術(shù)規(guī)范
- 零售業(yè)O2O營銷模式創(chuàng)新與實(shí)施策略
- 綠色建筑材料應(yīng)用技術(shù)規(guī)范書
- 機(jī)器人技術(shù)及其在物流行業(yè)的應(yīng)用手冊(cè)
- GB/T 5023.5-2008額定電壓450/750 V及以下聚氯乙烯絕緣電纜第5部分:軟電纜(軟線)
- GB/T 23445-2009聚合物水泥防水涂料
- 瓷貼面教學(xué)課件
- 尺骨冠突骨折課件
- 北師大版七年級(jí)下冊(cè)第一章整式的乘除計(jì)算題專項(xiàng)訓(xùn)練
- 2022年蘇州健雄職業(yè)技術(shù)學(xué)院?jiǎn)握锌荚嚸嬖囋囶}及答案解析
- 植物生理教案
- 乳腺癌改良根治術(shù)
- 新版(七步法案例)PFMEA
- 臨床護(hù)理重點(diǎn)??平ㄔO(shè)項(xiàng)目評(píng)審標(biāo)準(zhǔn)
- 二倍角的三角函數(shù)說課稿
評(píng)論
0/150
提交評(píng)論