IBM RS6000 小型機(jī)質(zhì)量檢查標(biāo)準(zhǔn)V1.0(評(píng)估版)_第1頁(yè)
IBM RS6000 小型機(jī)質(zhì)量檢查標(biāo)準(zhǔn)V1.0(評(píng)估版)_第2頁(yè)
IBM RS6000 小型機(jī)質(zhì)量檢查標(biāo)準(zhǔn)V1.0(評(píng)估版)_第3頁(yè)
IBM RS6000 小型機(jī)質(zhì)量檢查標(biāo)準(zhǔn)V1.0(評(píng)估版)_第4頁(yè)
IBM RS6000 小型機(jī)質(zhì)量檢查標(biāo)準(zhǔn)V1.0(評(píng)估版)_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、IBM RS6000 小型機(jī)日維指導(dǎo)書/檢查表內(nèi)部使用資料編碼產(chǎn)品名稱業(yè)務(wù)與軟件產(chǎn)品使用對(duì)象技術(shù)支援產(chǎn)品版本編寫部門集成產(chǎn)品部資料版本V0.9業(yè)務(wù)與軟件產(chǎn)品IBM RS6000 小型機(jī)日維檢查指導(dǎo)(評(píng)估版)擬 制:盧山日 期:2004-12-29審 核:日 期:審 核:日 期:批 0準(zhǔn):日 期:修 訂 記 錄日 期修訂版本作 者描 述華 為 技 術(shù) 有 限 公 司版權(quán)所有 侵權(quán)必究IBM RS6000 小型機(jī)日維檢查步驟評(píng)估版 1日檢31.1檢查系統(tǒng)錯(cuò)誤報(bào)告31.2是否有給 root 發(fā)送的 mail ,并關(guān)注內(nèi)容31.3檢查磁盤剩余空間31.4忙時(shí)/閑時(shí) 磁盤、CPU、內(nèi)存、swap 區(qū)的使

2、用情況41.4.1忙時(shí)/閑時(shí)十分鐘 CPU 實(shí)時(shí)觀測(cè)41.4.2忙時(shí)/閑時(shí)十分鐘 DISK 實(shí)時(shí)觀測(cè)41.4.3忙時(shí)/閑時(shí)十分鐘 MEM 實(shí)時(shí)觀測(cè)41.4.4忙時(shí)/閑時(shí)十分鐘 CPU 平均數(shù)據(jù)41.4.5忙時(shí)/閑時(shí)十分鐘 DISK 平均數(shù)據(jù)51.5SWAP 空間使用率檢測(cè)51.6檢查 hacmp 狀態(tài)51.7檢查 hacmp 進(jìn)程51.8檢查 cluster 日志/usr/es/sbin/cluster/history; hacmp.out ; cluster.log ;62月檢62.1系統(tǒng)備份62.2檢查系統(tǒng)硬件指示燈62.3檢查系統(tǒng)啟動(dòng)信息 alog ot boot62.4SWAP 分區(qū)大

3、小檢測(cè)72.5操作系統(tǒng)時(shí)間以及 cluster 各節(jié)點(diǎn)之間的時(shí)間一致性73季檢83.1增加操作系統(tǒng)配置參數(shù)檢測(cè)83.1.1/etc/environment 中的 TZ 不能有夏時(shí)制83.1.2檢查 AIO 是否被啟用83.1.3檢查 HACMP 中 I/O pacing:High Water Mark/Low Water MArk:33/2483.1.4檢查系統(tǒng) Syncd:1083.1.5檢查 sysdumpdev83.1.6ulimit 檢查93.1.7vmtune 檢查103.2邏輯卷 stale 檢測(cè)103.3通信檢測(cè)104年檢(或半年檢)詳見(jiàn)華為IBM聯(lián)合巡檢指導(dǎo)書114.1增加 C

4、LUSTER 切換檢測(cè)114.2增加機(jī)房環(huán)境檢測(cè)114.3增加硬件診斷114.4補(bǔ)丁微碼檢測(cè)114.5ROOTVG 鏡像檢測(cè)114.6HOTspare 磁盤檢測(cè)114.7Snap 信息收集114.8清潔設(shè)備11IBM RS6000 小型機(jī)日維檢查步驟評(píng)估版 日維檢查目的:其出發(fā)點(diǎn)是從常見(jiàn)問(wèn)題入手,對(duì)常見(jiàn)的、可預(yù)測(cè)問(wèn)題,提供一種簡(jiǎn)單可行的對(duì)照原則。檢測(cè)系統(tǒng)中出現(xiàn)的明顯瓶頸或故障,通過(guò)常用的命令和維護(hù)方法,建立盡早發(fā)現(xiàn)問(wèn)題的途徑。.日檢1.1 檢查系統(tǒng)錯(cuò)誤報(bào)告 當(dāng) IBM 小型機(jī)出現(xiàn)重要告警事件時(shí)會(huì)通過(guò) errdemon 上報(bào)錯(cuò)誤消息,可以使用 errpt查看消息內(nèi)容。#errpt |more根據(jù)

5、 TIMESTAMP 字段看是否有新增的事件輸出,注:某些重要的系統(tǒng)維護(hù)操作也會(huì)產(chǎn)生新記錄,可以結(jié)合 errpt aj 詳細(xì)輸出結(jié)果判斷是否屬于錯(cuò)誤信息。#errpt T PERM d H查看是否有新增的硬件故障#errpt aj |more 參考:需要進(jìn)一步定位故障時(shí),使用 errpt aj 指定 IDENTIFIER 號(hào)碼查看故障詳細(xì)信息,重點(diǎn)關(guān)注 Resource Name、 Description、 Probable Causes、 Failure Causes、 Recommended Actions 了解故障產(chǎn)生的原因以及建議的處理方法參考值: errpt 無(wú)近期輸出,errpt

6、T PERM d H 無(wú)新內(nèi)容顯示1.2 是否有給 root 發(fā)送的 mail ,并關(guān)注內(nèi)容原因同上mail參考值:無(wú)近期的 mail 輸出1.3 檢查磁盤剩余空間磁盤空間滿會(huì)引發(fā)各種莫名其妙的問(wèn)題,需要關(guān)注df k查看磁盤空間使用率 Used% 是否有大于 70-90,根據(jù)需要?jiǎng)h除沒(méi)有用的文件或擴(kuò)展文件系統(tǒng)參考值:無(wú)使用率大于 70-90 的文件系統(tǒng)1.4 忙時(shí)/閑時(shí) 磁盤、CPU、內(nèi)存、swap 區(qū)的使用情況CPU、內(nèi)存/swap、磁盤幾個(gè)子系統(tǒng)的使用情況,與業(yè)務(wù)運(yùn)行息息相關(guān),重點(diǎn)關(guān)注其各項(xiàng)指標(biāo)超出正常范圍的規(guī)律,配合業(yè)務(wù)應(yīng)用解決或解釋出現(xiàn)的各類瓶頸問(wèn)題。同時(shí)也可以根據(jù)長(zhǎng)期觀測(cè)積累經(jīng)驗(yàn),判

7、斷當(dāng)前系統(tǒng)是否正常,其連續(xù)觀察結(jié)果可以作為后續(xù)系統(tǒng)升級(jí)的依據(jù)。監(jiān)測(cè)磁盤、CPU、內(nèi)存、swap的使用情況,分為業(yè)務(wù)忙、閑兩個(gè)時(shí)間段進(jìn)行??梢源蜷_多個(gè)終端窗口同時(shí)執(zhí)行下列操作,兩個(gè)時(shí)段各取十分鐘數(shù)據(jù)進(jìn)行觀測(cè)或記錄。1.4.1 忙時(shí)/閑時(shí)十分鐘 CPU 實(shí)時(shí)觀測(cè)#vmstat 2 300持續(xù)觀測(cè)us、sy、id、wa的使用情況,查找資源瓶頸參考值: id30,wa30參考 1.4.4 1.4.2 忙時(shí)/閑時(shí)十分鐘 DISK 實(shí)時(shí)觀測(cè)#iostat 2 300|grep v 0.0持續(xù)觀測(cè)熱點(diǎn)盤的使用情況,查找資源瓶頸參考值:%tm_act30,wio30%此項(xiàng)監(jiān)測(cè)等同于1.4.1,重點(diǎn)關(guān)注最后一組

8、數(shù)據(jù),%wio30 是一個(gè)臨界參考值,當(dāng)wio超過(guò) 10,就應(yīng)該予以關(guān)注。如果wio超過(guò)40-50% ,則系統(tǒng)處于癱瘓邊緣。1.4.5 忙時(shí)/閑時(shí)十分鐘 DISK 平均數(shù)據(jù)#sar d 10 60對(duì) disk 進(jìn)行六十次的十秒鐘采樣,計(jì)十分種,最后一組數(shù)據(jù)為平均值參考值:busy 70%當(dāng)busy長(zhǎng)期處于90上時(shí),磁盤IO處于臨界值,需要分析業(yè)務(wù)或進(jìn)行硬件擴(kuò)容。1.5 SWAP 空間使用率檢測(cè)Swap 空間使用率過(guò)高代表著內(nèi)存不足,同時(shí)當(dāng) swap 空間滿時(shí),系統(tǒng)會(huì)出現(xiàn)異?;蛲耆スδ???梢越Y(jié)合 pi、po 進(jìn)一步觀察。#lsps s 查看 Percent Used 項(xiàng)參考值:Persent

9、 Used 50%對(duì)系統(tǒng)性能要求高時(shí),程序多會(huì)在物理內(nèi)存上運(yùn)行,該值應(yīng)該盡量接近 11.6 檢查 hacmp 狀態(tài)clstat 可以用來(lái)觀測(cè) cluste 各節(jié)點(diǎn)通訊,它的信息來(lái)源需要 hacmp 的三個(gè)服務(wù)進(jìn)程支持。每日檢查 cluster 是否處于穩(wěn)定狀態(tài),各接口狀態(tài)是否為 UP,進(jìn)而保證資源的正常切換。/usr/es/sbin/cluster/clstat -a檢查輸出結(jié)果是否正常(hacmp5.1)/usr/sbin/cluster/clstat a檢查輸出結(jié)果是否正常(hacmp4.4)參考值:1、cluster 的 state 為 UP,SubState 為 STABLE (穩(wěn)定)

10、2、所有節(jié)點(diǎn)狀態(tài)為UP3、所有接口狀態(tài)為UP( boot ip可以出現(xiàn) down 狀態(tài): cluster 的 service ip地址有兩種配置模式 ip alias OR no ip alias . 非定制的 hacmp 4.5以下的版本只支持 no ip alias一種配置方式 , hacmp4.5 及 hacmp5.1 支持 ip alias 與 no ip alias 兩種配置方式 . 當(dāng)使用 no ip alias 配置方式配置 service ip 時(shí),當(dāng)擁有資源組的節(jié)點(diǎn)啟動(dòng)后, boot ip 地址將被 serviceip 地址替換,具體表現(xiàn)為 down)4、所有 Resourc

11、e Group 為UPclstat 命令位置隨 hacmp 版本不同而不同,如與上述目錄有出入,請(qǐng)?jiān)?/usr/ 下查找該文件1.7 檢查 hacmp 進(jìn)程HACMP 按照我司規(guī)范運(yùn)行時(shí)可以看到三個(gè)進(jìn)程,分別控制資源和信息傳遞。同時(shí)也可以根據(jù) hacmp 服務(wù)進(jìn)程的狀態(tài)觀測(cè) cluster 是否已經(jīng)啟動(dòng)或停止。#lssrc g cluster可以看到 info、mux、mgr 三個(gè)服務(wù)進(jìn)程,服務(wù)進(jìn)程的名稱隨 hacmp 版本不同而不同參考值:三個(gè)服務(wù)進(jìn)程狀態(tài)應(yīng)該為 active,如果沒(méi)有特殊要求,不應(yīng)該出現(xiàn)其他進(jìn)程1.8 檢查 cluster 日志/usr/es/sbin/cluster/hi

12、story/*; /usr/es/adm/cluster.log ; /tmp/hacmp.out ;查看是錯(cuò)誤信息提示,無(wú) error、fail、switch、down 等字樣,根據(jù)行的內(nèi)容判斷是否正常。(日檢中只需要檢查新增的記錄即可)因?yàn)?hacmp.out 的日值信息非常多,日常維護(hù)可以重點(diǎn)關(guān)注 history 目錄下的文件(日期結(jié)尾)以及 cluster.log 文件。當(dāng)發(fā)現(xiàn)異常后再仔細(xì)核查 hacmp.out 文件。參考值:日志中無(wú)錯(cuò)誤信息關(guān)鍵字出現(xiàn),無(wú)例外事件產(chǎn)成,該項(xiàng)監(jiān)測(cè)較為復(fù)雜,同時(shí)難度較高,需要日常維護(hù)中逐步熟悉,對(duì)比系統(tǒng)正常時(shí)的日值文件結(jié)構(gòu)做判斷。重點(diǎn)關(guān)注項(xiàng): histo

13、ry目錄下產(chǎn)生的新文件 cluster.log 文件中的 FAILED (注意大小寫) 以及新增記錄 hacmpr.out 文件中的 ERROR (注意大小寫)history 以及 cluster.log 的位置隨 hacmp 版本不同而不同,如與上述目錄有出入,請(qǐng)?jiān)?/usr/ 下查找該目錄或文件2 月檢2.1 系統(tǒng)備份a) 卸載不需要進(jìn)行系統(tǒng)備份的根盤文件系統(tǒng),減少備份所需空間umount b) #mksysb -i /dev/rmt0系統(tǒng)備份,假設(shè) /dev/rmt0 為磁帶機(jī)設(shè)備參考值:備份結(jié)束時(shí)查看屏幕打印結(jié)果,無(wú)錯(cuò)誤信息提示2.2 檢查系統(tǒng)硬件指示燈指示燈隨設(shè)備的不同有多種定義方法

14、,原則上系統(tǒng)中不應(yīng)該出現(xiàn)黃色或紅色的告警燈出現(xiàn)。正常指示燈多為常亮綠燈(網(wǎng)卡以及特殊定義的指示燈除外)參考值:無(wú)異常指示燈2.3 檢查系統(tǒng)啟動(dòng)信息 alog ot boot# alog ot boot 檢查最近一次系統(tǒng)啟動(dòng)時(shí)記錄的信息。該檢查項(xiàng)目應(yīng)該在系統(tǒng)重啟后完成,但是為了避免遺忘,所以放在月檢中。此項(xiàng)內(nèi)容很難給出關(guān)鍵字進(jìn)行指導(dǎo),可以根據(jù)具體英文內(nèi)容判斷是否異常(出現(xiàn)異常時(shí)日志中所顯示的內(nèi)容格式與正常時(shí)有所不同)。參考值:無(wú)異常信息錯(cuò)誤信息:Failure replaying log: 0mount: 0506-324 Cannot mount /dev/bsclv202 on /usr1/

15、sjz: The media is not formatted or the format is not correct.0506-342 The superblock on /dev/bsclv202 is dirty. Run a full fsck to fix.mount: 0506-324 Cannot mount /dev/bsclv801 on /usr1/zz: A file or directory in the path name does not exist.mount: 0506-326 +B is not a valid flag.mount: 0506-326 +B

16、 is not a valid flag.mount: 0506-324 Cannot mount /dev/lviinscu on /tellin/iinscu: A file or directory in the path name does not exist.2.4 SWAP 分區(qū)大小檢測(cè)#lssp s查看 Total Paging Space 項(xiàng),很難說(shuō) paging space 空間到底多大才適合,可以根據(jù)業(yè)務(wù)要求設(shè)定。小的 paging space 在出現(xiàn)大量異常 pageout 時(shí)很容易被迅速填滿(如運(yùn)行了錯(cuò)誤的命令或內(nèi)存溢出),paging space 填滿后系統(tǒng)將無(wú)法建立

17、新的進(jìn)程,導(dǎo)致系統(tǒng)崩潰。當(dāng)業(yè)務(wù)無(wú)具體要求,同時(shí),系統(tǒng)磁盤空間足夠的情況下,paging space 可以取實(shí)際物理內(nèi)存的 11.5 倍或以上,更多的 paging space 會(huì)給異常情況處理提供更多的時(shí)間。參考值:paging space 可以取實(shí)際物理內(nèi)存的 11.5 倍或以上 , 更多的 paging space 會(huì)給異常情況處理提供更多的時(shí)間。2.5 操作系統(tǒng)時(shí)間以及 cluster 各節(jié)點(diǎn)之間的時(shí)間一致性#date查看各節(jié)點(diǎn)日期、時(shí)間是否一致。查看各節(jié)點(diǎn)日期、時(shí)間是否與當(dāng)前標(biāo)準(zhǔn)時(shí)間相符參考值:時(shí)間正確、各節(jié)點(diǎn)時(shí)間一致注:根據(jù)不同的業(yè)務(wù)需要,對(duì)于時(shí)間的監(jiān)測(cè)可以作為日監(jiān)測(cè)或周監(jiān)測(cè)內(nèi)容3

18、季檢3.1 增加操作系統(tǒng)配置參數(shù)檢測(cè)3.1.1 /etc/environment 中的 TZ 不能有夏時(shí)制 #date方法1:運(yùn)行 date 命令,查看命令輸出是否有 DT 字樣。#grep DT /etc/environment 方法2:查看enviromnent TZ一行是否有 DT 字樣此參數(shù)由 smit chtz 設(shè)定3.1.2 檢查 AIO 是否被啟用 # lsdev -Cc aio查看 aio 狀態(tài)應(yīng)該是 avaliableaio0 Available Asynchronous I/O此參數(shù)由 smitty aio 設(shè)定3.1.3 檢查 HACMP 中 I/O pacing:Hig

19、h Water Mark/Low Water MArk:33/24 # lsattr -El sys0|grep water查看maxout minout的值是否為 33、24maxpout 33 HIGH water mark for pending write I/Os per file Trueminpout 24 LOW water mark for pending write I/Os per file True此參數(shù)由 smitty chgsys 設(shè)定3.1.4 檢查系統(tǒng) Syncd:10 # ps -ef |grep syncd查看syncd的同步間隔,建議值為 10 root

20、9300 1 0 Dec 08 - 428:54/usr/sbin/syncd 10此參數(shù)由 /sbin/rc.boot 中的 nohup /usr/sbin/syncd 10 /dev/null 2&1 & 行設(shè)定3.1.5 檢查 sysdumpdev# sysdumpdev l運(yùn)行sysdumpdev命令檢查sysdumpdev的狀態(tài)primary /dev/lg_dumplvprimary dumpdev 不得與paging space重疊secondary /dev/sysdumpnullcopy directory /var/adm/rasforced copy flag TRUEa

21、lways allow dump TRUEalways allow dump 為 TRUEdump compression OFF# sysdumpdev esysdump大小 主dump設(shè)備大小*80%0453-041 Estimated dump size in bytes: 160432128單位:byte主dump設(shè)備空間估算 = PP SIZE * LPs單位:Mlslv PP SIZE * LPs3.1.6 ulimit 檢查#ulimitulimit -atime(seconds) unlimitedfile(blocks) unlimiteddata(kbytes) unlim

22、itedstack(kbytes) 132768memory(kbytes) unlimitedcoredump(blocks) unlimitednofiles(descriptors) 2000WIN產(chǎn)品的特殊要求:2)Ulimit參數(shù)修改:/etc/security/limits 文件中的stack(kbytes)參數(shù)為1。1 . nofiles 修改為 -1。修改完重起機(jī)器后,cluster 軟件 clinfo 進(jìn)程不能起來(lái),把參數(shù)值調(diào)整為默認(rèn)的nofiles2000 后重起機(jī)器問(wèn)題解決2. limits 文件中默認(rèn) rss = -1 應(yīng)修改為 rss = 65536 否則,雙機(jī)不能正常切換,文檔中沒(méi)有有關(guān)此參

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論