版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第一章、機(jī)房環(huán)境及物理檢查一、機(jī)房?jī)?nèi)環(huán)境要求1. 溫度與濕度:最佳工作溫度:20-25攝氏度極限工作溫度:10-40攝氏度 濕度: 8-80%(在23攝氏度條件下)如果不是工作在最佳溫度,請(qǐng)注意改善機(jī)房環(huán)境2. 同時(shí)機(jī)房要保證清潔.機(jī)房應(yīng)保持清潔,若空氣灰塵過(guò)多,很容易造成資源讀寫錯(cuò)誤及磁盤機(jī)中磁盤或讀寫磁頭毀損。二、電源要求電 壓: 要求電壓穩(wěn)定, 尖峰電壓會(huì)損壞設(shè)備電壓范圍: 220V +/- 10%, 即200-240V, 50-60Hz電源功率: 視機(jī)器類型和系統(tǒng)配置而定電源線 : 標(biāo)準(zhǔn)的零, 地, 火三相電, 其中零, 地電壓不得超過(guò)3.0V.電源接駁: 用符合電流要求的空氣開關(guān)或其
2、他設(shè)備和主機(jī)電源線接駁,保證計(jì)算機(jī)系統(tǒng)的可靠工作應(yīng)使用穩(wěn)壓電源和UPS,并建議配備發(fā)電機(jī)組;對(duì)于冗于電源的接入,建議采用兩路單獨(dú)輸入.三、硬件檢查檢查服務(wù)器、磁陣的安裝、電源線、7133和主機(jī)接線符合要求。服務(wù)器狀態(tài)檢查:1. 當(dāng)服務(wù)器處于啟動(dòng)和正常工作狀態(tài)時(shí),其前面板上的液晶顯示屏上應(yīng)無(wú)信息顯示。2. 當(dāng)液晶顯示器上出現(xiàn)帶數(shù)字和字母的信息時(shí),說(shuō)明有硬件告警。可以通過(guò)查詢相關(guān)機(jī)型的Service Guide查到相應(yīng)告警原因,情況嚴(yán)重的,則要立即通知IBM技術(shù)專家進(jìn)行問題排查。7133狀態(tài)檢查:磁陣前面板上有7133機(jī)柜的狀態(tài)燈(與電源燈并排)和各硬盤的狀態(tài)燈(一排小燈,與各硬盤位置一一對(duì)應(yīng))。
3、1. 當(dāng)機(jī)柜的狀態(tài)燈出現(xiàn)橙黃色時(shí),說(shuō)明有硬件告警,此時(shí)要檢查磁柜的電源、接線、硬盤等。如果有硬件故障則立即進(jìn)行更換和更正,如果查不出具體問題,則需要聯(lián)系相關(guān)專家進(jìn)一步診斷。2. 當(dāng)硬盤工作正常時(shí),與各硬盤對(duì)應(yīng)的硬盤燈會(huì)呈綠色,如無(wú)讀寫,則綠燈一直亮,如該硬盤有讀寫操作,則綠燈會(huì)不規(guī)則閃爍,當(dāng)硬盤損壞時(shí)或SSA環(huán)路出現(xiàn)問題時(shí),則硬盤狀態(tài)燈將熄滅,或者呈閃爍狀態(tài):以13秒的頻率有規(guī)律地、不停地閃爍第二章、系統(tǒng)日常維護(hù)流程2.1系統(tǒng)啟動(dòng)系統(tǒng)啟動(dòng)正常順序如下:首先對(duì)外設(shè)(磁盤陣列、磁帶庫(kù)等)加電。待所有外設(shè)加電自檢完成后, 主機(jī)加電正常起機(jī)。主機(jī)加電后,系統(tǒng)進(jìn)行自檢,在液晶顯示屏顯示”ok”后,才能按
4、白色POWER鍵起機(jī).啟動(dòng)主機(jī)HACMP,啟動(dòng)后可用命令 tail -f /tmp/hacmp.out 來(lái)檢查啟動(dòng)情況,在HACMP未完全啟動(dòng)前不要進(jìn)行下一步。檢查服務(wù)器的網(wǎng)絡(luò)地址,路由表(可用netstat -i , netstat -rn 等),檢查文件系統(tǒng),邏輯卷(可用 mount , lsvg -o 等)。檢查各項(xiàng)應(yīng)用是否工作正常。2.2系統(tǒng)關(guān)閉停止HACMP ( smitty clstop)。查看HACMP的狀態(tài),檢查服務(wù)器的網(wǎng)絡(luò)地址,路由表(可用netstat -i , netstat -rn 等),檢查文件系統(tǒng),邏輯卷(可用 mount , lsvg -o 等)。在HACMP未完
5、全停止前不要進(jìn)行下一步。關(guān)閉主機(jī) (shutdown F)。重啟系統(tǒng)可以使用:shutdown -Fr如有必要的話,按磁盤陣列前方的白色按鈕關(guān)閉磁盤陣列。2.3查看系統(tǒng)的錯(cuò)誤記錄在系統(tǒng)運(yùn)行時(shí),一些系統(tǒng)錯(cuò)誤會(huì)記錄在errlog 中,其中有些錯(cuò)誤還會(huì)在終端上顯示。檢查錯(cuò)誤日志可用以下命令:#errpt|more查看系統(tǒng)所有的記錄IDENTIFIER TIMESTAM P T C RESOURCE_NAME DESCRIPTIONE85C5C4C 0426104399 P S CFGLFT SOFTWARE PROGRAM ERROR2BFA76F6 0426104099 T S SYSPROC S
6、YSTEM SHUTDOWN BY USER9D4CF6E7 0426104399 T O errdemon ERROR LOGGING TURNED ON1E2AC07E 0426103999 T O errdemon ERROR LOGGING TURNED OFF1E5EER4T 0423132999 T O clstrmgr OPERATOR NOTIFICATION 其中IDENTIFIER 為錯(cuò)誤編號(hào),當(dāng)需要檢查詳細(xì)信息時(shí)常會(huì)用到。TIME STAMP 為時(shí)間標(biāo)簽,它記錄的是出錯(cuò)時(shí)間,其格式:月月日日時(shí)時(shí)分分年年T 為Type , 它記錄的是錯(cuò)誤類型P :為永久錯(cuò)誤,需引起注意T
7、:為臨時(shí)錯(cuò)誤。C 為Class, 它記錄的是錯(cuò)誤種類,如H : HardwareS : SoftwareO : Errloger command messagesU : undeterminedRESOURCE_NAME 為錯(cuò)誤來(lái)源DESCRIPTION 為錯(cuò)誤描述#errpt -aj <IDENTIFIER>查看系統(tǒng)詳細(xì)記錄內(nèi)容其中IDENTIFIER為錯(cuò)誤編號(hào),如 #errpt -aj 0426104399#errpt -dH 查看系統(tǒng)所有的硬件出錯(cuò)記錄2.4系統(tǒng)與數(shù)據(jù)備份有效及時(shí)的系統(tǒng)備份是系統(tǒng)管理的非常重要的一環(huán)。當(dāng)系統(tǒng)出現(xiàn)故障時(shí),特別是文件系統(tǒng)被嚴(yán)重?fù)p壞或硬盤損壞時(shí),常需
8、要使用系統(tǒng)備份來(lái)恢復(fù)系統(tǒng)。在以下情況下應(yīng)做系統(tǒng)備份:1、新裝機(jī)。在硬件及系統(tǒng)軟件安裝完成后,應(yīng)做系統(tǒng)備份。2、軟件改動(dòng)。系統(tǒng)軟件或應(yīng)用軟件有改動(dòng)時(shí),應(yīng)做系統(tǒng)備份。3、定期備份。對(duì)系統(tǒng)進(jìn)行定期備份,最好每?jī)苫蛉齻€(gè)月做一次備份。系統(tǒng)備份操作介紹:在命令行中輸入smitty mksysb ,可見到以下畫面:按 F4 鍵,見到以下畫面:通過(guò)上下鍵選擇備份的目標(biāo)設(shè)備(選/dev/rmt0 磁帶機(jī)),按回車,見到以下畫面:再按回車,開始備份,直到見到以下畫面,表示備份完成:備份注意事項(xiàng):進(jìn)行系統(tǒng)備份無(wú)須停止業(yè)務(wù),業(yè)務(wù)可以繼續(xù)進(jìn)行。建議客戶進(jìn)行定期的系統(tǒng)備份(使用命令smitty mksysb)。客戶也可根
9、據(jù)需要利用SMIT對(duì)系統(tǒng)的特定的VG或FS進(jìn)行備份。smitty mksysb只備份rootvg中mount起來(lái)的文件系統(tǒng),其它文件系統(tǒng)或數(shù)據(jù)并沒有做備份,所以數(shù)據(jù)備份需要另外完成(建議客戶使用TAR格式)在條件允許的情況下,最好有一盤以上備份帶,以防止磁帶損壞。 系統(tǒng)備份過(guò)程中有時(shí)候會(huì)提示有些/tmp目錄下的文件無(wú)法備份,顯示如下:Creating list of files to back up.Backing up 34025 files.1694 of 34025 files (4%).2733 of 34025 files (8%).backup: 0511-449 An error
10、 occurred accessing ./tmp/sh34736.1: A file or directory in the path name does not exist.backup: 0511-449 An error occurred accessing ./tmp/sh34736.2: A file or directory in the path name does not exist.backup: 0511-449 An error occurred accessing ./tmp/sh34736.3: A file or directory in the path nam
11、e does not exist.15458 of 34025 files (45%).31920 of 34025 files (93%).0512-003 mksysb may not have been able to archive some files.The messages displayed on the Standard Error contained additionalinformation.這是正?,F(xiàn)象,備份成功。2.5系統(tǒng)恢復(fù) 當(dāng)系統(tǒng)發(fā)生比較嚴(yán)重的故障以致采取一般性維護(hù)手段不能在短期內(nèi)恢復(fù)原系統(tǒng),在與客戶進(jìn)行蹉商后,可將最近一次的系統(tǒng)備份帶倒回機(jī)器內(nèi)以全面恢復(fù)系統(tǒng)到最
12、近一次做備份時(shí)的系統(tǒng)環(huán)境,然后可將當(dāng)日的數(shù)據(jù)備份再倒回系統(tǒng)內(nèi)。至此,系統(tǒng)可恢復(fù)正常運(yùn)行。此后,客戶應(yīng)當(dāng)與IBM工程師再進(jìn)行整個(gè)事件的全面分析與回顧,以期找到故障發(fā)生的原因,并采取相應(yīng)措施以杜絕類似事件再次發(fā)生。2.6 DUMP當(dāng)系統(tǒng)運(yùn)行出現(xiàn)軟件故障導(dǎo)致系統(tǒng)down機(jī)時(shí),機(jī)器的液晶顯示器會(huì)出現(xiàn) 888 102 xxx 0c0 (xxx可能為700或其它),AIX常會(huì)將當(dāng)時(shí)系統(tǒng)的運(yùn)行情況記錄下來(lái),這就是DUMP。當(dāng)DUMP產(chǎn)生后,請(qǐng)將磁帶放入磁帶機(jī),用命令 # snap -a -o /dev/rmt0將DUMP 文件拷貝到磁帶設(shè)備/dev/rmt0 中。注明磁帶機(jī)的block size, DUMP
13、產(chǎn)生的日期和機(jī)器的型號(hào)及序列號(hào)。同時(shí),請(qǐng)用# errpt -a >/tmp/err.log 將errorlog 記在/tmp/err.log中,并將 /tmp/err.log 和 /tmp/hacmp.* 拷貝到軟盤或磁帶上。將磁帶和軟盤交給IBM工程師。2.7日常檢查服務(wù)器狀態(tài)的項(xiàng)目及其相關(guān)命令1 運(yùn)行l(wèi)sdev 命令配以各種參數(shù),所列各種設(shè)備狀態(tài)都應(yīng)為Available。#lsdev C H S a 列出系統(tǒng)中可用設(shè)備。#lsdev Cc processor列出系統(tǒng)中的所有CPU。#lsdev Cc memory列出系統(tǒng)中的所有內(nèi)存。#lsdev Cc disk列出系統(tǒng)中的所有硬盤。
14、#lsdev -Cc adapter | grep ent列出系統(tǒng)中的所有網(wǎng)卡#lsdev -Cc adapter | grep scsi列出系統(tǒng)中的所有SCSI卡。#lsdev -Cc adapter | grep ssa列出系統(tǒng)中的所有SSA卡。2 lspv命令#lspv顯示系統(tǒng)中可用的PV。#lspv hdiskn顯示hdiskn的具體信息。#lsdev Cc pdisk 顯示磁盤陣列的硬盤的具體信息。對(duì)SSA硬盤的檢測(cè):在對(duì)主機(jī)進(jìn)行工作之前可以先把磁盤陣列上電,等主機(jī)完全啟動(dòng)后,登錄到主機(jī)上,運(yùn)行以下命令“ lsdev Cc pdisk “,應(yīng)該可以看到所有SSA硬盤,并且狀態(tài)應(yīng)為Av
15、ailable.。3 lsattr命令# lsattr E l mem0列出系統(tǒng)中內(nèi)存mem0的大小,本項(xiàng)目中內(nèi)存有4GB。4 lsvg命令#lsvg列出系統(tǒng)中所有的vg。#lsvg rootvg列出rootvg的詳細(xì)信息。#lsvg o 列出激活的vg5 oslevel命令#oslevel顯示操作系統(tǒng)版本信息。6 netstat命令#netstat in顯示系統(tǒng)中各網(wǎng)卡的配置??刹榭淳W(wǎng)卡的IP配置好了沒有。7 通過(guò)運(yùn)行# diag 命令運(yùn)行硬件診斷程序檢測(cè)主機(jī)內(nèi)所有硬件,檢測(cè)結(jié)果為 “No trouble found ”顯示各部分工作正常。8 使用#diag命令(選擇:Task Select
16、ion-> SSA Service Aids)對(duì)SSA硬盤鏈路連接的校驗(yàn),可以通過(guò)SSA 工具里的Link Verification 來(lái)檢測(cè)。如有必要,可以用 Certify Disk運(yùn)行硬盤診斷部分進(jìn)行硬盤的表面分析測(cè)試 ,由1% 至100%,檢測(cè)結(jié)果顯示主機(jī)內(nèi)置硬盤的所有扇區(qū)均讀寫正常。9 lsps a 查看PAGING SPACE的使用情況,如果使用率超過(guò)70%,就需要采取措施。10 lsvg o | lsvg il | grep i stale查看有無(wú)stale的lv,如果輸入該命令之后有輸出結(jié)果,就需要采取措施11 有否發(fā)給root用戶的錯(cuò)誤報(bào)告(mail)。12 檢查雙機(jī)狀態(tài)
17、:lssrc g cluster 檢查ha三個(gè)工作進(jìn)程是否激活,/usr/sbin/cluster/clstat a檢查雙機(jī)狀態(tài)是否up,并檢查hacmp.out日志,看是否有異常信息。13 用vmstat, topas,sar 命令檢查系統(tǒng)性能,檢查cpumemoyrIO ,是否存在性能瓶頸。14 檢查能否順利進(jìn)入CDE界面,如果不能進(jìn)入的話,要檢查/etc/hosts表中有否錯(cuò)誤的項(xiàng)目。15 用smitty ssaraid 查看磁盤陣列RAID盤的狀態(tài)是否是Good。如果是degrade或其他狀態(tài)表示RAID盤出現(xiàn)問題了16 用sysdumpdev l 查看系統(tǒng)的DUMP設(shè)置是否正常。17
18、 用instfix ik | grep ML當(dāng)前操作系統(tǒng)補(bǔ)丁版本補(bǔ)丁程序(PTF)是否滿足穩(wěn)定運(yùn)行的需要。一般要求433操作系統(tǒng)補(bǔ)丁要打到10以上,5.1操作系統(tǒng)補(bǔ)丁要打到5以上18 使用df kP查看磁盤空間占用率,請(qǐng)確保以下文件系統(tǒng)的占用率高于80%立即上報(bào): / /var /usr /home /tmp /zxindata/zxinbak,其余文件系統(tǒng)的占用率高于95%立即上報(bào)也可以到各文件系統(tǒng)下使用組合命令:find . size +2048 o ctime 1 exec ls l ; 查出大于1M或一天之內(nèi)修改過(guò)的文件。2.8性能監(jiān)控與調(diào)優(yōu)通過(guò)命令vmstat 1 來(lái)觀察.kthr
19、memory page faults cpu- - - - - r b avm fre re pi po fr sr cy in sy cs us sy id wa命令解析:vmstat 命令的輸出可以反映系統(tǒng)整體運(yùn)行狀況,包括cpu、內(nèi)存、虛擬頁(yè)面、系統(tǒng)進(jìn)程和系統(tǒng)調(diào)用情況。檢查CPU是否為瓶頸,分別檢查CPU的四項(xiàng)數(shù)值和kthr的兩項(xiàng)數(shù)值.檢查MEM是否為瓶頸,分別檢查Memory的兩項(xiàng)數(shù)值和Page 的六項(xiàng)數(shù)值.通過(guò)命令 sar mu P ALL 來(lái)觀察。命令解析: sar可以用來(lái)收集反映系統(tǒng)運(yùn)行狀況,在這里主要是查看CPU的運(yùn)行狀況,CPU是否負(fù)載均衡,是否存在分配
20、不均的情況。通過(guò)命令ps gv | more來(lái)觀察。PID TTY STAT TIME PGIN SIZE RSS LIM TSIZ TRS %CPU %MEM COMMAND 0 - A 4:20 7 12 14516 xx 0 14504 0.0 5.0 swapper 1 - A 1:33 103 78952 79044 32768 25 36 0.0 29.0 /etc/init命令解析:ps可以用來(lái)查看進(jìn)程的當(dāng)前狀態(tài)。在這里通過(guò)參數(shù)的配搭,可以觀察目前正在運(yùn)行的進(jìn)程所耗的時(shí)間,CPU和memory 量.其中,%CPU表示進(jìn)程所占用的CPU資源情況,%MEM表示進(jìn)程所占用的內(nèi)存情況。主要檢查是否有標(biāo)示為<defunc>的僵尸進(jìn)程耗用系統(tǒng)資源,以及in
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024跨境教育服務(wù)與合作合同
- 2025年消防現(xiàn)場(chǎng)施工安全文明施工合同范本
- 2025年度高風(fēng)險(xiǎn)投資借貸合同風(fēng)險(xiǎn)預(yù)警版3篇
- 2024版建筑工程勘察合同書
- 二零二五年度酒水行業(yè)專業(yè)論壇與合作交流合同3篇
- 個(gè)人與企業(yè)間產(chǎn)品代理合同(2024版)
- 2025年豆粕代銷委托管理標(biāo)準(zhǔn)合同3篇
- 2024版政府定點(diǎn)采購(gòu)合同書
- 2024施工項(xiàng)目BIM技術(shù)應(yīng)用中介服務(wù)協(xié)議2篇
- 2025年智能小區(qū)綠化節(jié)能技術(shù)應(yīng)用承包合同2篇
- 建筑史智慧樹知到期末考試答案2024年
- 金蓉顆粒-臨床用藥解讀
- 社區(qū)健康服務(wù)與管理教案
- 2023-2024年家政服務(wù)員職業(yè)技能培訓(xùn)考試題庫(kù)(含答案)
- 2023年(中級(jí))電工職業(yè)技能鑒定考試題庫(kù)(必刷500題)
- 藏歷新年文化活動(dòng)的工作方案
- 果酒釀造完整
- 第4章-理想氣體的熱力過(guò)程
- 生涯發(fā)展展示
- 手術(shù)室應(yīng)對(duì)突發(fā)事件、批量傷員應(yīng)急預(yù)案及處理流程
- 動(dòng)機(jī)-行為背后的原因課件
評(píng)論
0/150
提交評(píng)論