服務(wù)器故障應(yīng)急響應(yīng)方案說明7頁_第1頁
服務(wù)器故障應(yīng)急響應(yīng)方案說明7頁_第2頁
服務(wù)器故障應(yīng)急響應(yīng)方案說明7頁_第3頁
服務(wù)器故障應(yīng)急響應(yīng)方案說明7頁_第4頁
服務(wù)器故障應(yīng)急響應(yīng)方案說明7頁_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、服務(wù)器故障應(yīng)急措施方案n 部門n 版本編號Ver_1.0n 日期n 密級公司內(nèi)部使用文檔信息文檔名稱服務(wù)器故障應(yīng)急措施方案日期版本號更新說明2014-03-14Ver_1.0建立文檔、初始化1. 方案概述導(dǎo)致服務(wù)器出現(xiàn)故障的問題是一個(gè)龐大的集合,可以分成很多種導(dǎo)致服務(wù)器出現(xiàn)故障的原因,根據(jù)服務(wù)器故障出現(xiàn)的狀況進(jìn)行分類,確定故障屬于哪一個(gè)級別,根據(jù)相應(yīng)的故障級別對故障做對應(yīng)的處理,確保故障的處理流程是標(biāo)準(zhǔn)化的。如果沒有一套故障處理的標(biāo)準(zhǔn),工程師只能靠經(jīng)驗(yàn)去判斷,但是依靠經(jīng)驗(yàn)判斷并不是不可以,有時(shí)候這種處理方式會(huì)很高效,但是大多數(shù)這種處理方式都是不太合理的,如果更換了運(yùn)維工程師,顯然每一個(gè)工程師通

2、過經(jīng)驗(yàn)去判斷故障原因的方式都不盡相同,這樣的差異將會(huì)使故障處理事后不能夠得到很好的記錄與存檔,以供其他工程師以后借鑒故障處理案例。故障處理標(biāo)準(zhǔn)化的優(yōu)點(diǎn):A. 根據(jù)流程可以確定哪些故障應(yīng)該立即匯報(bào)上級,哪些可以自行解決后,再寫故障處理報(bào)告匯報(bào)上級,這樣做有助于提高故障處理效率。B. 對于工程師經(jīng)驗(yàn)判斷,可能出現(xiàn)判斷失誤的情況,根據(jù)故障判斷流程,可以不遺漏任何可能的情況對服務(wù)器故障進(jìn)行排除。C. 有時(shí)候工程師處理了故障之后只是簡單的做了一下匯報(bào),并沒有一些故障處理過程的記錄,以及故障處理的詳細(xì)時(shí)間記錄,這樣對需要追溯以前的具體情況的時(shí)候就束手無策了。2. 劃分故障等級故障級別故障說明故障處理第一步

3、級(緊急)當(dāng)系統(tǒng)出現(xiàn)下列相當(dāng)嚴(yán)重的現(xiàn)象時(shí),屬一級故障:l 系統(tǒng)整體癱瘓,全部操作失去響應(yīng);l 系統(tǒng)崩潰,關(guān)鍵硬件或文件系統(tǒng)損壞無法自動(dòng)修復(fù);l 發(fā)生間歇性、隨機(jī)性、重復(fù)性的啟動(dòng)或應(yīng)用退出,無法保障公司業(yè)務(wù)的正常處理。立即匯報(bào)上級級(重要)當(dāng)系統(tǒng)出現(xiàn)下列比較嚴(yán)重的現(xiàn)象時(shí),屬二級故障:l 關(guān)鍵部件(含軟、硬件)停止工作,導(dǎo)致系統(tǒng)降低運(yùn)行狀態(tài),客戶業(yè)務(wù)受到嚴(yán)重影響; l 系統(tǒng)整體性能嚴(yán)重下降,無法自動(dòng)恢復(fù)正常運(yùn)行狀態(tài); l 重要數(shù)據(jù)、參數(shù)和配置信息損壞,無恢復(fù),導(dǎo)致客戶數(shù)據(jù)及業(yè)務(wù)記錄嚴(yán)重?fù)p失; 立即匯報(bào)上級級(關(guān)鍵)當(dāng)系統(tǒng)出現(xiàn)下列現(xiàn)象時(shí),屬三級故障:l 部分設(shè)備或軟件異常,局部功能受限,系統(tǒng)整體仍可

4、正常工作,對客戶業(yè)務(wù)影響不大或存在隱患; l 關(guān)鍵備用設(shè)施因故障離線,主用設(shè)施仍能正常工作; l 系統(tǒng)運(yùn)行指標(biāo)(例如: I/O 效率、 CPU 效率)受到直接或間接影響,客戶業(yè)務(wù)處理緩慢; 立即匯報(bào)上級級(告警)當(dāng)系統(tǒng)出現(xiàn)下列情況而不影響客戶業(yè)務(wù)時(shí),屬四級故障:l 不在運(yùn)行狀態(tài)的線路、端口損壞; l 出于安全考慮并且是受保護(hù)的軟件降級或應(yīng)用重啟; l 因存儲(chǔ)空間不足導(dǎo)致的性能下降; l 系統(tǒng)硬件、軟件產(chǎn)品功能、安裝、或配置方面的支援;l 業(yè)務(wù)仍然可以正常運(yùn)作,但是服務(wù)器報(bào)出故障信息的;故障排錯(cuò)判斷3. 故障分類序列問題種類詳細(xì)內(nèi)容一機(jī)房網(wǎng)絡(luò)故障1、 骨干網(wǎng)光纖切割;2、 機(jī)房網(wǎng)絡(luò)升級;3、 機(jī)

5、房網(wǎng)絡(luò)設(shè)備調(diào)試;4、 機(jī)房網(wǎng)絡(luò)設(shè)備損壞;二政府部門封網(wǎng)1、 服務(wù)器沒有備案;2、 域名備案存在問題;3、 黑客入侵導(dǎo)致服務(wù)器違法行為;4、 違規(guī)代理服務(wù)器;5、 服務(wù)器轉(zhuǎn)發(fā)違禁網(wǎng)站;6、 服務(wù)器放置的網(wǎng)站內(nèi)容不符合當(dāng)?shù)氐恼ɡㄒ?guī);三機(jī)房鋪助設(shè)備故障1、 機(jī)房空調(diào)故障問題;2、 機(jī)房灰塵過多問題;3、 機(jī)房電力供應(yīng)問題;四機(jī)房機(jī)柜遷移1、 機(jī)柜擴(kuò)容;2、 機(jī)柜移位;3、 服務(wù)器遷移機(jī)柜;五服務(wù)器硬件故障1、 電源線損環(huán);2、 服務(wù)器電源損壞;3、 服務(wù)器非人為硬盤損壞;4、 服務(wù)器受黑客入侵攻擊時(shí)導(dǎo)致硬盤損壞;5、 CPU溫度過高燒毀;6、 內(nèi)存使用中損壞;7、 主板在電源損壞時(shí)容易燒毀;六

6、服務(wù)器系統(tǒng)故障1、 黑客攻擊導(dǎo)致系統(tǒng)癱瘓;2、 緩存日志過多沒有整理;3、 人為配置不當(dāng)導(dǎo)致系統(tǒng)崩潰;4、 硬盤損壞導(dǎo)致系統(tǒng)崩潰;七服務(wù)器應(yīng)用故障1、 服務(wù)器放置的應(yīng)用程序存在bug后門等;2、 服務(wù)器環(huán)境配置問題;3、 黑客攻擊導(dǎo)致應(yīng)用程序崩潰;4、 硬盤、內(nèi)存的兼容性差導(dǎo)致應(yīng)用程序崩潰;5、 應(yīng)用程序沒有優(yōu)化占用服務(wù)器硬件資源過高導(dǎo)致崩潰;6、 用戶負(fù)載過多導(dǎo)致應(yīng)用程序崩潰;八服務(wù)器硬件超負(fù)荷1、 數(shù)據(jù)超過硬盤讀寫負(fù)載能力導(dǎo)致應(yīng)用程序崩潰;2、 CPU使用率跑滿導(dǎo)致服務(wù)器宕機(jī);3、 使用內(nèi)存cache占用過多導(dǎo)致宕機(jī);4、 硬盤空間使用滿導(dǎo)致宕機(jī);九服務(wù)器網(wǎng)絡(luò)超負(fù)荷1、 用戶量過多,服務(wù)器

7、帶寬不足,導(dǎo)致卡頓,用戶訪問程序故障;2、 系統(tǒng)連接數(shù)過多造成系統(tǒng)擁堵網(wǎng)絡(luò)帶寬使用不上;3、 數(shù)據(jù)庫數(shù)據(jù)讀寫占用過多服務(wù)器連接數(shù),達(dá)不到預(yù)期的服務(wù)器帶寬;十人為違規(guī)操作1、 人為違規(guī)關(guān)機(jī);2、 人為違規(guī)操作更改或刪除服務(wù)器應(yīng)用;3、 機(jī)房人為關(guān)機(jī)或斷電;十一服務(wù)器受到攻擊1、 服務(wù)拒絕攻擊導(dǎo)致系統(tǒng)崩潰,如常見的UDP洪水攻擊等;2、 利用型攻擊導(dǎo)致黑客入侵系統(tǒng),如特洛伊木馬、口令猜測等;3、 信息收集型攻擊,如體系結(jié)構(gòu)探測、DNS域轉(zhuǎn)換等4、 假消息攻擊,如DNS高速緩存污染、偽造電子郵件等十二不可預(yù)知因素1、 機(jī)房遭遇火災(zāi)事故;2、 機(jī)房遭遇地震事故;服務(wù)器出現(xiàn)故障4. 故障應(yīng)急處理流程判斷

8、故障級別匯報(bào)上級匯報(bào)上級匯報(bào)上級級(緊急)級(重要)級(關(guān)鍵)級(警告)記錄發(fā)生時(shí)間記錄發(fā)生時(shí)間記錄發(fā)生時(shí)間故障排錯(cuò)流程故障排錯(cuò)流程記錄發(fā)生時(shí)間故障排錯(cuò)流程故障排錯(cuò)流程問題處理完成故障處理報(bào)告發(fā)送郵件給相關(guān)人員服務(wù)器故障處理完畢5. 故障排錯(cuò)流程故障排錯(cuò)開始是否有備用服務(wù)器判斷故障等級是否屬于級或級啟用備用服務(wù)器 是 是 否 否檢查當(dāng)前故障服務(wù)器執(zhí)行數(shù)據(jù)備份與日志備份的腳本查看報(bào)錯(cuò)日志,根據(jù)故障分類確定故障范圍,逐條排除嘗試修復(fù)故障,并且驗(yàn)證是否解決問題 否 是故障處理完成6. 數(shù)據(jù)與日志備份在進(jìn)行故障修復(fù)的時(shí)候,需要對服務(wù)器系統(tǒng)以及軟件的配置文件進(jìn)行修改,這些修改可能造成的風(fēng)險(xiǎn)是很大的,這時(shí)

9、保存?zhèn)浞菖渲梦募畔ⅰ?yīng)用數(shù)據(jù)、系統(tǒng)日志信息會(huì)很重要,可以直接通過shell腳本對服務(wù)器重要的數(shù)據(jù)進(jìn)行備份。7. 故障處理報(bào)告7.1. 故障處理報(bào)告文件命名規(guī)則文件名前綴故障級別服務(wù)器名稱故障類型故障處理報(bào)告級緊急Linux服務(wù)器名稱(終端#前面的字符)故障分類詳細(xì)內(nèi)容級重要級關(guān)鍵級告警例如:故障處理報(bào)告_級緊急_squid-chendu_系統(tǒng)崩潰7.2. 故障處理報(bào)告內(nèi)容故障發(fā)現(xiàn)時(shí)間Xxxx 年 xx 月 xx 日 xx:xx (24小時(shí)制)處理完成時(shí)間如果處理一次就解決的直接寫:Xxxx 年 xx 月 xx 日 xx:xx (24小時(shí)制)如果多次處理后才解決,按下面格式寫: Xxxx 年 xx 月 xx 日 xx:xx (24小時(shí)制) Xxxx

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論