運維應急故障處理方案_第1頁
運維應急故障處理方案_第2頁
運維應急故障處理方案_第3頁
運維應急故障處理方案_第4頁
運維應急故障處理方案_第5頁
已閱讀5頁,還剩6頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、運維應急故障 處理方案文件編碼AQ2I-02-S001版本V03文件層級i一階口二階三階文件類別體系文件口技術文件編制部門運維部機密等級內文 秘密口機密 口絕密編制人文件類別通用口項目審核編制日期審批生效日期總頁數(shù)9分發(fā)編號01文件發(fā)布蓋章文件制/修訂記錄貞碼早節(jié)制/修訂記錄版本修訂人修訂日期備注修訂前修訂后全部全部首次制定無V012,34,5職責/作業(yè)內容V01*V02全部全部按新的角色職責 定義更新角色V02V03$%?I1目的用于突發(fā)性事件發(fā)生后的應急處理措施,確保在緊急情況下仍能保證系統(tǒng)平臺正常運行2適用范|本程序適用于所有在系統(tǒng)平臺運行過程中能事先預測到的非自然災害所產(chǎn)生的突發(fā)性事件

2、。3術語和定義突發(fā)事件:由于系統(tǒng)軟件,硬件,接入線路,機房電力,溫度等發(fā)生問題和突發(fā)意外,引起故障時間達30分鐘以上,造成關鍵服務不可用,形成重大影響的事件。4職責運維工程師:負責突發(fā)性事件應急處理計劃和對策的擬定和執(zhí)行。平臺研發(fā)部,移動應用部,客戶服務部,服務營銷部:由部門負責人及相關人員共同處理突發(fā)性應急事件。質量管理工程師:負責突發(fā)性事件應急處理計劃和對策的監(jiān)督執(zhí)行。5作業(yè)內容遠將腳技成垣傍鬻地粗站構圈1393KUS44E工即鼻yuiMSimi11工H下遠將腳技成垣傍鬻地粗站構圈1393KUS44E工即鼻yuiMSimi11工H下tsjamiflti niF?L&MEM=M3i3nKJ9

3、&LZ?DI4LD突發(fā)事件分類和應急處理基礎設施環(huán)境不可用包括運營商網(wǎng)絡割接、機房電力、空調、線路接入等基礎設施出現(xiàn)故障,且影響時 間高于30分鐘的。對于運營商已告知問題原因時處理方案:提前通知相關運營人員和客戶服務部通告影響時間,影響范圍公告用戶調整域名解析,啟用容災機房對于運營商未告知問題原因時處理方案:緊急聯(lián)絡機房接口人了解故障原因,和影響時間,評估影響范圍緊急公告,啟用預案同已知問題處理設備不可用服務器硬件故障、交換機及防火墻等網(wǎng)絡設備發(fā)生故障,且影響時間高于30分鐘的故 障處理方案:通知相關運營人員和客戶服務部啟用備份設備分析故障原因,通知廠家售后服務不可用*軟件程序問題,且影響時間

4、高于30分鐘的故障處理方案:通知相關運營人員和客戶服務部回滾到上一個穩(wěn)定軟件版本保存日志文件,分析定位問題原因通知開發(fā)人員修正軟件缺陷測試通過之后重新上線數(shù)據(jù)庫問題,且影響時間高于30分鐘的故障處理方案:通知相關運營人員和客戶服務部.提前建立數(shù)據(jù)庫集群從庫出現(xiàn)問題,訪問解析到其它從庫上主庫出現(xiàn)問題,將一臺從庫提升為主庫定期全備份和增量備份數(shù)據(jù)文件保存日志操作文件遭受惡意攻擊,且攻擊時間高于30分鐘的故障處理方案:通知相關運營人員和客戶服務部.在防火墻上操作內容:定期檢查更新防火墻策略;屏蔽惡意IP;限制每秒的連接數(shù)。在服務器上操作內容:提前部署cache服務器;屏蔽公網(wǎng)訪問核心服務端口;設定i

5、ptables策略。病毒入侵等情況操作內容:定期掃描系統(tǒng)和應用軟件漏洞;定期升級系統(tǒng)Patch;利用云服務。對于已經(jīng)執(zhí)行上述措施,仍無法抵御攻擊的情況,將部分服務遷移到公有云上,利 用云服務進行容災。正常業(yè)務量徒增處理方案:和相關運營部門建立即使溝通機制,了解產(chǎn)品推廣活動購置IDC富余帶寬,用于抗峰值將關鍵服務分布式部署故障記錄和備案建立【事件記錄表】分析故障原因,制定解決方案,避免相似故障再次發(fā)生應急預案演練明確演練范圍和參與人員如果組織是第一次進行災難恢復演練,不要嘗試在演練中測試整個業(yè)務連續(xù)性計劃,而應該選擇計劃中的一兩個部分來進行測試。多次小規(guī)模的演練比一次大規(guī)模的演 練能夠讓組織獲得

6、更多的價值。在明確了演練的范圍后,組織需要確定演練的參與人員。參與人員通常是與演練 范圍相對應的執(zhí)行人員,同時也可以包括熟悉演練范圍的管理人員。預先明確演練范圍和參與人員的好處在于,能夠深入演練,加深理解,并控制規(guī) 模。當組織逐漸適應這種演練時,就可以開始進行復雜的、測試整個計劃的演練了。組建演練規(guī)劃小組這是一個關鍵的步驟,組織需要將一小部分演練參與人員納入到規(guī)劃小組中。小組 成員也可以包括非具體執(zhí)行人員,但他們必須了解演練范圍內的業(yè)務和流程。規(guī)劃 小組至少應該包含一位公司高層,以增強規(guī)劃的可信度。設定演練目標讓規(guī)劃小組的每一個成員都了解本次演練的范圍,并通過討論設定演練的目標。 組織第一次進

7、行演練,目標應該設定在三個到五個之間一一盡量簡化每一次演練。 并且,在測試過程中盡量讓這些目標量化或者可視化。以下是演練目標設定的一些例子:驗證災難恢復流程的有效性驗證應急通訊列表的可用性并及時更新讓高層管理人員熟悉他們的角色和責任測試并提高員工的災難恢復意識驗證恢復時間目標(RTO)設計演練場景災難場景可以很簡單,也可以很復雜。它可能是簡單的一次火災,也可能是惡劣天 氣之后的一系列事件。不論如何,該場景必須能夠對預定的業(yè)務連續(xù)性計劃某一(些)部分進行測試,并能夠達到規(guī)劃小組所設定的目標。在創(chuàng)建場景的時候,可以思考以下幾個問題:場景是否可信參與人員會相信該場 景的可能性嗎該場景是否可能發(fā)生是否

8、能夠獲得一個積極的結果是否足夠簡單是 否含有過于專業(yè)的術語以至于觀眾無法聽懂是否超越了參與人員的知識范圍場景 解決方案是否過于簡單參與人員是否適合這一場景的設定?組織可以考慮使用一個曾經(jīng)發(fā)生過的災難事件作為場景,這一事件可能導致,或 者曾經(jīng)導致了組織的業(yè)務中斷。同時,組織也可以通過參考風險分析報告,選擇一 個最有可能發(fā)生的會影響到業(yè)務的事件。當然,風險分析報告內的事件排序必須要 被所有參與人員認可。還有一個方法是設計一個會突出已知缺點的場景,這種情況 下,需要在演練中引導參與人員,讓他們逐漸意識到這些缺點。設計災難場景時,使用參與人員都知道的真實的地點,并使用城市、當?shù)孛襟w、 消防部門的名稱,

9、可以幫助提高場景的真實性。在演練的過程中,主持人需要逐漸給出更多的場景信息,并引導參與人員進行討 論,這要求掌握好時機,并最終能夠導出一個具有邏輯性的結論。場景設計的一些 例子包括:上午10點5分,大樓報出火警上午10點15分,火災應急響應小組報告服務器機房起火上午10點20分,部門經(jīng)理報告一個小組成員尚未找到,可能還在火災大樓里這些能夠引起討論的信息可以通過各種方式傳遞給參與人員,例如,可以發(fā)送到 參與人員的Email地址,也可以現(xiàn)場發(fā)放復印件,或者只是主持人口頭說明這些信 息,不論選擇了哪種方式,要適合參與人員,并且在加入時盡量使信息更加生動有 趣。設計演練評估清單在明確了演練范圍、設定好

10、演練目標后,為了恰當?shù)睾饬窟@些目標是否達成,需要 設計一份演練評估清單,用以在演練中跟蹤和記錄目標的達成情況。評估清單應該包括評估者的姓名、需要評估的目標、評估的標準等,并為評估者 預留出進行評論和做筆記的地方。一份好的評估清單能夠幫助組織:確保對演練進行很好的評估突出與理想狀態(tài)之間的差距可以在培訓和宣傳中突出缺點突出設施設備的不足之處強調執(zhí)行人員的支持和意見的必要性強調持續(xù)維護和演練的必要性選擇員工擔任演練中的角色災難恢復演練中有幾個基本的角色,即參與者、觀察者、評估者和主持人,每個角 色都很重要,并且需要在演練前進行相應的指導與培訓。參與者:通常負責業(yè)務連續(xù)性計劃特定部分的具體執(zhí)行,他們不

11、必參與到演練的 規(guī)劃。觀察者:可以是組織中的任何人,只要他們對組織的業(yè)務或者流程有基本的了解 即可。這些人需要一直參與到演練中,并允許在演練的任何部分提出具有建設性的 評論和意見。評估者:負責評估演練和填寫評估清單,觀察演練中的一個或多個目標是否達成。主持人:負責整個演練的管理、參與人員之間的溝通,提供額外的信息以逐漸推 進討論,負責演練后的總結,并完成演練報告。召開演練前的指導會議在演練實施前,召開輔導會議,向參與人員解釋參與者、觀察者和評估者的角色, 允許他們提問,并為每一個人提供演練日程、地點和其它信息。最重要的是要向參與人員明確一些基本規(guī)則,以幫助參與人員消除緊張情緒,這 些規(guī)則包括:是整個組織在進行測試,不是某一個參與人員學習業(yè)務連續(xù)性計劃,并將演練當作一次培訓開誠布公地進行對話尊重他人討論時不準用手指指著別人不要期望演練能夠解決所有問題保持心

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論