下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、8月23日xxx雙機熱備維護事件23日上午接公司任務, 要求去 XXX 單位在雙機熱備上將 E 分區(qū)也加入雙機熱備共享盤, 受 EMC 熱備軟件控制管理,實現(xiàn) E 分區(qū)上的數(shù)據(jù)和軟件雙機熱備。到達 XXX 單位機房后打開雙機熱備軟件查看,發(fā)現(xiàn)主機 2 圖標為紅色,表示主機 2 已 掉線無法和主機 1 心跳同步, 但是此時任然是主機 2 在對外提供應運系統(tǒng)服務。 經(jīng)過檢查各 項設置,以及網(wǎng)絡通信情況,沒有發(fā)現(xiàn)任何故障, 隨后詢問單位相關管理人員,可否重啟服 務器2,裝在服務器2的0A系統(tǒng)是否要退出才可關閉系統(tǒng)重啟, 得到答復說0A不用退出, 萬維系統(tǒng)可暫時中斷,可直接重啟服務器,隨即重啟服務器2
2、,重啟后發(fā)現(xiàn)兩臺服務器雙機熱備連接正常, 隨后配置將 E 盤加入雙機熱備共享盤, 再次重啟服務器 2,重啟進入系統(tǒng)時, 發(fā)現(xiàn) 0A 自啟動時已報錯,提示大意為找不到文件路徑,進入 EMC 熱備軟件發(fā)現(xiàn) E 分區(qū)共 享盤已經(jīng)開始同步, 還有之前的共享 D分區(qū)也開始同步,此時知道,0A啟動時提示找不到 文件路徑的原因就是因為 E分區(qū)已經(jīng)被熱備軟件控制接管,0A系統(tǒng)無法訪問讀取 E分區(qū)。由于 0A 系統(tǒng)沒有在雙機上安裝,沒有加入雙機熱備,所以 E 分區(qū)是不應該加入雙機熱備 共享盤的。此時立刻將資源組脫機,刪除加入資源組的E 分區(qū),在數(shù)據(jù)源里刪除加入的 E共享盤, 再次重啟服務器 2,啟動后 E 分區(qū)
3、已經(jīng)不在熱備軟件共享盤資源里, E 分區(qū)已經(jīng)變?yōu)?普通分區(qū)。但是此時發(fā)現(xiàn) 0A 依然在啟動時報錯,中斷無法登陸使用。此時原來的 D 共享 盤又再次從頭開始同步, 在終端測試萬維系統(tǒng)也無法登陸使用。 現(xiàn)在服務器上的兩個應運系 統(tǒng)全部不能使用。萬維系統(tǒng)不能使用的原因是當數(shù)據(jù)共享盤在完全同步時,類似于ghost 鏡像,此時應運服務停止對外服務。 在雙機熱備兩臺服務器通信正常情況下是不會進行完全同步的,而是實時在后臺同步數(shù)據(jù), 此時應運系統(tǒng)對數(shù)據(jù)共享盤讀寫正常, 對外應運服務不受影響。 雙機熱 備軟件只有在兩種情況下才會進行完全數(shù)據(jù)同步工作,第一種情況是在新安裝熱備軟件時, 第一次數(shù)據(jù)完全同步; 第二
4、種情況是在雙機熱備正常運行過程中, 由于其中一臺服務器掉線, 導致掉線的服務器共享盤和對外服務的服務器對應的共享盤數(shù)據(jù)差別太大而必須進行完全 同步。此次共享盤完全同步就是服務器2掉線造成,掉線的原因可能是因為在 21日機房停電導致。雖然已經(jīng)將加入共享盤的 E 分區(qū)重新變?yōu)槠胀ǚ謪^(qū),但是安裝在 E 分區(qū)的 0A 系統(tǒng)還 是無法正常運行, 咨詢 0A 系統(tǒng)運維人員, 運維人員的解答是因為我們在重啟服務器時沒有 正常退出0A系統(tǒng),退出的方法是在 OA “DOS”界面命令提示符后輸入 ”Q”回車即可,如 果沒有正常退出就關閉系統(tǒng), 在下次啟動操作系統(tǒng)時, 0A 系統(tǒng)啟動時就要重新掃描數(shù)據(jù)庫, 查找數(shù)據(jù)
5、,時間大致需要 15分鐘后0A才能正常運行。但是過了 15分鐘之后在終端測試, 發(fā)現(xiàn) 0A 系統(tǒng)還是無法正常訪問,再次咨詢 0A 運維人員, 0A 運維人員說在他們那端發(fā)現(xiàn) 有一個服務沒有啟動,啟動服務后 0A 系統(tǒng)訪問正常。在下午 2 點多后,雙機熱備共享盤同步完畢,雙機熱備軟件界面里一切顯示綠色正常, 但是萬維系統(tǒng)還是無法正常使用, 此時聯(lián)系萬維公司, 萬維公司工程師上門后檢查發(fā)現(xiàn)萬維 系統(tǒng)已損壞, 共享盤有大量損壞文件無法讀取, 經(jīng)過運行磁盤掃描修復程序后, 損壞的文件 可以刪除重建,當萬維系統(tǒng)故障處理完成可以登錄后,發(fā)現(xiàn)7月 29日之后大約 500份文件已經(jīng)丟失。 此時分析這一系列故障
6、, 萬維系統(tǒng)文件損壞混亂的原因是, 當雙機熱備掉線的服 務器正常上線后在共享盤在完全同步過程中服務器多次重啟,因為共享盤在同步未完成時重啟服務器后同步工作會自動從零開始同步, 就像分區(qū)在做 GH0S 鏡像過程中強制終止一樣, 會導致分區(qū)上的文件丟失和損壞及混亂。而 7月 29日之后的文件丟失是因為熱備軟件在自 動同步共享盤時同步方向搞錯, 本應該是將數(shù)據(jù)較新的數(shù)據(jù)向數(shù)據(jù)少的另一臺服務器共享盤 同步,卻把數(shù)據(jù)少的共享盤數(shù)據(jù)同步到數(shù)據(jù)新的服務器共享盤上。丟失的文件在24 日已經(jīng) 通過我方維護人員掃描后全部導入萬維系統(tǒng)。此次事件總結如下:關于 OA 系統(tǒng),首先是 OA 系統(tǒng)及數(shù)據(jù)全部在第二臺服務器的
7、 E 分區(qū)。并沒有在第一臺 服務器上安裝, OA 系統(tǒng)服務也沒有加入雙機熱備管理軟件,受熱備軟件管理控制,所以 E 分區(qū)是不可以加入雙機熱備共享盤的,由于 OA 系統(tǒng)相應服務沒有加入熱備軟件控制管理。 E 分區(qū)加入熱備共享盤后會導致 OA 系統(tǒng)無法正常訪問讀寫數(shù)據(jù),導致 OA 系統(tǒng)故障。第二,根據(jù)在 XXX 單位日常服務的同事反應,當雙機熱備的對外提供應運的服務器切 換到第一臺服務器時, OA 系統(tǒng)也無法正常運行。據(jù)此推測有兩種情況,首先是第二臺服務 器 E 分區(qū)上安裝的 OA 系統(tǒng)可能是和服務器上 SQL 數(shù)據(jù)庫有關聯(lián),當承擔對外服務的服務 器切換到第一臺服務器時,第二臺服務器的數(shù)據(jù)庫服務會
8、被 EMC 熱備軟件關閉而導致 OA 系統(tǒng)故障,第二就是 OA 系統(tǒng)在安裝時可能使用了 EMC 熱備軟件設定的虛擬映射 IP 地址, 當雙機熱備的對外提供應運的服務器切換到第一臺服務器時,虛擬的 IP 地址映射的已經(jīng)是 第一臺服務器了,但事實上 OA 系統(tǒng)是安裝在第二臺服務器的 E 分區(qū)的。第三,OA系統(tǒng)在退出時一定要在桌面 OA系統(tǒng)啟動窗口中命令提示符后鍵入“ Q”回 車退出后才可以關閉或重啟操作系統(tǒng)。 否則在下次啟動進入系統(tǒng)后 OA 系統(tǒng)會重新掃描數(shù)據(jù) 庫,查找文件,導致 OA 系統(tǒng)大約需要 15 分鐘后才能正常使用。關于雙機熱備 ,雙機熱備的兩臺服務器在斷電關機后, 再次開機時, 開啟的
9、順序是有講 究的。就是需要哪臺服務器作為主機對外提供服務時, 就要先開哪臺服務器, 之后再開備機, 都開啟后要在熱備軟件主界面里檢查, 看看有無顯示橙色或紅色的項目, 如果有看看是哪一 項,然后找到原因處理即可。而雙機熱備服務器在關閉時,要先關閉備機,再關主機,如果 先關主機, 對外應運服務會自動被雙機熱備軟件切換到備機。 此次事件熱備軟件在做數(shù)據(jù)同 步時, 同步反的原因就是, 雖然顯示第二臺服務器掉線, 但是當時對外提供應運服務的還是 第二臺服務器。 當重啟第二臺服務器的過程中對外應運的服務器已經(jīng)被雙機熱備軟件切換到 了第一臺服務器上。 由于掉線時間較長, 服務器重啟后, 雙機熱備恢復正常后
10、發(fā)現(xiàn)數(shù)據(jù)共享 盤差異較大, 勢必要對數(shù)據(jù)共享盤做完全同步。 熱備軟件數(shù)據(jù)同步的規(guī)律是正常情況下數(shù)據(jù) 同步實時在后臺即時同步, 而不影響應運服務對數(shù)據(jù)的訪問讀寫操作, 同步的方向是對外提 供服務的服務器, 也就是主機的共享盤作為源數(shù)據(jù)盤把數(shù)據(jù)同步到備機的對應共享盤。 此次 就是因為第二臺服務器重啟后, 雙機熱備恢復了正常, 但此時對外應運的服務器已經(jīng)切換到 了第一臺服務器, 所以完全同步就把第一臺服務器的數(shù)據(jù)共享盤作為原數(shù)據(jù)給第二臺服務器 同步。結果就是不完整的舊數(shù)據(jù)覆蓋了新數(shù)據(jù),導致近期500 份文件丟失。當前 XXX 單位雙擊熱備使用狀況: 現(xiàn)在由于萬維系統(tǒng)只有一個加密狗是插在第二臺服 務器
11、上,且0A系統(tǒng)只安裝了一臺服務器,也安裝在第二臺服務器上,所以現(xiàn)在的情況是雙 機熱備不能發(fā)揮應有的作用, 一旦雙機熱備切換到了第一臺服務器, 必須手動切換回第二臺 服務器, 因為第一臺服務器沒有萬維系統(tǒng)的加密狗, 也沒有安裝 0A 系統(tǒng)。 切換到第一臺服 務器后兩個應運系統(tǒng)全部無法使用。解決方案: 解決方案只有兩種辦法, 一種是萬維系統(tǒng)再提供一個加密狗裝在第一臺服務 器,在確認 EMC 這個雙機熱備軟件支持 0A 系統(tǒng)后,讓電子政務辦給第一臺服務器也安裝 0A 系統(tǒng),然后我方將 0A 系統(tǒng)服務加入雙機熱備軟件資源組,并將 0A 系統(tǒng)安裝分區(qū)加入 雙擊熱備共享盤, 0A 系統(tǒng)完全受熱備軟件統(tǒng)一管
12、理控制。 真正實現(xiàn)兩種應運服務雙機熱備。 第二種方案就是如果電子政務辦不同意安裝兩臺服務器, 那就只有把 0A 系統(tǒng)遷出雙機熱備 的服務器, 安裝在其他服務器上, 讓萬維的系統(tǒng)在雙機熱備上正常運行。 兩個應運服務互不 干擾。避免此類事件再次發(fā)生的教訓: 最主要的是數(shù)據(jù)安全,在沒有外接存貯的情況下,雙 擊熱備并不能對數(shù)據(jù)保證安全, 只是盡量保證對外應運服務不中斷, 所以我方維護人員必須至少每周對服務器上的數(shù)據(jù)進行備份, 每天上班后都要在機房巡視一下, 看看雙機熱備系統(tǒng) 是否正常工作,有無報警或報錯,如有異常,通知公司,由公司指定人員去處理,并對每次 處理事件詳細記錄并上報。第二,如果雙機熱備服務
13、器要停機,或已停機, 在開機和關機順 序上是有講究的。如果兩臺服務器都在關機狀態(tài)下,要開機時想讓哪一臺服務器作為主機, 那就要先看哪一臺服務器,后開備機。如果要關閉雙機服務器時要先關備機,再關主機。如 果雙機熱備服務器都在運行, 但是在熱備軟件里出現(xiàn)了異常, 比如某項資源報警, 或出現(xiàn)一 臺服務器脫機等其他異常, (在 EMC 雙機熱備軟件界面里只有全部項目顯示為綠色才是完 全正常,如果是橙色就是告警, 紅色為嚴重告警, 總之如果不是綠色就不完全正常)要首先 在熱備軟件里查看當前是哪臺服務器是在對外提供服務, 這時就要注意雙機熱備同步的規(guī)律 “數(shù)據(jù)同步方向是對外提供服務的服務器共享盤作為源數(shù)據(jù), 數(shù)據(jù)同步到備機, 備機的共享 盤數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 鼻中隔膿腫的健康宣教
- 肩先露的健康宣教
- 《嵌入式系統(tǒng)原理與開發(fā)》課件-第3章
- 胎兒宮內(nèi)發(fā)育遲緩的健康宣教
- 萎縮性鼻炎的健康宣教
- 顳骨巖部炎的健康宣教
- 鰓源性囊腫與瘺的健康宣教
- 理財規(guī)劃師課件-財務
- 清華大學Java課件l
- 《詞類活用笑笑草》課件
- 浙江標準農(nóng)貿(mào)市場建設與管理規(guī)范
- 快速誘導插管指南課件
- 托盤演示教學課件
- 中華農(nóng)耕文化及現(xiàn)實意義
- DB32T 4353-2022 房屋建筑和市政基礎設施工程檔案資料管理規(guī)程
- 農(nóng)產(chǎn)品品牌與營銷課件
- 加快中高職銜接,促進職業(yè)教育協(xié)調(diào)發(fā)展(201507)課件
- 車輛二級維護檢測單參考模板范本
- 亮化照明維護服務方案
- 疼痛評估方法與管理
- 測定總固體原始記錄
評論
0/150
提交評論