HACMP維護(hù)手冊(cè)_第1頁
HACMP維護(hù)手冊(cè)_第2頁
HACMP維護(hù)手冊(cè)_第3頁
HACMP維護(hù)手冊(cè)_第4頁
HACMP維護(hù)手冊(cè)_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 HACMP維護(hù)文檔 什么是HACMP 在我們解釋什么是HACMP以前,我們先來定義一下高可用性的概念。 High availability:在當(dāng)今復(fù)雜的環(huán)境下,成功實(shí)現(xiàn)IT應(yīng)用的一個(gè)關(guān)鍵要素就是提供不間斷的應(yīng)用服務(wù)和數(shù)據(jù)保護(hù)。HA就是這樣一個(gè)可以通過消除計(jì)劃內(nèi)/計(jì)劃外宕機(jī)事件從而向客戶應(yīng)用提供不間斷服務(wù)的部件,它能達(dá)到消除從硬件到軟件的單點(diǎn)故障(SPOFs)。 實(shí)現(xiàn)一個(gè)高可用性解決方案,需要: 冗余服務(wù)器、冗余網(wǎng)絡(luò)、冗余網(wǎng)絡(luò)接口卡、監(jiān)視、故障檢測(cè)、故障診斷、自動(dòng)接管、自動(dòng)重新控制 HACMP的主要目標(biāo)就是消除單點(diǎn)故障。 IBM針對(duì)AIX的高可用性解決方案-HACMP群集技術(shù),它包括以下兩個(gè)組

2、件: 高可用性(HA): 該進(jìn)程保證應(yīng)用在用戶復(fù)制共享資源時(shí)是可用的。 群集多處理(CMP): 該進(jìn)程提供在同一節(jié)點(diǎn)上多個(gè)應(yīng)用共享或并發(fā)訪問 數(shù)據(jù)。 基于HACMP的高可用性解決方案提供自動(dòng)失效檢測(cè)、診斷、應(yīng)用恢復(fù)和節(jié)點(diǎn)重新控制。在恰當(dāng)?shù)膽?yīng)用中,HACMP還可以在并行應(yīng)用處理中提供對(duì)數(shù)據(jù)的并發(fā)訪問,從而提供更高的可擴(kuò)展性。高可用性系統(tǒng)VS容錯(cuò)系統(tǒng)容錯(cuò)系統(tǒng): 它是提供冗余的設(shè)計(jì)為不間斷操作。這樣的系統(tǒng)中所有的組件都是雙份的(不管硬件還是軟件),CPU、內(nèi)存、磁盤都有特殊的設(shè)計(jì)來提供不間斷服務(wù)。這樣的系統(tǒng)是非常昂貴和非常專業(yè)的。只有在要求0宕機(jī)的環(huán)境中,容錯(cuò)系統(tǒng)設(shè)備和方案才有需求。高可用性系統(tǒng):

3、配置為高可用性的系統(tǒng)是一組軟件、硬件的組合,可以保證系統(tǒng)失效后在可接受的宕機(jī)時(shí)間內(nèi)恢復(fù)。在這種系統(tǒng)中,軟件負(fù)責(zé)監(jiān)測(cè)到環(huán)境故障后將應(yīng)用交給另一個(gè)機(jī)器實(shí)現(xiàn)隊(duì)員機(jī)器的接管。因此,在這種環(huán)境下重要的是消除SPOF。例如,如果只有一個(gè)網(wǎng)絡(luò)連接,就需要提供第二塊網(wǎng)卡以備主網(wǎng)卡失效后接管。另一點(diǎn)就是通過將數(shù)據(jù)放在所有節(jié)點(diǎn)都可以訪問的共享磁盤上并實(shí)現(xiàn)鏡像。HACMP相關(guān)概念1、群集拓?fù)洌?包含基本的群集組件節(jié)點(diǎn)、網(wǎng)絡(luò)、通訊接口、通訊設(shè)備、通訊適配器。2、群集資源: 被設(shè)為高可用性的實(shí)體(例如文件系統(tǒng)、裸設(shè)備、服務(wù)IP標(biāo)簽、應(yīng)用等)。所有資源被組織成資源組(RG),HACMP保持唯一實(shí)體資源組的高可用性。資源組

4、可以被一個(gè)節(jié)點(diǎn)訪問或者在并發(fā)應(yīng)用中同時(shí)被多個(gè)節(jié)點(diǎn)訪問。3、Fallover: 在活動(dòng)節(jié)點(diǎn)出現(xiàn)故障時(shí),將資源組從活動(dòng)節(jié)點(diǎn)轉(zhuǎn)移到備份節(jié)點(diǎn)的動(dòng)作。4、Fallback: 原來的活動(dòng)節(jié)點(diǎn)恢復(fù)時(shí),將資源組切換回原節(jié)點(diǎn)的動(dòng)作。這是將失效節(jié)點(diǎn)重新集成到集群的標(biāo)準(zhǔn)動(dòng)作。HACMP相關(guān)術(shù)語 要理解HACMP的正確功能并利用它,就必須知道一些術(shù)語:1、群集(Cluster):為共享資源和相互通訊而通過網(wǎng)絡(luò)連接在一起的獨(dú)立主機(jī)(節(jié)點(diǎn))。HACMP負(fù)責(zé)定義在協(xié)同的系統(tǒng)中哪個(gè)節(jié)點(diǎn)提供服務(wù)哪個(gè)節(jié)點(diǎn)不提供服務(wù)。所有節(jié)點(diǎn)共同負(fù)責(zé)維護(hù)應(yīng)用的功能可用。2、節(jié)點(diǎn)(Node):在群集中所有運(yùn)行AIX系統(tǒng)和HACMP軟件的IBMp系列

5、服務(wù)器都是節(jié)點(diǎn)。每個(gè)節(jié)點(diǎn)都有一個(gè)資源集(磁盤、文件系統(tǒng)、IP地址、應(yīng)用)在該節(jié)點(diǎn)失效時(shí)可以被群集中其他節(jié)點(diǎn)接管。3、資源(Resource):是在群集配置中可以從一個(gè)節(jié)點(diǎn)轉(zhuǎn)移到其他節(jié)點(diǎn)的邏輯組件。所有必須提供高可用性應(yīng)用的資源被構(gòu)成資源組(RG)。當(dāng)節(jié)點(diǎn)失效時(shí),資源組中的組件被一同從一個(gè)節(jié)點(diǎn)移動(dòng)到另一個(gè)節(jié)點(diǎn)。一個(gè)群集可以有多個(gè)RG,從而提高節(jié)點(diǎn)的效率(也就是HACMP中的Multi-Processing)。HACMP相關(guān)術(shù)語4、接管:在群集內(nèi)部節(jié)點(diǎn)之間傳送資源的操作稱為接管。如果一個(gè)節(jié)點(diǎn)發(fā)生硬件故障或AIX故障,它的資源應(yīng)用會(huì)被移到另一個(gè)節(jié)點(diǎn)。5、客戶:客戶就是可以通過局域網(wǎng)訪問群集節(jié)點(diǎn)應(yīng)用的

6、一個(gè)系統(tǒng)??蛻敉ㄟ^運(yùn)行客戶端程序連接到應(yīng)用所在的服務(wù)器上。 HACMP的實(shí)現(xiàn)(此處略去)安裝配置HACMP共分三步:1、準(zhǔn)備AIX: 在AIX中配置硬件、軟件。2、安裝HACMP軟件3、配置HACMP群集AIX中需要配置網(wǎng)絡(luò)、共享磁盤、LVM組件等 配置IP 配置串行網(wǎng)絡(luò) 配置共享磁盤 定義LVM組件 編輯文件/.rhosts串行網(wǎng)絡(luò) 每個(gè)運(yùn)行Cluster Manager進(jìn)程軟件的節(jié)點(diǎn)會(huì)通過HACMP中配置的所有網(wǎng)卡持續(xù)送出Keep-alive包(心跳信號(hào))到Cluster的其它各個(gè)節(jié)點(diǎn)。HACMP就是通過檢測(cè)節(jié)點(diǎn)間keep-alive包的中斷來檢測(cè)網(wǎng)絡(luò)事件。 Keep-alive包通常在同

7、一網(wǎng)絡(luò)上的服務(wù)網(wǎng)卡間和備份網(wǎng)卡間雙向傳輸。傳輸中的任何中斷都會(huì)激活故障檢測(cè)過程,此時(shí),Keepalive向所有網(wǎng)卡上傳送。通過簡(jiǎn)單的“淘汰過程”,故障原因被很快發(fā)現(xiàn),然后群集可采取正確的事件處理腳本處理故障。 由于服務(wù)網(wǎng)卡和備份網(wǎng)卡都是采用TCP/IP進(jìn)行通訊的,如果某節(jié)點(diǎn)的TCP/IP子系統(tǒng)發(fā)生故障或者網(wǎng)絡(luò)擁塞,就會(huì)造成Keep-alive包無法正常傳輸。此時(shí)因?yàn)樗械男奶V沽耍渌?jié)點(diǎn)將錯(cuò)誤地認(rèn)為該節(jié)點(diǎn)故障,導(dǎo)致其它節(jié)點(diǎn)試圖接管資源,群集及其資源將處于不穩(wěn)定狀態(tài)。 因此HACMP中必須配置一條串行網(wǎng)絡(luò),當(dāng)LAN故障時(shí),可以提供另外的Keep alive路由。由于串行網(wǎng)絡(luò)不用TCP/IP協(xié)

8、議,所以TCP/IP子系統(tǒng)的故障并不意味著HACMP故障,使得群集可以分清網(wǎng)絡(luò)故障和節(jié)點(diǎn)故障,避免出現(xiàn)孤立節(jié)點(diǎn)串行網(wǎng)絡(luò)HACMP日常系統(tǒng)管理維護(hù) 日常日志1: 日常日志主要是記錄平時(shí)事件的啟動(dòng),從中可以了解HACMP的動(dòng)作,例如主機(jī)standby網(wǎng)卡故障,有fail_standby事件發(fā)生,系統(tǒng)管理員可從日志中得知何時(shí)出的故障,及有沒有解決。主要日志文件有:(查找文件命令find / -name “文件名”)/var/hacmp/log/hacmp.out.1-7:存放由HACMP腳本產(chǎn)生的帶時(shí)間戳信息,包括執(zhí)行的命令及其輸出。腳本中的每一命令及其參數(shù)占一行。此文件一天刷新一次,保留七天;/v

9、ar/hacmp/adm/cluster.log:存放由HACMP腳本和daemon產(chǎn)生的帶時(shí)間戳的信息。每個(gè)事件在記錄文件中有兩行一行在開始時(shí)寫入,一行在結(jié)束時(shí)寫入。 日常日志2:/tmp/cm.log:(未找到)保存HACMP中clstrmgr進(jìn)程產(chǎn)生信息的時(shí)間;HACMP技術(shù)人員在clstrmgr處于debug模式下排錯(cuò)需要參考此文件內(nèi)容。重啟集群服務(wù),這個(gè)文件就會(huì)被重寫,因此需要做好備份。(/var/hacmp/log中有參考日志文件)/var/hacmp/adm/history/cluster.mmddyyyy:HACMP的歷史記錄文件,不同日期發(fā)生的集群事件記錄在不同的文件中。mm

10、-月 dd-日 yyyy-年HACMP日常系統(tǒng)管理維護(hù) 啟動(dòng)和關(guān)閉HACMP 啟動(dòng)群集是指在一個(gè)或幾個(gè)節(jié)點(diǎn)上啟動(dòng)Cluster Manager,并使客戶機(jī)能夠訪問群集的資源。 HACMP可以配置為自動(dòng)啟動(dòng)或手動(dòng)啟動(dòng),自動(dòng)啟動(dòng)是通過在文件/etc/inittab/etc/inittab中的一條命令來實(shí)現(xiàn)的,但是配置為自動(dòng)啟動(dòng)后,故障節(jié)點(diǎn)返回群集時(shí)可能發(fā)生資源的接管,造成不必要的停機(jī)。因此,建議配置為手動(dòng)啟動(dòng)。啟動(dòng)關(guān)閉HA必須有root權(quán)限! 啟動(dòng)命令:# smit clstart 選項(xiàng)按缺省,建議在一個(gè)節(jié)點(diǎn)完全啟動(dòng)后再啟動(dòng)另一個(gè)節(jié)點(diǎn),并在啟動(dòng)過程中監(jiān)視事件腳本的輸出(tail f /var/ha

11、cmp/log/hacmp.out.7 )。 HACMP日常系統(tǒng)管理維護(hù) 關(guān)閉命令:# smit clstop 該命令中尤其要注意第四個(gè)選項(xiàng)Select an Action on Resource Groups:指停止HACMP后,其上的資源如何處理:三種選擇1、Bring Resource Groups Offline:釋放資源,但其它節(jié)點(diǎn)不接管2、Move Resource Groups:釋放資源,其它節(jié)點(diǎn)接管資源3、Unmanage Resource Groups:停止進(jìn)程,但不釋放資源(不處理) 我們的配置中默認(rèn)是其他節(jié)點(diǎn)接管資源。 注意:我們不推薦在同一時(shí)間在多個(gè)節(jié)點(diǎn)上使用第三個(gè)選項(xiàng)

12、來停止群注意:我們不推薦在同一時(shí)間在多個(gè)節(jié)點(diǎn)上使用第三個(gè)選項(xiàng)來停止群集服務(wù)。集服務(wù)。HACMP日常系統(tǒng)管理維護(hù)無論何時(shí),都應(yīng)該避免用kill -9命令停止群集管理后臺(tái)進(jìn)程。在這種情況下(使用kill -9命令),系統(tǒng)資源控制器(SRC)會(huì)檢測(cè)到clstrmgr后臺(tái)進(jìn)程異常退出。這會(huì)造成系統(tǒng)停止并有可能造成共享存儲(chǔ)數(shù)據(jù)的破壞。依照資源組策略,其他節(jié)點(diǎn)會(huì)初始化接管。 當(dāng)出現(xiàn)主、備機(jī)在關(guān)電后,再次啟動(dòng)時(shí),備機(jī)正常,主機(jī)不能啟動(dòng),要按指定步驟操作:在備機(jī)上執(zhí)行 # smit hacmp選擇System Management(C-SPOC)-Resource Group and Applications

13、-Move a Resource Group to Another Node/Site- Move Resource Groups to Another Node-選擇需要移動(dòng)的資源組,選擇備機(jī)節(jié)點(diǎn)進(jìn)行接管。退出命令行,啟動(dòng)HACMP,這時(shí)備機(jī)接管主機(jī)資源。HACMP日常系統(tǒng)管理維護(hù) 查看HACMP狀態(tài)在HACMP中,它啟動(dòng)一個(gè)進(jìn)程來監(jiān)控各節(jié)點(diǎn)。用# ps ef|grep clinfo 命令查看clinfo進(jìn)程是否啟動(dòng)。若未啟動(dòng),有兩種方法啟動(dòng)此進(jìn)程:1、執(zhí)行 # /usr/sbin/cluster/clinfo2、啟動(dòng)HACMP時(shí), # smit clstart 中 Startup Clus

14、ter Information Daemon (后臺(tái)守護(hù)程序)改為 true用/usr/sbin/cluster/clstat 命令查看各節(jié)點(diǎn)狀態(tài),因現(xiàn)使用的是字符終端,出現(xiàn)的將是字符界面。須注意的是群集的substate屬性,正常為Stable( 穩(wěn)定的;堅(jiān)定的;牢固的),不是Stable時(shí),HACMP可能有動(dòng)作或者是不正常。HACMP日常系統(tǒng)管理維護(hù)HACMP日常系統(tǒng)管理維護(hù)獲取集群狀態(tài)(一) 檢查集群服務(wù)daemon狀態(tài): lssrc -g cluster; lssrc -g lock 檢查集群和網(wǎng)絡(luò)接口狀態(tài): /usr/sbin/cluster/clstat (在smit hacmp

15、中用問題診斷工具查看更好) 查看集群記錄文件: tail -f /var/hacmp/log/hacmp.out.1-7 more /var/hacmp/adm/history/cluster.mmddyyyy tail -f /var/hacmp/adm/cluster.log 檢查節(jié)點(diǎn)名的正確性: odmget HACMPcluster獲取集群狀態(tài)(二) 檢驗(yàn)集群配置:/usr/sbin/cluster/diag/clconfig -v -tr /一般慎用 顯示集群配置:/usr/sbin/cluster/utilities/cllscf 顯示clstrmgr版本:snmpinfo -m

16、dump -o /usr/sbin/cluster/hacmp.defs clstrmgrHACMP日常系統(tǒng)管理維護(hù) 校驗(yàn)HACMP 執(zhí)行 # /usr/es/sbin/cluster/diag/clverify,將會(huì)出現(xiàn)一個(gè)交互式界面,可以檢驗(yàn)HACMP軟件(bos)和拓?fù)浣Y(jié)構(gòu)(topology),管理員可按提示操作。HACMP日常系統(tǒng)管理維護(hù) 在磁盤陣列上添加邏輯卷、擴(kuò)大卷組:首先把主、備機(jī)的HACMP停下。在主機(jī)上: # varyonvg sharevg; 擴(kuò)大卷組或增加邏輯卷 (在AIX中已講) # varyoffvg sharevg;在備機(jī)上:# exportvg sharevg;

17、# smit importvg 將sharevg重新import進(jìn)來; # smit chvg 將sharevg在下次啟動(dòng)時(shí)不自動(dòng)激活; # varyoffvg sharevg。HACMP日常系統(tǒng)管理維護(hù) 增加文件系統(tǒng)、新的卷組,并要接管首先把主、備機(jī)的HACMP停下。在主機(jī)上: # varyonvg sharevg; 增加文件系統(tǒng)、新的卷組;(AIX中講述) # varyoffvg sharevg;在備機(jī)上: # exportvg sharevg; # smit importvg 將sharevg重新import進(jìn)來; # smit chvg 將 sharevg在下次啟動(dòng)時(shí)不自動(dòng)激活; #

18、varyoffvg sharevg。在主機(jī)上:#smit hacmp-Cluster Configuration-Cluster Resource-Change/Show Resources for a Resource Group 在Filesystems選項(xiàng)中加入新的文件系統(tǒng),Volume Groups選項(xiàng)中加入新的卷組名; # smit hacmp-Cluster Configuration-Cluster Resources-Synchronize Cluster Resources 按缺省選項(xiàng)執(zhí)行。HACMP日常系統(tǒng)管理維護(hù) HACMP備份 HACMP允許將群集的配置存儲(chǔ)在一個(gè)文件中

19、,稱為snapshot,系統(tǒng)管理員可從此文件中恢復(fù)HACMP的配置。 文件缺省存放在/usr/es/sbin/cluster/etc/snapshot目錄下,生成兩個(gè)文件,后綴名分別為.odm、.info,.odm文件存放AIX ODM數(shù)據(jù)庫類的信息,.info為群集的信息,可查看。 創(chuàng)建方法:# smit hacmp-Cluster Configuration-Cluster Snapshots-Add a Cluster Snapshot,在Cluster Snapshot Name中填寫XX,在Cluster Snapshot Description中填寫 Xxbackup,執(zhí)行。 系統(tǒng)

20、管理員將/usr/sbin/cluster/snapshots下的XX.odm、XX.info備份。 恢復(fù)方法:先將備份的XX.odm、XX.info文件拷入/usr/sbin/cluster/snapshots目錄下,執(zhí)行#smit hacmp-Cluster Configuration-Cluster Snapshots-Apply a Cluster Snapshot選擇XX,執(zhí)行。HACMP日常系統(tǒng)管理維護(hù) 錯(cuò)誤恢復(fù):當(dāng)HACMP配置出現(xiàn)問題時(shí),啟動(dòng)不能正常結(jié)束,此時(shí)/tmp/hacmp.out文件中會(huì)出現(xiàn)event errot ,管理員應(yīng)按以下步驟停止HACMP:# smit hac

21、mp-Cluster Recovery Aids-Recovery from Scrip Failure選擇一塊正在工作的網(wǎng)卡,建議用standby網(wǎng)卡,執(zhí)行。然后再將HACMP關(guān)閉。HACMP日常系統(tǒng)管理維護(hù) 錯(cuò)誤舉例:腳本運(yùn)行超時(shí)錯(cuò)誤(config_too_long)(發(fā)生原因及現(xiàn)象)每當(dāng)集群狀態(tài)發(fā)生變化時(shí),HACMP軟件將運(yùn)行相應(yīng)的腳本在某些情況下,比如腳本編寫錯(cuò)誤、應(yīng)用運(yùn)行錯(cuò)誤、特殊集群狀態(tài)等,可能造成腳本運(yùn)行掛起HACMP判斷腳本運(yùn)行掛起的超時(shí)條件是6分鐘(默認(rèn)) HACMP認(rèn)為腳本運(yùn)行掛起后,將在/tmp/hacmp.out中記錄config_too_long信息: This cl

22、uster has been in reconfiguration too long: Something may be wrongHACMP日常系統(tǒng)管理維護(hù)腳本運(yùn)行超時(shí)錯(cuò)誤(config_too_long)(原因分析及解決方法)多數(shù)情況下,是由于腳本運(yùn)行失敗。但腳本中的命令確實(shí)需要運(yùn)行較長(zhǎng)時(shí)間的情況也不能排除,這種情況下,腳本運(yùn)行并未失敗,集群管理程序也正常,因此需要查看/tmp/hacmp.out以確定原因如果存在錯(cuò)誤,可根據(jù)/tmp/hacmp.out和/var/adm/cluster.log的內(nèi)容查找并排除錯(cuò)誤運(yùn)行clruncmd命令或使用SMIT的“Cluster Recovery Aids”屏,使集群管理器恢復(fù)集群處理HACMP日常系統(tǒng)管理維護(hù)Deadman Switch(發(fā)生錯(cuò)誤接管的情況)集群中的主機(jī)定時(shí)向其他主機(jī)發(fā)送heartbeat信息服務(wù)主機(jī)并未失效,但可

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論