HACMP維護(hù)手冊(cè)

上傳人：a*** IP屬地：湖北上傳時(shí)間：2021-12-16 格式：PPT 頁數(shù)：30 大?。?82KB 積分：28 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩25頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 HACMP維護(hù)文檔什么是HACMP 在我們解釋什么是HACMP以前，我們先來定義一下高可用性的概念。 High availability：在當(dāng)今復(fù)雜的環(huán)境下，成功實(shí)現(xiàn)IT應(yīng)用的一個(gè)關(guān)鍵要素就是提供不間斷的應(yīng)用服務(wù)和數(shù)據(jù)保護(hù)。HA就是這樣一個(gè)可以通過消除計(jì)劃內(nèi)/計(jì)劃外宕機(jī)事件從而向客戶應(yīng)用提供不間斷服務(wù)的部件，它能達(dá)到消除從硬件到軟件的單點(diǎn)故障（SPOFs）。實(shí)現(xiàn)一個(gè)高可用性解決方案，需要：冗余服務(wù)器、冗余網(wǎng)絡(luò)、冗余網(wǎng)絡(luò)接口卡、監(jiān)視、故障檢測(cè)、故障診斷、自動(dòng)接管、自動(dòng)重新控制 HACMP的主要目標(biāo)就是消除單點(diǎn)故障。 IBM針對(duì)AIX的高可用性解決方案-HACMP群集技術(shù),它包括以下兩個(gè)組

2、件：高可用性（HA）：該進(jìn)程保證應(yīng)用在用戶復(fù)制共享資源時(shí)是可用的。群集多處理（CMP）：該進(jìn)程提供在同一節(jié)點(diǎn)上多個(gè)應(yīng)用共享或并發(fā)訪問數(shù)據(jù)。基于HACMP的高可用性解決方案提供自動(dòng)失效檢測(cè)、診斷、應(yīng)用恢復(fù)和節(jié)點(diǎn)重新控制。在恰當(dāng)?shù)膽?yīng)用中，HACMP還可以在并行應(yīng)用處理中提供對(duì)數(shù)據(jù)的并發(fā)訪問，從而提供更高的可擴(kuò)展性。高可用性系統(tǒng)VS容錯(cuò)系統(tǒng)容錯(cuò)系統(tǒng)：它是提供冗余的設(shè)計(jì)為不間斷操作。這樣的系統(tǒng)中所有的組件都是雙份的（不管硬件還是軟件），CPU、內(nèi)存、磁盤都有特殊的設(shè)計(jì)來提供不間斷服務(wù)。這樣的系統(tǒng)是非常昂貴和非常專業(yè)的。只有在要求0宕機(jī)的環(huán)境中，容錯(cuò)系統(tǒng)設(shè)備和方案才有需求。高可用性系統(tǒng)：

3、配置為高可用性的系統(tǒng)是一組軟件、硬件的組合，可以保證系統(tǒng)失效后在可接受的宕機(jī)時(shí)間內(nèi)恢復(fù)。在這種系統(tǒng)中，軟件負(fù)責(zé)監(jiān)測(cè)到環(huán)境故障后將應(yīng)用交給另一個(gè)機(jī)器實(shí)現(xiàn)隊(duì)員機(jī)器的接管。因此，在這種環(huán)境下重要的是消除SPOF。例如，如果只有一個(gè)網(wǎng)絡(luò)連接，就需要提供第二塊網(wǎng)卡以備主網(wǎng)卡失效后接管。另一點(diǎn)就是通過將數(shù)據(jù)放在所有節(jié)點(diǎn)都可以訪問的共享磁盤上并實(shí)現(xiàn)鏡像。HACMP相關(guān)概念1、群集拓?fù)洌?包含基本的群集組件節(jié)點(diǎn)、網(wǎng)絡(luò)、通訊接口、通訊設(shè)備、通訊適配器。2、群集資源：被設(shè)為高可用性的實(shí)體（例如文件系統(tǒng)、裸設(shè)備、服務(wù)IP標(biāo)簽、應(yīng)用等）。所有資源被組織成資源組（RG），HACMP保持唯一實(shí)體資源組的高可用性。資源組

4、可以被一個(gè)節(jié)點(diǎn)訪問或者在并發(fā)應(yīng)用中同時(shí)被多個(gè)節(jié)點(diǎn)訪問。3、Fallover：在活動(dòng)節(jié)點(diǎn)出現(xiàn)故障時(shí)，將資源組從活動(dòng)節(jié)點(diǎn)轉(zhuǎn)移到備份節(jié)點(diǎn)的動(dòng)作。4、Fallback：原來的活動(dòng)節(jié)點(diǎn)恢復(fù)時(shí)，將資源組切換回原節(jié)點(diǎn)的動(dòng)作。這是將失效節(jié)點(diǎn)重新集成到集群的標(biāo)準(zhǔn)動(dòng)作。HACMP相關(guān)術(shù)語要理解HACMP的正確功能并利用它，就必須知道一些術(shù)語：1、群集（Cluster）：為共享資源和相互通訊而通過網(wǎng)絡(luò)連接在一起的獨(dú)立主機(jī)（節(jié)點(diǎn)）。HACMP負(fù)責(zé)定義在協(xié)同的系統(tǒng)中哪個(gè)節(jié)點(diǎn)提供服務(wù)哪個(gè)節(jié)點(diǎn)不提供服務(wù)。所有節(jié)點(diǎn)共同負(fù)責(zé)維護(hù)應(yīng)用的功能可用。2、節(jié)點(diǎn)（Node）：在群集中所有運(yùn)行AIX系統(tǒng)和HACMP軟件的IBMp系列

5、服務(wù)器都是節(jié)點(diǎn)。每個(gè)節(jié)點(diǎn)都有一個(gè)資源集（磁盤、文件系統(tǒng)、IP地址、應(yīng)用）在該節(jié)點(diǎn)失效時(shí)可以被群集中其他節(jié)點(diǎn)接管。3、資源（Resource）：是在群集配置中可以從一個(gè)節(jié)點(diǎn)轉(zhuǎn)移到其他節(jié)點(diǎn)的邏輯組件。所有必須提供高可用性應(yīng)用的資源被構(gòu)成資源組（RG）。當(dāng)節(jié)點(diǎn)失效時(shí)，資源組中的組件被一同從一個(gè)節(jié)點(diǎn)移動(dòng)到另一個(gè)節(jié)點(diǎn)。一個(gè)群集可以有多個(gè)RG，從而提高節(jié)點(diǎn)的效率（也就是HACMP中的Multi-Processing）。HACMP相關(guān)術(shù)語4、接管：在群集內(nèi)部節(jié)點(diǎn)之間傳送資源的操作稱為接管。如果一個(gè)節(jié)點(diǎn)發(fā)生硬件故障或AIX故障，它的資源應(yīng)用會(huì)被移到另一個(gè)節(jié)點(diǎn)。5、客戶：客戶就是可以通過局域網(wǎng)訪問群集節(jié)點(diǎn)應(yīng)用的

6、一個(gè)系統(tǒng)?？蛻敉ㄟ^運(yùn)行客戶端程序連接到應(yīng)用所在的服務(wù)器上。 HACMP的實(shí)現(xiàn)(此處略去)安裝配置HACMP共分三步：1、準(zhǔn)備AIX：在AIX中配置硬件、軟件。2、安裝HACMP軟件3、配置HACMP群集AIX中需要配置網(wǎng)絡(luò)、共享磁盤、LVM組件等配置IP 配置串行網(wǎng)絡(luò) 配置共享磁盤定義LVM組件編輯文件/.rhosts串行網(wǎng)絡(luò) 每個(gè)運(yùn)行Cluster Manager進(jìn)程軟件的節(jié)點(diǎn)會(huì)通過HACMP中配置的所有網(wǎng)卡持續(xù)送出Keep-alive包（心跳信號(hào)）到Cluster的其它各個(gè)節(jié)點(diǎn)。HACMP就是通過檢測(cè)節(jié)點(diǎn)間keep-alive包的中斷來檢測(cè)網(wǎng)絡(luò)事件。 Keep-alive包通常在同

7、一網(wǎng)絡(luò)上的服務(wù)網(wǎng)卡間和備份網(wǎng)卡間雙向傳輸。傳輸中的任何中斷都會(huì)激活故障檢測(cè)過程，此時(shí)，Keepalive向所有網(wǎng)卡上傳送。通過簡(jiǎn)單的“淘汰過程”，故障原因被很快發(fā)現(xiàn)，然后群集可采取正確的事件處理腳本處理故障。由于服務(wù)網(wǎng)卡和備份網(wǎng)卡都是采用TCP/IP進(jìn)行通訊的，如果某節(jié)點(diǎn)的TCP/IP子系統(tǒng)發(fā)生故障或者網(wǎng)絡(luò)擁塞，就會(huì)造成Keep-alive包無法正常傳輸。此時(shí)因?yàn)樗械男奶Ｖ沽耍渌?jié)點(diǎn)將錯(cuò)誤地認(rèn)為該節(jié)點(diǎn)故障，導(dǎo)致其它節(jié)點(diǎn)試圖接管資源，群集及其資源將處于不穩(wěn)定狀態(tài)。因此HACMP中必須配置一條串行網(wǎng)絡(luò)，當(dāng)LAN故障時(shí)，可以提供另外的Keep alive路由。由于串行網(wǎng)絡(luò)不用TCP/IP協(xié)

8、議，所以TCP/IP子系統(tǒng)的故障并不意味著HACMP故障，使得群集可以分清網(wǎng)絡(luò)故障和節(jié)點(diǎn)故障，避免出現(xiàn)孤立節(jié)點(diǎn)串行網(wǎng)絡(luò)HACMP日常系統(tǒng)管理維護(hù) 日常日志1：日常日志主要是記錄平時(shí)事件的啟動(dòng)，從中可以了解HACMP的動(dòng)作，例如主機(jī)standby網(wǎng)卡故障，有fail_standby事件發(fā)生，系統(tǒng)管理員可從日志中得知何時(shí)出的故障，及有沒有解決。主要日志文件有：（查找文件命令find / -name “文件名”）/var/hacmp/log/hacmp.out.1-7：存放由HACMP腳本產(chǎn)生的帶時(shí)間戳信息，包括執(zhí)行的命令及其輸出。腳本中的每一命令及其參數(shù)占一行。此文件一天刷新一次，保留七天；/v

9、ar/hacmp/adm/cluster.log：存放由HACMP腳本和daemon產(chǎn)生的帶時(shí)間戳的信息。每個(gè)事件在記錄文件中有兩行一行在開始時(shí)寫入，一行在結(jié)束時(shí)寫入。日常日志2：/tmp/cm.log：（未找到）保存HACMP中clstrmgr進(jìn)程產(chǎn)生信息的時(shí)間；HACMP技術(shù)人員在clstrmgr處于debug模式下排錯(cuò)需要參考此文件內(nèi)容。重啟集群服務(wù)，這個(gè)文件就會(huì)被重寫，因此需要做好備份。(/var/hacmp/log中有參考日志文件)/var/hacmp/adm/history/cluster.mmddyyyy：HACMP的歷史記錄文件,不同日期發(fā)生的集群事件記錄在不同的文件中。mm

10、-月 dd-日 yyyy-年HACMP日常系統(tǒng)管理維護(hù) 啟動(dòng)和關(guān)閉HACMP 啟動(dòng)群集是指在一個(gè)或幾個(gè)節(jié)點(diǎn)上啟動(dòng)Cluster Manager，并使客戶機(jī)能夠訪問群集的資源。 HACMP可以配置為自動(dòng)啟動(dòng)或手動(dòng)啟動(dòng)，自動(dòng)啟動(dòng)是通過在文件/etc/inittab/etc/inittab中的一條命令來實(shí)現(xiàn)的，但是配置為自動(dòng)啟動(dòng)后，故障節(jié)點(diǎn)返回群集時(shí)可能發(fā)生資源的接管，造成不必要的停機(jī)。因此，建議配置為手動(dòng)啟動(dòng)。啟動(dòng)關(guān)閉HA必須有root權(quán)限！啟動(dòng)命令：# smit clstart 選項(xiàng)按缺省，建議在一個(gè)節(jié)點(diǎn)完全啟動(dòng)后再啟動(dòng)另一個(gè)節(jié)點(diǎn)，并在啟動(dòng)過程中監(jiān)視事件腳本的輸出（tail f /var/ha

11、cmp/log/hacmp.out.7 ）。 HACMP日常系統(tǒng)管理維護(hù) 關(guān)閉命令：# smit clstop 該命令中尤其要注意第四個(gè)選項(xiàng)Select an Action on Resource Groups：指停止HACMP后，其上的資源如何處理：三種選擇1、Bring Resource Groups Offline：釋放資源，但其它節(jié)點(diǎn)不接管2、Move Resource Groups：釋放資源，其它節(jié)點(diǎn)接管資源3、Unmanage Resource Groups：停止進(jìn)程，但不釋放資源（不處理）我們的配置中默認(rèn)是其他節(jié)點(diǎn)接管資源。注意：我們不推薦在同一時(shí)間在多個(gè)節(jié)點(diǎn)上使用第三個(gè)選項(xiàng)

12、來停止群注意：我們不推薦在同一時(shí)間在多個(gè)節(jié)點(diǎn)上使用第三個(gè)選項(xiàng)來停止群集服務(wù)。集服務(wù)。HACMP日常系統(tǒng)管理維護(hù)無論何時(shí)，都應(yīng)該避免用kill -9命令停止群集管理后臺(tái)進(jìn)程。在這種情況下（使用kill -9命令），系統(tǒng)資源控制器（SRC）會(huì)檢測(cè)到clstrmgr后臺(tái)進(jìn)程異常退出。這會(huì)造成系統(tǒng)停止并有可能造成共享存儲(chǔ)數(shù)據(jù)的破壞。依照資源組策略，其他節(jié)點(diǎn)會(huì)初始化接管。當(dāng)出現(xiàn)主、備機(jī)在關(guān)電后，再次啟動(dòng)時(shí)，備機(jī)正常，主機(jī)不能啟動(dòng)，要按指定步驟操作：在備機(jī)上執(zhí)行 # smit hacmp選擇System Management(C-SPOC)-Resource Group and Applications

13、-Move a Resource Group to Another Node/Site- Move Resource Groups to Another Node-選擇需要移動(dòng)的資源組，選擇備機(jī)節(jié)點(diǎn)進(jìn)行接管。退出命令行，啟動(dòng)HACMP，這時(shí)備機(jī)接管主機(jī)資源。HACMP日常系統(tǒng)管理維護(hù) 查看HACMP狀態(tài)在HACMP中，它啟動(dòng)一個(gè)進(jìn)程來監(jiān)控各節(jié)點(diǎn)。用# ps ef|grep clinfo 命令查看clinfo進(jìn)程是否啟動(dòng)。若未啟動(dòng)，有兩種方法啟動(dòng)此進(jìn)程：1、執(zhí)行 # /usr/sbin/cluster/clinfo2、啟動(dòng)HACMP時(shí)， # smit clstart 中 Startup Clus

14、ter Information Daemon （后臺(tái)守護(hù)程序）改為 true用/usr/sbin/cluster/clstat 命令查看各節(jié)點(diǎn)狀態(tài)，因現(xiàn)使用的是字符終端，出現(xiàn)的將是字符界面。須注意的是群集的substate屬性，正常為Stable（穩(wěn)定的；堅(jiān)定的；牢固的），不是Stable時(shí)，HACMP可能有動(dòng)作或者是不正常。HACMP日常系統(tǒng)管理維護(hù)HACMP日常系統(tǒng)管理維護(hù)獲取集群狀態(tài)(一) 檢查集群服務(wù)daemon狀態(tài)： lssrc -g cluster; lssrc -g lock 檢查集群和網(wǎng)絡(luò)接口狀態(tài)： /usr/sbin/cluster/clstat （在smit hacmp

15、中用問題診斷工具查看更好）查看集群記錄文件： tail -f /var/hacmp/log/hacmp.out.1-7 more /var/hacmp/adm/history/cluster.mmddyyyy tail -f /var/hacmp/adm/cluster.log 檢查節(jié)點(diǎn)名的正確性： odmget HACMPcluster獲取集群狀態(tài)(二) 檢驗(yàn)集群配置：/usr/sbin/cluster/diag/clconfig -v -tr /一般慎用顯示集群配置：/usr/sbin/cluster/utilities/cllscf 顯示clstrmgr版本：snmpinfo -m

16、dump -o /usr/sbin/cluster/hacmp.defs clstrmgrHACMP日常系統(tǒng)管理維護(hù) 校驗(yàn)HACMP 執(zhí)行 # /usr/es/sbin/cluster/diag/clverify，將會(huì)出現(xiàn)一個(gè)交互式界面，可以檢驗(yàn)HACMP軟件（bos）和拓?fù)浣Y(jié)構(gòu)（topology），管理員可按提示操作。HACMP日常系統(tǒng)管理維護(hù) 在磁盤陣列上添加邏輯卷、擴(kuò)大卷組：首先把主、備機(jī)的HACMP停下。在主機(jī)上： # varyonvg sharevg; 擴(kuò)大卷組或增加邏輯卷（在AIX中已講） # varyoffvg sharevg；在備機(jī)上：# exportvg sharevg;

17、# smit importvg 將sharevg重新import進(jìn)來； # smit chvg 將sharevg在下次啟動(dòng)時(shí)不自動(dòng)激活； # varyoffvg sharevg。HACMP日常系統(tǒng)管理維護(hù) 增加文件系統(tǒng)、新的卷組，并要接管首先把主、備機(jī)的HACMP停下。在主機(jī)上： # varyonvg sharevg；增加文件系統(tǒng)、新的卷組；（AIX中講述） # varyoffvg sharevg；在備機(jī)上： # exportvg sharevg； # smit importvg 將sharevg重新import進(jìn)來； # smit chvg 將 sharevg在下次啟動(dòng)時(shí)不自動(dòng)激活； #

18、varyoffvg sharevg。在主機(jī)上：#smit hacmp-Cluster Configuration-Cluster Resource-Change/Show Resources for a Resource Group 在Filesystems選項(xiàng)中加入新的文件系統(tǒng)，Volume Groups選項(xiàng)中加入新的卷組名； # smit hacmp-Cluster Configuration-Cluster Resources-Synchronize Cluster Resources 按缺省選項(xiàng)執(zhí)行。HACMP日常系統(tǒng)管理維護(hù) HACMP備份 HACMP允許將群集的配置存儲(chǔ)在一個(gè)文件中

19、，稱為snapshot，系統(tǒng)管理員可從此文件中恢復(fù)HACMP的配置。文件缺省存放在/usr/es/sbin/cluster/etc/snapshot目錄下，生成兩個(gè)文件，后綴名分別為.odm、.info，.odm文件存放AIX ODM數(shù)據(jù)庫類的信息，.info為群集的信息，可查看。創(chuàng)建方法：# smit hacmp-Cluster Configuration-Cluster Snapshots-Add a Cluster Snapshot，在Cluster Snapshot Name中填寫XX，在Cluster Snapshot Description中填寫 Xxbackup，執(zhí)行。系統(tǒng)

20、管理員將/usr/sbin/cluster/snapshots下的XX.odm、XX.info備份。恢復(fù)方法：先將備份的XX.odm、XX.info文件拷入/usr/sbin/cluster/snapshots目錄下，執(zhí)行#smit hacmp-Cluster Configuration-Cluster Snapshots-Apply a Cluster Snapshot選擇XX，執(zhí)行。HACMP日常系統(tǒng)管理維護(hù) 錯(cuò)誤恢復(fù)：當(dāng)HACMP配置出現(xiàn)問題時(shí)，啟動(dòng)不能正常結(jié)束，此時(shí)/tmp/hacmp.out文件中會(huì)出現(xiàn)event errot ，管理員應(yīng)按以下步驟停止HACMP：# smit hac

21、mp-Cluster Recovery Aids-Recovery from Scrip Failure選擇一塊正在工作的網(wǎng)卡，建議用standby網(wǎng)卡，執(zhí)行。然后再將HACMP關(guān)閉。HACMP日常系統(tǒng)管理維護(hù) 錯(cuò)誤舉例：腳本運(yùn)行超時(shí)錯(cuò)誤(config_too_long)（發(fā)生原因及現(xiàn)象）每當(dāng)集群狀態(tài)發(fā)生變化時(shí)，HACMP軟件將運(yùn)行相應(yīng)的腳本在某些情況下，比如腳本編寫錯(cuò)誤、應(yīng)用運(yùn)行錯(cuò)誤、特殊集群狀態(tài)等，可能造成腳本運(yùn)行掛起HACMP判斷腳本運(yùn)行掛起的超時(shí)條件是6分鐘（默認(rèn)） HACMP認(rèn)為腳本運(yùn)行掛起后，將在/tmp/hacmp.out中記錄config_too_long信息： This cl

22、uster has been in reconfiguration too long: Something may be wrongHACMP日常系統(tǒng)管理維護(hù)腳本運(yùn)行超時(shí)錯(cuò)誤(config_too_long)（原因分析及解決方法）多數(shù)情況下，是由于腳本運(yùn)行失敗。但腳本中的命令確實(shí)需要運(yùn)行較長(zhǎng)時(shí)間的情況也不能排除，這種情況下，腳本運(yùn)行并未失敗，集群管理程序也正常，因此需要查看/tmp/hacmp.out以確定原因如果存在錯(cuò)誤，可根據(jù)/tmp/hacmp.out和/var/adm/cluster.log的內(nèi)容查找并排除錯(cuò)誤運(yùn)行clruncmd命令或使用SMIT的“Cluster Recovery Aids”屏，使集群管理器恢復(fù)集群處理HACMP日常系統(tǒng)管理維護(hù)Deadman Switch（發(fā)生錯(cuò)誤接管的情況）集群中的主機(jī)定時(shí)向其他主機(jī)發(fā)送heartbeat信息服務(wù)主機(jī)并未失效，但可

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

HACMP維護(hù)手冊(cè)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

HACMP維護(hù)手冊(cè)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔