版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、. .PAGE124 / NUMPAGES124PowerHA完全手冊(一)前言自2008 年 4 月 02 日筆者在IBM DevelopWork首次發(fā)表HACMP 5.X 完全手冊以來, 加上各的,應(yīng)該已過了10萬的閱讀量,在此非常感大家的認可和支持。 轉(zhuǎn)眼已經(jīng)5年過去了,期間非常感不少指出了該文的各種不足,并且HACMP已經(jīng)改名為HACMP了,由于軟件版本的更新和本人當(dāng)時的技術(shù)水準(zhǔn)有限,同時也存儲不少的希望,在原文基礎(chǔ)上進行了補充和修訂完善,也就有了本文。 正是由于AIX專家俱樂部的興起,對AIX和HACMP的技術(shù)感興趣的技術(shù)人員又更多了。因此選擇本雜志作為原創(chuàng)發(fā)表,就是希望能對更多的日
2、常工作有所幫助。此外,雖然本文號稱“完全手冊”,一是為了吸引眼球,二也只是相對于其他只談安裝配置的文檔而言。由于HACMP現(xiàn)在已相當(dāng)復(fù)雜,本文圍也主要關(guān)注于最常用的雙節(jié)點,還望大家諒解。 即便如此,本文篇幅可能仍然較長,雖然也建議大家先通讀一下,但實際使用使用時可根據(jù)具體目的按章節(jié)直接查閱操作。這是因為一方面本文所述操作筆者都加以 驗證過;一方面也是全中文,省得大家去查一大堆原版資料。希望能幫助大家在集成和運維HACMP的過程中節(jié)省精力、降低實施風(fēng)險,這也是本文編寫的初衷。 同時還望那些被部分摘抄文章的也能理解,你們都是筆者的老師,這里也一一過。雖筆者端正態(tài)度,盡力認真編寫,但由于能力有限,恐
3、仍有錯漏之處,還望眾多多多指正海涵,在此先行過。1.為什么需要PowerHA/HACMP 隨著業(yè)務(wù)需求日益增加,IT的系統(tǒng)架構(gòu)中核心應(yīng)用必須一直可用,系統(tǒng)必須對故障必須有容忍能力,已經(jīng)是現(xiàn)代IT高可用系統(tǒng)架構(gòu)的基本要求。 10 年前各廠商現(xiàn)有的UNIX服務(wù)器就已擁有很高的可靠性,在這一點上IBM的Power系列服務(wù)器表現(xiàn)尤為突出。但所有UNIX服務(wù)器均無法達到如原來 IBM大型主機S/390那樣的可靠性級別,這是開放平臺服務(wù)器的體系結(jié)構(gòu)和應(yīng)用環(huán)境所決定的,這一點,即使科技發(fā)展到云計算的今天仍然如此。 因此,我們需要通過軟件提供這些能力,同時這個軟件還應(yīng)該是經(jīng)濟有效的。它可以有效確保解決方案的任
4、何組件的故障都不會導(dǎo)致用戶無法使用應(yīng)用程序與其數(shù)據(jù)。實現(xiàn)這一目標(biāo)的方法是通過消除單一故障點消除或掩蓋計劃和計劃外停機。另外,保持應(yīng)用程序高可用性并不需要特殊的硬件。 IBM高可用性集群軟件-PowerHA/HACMP也就應(yīng)運而生,即使到了今天 ,對比x86平臺的linux、windows甚至包括其他UNIX操作系統(tǒng)的高可用性集群,至少從筆者20年的IT從業(yè)實際經(jīng)歷來看,IBM PowerHA/HACMP高可用性解決方案雖然復(fù)雜,需要更高水平工程師的精心維護,但的確相對更成熟更有效。 PowerHA的前身為HACMP ,或者說PowerHA 和 HACMP 這兩個詞對IBM來說可以互換使用。 基
5、于這一點,也由于實際使用過程中PowerHA軟件的名稱、菜單名、日志等均仍為HACMP,因此后面論述時我們?nèi)跃Q為PowerHA為HACMP,以免造成理解的困難。2.PowerHA的版本由于IBM對軟件的整合,目前PowerHA其實不僅僅只包含之前的HACMP軟件,我們先來看看下圖:大家可以看到,我們通常的HACMP其實現(xiàn)在準(zhǔn)確名稱是PowerHASystemMirror,它有2個平臺4個主 要大版本,forAIX,i系統(tǒng);企業(yè)版和標(biāo)準(zhǔn)版;企業(yè)版擴展了異地容災(zāi)相關(guān)的功能;而其他小版本,則是在其企業(yè)版和標(biāo)準(zhǔn)版基礎(chǔ) 之外的支持;比如最近比較熱的PowerHASystemMirrorHyperSwa
6、p的數(shù)據(jù)中心雙活的解決方案,就是利用HyperSwap版本對存儲DS8000容錯的擴展支持來得以實現(xiàn)。我們說的PowerHA pureScale,則是和類oracle RAC的IBMDB2 pureScale解決方案相配合的高可用性套件,不再是我們通常意義上的HACMP。由于本文的重點為AIX的本地高可用性,因此除非特別聲明,我們?nèi)笔≌fPowerHA時都是指PowerHA SystemMirror Standard的版本。3.HACMP的工作原理 HACMP是High Availability Cluster Multi-Processing的縮寫;也就是IBM公司在P系列 AIX操作系統(tǒng)上的
7、高可靠集群軟件,配置冗余,消除單點故障,保證整個系統(tǒng)連續(xù)可用性和安全可靠性。 HACMP是通過偵測主機與網(wǎng)卡的狀況,搭配 AIX所提供的LVM等管理功能,在主機、網(wǎng)卡、硬盤控制卡或網(wǎng)絡(luò)發(fā)生故障時,自動切換到另一套備用元件上重新工作; 若是主機故障還切換至備機上繼續(xù)應(yīng)用系統(tǒng)的運行。作為雙機系統(tǒng)的兩臺服務(wù)器同時運行HACMP軟件;兩臺服務(wù)器的備份方式大體有二種: 一臺服務(wù)器運行應(yīng)用,另外一臺服務(wù)器做為備份 兩臺服務(wù)器除正常運行本機的應(yīng)用外,同時又作為對方的備份主機; 兩臺主機系統(tǒng)在整個運行過程中,通過 心跳線相互監(jiān)測對方的運行情況(包括系統(tǒng)的軟硬件運行、網(wǎng)絡(luò)通訊和應(yīng)用運行情況等); 一旦發(fā)現(xiàn)對方主
8、機的運行不正常(出故障)時,故障機上的應(yīng)用就會立即停止運行,本機(故障機的備份機)就會立即在自己的機器上啟動故障機上的應(yīng)用,把故障機的應(yīng)用與其資源(包括用到的IP地址和磁盤空間等)接管過來,使故障機上的應(yīng)用在本機繼續(xù)運行; 應(yīng)用和資源的接管過程由HACMP軟件自動完成,無需人工干預(yù); 當(dāng)兩臺主機正常工作時,也可以根據(jù)需要將其中一臺機上的應(yīng)用人為切換到另一臺機(備份機)上運行。 4.HACMP術(shù)語: 為方便大家閱讀,我們這里簡單介紹一下HACMP 主要術(shù)語。它們可以分為拓撲組件和資源組件兩類。 拓撲組件(Cluster topology)基本上是物理組件。它們包括: 節(jié)點(Nodes):運行AI
9、X操作系統(tǒng)的Power服務(wù)器上的分區(qū)或微分區(qū)。實 際目前節(jié)點現(xiàn)分為2種,一個是服務(wù)器節(jié)點(Server 節(jié)點),運行核心服務(wù)和共享磁盤的應(yīng)用的機器;一個是客戶端節(jié)點(Client)節(jié) 點,前臺使用集群服務(wù)的應(yīng)用的機器。比如中間件軟件等無需共享磁盤安裝在客戶端節(jié)點的機器上,數(shù)據(jù)庫軟件安裝在服務(wù)器節(jié)點的機器上。 像監(jiān)控節(jié)點的信息收集程序clinfo就是只運行在客戶節(jié)點上。而對于2個節(jié)點的集群,則簡化掉這些分別,即節(jié)點為二合一。網(wǎng)絡(luò)(Networks):IP 網(wǎng)絡(luò)和非 IP 網(wǎng)絡(luò)通信接口(Communication interfaces):以太網(wǎng)或令牌環(huán)網(wǎng)適配器通信設(shè)備(Communication
10、devices):RS232 或磁盤的心跳機制拓撲組件示意圖資源組件(Cluster resources)是需要保持高可用性的邏輯實體。它們包括: 應(yīng)用服務(wù)器(Application servers):它涉與應(yīng)用程序的啟動/停止腳本。服務(wù) IP 地址(Service IP labels / addresses):最終用戶一般通過 IP 地址連接應(yīng)用程序。這個 IP 地址映射到實際運行應(yīng)用程序的節(jié)點。因為 IP 地址需要保持高可用性,所以它屬于資源組。文件系統(tǒng)(File systems):許多應(yīng)用程序需要掛載文件系統(tǒng)。卷組(Volume groups):許多應(yīng)用程序需要高可用的卷組。 所有資源一
11、起組成資源組實體。HACMP 把資源組當(dāng)作單一單元處理。它會保持資源組高可用性。資源組件示意圖此外,還存在資源組有與其相關(guān)聯(lián)的策略。這些策略包括:1. 啟動策略(Cluster startup):這決定資源組應(yīng)該激活哪個節(jié)點。2. 故障轉(zhuǎn)移策略(Resource /Node failure):當(dāng)發(fā)生故障時,這決定故障轉(zhuǎn)移目標(biāo)節(jié)點。 3. 故障恢復(fù)策略(Resource/Node recovery):這決定資源組是否執(zhí)行故障恢復(fù)。當(dāng)發(fā)生故障時,HACMP 尋找這些策略并執(zhí)行相應(yīng)的操作。5.實驗環(huán)境說明: 以雙機互備中相對復(fù)雜的多業(yè)務(wù)網(wǎng)絡(luò)的情況為例,其他類似設(shè)置可適當(dāng)簡化。1)機器一覽表節(jié)點機器名
12、操作系統(tǒng)應(yīng)用軟件HA版本host1AIX6.1.7ORACLE 11gHA6.1.10host2AIX6.1.7TUXEDO 11HA6.1.102)磁盤和VG規(guī)劃表節(jié)點機器名磁盤VGVG MajorNumberhost1hdisk2host1vg101host2hdisk3host2vg2013)用戶和組規(guī)劃表用戶USERID組組ID使用節(jié)點orarunc610dba601host1tuxrun301tux301host1bsx1302tux301host1xcom401dba601host1orarun609dba601host24)邏輯卷和文件系統(tǒng)規(guī)劃表PP size:128M節(jié)點機器名
13、邏輯卷文件系統(tǒng) 大小(pp) 所有者用途host1ora11runclv/ora11runc40oraruncORACLE客戶端軟件tux11runlv/tux11run30tuxedoTuxedo軟件bsx1lv/bsx130bsx1寶信MES應(yīng)用程序xcomlv/xcom30 xcom寶信xcom通信軟件host2ora11runlv/ora11run60orarunORACLE數(shù)據(jù)庫軟件oradatalv/oradata80orarun數(shù)據(jù)庫5)路由規(guī)劃表節(jié)點名目的路由host1default5410.2.2005410.3.30054host2default546)HACMP結(jié)構(gòu)表集群
14、名: test_cluster適配器名功能網(wǎng)絡(luò)名網(wǎng)絡(luò)類型屬性節(jié)點名IP地址MAC地址host1_tty0heartbeathost1_net_rs232rs232serialhost1host1_l2_boot1boot1host2_net_ether_2etherpublichost1host1_l1_boot1boot1host2_net_ether_1etherpublichost11host1_l2_svcServicehost1_net_ether_2etherpublichost1host1_l1_svc1Servicehost1_net_ether_1etherpublichos
15、t1host1_l1_svc2Servicehost1_net_ether_1etherpublichost1host1_l2_boot2boot2host1_net_ether_2etherpublichost1host1_l1_boot2boot2host1_net_ether_1etherpublichost1host2_tty0heartbeathost2_net_rs232rs232serialhost2host2_l2_boot1boot1host2_net_ether_2etherpublichost2host2_l1_boot1boot1host2_net_ether_1eth
16、erpublichost22host2_l2_svcservicehost2_net_ether_2etherpublichost2host2_l1_svc1servicehost2_net_ether_1etherpublichost2host2_l1_svc2servicehost2_net_ether_1etherpublichost2host2_l2_boot2boot2host2_net_ether_2etherpublichost2host2_l1_boot2boot2host2_net_ether_1etherpublichost27)HACMP示意圖8)實驗環(huán)境示意圖9)應(yīng)用腳
17、本起停設(shè)計start_host1: 添加網(wǎng)關(guān) 運行start_host1_appstop_host1: 運行stop_host1_app 清理vg進程start_host2: 添加網(wǎng)關(guān) 運行start_host2_appstop_host2: 運行stop_host1_app 清理vg進程start_host1_app: 確認host2已啟動 整理路由 啟動主應(yīng)用程序 啟動通信程序stop_host1_app: 停通信程序 停應(yīng)用主程序 清理路由start_host2_app: 如在host1機器上執(zhí)行stop_host1_app 起Oracle數(shù)據(jù)庫與listener 如在host1機器上執(zhí)
18、行start_host1stop_host2_app: 停數(shù)據(jù)庫與listener第一部分-規(guī)劃篇 萬事開頭難,對于一個有經(jīng)驗的HACMP工程師來說,會深知規(guī)劃的重要性,一個錯誤或混亂的規(guī)劃將直接導(dǎo)致實施的失敗和不可維護性。 HACMP實施的根本目的不是安裝測試通過,而是在今后運行的某個時刻突然故障中,能順利的發(fā)生自動切換或處理,使得服務(wù)只是短暫中斷即可自動恢復(fù),使高可用性成為現(xiàn)實。2.1. 規(guī)劃前的需求調(diào)研 在做規(guī)劃之前,或者說一個準(zhǔn)備實施HACMP來保證高可用性的系統(tǒng)初步設(shè)計之前,至少需要調(diào)查了解系統(tǒng)的以下相關(guān)情況,這些都可能影響到HACMP的配置。 應(yīng)用特點1) 對負荷的需求,如CPU、
19、存、網(wǎng)絡(luò)等特別是I/O的負載的側(cè)重。2) 對起停的要求,如數(shù)據(jù)庫重起可能需要應(yīng)用重起等等。3) 對于自動化的限制,如重起需要人工判斷或得到命令,需要在控制臺執(zhí)行。 網(wǎng)絡(luò)狀況和規(guī)劃 包括網(wǎng)段的劃分、路由、網(wǎng)絡(luò)設(shè)備的冗余等等在系統(tǒng)上線前的狀況和可提供條件,以與實施運行過程中可能出現(xiàn)的變更。 操作系統(tǒng)情況 目前IBM的HACMP除了AIX,還支持Linux。 目前新裝機器都是AIX5.3,即使安裝HA5.4也沒有問題。但如果安裝可能是在老機器上進行升級,需要仔細了解操作系統(tǒng)版本與補丁情況。 主機設(shè)計1) 可能實施的機器網(wǎng)卡的數(shù)量,網(wǎng)卡是否只能是雙口或更多。2) 是否有槽位增加異步卡3) 主機之間的距
20、離,這影響到串口線的長度。 預(yù)計實施高可用性的情況1) 希望實施HACMP的機器數(shù)量2) 希望方式,如一備一,雙機互備,一備多,環(huán)形互備等等。 2.2. PowerHA/HACMP版本確定 IBM HACMP 自從出了5.2 版本后, 到了5.205后比較穩(wěn)定,并經(jīng)過我們自己充分的測試(見測試篇)和實踐證明(已有多個系統(tǒng)成功自動切換)。之前個人覺得HACMP5.3后變化較快快,功能增加多,穩(wěn)定性不夠,相當(dāng)長時間還是一直推薦HA5.209。這也是本文出了第一版完全手冊之后一直沒有修訂的原因之一。 隨著Power主機和AIX的更新?lián)Q代,名稱也在變化,雖然目前最新版為PowerHA SystemMi
21、rror 7.1, 又增加了不少絢麗奪目的功能,但個人以為作為高可用性軟件,其成熟度為第一要素,其穩(wěn)定性有待進一步驗證。而經(jīng)過我們這2年來的充分實施經(jīng)驗,目前可以放心推薦版本為PowerHA 6.1的6.1.10與以上。2.3. IP地址設(shè)計 IP地址切換(IPAT)方式有3種方式:圖1a,1b,和1c中描述了三個主要的IPAT配置場景。 第一個拓撲模式:IPAT via Replacement在分開的子網(wǎng)中包含boot 和standby網(wǎng)卡。當(dāng)集群服務(wù)啟動的時候boot 地址被換成service 地址。盡管這種方式有效性強,但是在需要實現(xiàn)多服務(wù)IP地址的環(huán)境下這種方式是不可取的。集群的管理員
22、不得不利用pre- 和 post-events 定制其環(huán)境建立額外的別名, 并且需要確認這些別名在下一次接管發(fā)生前被刪除。 第二個拓撲模式:IPAT via Aliasing HACMP 4.5 開始引入了IPAT via Aliasing 作為缺省的拓撲模式。在這種新的模式中,standby網(wǎng)卡的功能被另外一個boot網(wǎng)卡替換。子網(wǎng)需求的不同點是還需要一個另外的子網(wǎng),每一個boot 網(wǎng)卡需要它自己的子網(wǎng),并且任何service 或 persistent 的IP 將在其本身的子網(wǎng)上操作,所以一共三個子網(wǎng)。當(dāng)集群服務(wù)啟動并且需要service IP 的時候,boot IP 并不消失。這個設(shè)計和第
23、一種是不同的,在同一個HACMP網(wǎng)絡(luò)中有多個service IP存在并且通過別名來控制。 第三種模式:EthernetChannel(EC) 這種模式把底層的以太網(wǎng)卡藏到一個單一的“ent”接口之后。該模式不是對前述任何一種方式的替換,而是可以和前述的任一種模式共同存在。因為在每一個節(jié)點EC 都被配置成冗余方式,可以在HACMP中使用IP別名定義它們每一個作為單一網(wǎng)卡網(wǎng)絡(luò)。因為在每個節(jié)點只有一個網(wǎng)卡被定義,所以只有兩個子網(wǎng),一個是用作 boot(每個節(jié)點的基本IP地址),另一個是用于提供高可用服務(wù)。 本文討論實際工作中使用最多的為第2種:別名方式(IPAT via Aliasing),即使到今
24、天,其使用仍然最為廣泛,對交換機要求也最低。對于新型核心交換機和網(wǎng)絡(luò)人員可緊密配合的,則推薦第3種,由于第3種更為簡單,切換時間更短。但本文這里以第2種為主加以討論。 這樣設(shè)計時就需要注意以下事情:1. 網(wǎng)段設(shè)計:一個服務(wù)地址需要3個網(wǎng)段對應(yīng),boot地址網(wǎng)段不能和服務(wù)地址一致。避免網(wǎng)絡(luò)變更造成的系統(tǒng)不可用,boot地址的網(wǎng)段不要和實際其他系統(tǒng)的網(wǎng)段一致。在網(wǎng)段比較緊的地方,建議設(shè)計時詢問網(wǎng)絡(luò)人員。 舉例來說,下面的地址將會由于網(wǎng)絡(luò)變更后打通合一后可能造成沖突:設(shè)計人機器名服務(wù)地址boot1地址boot2地址三app1_db三app1_app四app2_db四app2_app王五app3_db
25、王五app3_app2. boot地址的設(shè)計:不要和實際其他同網(wǎng)段機器的boot地址沖突,最好不同網(wǎng)段。即這個規(guī)劃不能只考慮系統(tǒng)本身,還需要從同網(wǎng)段的高度考慮。 舉例來說,下面的地址由于2個系統(tǒng)分開設(shè)計,同時開啟將直接導(dǎo)致2個系統(tǒng)不可用。boot地址的設(shè)計表1設(shè)計人機器名服務(wù)地址boot1地址boot2地址三app1_db三app1_app四app2_db1四app2_app2所以在設(shè)計時,我們建議boot地址的IP地址最后一段參照服務(wù)地址,這樣雖然可記憶性不是很好,但即使設(shè)計在同一網(wǎng)段,也可以避免上述錯誤發(fā)生。更改設(shè)計如下:boot地址的設(shè)計表2設(shè)計人機器名服務(wù)地址boot1地址boot2地
26、址三app1_db三app1_app四app2_db111四app2_app222 此外,如果是每個網(wǎng)卡多個網(wǎng)口,記得設(shè)計時必須注意同一網(wǎng)絡(luò)的boot地址要分開到2塊網(wǎng)卡,以保證真正的冗余。2.4. 心跳設(shè)計 配置HACMP的過程中,除了TCP/IP網(wǎng)絡(luò)之外,您也可以在其它形式的網(wǎng)絡(luò)上,如串行網(wǎng)絡(luò)和磁盤總線上配置心跳網(wǎng)絡(luò)。1. TCP/IP網(wǎng)絡(luò) 優(yōu)點:要求低,不需要任何額外硬件或軟件,即可實現(xiàn)。 缺點:占用IP地址,不能避免由于TCP/IP的軟件問題導(dǎo)致HACMP崩潰,系統(tǒng)不可用。2. 串口網(wǎng)絡(luò) 優(yōu)點:真正實現(xiàn)高可用性,不占用IP地址。 缺點:需要硬件支持,需要新增異步卡,而中低端的機器的插槽
27、有限。3. 磁盤心跳 優(yōu)點:不占用插槽,磁盤總線上的心跳網(wǎng)絡(luò)能夠在TCP/IP網(wǎng)絡(luò)資源有限的情況下提供額外的HACMP節(jié)點間的通信手段,并且能夠防止HACMP節(jié)點之間由于 TCP/IP軟件出現(xiàn)問題而無法相互通信。 缺點:需要操作系統(tǒng)和存儲支持,如使用增強型卷組,此外對于I/O讀寫負荷高的應(yīng)用,也需要慎用。 正如IBM紅皮書所說,條件許可的情況下,強烈推薦使用串口網(wǎng)絡(luò),其次是磁盤心跳。不過我們也注意到HACMP7.1將不再支持串口心跳,而改為其他如SAN方式,效果有待進一步觀察。2.5. 資源組設(shè)計 對于HACMP來講,服務(wù)IP地址和磁盤VG、文件系統(tǒng)、應(yīng)用服務(wù)器都是資源,如何規(guī)劃需要根據(jù)實際情
28、況來,包括以下容:資源組的數(shù)量即資源:一般情況下每臺機器只要建立一個資源組即可,包括服務(wù)IP地址、應(yīng)用服務(wù)器與VG。 現(xiàn)在不推薦具體確定VG里的文件系統(tǒng),這是因為確定后,有可能造成有些新增文件系統(tǒng)不在HACMP的控制圍,結(jié)果是HACMP切換時由于這些文件系統(tǒng)沒有unmount掉而導(dǎo)致切換失敗。資源組的策略:分failover(故障切換)和fallback(回切)等。一般選缺省,當(dāng)然你可以根據(jù)具體情況修正,如oracle 10g RAC的并發(fā)VG資源組的選擇就不一樣。2.5.1.磁盤與VG設(shè)計 雖然實際上HACMP是靠PVID來認磁盤的,但集群的機器上磁盤順序不一,磁盤對應(yīng)不一致會造成某種混亂。
29、以致于安裝配置和維護時很容易產(chǎn)生各種人為錯誤,所以我們強烈建議機器上看到的磁盤和VG名稱都一一對應(yīng),此外VG 的MajorNumber也需要預(yù)先設(shè)計規(guī)劃,以免不一致。同時新的AIX6.1已很好提供了修改hdisk號的rendev 命令,以前這樣的煩惱也就迎刃而解了。2.5.2.用戶與組設(shè)計HA要求所有切換需要用到的用戶必須所有節(jié)點對應(yīng),ID完全一樣,用戶運行的環(huán)境變量完全一樣,即當(dāng)系統(tǒng)切換時,對使用該用戶的程序用戶即組設(shè)置沒有區(qū)別的。如某系統(tǒng)的host2上oracle用戶為orarun,host1上的orarun必須為切換保留,ID均為209,host1上平時用的oracle用戶就設(shè)為orar
30、unc。2.5.3.邏輯卷和文件系統(tǒng)設(shè)計HACMP要求切換相關(guān)的文件系統(tǒng)和lv不能重名,如host2上oracle軟件目錄為/ora11run,host1上的/ora11run必須為切換保留,改為/ora11runc。此外,集群下相關(guān)的文件系統(tǒng)和lv,在各個節(jié)點主機的定義也需要一致,如/etc/filesystems里是一致的,這個通過importvg或HACMP的C-SPOC來保證。2.5.4.路由設(shè)計對于有通信需求的主機,很可能對路由有一定要求,如本次實驗環(huán)境,就有2個網(wǎng)段走的不是缺省路由,需要設(shè)計清楚,最后在起停腳本實現(xiàn)。2.5.5.應(yīng)用腳本設(shè)計我們這里說的應(yīng)用,是包括數(shù)據(jù)庫在除OS和H
31、ACMP之外的所有程序,對于應(yīng)用程序的起停順序和各種要求,都需要預(yù)先和應(yīng)用人員加以溝通,并預(yù)先設(shè)計偽碼,最終編寫腳本實現(xiàn)。第二部分-安裝配置篇2.1. 準(zhǔn)備2.1.1.安裝前提1) 操作系統(tǒng)版本要求:實驗實際為AIX6.1.10,實際HACMP6.1 要求AIX5.3.9和AIX6.1.2,具體安裝時可查看以下安裝版本的High Availability Cluster Multi-Processing for AIX Installation GuidePrerequisites一節(jié)。2) 系統(tǒng)參數(shù)要求 作為集群的各個節(jié)點機,我們建議各個參數(shù)最好完全一致,需要注意的參數(shù)有:1. 異步I/O
32、服務(wù)進程配置(Asynchronous I/O servers)2. 用戶最大進程數(shù)3. 系統(tǒng)時間4. 用戶缺省的limits參數(shù)5. 其他可能影響應(yīng)用的參數(shù)3) 環(huán)境要求 此時,沒有建立任何HACMP占用設(shè)計ID相關(guān)用戶和組,同樣也沒有建立VG和文件系統(tǒng),包括名稱沖突文件系統(tǒng)和lv和Major numver沖突的VG。 用戶和組確認目的:確認沒有和設(shè)計中ID沖突的用戶,否則需要調(diào)整。host1root/lsuser -a id ALLroot id=0daemon id=1bin id=2sys id=3adm id=4uucp id=5host2root/lsuser -a id ALLr
33、oot id=0daemon id=1 文件系統(tǒng)確認 目的:確認沒有和設(shè)計名稱相沖突的文件系統(tǒng),否則需要調(diào)整。host1root/df -kFilesystem 1024-blocks Free %Used Iused %Iused Mounted on/dev/hd4 524288 487820 7% 3276 3% /dev/hd2 7077888 1868516 74% 91290 18% /usr/dev/hd9var 524288 458364 13% 991 1% /var/dev/hd3 917504 826700 10% 120 1% /tmp/dev/hd1 655360 5
34、24856 20% 291 1% /home/proc - - - - - /proc/dev/hd10opt 1179648 589072 51% 11370 8% /opthost2root/df -k .4) 安裝包要求:RSCT 或更高版本。lslpp -l|grep rsct 以下的包也是必須要安裝的:(腳本可直接拷貝運行)lslpp -l rsct.*lslpp -l bos.adt.liblslpp -l bos.adt.libmlslpp -l bos.adt.syscalls lslpp -l .tcp.client lslpp -l .tcp.serverlslpp -l
35、bos.rte.SRClslpp -l bos.rte.libclslpp -l bos.rte.libcfg lslpp -l bos.rte.libcurlslpp -l bos.rte.libpthreads lslpp -l bos.rte.odm顯示確認結(jié)果:host1root/lslpp -l rsct.* Fileset Level State Description Path: /usr/lib/objrepos rsct.basic.hacmp COMMITTED RSCT Basic Function (HACMP/ES Support) rsct.basic.rte CO
36、MMITTED RSCT Basic Function rsct.basic.sp COMMITTED RSCT Basic Function (PSSP Support) rsct pat.basic.hacmp COMMITTED RSCT Event Management Basic Function (HACMP/ES Support) rsct pat.basic.rte COMMITTED RSCT Event Management Basic Function rsct pat.basic.sp COMMITTED RSCT Event Management Basic Func
37、tion (PSSP Support) rsct pat.clients.hacmp COMMITTED RSCT Event Management Client Function (HACMP/ES Support)host2root/lslpp -l rsct.*2.2. 安裝2.2.1.安裝PowerHA6.1(需要在所有節(jié)點上安裝)如果是光盤,請插入光盤 ,輸入smitty install_latest Install SoftwareType or select values in entry fields.Press Enter AFTER making all desired c
38、hanges. Entry Fields* INPUT device / directory for software /dev/cd0* SOFTWARE to install _all_latest. ACCEPT new license agreements? yes Preview new LICENSE agreements? no 如果是安裝盤拷貝,請進入cd installp/ppc目錄,smitty install_latest Install SoftwareType or select values in entry fields.Press Enter AFTER mak
39、ing all desired changes. Entry Fields* INPUT device / directory for software .* SOFTWARE to install _all_latest. ACCEPT new license agreements? yes Preview new LICENSE agreements? no安裝結(jié)束后,會報failed,請檢查cluster.doc.en_US.pprc.pdf cluster.es.cgpprc.rte cluster.es.pprc.cmds cluster.es.spprc.*cluster.es.s
40、r.*cluster.es.svcpprc.*cluster.xd.*glvm.rpv.*包以外,所有的HACMP的包都要安裝 2.2.2.打補丁 注意,請不要忽略給HACMP打補丁這一步驟。其實對HACMP來說,補丁是十分重要的。很多發(fā)現(xiàn)的缺陷都已經(jīng)在補丁中被解決了。當(dāng)嚴格的按照正確步驟安裝和配置完HACMP的軟件后,發(fā)現(xiàn)takeover 有問題,IP接管有問題,機器自動宕機等等千奇百怪的問題,其實大都與補丁有關(guān)。所以一定要注意打補丁這個環(huán)節(jié)。如為HACMP 6110 或 HYPERLINK :/www-933.ibm /support/fixcentral/aix/doSelectFixe
41、s?options.selectedFixes=IV42930&continue=1 t _blank IV42930以上Apar: HYPERLINK :/www-933.ibm /support/fixcentral/aix/doSelectFixes?options.selectedFixes=IV42930&continue=1 t _blank IV42930LATEST HACMP FOR AIX R610 FIXES SP11 MAY 2013 。 smitty install_latest,全部安裝host1root/soft_ins/ha61/patchls.toc clus
42、ter.es.cspoc.dsh.1.bffcluster.adt.es.client.include.bff 安裝結(jié)束后,仍會報failed,檢查glvm.rpv.*cluster.xd.glvm cluster.es.tc.*cluster.es.svcpprc.* cluster.es.sr.rte.* cluster.es.spprc.* cluster.es.pprc.*cluster.es.genxd.* cluster.es.cgpprc.*沒裝上外,其他都已安裝上。補丁可在IBM下載:重啟機器 注:記住一定要重起機器,否則安裝將無常繼續(xù)。2.2.3.安裝確認1)確認initta
43、b:egrep -i hacmp /etc/inittabhacmp:2:once:/usr/es/sbin/cluster/etc/rc.init /dev/console 2&1 在HACMP 6.1版本中,我們可以看到inittab非常簡化,將所有HACMP需要開機啟動相關(guān)進程的工作,全部歸入一個腳本/usr/es/sbin/cluster/etc/rc.init來運行。如果你查看/etc文件/inittab文件 就會發(fā)現(xiàn)安裝完HACMP后,僅添加了一行:hacmp:2:once:/usr/es/sbin/cluster/etc/rc.init /dev/console 2&1 。2)確
44、認安裝和補丁包:(關(guān)鍵為cluster.es.server.rte)lslpp -l cluster.* Fileset Level State Description Path: /usr/lib/objrepos . cluster.es.server.rte 0 COMMITTED ES Base Server Runtime3)確認clcomdES已啟動lssrc -s clcomdESSubsystem Group PID Status clcomdES clcomdES 4128974 active2.3. 配置準(zhǔn)備 總的來說,配置前的準(zhǔn)備必不可少,這一步還要仔細小心,準(zhǔn)備不充分或
45、有遺漏以與這步的細節(jié)疏忽會導(dǎo)致后面的配置出現(xiàn)網(wǎng)卡、磁盤找不到等現(xiàn)象。將會直接導(dǎo)致后面的配置失敗。2.3.1.修改.rhosts修改確認每臺機器/.rhosts為:host1rootvi /.rhostshost1host1_l2_boot1 host1_l1_boot1 host1_l2_svc host1_l1_svc1 host1_l1_svc2 host1_l2_boot2 host1_l1_boot2 host2host2_l2_boot1 host2_l1_boot1 host2_l2_svc host2_l1_svc1 host2_l1_svc2 host2_l2_boot2 ho
46、st2_l1_boot2 注意權(quán)限修改: chmod 644 /.rhosts 在HACMP 6.1中 為了安全起見,不再使用/.rhosts 文件來控制兩臺機器之間的命令和數(shù)據(jù)交換,使用 /usr/es/sbin/cluster/etc/rhosts 文件來代替 /.rhosts 文件的功能。 注意:如果兩個節(jié)點間的通訊發(fā)生了什么問題,可以檢查rhosts 文件,或者編輯rhosts文件加入兩個節(jié)點的網(wǎng)絡(luò)信息。為方便配置期間檢查發(fā)現(xiàn)問題,配置期間我們讓/.rhosts和HACMP的rhosts一致。 2.3.2.修改/etc/hosts修改確認每臺機器/etc/hosts為: loopbac
47、k localhost # loopback (lo0) name/address host1_l2_boot1 1 host1_l1_boot1 host1 host1_l2_svc host1_l1_svc1 host1_l1_svc2 host1_l2_boot2 host1_l1_boot2 host2_l2_boot1 2 host2_l1_boot1 host2 host2_l2_svc host2_l1_svc1 host2_l1_svc2 host2_l2_boot2 host2_l1_boot2注:正式配置之前,主機名落在boot地址上,待配置完成后將改為服務(wù)IP地址上。確認
48、:host1root/rsh host2 dateWed Sep 11 15:46:06 GMT+08:00 2013host2root/rsh host1 dateWed Sep 11 15:46:06 GMT+08:00 2013host1root/#rsh host1 ls -l /usr/es/sbin/cluster/etc/rhosts-rw 1 root system 237 Sep 11 15:45 /usr/es/sbin/cluster/etc/rhostshost1root/#rsh host2 ls -l /usr/es/sbin/cluster/etc/rhosts-
49、rw 1 root system 237 Sep 11 15:45 /usr/es/sbin/cluster/etc/rhosts2.3.3.添加共享vg: host1root/lspv hdisk0 00c1fe1f0215b425 rootvg activehdisk1 00c1fe1f8d700839 rootvg activehdisk2 none nonehdisk3 none none smitty vg - Add a Volume Grouphost1root/lspv。hdisk2 00f6f1569990a1ef host1vg activehdisk3 00f6f1569
50、990a12c host2vg active2.3.4.建立文件系統(tǒng) 由于后面需要修改loglv,必須建立文件系統(tǒng)才會有l(wèi)oglv,所以需要先建立在host1vg 上的 /ora11runc和host2vg上的/ora11run的JFS2文件系統(tǒng),其他文件系統(tǒng)可在 HYPERLINK C:/Users/aigoppb/Desktop/-.docx l _%E5%A2%9E%E5%8A%A0lv%E5%92%8C%E6%96%87%E4%BB%B6%E7%B3%BB%E7%BB%9F t _blank 實施中的配置中2邊同時添加。smitty lv -Add a Logical Volume,注
51、意選擇JFS2smitty fs- Enhanced Journaled File Systems - Add a Journaled File Systemhost1root/lsfsName Nodename Mount Pt VFS Size Options Auto Accounting./dev/ora11runlv - /ora11run jfs2 15728640 rw no no /dev/ora11runclv - /ora11runc jfs2 10485760 rw no no .2.3.5.修改loglv 這一步有2個目的,一是避免兩邊loglv重名,二是規(guī)loglv的
52、取名,使它看起來更清楚明了。host1vg (host2vg也要修改)1)察看host1root/varyonvg host1vghost1root/lsvg -l host1vg host1vg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINTora11runclv jfs2 40 40 1 closed/syncd /ora11runcloglv02 jfs2log 1 1 1 closed/syncd N/Aumount vg上所有fs如 umount /ora11runc2)修改loglv名稱host1root/ chlv -n host1_l
53、oglv loglv020516-712 chlv: The chlv succeeded, however chfs must now be run on every filesystem which references the old log name loglv02.host1root/lsvg -l host1vghost1vg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINTora11runclv jfs2 40 40 2 closed/syncd /ora11runchost1_loglv jfs2log 1 1 1 closed/syn
54、cd N/Ahost1root/vi /etc/filesystems將log = /dev/loglv02的改為log =/dev/host1_loglv確認:host1root/mount /ora11runc2.3.6.整理vg 在每臺機器上都運行以下腳本(實際可以copy以下腳本到文本編輯器替換成你實際的vg)varyoffvg host1vgvaryoffvg host2vgexportvg host1vgexportvg host2vgchdev -l hdisk2 -a pv=yeschdev -l hdisk3 -a pv=yesimportvg -V 101 -n -y ho
55、st1vg hdisk2varyonvg host1vgchvg -an host1vgimportvg -V 201 -n -y host2vg hdisk3varyonvg host2vgchvg -an host2vgvaryoffvg host1vgvaryoffvg host2vg確認:host1root/lspv。hdisk2 00f6f1569990a1ef host1vg hdisk3 00f6f1569990a12c host2vg host2root/lspv。hdisk2 00f6f1569990a1ef host1vg hdisk3 00f6f1569990a12c h
56、ost2vg host2root/varyong host1vg;varyong host2vghost2root/lsfsName Nodename Mount Pt VFS Size Options Auto Accounting./dev/ora11runclv - /ora11runc jfs2 10485760 rw no no /dev/ora11runlv - /ora10run jfs2 15728640 rw no no 2.3.7.修改網(wǎng)絡(luò)參數(shù)與IP地址 由于AIX會cache路由配置,因此需要修改一些參數(shù):routerevalidatehost2root/no -po r
57、outerevalidate=1Setting routerevalidate to 1Setting routerevalidate to 1 in nextboot file確認:host2root/#no -a|grep routerevalidate routerevalidate = 1 按照規(guī)劃,2臺機器修改IP地址 ,smitty tcpip,最終為host1root/netstat -inName Mtu Network Address Ipkts Ierrs Opkts Oerrs Collen0 1500 10.2.1 1 2481098 0 164719 0 0en0 1
58、500 link#2 2.f8.28.3a.82.3 2481098 0 164719 0 0en1 1500 10.2.2 142470 0 10 0 0en1 1500 link#4 2.f8.28.3a.82.5 142470 0 10 0 0en2 1500 10.2.11 22 0 20 0 0en2 1500 link#3 2.f8.28.3a.82.6 22 0 20 0 0en3 1500 10.2.12 0 0 4 0 0en3 1500 link#5 2.f8.28.3a.82.7 0 0 4 0 0lo0 16896 127 1335968 0 1335969 0 0lo
59、0 16896 :1%1 1335968 0 1335969 0 0lo0 16896 link#1 1335968 0 1335969 0 0host1root/netstat -iName Mtu Network Address Ipkts Ierrs Opkts Oerrs Collen0 1500 10.2.1 host1_l1_boot1 2481124 0 164734 0 0en0 1500 link#2 2.f8.28.3a.82.3 2481124 0 164734 0 0en1 1500 10.2.2 host1_l2_boot1 142476 0 10 0 0en1 15
60、00 link#4 2.f8.28.3a.82.5 142476 0 10 0 0en2 1500 10.2.11 host1_l1_boot2 22 0 20 0 0en2 1500 link#3 2.f8.28.3a.82.6 22 0 20 0 0en3 1500 10.2.12 host1_l2_boot2 0 0 4 0 0en3 1500 link#5 2.f8.28.3a.82.7 0 0 4 0 0lo0 16896 127 loopback 1335968 0 1335969 0 0lo0 16896 :1%1 1335968 0 1335969 0 0lo0 16896 l
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 員工離職報告(集錦15篇)
- 部門競聘演講稿錦集9篇
- 簡單的個人辭職報告合集15篇
- 認識實習(xí)報告范文匯編九篇
- 2024五金建材市場采購合作框架協(xié)議2篇
- 簡歷離職原因集錦7篇
- 學(xué)校年輕教師培訓(xùn)心得7篇
- 2024年無保險勞務(wù)派遣服務(wù)與企業(yè)勞動保障合同3篇
- 學(xué)期語文工作計劃三篇
- 2025水泵購銷合同范本
- 天津市南開區(qū)2023-2024學(xué)年四年級上學(xué)期期末英語試題
- 專題四“挺膺擔(dān)當(dāng)”主題團課
- 安徽省建筑、裝飾裝修工程計價定額說明及工程量計算規(guī)則
- 新高考3+1+2改革情況詳細講解課件
- 思維訓(xùn)練——對折問題實用教案
- 學(xué)習(xí)和記憶——腦科學(xué)簡介
- 重大第八版三年級上信息技術(shù)期末試題
- eviews軟件對于我國城鎮(zhèn)居民消費性支出和可支配收入的分析
- 2022年檔案管理員資格考試題庫及答案-精簡版
- CA6140型車床電氣控制線路的檢修
- 堿爐安裝淺談
評論
0/150
提交評論