配置一個雙節(jié)點(diǎn) HACMP 集群_第1頁
配置一個雙節(jié)點(diǎn) HACMP 集群_第2頁
配置一個雙節(jié)點(diǎn) HACMP 集群_第3頁
配置一個雙節(jié)點(diǎn) HACMP 集群_第4頁
配置一個雙節(jié)點(diǎn) HACMP 集群_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、配置一個雙節(jié)點(diǎn) HACMP 集群Christian Pruett 是一個 IBM 全球服務(wù)團(tuán)隊的 p 系列主機(jī)工程師。他畢業(yè)于科羅拉多州立大學(xué)的歷史系,擁有學(xué)士學(xué)位。他擁有 IBM 認(rèn)證管理員認(rèn)證,職業(yè)經(jīng)歷主要是圍繞 RS/6000 主機(jī),p 系列主機(jī)硬件和系統(tǒng)的支持工作。他目前是 IBM IGS 的一名團(tuán)隊負(fù)責(zé)人。您想建立一個冗余環(huán)境來獲得高可用性,但又不知道 AIX® 可以提供何種幫助嗎?本文將帶您探秘 High Availability Cluster Multi-Processing (HACMP),并向您提供一份關(guān)于如何配置和設(shè)置一個簡單的雙節(jié)點(diǎn)集群的備忘單。有些類型的計算

2、環(huán)境不能承受停機(jī)的代價 其中的應(yīng)用程序和數(shù)據(jù)非常重要,如果一臺機(jī)器停機(jī),您希望另一臺機(jī)器能夠立即接管其工作。幸運(yùn)的是,在 IBM® AIX® 中,一個名為 High Availability Cluster Multi-Processing (HACMP) 的特殊軟件能夠提供冗余和高可用性來滿足這樣的需求。本文將簡要介紹 HACMP,并演示如何設(shè)置和配置一個簡單的雙節(jié)點(diǎn)集群。 常用縮略詞· I/O: 輸入/輸出· NAS: 網(wǎng)絡(luò)附接存儲· SAN: 存儲區(qū)域網(wǎng)· VLAN: 虛擬局域網(wǎng)· WAN: 廣域網(wǎng)運(yùn)行中的 HACMP

3、HACMP 的設(shè)計目標(biāo)是以最少的停機(jī)時間來保持資源高度可用,其實(shí)現(xiàn)方法是通過允許多個 IBM System p 服務(wù)器訪問資源的方式來收集資源。HACMP 以邏輯方式管理磁盤、網(wǎng)絡(luò)、應(yīng)用程序資源,根據(jù)可用性和首選項(xiàng)將控制權(quán)交付給單個機(jī)器。從系統(tǒng)管理員角度看,HACMP 背后的理念是保持所有資源盡可能冗余,從而在所有層面上確保高可用性。 圖 1 展示了一個簡單的 HACMP 配置。圖 1. 簡單的 HACMP 配置在這里,兩個 System p 服務(wù)器共享一個公共 SAN 存儲,并在兩個網(wǎng)絡(luò)上通信。它們之間共享一組 IP 地址、一些 Logical Volume Manager (LVM) 資源

4、和應(yīng)用程序控件 均通過 HACMP 管理。 其中一個服務(wù)器被視為 “活動的”,控制著這些資源,而另一個服務(wù)器閑置,隨時準(zhǔn)備在必要時接管工作,如 圖 2 所示。 圖 2. 活動和閑置服務(wù)器當(dāng)部分物理資源出現(xiàn)可用性問題時,比如有些線路被意外拔出,HACMP 將感知這些問題并讓另一個服務(wù)器接管工作。這些資源的可用性將出現(xiàn)短暫中斷,但隨后一切恢復(fù)正常,就像還在原來的機(jī)器上一樣,沒有任何區(qū)別,如 圖 3 所示。 圖 3. HACMP 在資源失敗時控制故障轉(zhuǎn)移 一旦問題硬件恢復(fù)正常,這些資源可以保持在原地,也可以返回原始服務(wù)器。這完全取決于管理員的決定。 但是,硬件故障并不是導(dǎo)致資源從一個服務(wù)器轉(zhuǎn)移到另一

5、個服務(wù)器的惟一原因。這種技術(shù)也可用于操作系統(tǒng)升級、固件維護(hù)以及其他可能需要停機(jī)的活動,從而向這些活動添加 HACMP 的多用性和有用性。 關(guān)鍵 HACMP 術(shù)語以下術(shù)語將貫穿本文始終,有助于理解對 HACMP 的探討: · 集群:運(yùn)行 HACMP 的多個服務(wù)器的邏輯分組。· 節(jié)點(diǎn):集群中的單獨(dú)服務(wù)器。· 網(wǎng)絡(luò):盡管這個術(shù)語通常指大范圍的計算機(jī)對計算機(jī)通信(比如 WAN),但在 HACMP 中,網(wǎng)絡(luò) 指的是兩個服務(wù)器之間的通信區(qū)域的邏輯定義。 · 啟動 IP:這是一個節(jié)點(diǎn)在首次激活并變?yōu)榭捎脮r使用的默認(rèn) IP 地址。通常 如本文所示 啟動 IP 是一個不可

6、路由的 IP 地址,設(shè)置在集群中所有節(jié)點(diǎn)都可訪問的一個隔離 VLAN 上。 · 持久 IP:這是一個節(jié)點(diǎn)作為其常規(guī)通信方式使用的 IP 地址。通常,系統(tǒng)管理員通過這個 IP 訪問該節(jié)點(diǎn)。 · 服務(wù) IP:這是可以在多個節(jié)點(diǎn)之間 “流動” 的 IP 地址。通常,用戶通過這個 IP 地址訪問集群中的資源。 · 應(yīng)用程序服務(wù)器:這是一個邏輯配置,告知 HACMP 如何管理應(yīng)用程序,包括啟動和停止應(yīng)用程序,應(yīng)用程序監(jiān)控,以及應(yīng)用程序調(diào)優(yōu)項(xiàng)。本文只關(guān)注啟動和停止應(yīng)用程序。 · 共享卷組:這是 HACMP 托管的一個卷組。您必須對將在服務(wù)器之間共享的磁盤資源使用 H

7、ACMP,而不是通過操作系統(tǒng)配置卷組、邏輯卷和文件系統(tǒng)這樣的 LVM 結(jié)構(gòu)。 · 資源組:這是集群中的節(jié)點(diǎn)能夠管理的服務(wù) IP 地址、應(yīng)用程序服務(wù)器和共享卷組的一個邏輯分組。 · 故障轉(zhuǎn)移:這是資源組從一個節(jié)點(diǎn)轉(zhuǎn)移到另一個節(jié)點(diǎn)的情形。發(fā)生故障轉(zhuǎn)移的情況有兩種:一是系統(tǒng)管理員指示集群中的節(jié)點(diǎn)執(zhí)行故障轉(zhuǎn)移;二是出現(xiàn)災(zāi)難性應(yīng)用程序或服務(wù)器故障的情況迫使資源組轉(zhuǎn)移。 · 故障恢復(fù)/回退:這是在故障轉(zhuǎn)移發(fā)生后將資源組移回其最初在其上運(yùn)行的原始節(jié)點(diǎn)的操作。 · 心跳:這是通過 HACMP 網(wǎng)絡(luò)傳輸,用于檢查和確認(rèn)資源可用性的信號。如果心跳被中斷,集群可能會根據(jù)配置發(fā)

8、起一次故障轉(zhuǎn)移。 回頁首準(zhǔn)備工作您必須先執(zhí)行幾個步驟,而后才能配置一個 HACMP 集群并使其可用。第一步是確保將用于這兩個服務(wù)器的硬件盡可能相似。處理器數(shù)量、內(nèi)存大小、以及 Fibre Channel 和 Ethernet 適配器的類型應(yīng)該完全一樣。如果您正在使用邏輯分區(qū)(LPAR)或虛擬 I/O(VIO)技術(shù),應(yīng)確保一致:不要混合硬件策略,比如在一個節(jié)點(diǎn)上使用 logical Host Ethernet Adapters (LHEA),在另一個節(jié)點(diǎn)上使用標(biāo)準(zhǔn) 4 端口 Ethernet 適配器。 不要使用開發(fā)服務(wù)器多年來,我見識了幾個不同的公司中的許多環(huán)境,其中,將集群中的一個節(jié)點(diǎn)聲明為

9、“生產(chǎn)” 服務(wù)器,另一個節(jié)點(diǎn)聲明為 “開發(fā)” 服務(wù)器。之所以做出這個決策,原因是這些公司認(rèn)為僅僅是為了預(yù)防災(zāi)難發(fā)生就使一個服務(wù)器在超過 90% 的時間都處于閑置狀態(tài)簡直是在浪費(fèi)錢財。在此,我必須嚴(yán)正聲明:不要這樣做。如果采用這種策略,毫無疑問,這兩個服務(wù)器之間將出現(xiàn)差異,因?yàn)殚_發(fā)將導(dǎo)致軟件、應(yīng)用程序和操作系統(tǒng)功能方面的差異。當(dāng)生產(chǎn)資源組必須故障轉(zhuǎn)移到開發(fā)服務(wù)器時(因?yàn)檫@只是個時間問題,沒有如果),那些差異將阻止故障轉(zhuǎn)移正確進(jìn)行。 第二步(應(yīng)該與第一步相符)是調(diào)整環(huán)境大小,以便每個節(jié)點(diǎn)都能同時管理所有資源組。如果您決定要使多個資源組在集群中運(yùn)行,那么假設(shè)最壞的情況是一個節(jié)點(diǎn)將一次運(yùn)行所有資源組。

10、確保這些服務(wù)器都擁有足夠的處理能力。 第三步,您需要對每個服務(wù)器分配和/或共享相同的資源集。如果您使用 SAN 磁盤進(jìn)行存儲,那么用于共享卷組的磁盤必須被分區(qū)到所有節(jié)點(diǎn)。網(wǎng)絡(luò) VLANs、子網(wǎng)和地址應(yīng)該以相同的方式連接。與您的 SAN 和網(wǎng)絡(luò)管理員協(xié)作,獲取啟動、持久和服務(wù) IP 地址的地址和磁盤。 第四步,也是最后一步,節(jié)點(diǎn)之間的整個操作系統(tǒng)配置必須匹配。用戶 IDs、第三方軟件、技術(shù)級別和服務(wù)包都必須一致。為此,一個最好的方法是在一個節(jié)點(diǎn)上構(gòu)建目標(biāo)配置,執(zhí)行一個 mksysb 備份,然后使用該備份構(gòu)建所有后續(xù)節(jié)點(diǎn)。服務(wù)器構(gòu)建好后,應(yīng)將它們視為 “連體嬰兒”:總是同時在兩個服務(wù)器上進(jìn)行一致的

11、更改。 借助當(dāng)今可用的所有虛擬技術(shù),明智的做法是使用 VIO 來在同一組 System p 服務(wù)器和硬件資源上創(chuàng)建一對生產(chǎn)和開發(fā) LPARs,而不是為了試圖節(jié)省一點(diǎn)鈔票而犧牲 HACMP 的真正設(shè)計目標(biāo)。使用共享處理器權(quán)重、最大傳輸單元(MTU)大小和 RAM 分配等工具來向生產(chǎn) LPARs 提供比開發(fā) LPARs 更多的優(yōu)勢。這樣做能夠創(chuàng)建一個能夠處理故障轉(zhuǎn)移的環(huán)境,并使經(jīng)理和會計師們相信,資金得到了合理的運(yùn)用。 回頁首配置一個雙節(jié)點(diǎn) HACMP 集群現(xiàn)在我們演示實(shí)際操作。在本例中,您將跨兩個 Ethernet 網(wǎng)絡(luò)設(shè)置一個簡單的雙節(jié)點(diǎn)集群:一個共享卷組位于一個 SAN 磁盤上,該卷組還為一

12、個心跳使用另一個 SAN 磁盤,以及由一個資源組中的 HAVMP 托管的一個應(yīng)用程序。 注意:這個流程假設(shè)所有 IP 地址已經(jīng)預(yù)先確定,磁盤的 SAN 分區(qū)已經(jīng)完成。除非特別聲明,您必須在集群中的每一個節(jié)點(diǎn)上運(yùn)行這里的任務(wù)。 步驟 1. 安裝 HACMP 軟件這個軟件可以直接從 IBM 購買(參見 參考資料 );這些文件組都以單詞 cluster 開始。使用 installp 命令安裝此軟件,安裝過程與其他許可程序包(LPP)很相似。 步驟 2. 編輯平面文件將與集群關(guān)聯(lián)的所有 IP 地址 啟動、持久和服務(wù) 放到集群每個節(jié)點(diǎn)的 /etc/hosts 文件中。對 /usr/es/sbin/clu

13、ster/etc/rhosts 文件執(zhí)行相同的操作。驗(yàn)證服務(wù)器主機(jī)名匹配適當(dāng)?shù)?IP 地址;服務(wù)器的主機(jī)名還應(yīng)該匹配持久 IP 地址。 步驟 3. 配置引導(dǎo) IP 地址運(yùn)行 smitty chinet 命令,為每個網(wǎng)絡(luò)適配器設(shè)置引導(dǎo) IP 地址。確保能夠自由地在所有相應(yīng)的網(wǎng)絡(luò)上從節(jié)點(diǎn)到節(jié)點(diǎn) ping 和連接。另外,反復(fù)檢查,確保默認(rèn)路由已正確配置。如果沒有,運(yùn)行 smitty tcpip 命令,進(jìn)入 Minimum Configuration 菜單,輸入主適配器的默認(rèn)路徑,按下 Enter 鍵。 步驟 4. 制作應(yīng)用程序啟動和停止腳本創(chuàng)建兩個簡單的 Korn shell 腳本 一個用于啟動應(yīng)用

14、程序,一個用于停止應(yīng)用程序。將這兩個腳本放置在這兩個節(jié)點(diǎn)的相同目錄中。 步驟 5. 定義集群運(yùn)行命令:smitty cm_config_an_hacmp_cluster_menu_dmn然后,定義集群,包括對其進(jìn)行適當(dāng)命名。步驟 6. 定義節(jié)點(diǎn)運(yùn)行命令:smitty cm_config_hacmp_nodes_menu_dmn定義兩個節(jié)點(diǎn)上的集群中的每個節(jié)點(diǎn)。步驟 7. 定義網(wǎng)絡(luò)運(yùn)行命令:smitty cm_config_hacmp_networks_menu_dmn這對每個 Ethernet 適配器定義一個網(wǎng)絡(luò)。我喜歡使用 Pre-defined 選項(xiàng)而不喜歡 Discovered 路徑,但

15、這取決于您的決定。檢查子網(wǎng)掩碼,以確保一致。 步驟 8. 定義啟動 IP 地址運(yùn)行命令:smitty cm_config_hacmp_communication_interfaces_devices_menu_dmn這在網(wǎng)絡(luò)適配器上分別定義相應(yīng)的引導(dǎo) IP 地址。這個地址應(yīng)與 步驟 3 中使用的 IP 地址相同。確保在適當(dāng)?shù)?HACMP 定義的相應(yīng)網(wǎng)絡(luò)中定義這些地址。 步驟 9. 定義持久 IP 地址運(yùn)行命令:smitty cm_config_hacmp_persistent_node_ip_label_addresses_menu_dmn這定義持久 IP 地址。同樣,注意選擇適當(dāng)?shù)?HACM

16、P 定義的相應(yīng)網(wǎng)絡(luò)。 步驟 10. 定義服務(wù) IP 地址運(yùn)行命令:smitty cm_config_hacmp_service_ip_labels_addresses_menu_dmn這定義服務(wù) IP 地址。步驟 11. 執(zhí)行一個發(fā)現(xiàn)和重啟至此,這些節(jié)點(diǎn)應(yīng)該能夠相互通信,并使存儲在節(jié)點(diǎn)的 Object Data Managers (ODMs) 中的信息保持同步。運(yùn)行以下命令,使集群中的節(jié)點(diǎn)相互通信: smitty cm_extended_config_menu_dmn選擇 Discover HACMP-related Information from Configured Nodes 選項(xiàng),檢

17、查需要修復(fù)的錯誤。通常,重新啟動每個節(jié)點(diǎn)能夠清除一些小問題,不管怎樣,這對測試重啟每個服務(wù)器是一個好的切入點(diǎn)。步驟 12. 定義資源組運(yùn)行命令:smitty cm_hacmp_extended_resource_group_config_menu_dmn定義資源組。然后執(zhí)行以下步驟:1. 選擇集群中的所有參與節(jié)點(diǎn)。2. 將 Startup Policy 設(shè)置為 Online On First Available Node。3. 將 Fallback Policy 設(shè)置為 Never Fallback。 這個設(shè)置阻止資源在原始服務(wù)器啟動時返回它,這是一個明智的做法。 步驟 13. 創(chuàng)建一個共享卷

18、組注意:只在一個節(jié)點(diǎn)上運(yùn)行這個命令。運(yùn)行 smitty cl_vg 命令,創(chuàng)建一個共享卷組。當(dāng)您創(chuàng)建一個共享卷組時,只需選擇一個節(jié)點(diǎn),因?yàn)榇疟P是共享的。 步驟 14. 創(chuàng)建一個心跳磁盤首先,運(yùn)行 smitty cl_convg 命令,然后選擇 Create a Concurrent Volume Group with Data Path Devices。選擇一個節(jié)點(diǎn)和目標(biāo)磁盤。接下來,運(yùn)行命令: smitty cm_config_hacmp_communication_interfaces_devices_menu_dmn重復(fù) 步驟 7,只是這次選擇 Discovered 選項(xiàng)和目標(biāo)磁盤。 步

19、驟 15. 定義一個應(yīng)用程序服務(wù)器運(yùn)行命令:smitty cm_cfg_app_extended這為 HACMP 將管理的應(yīng)用程序定義一個應(yīng)用程序服務(wù)器。使用 步驟 4 中創(chuàng)建的腳本。步驟 16. 配置資源組注意:只在一個節(jié)點(diǎn)上運(yùn)行這個命令。運(yùn)行命令:smitty cm_hacmp_extended_resource_group_config_menu_dmn選擇 Change/Show Resources and Attributes for a Resource Group 選項(xiàng)。然后,執(zhí)行以下步驟: 1. 選擇適當(dāng)?shù)姆?wù) IP 地址。2. 選擇適當(dāng)?shù)墓蚕砭斫M和心跳磁盤。3. 選擇適當(dāng)?shù)膽?yīng)

20、用程序服務(wù)器。步驟 17. 執(zhí)行一個同步同步集群配置。運(yùn)行命令:smitty cm_ver_and_sync將 Automatically correct errors found during verification? 設(shè)置為 Interactive。更正此過程中出現(xiàn)的問題。 步驟 18. 啟動集群此時,集群已準(zhǔn)備好啟動。在一個節(jié)點(diǎn)上,運(yùn)行 smitty clstart 命令,選擇那個特殊節(jié)點(diǎn)。我的偏好是不使集群在重啟時啟動,因?yàn)槿绻幸粋€ HACMP 相關(guān)的啟動問題,這樣可能很難診斷它。在該節(jié)點(diǎn)啟動且資源可用后,在另一個節(jié)點(diǎn)上啟動集群。 步驟 19. 執(zhí)行一個測試故障轉(zhuǎn)移我所知的測試 H

21、ACMP 的適應(yīng)性的最好方法是重啟活動節(jié)點(diǎn)并讓故障轉(zhuǎn)移自然進(jìn)行,同時在另一個節(jié)點(diǎn)上運(yùn)行 tail f /tmp/hacmp.out 命令,觀察資源轉(zhuǎn)移情況?;蛘?,運(yùn)行命令: smitty cl_resgrp_move.node_site選擇 Move Resource Groups to Another Node 選項(xiàng)。步驟 20. 執(zhí)行故障測試如果您的確想確保您的集群堅固可靠,可通過移除電纜并觀察資源如何來回移動來進(jìn)行測試。測試越多,您的集群將越可靠。 回頁首結(jié)束語HACMP 是一個健壯、有效的工具,用于確保資源在 AIX 服務(wù)器上保持可用。本文簡要介紹這個工具,并演示了如何設(shè)置一個雙節(jié)點(diǎn)集

22、群,但 HACMP 的功能還很豐富,其中包括應(yīng)用程序監(jiān)控、集成 NAS 資源、以及在啟動資源組過程中放入邏輯。如果您希望一次成功,我能提供的最好建議就是創(chuàng)建一個測試集群并進(jìn)行全面測試。參考資料 學(xué)習(xí)· HACMP Library:進(jìn)一步了解 AIX 中的 HACMP,并從 HACMP Library 找到有用資源。 · IBM PowerHA SystemMirror for AIX:了解 HACMP 的替代品 IBM PowerHA for AIX version 6.1。 · PowerHA for AIX Cookbook:了解如何安裝、定制和配置 Powe

23、rHA version 5.5。 · IBM eServer pSeries HACMP V5.x Certification Study Guide Update:這個指南演示如何使用 HACMP version 5.x 實(shí)現(xiàn)高可用性集群,幫助您將現(xiàn)有集群升級到最新版本,或者幫助您準(zhǔn)備 HACMP version 5.x 認(rèn)證考試,實(shí)現(xiàn)成為 IBM eServer Certified Systems Expert - pSeries HACMP 5.x for AIX 5L 的夢想。 · Implementing High Availability Cluster Mul

24、ti-Processing (HACMP) Cookbook:加深您對 HACMP 和 HACMP Extended Distance (HACMP/XD) 架構(gòu)的理解。 · HACMP Planning Guide:這個指南提供計劃和安裝 HACMP for AIX 軟件的必要信息。 · “HACMP 認(rèn)證學(xué)習(xí)紅皮書,第 1 部分:入門”(developerWorks,2008 年 3 月):本文包含對 IBM High Availability Cluster Multi-Processing (HACMP) for AIX 產(chǎn)品系列的介紹,以及作為 IBM 高可用性產(chǎn)

25、品基礎(chǔ)的概念。· “IBM HACMP 資源中心”(developerWorks,2008 年 4 月):HACMP 作為 IBM 重要的集群軟件一直受到 CIO、架構(gòu)師、系統(tǒng)管理員等的關(guān)注。在這里,我們?yōu)槟偨Y(jié)了本專區(qū)中所擁有的 HACMP 的資源,讓您可以很方便的找到您所需要的內(nèi)容,希望對您學(xué)習(xí) HACMP 有所幫助。· AIX and UNIX 專區(qū):developerWorks 的“AIX and UNIX 專區(qū)”提供了大量與 AIX 系統(tǒng)管理的所有方面相關(guān)的信息,您可以利用它們來擴(kuò)展自己的 UNIX 技能。· AIX and UNIX 新手入門:訪問“AIX and UNIX 新手入門”頁面可了解更多關(guān)于 AIX 和 UNIX 的內(nèi)容。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論