iMaster NCE-WAN可靠性技術(shù)白皮書_第1頁
iMaster NCE-WAN可靠性技術(shù)白皮書_第2頁
iMaster NCE-WAN可靠性技術(shù)白皮書_第3頁
iMaster NCE-WAN可靠性技術(shù)白皮書_第4頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、 DOCPROPERTY PartNumber DOCPROPERTY Product&Project Name iMaster NCE-WAN DOCPROPERTY DocumentName 可靠性技術(shù)白皮書目 錄 TOC h z t 標(biāo)題 1,1,標(biāo)題 2,2,標(biāo)題 3,3, 標(biāo)題 4,4, 標(biāo)題 5,5, 標(biāo)題 7,1, 標(biāo)題 8,2, 標(biāo)題 9,3, Heading1 No Number,1,Appendix heading 1,1,Appendix heading 2,2,Appendix heading 3,3,Appendix heading 4,4,Appendix head

2、ing 5,5, Heading 1,1,Heading 2,2,Heading 3,3, Heading 4,4, Heading 5,5, Heading 7,1,Heading 8,2,Heading 9,3 HYPERLINK l _Toc18308712 1 簡介 PAGEREF _Toc18308712 h 1 HYPERLINK l _Toc18308713 2 前言 PAGEREF _Toc18308713 h 2 HYPERLINK l _Toc18308714 2.1 大容量高可靠的訴求 PAGEREF _Toc18308714 h 2 HYPERLINK l _Toc18

3、308715 2.2 大容量高可靠的職責(zé) PAGEREF _Toc18308715 h 2 HYPERLINK l _Toc18308716 3 軟件可用性 PAGEREF _Toc18308716 h 3 HYPERLINK l _Toc18308717 4 NCE-WAN控制器整體架構(gòu)與可靠性方案 PAGEREF _Toc18308717 h 4 HYPERLINK l _Toc18308718 4.1 NCE-WAN控制器分布式架構(gòu) PAGEREF _Toc18308718 h 5 HYPERLINK l _Toc18308719 4.1.1 ACM集群架構(gòu) PAGEREF _Toc18

4、308719 h 6 HYPERLINK l _Toc18308720 4.1.2 ACC集群架構(gòu) PAGEREF _Toc18308720 h 7 HYPERLINK l _Toc18308721 4.2 可靠性方案介紹 PAGEREF _Toc18308721 h 7 HYPERLINK l _Toc18308722 4.2.1 控制器集群與負(fù)載均衡機(jī)制 PAGEREF _Toc18308722 h 7 HYPERLINK l _Toc18308723 4.2.1.1 集群技術(shù) PAGEREF _Toc18308723 h 7 HYPERLINK l _Toc18308724 4.2.1.

5、2 設(shè)備連接負(fù)載均衡 PAGEREF _Toc18308724 h 8 HYPERLINK l _Toc18308725 4.2.2 分布式數(shù)據(jù)庫集群 PAGEREF _Toc18308725 h 8 HYPERLINK l _Toc18308726 4.2.3 服務(wù)節(jié)點(diǎn)可靠性部署 PAGEREF _Toc18308726 h 9 HYPERLINK l _Toc18308727 4.2.4 異地容災(zāi) PAGEREF _Toc18308727 h 9 HYPERLINK l _Toc18308728 4.2.5 故障預(yù)防 PAGEREF _Toc18308728 h 10 HYPERLINK

6、l _Toc18308729 4.2.5.1 故障信息采集 PAGEREF _Toc18308729 h 10 HYPERLINK l _Toc18308730 4.2.5.2 健康度檢查 PAGEREF _Toc18308730 h 10 HYPERLINK l _Toc18308731 5 縮略語表/Acronyms and Abbreviations PAGEREF _Toc18308731 h 10簡介關(guān)鍵詞:大容量、高可靠、分布式架構(gòu)摘要:本文從NCE-WAN控制器的發(fā)展趨勢為切入點(diǎn),結(jié)合大容量高可靠的關(guān)鍵技術(shù)架構(gòu)方案、典型應(yīng)用場景,從整體架構(gòu)來介紹華為公司iMaster NCE-W

7、AN控制器(后面統(tǒng)稱為NCE-WAN控制器)產(chǎn)品大容量高可靠性的功能與特點(diǎn),突出產(chǎn)品的獨(dú)特亮點(diǎn)。最后結(jié)合主要應(yīng)用場景的介紹,重點(diǎn)講述為客戶帶來的價(jià)值。前言隨著設(shè)備管理規(guī)模、租戶管理規(guī)模增長,傳統(tǒng)的單機(jī)網(wǎng)管架構(gòu)已經(jīng)不能支撐大容量的業(yè)務(wù)需求。為了解決這些問題,NCE-WAN控制器中引入分布式的架構(gòu),負(fù)責(zé)大規(guī)模設(shè)備、租戶的管理,并提供高可靠性的機(jī)制來保證分布式系統(tǒng)的穩(wěn)定運(yùn)行。 HYPERLINK l _ZH-CN_TOPIC_0166652405 o 2.1 大容量高可靠的訴求 HYPERLINK l _ZH-CN_TOPIC_0166652411 o 2.2 大容量高可靠的職責(zé)大容量高可靠的訴求隨

8、著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,企業(yè)網(wǎng)絡(luò)規(guī)模也在不斷擴(kuò)大,大中型企業(yè)客戶需要管理和維護(hù)少則幾百臺多則上千臺的設(shè)備,NCE-WAN需要管理很多租戶的設(shè)備,設(shè)備的總規(guī)??蛇_(dá)一萬臺以上,設(shè)備上報(bào)的性能相關(guān)的數(shù)據(jù)量非常龐大,大容量管理的訴求非常迫切。另一方面,隨著企業(yè)信息化水平的提升,為了滿足用戶接入企業(yè)網(wǎng)絡(luò),通常會把網(wǎng)絡(luò)鋪設(shè)到辦公區(qū)的每個(gè)角落。公司內(nèi)大量流動(dòng)的辦公人員和合作伙伴經(jīng)常會帶著筆記本電腦接入公司的局域網(wǎng),這將給公司的信息安全帶來很大的挑戰(zhàn)。大容量高可靠的職責(zé)NCE-WAN通過分布式集群架構(gòu)幫助企業(yè)完成大容量下設(shè)備、租戶的管理,并提供高可靠性的方案機(jī)制來保證系統(tǒng)的穩(wěn)定運(yùn)行,主要解決如下大容量高可靠的問

9、題:可伸縮的集群以管理不同的在線設(shè)備規(guī)模,最小集群1萬在線設(shè)備管理規(guī)模;可伸縮的集群以管理不同的在線租戶規(guī)模,最小集群300個(gè)最大在線租戶帳號管理規(guī)模;大規(guī)模設(shè)備上報(bào)性能數(shù)據(jù)的處理。軟件可用性NCE-WAN平臺的軟件可用性可達(dá)到3個(gè)9,即99.9%。NCE-WAN平臺支持冗余部署:云平臺支持集群部署,支持異地容災(zāi)。NCE-WAN平臺支持故障檢測自愈機(jī)制。NCE-WAN平臺支持故障預(yù)防。NCE-WAN控制器整體架構(gòu)與可靠性方案NCE-WAN控制器采用分布式架構(gòu)來解決大容量高可靠性的架構(gòu)問題,主要包括設(shè)備配置管理節(jié)點(diǎn)集群、數(shù)據(jù)采集節(jié)點(diǎn)集群、數(shù)據(jù)分析存儲節(jié)點(diǎn)集群、分布式數(shù)據(jù)庫節(jié)點(diǎn)集群。下面分別從整體

10、架構(gòu)以及各類集群的關(guān)鍵機(jī)制來介紹NCE-WAN控制器的分布式架構(gòu)技術(shù)方案。NCE-WAN控制器分布式架構(gòu)分布式架構(gòu)整體部署視圖管理的設(shè)備類型:路由器AR;ACM集群:NCE-WAN控制器租戶面的管理節(jié)點(diǎn)集群,主要租戶管理、設(shè)備管理、設(shè)備監(jiān)控、設(shè)備配置管理、性能告警等;ACC集群:NCE-WAN控制器大數(shù)據(jù)采集節(jié)點(diǎn)集群,主要包括對設(shè)備上的性能、日志、應(yīng)用分析數(shù)據(jù)等進(jìn)行采集和處理;分布式數(shù)據(jù)庫:NCE-WAN控制器分布式數(shù)據(jù)庫集群,主要持久化租戶面的業(yè)務(wù)數(shù)據(jù);分布式緩存:NCE-WAN控制器分布式緩存集群,主要存儲一些對性能要求非常高的業(yè)務(wù)數(shù)據(jù),用于提升系統(tǒng)并發(fā)性能。ACM集群架構(gòu)南向設(shè)備連接到N

11、CE-WAN控制器ACM集群時(shí)先經(jīng)過軟負(fù)載節(jié)點(diǎn),由軟負(fù)載節(jié)點(diǎn)進(jìn)行負(fù)載分擔(dān)后分配到ACM集群中的一個(gè)節(jié)點(diǎn);ACM集群支持不同的在線設(shè)備管理規(guī)模,最小集群1萬在線設(shè)備管理規(guī)模,集群規(guī)??蓴U(kuò)展;租戶面的業(yè)務(wù)請求先經(jīng)過軟負(fù)載節(jié)點(diǎn),再負(fù)載均衡到ACM集群節(jié)點(diǎn)上;ACC集群架構(gòu)ACM節(jié)點(diǎn)通過Netconf下發(fā)性能相關(guān)數(shù)據(jù)的訂閱配置;南向設(shè)備連接到NCE-WAN控制器ACC集群;ACC集群支持南向1萬設(shè)備的性能數(shù)據(jù)的上報(bào)處理,最小集群1萬設(shè)備長連接;ACC將南向設(shè)備上報(bào)的數(shù)據(jù)解析后發(fā)送給ACC集群管理進(jìn)行分析出來。可靠性方案介紹控制器集群與負(fù)載均衡機(jī)制集群技術(shù)NCE-WAN控制器集群節(jié)點(diǎn)之間相互獨(dú)立處理業(yè)務(wù)

12、,單節(jié)點(diǎn)故障后業(yè)務(wù)可以自動(dòng)切換到其它節(jié)點(diǎn),控制器集群可以持續(xù)正常提供服務(wù)。NCE-WAN控制器可靠性是通過集群技術(shù)來解決節(jié)點(diǎn)故障時(shí)業(yè)務(wù)不中斷。主要包含ACM集群、ACC集群、分布式數(shù)據(jù)庫集群、分布式緩存集群。以下介紹集群可靠性:ACM集群:當(dāng)某個(gè)設(shè)備配置管理節(jié)點(diǎn)故障時(shí),租戶管理面的業(yè)務(wù)操作請求會通過前置的負(fù)載均衡器自動(dòng)分發(fā)到集群中其他節(jié)點(diǎn),同時(shí)設(shè)備也會自動(dòng)檢測到管理節(jié)點(diǎn)故障,能夠自動(dòng)將連接切換到集群中其他節(jié)點(diǎn),從而集群中某些節(jié)點(diǎn)故障不影響NCE-WAN控制器的設(shè)備配置管理業(yè)務(wù)。ACC集群:當(dāng)某個(gè)數(shù)據(jù)采集節(jié)點(diǎn)集群故障時(shí),設(shè)備自動(dòng)檢測到數(shù)據(jù)采集節(jié)點(diǎn)故障,能夠重新與新的ACC節(jié)點(diǎn)建立長連接,并將上報(bào)

13、數(shù)據(jù)切換到集群中其他節(jié)點(diǎn),從而集群中某些節(jié)點(diǎn)故障不影響NCE-WAN控制器的性能數(shù)據(jù)采集的業(yè)務(wù)。分布式數(shù)據(jù)庫集群:NCE-WAN控制器的分布式數(shù)據(jù)庫支持?jǐn)?shù)據(jù)進(jìn)行分片存儲,同時(shí)支持?jǐn)?shù)據(jù)的一主多備的可靠性模式。當(dāng)分布式數(shù)據(jù)庫集群中某個(gè)節(jié)點(diǎn)故障時(shí),備份的節(jié)點(diǎn)能夠立刻接管其業(yè)務(wù),從而確保其對外提供正常的功能。分布式緩存集群:NCE-WAN控制器的分布式緩存支持?jǐn)?shù)據(jù)進(jìn)行分片存儲,同時(shí)支持?jǐn)?shù)據(jù)的一主多備的可靠性模式。當(dāng)分布式緩存集群中某個(gè)節(jié)點(diǎn)故障時(shí),備份的節(jié)點(diǎn)能夠立刻接管其業(yè)務(wù),從而確保其對外提供正常的功能。設(shè)備連接負(fù)載均衡南向設(shè)備連接附著采用軟負(fù)載集群實(shí)現(xiàn),設(shè)備的TCP連接請求經(jīng)由軟負(fù)載節(jié)點(diǎn)按照負(fù)載策略

14、直接轉(zhuǎn)發(fā)給后臺控制器集群節(jié)點(diǎn)。南向軟負(fù)載節(jié)點(diǎn)主要轉(zhuǎn)發(fā)兩類TCP請求:設(shè)備與ACM集群節(jié)點(diǎn)建立Netconf長連接,設(shè)備注冊時(shí)連接請求會由軟負(fù)載集群負(fù)載到ACM集群中的任一節(jié)點(diǎn),由端口確定負(fù)載列表;設(shè)備與ACC集群建立長連接,設(shè)備觸發(fā)建連時(shí)連接請求會由軟負(fù)載集群負(fù)載到ACC集群中的任一節(jié)點(diǎn),由端口確定負(fù)載列表。該方案特點(diǎn)如下:無狀態(tài)化ACM集群、ACC集群所有節(jié)點(diǎn)無狀態(tài)化,都具備設(shè)備分片處理能力,均能夠承擔(dān)設(shè)備分片任務(wù)的處理,不存在單點(diǎn)性能瓶頸及串行約束。高可靠性設(shè)備連接任務(wù)指派給某個(gè)控制器節(jié)點(diǎn)后,當(dāng)該控制器節(jié)點(diǎn)故障時(shí),軟負(fù)載集群節(jié)點(diǎn)會感知集群節(jié)點(diǎn)故障,設(shè)備重新發(fā)起注冊請求時(shí)會負(fù)載到新的集群節(jié)點(diǎn)

15、,相關(guān)任務(wù)會由其他控制器節(jié)點(diǎn)來承擔(dān),消除單點(diǎn)故障。負(fù)載均衡設(shè)備注冊時(shí),軟負(fù)載節(jié)點(diǎn)會以在線控制器節(jié)點(diǎn)負(fù)載較低的優(yōu)先分配,并且會動(dòng)態(tài)刷新在線控制器節(jié)點(diǎn)負(fù)載信息,保證所有控制器節(jié)點(diǎn)的設(shè)備連接負(fù)載整體上均衡。分布式數(shù)據(jù)庫集群分布式數(shù)據(jù)庫集群采用一主多備形式部署,實(shí)時(shí)進(jìn)行數(shù)據(jù)的冗余備份,正常情況下主數(shù)據(jù)庫節(jié)點(diǎn)提供數(shù)據(jù)存儲服務(wù),當(dāng)主節(jié)點(diǎn)異常后,主備倒換軟件檢測到該異常并執(zhí)行數(shù)據(jù)庫主備切換,將集群內(nèi)數(shù)據(jù)庫備節(jié)點(diǎn)升級為主節(jié)點(diǎn),原主節(jié)點(diǎn)降級為備節(jié)點(diǎn)。服務(wù)節(jié)點(diǎn)可靠性部署服務(wù)集群可靠性部署,考慮節(jié)點(diǎn)的可靠性:服務(wù)主備或者集群部署,無單點(diǎn)服務(wù)故障問題;主備和集群服務(wù)分節(jié)點(diǎn)部署;單節(jié)點(diǎn)故障不影響整個(gè)集群服務(wù)功能;物理機(jī)

16、虛擬化部署場景,相同功能集群服務(wù)節(jié)點(diǎn)反親和部署,即單物理機(jī)故障不影響整個(gè)集群服務(wù)功能。最小集群部署視圖如下:異地容災(zāi)NCE-WAN控制器容災(zāi)方案在兩個(gè)地域部署兩套獨(dú)立的NCE-WAN控制器系統(tǒng),系統(tǒng)之間建立心跳、數(shù)據(jù)通信鏈路,依賴數(shù)據(jù)庫的能力把主集群的數(shù)據(jù)實(shí)時(shí)備份到備集群。在主集群發(fā)生重大故障無法恢復(fù)的時(shí)候,用戶可以把備集群恢復(fù)成新的主集群,從而繼續(xù)提供業(yè)務(wù)服務(wù)。容災(zāi)指標(biāo)容災(zāi)指標(biāo)是指在當(dāng)系統(tǒng)發(fā)生災(zāi)難(地震、洪水等)或長時(shí)間無法恢復(fù)的故障(如核心磁陣損壞等)時(shí),NCE-WAN控制器在災(zāi)難過程中的最大數(shù)據(jù)丟失量及從災(zāi)難狀態(tài)恢復(fù)到可運(yùn)行狀態(tài)所需的時(shí)間,用于衡量容災(zāi)系統(tǒng)的數(shù)據(jù)冗余備份能力和業(yè)務(wù)恢復(fù)能力

17、。指標(biāo)項(xiàng)指標(biāo)項(xiàng)描述限制條件配置類業(yè)務(wù)數(shù)據(jù)實(shí)時(shí)同步(同步機(jī)制)RPO=0minNA設(shè)備告警類業(yè)務(wù)數(shù)據(jù)實(shí)時(shí)同步(異步機(jī)制)RPO=1minNA異地容災(zāi)倒換切換時(shí)間(min)RTO=故障發(fā)現(xiàn)時(shí)間+15min(切換時(shí)間)+設(shè)備上線時(shí)間125Mbps主備通信帶寬,時(shí)延20ms。首次容災(zāi)配置數(shù)據(jù)同步時(shí)間(min)RTO=130 min125Mbps主備通信帶寬,1W設(shè)備的數(shù)據(jù)量(GaussDB (68GB)+HDFS(4GB)。故障預(yù)防故障信息采集支持在NCE-WAN控制器集群納管的所有節(jié)點(diǎn)執(zhí)行故障信息收集,可以收集集群節(jié)點(diǎn)的“常見信息”和“高級信息”。在運(yùn)維人員沒有要求的情況下默認(rèn)收集對應(yīng)時(shí)間段的“常見信息”,在運(yùn)維人員明確要求下根據(jù)以下內(nèi)容來區(qū)分需要收集的日志:常見信息:Karaf日志,集群系統(tǒng)信息包括當(dāng)前告警、運(yùn)行日志、操作日志、各進(jìn)程狀態(tài)、數(shù)據(jù)庫狀態(tài)等。建議所有故障場景都收集此類日志。高級信息:包括系統(tǒng)故障日志、南北向服務(wù)日志、異地容災(zāi)&集群管理日志等系統(tǒng)日志。當(dāng)出現(xiàn)NCE-WAN控制器系統(tǒng)類故障(如NCE-WAN控制器無法訪問、南北向服務(wù)異常、異地容災(zāi)異常等)時(shí),建議收集此類日志。在運(yùn)維面進(jìn)行線上故障信息收集,不再依賴其他獨(dú)立的工具,及時(shí)發(fā)現(xiàn)故障問題,提升了故

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論