數(shù)據(jù)中心建設(shè)實(shí)施指南(V1.0)_第1頁
數(shù)據(jù)中心建設(shè)實(shí)施指南(V1.0)_第2頁
數(shù)據(jù)中心建設(shè)實(shí)施指南(V1.0)_第3頁
數(shù)據(jù)中心建設(shè)實(shí)施指南(V1.0)_第4頁
數(shù)據(jù)中心建設(shè)實(shí)施指南(V1.0)_第5頁
已閱讀5頁,還剩53頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)中心建設(shè)學(xué)習(xí)指南密級:機(jī)密文檔歸屬:TAC使用對象:技術(shù)服務(wù)部,TAC數(shù)據(jù)中心建設(shè)學(xué)習(xí)指南V1.0福建星網(wǎng)銳捷網(wǎng)絡(luò)有限公司版權(quán)所有 侵權(quán)必究文檔維護(hù)人:王雁Telmail:wangyan修訂記錄修訂日期修訂版本修訂章節(jié)修訂描述作者2010-06-30V1.0建立文檔王雁目錄1內(nèi)容簡介51.1內(nèi)容簡介5數(shù)據(jù)中心建設(shè)簡介51.2閱讀指南(必讀)52數(shù)據(jù)中心建設(shè)簡介72.1什么是數(shù)據(jù)中心72.2數(shù)據(jù)中心建設(shè)72.3阿里巴巴數(shù)據(jù)中心介紹103了解數(shù)據(jù)中心相關(guān)設(shè)備硬件特性113.1散熱設(shè)計(jì)113.2EOR OR TOR設(shè)計(jì)(跟布線相關(guān))133.3設(shè)備體積及功耗153.4冗余

2、可靠性163.5設(shè)備轉(zhuǎn)發(fā)性能及業(yè)務(wù)調(diào)度174了解數(shù)據(jù)中心相關(guān)設(shè)備軟件特性184.1常規(guī)軟件特性184.1.1網(wǎng)管特性184.1.2升級特性194.1.3收斂特性194.2數(shù)據(jù)中心特性204.2.1FCOE支持214.2.2DCB特性234.2.3虛擬化支持274.3其他功能特性305方案設(shè)計(jì)與項(xiàng)目管理325.1方案設(shè)計(jì)325.1.1分層設(shè)計(jì)方法335.1.2服務(wù)器集群設(shè)計(jì)與網(wǎng)絡(luò)的關(guān)聯(lián)425.1.3數(shù)據(jù)中心設(shè)計(jì)注意事項(xiàng)445.2項(xiàng)目管理465.2.1項(xiàng)目分析與項(xiàng)目會議475.2.2方案驗(yàn)證與風(fēng)險(xiǎn)評估475.2.3工程勘驗(yàn)的注意事項(xiàng)485.2.4客戶溝通與資料交接485.2.5了解客戶的應(yīng)用及網(wǎng)絡(luò)

3、以外的知識496運(yùn)維管理與支持506.1日常咨詢處理506.2需求管理506.3故障支持517培訓(xùn)優(yōu)化528總結(jié)53數(shù)據(jù)中心建設(shè)學(xué)習(xí)指南 1 內(nèi)容簡介1.1 內(nèi)容簡介章節(jié)號名稱內(nèi)容簡介第一章內(nèi)容簡介介紹文檔結(jié)構(gòu)及推薦閱讀的材料第二章數(shù)據(jù)中心建設(shè)簡介介紹數(shù)據(jù)中心的概念及整體建設(shè)要求第三章了解數(shù)據(jù)中心相關(guān)設(shè)備硬件特性介紹數(shù)據(jù)中心產(chǎn)品的硬件特性(為數(shù)據(jù)中心設(shè)計(jì)的特性)第四章了解數(shù)據(jù)中心相關(guān)設(shè)備軟件特性介紹在數(shù)據(jù)中心常用的軟件特性第五章方案設(shè)計(jì)與項(xiàng)目管理介紹數(shù)據(jù)中心的方案如何設(shè)計(jì),以及項(xiàng)目管理方法及注意事項(xiàng)第六章運(yùn)維管理與支持?jǐn)?shù)據(jù)中心運(yùn)維的注意事項(xiàng)第七章培訓(xùn)優(yōu)化介紹針對客戶維護(hù)人員的培訓(xùn)工作開展方法第

4、八章總結(jié)全文總結(jié)1.2 閱讀指南(必讀)數(shù)據(jù)中心的概念大家并不陌生,但對數(shù)據(jù)中心的實(shí)際技術(shù)和應(yīng)用特征卻可能并不了解。本文從數(shù)據(jù)中心的概念出發(fā),重點(diǎn)先講解了網(wǎng)絡(luò)設(shè)備的數(shù)據(jù)中心硬件、軟件特性,然后針對數(shù)據(jù)中心建設(shè)中最重要的方案設(shè)計(jì)進(jìn)行了較為詳細(xì)的講解,然后以實(shí)際項(xiàng)目的經(jīng)歷出發(fā),講述了項(xiàng)目管理、維護(hù)支持、培訓(xùn)等技術(shù)服務(wù)方面的工作。從整體上對數(shù)據(jù)中心做了一個(gè)比較全面的講解,目標(biāo)是通過本片文檔的閱讀,工程師能夠掌握數(shù)據(jù)中心的特征,并掌握我司產(chǎn)品的數(shù)據(jù)中心硬軟件特性。工程師通過數(shù)據(jù)中心常見設(shè)計(jì)方案的閱讀理解,能夠后續(xù)獨(dú)立設(shè)計(jì)數(shù)據(jù)中心的網(wǎng)絡(luò)架構(gòu),同時(shí)評估數(shù)據(jù)中心的應(yīng)用要求,提供合適的設(shè)備選型。最后面的項(xiàng)目管

5、理、運(yùn)維與支持、培訓(xùn)優(yōu)化的內(nèi)容是從阿里巴巴數(shù)據(jù)中心項(xiàng)目出發(fā)總結(jié)出來的一些注意事項(xiàng),可能對后續(xù)大家數(shù)據(jù)中心的項(xiàng)目實(shí)施有所幫助。數(shù)據(jù)中心的知識面特別廣泛,包括:網(wǎng)絡(luò)、服務(wù)器、FCOE與存儲、虛擬化、集群,閱讀本篇文檔之后,建議大家繼續(xù)對部分技術(shù)細(xì)節(jié)深入研究,下面列出我們推薦的一些資料,并提供數(shù)據(jù)中心學(xué)習(xí)包給大家。推薦資料:名稱要點(diǎn)下載地址數(shù)據(jù)中心方案我司的數(shù)據(jù)中心整體方案,包含標(biāo)準(zhǔn)化、虛擬化、融合等重點(diǎn)內(nèi)容數(shù)據(jù)中心學(xué)習(xí)資料包整體提供11年度數(shù)據(jù)中心產(chǎn)品介紹包含S12000系列、S6200系列、S6210系列、S6000、S5750E系列五款產(chǎn)品及其配套板卡、電源模塊、風(fēng)扇模塊;包含外觀形態(tài)、主要特

6、性、未來擴(kuò)展能力、兼容性說明、注意事項(xiàng);數(shù)據(jù)中心學(xué)習(xí)資料包整體提供Cisc數(shù)據(jù)中心技術(shù)介紹了Cisco的數(shù)據(jù)中心產(chǎn)品及整體方案數(shù)據(jù)中心學(xué)習(xí)資料包整體提供數(shù)據(jù)中心虛擬化解決方案技術(shù)白皮書介紹了數(shù)據(jù)中心所有有關(guān)虛擬化的解決方案,很詳細(xì),包括服務(wù)器虛擬化、網(wǎng)絡(luò)設(shè)備虛擬化等數(shù)據(jù)中心學(xué)習(xí)資料包整體提供FCOE技術(shù)分析報(bào)告介紹了FCOE標(biāo)準(zhǔn)、FCOE發(fā)展歷程及目前的狀態(tài) 數(shù)據(jù)中心學(xué)習(xí)資料包整體提供數(shù)據(jù)中心增強(qiáng)以太網(wǎng)技術(shù)白皮書介紹了數(shù)據(jù)中心交換機(jī)有別于以太網(wǎng)交換機(jī)的5種技術(shù),F(xiàn)COE、PFC、ETS、DCBX、CN數(shù)據(jù)中心學(xué)習(xí)資料包整體提供CiscoData Center Infrastructure 2.

7、5Design GuideCisco 針對數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)的詳細(xì)分析,非常實(shí)用數(shù)據(jù)中心學(xué)習(xí)資料包整體提供2 數(shù)據(jù)中心建設(shè)簡介2.1 什么是數(shù)據(jù)中心數(shù)據(jù)中心,英文名稱(Data Center)。關(guān)于數(shù)據(jù)中心,大家都在說。但冷靜下來想想,究竟什么是數(shù)據(jù)中心?日常所說的計(jì)算中心機(jī)房是不是數(shù)據(jù)中心?數(shù)據(jù)中心與IDC機(jī)房是不是一回事等等對此,并沒有一個(gè)標(biāo)準(zhǔn)的答案,其實(shí)我們很難用幾句話把數(shù)據(jù)中心,特別是新一代數(shù)據(jù)中心說清楚,在網(wǎng)絡(luò)上搜索數(shù)據(jù)中心,結(jié)果不盡相同。我們可以來看一看目前業(yè)界比較著名的專家對數(shù)據(jù)中心的定義:新一代數(shù)據(jù)中心的定義為:基于標(biāo)準(zhǔn)構(gòu)建模塊,通過模塊化軟件實(shí)現(xiàn)自動化724無人值守計(jì)算與管理,

8、并以供應(yīng)鏈方式提供共享的基礎(chǔ)設(shè)施、信息與應(yīng)用等IT服務(wù)。也就是說,新一代數(shù)據(jù)中心應(yīng)是一個(gè)整合的、標(biāo)準(zhǔn)化的、最優(yōu)化的、虛擬化的、自動化的適應(yīng)性基礎(chǔ)設(shè)施(AdaptiveInfrastructure)環(huán)境和高可用計(jì)算環(huán)境。對于這樣的一個(gè)定義,不知道大多數(shù)人怎么看,但是在我看來,恐怕還是太復(fù)雜、太抽象了,僅憑定義,還是很難把握新一代數(shù)據(jù)中心。原因何在?原因就在于與微機(jī)、網(wǎng)絡(luò)、服務(wù)器和存儲相比,數(shù)據(jù)中心太復(fù)雜了。新一代數(shù)據(jù)中心不是單一學(xué)科,而是一個(gè)跨土建裝飾裝修、電氣配電、綜合布線系統(tǒng)、空調(diào)通風(fēng)、設(shè)備環(huán)境監(jiān)控、氣體消防、數(shù)字KVM,以及網(wǎng)絡(luò)、服務(wù)器、存儲、管理軟件的綜合學(xué)科,這些學(xué)科相互作用,相互影響

9、。所以我們暫且還是形象一些來講:數(shù)據(jù)中心就是一個(gè)進(jìn)行數(shù)據(jù)大集中的地方。2.2 數(shù)據(jù)中心建設(shè)數(shù)據(jù)中心的建設(shè)是一個(gè)非常復(fù)雜的課題,從生命周期的角度來講,從設(shè)計(jì),到實(shí)施、運(yùn)營,再到持續(xù)的優(yōu)化,其實(shí)是一個(gè)循環(huán)。就這個(gè)循環(huán)來言,在數(shù)據(jù)中心建設(shè)過程中,或者說在長期的使用過程中并不是特別明顯,但是隨著數(shù)據(jù)中心越來越模塊化,其實(shí)會變得非常的顯現(xiàn)。在設(shè)計(jì)階段來講的話,作為基礎(chǔ)設(shè)施本身,主要是考慮到IT的需求,所謂的IT需求并不是具體到服務(wù)器的數(shù)量,而是指所期望的運(yùn)算能力、網(wǎng)絡(luò)交換能力以及數(shù)據(jù)存儲能力。數(shù)據(jù)中心普遍建設(shè)規(guī)格較高、投入大,所以完善的規(guī)劃是是數(shù)據(jù)中心建設(shè)的首要任務(wù)。下面針對數(shù)據(jù)中的模型進(jìn)行了層次話的細(xì)

10、分,在規(guī)劃階段由各部門的專家組織成立項(xiàng)目組進(jìn)行需求與目標(biāo)進(jìn)行詳細(xì)分析與論證,最終形成數(shù)據(jù)中心建設(shè)規(guī)劃。數(shù)據(jù)中心的建設(shè)原則包括:1. 高性能2. 擴(kuò)展性3. 實(shí)用性4. 安全性5. 穩(wěn)定性6. 通用性7. 可維護(hù)性8. 可管理型9. 經(jīng)濟(jì)型10. 節(jié)能環(huán)保數(shù)據(jù)中心的建設(shè)是一個(gè)復(fù)雜的體系,任何個(gè)人妄圖精通其全部是不可能的。它需要各行業(yè)或各專業(yè)的人士合作完成,其是一個(gè)整體的項(xiàng)目,對于任何IT團(tuán)隊(duì)來講,都是一個(gè)巨大的挑戰(zhàn)。單就數(shù)據(jù)中心的站點(diǎn)準(zhǔn)備為例,其包含的內(nèi)容就有:由此可見其復(fù)雜性,而各個(gè)組件之間又是關(guān)聯(lián)的:推薦各位如果后續(xù)對數(shù)據(jù)中心的建設(shè)感興趣的話,可以閱讀相關(guān)專業(yè)書籍。例如:新一代綠色數(shù)據(jù)中心的

11、規(guī)劃與設(shè)計(jì)、思科綠色數(shù)據(jù)中心建設(shè)與管理綠色虛擬數(shù)據(jù)中心、數(shù)據(jù)通信設(shè)備中心設(shè)計(jì)研究等等。作為數(shù)據(jù)中心的基礎(chǔ)之一,交換網(wǎng)絡(luò)形成了數(shù)據(jù)中心部署的框架,因此網(wǎng)絡(luò)規(guī)劃及設(shè)備選型是否合理,直接關(guān)系到數(shù)據(jù)中心的運(yùn)作效率、可擴(kuò)展性以及投資的效用。作為國內(nèi)領(lǐng)先的網(wǎng)絡(luò)設(shè)備及解決方案供應(yīng)商,下面我們重點(diǎn)從網(wǎng)絡(luò)及解決方案層面結(jié)合數(shù)據(jù)中心的特性及需求進(jìn)行描述及說明在數(shù)據(jù)中心建設(shè)中的注意事項(xiàng),希望對大家所有幫助,在此文檔中,我會將在阿里巴巴數(shù)據(jù)中心建設(shè)項(xiàng)目中的一些感想和總結(jié)一并呈現(xiàn)出來,希望能夠?yàn)槲宜竞罄m(xù)的數(shù)據(jù)中心項(xiàng)目建設(shè)提供一些有價(jià)值的參考意見。2.3 阿里巴巴數(shù)據(jù)中心介紹我司的數(shù)據(jù)中心產(chǎn)品S6200-48XS和S60

12、80(定制)服務(wù)器于阿里巴巴的“云梯”數(shù)據(jù)中心,網(wǎng)絡(luò)拓?fù)浼軜?gòu)設(shè)計(jì)如下:(在本拓?fù)渲?S6200第一個(gè)萬兆口和最后一個(gè)萬兆端口上聯(lián)到外聯(lián)區(qū)Cisco6509,未畫出)上述拓?fù)渲校O(shè)備名稱是根據(jù)客戶的設(shè)計(jì)命名的,上圖中S2代表S6200-48XS, S13代表S6080, 一共包含8臺S6200-48XS(配備16口萬兆擴(kuò)展模塊),以及38臺S6080。服務(wù)器集群一共包含2500臺服務(wù)器,網(wǎng)絡(luò)結(jié)構(gòu)說明如下: 1. 使用S6080 作為服務(wù)器接入交換機(jī),80個(gè)千兆口,可提供80臺服務(wù)器高密度接入,尚剩余8個(gè)千兆端口做冗余備份 2. S6080上聯(lián)采用8個(gè)10G端口,80千兆接入-8個(gè)10G上聯(lián),實(shí)現(xiàn)

13、線速轉(zhuǎn)發(fā),空余2個(gè)10G端口做冗余備份 3. 8臺S6200作為匯聚,S6200支持48個(gè)萬兆口線速轉(zhuǎn)發(fā)4. 本網(wǎng)絡(luò)架構(gòu)真正實(shí)現(xiàn)CLOS(無阻塞網(wǎng)絡(luò))服務(wù)器區(qū),用于集群主控節(jié)點(diǎn)的S6080,采用了MSTP+VRRP技術(shù),服務(wù)器網(wǎng)卡綁定雙接入到兩臺S6080,單臺S6080故障時(shí),網(wǎng)絡(luò)也可正常工作。拓?fù)涫疽馊缦拢涸谔岣呔W(wǎng)絡(luò)收斂與鏈路故障檢測方面,采用了BFD技術(shù)關(guān)聯(lián)OSPF。同時(shí),OSPF 通過動態(tài)進(jìn)行路由計(jì)算,計(jì)算出8個(gè)不同下一跳的等價(jià)路由,通過ECMP實(shí)現(xiàn)報(bào)文實(shí)現(xiàn)負(fù)載均衡轉(zhuǎn)發(fā),充分利用S6080 8個(gè)萬兆上聯(lián)線路帶寬,同時(shí)單臺S6200故障均可以實(shí)現(xiàn)流量快速切換與備份??蛻舻募簯?yīng)用主要目標(biāo)

14、是廣告定投計(jì)算集群,可以也有可能擴(kuò)展到搜索集群計(jì)算。搜索計(jì)算的特點(diǎn)是: 每一次搜索處理都會產(chǎn)生一次32個(gè)節(jié)點(diǎn)同時(shí)向一個(gè)節(jié)點(diǎn)發(fā)送數(shù)據(jù) 搜索請求的處理是實(shí)時(shí)任務(wù),要求300ms內(nèi)完成 計(jì)算任務(wù)的分配及整合采用的是Hadoop及MapReduced模型詳細(xì)了解Hadoop及MapReduced模型,可參考如下鏈接:阿里搜索處理示意圖如下:而廣告定投業(yè)務(wù)的特性如下: 沒有實(shí)時(shí)性要求 和搜索集群類似,多打一的流量模型 后續(xù)將會和搜索集群合并,目前還是分離的,但資源利用率很低。廣告定投計(jì)算的集群通常是在晚上工作,白天閑置;而搜索集群則正好相反,白天工作,晚上閑置;所以總結(jié)一下阿里的應(yīng)用顯著特征是: 1.

15、計(jì)算節(jié)點(diǎn)存在大量數(shù)據(jù),帶寬要求高2. 存在多打一的模型阿里巴巴之前的數(shù)據(jù)中心存在的一個(gè)問題是:集群都會產(chǎn)生大量burst流量,現(xiàn)有網(wǎng)絡(luò)出現(xiàn)了大量的丟包, 網(wǎng)絡(luò)已經(jīng)成了業(yè)務(wù)性能的瓶頸,因?yàn)榇罅康膩G包重傳,浪費(fèi)了服務(wù)器40%左右的處理能力,用戶迫切需要解決丟包的問題。本次定制的S6080數(shù)據(jù)中心交換機(jī)有一個(gè)比較顯著的特色是擁有大Buffer的硬件特性(3G),在多打一的流量模型中具有較好的緩沖效果,用來解決客戶端的丟包問題,Buffer的利用率要求可通過命令查看,以便評估網(wǎng)絡(luò)的流量擁塞狀況。到本文檔編寫完成之時(shí),阿里巴巴項(xiàng)目已經(jīng)經(jīng)歷了充分的研究院內(nèi)部測試、預(yù)測試、項(xiàng)目實(shí)施與現(xiàn)場測試、客戶內(nèi)部IT團(tuán)

16、隊(duì)移交給業(yè)務(wù)團(tuán)隊(duì),目前正在客戶業(yè)務(wù)團(tuán)隊(duì)的帶領(lǐng)下進(jìn)行業(yè)務(wù)上線測試中,已經(jīng)累計(jì)2月運(yùn)行穩(wěn)定。3 了解數(shù)據(jù)中心相關(guān)設(shè)備硬件特性數(shù)據(jù)中心產(chǎn)品區(qū)別于常規(guī)產(chǎn)品,一般都會根據(jù)數(shù)據(jù)中心的需求針對性的推出一些數(shù)據(jù)中心特性,例如前后抽風(fēng)散熱的設(shè)計(jì)、電源設(shè)計(jì)、機(jī)箱高度及深度、端口特性等,下面我們來做一些了解,這些也都是客戶普遍比較關(guān)心的問題,在項(xiàng)目實(shí)施之前非常有必要系統(tǒng)的了解以上這些硬件特性,以下的講解,將包括但不僅限于阿里巴巴數(shù)據(jù)中心相關(guān)的技術(shù)點(diǎn)。3.1 散熱設(shè)計(jì)阿里巴巴數(shù)據(jù)中心的散熱設(shè)計(jì)跟業(yè)界的散熱相同,都是采用“自上而下”的制冷方式。數(shù)據(jù)中心機(jī)房的散熱是一個(gè)重要的課題,在有限的空間里面,如此高密度的IT設(shè)備環(huán)

17、境下,散熱的重要性不言而喻。根據(jù)艾默生所提供的權(quán)威數(shù)據(jù),大約有2/3的服務(wù)器故障會發(fā)生機(jī)架最頂部的1/3,產(chǎn)生這種問題的原因在于機(jī)架頂部的服務(wù)器經(jīng)常過熱。數(shù)據(jù)中心機(jī)房平面布局通常采用矩形結(jié)構(gòu),為了保證制冷效果,通常將 10 至 20 個(gè)機(jī)柜背靠背并排放置成一行,形成一對機(jī)柜組(又稱為一個(gè)POD),POD中的機(jī)柜都采用前后通風(fēng)模式,冷空氣從機(jī)柜前面板的吸入并從后部排出,由此在機(jī)柜背靠背擺放的POD中間形成 “熱通道”,相鄰的兩個(gè)POD之間形成“冷通道”。熱通道正對CRAC(機(jī)房空調(diào)),熱空氣沿?zé)嵬ǖ懒骰谻RAC,再開始新一次循環(huán)常見的冷熱風(fēng)通道交替。通過下送風(fēng)的方式為機(jī)架中的IT設(shè)備提供制冷,這

18、種自下而上的制冷方式,機(jī)架頂部1/3的部分往往制冷不足,容易因?yàn)檫^熱而宕機(jī)。(此種散熱的改進(jìn)方法在本文中不進(jìn)行描述,有相關(guān)愛好者可自行查閱相關(guān)資料)為了配合機(jī)房散熱的設(shè)計(jì),數(shù)據(jù)中心交換機(jī)提供了前后抽風(fēng)可選的型號設(shè)計(jì)。在選配的時(shí)候,可根據(jù)機(jī)房實(shí)際的散熱設(shè)計(jì)/設(shè)備安裝方向,選擇前抽風(fēng)或后抽風(fēng)的配套風(fēng)扇和電源。以6200為例:在選配的時(shí)候,需要注意風(fēng)扇和電源必須散熱方向一致。M6200-FAN-F主機(jī)風(fēng)扇(前后風(fēng)道散熱)M6200-AC650I-F主機(jī)電源(前后風(fēng)道散熱)M6200-FAN-R主機(jī)風(fēng)扇(后前風(fēng)道散熱)M6200-AC650I-R主機(jī)電源(后前風(fēng)道散熱)對于核心機(jī)箱式設(shè)備,我司1200

19、0系列交換機(jī)提供了獨(dú)特的區(qū)間式風(fēng)道設(shè)計(jì)數(shù)據(jù)中心交換機(jī)使用區(qū)間式風(fēng)道設(shè)計(jì),具有獨(dú)立的電源風(fēng)道、板卡風(fēng)道,提升每路風(fēng)扇的散熱能力和風(fēng)壓利用效率。其風(fēng)道設(shè)計(jì)特點(diǎn)顯著,每組板卡具有獨(dú)立的分區(qū)風(fēng)扇,并可以進(jìn)行分區(qū)調(diào)整。另外值得一提的是我司數(shù)據(jù)中心交換機(jī)均支持智能溫控和風(fēng)扇,當(dāng)數(shù)據(jù)中心環(huán)境溫度控制不良時(shí),可自動調(diào)整風(fēng)扇轉(zhuǎn)速。當(dāng)溫度接近或超過設(shè)備合理工作范圍時(shí),可執(zhí)行相應(yīng)的保護(hù)策略,例如報(bào)警、線卡停止工作等,有效的保障了網(wǎng)絡(luò)設(shè)備的可靠性。阿里巴巴的數(shù)據(jù)中心散熱設(shè)計(jì)同樣是采用上述的“冷熱風(fēng)通道交替”方式,所以客戶會對我司交換機(jī)的散熱進(jìn)行詳細(xì)了解(主要為風(fēng)扇抽風(fēng)方向),以便進(jìn)行設(shè)備安裝/上架方向的設(shè)計(jì)。3.2

20、EOR OR TOR設(shè)計(jì)(跟布線相關(guān))首先我們簡單介紹一下EOR與TOR的特點(diǎn)及各自的優(yōu)缺點(diǎn),阿里巴巴采用了EOR的改進(jìn)模型MOR,下面會有詳細(xì)介紹。采用交換機(jī)EOR布線方式時(shí),每個(gè)POD(機(jī)柜組)中的兩排機(jī)柜的最邊端擺放2個(gè)網(wǎng)絡(luò)機(jī)柜,POD中所有的服務(wù)器機(jī)柜安裝配線架,配線架上的銅纜延伸到POD最邊端網(wǎng)絡(luò)機(jī)柜,網(wǎng)絡(luò)機(jī)柜中安裝接入交換機(jī)。機(jī)架式服務(wù)器安裝在服務(wù)器機(jī)柜中,服務(wù)器網(wǎng)卡通過跳線(銅纜)連接機(jī)柜中的配線架。如下圖所示:交換機(jī)EOR布線方式特點(diǎn):交換機(jī)EOR布線方式最為常見。通常在服務(wù)器和接入交換機(jī)安裝以前,服務(wù)器機(jī)柜到網(wǎng)絡(luò)機(jī)柜的布線施工已經(jīng)完成,設(shè)備(服務(wù)器/交換機(jī))安裝和跳線工作都在

21、服務(wù)器機(jī)柜內(nèi)和網(wǎng)絡(luò)機(jī)柜內(nèi)進(jìn)行。 如果每臺機(jī)架式服務(wù)器的功率為500W,且每個(gè)服務(wù)器機(jī)柜的電源輸出功率按4KW或6KW計(jì)算,則一個(gè)42U高度的服務(wù)器機(jī)柜能安裝8-12臺機(jī)架式服務(wù)器。 EOR布線方式的缺點(diǎn):從服務(wù)器機(jī)柜到網(wǎng)絡(luò)機(jī)柜的銅纜多(約有20-40根銅纜),且距網(wǎng)絡(luò)機(jī)柜越遠(yuǎn)的服務(wù)器機(jī)柜的銅纜,在機(jī)房中的布線距離越長,由此導(dǎo)致線纜管理維護(hù)工作量大、靈活性差。 交換機(jī)MOR(Middle of Row)布線是對EOR布線方式的改進(jìn)。MOR方式的網(wǎng)絡(luò)機(jī)柜部署在POD的兩排機(jī)柜的中部,由此可以減少從服務(wù)器機(jī)柜到網(wǎng)絡(luò)機(jī)柜的線纜距離,簡化線纜管理維護(hù)工作。 交換機(jī)TOR布線方式是對EOR/MOR方式的擴(kuò)

22、展,采用TOR布線時(shí),POD中每個(gè)服務(wù)器機(jī)柜的上端部署1-2臺兩臺接入交換機(jī),機(jī)架式服務(wù)器通過跳線接入到機(jī)柜內(nèi)的交換機(jī)上,交換機(jī)上行端口通過銅纜或光線接入到EOR/MOR的網(wǎng)絡(luò)機(jī)柜中的匯聚交換上TOR布線方式特點(diǎn):TOR布線方式簡化了服務(wù)器機(jī)柜與網(wǎng)絡(luò)機(jī)柜間的布線,從每個(gè)服務(wù)器機(jī)柜到EOR/MOR的網(wǎng)絡(luò)機(jī)柜的光纖或銅纜數(shù)量較少(4-6根)。 機(jī)柜中服務(wù)器的密度高。對于標(biāo)準(zhǔn)的19英寸寬,42U高的機(jī)柜,如果采用交換機(jī)TOR布線方式,則每個(gè)機(jī)柜可部署15-30臺1U高度的機(jī)架式服務(wù)器(具體數(shù)量需要考慮單臺服務(wù)器的功耗和機(jī)柜的電源輸出功率)。 TOR布線的缺點(diǎn):每個(gè)服務(wù)器機(jī)柜受電源輸出功率限制,可部署

23、的服務(wù)器數(shù)量有限,由此導(dǎo)致機(jī)柜內(nèi)交換機(jī)的接入端口利用率不足。在幾個(gè)服務(wù)器機(jī)柜間共用1-2臺接入交換機(jī),可解決交換機(jī)端口利用率不足的問題,但這種方式增加了線纜管理工作量。 從網(wǎng)絡(luò)設(shè)計(jì)考慮,TOR布線方式的每臺接入交換機(jī)上的VLAN量不會很多,在網(wǎng)絡(luò)規(guī)劃的時(shí)候也要盡量避免使一個(gè)VLAN通過匯聚交換機(jī)跨多臺接入交換機(jī),因此采用TOR布線方式的網(wǎng)絡(luò)拓?fù)渲?,每個(gè)VLAN的范圍不會太大,包含的端口數(shù)量不會太多。但對于EOR布線方式來說,接入交換機(jī)的端口密度高,在網(wǎng)路最初設(shè)計(jì)時(shí),就可能存在包含較多端口數(shù)的VLAN。 TOR方式的接入交換機(jī)數(shù)量多,EOR方式的接入交換機(jī)數(shù)量少,所以TOR方式的網(wǎng)絡(luò)設(shè)備管理維護(hù)

24、工作量大。所以數(shù)據(jù)中心交換機(jī)既需要其核心交換,同時(shí)也需要能夠作為EOR或者TOR的接入交換機(jī)。針對EOR或者TOR的交換機(jī),其必須具備線速交換的同時(shí),要求具有足夠的上聯(lián)帶寬,這一點(diǎn)在了解數(shù)據(jù)中心交換機(jī)時(shí),是一個(gè)需要特別注意的地方,例如某千兆接入交換機(jī)其能夠提供的萬兆上聯(lián)端口的數(shù)量,是否能夠達(dá)到無擁塞上行。在阿里巴巴數(shù)據(jù)中心的設(shè)計(jì)中,我司6080交換機(jī)即提供了88個(gè)千兆口和10個(gè)萬兆口上聯(lián)的方式,客戶選用了80個(gè)千兆口作為服務(wù)器連接設(shè)計(jì),同時(shí)提供了8個(gè)萬兆口進(jìn)行上聯(lián),從而實(shí)現(xiàn)了上下聯(lián)帶寬1:1的無擁塞設(shè)計(jì)。另外在布線方面,交換機(jī)同時(shí)配備理線架也是一個(gè)針對數(shù)據(jù)中心的改進(jìn)。例如Cisco的N7K系列

25、的交換機(jī)機(jī)箱配備了“為特別設(shè)計(jì)的可選前模塊門可保護(hù)布線和安裝在系統(tǒng)中的模塊不受意外干擾的影響”,集成的線纜管理系統(tǒng)設(shè)計(jì)用于支持一個(gè)完全配置的系統(tǒng)到交換機(jī)的任一端或兩端的布線需求,可實(shí)現(xiàn)最大的布線靈活性。所有系統(tǒng)組件都可輕松更換,而布線保持在原位不動,從而便于進(jìn)行維護(hù)任務(wù),最大限度地減少中斷情況。例如我司12000系列交換機(jī)即提供了理線架的設(shè)計(jì),圖示如下,但在和Cisco的設(shè)計(jì)對比上并不具有優(yōu)勢。3.3 設(shè)備體積及功耗有這么一種說法:新一代數(shù)據(jù)中心需要減少設(shè)備的體積。高密度的設(shè)備能夠充分發(fā)揮出計(jì)算的優(yōu)勢,并且還可以在很多情況下大幅度地減少應(yīng)用程序運(yùn)行所需的占地面積,也就相當(dāng)于運(yùn)營和維護(hù)成本的降低

26、。目前眾多互聯(lián)網(wǎng)企業(yè)其IDC機(jī)房都是租用的電信機(jī)房,包括很多中小企業(yè)其業(yè)務(wù)服務(wù)器在電信IDC托管收費(fèi)都是按照空間收費(fèi)的,所以減少設(shè)備體積也是服務(wù)器、網(wǎng)絡(luò)設(shè)備供應(yīng)商針對數(shù)據(jù)中心進(jìn)行優(yōu)化的一個(gè)方向。我司的6200系列數(shù)據(jù)中心交換機(jī),均為1U盒式設(shè)備,可以提供高密度的千兆/萬兆端口接入的同時(shí),極大的減少了空間占用。同時(shí)為了配合客戶機(jī)房散熱的設(shè)計(jì),機(jī)箱的深度也是一個(gè)需要特別考慮的地方,一般需要和服務(wù)器保持深度一致,保證設(shè)備的前后端都可以得到良好的散熱。所以阿里巴巴的項(xiàng)目中,我司6080作為服務(wù)器接入交換機(jī),在定制的時(shí)候,要求和服務(wù)器的深度一致,這樣既能保證在得到良好散熱的同時(shí),也足夠美觀。考慮到機(jī)柜的

27、供電情況,數(shù)據(jù)中心的設(shè)計(jì)者往往也對設(shè)備的功率特別關(guān)注,例如服務(wù)器的功耗、網(wǎng)絡(luò)設(shè)備的功耗以及需要冗余的設(shè)計(jì),從而準(zhǔn)確設(shè)計(jì)數(shù)據(jù)中心的供電系統(tǒng)。所以我們可以對數(shù)據(jù)中心產(chǎn)品了解的時(shí)候,重點(diǎn)關(guān)注一下其物理特性,這些內(nèi)容都可以從相關(guān)產(chǎn)品的安裝手冊中獲得幫助。在阿里巴巴數(shù)據(jù)中心的項(xiàng)目中,我司6080作為服務(wù)器接入的EOR交換機(jī),提供高密度服務(wù)器接入的同時(shí),設(shè)備自身只有2U的高度,有效的節(jié)約了數(shù)據(jù)中心空間的利用。3.4 冗余可靠性數(shù)據(jù)中心交換機(jī)由于其應(yīng)用環(huán)境的高要求,必須具有高可靠性,零業(yè)務(wù)中斷是其設(shè)計(jì)目標(biāo),所以無論是從設(shè)備單機(jī)角度還是冗余組網(wǎng)設(shè)計(jì)來講,都必須具有冗余可靠性。以下所列出冗余性都是在數(shù)據(jù)中心網(wǎng)絡(luò)

28、中必備的特性:數(shù)據(jù)中心接入交換機(jī)必須具有的冗余組件包括:風(fēng)扇冗余、電源冗余機(jī)箱式設(shè)備必須具有的冗余組件包括:引擎冗余、風(fēng)扇冗余、電源冗余數(shù)據(jù)中心交換機(jī)都必須支持所有的引擎/線卡/風(fēng)扇盤/電源模塊的熱插拔操作在線卡或單機(jī)的硬件設(shè)計(jì)上,我們推薦具備雙Boot和雙Ctrl的設(shè)計(jì),用以規(guī)避升級失敗帶來的風(fēng)險(xiǎn)。在高端核心交換機(jī)的硬件體系設(shè)計(jì)上,一般采用CLOS無阻塞架構(gòu),CLOS架構(gòu)在冗余可靠性方面有比較好的實(shí)際效果。接下來,我們介紹一下CLOS組網(wǎng)的特點(diǎn):第一級(入方向線卡)將報(bào)文分片(cell),通過N條鏈路到網(wǎng)板;第二級(網(wǎng)板)基于“分片動態(tài)路由”方式,通過N條路徑將分片發(fā)送到第三級(出方向線卡)

29、;第三級重組報(bào)文;以上的動態(tài)路由方式可以實(shí)現(xiàn)無阻塞交換,且可平滑擴(kuò)展,當(dāng)任一Fabric出現(xiàn)故障的時(shí)候,依據(jù)動態(tài)路由的特性,動態(tài)路由方式通過實(shí)時(shí)檢測所有交換網(wǎng)轉(zhuǎn)發(fā)路徑,并根據(jù)各轉(zhuǎn)發(fā)路徑的健康狀況和負(fù)荷情況動態(tài)調(diào)節(jié)報(bào)文轉(zhuǎn)發(fā)數(shù)據(jù),可自動選路到正常的Fabric芯片上,從而實(shí)現(xiàn)了自動容錯(cuò)特性,當(dāng)然也會同時(shí)伴隨成比例的轉(zhuǎn)發(fā)性能的下降。我司15000系列交換機(jī)即采用了CLOS組網(wǎng)的架構(gòu)(12000為簡化CLOS結(jié)構(gòu)),線卡的上聯(lián)HG口直接雙上聯(lián)至雙管理板的Crosssbar芯片(沒有采用Crossbar和管理引擎分離的結(jié)構(gòu))??刂泼婧娃D(zhuǎn)發(fā)面嚴(yán)格分離的情況下,從而徹底避免相對高故障率的控制平面問題對極低故

30、障率的轉(zhuǎn)發(fā)平面產(chǎn)生影響,進(jìn)一步增強(qiáng)了業(yè)務(wù)永續(xù)性保證。在可靠性方面,數(shù)據(jù)中心交換機(jī)普遍支持智能溫控、智能風(fēng)扇、智能供電等特性,當(dāng)出現(xiàn)環(huán)境/設(shè)備元器件異常的時(shí)候,可進(jìn)行自動調(diào)節(jié),有效保障設(shè)備的正常工作。在阿里巴巴數(shù)據(jù)中心的項(xiàng)目中,以上的冗余特性和智能特性給網(wǎng)絡(luò)運(yùn)維帶來了較多有效的工具,他們采用SNMP定期監(jiān)控設(shè)備的電源、風(fēng)扇、溫度等,可以有效的提前發(fā)現(xiàn)風(fēng)險(xiǎn)或隱患。3.5 設(shè)備轉(zhuǎn)發(fā)性能及業(yè)務(wù)調(diào)度網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大、業(yè)務(wù)種類的日益豐富、流量的快速增長,使得在數(shù)據(jù)中心的網(wǎng)絡(luò)環(huán)境中,存在海量數(shù)據(jù)需要處理的情況,因此網(wǎng)絡(luò)設(shè)備的高性能是必須滿足的一個(gè)指標(biāo),同時(shí)還要求設(shè)備具備高可擴(kuò)展性,例如擴(kuò)展支持40G、10

31、0G平臺。所以我們需要了解并關(guān)注我司設(shè)備的交換容量、包轉(zhuǎn)發(fā)率。這里補(bǔ)充講解一下交換機(jī)交換容量和包轉(zhuǎn)發(fā)率的計(jì)算方法。高端核心設(shè)備的真實(shí)交換容量計(jì)算方法示例如下:交換容量:CrossBar的交換能力代表了整機(jī)能夠支持的最大交換能力,例如對于8610的CMII引擎,提供8個(gè)HG口,所以雙引擎全雙工的配置下,能夠?qū)崿F(xiàn)的交換帶寬為12G*2*8*2=384G,對于后續(xù)的支持100G的線卡,則其單卡交換容量可以達(dá)到100G*2(雙向)=200G,在配備對應(yīng)的CrossBar芯片后,整機(jī)交換容量可達(dá)200G*8=1.6T。包轉(zhuǎn)發(fā)率:最大整機(jī)包轉(zhuǎn)發(fā)率=單線卡最大包轉(zhuǎn)發(fā)率*線卡數(shù)量 (因?yàn)榫€卡為分布式轉(zhuǎn)發(fā),每線

32、卡具備獨(dú)立轉(zhuǎn)發(fā)能力,以M8600-48GT/4SFP為例計(jì)算: 1.4881Mpps(千兆口包轉(zhuǎn)發(fā)率)*48*8=571.43Mpps,整機(jī)全線速情況下,包轉(zhuǎn)發(fā)率可達(dá)571.43Mpps。衡量交換機(jī)產(chǎn)品的交換性能優(yōu)劣其實(shí)重點(diǎn)關(guān)注是否能夠限速的前提下,其累計(jì)包轉(zhuǎn)發(fā)率能達(dá)到多少,延遲多大。這點(diǎn)再強(qiáng)調(diào)說明一下線速和延遲的概念,線速轉(zhuǎn)發(fā)性能:通常是指64字節(jié)小包的線速轉(zhuǎn)發(fā)能力,表征了系統(tǒng)處理報(bào)文頭的能力,在相同的端口流量下,64字節(jié)小包要求系統(tǒng)在單位時(shí)間內(nèi)處理更多的報(bào)文數(shù)。轉(zhuǎn)發(fā)性能還要關(guān)注線速一致性,即大包小包都能線速,都不丟包;Pair模式、Full Mesh模式都能線速轉(zhuǎn)發(fā)。轉(zhuǎn)發(fā)時(shí)延及時(shí)延抖動:目

33、前存儲轉(zhuǎn)發(fā)技術(shù)的端口到端口時(shí)延在幾微秒到幾十微秒,可滿足絕大多數(shù)應(yīng)用場合。Cut-through轉(zhuǎn)發(fā)時(shí)延可達(dá)到1微秒以下,主要用于少數(shù)對時(shí)延非常敏感的緊耦合高性能計(jì)算。時(shí)延抖動則指時(shí)延的一致性、時(shí)延可預(yù)測性,VoIP、視頻等實(shí)時(shí)業(yè)務(wù)通常要求低時(shí)延和時(shí)延一致性,在時(shí)延方面,目前的交換機(jī)都不存在問題。說到交換容量,不得不講一下CLOS(無阻塞交換機(jī)架構(gòu))CLOS架構(gòu)是目前比較先進(jìn)的交換架構(gòu),它是一個(gè)多級架構(gòu);邏輯示意圖如下:(LC代表LineCard線卡,中間的一級Fabric為Crossbar,SCH代表Scheduler)在每一級,每個(gè)交換單元都和下一級的所有交換單元相連接。一個(gè)典型的CLOS

34、交換三級架構(gòu)由(k,n)兩個(gè)參數(shù)定義,如下圖所示,參數(shù)k是中間級交換單元的數(shù)量,n表示的是第一級/第三級交換單元的數(shù)量。第一級和第三級由n個(gè)kk的交換單元組成,中間級由k個(gè)nn的交換單元組成。整個(gè)構(gòu)成了kn的交換網(wǎng)絡(luò),即該網(wǎng)絡(luò)有kn個(gè)輸入和輸出端口。對于CLOS架構(gòu)的交換機(jī),其多交換矩陣均可獨(dú)立工作,大大擴(kuò)充了交換機(jī)能夠支持的總交換容量。對于需要更高容量的交換網(wǎng),中間級也可以是一個(gè)3級的CLOS網(wǎng)絡(luò)(即CLOS網(wǎng)絡(luò)可以遞歸構(gòu)建),由于CLOS網(wǎng)絡(luò)的遞歸特性,它理論上具有無與倫比的可擴(kuò)展性,支持交換機(jī)端口數(shù)量、端口速率、系統(tǒng)容量的平滑擴(kuò)展15000系列交換機(jī)(尚未發(fā)布)即采用CLOS多級交換架構(gòu)

35、。業(yè)務(wù)調(diào)度:在業(yè)務(wù)調(diào)度方面數(shù)據(jù)中心交換機(jī)一般采用了入口方向的VOQ(虛擬調(diào)度隊(duì)列機(jī)制)+出方向的隊(duì)列調(diào)度(SP/WRR/DRR/WFQ等),部分支持HQOS,包括WRED/Tail Drop等擁塞管理策略的組合實(shí)現(xiàn)精細(xì)化的QOS管理。K VOQ機(jī)制的作用是為了防止HOL(隊(duì)頭阻塞),詳細(xì)原因可參考相關(guān)文檔,或網(wǎng)上搜索。不在本文中詳細(xì)介紹。阿里巴巴定制的6080支持VOQ機(jī)制,8600及12000系列也支持,但目前尚沒有實(shí)現(xiàn)。業(yè)務(wù)調(diào)度的同時(shí),對交換機(jī)的Buffer大小也有相應(yīng)的要求,目前數(shù)據(jù)中心的服務(wù)器以千兆連接為主,通過交換機(jī)的萬兆進(jìn)行匯聚;服務(wù)器數(shù)量從幾百到上千不等。假設(shè)這些服務(wù)器瞬間同時(shí)發(fā)

36、送流量,在匯聚鏈路會造成擁塞,這就需要設(shè)備的緩存能夠滿足應(yīng)用,確保零丟包,所以設(shè)備的Buffer也要求足夠大,能夠緩沖一定的猝發(fā)流量,目前S6080交換機(jī)采用的Buffer大小為3G,可提供更好的數(shù)據(jù)緩沖能力。4 了解數(shù)據(jù)中心相關(guān)設(shè)備軟件特性數(shù)據(jù)中心的高可用性、易管理等對交換機(jī)的相關(guān)軟件特性要求比較高,例如完善的SNMP節(jié)點(diǎn)支持、不間斷的升級特性、故障容錯(cuò)特性、收斂時(shí)間短等,下面我們來一一了解,分別從常規(guī)軟件特性(例如AAA、NTP、Syslog、GR、NFS、WarmReload等)以及數(shù)據(jù)中心相關(guān)軟件特性(例如FCOE支持、DCB特性、虛擬化支持等)進(jìn)行講解。4.1 常規(guī)軟件特性4.1.1

37、 網(wǎng)管特性在網(wǎng)絡(luò)管理方面,數(shù)據(jù)中心的要求特別高。因?yàn)橄癜⒗锇桶瓦@種大型互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)中心一般都建設(shè)在電信公司的機(jī)房里面,屬于租用性質(zhì),現(xiàn)場管理及響應(yīng)時(shí)間長,所以必須依靠強(qiáng)大的網(wǎng)絡(luò)監(jiān)控系統(tǒng)提前發(fā)現(xiàn)隱患或確認(rèn)設(shè)備工作狀態(tài)。一旦網(wǎng)絡(luò)建設(shè)完畢后,各種監(jiān)控手段必須部署完善,由專人24小時(shí)進(jìn)行監(jiān)控。所以大型互聯(lián)網(wǎng)公司一般都有建立其網(wǎng)絡(luò)建設(shè)及管理的規(guī)范,通過在阿里項(xiàng)目實(shí)施中的交流,總結(jié)其要求如下:1. 設(shè)備通過部署NTP統(tǒng)一時(shí)鐘,NTP Server也有至少2個(gè),互為備份。2. 部署Syslog Server,設(shè)備日志統(tǒng)一發(fā)送至日志服務(wù)器,而且日志服務(wù)器要有備份。3. 設(shè)備登錄與CLI執(zhí)行都需要經(jīng)過認(rèn)證和

38、授權(quán)與記賬,其中TACACS Server也都需要做備份,交換機(jī)需要支持完善的AAA。4. 部署SNMP網(wǎng)管系統(tǒng),監(jiān)控設(shè)備CPU利用率、內(nèi)存、端口流量及錯(cuò)誤信息、溫度、電源、風(fēng)扇狀態(tài)等,交換機(jī)需要支持完善的MIB節(jié)點(diǎn)。5. 設(shè)備登錄僅開放SSH服務(wù),關(guān)閉WEB、Telnet服務(wù),提供安全登錄方式。目前的RGOS軟件平臺,對常規(guī)的NTP、Syslog、SSH、AAA都支持得很好,這點(diǎn)大家在實(shí)施數(shù)據(jù)中心時(shí),不必過于擔(dān)心。對于SNMP大家可參考MIB說明交付件,并學(xué)習(xí)查閱相關(guān)節(jié)點(diǎn)的方法,我司也提供了豐富的標(biāo)準(zhǔn)及私有MIB節(jié)點(diǎn)供客戶部署SNMP監(jiān)控時(shí)使用。在阿里的運(yùn)維中,有一個(gè)比較特色的功能就是其sy

39、slog服務(wù)器和SNMP網(wǎng)管系統(tǒng)實(shí)現(xiàn)了聯(lián)動功能,當(dāng)Syslog接受到的某些日志等級較高時(shí),通過預(yù)先定義的風(fēng)險(xiǎn)等級,SNMP系統(tǒng)可實(shí)現(xiàn)報(bào)警功能,另外采用專用的SNMP節(jié)點(diǎn),網(wǎng)關(guān)軟件的配合也可以實(shí)現(xiàn)交換機(jī)配置文件的自動備份與上傳。當(dāng)然完善的網(wǎng)管系統(tǒng),不僅僅依賴與設(shè)備軟件平臺的相關(guān)特性,網(wǎng)管軟件系統(tǒng)的智能化、圖形化、可用性也能夠極大的提高網(wǎng)絡(luò)管理監(jiān)控的效率,成為網(wǎng)絡(luò)管理人員的一個(gè)強(qiáng)有力輔助工具。4.1.2 升級特性數(shù)據(jù)中心網(wǎng)絡(luò)對可用性要求很高,通常情況下不允許中斷,當(dāng)然一些必須的軟硬件升級時(shí)除外,所以設(shè)備如果支持ISSU(In-Service Software Upgrade,不中斷業(yè)務(wù)升級)將會最

40、大的減少客戶計(jì)劃內(nèi)的設(shè)備/網(wǎng)絡(luò)停頓,大大提高網(wǎng)絡(luò)可用性。ISSU是在NSF(不間斷轉(zhuǎn)發(fā))的基礎(chǔ)上實(shí)現(xiàn)的,需要依靠雙引擎的硬件特性,對于不支持冗余引擎的低端設(shè)備,我司提供了Warm Upgrade技術(shù)也可以有效減少設(shè)備重啟更新的時(shí)間。它將正常升級過程中BIN 鏡像加載和解壓縮的過程提前到設(shè)備復(fù)位前的正常工作時(shí)期,然后利用新程序的數(shù)據(jù)段的內(nèi)容覆蓋當(dāng)前數(shù)據(jù)段的內(nèi)容,最后跳到主程序入口,執(zhí)行新的程序,從而縮短了設(shè)備復(fù)位時(shí)間。在系統(tǒng)需要熱重啟的時(shí)候,Warm Reload技術(shù)可以大大減少設(shè)備啟動時(shí)間。Warm Reload 是一種快速重啟技術(shù),它去掉了普通設(shè)備復(fù)位時(shí)從FLASH 中加載BIN 鏡像和解壓

41、縮的過程,它用預(yù)先保存的程序數(shù)據(jù)段的內(nèi)容覆蓋當(dāng)前數(shù)據(jù)段的內(nèi)容,然后直接跳到程序入口運(yùn)行的方式來實(shí)現(xiàn)復(fù)位,縮短了設(shè)備復(fù)位時(shí)間。視不同的產(chǎn)品,Warm Reload & Upgrade 縮短斷流的時(shí)間從30 秒到60 秒不等。具體的細(xì)節(jié)技術(shù)大家可以參考我司提供的配置手冊中Warm Reload和Warm Upgrade部分。注意事項(xiàng):Warm Reload & Upgrade功能需要設(shè)備經(jīng)過一次冷啟動才能生效。目前我司ISSU功能已能實(shí)現(xiàn)基本功能,但由于部分協(xié)議的熱備份尚未完全支持,所以ISSU功能還有待繼續(xù)升級。本次阿里巴巴項(xiàng)目的實(shí)施中,即采用了Warm Reload技術(shù)實(shí)現(xiàn)熱啟動來有效減少設(shè)備

42、重啟時(shí)間。4.1.3 收斂特性網(wǎng)絡(luò)中鏈路故障/恢復(fù)、設(shè)備down機(jī)及恢復(fù)應(yīng)該是無法完全避免的事情了,當(dāng)出現(xiàn)此類異常時(shí)間時(shí),收斂特性成為了衡量一個(gè)網(wǎng)絡(luò)是否具有高可靠性、容錯(cuò)性的最直接的指標(biāo)。二三層數(shù)據(jù)的轉(zhuǎn)發(fā)收斂時(shí)間越短將給網(wǎng)絡(luò)應(yīng)用帶來的影響越小。收斂特性的提升一方面依賴于我們所采用的組網(wǎng)技術(shù)(舉個(gè)例子:服務(wù)器雙網(wǎng)卡聚合、接入層設(shè)備的雙上聯(lián)、核心設(shè)備的VSU(IRF、VSS)虛擬、環(huán)形拓?fù)涞榷紭O大的影響到網(wǎng)絡(luò)出現(xiàn)故障時(shí)的收斂時(shí)間),一方面依賴如設(shè)備的某些軟硬件特性(例如雙引擎熱備、BFD、DLDP、GR、VRRP、REUP、H3C的OAM,SmartLink等),充分、靈活的設(shè)計(jì)網(wǎng)絡(luò)架構(gòu),并采用相

43、關(guān)可靠性技術(shù),將極大提高網(wǎng)絡(luò)的可用性及收斂指標(biāo)。下面我們以阿里巴巴項(xiàng)目中跟收斂特性相關(guān)的設(shè)計(jì)進(jìn)行介紹。阿里巴巴代號為“云梯”數(shù)據(jù)中心的拓?fù)湓O(shè)計(jì)如下:簡介如下:上圖中S2為我司S6200-48XS交換機(jī),S13為我司S6080交換機(jī),S2一共8臺,S13共38臺,每臺S13均采用8個(gè)萬兆口分別上聯(lián)至8臺S6200,通過運(yùn)行OSPF路由協(xié)議,通過ECMP(交換設(shè)備最大支持8個(gè)下一跳,跟芯片支持相關(guān))實(shí)現(xiàn)路由等價(jià)負(fù)載均衡。在光纖線路發(fā)生單通等異常時(shí),OSPF路由協(xié)議正常的協(xié)議收斂時(shí)間約為40S,為了提高收斂特性,我們采用了OSPF+BFD技術(shù),BFD(雙向轉(zhuǎn)發(fā)檢測)通過OSPF鄰居建立BFD會話,B

44、FD協(xié)議提供一種輕負(fù)載、快速檢測網(wǎng)絡(luò)設(shè)備之間轉(zhuǎn)發(fā)路徑連通狀態(tài)的方法,其鄰居檢測時(shí)間最小可設(shè)置為50ms,可以將鏈路異常檢測控制在ms級,BFD在檢測到鏈路異常后,會通知OSPF路由協(xié)議重新進(jìn)行收斂計(jì)算,使得交換機(jī)可以通過ECMP進(jìn)行快速的路由切換,將收斂時(shí)間從40S減少到1S內(nèi)。服務(wù)器高可用區(qū)域采用了MSTP+VRRP的設(shè)計(jì),使得當(dāng)出現(xiàn)鏈路故障或交換機(jī)故障時(shí),能夠達(dá)到冗余備份的目標(biāo),其最大收斂時(shí)間約為3S(VRRP Hello間隔為1S),由于VRRP也可關(guān)聯(lián)BFD,但由于目前BFD在AG口上的支持尚存在一些缺陷,所以目前沒有采用VRRP關(guān)聯(lián)BFD的方案。不同的網(wǎng)絡(luò)模型使用的相關(guān)可靠性特性各不

45、相同,當(dāng)我們在面對各種不通的應(yīng)用模型時(shí),一方面充分考慮冗余備份的設(shè)計(jì),一方面選取適合的可靠性特性,設(shè)計(jì)方面的內(nèi)容我們稍后在第5章 設(shè)計(jì)實(shí)施與項(xiàng)目管理 中進(jìn)行講解。4.2 數(shù)據(jù)中心特性數(shù)據(jù)中心相關(guān)特性是和數(shù)據(jù)中心特有的網(wǎng)絡(luò)/存儲結(jié)構(gòu)及應(yīng)用模決定的。目前總結(jié)來看:主要是三大部分的內(nèi)容:1. FCOE(早期流行的FC存儲和以太網(wǎng)的統(tǒng)一,有效減少服務(wù)器IO、布線、維護(hù)及管理復(fù)雜度)2. DCB特性(存儲FC網(wǎng)絡(luò)和以太網(wǎng)融合后的擁塞控制和帶寬保證技術(shù)) 3. 服務(wù)器虛擬化之后的虛擬機(jī)策略控制、動態(tài)遷移策略支持4.2.1 FCOE支持這里先簡單介紹一下為什么新一代數(shù)據(jù)中心需要FCOE技術(shù),由于歷史技術(shù)的發(fā)

46、展與興衰及變更,F(xiàn)C技術(shù)一度流行(FC技術(shù)在90年代發(fā)展迅速,由于其高速度、高可靠、低延遲、高吞吐等特性,廣泛應(yīng)用于高性能存儲、大規(guī)模數(shù)據(jù)庫和數(shù)據(jù)倉庫、存儲備份與恢復(fù)、集群系統(tǒng)、網(wǎng)絡(luò)存儲系統(tǒng)、數(shù)字視頻網(wǎng)絡(luò)等領(lǐng)域),正是如此,當(dāng)今的較大型數(shù)據(jù)中心網(wǎng)絡(luò)普遍存在如下結(jié)構(gòu):(詳見示意圖),存在多個(gè)完全不同類型的網(wǎng)絡(luò)區(qū)域。1.前端的用戶通信網(wǎng)絡(luò)(以太網(wǎng))2.后臺存儲網(wǎng)絡(luò)光纖的通道(FC光纖網(wǎng)絡(luò))3.后端做數(shù)據(jù)更新或者做集群計(jì)算的通訊網(wǎng)絡(luò)(高性能計(jì)算Infiniband網(wǎng)絡(luò))隨著歷史的發(fā)展,F(xiàn)C網(wǎng)絡(luò)出現(xiàn)了以下問題:1、帶寬和傳輸速率發(fā)展緩慢。FC普及1Gbps的時(shí)候,以太網(wǎng)剛剛普及10Mbps;如今以太網(wǎng)

47、進(jìn)入10G時(shí)代,F(xiàn)C才普及4G/8G2、工程人員的匱乏。在IP/Ethernet網(wǎng)絡(luò)有成千上萬的開發(fā)工程師為其服務(wù),而FC網(wǎng)絡(luò)只有不到一千名開發(fā)工程師3、同時(shí)有FC 和以太網(wǎng)兩個(gè)網(wǎng)絡(luò),線路結(jié)構(gòu)復(fù)雜,LAN和SAN資源沒有整合,無法實(shí)現(xiàn)復(fù)用FCoE技術(shù)標(biāo)準(zhǔn)可以將光纖FC網(wǎng)絡(luò)通道地映射到以太網(wǎng),從而可以在以太網(wǎng)上傳輸SAN數(shù)據(jù),它能夠保護(hù)客戶在現(xiàn)有FC-SAN上的投資(如FC-SAN的各種工具、員工的培訓(xùn)、已建設(shè)的FC-SAN設(shè)施及相應(yīng)的管理架構(gòu)),目前以太網(wǎng)技術(shù)發(fā)展迅速,萬兆、100G平臺都在不斷發(fā)展,具有極大的速度優(yōu)勢。同時(shí),F(xiàn)COE使得FC運(yùn)行在一個(gè)無損的數(shù)據(jù)中心以太網(wǎng)絡(luò)上(需要無損的以太網(wǎng)

48、(DCB特性)保證不丟包)。FCoE技術(shù)有以下的一些優(yōu)點(diǎn):光纖存儲和以太網(wǎng)共享同一個(gè)端口;更少的線纜和適配器;軟件配置I/O;與現(xiàn)有的SAN環(huán)境可以互操作。這樣,F(xiàn)CoE能減少數(shù)據(jù)中心的接口卡、電纜和網(wǎng)絡(luò)設(shè)備,從而使數(shù)據(jù)中心變得比較簡單、綠色環(huán)保。在一些大公司,如果能減少電纜數(shù)量,將會對空氣流動產(chǎn)生積極作用,并減少降溫成本,同時(shí)可極大減少網(wǎng)絡(luò)配套設(shè)施投資成本及管理維護(hù)工作量。下圖為服務(wù)器在原有多套網(wǎng)絡(luò)中所需要的接口模型轉(zhuǎn)化到FCOE網(wǎng)絡(luò)之后的明顯變化FCOE技術(shù)的本質(zhì)就是將FC幀封裝到以太幀中,允許LAN和SAN的業(yè)務(wù)流量在同一個(gè)以太網(wǎng)中傳送??偨Y(jié)一下,F(xiàn)COE技術(shù)模型需要的組件如下:1. 服

49、務(wù)器使用新一代萬兆CNA網(wǎng)卡(例如BLADE、Brocade、Emulex、Intel、QLOGIC等)2. 交換機(jī)支持FCOE3. 存儲設(shè)備支持FCOE接口(例如NetAPP) 或 FCOE交換機(jī)采用FC模塊與原有FC網(wǎng)絡(luò)融合目前我司數(shù)據(jù)中心交換機(jī)62系列和12000已經(jīng)在10.4(3b3)軟件版本中正式支持FCOE,F(xiàn)COE技術(shù)尚有很多技術(shù)細(xì)分要點(diǎn),如遇客戶在項(xiàng)目實(shí)施中,會使用FCOE技術(shù),請及時(shí)聯(lián)系TAC工程師予以確認(rèn)。項(xiàng)目中涉及到FCOE技術(shù)的應(yīng)用,請?zhí)崆按_認(rèn)如下信息:1. 存儲設(shè)備廠家及型號2. 服務(wù)器廠家及型號、網(wǎng)卡廠家及型號3. 原有/規(guī)劃 FC/FCOE網(wǎng)絡(luò)連接拓?fù)鋱D4. 存儲

50、設(shè)備數(shù)量、服務(wù)器數(shù)量、支持FCOE交換機(jī)數(shù)量K 備注:阿里巴巴本次的云梯網(wǎng)絡(luò)屬于新建網(wǎng)絡(luò),服務(wù)器均采用自有硬盤,所以無需使用FCOE技術(shù)。4.2.2 DCB特性有了FCOE技術(shù)后,如何保障存儲流量在以太網(wǎng)上無丟包成為一個(gè)挑戰(zhàn)。以太網(wǎng)作為一種盡力服務(wù)的網(wǎng)絡(luò)模型,網(wǎng)絡(luò)繁忙時(shí)可能發(fā)生丟包或傳輸故障,由于傳統(tǒng)以太網(wǎng)不可靠的傳輸特性,因此不適合在存儲信息傳輸過程中使用。例如:公共安全場所的監(jiān)控錄像,有研究表明,一個(gè)人掠過一個(gè)監(jiān)控?cái)z像機(jī)最短的時(shí)間不到一秒鐘,如果關(guān)鍵數(shù)據(jù)在傳輸過程中丟失,就會給未來的調(diào)查取證造成極大困擾。IEEE數(shù)據(jù)中心網(wǎng)橋(Data Center Bridge,簡稱DCB)工作組提出一系

51、列以太網(wǎng)擴(kuò)展協(xié)議,來增強(qiáng)傳統(tǒng)以太網(wǎng)傳輸?shù)目煽啃?,解決上述可能的以太網(wǎng)丟包或擁塞問題。主要包括如下4種技術(shù):1. 802.1Qbb Priority Flow Control(PFC)基于優(yōu)先級的流控:傳統(tǒng)的以太網(wǎng)是整條鏈路進(jìn)行流控的,它會暫停整條鏈路,阻止一條鏈路上的所有流量。802.1Qbb是基于優(yōu)先級的流控標(biāo)準(zhǔn),在一條物理鏈路上,分成了8個(gè)虛擬通道,每一個(gè)通道分配一個(gè)優(yōu)先級。這樣在一條鏈路上可以承載多種業(yè)務(wù)類型,包括FCoE和非FCoE的業(yè)務(wù)。當(dāng)發(fā)生擁塞時(shí),接收端可以在特定的優(yōu)先級虛擬通道上發(fā)送XOFF和XON幀,抑制或者繼續(xù)特定的業(yè)務(wù),保證高優(yōu)先級或者時(shí)延敏感的業(yè)務(wù)的傳輸。下面是802.

52、1qbb的原理圖。我們可以為光纖通道流量,也就是存儲流量,分配一個(gè)IEEE 802.1P優(yōu)先等級,并為該優(yōu)先等級啟用PFC,從而有效控制存儲流量用于端口擁塞導(dǎo)致的丟包。2.802.1Qaz Enhanced Transmision Selection(ETS)增強(qiáng)傳輸選擇:IO整合后,多個(gè)網(wǎng)絡(luò)流量共享同一條物理鏈路,帶來了一個(gè)新的需求:在網(wǎng)絡(luò)繁忙的情況下,如何保證各個(gè)網(wǎng)絡(luò)能夠運(yùn)行正常的最小帶寬。為此IEEE引入增強(qiáng)傳輸選擇(ETS)協(xié)議,來對不同網(wǎng)絡(luò)流量進(jìn)行帶寬分配,保證各個(gè)網(wǎng)絡(luò)正常運(yùn)行所需的最小帶寬。ETS提供一個(gè)數(shù)據(jù)中心環(huán)境中的終端和設(shè)備端進(jìn)行帶寬分配的操作模型。ETS,即是對不同的數(shù)據(jù)流

53、預(yù)定不同的帶寬比例,在帶寬不足時(shí),預(yù)先保證高優(yōu)先級流量的比例。下圖,即預(yù)先保留帶寬比例是20:30:50。在t1/t2這個(gè)時(shí)刻,高優(yōu)先級報(bào)文可以擴(kuò)大自己的比例。ETS算法提供傳輸類之間的帶寬分配功能,支持和低延遲的傳輸選擇算法嚴(yán)格優(yōu)先級算法(strict priority)和令牌流量整形算法(credit-based shaper algorithms)共用,ETS所分配的帶寬為其他QOS算法(主要是嚴(yán)格優(yōu)先級算法和令牌流量整形算法)處理后的帶寬。ETS的報(bào)文分類以及隊(duì)列調(diào)度算法的詳細(xì)配置可參考ETS配置手冊章節(jié)及ETS技術(shù)白皮書3.Congestion notification IEEE 8

54、02.1Qau) CN擁塞通告在傳統(tǒng)的以太網(wǎng)環(huán)境中,網(wǎng)絡(luò)傳輸過程中,當(dāng)網(wǎng)絡(luò)流量達(dá)到最大帶寬后,不可能保證所有流量的傳輸,只能將部分流量丟棄掉。為了保證數(shù)據(jù)流在傳輸過程中不被丟棄,根源的辦法通知數(shù)據(jù)發(fā)送源端,降低數(shù)據(jù)發(fā)送的速率。擁塞通告802.1Qau標(biāo)準(zhǔn),就是在這種背景下出現(xiàn),服務(wù)于增強(qiáng)型以太網(wǎng),用于提高以太網(wǎng)傳輸?shù)目煽啃栽砣缦拢寒?dāng)服務(wù)器網(wǎng)卡,即反應(yīng)點(diǎn)(CP)在發(fā)送數(shù)據(jù)報(bào)文時(shí),會在報(bào)文中攜帶CN-Tag;當(dāng)擁塞點(diǎn)檢測到擁塞時(shí),會將數(shù)據(jù)報(bào)文中的CN-Tag拷貝到擁塞通告消息,一并返回給數(shù)據(jù)源。 CNM(擁塞通告信息)的目的MAC直接是來源主機(jī)。CN用于避免網(wǎng)絡(luò)擁塞,以減少丟包和降低網(wǎng)絡(luò)的延遲(

55、擁塞會導(dǎo)致丟包,丟包后重傳將增加報(bào)文的延遲)。為達(dá)到避免網(wǎng)絡(luò)擁塞的目的,以太網(wǎng)交換機(jī)和端點(diǎn)站(在數(shù)據(jù)中心當(dāng)中,通常指服務(wù)器)均需支持CN:u 當(dāng)以太網(wǎng)交換機(jī)檢測到擁塞時(shí),會向數(shù)據(jù)源端點(diǎn)站發(fā)送擁塞通告消息,要求數(shù)據(jù)源端點(diǎn)站降低報(bào)文的發(fā)送速率。u 數(shù)據(jù)源端點(diǎn)站收到擁塞通告消息后,降低報(bào)文的發(fā)送速率,并周期性嘗試增加報(bào)文的發(fā)送速率,如果此時(shí)擁塞已經(jīng)消除,增加報(bào)文的發(fā)送速率并不會引起擁塞,也就不會再收到擁塞通告報(bào)文,報(bào)文的發(fā)送速率最終得以恢復(fù)到擁塞之前的值,以充分利用網(wǎng)絡(luò)帶寬。CN的詳細(xì)配置及技術(shù)點(diǎn)可參考CN配置手冊或802.1AU擁塞通告技術(shù)白皮書4. Data Center Bridging eX

56、change Protocol(DCBX):DCB特性自動協(xié)商機(jī)制DCBX利用LLDP協(xié)議交換鏈路兩端的配置信息,發(fā)現(xiàn)對等的配置,并在符合DCB要求的橋接之間交換配置信息,同時(shí)DCBX能夠檢測出橋接之間錯(cuò)誤的配置信息或用于引導(dǎo)對端進(jìn)行配置等。DCBX運(yùn)行在點(diǎn)對點(diǎn)的鏈路上,它可用于通告本機(jī)的ETS、PFC等參數(shù)的配置信息,同時(shí)它也期望接收鄰居發(fā)送的配置信息以用于引導(dǎo)本機(jī)配置。典型的DCBX參數(shù)交換的過程如下圖所示:DCBX作為LLDP協(xié)議的擴(kuò)展,它在LLDP協(xié)議的基礎(chǔ)上增加了數(shù)據(jù)中心相關(guān)參數(shù)的TLV信息,協(xié)議本身并不復(fù)雜。如果已支持了LLDP協(xié)議,則也應(yīng)能平滑地支持DCBX協(xié)議。如前所述,DCBX技術(shù)作為LLDP協(xié)議的擴(kuò)展,依賴于LLDP。同時(shí),DCBX運(yùn)行在數(shù)據(jù)中心的網(wǎng)絡(luò)中,需要與數(shù)據(jù)中心的其它協(xié)議協(xié)同工作,進(jìn)行數(shù)據(jù)中心相關(guān)參數(shù)的配置和能力交換,方便了管理員部署和維護(hù)網(wǎng)絡(luò)的運(yùn)行。DCBX的配置

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論