服務(wù)水平管理和服務(wù)水平協(xié)議(SLA)_第1頁
服務(wù)水平管理和服務(wù)水平協(xié)議(SLA)_第2頁
服務(wù)水平管理和服務(wù)水平協(xié)議(SLA)_第3頁
服務(wù)水平管理和服務(wù)水平協(xié)議(SLA)_第4頁
服務(wù)水平管理和服務(wù)水平協(xié)議(SLA)_第5頁
已閱讀5頁,還剩53頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、服務(wù)水平管理和服務(wù)水平協(xié)議(SLA)服務(wù)水平管理概述網(wǎng)絡(luò)公司一直以來都通過構(gòu)建堅實的網(wǎng)絡(luò)基礎(chǔ)設(shè)施及主動處理每個業(yè)務(wù)問題來滿足不斷擴展的網(wǎng)絡(luò)要求。當(dāng)業(yè)務(wù)異常中斷時,公司將構(gòu)建新流程、管理功能或基礎(chǔ)設(shè)施來防止此類故障再次發(fā)生。然而,由于快速變更及日益增長的可用性要求,我們現(xiàn)在需要改進模式來預(yù)先防止意外故障并快速修復(fù)網(wǎng)絡(luò)。許多服務(wù)供應(yīng)商和企業(yè)一直都試圖更好地定義服務(wù)水平以便實現(xiàn)商業(yè)目標(biāo)。關(guān)鍵成功因素SLA的關(guān)鍵成功因素用來定義支持成功構(gòu)建可獲得的服務(wù)水平及維護SLA的主要要素。要成為合格的關(guān)鍵成功因素,流程或流程步驟必須可以改進SLA質(zhì)量并從整體上提高網(wǎng)絡(luò)的可用性。關(guān)鍵成功因素還應(yīng)具備可測量性,以便

2、使企業(yè)能夠判斷:與定義的程序相比,它所取得的成功程度。性能指標(biāo)性能指標(biāo)提供了公司測量關(guān)鍵成功因素的機制。您通常需要每月審查一次,以確保服務(wù)水平定義或SLA運行良好。網(wǎng)絡(luò)運行小組及必要的工具組可實施以下測量標(biāo)準(zhǔn)。注意:對于沒有SLA的公司,我們建議您同時實施服務(wù)水平定義、服務(wù)水平審核及測量標(biāo)準(zhǔn)。性能指標(biāo)包括: 記錄的服務(wù)水平定義或SLA,包括可用性、性能、主動業(yè)務(wù)應(yīng)答時間、排障目標(biāo)及問題升級等。 月度網(wǎng)絡(luò)服務(wù)水平審核會議,審核對服務(wù)水平的執(zhí)行情況并實施改進。 性能指標(biāo)測量標(biāo)準(zhǔn),包括可用性、性能、按優(yōu)先級劃分的業(yè)務(wù)應(yīng)答時間、按優(yōu)先級劃分的排障時間以及其他可測量的SLA參數(shù)。服務(wù)水平管理流程面向服務(wù)

3、水平管理的高級別流程主要包括兩組:1.定義網(wǎng)絡(luò)服務(wù)水平 2.創(chuàng)建并維護SLA實施服務(wù)水平管理實施服務(wù)水平管理包括十六步,分為以下兩個主要范疇: 定義網(wǎng)絡(luò)服務(wù)水平步驟1-6 創(chuàng)建并維護SLA 步驟7-16定義網(wǎng)絡(luò)服務(wù)水平網(wǎng)絡(luò)管理人員需要定義支持、管理并測量網(wǎng)絡(luò)的主要規(guī)則。服務(wù)水平為所有網(wǎng)絡(luò)人員提供目標(biāo)并可用作整體業(yè)務(wù)質(zhì)量的測量標(biāo)準(zhǔn)。您也可將服務(wù)水平定義用作網(wǎng)絡(luò)資源預(yù)算工具以及投資于更高服務(wù)質(zhì)量的證據(jù)。它們還提供評估供應(yīng)商及運營商的表現(xiàn)的方法。如果沒有服務(wù)水平定義和測量,公司不可能制定明確的目標(biāo)。服務(wù)是否滿意由用戶決定,在應(yīng)用、服務(wù)器/客戶機運行或網(wǎng)絡(luò)支持方面并無明顯差距。由于企業(yè)對最終結(jié)果沒有把

4、握,因此很難作預(yù)算。最終,網(wǎng)絡(luò)公司在提高網(wǎng)絡(luò)及支持模式方面都趨向于選擇被動應(yīng)答,而非主動預(yù)防的方式。我們建議采取以下步驟來構(gòu)建并支持服務(wù)水平模式: 分析技術(shù)目標(biāo)及限制因素。 確定可用性預(yù)算。 創(chuàng)建詳細(xì)記錄關(guān)鍵應(yīng)用網(wǎng)絡(luò)特征的應(yīng)用資料庫。 定義可用性、性能衡量標(biāo)準(zhǔn)及通用術(shù)語。 創(chuàng)建服務(wù)水平定義,包括可用性、性能、業(yè)務(wù)應(yīng)答時間、排障平均時、故障檢測、升級門限及上報途徑。 收集測量標(biāo)準(zhǔn)并監(jiān)控服務(wù)水平定義。第1步:分析技術(shù)目標(biāo)及限制因素開始分析技術(shù)目標(biāo)和限制因素的最佳方式是集體討論或研究技術(shù)目標(biāo)與要求。因為這些人都有特定的業(yè)務(wù)目標(biāo),所以有時這有助于要求其他IT技術(shù)人員參與討論。技術(shù)目標(biāo)包括可用性級別、吞

5、吐量、抖動、延遲、應(yīng)答時間、可用性要求、新特性的推出、新應(yīng)用的推出、安全性、可管理性及成本等。隨后,公司應(yīng)研究限制因素,以便使用可用資源實現(xiàn)這些目標(biāo)。您可為每個目標(biāo)創(chuàng)建帶有對限制因素解釋的工作表。最初看似大多數(shù)目標(biāo)都無法實現(xiàn)。隨后劃分目標(biāo)的優(yōu)先級或降低對仍可滿足商業(yè)要求的目標(biāo)的期望值。例如,您制定的可用性級別可能是99.999%,或每年5分鐘的故障停機時間。實現(xiàn)這一目標(biāo)存在大量限制因素,如硬件的單點故障、遠(yuǎn)程位置中的故障硬件的平均修復(fù)時間(MTTR)、運營商可靠性、預(yù)先故障檢測、高變更率及當(dāng)前網(wǎng)絡(luò)容量限制等。因此,您需要將這個目標(biāo)調(diào)節(jié)到更加易于實現(xiàn)的級別。下個章節(jié)中介紹的可用性模式可幫您制定現(xiàn)

6、實的目標(biāo)。您可能也考慮在限制因素相對較少的網(wǎng)絡(luò)領(lǐng)域提供可用性。當(dāng)網(wǎng)絡(luò)公司公布業(yè)務(wù)的可用性標(biāo)準(zhǔn)時,公司中的各業(yè)務(wù)部門可能發(fā)現(xiàn)無法接受這個級別的可用性。這自然而然引發(fā)對SLA的討論,或為可滿足商業(yè)要求的模式進行投資/做預(yù)算。確定所有限制因素或風(fēng)險的工作包括要實現(xiàn)技術(shù)目標(biāo)。根據(jù)實現(xiàn)理想目標(biāo)的最大風(fēng)險或影響方面劃分限制因素的優(yōu)先級。這可幫助公司確定網(wǎng)絡(luò)改進計劃的優(yōu)先順序,并確定解決限制因素的難易程度。限制因素分三類: 網(wǎng)絡(luò)技術(shù)、故障恢復(fù)能力和配置 生命周期方案,包括:規(guī)劃、設(shè)計、實施和運行 當(dāng)前的話務(wù)負(fù)載或應(yīng)用行為網(wǎng)絡(luò)技術(shù)、故障恢復(fù)能力及配置限制因素是指與當(dāng)前技術(shù)、硬件、鏈路、設(shè)計或配置相關(guān)的任何限制

7、因素或風(fēng)險。技術(shù)限制因素指技術(shù)本身造成的任何限制。例如,當(dāng)前沒有一種技術(shù)允許冗余網(wǎng)絡(luò)環(huán)境中實現(xiàn)少于1秒的聚合時間,而這恰恰是維持整個網(wǎng)絡(luò)上的話音連接的關(guān)鍵。另一個例子是數(shù)據(jù)通過地面鏈路時的原始速度,大約是100英里/毫秒。網(wǎng)絡(luò)硬件故障恢復(fù)能力風(fēng)險調(diào)查應(yīng)集中在硬件拓?fù)?、分級體系、模塊化、冗余、MTBF及定義的路徑這幾方面。網(wǎng)絡(luò)鏈路限制因素應(yīng)強調(diào)企業(yè)網(wǎng)絡(luò)鏈路及運行商連接。鏈路限制因素可能包括鏈路冗余和多樣性、媒介限制、布線基礎(chǔ)設(shè)施、本地環(huán)路連接性以及長距離連接性。設(shè)計限制因素與網(wǎng)絡(luò)的物理或邏輯設(shè)計相關(guān),包括從為設(shè)備可用空間到路由協(xié)議實施的可擴展性等各個方面。您應(yīng)在配置、可用性、可擴展性、性能及容量

8、方面考慮所有協(xié)議和媒介設(shè)計。動態(tài)主機配置協(xié)議(DHCP)、域名系統(tǒng)(DNS)、防火墻、協(xié)議轉(zhuǎn)換及網(wǎng)絡(luò)地址轉(zhuǎn)換等網(wǎng)絡(luò)業(yè)務(wù)限制因素也應(yīng)列入考慮之列。生命周期方案定義用于實現(xiàn)解決方案的統(tǒng)一部署、檢測和修復(fù)故障、防止容量或性能問題以及配置一致性和模塊化的網(wǎng)絡(luò)流程和管理。您需要認(rèn)真考慮這個領(lǐng)域,因為專業(yè)技術(shù)和流程通常是導(dǎo)致不可用性的最大影響因素。網(wǎng)絡(luò)生命周期指規(guī)劃、設(shè)計、實施和運行周期。在每個階段中,您都必須了解性能管理、配置管理、故障管理及安全性等網(wǎng)絡(luò)管理功能。思科NSA高可用性服務(wù)部(HAS)提供網(wǎng)絡(luò)生命周期評估服務(wù),確定與網(wǎng)絡(luò)生命周期方案相關(guān)的當(dāng)前網(wǎng)絡(luò)可用性限制因素。當(dāng)前的話務(wù)量或應(yīng)用限制因素只是

9、指當(dāng)前話務(wù)和應(yīng)用的影響。不幸的是,許多應(yīng)用都帶有大量需要慎重管理的限制因素。當(dāng)前應(yīng)用的抖動、延遲、吞吐量及帶寬要求通常帶有許多限制因素。編寫應(yīng)用的方式也可能產(chǎn)生一些限制因素。匯編應(yīng)用資料庫可幫您更好地了解這些問題;下文將介紹這一特性。研究當(dāng)前的可用性、話務(wù)、容量及性能還可幫助網(wǎng)絡(luò)管理人員了解當(dāng)前的服務(wù)水平目標(biāo)及風(fēng)險。這一工作常通過名為網(wǎng)絡(luò)基準(zhǔn)制定的流程來完成,該流程可幫您定義規(guī)定時段內(nèi)(通常是一個月)的平均網(wǎng)絡(luò)性能、可用性或容量。這些信息通常用于容量規(guī)劃和趨勢分析,但也可用來了解服務(wù)水平問題。下面的工作表使用了上述目標(biāo)/限制因素方法來實現(xiàn)防止安全性攻擊或拒絕服務(wù)攻擊(DoS)的目標(biāo)。您也可使用

10、該工作表來決定可最大限度地減少安全性攻擊的業(yè)務(wù)范圍。風(fēng)險或限制因素限制因素類型潛在影響可用的DoS檢測工具無法檢測出全部DoS攻擊類型。技術(shù)/故障恢復(fù)能力高不具備對告警做出相應(yīng)所需的人員和流程。生命周期方案高當(dāng)前網(wǎng)絡(luò)接入策略未加執(zhí)行。生命周期方案一般如果利用帶寬擁塞來發(fā)動攻擊,則當(dāng)前的低帶寬互聯(lián)網(wǎng)連接成為限制因素。網(wǎng)絡(luò)容量一般幫助防止攻擊的當(dāng)前安全性配置不完善。技術(shù)/故障恢復(fù)能力一般第2步:確定可用性預(yù)算可用性預(yù)算是期望在定義的兩點間出現(xiàn)的、理論上的網(wǎng)絡(luò)可用性。準(zhǔn)確的理論信息可在多個方面發(fā)揮作用: 公司可將其視為內(nèi)部可用性目標(biāo),并且能夠立刻定義偏離并進行補救。 網(wǎng)絡(luò)規(guī)劃人員可使用這些信息來確定

11、系統(tǒng)的可用性,以確保設(shè)計滿足商業(yè)要求。造成不可用性或故障停機的因素包括軟硬件故障、電源和環(huán)境問題、鏈路或運營商故障、網(wǎng)絡(luò)設(shè)計、人為錯誤或缺乏流程等。在評估網(wǎng)絡(luò)的整體可用性預(yù)算時,您必須嚴(yán)格評估上述的所有參數(shù)。如果公司目前正在測量可用性,則可能不需要可用性預(yù)算。用可用性測量標(biāo)準(zhǔn)作為基準(zhǔn)來評估服務(wù)水平定義使用的當(dāng)前服務(wù)水平。然而,您可將二者進行對比,以便了解潛在的理論可用性與實際測量結(jié)果間的差距??捎眯灾府a(chǎn)品或業(yè)務(wù)在需要時投入運行的可能性。參見以下定義:a.可用性1- (總的連接中斷時間) / (總服務(wù)連接時間)1- 總和(業(yè)務(wù)中斷期間受影響的連接數(shù)量 X 業(yè)務(wù)中斷時間) / (運行的連接數(shù)量X

12、運行時間)b.不可用性1-由以下因素造成的可用性或總的連接中斷時間:軟硬件故障、電源和環(huán)境問題、鏈路和運營商故障、網(wǎng)絡(luò)設(shè)計、用戶錯誤及流程故障等。c.硬件可用性首先需要研究的領(lǐng)域是潛在硬件故障及其對不可用性的影響。要確定這方面的影響,公司應(yīng)了解所有網(wǎng)絡(luò)組件的MTBF以及MTTR,以確定兩點間的路徑中所有設(shè)備的潛在硬件問題。如果網(wǎng)絡(luò)采用模塊化和分級體系結(jié)構(gòu),則幾乎任意兩點間的硬件可用性都是相同的。MTBF信息可用于所有思科組件,并且可根據(jù)請求、向本地客戶經(jīng)理提供。Cisco NSA HAS項目還使用一種工具來幫助確定硬件可用性及網(wǎng)絡(luò)路徑,即使在系統(tǒng)中存在模塊冗余、機底冗余及路徑冗余時也可以使用這

13、種工具。硬件可靠性的一個主要因素是MTTR。公司應(yīng)評估它們修復(fù)故障硬件的速度。如果公司未制定備用方案,只依賴于標(biāo)準(zhǔn)Cisco SMARTnet? 協(xié)議,則潛在的評估硬件更換時間為24小時。在帶有核心冗余但不帶有接入。冗余的典型LAN環(huán)境中,適當(dāng)?shù)目捎眯允?99.99%,平均修復(fù)時間是4-小時。d.軟件可用性下一個需要研究的領(lǐng)域是軟件故障。出于測量的目的,思科將軟件故障定義為由軟件錯誤引發(fā)的設(shè)備冷啟動。思科已經(jīng)開發(fā)出許多流程來幫助了解軟件的可用性;然而,更新的版本尚需一段時間進行測量,并且我們認(rèn)為它的可用性不及一般的部署軟件。IOS 11.2版(18)等一般部署軟件經(jīng)測量,證明具備99.9999

14、%的可用性。這個數(shù)字是基于修復(fù)時間為六分鐘(路由器重新裝載的時間)的思科路由器的實際冷啟動次數(shù)來計算的。采用不同版本的公司,可用性將隨著復(fù)雜性的增加、互操作性的增強以及排障時間的縮短略有降低。采用最新軟件版本的公司,不可用性將有所提高。不可用性的分配也相當(dāng)廣泛,這意味著客戶將感覺到很高的不可用性或接近一般部署版本的可用性。e.環(huán)境和電源的可用性您還必須考慮環(huán)境和電源的可用性問題。環(huán)境問題與將設(shè)備保持在特定的運行溫度范圍內(nèi)的冷卻系統(tǒng)的故障相關(guān)。當(dāng)溫度大大超過技術(shù)指標(biāo)時,許多思科設(shè)備只是停止運轉(zhuǎn),而不會損害所有硬件。出于可用性預(yù)算的目的,您必須將電源考慮在內(nèi),因為它是造成本領(lǐng)域中不可用性的主要原因

15、。雖然電源故障是造成網(wǎng)絡(luò)不可用性的重要原因,但對它的討論還是受到限制,這是因為無法進行準(zhǔn)確的、理論上的電源分析。企業(yè)必須基于所在地區(qū)的經(jīng)驗、電源備份功能以及實施的流程,對其設(shè)備的電源可用性的大約測量結(jié)果進行評估,以確保為所有設(shè)備提供具備一致質(zhì)量的電源?;诒J氐墓烙嫞覀兛梢哉J(rèn)為配備了備用發(fā)電機、不間斷供電電源 (UPS)系統(tǒng)并采用合格電源實施流程的企業(yè),可實現(xiàn)高達(dá)六個九(99.9999%)的可用性,而未配備這些系統(tǒng)的企業(yè),其可用性僅為 99.99%,或者說每年有36分鐘的故障停機時間。當(dāng)然,您可根據(jù)公司的觀察或?qū)嶋H數(shù)據(jù)來調(diào)整這些數(shù)值,使其更真實地反映企業(yè)的具體情況。f.鏈路或運營商故障鏈路和

16、運營商故障是影響WAN環(huán)境中的可用性的主要因素。切記:WAN環(huán)境只是同企業(yè)網(wǎng)絡(luò)遭遇同樣可用性問題的其他網(wǎng)絡(luò),包括:軟硬件故障、用戶錯誤及電源故障等。許多運營商網(wǎng)絡(luò)都已經(jīng)開始對系統(tǒng)進行可用性預(yù)算,但獲得這些信息并不容易。切記,運營商的可用性保證級別很少基于或根本不基于實際可用性預(yù)算。這些保證級別有時只是用來提高運營商知名度的營銷和銷售方法。在某些情況下,這些網(wǎng)絡(luò)還公布看似相互突出的可用性統(tǒng)計數(shù)據(jù)。切記,這些統(tǒng)計數(shù)據(jù)可能只適用于完全冗余的核心網(wǎng)絡(luò),而不作為導(dǎo)致不可用性的因素(不可用性由本地環(huán)路接入引起),本地環(huán)路接入才是WAN網(wǎng)絡(luò)中不可用性的主要因素。對WAN環(huán)境進行可用性評估應(yīng)基于實際的運營商信

17、息以及WAN連接的冗余級別。如果公司擁有多個大樓入口設(shè)施, 冗余本地環(huán)路供應(yīng)商、同步光網(wǎng)絡(luò) (SONET)本地接入、以及分布在多個地區(qū)的冗余長途運營商,則WAN的可用性將得到明顯增強。電話業(yè)務(wù)是WAN環(huán)境中、非冗余網(wǎng)絡(luò)連接相當(dāng)準(zhǔn)確的可用性預(yù)算。使用類似于本文所描述的可用性預(yù)算方法進行測量,電話業(yè)務(wù)的端到端連接的可用性預(yù)算大約為99.94%。這種方法業(yè)已成功應(yīng)用于數(shù)據(jù)環(huán)境中,結(jié)果基本相同,目前正被用作服務(wù)供應(yīng)商有線網(wǎng)絡(luò)中分組有線規(guī)程的預(yù)算。如果將該數(shù)值用于完全冗余的系統(tǒng),則我們可以假定,WAN可用性會接近99.9999%。當(dāng)然,由于成本及可用性問題,目前很少有哪家公司部署了分布在多個地區(qū)且完全冗

18、余的WAN系統(tǒng),所以應(yīng)使用適當(dāng)?shù)呐袛喾椒y定這種功能。LAN環(huán)境中不太可能發(fā)生鏈路故障,然而,規(guī)劃人員可能希望假定連接器斷開或松動會引發(fā)短時間的故障停機。對LAN網(wǎng)絡(luò)而言,保守的可用性估計約為99.9999%,或大約30秒故障停機/年。g.網(wǎng)絡(luò)設(shè)計網(wǎng)絡(luò)設(shè)計是影響可用性的另一個主要因素。不可擴展的設(shè)計、設(shè)計錯誤及網(wǎng)絡(luò)聚合時間都會對可用性產(chǎn)生負(fù)面影響。注意:出于本文的目的,我們將在下面的篇幅中描述不可擴展的設(shè)計或設(shè)計錯誤。網(wǎng)絡(luò)設(shè)計被限定在可測量的數(shù)值上(基于網(wǎng)絡(luò)中導(dǎo)致話務(wù)重新路由的軟硬件故障)。這些數(shù)值通常被稱作“系統(tǒng)故障切換時間”,并且是系統(tǒng)中自治愈協(xié)議功能的影響因素。使用與系統(tǒng)計算相同的方法便

19、可計算可用性。然而,它只有在網(wǎng)絡(luò)故障切換時間滿足網(wǎng)絡(luò)應(yīng)用要求時才有效。如果故障切換時間可以接受,則不把它計算在內(nèi)。如果故障切換時間不能接受,則計算時必須將其考慮在內(nèi),例如:估計或?qū)嶋H的故障切換時間為30秒的環(huán)境中下的IP 話音(VoIP)。在這個例子中,用戶只是掛斷電話,并有可能重新?lián)芙?。用戶肯定會將這30秒看作是非可用時段,但在可用性預(yù)算時卻未加考慮。根據(jù)系統(tǒng)故障切換時間來計算不可用性時要著眼于理論的軟硬件可用性以及冗余路徑,因為故障切換將出現(xiàn)在這個領(lǐng)域。您必須了解可能發(fā)生故障并導(dǎo)致冗余路徑中出現(xiàn)故障切換的設(shè)備數(shù)量,這些設(shè)備的MTBF以及故障切換時間。一個簡單的例子就是,冗余的相同設(shè)備中,每

20、臺設(shè)備的MTBF為35433小時,故障切換時間為30秒。用35,433除以8766(年平均小時數(shù),包括閏年),我們可以看出該設(shè)備每四年出現(xiàn)一次故障。如果使用30秒作為故障切換時間,我們便可以假設(shè):由于故障切換,每臺設(shè)備每年平均停機7.5秒。由于用戶可能會跨兩條路徑,因此需要將此結(jié)果乘以2,即:每年15秒。當(dāng)以秒/每年進行計算時,這個簡單系統(tǒng)中由于故障切換引起的可用性的計算結(jié)果為99.99999785%。由于可能出現(xiàn)故障切換的網(wǎng)絡(luò)中的冗余設(shè)備數(shù)量,在其他環(huán)境中,這個數(shù)字可能還要略高些。h.用戶錯誤和流程用戶錯誤和流程可用性問題是造成企業(yè)和運營商網(wǎng)絡(luò)中不可用性的主要原因。約80%的不可用性問題是由

21、于無法檢測錯誤、變化故障及性能問題造成的。公司在制定可用性預(yù)算時,不愿意接受用戶錯誤和流程引發(fā)的不可用性是其他所有理論上的不可用性的四倍這一實施,然而,各種證據(jù)一致表明,這種情況存在于許多環(huán)境中。下面我們將詳細(xì)闡述不可用性的這個方面。由于您無法從理論上計算由用戶錯誤和流程引發(fā)的不可用性數(shù)量,我們建議您在制定企業(yè)力求完美的可用性預(yù)算時不將其考慮在內(nèi)。但企業(yè)必須了解其流程和專業(yè)技術(shù)水平中現(xiàn)在所面臨的可用性風(fēng)險。透徹地了解了這些風(fēng)險及抑制因素之后,網(wǎng)絡(luò)規(guī)劃人員便有可能將這些問題引發(fā)的一定數(shù)量的不可用性考慮在內(nèi)。Cisco NSA HAS項目深入研究了這些問題,并可幫助企業(yè)了解由于流程、用戶錯誤或?qū)I(yè)

22、技術(shù)問題引發(fā)的不可用性。i.制定最終的可用性預(yù)算您可將以前定義的所有領(lǐng)域的可用性相乘來決定整個可用性預(yù)算。這種方法通常適用于任意兩點間的連接相類似的同機種環(huán)境,如:分級體系模塊化LAN環(huán)境或分級體系標(biāo)準(zhǔn)WAN環(huán)境等。這下面的例子中,為分級體系模塊化LAN環(huán)境確定了可用性預(yù)算。該環(huán)境為所有網(wǎng)絡(luò)組件都配備了備用發(fā)電機和UPS系統(tǒng),并對電源進行適當(dāng)?shù)墓芾怼F髽I(yè)未使用VoIP,也不希望將軟件故障切換時間考慮在內(nèi)。估算結(jié)果如下: 兩個端點間的硬件路徑可用性= 99.99% 使用GD軟件可靠性作為基準(zhǔn)的軟件可用性= 99.9999% 帶有備用系統(tǒng)的環(huán)境和電源可用性= 99.999% 考慮LAN 環(huán)境中的鏈

23、路故障的可用性= 99.9999% 未將系統(tǒng)故障切換時間計算在內(nèi)的可用性= 100% 認(rèn)為不存在用戶錯誤和流程缺陷的可用性= 100%企業(yè)希望達(dá)到的最終可用性預(yù)算是:0.9999 X 0.999999 X0.999999 X 0.999999 = 0.999896,或99.9896%的可用性。如果我們將用戶或流程錯誤引發(fā)的潛在不可用性考慮在內(nèi),并假設(shè)其引發(fā)的不可用性是技術(shù)因素引發(fā)的可用性的四倍,則最終可用性預(yù)算是99.95%。對這個例子的分析使我們了解到,LAN可用性在99.95%與99.989%之間?,F(xiàn)在,這些數(shù)值能夠用作網(wǎng)絡(luò)公司的服務(wù)水平目標(biāo)??梢詼y量系統(tǒng)中的可用性并確定上述六個領(lǐng)域分別引

24、發(fā)的不可用性百分率來計算其他數(shù)值。這使公司能夠?qū)?yīng)商、運營商、流程和人員進行適當(dāng)評估。這些數(shù)值也可用來設(shè)置業(yè)務(wù)期望值。如果您對99.95%與99.989%之間的可用性不滿意,可投資更多資源來獲得理想的可用性級別。網(wǎng)絡(luò)管理人員了解每個特定可用性級別的故障停機時間將大有幫助。計算任何可用性級別的年故障停機時間(分鐘)的公式如下:故障停機(分鐘)/年= 525600 (可用性級別 X 5256)如果可用性級別是99.95%,則結(jié)果是525600。(99.95 X 5256),或者相當(dāng)于222.8分鐘的故障停機。對于上述可用性定義,這等于網(wǎng)絡(luò)中所有業(yè)務(wù)連接的平均故障停機時間。第3步:創(chuàng)建應(yīng)用資料庫應(yīng)

25、用資料庫可幫助網(wǎng)絡(luò)公司了解并定義每個應(yīng)用的網(wǎng)絡(luò)服務(wù)水平要求。這有助于確保網(wǎng)絡(luò)支持每個應(yīng)用要求及整體網(wǎng)絡(luò)業(yè)務(wù)。當(dāng)應(yīng)用或服務(wù)器組指出網(wǎng)絡(luò)存在問題時,應(yīng)用資料庫還可用作網(wǎng)絡(luò)服務(wù)支持的書面基準(zhǔn)。最后,應(yīng)用資料庫可將性能及可用性等應(yīng)用要求與真實的網(wǎng)絡(luò)業(yè)務(wù)目標(biāo)或當(dāng)前限制因素進行對比,來調(diào)節(jié)網(wǎng)絡(luò)業(yè)務(wù)目標(biāo),使其與商業(yè)要求保持一致。這不僅對服務(wù)水平管理很重要,而且對整個網(wǎng)絡(luò)設(shè)計也相當(dāng)重要。每次向網(wǎng)絡(luò)中添加新應(yīng)用時都應(yīng)創(chuàng)建應(yīng)用資料庫。您還可能需要在IT應(yīng)用部門、服務(wù)器管理部門以及組網(wǎng)部門間達(dá)成協(xié)議,以便為現(xiàn)有及全新業(yè)務(wù)創(chuàng)建應(yīng)用資料庫,完成用于商業(yè)應(yīng)用及系統(tǒng)應(yīng)用的應(yīng)用資料庫。商業(yè)應(yīng)用可能包括電子郵件、文件傳輸、We

26、b瀏覽、醫(yī)療圖象處理或制造等。系統(tǒng)應(yīng)用可能包括軟件分發(fā)、用戶鑒權(quán)、網(wǎng)絡(luò)備份及網(wǎng)絡(luò)管理等。網(wǎng)絡(luò)分析員及應(yīng)用或服務(wù)器支持應(yīng)用小組應(yīng)負(fù)責(zé)創(chuàng)建應(yīng)用資料庫。新應(yīng)用可能要求使用協(xié)議分析程序以及具備延遲模擬功能的WAN模擬程序來適當(dāng)?shù)貏澐謶?yīng)用要求的特征。這有助于確定必要帶寬、應(yīng)用可用性的最大延遲及抖動要求。只要您具備所需服務(wù)器,便可在實驗室環(huán)境中開展這項工作。在VoIP等其他情況下,包括抖動、延遲及帶寬在內(nèi)的網(wǎng)絡(luò)要求會很好地公布,且無需再進行實驗室測試。應(yīng)用資料庫應(yīng)包括以下項目: 應(yīng)用名稱 應(yīng)用類型 新應(yīng)用 業(yè)務(wù)重要性 可用性要求 使用的協(xié)議和端口 估計的用戶帶寬 (kbps) 用戶數(shù)量和位置 文件傳輸要求

27、(包括時間、量及端點) 網(wǎng)絡(luò)故障停機影響 延遲、抖動及可用性要求應(yīng)用資料庫的目標(biāo)是了解應(yīng)用的商業(yè)要求、業(yè)務(wù)關(guān)鍵性以及帶寬、延遲及抖動等網(wǎng)絡(luò)要求。此外,網(wǎng)絡(luò)公司還應(yīng)了解網(wǎng)絡(luò)故障停機的影響。在某些情況下,您可能需要重啟應(yīng)用或服務(wù)器,這將大幅度延長總的應(yīng)用故障停機時間 。完成應(yīng)用資料庫后,您可將所有網(wǎng)絡(luò)功能進行對比,并幫助調(diào)節(jié)網(wǎng)絡(luò)服務(wù)水平,使其與商業(yè)和應(yīng)用要求相一致。第4步:定義可用性及性能標(biāo)準(zhǔn)可用性及性能標(biāo)準(zhǔn)為企業(yè)制定業(yè)務(wù)期望值。可根據(jù)不同網(wǎng)絡(luò)區(qū)域或特定應(yīng)用進行定義這些標(biāo)準(zhǔn)。還可以確定往返延遲、抖動、最大吞吐量、帶寬承諾及總體可擴展性等方面的性能。此外,為了制定業(yè)務(wù)期望值,企業(yè)還應(yīng)謹(jǐn)慎定義每個業(yè)務(wù)

28、標(biāo)準(zhǔn),以便使致力于網(wǎng)絡(luò)工作的用戶及IT工作組能夠全面了解業(yè)務(wù)標(biāo)準(zhǔn)以及他們與應(yīng)用或服務(wù)器管理要求的關(guān)系。用戶及IT工作組還應(yīng)了解如何測量業(yè)務(wù)標(biāo)準(zhǔn)。以前服務(wù)水平定義步驟的結(jié)果可以幫助制定標(biāo)準(zhǔn)。這時,網(wǎng)絡(luò)公司應(yīng)明確了解當(dāng)前網(wǎng)絡(luò)所面臨的風(fēng)險和限制因素及應(yīng)用行為,并進行理論上的可用性分析或制定可用性基準(zhǔn)。1. 定義業(yè)務(wù)標(biāo)準(zhǔn)適用的地理區(qū)域或應(yīng)用領(lǐng)域,可能包括園區(qū)LAN、本國WAN、外聯(lián)網(wǎng)及合作伙伴連接等。在某些情況下,企業(yè)在相同區(qū)域內(nèi)的服務(wù)水平目標(biāo)可能有所不同。這對企業(yè)或服務(wù)器供應(yīng)商來說并不罕見。這時,它們通?;诟髯缘臉I(yè)務(wù)要求制定不同的服務(wù)水平標(biāo)準(zhǔn)。這些在同一地理區(qū)域或服務(wù)區(qū)域中的標(biāo)準(zhǔn)有金牌、銀牌和銅牌

29、之分。 2. 定義業(yè)務(wù)標(biāo)準(zhǔn)參數(shù)??捎眯约巴笛舆t是最常見的網(wǎng)絡(luò)業(yè)務(wù)標(biāo)準(zhǔn)。根據(jù)需要,還可以包括最大吞吐量、最低帶寬承諾、抖動、接受的錯誤率以及可擴展性功能。當(dāng)審核用于測量方法的業(yè)務(wù)參數(shù)時要特別謹(jǐn)慎。無論參數(shù)是否包括在SLA中,公司都應(yīng)考慮出現(xiàn)問題或業(yè)務(wù)不一致性時,如何測量并證明業(yè)務(wù)參數(shù)的可行性。完成對業(yè)務(wù)領(lǐng)域和業(yè)務(wù)參數(shù)的定義后,您可使用以前步驟獲得的信息來構(gòu)建業(yè)務(wù)標(biāo)準(zhǔn)圖。企業(yè)還需要定義可能使用戶和IT工作組產(chǎn)生混淆的區(qū)域。例如,往返ping的最長應(yīng)答時間與在遠(yuǎn)程位置單擊回車鍵啟動特定應(yīng)用的最長應(yīng)答時間有很大區(qū)別。下表列出了美國采用的性能目標(biāo):網(wǎng)絡(luò)區(qū)域可用性目標(biāo)管理方法平均網(wǎng)絡(luò)應(yīng)答時間目標(biāo)可接受的

30、最常應(yīng)答時間應(yīng)答時間管理方法LAN99.99%受影響的用戶時間5毫秒內(nèi)10 毫秒往返ping應(yīng)答WAN99.9%受影響的用戶時間100毫秒內(nèi)(往返ping)150 毫秒往返ping應(yīng)答關(guān)鍵WAN及外聯(lián)網(wǎng)99.95%受影響的用戶時間100毫秒內(nèi)(往返ping)150 毫秒往返ping應(yīng)答第5步:定義網(wǎng)絡(luò)業(yè)務(wù)這是實現(xiàn)基本的服務(wù)水平管理的最后一步;它定義您實施用于實現(xiàn)服務(wù)水平目標(biāo)的被動/主動流程和管理功能。最終文件通常被稱作“運行支持計劃”。大多數(shù)應(yīng)用支持計劃只包括被動支持要求。在高可用性環(huán)境中,公司必須考慮采用主動的管理流程,以便在網(wǎng)絡(luò)故障發(fā)生前對其進行隔離并加以處理解決。總的來說,最終文件應(yīng):

31、描述用于實現(xiàn)服務(wù)水平目標(biāo)的被動和主動流程 介紹業(yè)務(wù)流程的管理方式 介紹測量業(yè)務(wù)目標(biāo)和業(yè)務(wù)流程的方式本部分將描述許多服務(wù)供應(yīng)商和企業(yè)均需考慮的主動和被動業(yè)務(wù)定義的實例。構(gòu)建服務(wù)水平定義的目標(biāo)是創(chuàng)建滿足可用性及性能目標(biāo)的業(yè)務(wù)。為了實現(xiàn)上述目標(biāo),公司必須構(gòu)建業(yè)務(wù),并謹(jǐn)記當(dāng)前的技術(shù)限制因素、可用性預(yù)算及應(yīng)用資料庫。特別是,公司應(yīng)定義并構(gòu)建始終能夠在可用性模式規(guī)定的時間內(nèi)快速確定并排除故障的業(yè)務(wù)。公司還必須定義可快速識別并解決潛在業(yè)務(wù)問題的業(yè)務(wù),如果忽略這些問題,將對可用性及性能產(chǎn)生負(fù)面影響。實現(xiàn)理想的服務(wù)水平非一朝一夕之事。專業(yè)水準(zhǔn)低、當(dāng)前流程限制或人員不合格等缺點將妨礙公司實現(xiàn)理想的標(biāo)準(zhǔn)或目標(biāo),即使

32、在完成對以前業(yè)務(wù)步驟的分析后也是如此。沒有一種方法可將所需服務(wù)水平與理想目標(biāo)準(zhǔn)確匹配。為了適應(yīng)現(xiàn)實情況,公司應(yīng)測量業(yè)務(wù)標(biāo)準(zhǔn)及用于支持業(yè)務(wù)標(biāo)準(zhǔn)的業(yè)務(wù)參數(shù)。如果沒有達(dá)到業(yè)務(wù)目標(biāo),公司應(yīng)利用業(yè)務(wù)測量標(biāo)準(zhǔn)來幫助了解問題。在許多情況下,可適當(dāng)增加預(yù)算以改進支持業(yè)務(wù),并使這些改進功能成為實現(xiàn)理想業(yè)務(wù)目標(biāo)的必要條件。企業(yè)可能會逐步進行多次調(diào)節(jié)(包括業(yè)務(wù)目標(biāo)或業(yè)務(wù)定義),以使網(wǎng)絡(luò)業(yè)務(wù)與商業(yè)要求保持一致。例如,當(dāng)目標(biāo)遠(yuǎn)遠(yuǎn)高于99.9%可用性時,企業(yè)可能只實現(xiàn)了99%的可用性。在服務(wù)及支持測量標(biāo)準(zhǔn)方面,企業(yè)代表發(fā)現(xiàn)硬件替換約需要24小時,遠(yuǎn)遠(yuǎn)高出最初的估計的4小時。此外,企業(yè)還發(fā)現(xiàn)主動管理功能受到忽視且故障的冗余

33、網(wǎng)絡(luò)設(shè)計沒有及時修復(fù)。企業(yè)發(fā)現(xiàn)的問題還有缺乏實施改進的員工等。因此,考慮降低當(dāng)前服務(wù)目標(biāo)后,企業(yè)便投資購買實現(xiàn)理想服務(wù)水平所需的其他資源。業(yè)務(wù)定義應(yīng)同時包括主動和被動支持定義。被動定義規(guī)定企業(yè)如何解決根據(jù)用戶投訴或網(wǎng)絡(luò)管理功能中確定已經(jīng)發(fā)生的問題。主動定義描述企業(yè)如何確定并解決潛在的網(wǎng)絡(luò)問題,包括修復(fù)故障的“備用”網(wǎng)絡(luò)組件、錯誤檢測、容量門限問題及升級問題等。以下提供主動與被動服務(wù)水平定義實例。被動服務(wù)水平定義以下的服務(wù)水平領(lǐng)域通常使用幫助臺數(shù)據(jù)庫統(tǒng)計數(shù)據(jù)進行測量并定期審計。下表顯示企業(yè)故障嚴(yán)重程度的實例。請注意:此表不包括處理新業(yè)務(wù)請求的方式,這項工作可通過SLA或其他應(yīng)用資料庫編制及性能假

34、設(shè)分析來完成。如果通過相同的支持流程進行處理,新業(yè)務(wù)請求可以數(shù)據(jù)嚴(yán)重級別5。嚴(yán)重級別1嚴(yán)重級別2嚴(yán)重級別3嚴(yán)重級別4嚴(yán)重的業(yè)務(wù)影響LAN用戶或服務(wù)器部分停機嚴(yán)重的WAN站點故障停機網(wǎng)絡(luò)功能的丟失或降級對業(yè)務(wù)造成嚴(yán)重影響,可能需要運行應(yīng)變措施園區(qū)LAN故障停機; 5-99名用戶受到影響國內(nèi)WAN站點故障停機國際WAN站點故障停機嚴(yán)重影響性能某些特定的網(wǎng)絡(luò)功能丟失或降級,如:冗余丟失等園區(qū)LAN性能受到影響 LAN冗余丟失對企業(yè)無業(yè)務(wù)影響的功能查詢或故障完成問題嚴(yán)重性級別定義之后,定義或研究創(chuàng)建業(yè)務(wù)應(yīng)答定義的支持流程??偟膩碚f,業(yè)務(wù)應(yīng)答定義要求采用分級支持結(jié)構(gòu),以及幫助臺軟件支持系統(tǒng)來利用故障票跟

35、蹤問題。同時還應(yīng)為每個優(yōu)先級故障的應(yīng)答時間和解決時間、按優(yōu)先級劃分的呼叫數(shù)量以及應(yīng)答解決質(zhì)量制定測量標(biāo)準(zhǔn)。定義支持流程可幫助定義公司內(nèi)部每個支持級別的目標(biāo)及其任務(wù)與責(zé)任。這有助于公司了解用于每個支持級別的資源要求及專業(yè)技術(shù)水平。下表舉例說明了分級支持結(jié)構(gòu)及其問題解決指導(dǎo)原則。支持級別職責(zé)目標(biāo)第1級支持專職幫助臺支持接聽支持電話、發(fā)放故障票、15分鐘內(nèi)解決問題、記錄故障票并上報到第2級支持解決40%的入局呼叫第2級支持隊列監(jiān)控、網(wǎng)絡(luò)管理、工作站管理為確定的軟件故障發(fā)放故障票實施接聽第1級、供應(yīng)商的電話,并上報到第3級支持對呼叫負(fù)責(zé),直到排障為止在第2級解決所有呼叫第3級支持必須立刻為第2級提供優(yōu)

36、先級為1的全部故障所需的支持同意在SLA解決期限內(nèi)幫助解決所有第2級未排除的故障不直接對故障負(fù)責(zé)下一步是確定業(yè)務(wù)應(yīng)答及排障業(yè)務(wù)定義。它為如何快速排障(包括硬件更換在內(nèi))制定了目標(biāo)。為這個領(lǐng)域制定目標(biāo)是非常重要的,因為業(yè)務(wù)應(yīng)答及恢復(fù)時間直會接影響網(wǎng)絡(luò)的可用性。問題解決時間也要與可用性預(yù)算保持一致。如果在制定可用性預(yù)算時未將大量高嚴(yán)重級別的故障考慮在內(nèi),則公司隨后將需開展大量工作來了解此類故障的根源及可能的彌補方法。詳見下表:問題嚴(yán)重級別幫助臺應(yīng)答第2級應(yīng)答現(xiàn)場第2級硬件更換解決問題1立刻上報到第2級,網(wǎng)絡(luò)運行部經(jīng)理5分鐘2小時2小時4小時2立刻上報到第2級,網(wǎng)絡(luò)運行部經(jīng)理5分鐘4小時4小時8小時

37、315分鐘2小時12小時24小時36小時415 分鐘4小時3 天3天6天除業(yè)務(wù)應(yīng)答及業(yè)務(wù)排障外,還需制定上報規(guī)定。上報表有助于確保將可用資源集中用于解決嚴(yán)重影響業(yè)務(wù)的問題。總的來說,如果分析員集中精力解決問題時,他們很少重視利用其他資源來解決問題。定義何時需要其他資源有助于促進管理層對問題的認(rèn)識,并有助于促成未來的主動測量或預(yù)防性測量。詳見下表:過去的時間嚴(yán)重級別1嚴(yán)重級別2嚴(yán)重級別3嚴(yán)重級別45分鐘網(wǎng)絡(luò)運行部經(jīng)理、第3級支持、聯(lián)網(wǎng)部主管1小時及時通知網(wǎng)絡(luò)運行部經(jīng)理、第3級支持、聯(lián)網(wǎng)部主管及時通知網(wǎng)絡(luò)運行部經(jīng)理、第3級支持、聯(lián)網(wǎng)部主管2 小時上報副總裁、及時通知主任及網(wǎng)絡(luò)運行部經(jīng)理4 小時向副

38、總裁、主管、運行部經(jīng)理、第3級支持提交根源分析,向CEO通知未排除的故障上報副總裁,及時通知主管及網(wǎng)絡(luò)運行部經(jīng)理24 小時網(wǎng)絡(luò)運行部經(jīng) 理5 天網(wǎng)絡(luò)運行部經(jīng)理迄今為止,服務(wù)水平定義始終集中在運行支持部門如何在問題發(fā)生后對其采取被動措施上。運行部門多年前便制定出了包括上述相似內(nèi)容的運行支持計劃。然而,該方案中忽略了部門如何識別問題以及他們將識別哪些故障等內(nèi)容 。比較成熟的網(wǎng)絡(luò)公司試圖制定預(yù)先確定的網(wǎng)絡(luò)問題百分率目標(biāo)來解決這個問題,而不是通過用戶故障報告或投訴來被動地確定故障。下表列出了公司對主動支持功能和被動支持功能的整體測量目標(biāo)。網(wǎng)絡(luò)領(lǐng)域主動故障識別率被動故障識別率LAN80 %20 %WAN

39、80 %20 %這為確定更多的主動支持定義開了一個好頭,因為它測量起來很簡單、也很容易,尤其在主動檢測工具可自動生成故障票。 這還有助于將網(wǎng)絡(luò)管理工具/信息集中用于主動排障,而不是在故障發(fā)生后被動地查找根源。然而,這種方法的主要問題在于它無法定義主動支持要求。這通常會造成主動支持管理功能間的差距并導(dǎo)致更大的可用性風(fēng)險。主動服務(wù)水平定義更全面的制定服務(wù)水平定義方法包括,更詳細(xì)地解釋如何7 x 24全天候地監(jiān)控網(wǎng)絡(luò),以及運行部門如何7 x 24全天候?qū)σ讯x的網(wǎng)絡(luò)管理站(NMS)門限做出響應(yīng)。鑒于管理信息站(MIB)數(shù)量的不確定性以及提供MIB的網(wǎng)絡(luò)管理信息數(shù)量與網(wǎng)絡(luò)的運行情況相關(guān),因此這看上去是

40、一項無法完成的任務(wù)。同時,完成這項任務(wù)需大量資源且代價非常高昂。不幸的是,這些缺點大大妨礙了我們對主動業(yè)務(wù)定義的實施,而這種實施從本質(zhì)上來說非常簡單輕松,且只適用于可用性或性能風(fēng)險極大的網(wǎng)絡(luò)。如果公司隨后看到了基本主動業(yè)務(wù)定義的價值,那么只要采用分階段實施的方法,就可以逐漸添加更多變量,但不會對業(yè)務(wù)產(chǎn)生重大影響。所有運行支持方案中均應(yīng)包括第一個領(lǐng)域的主動業(yè)務(wù)定義。該業(yè)務(wù)定義只是簡單闡述運行部門如何識別不同網(wǎng)絡(luò)區(qū)域中的網(wǎng)絡(luò)或鏈路故障并對此做出響應(yīng)。沒有這個定義(或管理支持),公司可能遇到支持不穩(wěn)定、無法達(dá)到用戶期望等問題,最終會降低網(wǎng)絡(luò)可用性。下表顯示了公司如何針對鏈路/設(shè)備故障制定服務(wù)定義。該

41、實例中的企業(yè)在每天的不同時段及網(wǎng)絡(luò)區(qū)域方面有著不同的通知和響應(yīng)要求。網(wǎng)絡(luò)設(shè)備或鏈路故障檢測方法5 x 8通知7 x 24通知5 x 8排障7 x 24排障核心LANSNMP設(shè)備和鏈路輪詢陷阱NOC創(chuàng)建故障票、向負(fù)責(zé)LAN的人員發(fā)出尋呼自動向負(fù)責(zé)LAN的人員發(fā)出尋呼、 LAN負(fù)責(zé)人員為核心LAN隊列創(chuàng)建故障票NOC在15分鐘內(nèi)派出LAN分析員、根據(jù)業(yè)務(wù)應(yīng)答定義解決問題立刻研究并排除優(yōu)先級1和2的故障、優(yōu)先級3和4的故障排隊等候次日上午排除國內(nèi)WANSNMP設(shè)備和鏈路輪詢陷阱NOC創(chuàng)建故障票、向負(fù)責(zé)WAN的人員發(fā)出尋呼自動向負(fù)責(zé)WAN的人員發(fā)出尋呼、 WAN負(fù)責(zé)人員為核心WAN隊列創(chuàng)建故障票NOC

42、在15分鐘內(nèi)派出WAN分析員、根據(jù)業(yè)務(wù)應(yīng)答定義排障立刻研究并排除優(yōu)先級1和2的故障、優(yōu)先級3和4的故障排隊等候次日上午排除外聯(lián)網(wǎng)SNMP設(shè)備和鏈路輪詢陷阱NOC創(chuàng)建故障票、向負(fù)責(zé)合作伙伴的人員發(fā)出尋呼自動向負(fù)責(zé)合作伙伴的人員發(fā)出尋呼,合作伙伴負(fù)責(zé)人員為合作伙伴隊列創(chuàng)建故障票NOC在15分鐘內(nèi)派出合作伙伴分析員、根據(jù)業(yè)務(wù)應(yīng)答定義排障立刻研究并排除優(yōu)先級1和2的故障、優(yōu)先級3和4的故障排隊等候次日上午排除其余的主動服務(wù)水平定義可分成兩類:網(wǎng)絡(luò)錯誤和容量/性能問題。只有少數(shù)網(wǎng)絡(luò)公司擁有這兩個領(lǐng)域的服務(wù)水平定義。因此,這些問題常被忽視或無法得到統(tǒng)一處理。這對某些網(wǎng)絡(luò)環(huán)境的影響可能不大,但高可用性環(huán)境一

43、般都需要一致的主動業(yè)務(wù)管理。網(wǎng)絡(luò)公司希望實現(xiàn)主動業(yè)務(wù)定義的原因很多,主要是他們尚未基于可用性風(fēng)險、可用性規(guī)劃及應(yīng)用問題對主動業(yè)務(wù)定義進行要求分析,致使主動業(yè)務(wù)定義的要求及優(yōu)勢不明確,這主要是因為需要更多的資源。第二個原因是要平衡能夠利用現(xiàn)有及新定義的資源來實施的主動管理數(shù)量。但生成這些告警就可能對可用性或性能產(chǎn)生嚴(yán)重影響。您還必須考慮事件關(guān)聯(lián)管理或流程,以確保不就同樣的問題生成多個主動故障票。最后一個原因在于:創(chuàng)建一組全新的主動告警經(jīng)常會生成以前未檢測出的初始信息流。運行部門必須為解決這些最初問題以及增加短期資源做好準(zhǔn)備,以便解決這些以前未檢測出的問題。第一類主動服務(wù)水平定義是網(wǎng)絡(luò)錯誤。網(wǎng)絡(luò)錯

44、誤還可細(xì)分為系統(tǒng)錯誤(包括軟硬件錯誤)、協(xié)議錯誤、媒介控制錯誤、準(zhǔn)確性錯誤及環(huán)境警告。制定服務(wù)水平定義首先要要大體了解如何檢測出此類問題、由誰負(fù)責(zé)解決問題以及故障的影響。必要時在服務(wù)水平定義中添加特定的信息或問題。您可能還需要在以下領(lǐng)域開展更多工作以確保成功定義: 第1、2和3級支持的責(zé)任 利用運行部門能夠有效開展的主動工作量來平衡網(wǎng)絡(luò)管理信息的優(yōu)先級 按要求進行培訓(xùn)以便確保支持人員可以有效地處理定義的告警 確定事件關(guān)聯(lián)方法以確保不為同樣的問題生成多個故障票 記錄特定信息或告警,以幫助識別屬于第1級支持級別的事件下表是用于網(wǎng)絡(luò)錯誤的服務(wù)水平實例,幫助您明確了解誰負(fù)責(zé)發(fā)送主動網(wǎng)絡(luò)故障告警、如何確

45、定故障以及故障影響。根據(jù)上文所述,公司尚需開展更多工作以確保成功。故障類型檢測方法門限采取的行動軟件故障(軟件造成的故障停機)每天都使用系統(tǒng)日志查看程序?qū)徍讼到y(tǒng)日志信息由第2級支持完成發(fā)生任何優(yōu)先級0、 1和2的故障發(fā)生100多起優(yōu)先級3(或更高)的故障審查問題、創(chuàng)建故障票并在新問題出現(xiàn)或問題需要特別注意時派出人員解決硬件故障(硬件造成的故障停機)每天都使用系統(tǒng)日志查看程序?qū)徍讼到y(tǒng)日志信息由第2級支持完成任何第0、 1和2優(yōu)先級別的故障的發(fā)生發(fā)生100多起優(yōu)先級3(或更高)的故障審核問題、創(chuàng)建故障票并在新問題出現(xiàn)或問題需要特別注意時派遣人員解決協(xié)議錯誤(只適用于IP路由協(xié)議)使用系統(tǒng)日志查看程

46、序每日審核系統(tǒng)日志信息由第2級支持完成發(fā)生任何優(yōu)先級0、 1和2的故障發(fā)生100多起第3優(yōu)先級(或更高)故障審核問題、創(chuàng)建故障票并在新問題出現(xiàn)或問題需要特別注意時派出人員解決媒介控制故障 (只限于FDDI、POS及快速以太網(wǎng))使用系統(tǒng)日志查看程序每日審核系統(tǒng)日志信息由第2級支持完成任何第0、 1和2優(yōu)先級別的故障的發(fā)生發(fā)生100多起優(yōu)先級3(或更高)的故障審核問題、創(chuàng)建故障票并在新問題出現(xiàn)或問題需要特別注意時派出人員解決環(huán)境信息(電源和溫度)使用系統(tǒng)日志查看程序每日審核系統(tǒng)日志信息由第2級支持完成任何信息對新問題創(chuàng)建故障票并派遣相關(guān)人員解決問題準(zhǔn)確度錯誤(鏈路輸入錯誤)每五分鐘進行一次SNMP

47、輪詢NOC受理的門限事件輸入或輸出錯誤任何鏈路上、每5分鐘出現(xiàn)一次錯誤對新問題創(chuàng)建故障票并派出第2級支持人員解決問題另一類主動服務(wù)水平是性能及容量。真正的性能和容量管理包括例外情況管理、基準(zhǔn)制定與趨勢分析以及假設(shè)分析。服務(wù)水平定義只定義需要調(diào)查或更新的性能及容量的例外門限以及平均門限。隨后,可以以某種方式將這些門限應(yīng)用到三種性能和容量管理流程中。容量及性能服務(wù)水平定義可細(xì)分成幾個類別:網(wǎng)絡(luò)鏈路、網(wǎng)絡(luò)設(shè)備、端到端性能及應(yīng)用性能。制定這些領(lǐng)域的服務(wù)水平定義需要具備與設(shè)備容量、媒介容量、QoS特征及應(yīng)用要求的特定領(lǐng)域相關(guān)的淵博技術(shù)知識。出于這個原因,我們建議網(wǎng)絡(luò)設(shè)計師通過供應(yīng)商輸入的信息制定與性能和

48、容量相關(guān)的服務(wù)水平定義。與網(wǎng)絡(luò)錯誤相似,為容量和性能制定服務(wù)水平定義首先應(yīng)大體了解如何檢測此類故障、由誰負(fù)責(zé)排障以及故障的影響。必要時向服務(wù)水平定義中添加特定的信息或問題。您可能還需要在以下領(lǐng)域開展更多工作以確保成功: 明確了解應(yīng)用性能要求 基于業(yè)務(wù)要求及總成本,對公司重要的門限值進行深入的技術(shù)研究 預(yù)算周期以內(nèi)和以外的升級要求 第1、2和3級支持的責(zé)任 利用運行部門能夠有效開展的主動工作量平衡的網(wǎng)絡(luò)管理信息的優(yōu)先級及危急程度 按要求進行培訓(xùn)以便確保支持人員了解信息或告警,并可有效地處理所定義的情況 確定事件關(guān)聯(lián)方法以確保不為同樣的問題生成多個故障票 記錄特定信息或告警,以幫助識別屬于第1級支

49、持的事件下表是面向鏈路使用情況的服務(wù)水平定義實例,幫助您明確了解誰負(fù)責(zé)發(fā)送主動網(wǎng)絡(luò)故障告警、如何確定故障以及故障影響。公司仍需開展上面定義的更多工作以確保成功。網(wǎng)絡(luò)領(lǐng)域/媒介檢測方法門限采取的行動園區(qū)LAN骨干及分配鏈路五分鐘進行一次SNMP輪詢核心及分配鏈路上的RMON例外陷阱每五分鐘的使用率為50%通過例外陷阱實現(xiàn)90%的使用率向性能和容量電子郵件別名發(fā)送電子郵件通知安排小組組解決問題或制定升級計劃國內(nèi)WAN鏈路五分鐘進行一次SNMP輪詢每五分鐘的使用率為75% 向性能電子郵件別名發(fā)送電子郵件通知安排工作組評估QoS要求或為重復(fù)出現(xiàn)的故障制定升級計劃外聯(lián)網(wǎng)WAN鏈路五分鐘進行一次SNMP輪

50、詢每五分鐘的使用率為65%向性能和容量電子郵件別名發(fā)送電子郵件通知安排工作組評估QoS要求或為重復(fù)出現(xiàn)的故障制定升級計劃下表給出了設(shè)備容量和性能門限的服務(wù)水平定義,以確保您創(chuàng)建對防止出現(xiàn)網(wǎng)絡(luò)故障或可用性問題有意義、很有用的門限。這是一個非常重要的領(lǐng)域,因為未檢測出的設(shè)備控制板資源問題可對網(wǎng)絡(luò)造成嚴(yán)重影響。設(shè)備主要信息檢測方法門限采取的行動Cisco 7500CPU、內(nèi)存、顯卡五分鐘進行一次SNMP輪詢面向CPU的RMON通知五分鐘內(nèi)的CPU使用率門限是75%,達(dá)到99%時,利用RMON發(fā)出通知五分鐘內(nèi)的內(nèi)存使用率門限是50%、顯卡使用率門限是99%向性能和容量電子郵件別名工作組發(fā)送電子郵件通知

51、以便解決問題或制定升級計劃RMON CPU為99%,發(fā)放故障票并向第2級支持人員發(fā)送尋呼Cisco 2600CPU、內(nèi)存、五分鐘進行一次SNMP輪詢五分鐘內(nèi)的CPU使用率門限是75%五分鐘內(nèi)的內(nèi)存使用率門限是50%向性能和容量電子郵件別名工作組發(fā)送電子郵件通知以便解決問題或制定升級計劃Catalyst?5000背板使用情況、內(nèi)存五分鐘進行一次SNMP輪詢背板使用率門限是50%內(nèi)存使用率門限是75%向性能和容量電子郵件別名工作組發(fā)送電子郵件通知以便解決問題或制定升級計劃LightStream?1010 ATMswitchCPU、內(nèi)存五分鐘進行一次SNMP輪詢CPU使用率門限是65%內(nèi)存使用率門限

52、是50%向性能和容量電子郵件別名工作組發(fā)送電子郵件通知以便解決問題或制定升級計劃下表給出了端到端性能和容量的服務(wù)水平定義。這些門限值一般基于應(yīng)用要求,但也可用于指示某類網(wǎng)絡(luò)性能或容量問題。因為測量網(wǎng)絡(luò)中任意兩點間的性能需要大量資源并會帶來大量的網(wǎng)絡(luò)開銷,所以大多數(shù)有性能服務(wù)水平的公司都只創(chuàng)建少數(shù)性能定義。這些端到端的性能問題也可能出現(xiàn)在鏈路或設(shè)備容量門限中。我們建議根據(jù)地理位置制定一般定義。必要時需添加一些關(guān)鍵站點及鏈路。網(wǎng)絡(luò)領(lǐng)域/媒介測量方法門限采取的行動園區(qū)LAN無不會出現(xiàn)問題很難測量整個LAN基礎(chǔ)設(shè)施始終保證10-毫秒或更短的往返響應(yīng)時間或向性能和容量電子郵件別名工作組發(fā)送電子郵件通知以

53、便解決問題或制定升級計劃國內(nèi)WAN鏈路目前只使用互聯(lián)網(wǎng)監(jiān)視器(IPM)和ICMP回聲完成從SF到NY以及從SF到芝加哥的測量五分鐘內(nèi)平均往返應(yīng)答時間為75-毫秒向性能電子郵件別名工作組發(fā)送電子郵件通知,以便評估 QoS要求或為重復(fù)出現(xiàn)的故障制定升級計劃舊金山到東京目前只使用互聯(lián)網(wǎng)監(jiān)視器(IPM)和ICMP回聲完成從舊金山到布魯塞爾的測量五分鐘內(nèi)平均往返應(yīng)答時間為250-毫秒向性能電子郵件別名工作組發(fā)送電子郵件通知,以便評估 QoS要求或為重復(fù)出現(xiàn)的故障制定升級計劃舊金山到布魯塞爾目前只使用互聯(lián)網(wǎng)監(jiān)視器(IPM)和ICMP回聲完成從舊金山到布魯塞爾的測量五分鐘內(nèi)平均往返應(yīng)答時間為175-毫秒向性

54、能電子郵件別名工作組發(fā)送電子郵件通知,以便評估 QoS要求或為重復(fù)出現(xiàn)的故障制定升級計劃服務(wù)水平定義的最后一個領(lǐng)域是應(yīng)用性能。因為服務(wù)器本身的性能和容量可能是應(yīng)用性能的最大影響因素,所以應(yīng)用性能的服務(wù)水平定義通常由應(yīng)用或服務(wù)器管理部門制定。網(wǎng)絡(luò)公司可通過為應(yīng)用性能創(chuàng)建服務(wù)水平定義獲得巨大收益,因為: 服務(wù)水平定義及測量有助于消除部門間的沖突。 如果已為關(guān)鍵應(yīng)用配置了QoS并將其他話務(wù)視為可選,則每個應(yīng)用的服務(wù)水平定義都非常重要。如果您選擇創(chuàng)建并測量應(yīng)用性能,最好不要測量服務(wù)器本身的性能。這將有助于將網(wǎng)絡(luò)故障與應(yīng)用或服務(wù)器故障區(qū)分開來。使用運行在思科路由器上的探針或系統(tǒng)可用性代理軟件以及控制數(shù)據(jù)

55、包類型及測量頻率的IPM控制。下表給出了用于應(yīng)用性能的簡單服務(wù)水平定義。應(yīng)用測量方法門限采取的行動企業(yè)資源規(guī)劃(ERP)應(yīng)用TCP 端口1529布魯塞爾到SF使用IPM測量端口1529往返性能來完成從布魯塞爾到舊金山的測量,布魯塞爾網(wǎng)關(guān)到SFO網(wǎng)關(guān)2五分鐘內(nèi)平均往返應(yīng)答時間為175-毫秒向性能電子郵件別名工作組發(fā)送電子郵件通知,以便評估問題或為重復(fù)出現(xiàn)的問題制定升級計劃RP應(yīng)用TCP端口1529東京到SF使用IPM測量端口1529往返性能來完成從布魯塞爾到舊金山的測量布魯塞爾網(wǎng)關(guān)到SFO網(wǎng)關(guān)2五分鐘內(nèi)平均往返應(yīng)答時間為200-毫秒向性能電子郵件別名工作組發(fā)送電子郵件通知,以便評估問題或為重復(fù)出

56、現(xiàn)的問題制定升級計劃客戶支持應(yīng)用TCP端口1702悉尼到SF使用IPM測量端口1702往返性能來完成從悉尼到舊金山的測量悉尼網(wǎng)關(guān)到SFO網(wǎng)關(guān)1五分鐘內(nèi)平均往返應(yīng)答時間為250-毫秒向性能電子郵件別名工作組發(fā)送電子郵件通知,以便評估問題或為重復(fù)出現(xiàn)的問題制定升級計劃第6步:收集測定標(biāo)準(zhǔn)和監(jiān)控服務(wù)水平定義本身并無多大價值,只有在企業(yè)收集測定標(biāo)準(zhǔn)和監(jiān)控是否成功時才能體現(xiàn)出價值。在定義關(guān)鍵服務(wù)水平的過程中要定義其測定辦法和匯報方式。測定服務(wù)水平可確定企業(yè)是否在實現(xiàn)目標(biāo),還可以確定導(dǎo)致可用性和性能問題的根本原因。另外,在選擇服務(wù)水平定義的測定方法時,還要考慮到定義的目的。有關(guān)更多信息請參閱“制定和維護服務(wù)水平協(xié)議(SLA)”。監(jiān)控服務(wù)水平需要定期召開總結(jié)會議以對業(yè)務(wù)進行階段性的討論,通常每月召開一次這樣的會議。討論內(nèi)容包括所有測定標(biāo)準(zhǔn)以及這些標(biāo)準(zhǔn)是否與目標(biāo)一致。如果存在不一致,找出問題的根本原因,并進行改進。討論內(nèi)容還應(yīng)包括目前的計劃和具體案例的進展情況。制定和維護服務(wù)水平協(xié)議服務(wù)水平定義是理想的組成部分,因為它有助于在整個企業(yè)范圍內(nèi)建立一個統(tǒng)一的服務(wù)質(zhì)量和提高可用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論