企業(yè)集中監(jiān)控體系思路及架構(gòu)分析_第1頁(yè)
企業(yè)集中監(jiān)控體系思路及架構(gòu)分析_第2頁(yè)
企業(yè)集中監(jiān)控體系思路及架構(gòu)分析_第3頁(yè)
企業(yè)集中監(jiān)控體系思路及架構(gòu)分析_第4頁(yè)
企業(yè)集中監(jiān)控體系思路及架構(gòu)分析_第5頁(yè)
已閱讀5頁(yè),還剩19頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

企業(yè)集中監(jiān)控體系思路及架構(gòu)

【摘要】集中監(jiān)控是一個(gè)常見(jiàn)的項(xiàng)目,但需要關(guān)注的是,一方面市場(chǎng)上成熟的監(jiān)控系統(tǒng)很多,不同層面的監(jiān)控工具關(guān)注點(diǎn)又各不一樣,通常很難選擇一個(gè)包羅所有能力的監(jiān)控系統(tǒng);另一方面企業(yè)里的監(jiān)控系統(tǒng)經(jīng)過(guò)一段時(shí)間沉淀,原有監(jiān)控系統(tǒng)最大的價(jià)值已經(jīng)不是監(jiān)控系統(tǒng)本身,而是上面的監(jiān)控配置項(xiàng),事實(shí)上很多技術(shù)架構(gòu)及功能并不優(yōu)秀的監(jiān)控系統(tǒng)很難替換的原因就在于此。所以,本文講的集中監(jiān)控不是講一個(gè)監(jiān)控系統(tǒng),而站在運(yùn)維組織角度看監(jiān)控體系。所謂“監(jiān)控”,即包括“監(jiān)”+“控”,即應(yīng)該具備對(duì)運(yùn)維數(shù)字世界的運(yùn)行情況進(jìn)行感知、決策、應(yīng)急處置的能力,是業(yè)務(wù)連續(xù)性保障能力的基礎(chǔ)。因?yàn)橐兄员O(jiān)控需要具備實(shí)時(shí)的數(shù)據(jù)采集能力,而監(jiān)控采集的性能、容量、運(yùn)營(yíng)等數(shù)據(jù)又為智能運(yùn)維提供數(shù)據(jù)資產(chǎn)。由于生產(chǎn)系統(tǒng)運(yùn)行涉及面極廣,監(jiān)控工具很多,企業(yè)很自然的會(huì)有合而為一的決策,像集中監(jiān)控就是一個(gè)常見(jiàn)的項(xiàng)目。但是,需要關(guān)注的是,一方面市場(chǎng)上成熟的監(jiān)控系統(tǒng)很多,不同層面的監(jiān)控工具關(guān)注點(diǎn)又各不一樣,通常很難選擇一個(gè)包羅所有能力的監(jiān)控系統(tǒng);另一方面企業(yè)里的監(jiān)控系統(tǒng)經(jīng)過(guò)一段時(shí)間沉淀,原有監(jiān)控系統(tǒng)最大的價(jià)值已經(jīng)不是監(jiān)控系統(tǒng)本身,而是上面的監(jiān)控配置項(xiàng),事實(shí)上很多技術(shù)架構(gòu)及功能并不優(yōu)秀的監(jiān)控系統(tǒng)很難替換的原因就在于此。所以,本文講的集中監(jiān)控不是講一個(gè)監(jiān)控系統(tǒng),而站在運(yùn)維組織角度看監(jiān)控體系。(注:一些細(xì)化內(nèi)容可以參見(jiàn)《監(jiān)控體系建設(shè)》(點(diǎn)擊標(biāo)題可閱讀))1.從飛機(jī)監(jiān)控看運(yùn)維監(jiān)控如果說(shuō)運(yùn)維行業(yè)工作特點(diǎn)是如履薄冰,那航空公司的運(yùn)維是事關(guān)生死,借鑒航空公司的運(yùn)維方案有助于持續(xù)提升業(yè)務(wù)連續(xù)性保障能力。以監(jiān)控為例,一方面,如果機(jī)組人員遺漏或延遲響應(yīng)監(jiān)控報(bào)警,可能會(huì)產(chǎn)生災(zāi)難,要求監(jiān)控系統(tǒng)的可靠性,報(bào)警的準(zhǔn)確性;另一方面,影響飛行安全的因素很多,不僅包括飛機(jī)自身的設(shè)備可靠性,燃油,氣候,航站樓安排等每一個(gè)環(huán)節(jié)都需要監(jiān)控到位,要求監(jiān)控系統(tǒng)覆蓋面;同時(shí),由于事關(guān)生死,監(jiān)控報(bào)警響應(yīng)、處理、復(fù)盤(pán)的管理得到嚴(yán)格落實(shí)。本節(jié)內(nèi)容源于早前看過(guò)一篇關(guān)于波音777-200LR飛機(jī)監(jiān)控的貼子,為了實(shí)現(xiàn)一架飛機(jī)的監(jiān)控管理,波音777-200LR飛機(jī)部署了超過(guò)3000個(gè)傳感器,內(nèi)容覆蓋飛機(jī)內(nèi)部設(shè)備、人員操作、外部環(huán)境、燃油等多個(gè)維度的監(jiān)控。鑒于監(jiān)控報(bào)警的優(yōu)先級(jí)不同,對(duì)監(jiān)控的信息觸達(dá)與處置方式進(jìn)行分級(jí),以確保監(jiān)控報(bào)警信息能夠得到處理。飛機(jī)這種監(jiān)控分級(jí),報(bào)警處置要求,以及配套不同級(jí)別的提示對(duì)于運(yùn)維監(jiān)控體系有借鑒作用。以下摘錄出一些有意思的內(nèi)容。1)報(bào)警分級(jí)飛機(jī)監(jiān)控系統(tǒng)對(duì)不同的監(jiān)控報(bào)警劃分了5個(gè)級(jí)別,每個(gè)級(jí)別有不同定義,并有多種不同的報(bào)警方式。通過(guò)報(bào)警分級(jí),飛行員或飛機(jī)運(yùn)營(yíng)人員可以有主次的進(jìn)行針對(duì)性處理與決策。5個(gè)級(jí)別包括:備忘備忘表示飛機(jī)的一種正常狀態(tài),但該狀態(tài)需要機(jī)組知曉,類似于汽車(chē)上的大燈遠(yuǎn)光開(kāi)啟這樣的指示信號(hào)。該級(jí)別信息通常為白色顯示,無(wú)聲音或首次出現(xiàn)時(shí)伴隨單次提示音。咨詢咨詢表示飛機(jī)的一種異常狀態(tài),但該狀態(tài)不會(huì)立即威脅飛行安全,條件允許時(shí)應(yīng)予以關(guān)注。該級(jí)別信息通常為黃色顯示,無(wú)聲音或首次出現(xiàn)時(shí)伴隨單次提示音。警戒警戒表示飛機(jī)出現(xiàn)故障或處于明顯異常狀態(tài),該狀態(tài)正在威脅飛行安全,應(yīng)盡快予以關(guān)注。該級(jí)別信息通常為黃色顯示,伴隨連續(xù)諧音警告或嘟嘟聲。告警告警表示飛機(jī)出現(xiàn)嚴(yán)重故障或處于危險(xiǎn)狀態(tài),該狀態(tài)已經(jīng)嚴(yán)重威脅飛行安全,必須立即采取措施,否則極可能發(fā)生致命事故。該級(jí)別信息通常為紅色顯示,且故障排除前無(wú)法清除顯示的內(nèi)容,伴隨不間斷高分貝警告音或語(yǔ)音播報(bào)。急迫告警急迫告警表示飛機(jī)出現(xiàn)嚴(yán)重故障且持續(xù)惡化或處于即將發(fā)生致命事故的狀態(tài),必須立即采取措施,否則將不可避免的發(fā)生致命事故。該級(jí)別信息通常為紅色顯示,且故障排除前無(wú)法清除顯示的內(nèi)容,伴隨不可關(guān)閉的不間斷高分貝警告音或語(yǔ)音播報(bào)。注:還有一個(gè)維護(hù)級(jí)別,但該級(jí)別信息主要展示給地勤,起飛后無(wú)需關(guān)注,該級(jí)別信息通常為白色顯示,無(wú)聲音,僅在地面顯示或多功能顯示器選擇維護(hù)頁(yè)面時(shí)顯示。2)報(bào)警觸達(dá)手段注意到上面不同的報(bào)警級(jí)別,會(huì)有一些不同的報(bào)警觸達(dá)手段,以【急迫告警】級(jí)別為例:“……該級(jí)別信息通常為紅色顯示,且故障排除前無(wú)法清除顯示的內(nèi)容,伴隨不可關(guān)閉的不間斷高分貝警告音或語(yǔ)音播報(bào)?!背松鲜鰣?bào)警觸達(dá)手段,飛機(jī)上還有其他觸達(dá)手段,比如在不同面板,通過(guò)顏色、聲音等方式進(jìn)行設(shè)計(jì),這些方法對(duì)于報(bào)警的響應(yīng)處理是一個(gè)輔助手段。*PFD顯示:在主飛行儀表上顯示*ND顯示:在導(dǎo)航儀表上顯示*EICAS顯示:在綜合信息儀表上顯示*

其他面板顯示:在飛行管理計(jì)算機(jī),備用儀表等其他面板上顯示*

主警報(bào)紅:紅色主警報(bào)燈亮起*

主警報(bào)黃:黃色主警報(bào)燈亮起*

專用警報(bào)燈:專用于該警報(bào)的燈光亮起*

聲音警報(bào):各種聲音效果警報(bào)*

語(yǔ)音警報(bào):語(yǔ)音播報(bào)的警報(bào)*

其他警報(bào):操作桿震動(dòng)等其他警報(bào)方式3)監(jiān)控覆蓋類型飛機(jī)報(bào)警來(lái)源很多,比如設(shè)備故障、維修不當(dāng)、設(shè)計(jì)失誤、航管指揮、天氣、鳥(niǎo)擊、機(jī)員失誤等因素,具體落地到飛機(jī)監(jiān)控覆蓋點(diǎn)包括:*

引氣系統(tǒng)監(jiān)控:引氣系統(tǒng)提供高壓空氣,與增壓,除冰,氣動(dòng)液壓泵,空調(diào),引氣啟動(dòng)等系統(tǒng)有關(guān)。*

自動(dòng)飛行系統(tǒng)監(jiān)控:現(xiàn)代商業(yè)飛行全程95%以上的時(shí)間飛機(jī)由自動(dòng)駕駛系統(tǒng)控制。*

通信系統(tǒng)監(jiān)控:檢測(cè)數(shù)字通信方面的問(wèn)題,主要是天地?cái)?shù)據(jù)鏈。*

電路有關(guān)監(jiān)控:飛機(jī)電力系統(tǒng)十分完善,通常不可能意外斷電,因此警報(bào)級(jí)別比較一般,所有電力系統(tǒng)的詳細(xì)工作狀態(tài)都可以在電力顯示中查看。*

引擎有關(guān)監(jiān)控:發(fā)動(dòng)機(jī)可以說(shuō)是整個(gè)飛機(jī)中最重要最昂貴的設(shè)備。*

火警有關(guān)監(jiān)控:駕駛艙可見(jiàn)的火警警報(bào),有些區(qū)域的煙霧和火警警報(bào)反應(yīng)在乘務(wù)員面板上。*

飛行操作有關(guān)監(jiān)控:飛行操作系統(tǒng)包括多個(gè)擾流板,附翼,襟附翼,方向舵,安定面,升降舵等控制面,和一系列飛行計(jì)算機(jī),由于飛行操作系統(tǒng)直接關(guān)乎飛行安全,所以擁有較高的警報(bào)級(jí)別。*

飛行管理和導(dǎo)航系統(tǒng)監(jiān)控:導(dǎo)航幫助飛機(jī)實(shí)現(xiàn)高級(jí)自動(dòng)駕駛,和更高的自動(dòng)化飛行管理,大幅度降低機(jī)組的工作量。還有其他監(jiān)控分類,比如燃油、液壓、起落架、飛行保護(hù)系統(tǒng)、地形,姿態(tài),風(fēng)切等。我們可以看到飛機(jī)的監(jiān)控包括外部環(huán)境、內(nèi)部核心部件與關(guān)聯(lián)性系統(tǒng)、飛行操作等監(jiān)控,可以看到飛機(jī)監(jiān)控是一個(gè)多種監(jiān)控點(diǎn)組合而來(lái)。4)監(jiān)控報(bào)警信息監(jiān)控報(bào)警信息的準(zhǔn)確性、關(guān)鍵信息有效傳遞也很重要,這樣才能增加監(jiān)控報(bào)警出現(xiàn)后,處置的高效。以下是兩個(gè)咨詢類報(bào)警的示例,值得運(yùn)維監(jiān)控報(bào)警信息的學(xué)習(xí):“警報(bào)名稱:機(jī)組氧氣壓力低警報(bào)級(jí)別:咨詢警報(bào)方式:EICAS顯示:黃CREWOXYGENLOW觸發(fā)邏輯:機(jī)組備用氧氣鋼瓶壓力低補(bǔ)充信息:可在維護(hù)信息顯示中查看詳細(xì)狀況,備用氧氣僅供失壓或駕駛艙煙霧狀態(tài)下使用”“警報(bào)名稱:自動(dòng)駕駛失效警報(bào)級(jí)別:告警,若在自動(dòng)著陸系統(tǒng)工作時(shí)發(fā)生升級(jí)為急迫告警警報(bào)方式:EICAS顯示:紅AUTOPILOTDISC,笛聲,主警報(bào)紅觸發(fā)邏輯:自動(dòng)駕駛無(wú)法在指令的工作狀態(tài)工作或飛行計(jì)算機(jī)正在放棄對(duì)飛行的控制權(quán)(包括人工斷開(kāi)自動(dòng)駕駛)補(bǔ)充信息:抓住操作桿并按下自動(dòng)駕駛按鈕可以解除警報(bào)轉(zhuǎn)入人工控制(PFD將顯示F/D模式)”5)基于飛機(jī)傳感器數(shù)據(jù)分析更好感知飛機(jī)狀況美國(guó)五角大樓根據(jù)數(shù)字孿生理論,從飛機(jī)傳感器采集分析運(yùn)行數(shù)據(jù),構(gòu)建一個(gè)數(shù)字孿生飛機(jī)模型,輔助飛機(jī)運(yùn)維人員與飛行員進(jìn)行決策。即從飛機(jī)設(shè)備運(yùn)行數(shù)據(jù)采集起來(lái),記錄實(shí)體發(fā)動(dòng)機(jī)的運(yùn)營(yíng)商、飛行小時(shí)數(shù)、運(yùn)營(yíng)情況、維修情況等信息,為每臺(tái)發(fā)動(dòng)機(jī)生成數(shù)字孿生模型。采用這種數(shù)字孿生技術(shù)監(jiān)控飛機(jī)發(fā)動(dòng)機(jī),運(yùn)營(yíng)人員可以更好分析發(fā)現(xiàn)飛機(jī)運(yùn)行的潛在風(fēng)險(xiǎn),并觸發(fā)異常報(bào)警,幫助飛機(jī)運(yùn)維人員更快的發(fā)現(xiàn)問(wèn)題。從上面飛機(jī)監(jiān)控系統(tǒng),我們可以看到飛機(jī)監(jiān)控系統(tǒng)的設(shè)計(jì),真正落實(shí)了監(jiān)控系統(tǒng)的“不漏報(bào)、少誤報(bào)、高響應(yīng)”基本目標(biāo),并利用數(shù)字孿生這種上帝視角全面觀察飛機(jī)運(yùn)行狀況。匯總一下有以下一些特點(diǎn):*

外部因素、飛機(jī)設(shè)備、人工操作、自動(dòng)駕駛、燃油容量等多種因素都可能影響飛機(jī)的正常航行,需要實(shí)現(xiàn)多種監(jiān)控策略與手段。*

監(jiān)控報(bào)警進(jìn)行了統(tǒng)一匯總,對(duì)監(jiān)控報(bào)警進(jìn)行分級(jí)管理。*

為了讓監(jiān)控報(bào)警得到有效處理,提供了多種不同類型的監(jiān)控觸達(dá)方式。*

分析監(jiān)控采集的性能指標(biāo)數(shù)據(jù),可提供運(yùn)行感知、輔助決策的數(shù)據(jù)支撐。*

飛機(jī)監(jiān)控系統(tǒng)與自動(dòng)化系統(tǒng)相結(jié)合,為飛行決策提供支撐。2.關(guān)于集中監(jiān)控總體思路企業(yè)的生產(chǎn)系統(tǒng)要運(yùn)行良好,需要保證一系列的軟硬件設(shè)施的穩(wěn)定運(yùn)行,比如機(jī)房環(huán)控、網(wǎng)絡(luò)設(shè)施、服務(wù)器設(shè)施、系統(tǒng)軟件、數(shù)據(jù)庫(kù)、中間件、應(yīng)用服務(wù),以及交易與客戶體驗(yàn)層面等等因素都與穩(wěn)定息息相關(guān),經(jīng)過(guò)多年的信息化建設(shè),很多公司己針對(duì)上述軟硬件設(shè)施配套了多種監(jiān)控手段,但如同其它領(lǐng)域的信息化建設(shè)一樣,運(yùn)維監(jiān)控的信息化建設(shè)中信息孤島,煙囪建設(shè)的問(wèn)題也比較突出,以下歸納了監(jiān)控工具的一些常見(jiàn)問(wèn)題:*

缺乏持續(xù)優(yōu)化監(jiān)控體系的機(jī)制,既存在監(jiān)控報(bào)警風(fēng)暴、監(jiān)控誤報(bào)多的現(xiàn)象,也存在對(duì)一些個(gè)性化的業(yè)務(wù)缺少監(jiān)控覆蓋,監(jiān)控漏報(bào)的情況;*

缺乏統(tǒng)籌建設(shè),監(jiān)控工具重復(fù)建設(shè)情況突出,且工具與工具間缺乏互聯(lián)互通,無(wú)法形成互補(bǔ);*

監(jiān)控?cái)?shù)據(jù)的報(bào)警事件、性能數(shù)據(jù)集中程度不夠,沒(méi)有有效的利用這些數(shù)據(jù)輔助運(yùn)維優(yōu)化工作;由于運(yùn)維涉及的領(lǐng)域越來(lái)越多,系統(tǒng)架構(gòu)異構(gòu)情況越來(lái)越明顯,沒(méi)有哪一個(gè)監(jiān)控工具能夠做到一籃子解決方案,往往硬件廠商擅長(zhǎng)硬件監(jiān)控,軟件廠商擅長(zhǎng)軟件監(jiān)控,DBA擅長(zhǎng)數(shù)據(jù)庫(kù)監(jiān)控,業(yè)務(wù)運(yùn)維擅長(zhǎng)業(yè)務(wù)監(jiān)控、性能分析團(tuán)隊(duì)擅長(zhǎng)性能體驗(yàn)監(jiān)控等,基于這個(gè)現(xiàn)狀,建議傳統(tǒng)企業(yè)的監(jiān)控平臺(tái)規(guī)劃可以用以下幾個(gè)思路作為切入點(diǎn):*

監(jiān)控基本目標(biāo)是“不漏報(bào)、少誤報(bào)、高響應(yīng)”;*

站在整個(gè)運(yùn)維組織看集中監(jiān)控,源端監(jiān)控工具關(guān)注“不漏報(bào)、少誤報(bào)”,集中監(jiān)控平臺(tái)關(guān)注“少誤報(bào)、高響應(yīng)”;*

源端監(jiān)控工具采用分層方式,劃分監(jiān)控覆蓋面能力要求;*

集中監(jiān)控平臺(tái)整合源端監(jiān)控工具產(chǎn)生的性能指標(biāo)、報(bào)警數(shù)據(jù),實(shí)現(xiàn)通用的平臺(tái)能力;*

基于數(shù)據(jù)驅(qū)動(dòng),量化“不漏報(bào)、少誤報(bào)、高響應(yīng)”指標(biāo),持續(xù)優(yōu)化;*

利用監(jiān)控性能指標(biāo)、報(bào)警數(shù)據(jù),與日志、配置、操作、流程等數(shù)據(jù),結(jié)合算法,進(jìn)一步完善“不漏報(bào)、少誤報(bào)、高響應(yīng)”的目標(biāo);基于上述的監(jiān)控平臺(tái)建設(shè)原則,抽象了監(jiān)控能力的整體思路(如下圖),建立以集中監(jiān)控平臺(tái)的思路,確保監(jiān)控覆蓋面,完善監(jiān)控工具,豐富監(jiān)控平臺(tái)能力,并通過(guò)智能化不斷提高監(jiān)控手段.2.1從分層看源端監(jiān)控工具為了便于監(jiān)控工具的管理,做好工具間的整合,需要對(duì)監(jiān)控進(jìn)行整合,劃分好具體的監(jiān)控工具所處的作用。但大部分運(yùn)維組織在運(yùn)維體系建設(shè)過(guò)程中,通過(guò)不斷沉淀,往往有一些深度定制的指標(biāo),在實(shí)施運(yùn)維過(guò)程中己起著重要作用,短期內(nèi)比較難馬上替換,這些監(jiān)控指標(biāo)分布在不同的監(jiān)控工具。建議采用一種有序整合方式,制定好監(jiān)控能力整合的原則與標(biāo)準(zhǔn),處理好工具替換的過(guò)渡方案。要處理好保留哪個(gè)工具,引入什么新的工具,需要從監(jiān)控體系上分析監(jiān)控覆蓋面的能力要求,做好分層與具體工具的對(duì)應(yīng)關(guān)系。1.監(jiān)控分層架構(gòu)每一層監(jiān)控的監(jiān)控指標(biāo)覆蓋能力需要有所定義,這樣就可以直觀的清楚當(dāng)前監(jiān)控平臺(tái)的監(jiān)控能力覆蓋面,才能不斷完善以實(shí)現(xiàn)”不漏報(bào)“的基本目標(biāo)。以下是每一層指標(biāo)能力的簡(jiǎn)述:1)基礎(chǔ)設(shè)施狀態(tài)監(jiān)控包括機(jī)房供電、空調(diào)、網(wǎng)絡(luò)設(shè)備的軟硬件狀態(tài),如設(shè)備狀態(tài)等;性能監(jiān)控包括設(shè)備的性能情況,比如CPU、內(nèi)存大小、session數(shù)量、端口流量包量、內(nèi)存溢出監(jiān)控、內(nèi)存使用率等;網(wǎng)絡(luò)監(jiān)控包括設(shè)備錯(cuò)包、丟包率,針對(duì)網(wǎng)絡(luò)設(shè)備以及網(wǎng)絡(luò)鏈路的探測(cè)延時(shí)、丟包率監(jiān)控等;容量監(jiān)控包括設(shè)備負(fù)載使用率、專線帶寬使用率、出口流量分布等;由于基礎(chǔ)設(shè)施硬件往往己有設(shè)備健康性的檢測(cè)機(jī)制,建議向這類廠商提要求,將設(shè)備的運(yùn)行事件主動(dòng)送到監(jiān)控平臺(tái)整合。2)服務(wù)器層存儲(chǔ):包括存儲(chǔ)設(shè)備,以及設(shè)備上的硬盤(pán)讀寫(xiě)錯(cuò)誤、讀寫(xiě)超時(shí)、硬盤(pán)掉線、硬盤(pán)介質(zhì)錯(cuò)誤服務(wù)器上的內(nèi)存(內(nèi)存缺失、內(nèi)存配置錯(cuò)誤、內(nèi)存不可用、內(nèi)存校驗(yàn))、網(wǎng)卡(網(wǎng)卡速率;電源:電源電壓、電源模塊是否失效)、風(fēng)扇(風(fēng)扇轉(zhuǎn)速等)、Raid卡(Raid卡電池狀態(tài)、電池老化、電池和緩存是否在位、緩存策略)虛擬機(jī):vcenter狀況等存儲(chǔ)、物理設(shè)備、虛擬機(jī)等建議參考基礎(chǔ)設(shè)施層由廠商主動(dòng)匯總事件到監(jiān)控平臺(tái),由于容器方面的監(jiān)控工具并不多,則需根據(jù)實(shí)際情況選擇是否借鑒開(kāi)源的工具進(jìn)行自研。3)平臺(tái)服務(wù)層平臺(tái)服務(wù)層的數(shù)據(jù)主要包括操作系統(tǒng)、中間件、數(shù)據(jù)庫(kù),以及其它開(kāi)源分布式中間件等工具,這方面包括很多,以操作系統(tǒng)和數(shù)據(jù)庫(kù)為例:操作系統(tǒng)的包括:CPU(CPU整體使用率、CPU各核使用率、CPULoad負(fù)載)、內(nèi)存(應(yīng)用內(nèi)存、整體內(nèi)存、Swap等)、磁盤(pán)IO(讀寫(xiě)速率、IOPS、平均等待延時(shí)、平均服務(wù)延時(shí)等)、網(wǎng)絡(luò)IO(流量、包量、錯(cuò)包、丟包)、連接(各種狀態(tài)的TCP連接數(shù)等)、進(jìn)程端口存活、文件句柄數(shù)、進(jìn)程數(shù)、內(nèi)網(wǎng)探測(cè)延時(shí)、丟包率等。數(shù)據(jù)庫(kù)的包括:數(shù)據(jù)庫(kù)連接數(shù)、低效SQL、索引缺失、并行處理會(huì)話數(shù)、緩存命中率、主從延時(shí)、鎖狀態(tài)等。容器:容器集群資源負(fù)載,集群基礎(chǔ)組件健康情況,節(jié)點(diǎn)性能監(jiān)控,以及微服務(wù)涉及TPS、QPS、請(qǐng)求熔斷、限流、超時(shí)次數(shù)等。另外,隨著開(kāi)源組件的不斷涌現(xiàn)與應(yīng)用,像分布式數(shù)據(jù)庫(kù)中間件、web容器、負(fù)載均衡器、緩存、消息隊(duì)列等組件的監(jiān)控覆蓋能力的挑戰(zhàn)越來(lái)越大。在分析平臺(tái)服務(wù)層性能情況,需要客觀衡量業(yè)務(wù)負(fù)載高低情況,并結(jié)合擴(kuò)縮容調(diào)度,實(shí)現(xiàn)業(yè)務(wù)的負(fù)載和成本間的平衡??梢愿鶕?jù)服務(wù)器所在業(yè)務(wù)層級(jí)(接入層、邏輯層還是數(shù)據(jù)層)的不同,設(shè)置不同的容量參考指標(biāo)、指標(biāo)參考基準(zhǔn)、指標(biāo)計(jì)算規(guī)則、高低負(fù)載判別規(guī)則,設(shè)置業(yè)務(wù)模塊(由相同功能的多個(gè)服務(wù)器構(gòu)成的業(yè)務(wù)集群)的擴(kuò)縮容規(guī)則;由系統(tǒng)計(jì)算出服務(wù)器、業(yè)務(wù)模塊的負(fù)載情況,決策出是否需要擴(kuò)容或縮容,觸發(fā)業(yè)務(wù)模塊的擴(kuò)縮容操作。隨著云原生架構(gòu)的推進(jìn),平臺(tái)之上的應(yīng)用系統(tǒng)架構(gòu)向微服務(wù),容器化演進(jìn),面臨各種不同的公有云/私有云的混合云環(huán)境,以及各種跨云/跨平臺(tái)的操作。在以私有云為主的企業(yè)內(nèi),云原生架構(gòu)以容器化為主要表現(xiàn)形式,涉及容器集群資源負(fù)載,集群基礎(chǔ)組件健康情況,節(jié)點(diǎn)性能監(jiān)控,以及微服務(wù)涉及TPS、QPS、請(qǐng)求熔斷、限流、超時(shí)次數(shù)等常見(jiàn)微服務(wù)監(jiān)控指標(biāo),鏈路追蹤等數(shù)據(jù)。同時(shí),建議平臺(tái)服務(wù)層的監(jiān)控工具主要采用引入更加主流的開(kāi)源監(jiān)控工具,一方面可以更好的整合外部成熟的監(jiān)控指標(biāo)覆蓋能力,另一方面推動(dòng)企業(yè)內(nèi)PAAS平臺(tái)、DBA、中間件管理員根據(jù)工作情況增加監(jiān)控指標(biāo)覆蓋面。4)應(yīng)用服務(wù)層架構(gòu)的復(fù)雜性,對(duì)應(yīng)用服務(wù)的可靠性、穩(wěn)定性、業(yè)務(wù)連續(xù)性帶來(lái)挑戰(zhàn),應(yīng)用服務(wù)層監(jiān)控能力建設(shè)是重中之重,包括:服務(wù)可用性監(jiān)控:如服務(wù)、端口是否存在,是否假死等應(yīng)用性能:應(yīng)用處理能力,比如交易量、成功率、失敗率、響應(yīng)率、錯(cuò)誤數(shù)、實(shí)時(shí)實(shí)例數(shù)、GC次數(shù)、GC耗時(shí)、各個(gè)內(nèi)存區(qū)域的大小、當(dāng)前線程數(shù)、死鎖線程數(shù)等。調(diào)用跟蹤:請(qǐng)求量、耗時(shí)、超時(shí)量、拒絕量、URL存活、請(qǐng)求量、耗時(shí)、慢SQL次數(shù)、異常次數(shù)和慢調(diào)用次數(shù)等應(yīng)用交易:比如交易主動(dòng)埋點(diǎn)、交易流水、訂單量、委托量、訪問(wèn)日志、錯(cuò)誤日志等應(yīng)用營(yíng)業(yè)狀態(tài)監(jiān)控:指應(yīng)用的狀態(tài)是否滿足業(yè)務(wù)開(kāi)業(yè)狀態(tài)5)客戶體驗(yàn)層比如測(cè)速系統(tǒng)以及模擬用戶訪問(wèn)的方式:以模擬用戶訪問(wèn)為例,通過(guò)模擬用戶訪問(wèn)業(yè)務(wù)并校驗(yàn)返回?cái)?shù)據(jù)結(jié)果,監(jiān)測(cè)業(yè)務(wù)是否可用、訪問(wèn)質(zhì)量及性能、邏輯功能正確性的監(jiān)控系統(tǒng)。不僅僅是接入層(網(wǎng)站類業(yè)務(wù)是否能訪問(wèn),訪問(wèn)的速度是否快),業(yè)務(wù)邏輯的驗(yàn)證就涉及到登錄鑒權(quán)、關(guān)系數(shù)據(jù)自動(dòng)化獲取等。2.源端監(jiān)控工具能力建設(shè)源端監(jiān)控工具來(lái)源很多,可以是主流的專業(yè)監(jiān)控工具,或IAAS層或PAAS層提供的平臺(tái)監(jiān)控工具,或應(yīng)用系統(tǒng)供應(yīng)商提供的監(jiān)控工具,或基于日志、NPM、APM,以及基于運(yùn)維數(shù)據(jù)分析平臺(tái)等提供的工具或監(jiān)控能力。我個(gè)人觀點(diǎn),如果有人力最好選型更加主流的源端監(jiān)控工具,比如zabbix、open-falcon等,沒(méi)人力但有持續(xù)的資金投入則考慮采用成熟廠商的監(jiān)控工具。站在具體的監(jiān)控工具角度看,主要涉及:監(jiān)控性能指標(biāo)數(shù)據(jù)采集、性能指標(biāo)數(shù)據(jù)存儲(chǔ)、報(bào)警策略計(jì)算、報(bào)警事件及應(yīng)急操作行為。監(jiān)控性能指標(biāo)采集主流的方案利用代理在源端采集,這種方案對(duì)于監(jiān)控服務(wù)端的管理更加友好,擴(kuò)展性更好。但,由于當(dāng)前系統(tǒng)架構(gòu)越來(lái)越復(fù)雜,應(yīng)用服務(wù)層與客戶體驗(yàn)層監(jiān)控越來(lái)越重要,基于日志與鏈路跟蹤的數(shù)據(jù)的采集也顯得尤為重要。性能指標(biāo)數(shù)據(jù)的存儲(chǔ)主要采用時(shí)序數(shù)據(jù)庫(kù)、關(guān)系型數(shù)據(jù)庫(kù),以及ES這類用于日志數(shù)據(jù)的存儲(chǔ)。報(bào)警策略上,工具已經(jīng)從固定閥值的基礎(chǔ)上增加動(dòng)態(tài)基線的方法。在源端工具角度看報(bào)警事件,主要是監(jiān)控報(bào)警是否能夠及時(shí)按標(biāo)準(zhǔn)推送到統(tǒng)一的監(jiān)控報(bào)警模塊。各專業(yè)條線對(duì)各條線的監(jiān)控負(fù)責(zé),他們是最清楚自己需要什么監(jiān)控的團(tuán)隊(duì),各專業(yè)條線對(duì)監(jiān)控覆蓋率負(fù)責(zé),監(jiān)控平臺(tái)的建設(shè)方負(fù)責(zé)平臺(tái)體系的建設(shè),提供基礎(chǔ)技術(shù)支撐。不同的專業(yè)條線、不同的分析技術(shù)可以有不同的監(jiān)控工具,采用這種多點(diǎn)開(kāi)花的建設(shè)方式更有助于監(jiān)控“面“與”深度“的完善,所有的工具最終需要進(jìn)行標(biāo)準(zhǔn)化工具的整合,主體現(xiàn)在下面的事件整合、性能數(shù)據(jù)整合。2.2統(tǒng)一事件/報(bào)警GoogleSRE解密一書(shū)中提過(guò)(大體意思如下):監(jiān)控應(yīng)該盡可能簡(jiǎn)單地把需要人介入或關(guān)注的信息展示給運(yùn)維團(tuán)隊(duì),能通過(guò)自動(dòng)化自愈解決、分析定位過(guò)程則不在一級(jí)視圖提供。當(dāng)前,能實(shí)現(xiàn)自愈的企業(yè)還比較少,或還在摸索建設(shè)過(guò)程中,所以如何讓每天產(chǎn)生上億條流水,觸發(fā)上萬(wàn)次告警條件(同一告警如未解除會(huì)持續(xù)不斷觸發(fā)告警條件),來(lái)自各種不同工具、不同格式的告警事件以盡可能簡(jiǎn)單的方式展示給一線監(jiān)控團(tuán)隊(duì)是監(jiān)控平臺(tái)需要解決的重要問(wèn)題。事件整合主要包括以下幾塊:事件匯總:匯總不同層次、不同專業(yè)條線、不同類型事件是監(jiān)控集中管理的基礎(chǔ)。事件收斂:前面提到同一個(gè)故障會(huì)觸發(fā)多類指標(biāo)的告警,同一個(gè)指標(biāo)在故障未解除前也會(huì)重復(fù)產(chǎn)生大量的告警事件,如果將全部事件都展示出來(lái),那對(duì)于監(jiān)控處理人員將是災(zāi)難性的,所以需要進(jìn)行事件收斂。事件分級(jí):對(duì)于不同的事件需要有適當(dāng)層次的事件分級(jí),事件升級(jí)的策略。事件分級(jí)是將事件當(dāng)前緊急程度進(jìn)行標(biāo)識(shí)顯示,事件升級(jí)是對(duì)于低級(jí)的事件當(dāng)達(dá)到一定的程度,比如處理時(shí)間過(guò)長(zhǎng),則需要進(jìn)行升級(jí)。事件分析:事件分析是建立事件的關(guān)聯(lián)關(guān)系,關(guān)聯(lián)分析可以從縱向和橫向關(guān)系進(jìn)行分析,縱向是指從底層的基礎(chǔ)設(shè)施、網(wǎng)絡(luò)、服務(wù)器硬件、虛擬機(jī)/容器、操作系統(tǒng)、中間件、應(yīng)用域、應(yīng)用、交易;橫向是指從當(dāng)前的應(yīng)用節(jié)點(diǎn)、上游服務(wù)器節(jié)點(diǎn)、下游服務(wù)器節(jié)點(diǎn)的交易關(guān)系。事件分析是形成故障樹(shù),自愈的基礎(chǔ)。以下對(duì)事件整體解決方案的梳理,包括最底層的集成規(guī)則處理引擎,并在事件數(shù)據(jù)的基礎(chǔ)之上構(gòu)建事件展示、事件操作、事件策略管理、故障定位、故障應(yīng)急、統(tǒng)計(jì)分析等場(chǎng)景,詳見(jiàn)下圖:基于上述的事件整合思路,不僅是對(duì)各監(jiān)控工具來(lái)源的事件進(jìn)行匯總、處理、可視化,同時(shí)還需要基于監(jiān)控事件與企業(yè)值班、監(jiān)控響應(yīng)、應(yīng)急等場(chǎng)景整合起來(lái)。以下我們對(duì)事件豐富、分級(jí)與分析做進(jìn)一步介紹。1.事件豐富在建設(shè)監(jiān)控過(guò)程中通常會(huì)花較多時(shí)間在監(jiān)控?cái)?shù)據(jù)采集、數(shù)據(jù)處理、指標(biāo)覆蓋面方面上,也就是“監(jiān)”上面的投入,對(duì)于“控”方面的投入較少?!翱亍狈矫娴牡耐度肷偻鶗?huì)導(dǎo)致監(jiān)控報(bào)警后,運(yùn)維人員仍需花很大時(shí)間去判斷影響、定位根源、應(yīng)急處理等方面,延誤了故障恢復(fù)的戰(zhàn)機(jī),直接影響應(yīng)用可用性的提高。要做好“控”,事件豐富是關(guān)鍵,事件豐富的廣度與深度則依賴于CMDB的建設(shè)。監(jiān)控系統(tǒng)的事件豐富主要包括事件描述豐富(通過(guò)基本信息的豐富、拓?fù)湄S富)、事件現(xiàn)場(chǎng)豐富(基礎(chǔ)層、應(yīng)用可用性、性能、業(yè)務(wù)運(yùn)行指標(biāo)信息豐富)、知識(shí)庫(kù)豐富,提高運(yùn)維人員分析問(wèn)題的能力。監(jiān)控事件發(fā)生后,僅僅給出“什么時(shí)候,什么資源,出現(xiàn)什么問(wèn)題”是不夠的,因?yàn)檫\(yùn)維人員還要其它的運(yùn)行數(shù)據(jù)進(jìn)行故障的處理,也就是事件豐富。需要注意的是,事件豐富不能為了豐富而豐富,而是要從事件處理過(guò)程中需要的信息進(jìn)行豐富,比如判斷故障影響、問(wèn)題定位、故障恢復(fù)、故障協(xié)同處理等工作(見(jiàn)下圖)。由于監(jiān)控系統(tǒng)很難覆蓋所有的信息,需要整合其它工具的能力(見(jiàn)上圖思維導(dǎo)圖中的黃色小批注),這些數(shù)據(jù)則需要靠CMDB進(jìn)行整合,關(guān)聯(lián)到同一個(gè)事件上來(lái)。基于上述思路,對(duì)每一個(gè)事件進(jìn)行了事件豐富,通過(guò)可視化的方式整合監(jiān)控、變更、CMDB等信息,輔助應(yīng)急管理。2.事件分級(jí)及事件分析為了規(guī)范化監(jiān)控事件分級(jí),解決每個(gè)監(jiān)控工具不同分級(jí)方式的現(xiàn)狀,考慮到原有監(jiān)控工具改造的可行性與成功,我們沒(méi)有讓源系統(tǒng)進(jìn)行改造,而是選擇在事件集中后,由事件集中管理模塊承擔(dān)事件分級(jí)的標(biāo)準(zhǔn)化規(guī)范,比如制定“通知、預(yù)警、告警”三級(jí),分別代表意義:告警:屬于已影響業(yè)務(wù)或可用性的異常事件,需要馬上介入處理(非營(yíng)業(yè)時(shí)間的告警可以是預(yù)警)。預(yù)警:屬于異常事件,這類事件暫時(shí)不會(huì)有業(yè)務(wù)影響,需要運(yùn)維人員關(guān)注并處理(預(yù)警事件長(zhǎng)時(shí)間不處理時(shí),會(huì)升級(jí)為告警)。通知:知會(huì)性的監(jiān)控事件,這類監(jiān)控事件通常不是報(bào)警,屬于提醒性的消息,比如每天巡檢前發(fā)布某個(gè)業(yè)務(wù)系統(tǒng)的登錄量,業(yè)務(wù)量等;有了分級(jí),就要對(duì)事件的處理的方式制定策略:微信或短信消息推送:不同級(jí)別的監(jiān)控事件,推送人員可以不同;電話撥打:緊急告警或告警事件N分鐘未受理,工具調(diào)用撥打電話接口撥打給負(fù)責(zé)人,負(fù)責(zé)未接電話或N分鐘仍未受理?yè)艽蛉杭?jí)經(jīng)理;可視化:通知采用單獨(dú)一標(biāo)簽頁(yè),預(yù)警為字體紅色,告警為橙色,緊急告警為紅色;監(jiān)控報(bào)警處理時(shí)效性公示:對(duì)于監(jiān)控事件處理不及時(shí)的報(bào)警,可以按級(jí)別推送到團(tuán)隊(duì)的IM群中進(jìn)行公示;另外,需要注意的是上述3級(jí)事件根據(jù)受理時(shí)間,解決時(shí)間將會(huì)有升級(jí)機(jī)制,不同的級(jí)別的事件有不同的事件處理機(jī)制,不同的業(yè)務(wù)期間或非業(yè)務(wù)時(shí)段的事件級(jí)別或升級(jí)機(jī)制可以不同。對(duì)于有計(jì)劃解決的事件,可以設(shè)置掛起/維護(hù)期,期間如未發(fā)現(xiàn)該指標(biāo)有更快級(jí)別事件(或手工設(shè)置掛起期間的升級(jí)報(bào)警閥值,比如80%的空間報(bào)警,設(shè)置在2天內(nèi)95%內(nèi)不報(bào)警),不進(jìn)行升級(jí)。2.3統(tǒng)一性能指標(biāo)數(shù)據(jù)監(jiān)控事件整合是利用不同監(jiān)控工具已有的事件策略觸發(fā),并根據(jù)配置庫(kù)的關(guān)聯(lián),來(lái)提高事件的處理效率。在實(shí)際運(yùn)維過(guò)程中,可能還會(huì)遇到一些事件整合無(wú)法解決或解決起來(lái)費(fèi)力的情況:*

個(gè)別工具的性能指標(biāo)、閥值、基線缺少或不合理導(dǎo)致的事件漏報(bào)或誤報(bào)的情況;*

個(gè)別工具因?yàn)楣ぞ弑旧淼男阅軣o(wú)法設(shè)置更高頻繁的事件監(jiān)測(cè)的情況;*

從各個(gè)工具間的事件數(shù)據(jù)只能相對(duì)表層的關(guān)聯(lián)出事件關(guān)系;*

上層場(chǎng)景化的數(shù)據(jù)消費(fèi)需要更豐富、更全局的數(shù)據(jù)進(jìn)行整合分析獲得;*

僅有的事件數(shù)據(jù)無(wú)法有效的為后續(xù)數(shù)字化、智能化的監(jiān)控平臺(tái)提供數(shù)據(jù)基礎(chǔ);針對(duì)上面幾個(gè)問(wèn)題,需要將多源頭的性能原始數(shù)據(jù)進(jìn)行數(shù)據(jù)整合,整合為一個(gè)事件完整的性能數(shù)據(jù)分布圖,進(jìn)而進(jìn)行監(jiān)控管理。具體來(lái)講,性能數(shù)據(jù)整合可集成主流的監(jiān)控?cái)?shù)據(jù)源(如網(wǎng)絡(luò)監(jiān)控、硬件監(jiān)控、存儲(chǔ)監(jiān)控、系統(tǒng)監(jiān)控、應(yīng)用監(jiān)控等等),將各種監(jiān)控?cái)?shù)據(jù)(主動(dòng)接收的時(shí)序數(shù)據(jù),被動(dòng)獲取的關(guān)系數(shù)據(jù)庫(kù)、日志ES數(shù)據(jù)等類型)關(guān)聯(lián)結(jié)合,協(xié)助用戶從業(yè)務(wù)角度、IT服務(wù)角度、資源角度等角度看待監(jiān)控、保障業(yè)務(wù)、優(yōu)化運(yùn)維。為了做到上述的目標(biāo),需有這一個(gè)監(jiān)控性能數(shù)據(jù)整合的工具或數(shù)字化平臺(tái)中的一個(gè)模塊,并具備以下特征:*

基于配置管理*

具備高性能、高可用存儲(chǔ)與計(jì)算能力的技術(shù)架構(gòu)*

具備簡(jiǎn)約式、可視化的數(shù)據(jù)匯總配置,支持快速落地*

具備擴(kuò)展性的數(shù)據(jù)消費(fèi)場(chǎng)景能力*

具備與事件整合關(guān)聯(lián)能力2.4監(jiān)控?cái)?shù)據(jù)運(yùn)營(yíng)在監(jiān)控建設(shè)過(guò)程中,很多團(tuán)隊(duì)將絕大部份時(shí)間放在工具功能的完善上,而未針對(duì)監(jiān)控工具使用的持續(xù)改進(jìn)。前面己提到了監(jiān)控平臺(tái)建設(shè)基本目標(biāo)是“不漏報(bào)、少誤報(bào)、高響應(yīng)”,圍繞這個(gè)基本目標(biāo),對(duì)于我們可以轉(zhuǎn)化為完善“監(jiān)”能力,增加“控”的能力,可以針對(duì)不同的階段量化目標(biāo),比如60%告警即故障,80%故障來(lái)自監(jiān)控。1、不漏報(bào)漏報(bào)可以從兩個(gè)層面看,一個(gè)是監(jiān)控工具不具備某一方面的監(jiān)控能力;一個(gè)是監(jiān)控工具具備監(jiān)控能力,但因?yàn)槭褂谜呤褂脝?wèn)題導(dǎo)致未覆蓋監(jiān)控。前者需要完善監(jiān)控能力,比如針對(duì)生產(chǎn)故障舉一反三式的優(yōu)化,或由不同專業(yè)條線主動(dòng)增加監(jiān)控能力,為了支持通用性的監(jiān)控覆蓋能力,我們?cè)O(shè)計(jì)了一些可定制化的監(jiān)控策略,比如以下這個(gè)支持動(dòng)態(tài)配置SQL的方式,可以讓DBA配置基于數(shù)據(jù)庫(kù)層面的監(jiān)控策略,也可以支持業(yè)務(wù)運(yùn)維人員配置業(yè)務(wù)交易情況的策略。對(duì)于監(jiān)控使用的運(yùn)維人員漏配置監(jiān)控的問(wèn)題,工具建設(shè)需要考慮幾個(gè)問(wèn)題:*

管理上有沒(méi)有要求指標(biāo)的100%覆

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論