企業(yè)集中監(jiān)控體系思路及架構(gòu)分析_第1頁
企業(yè)集中監(jiān)控體系思路及架構(gòu)分析_第2頁
企業(yè)集中監(jiān)控體系思路及架構(gòu)分析_第3頁
企業(yè)集中監(jiān)控體系思路及架構(gòu)分析_第4頁
企業(yè)集中監(jiān)控體系思路及架構(gòu)分析_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

企業(yè)集中監(jiān)控體系思路及架構(gòu)

【摘要】集中監(jiān)控是一個常見的項目,但需要關(guān)注的是,一方面市場上成熟的監(jiān)控系統(tǒng)很多,不同層面的監(jiān)控工具關(guān)注點又各不一樣,通常很難選擇一個包羅所有能力的監(jiān)控系統(tǒng);另一方面企業(yè)里的監(jiān)控系統(tǒng)經(jīng)過一段時間沉淀,原有監(jiān)控系統(tǒng)最大的價值已經(jīng)不是監(jiān)控系統(tǒng)本身,而是上面的監(jiān)控配置項,事實上很多技術(shù)架構(gòu)及功能并不優(yōu)秀的監(jiān)控系統(tǒng)很難替換的原因就在于此。所以,本文講的集中監(jiān)控不是講一個監(jiān)控系統(tǒng),而站在運(yùn)維組織角度看監(jiān)控體系。所謂“監(jiān)控”,即包括“監(jiān)”+“控”,即應(yīng)該具備對運(yùn)維數(shù)字世界的運(yùn)行情況進(jìn)行感知、決策、應(yīng)急處置的能力,是業(yè)務(wù)連續(xù)性保障能力的基礎(chǔ)。因為要感知,所以監(jiān)控需要具備實時的數(shù)據(jù)采集能力,而監(jiān)控采集的性能、容量、運(yùn)營等數(shù)據(jù)又為智能運(yùn)維提供數(shù)據(jù)資產(chǎn)。由于生產(chǎn)系統(tǒng)運(yùn)行涉及面極廣,監(jiān)控工具很多,企業(yè)很自然的會有合而為一的決策,像集中監(jiān)控就是一個常見的項目。但是,需要關(guān)注的是,一方面市場上成熟的監(jiān)控系統(tǒng)很多,不同層面的監(jiān)控工具關(guān)注點又各不一樣,通常很難選擇一個包羅所有能力的監(jiān)控系統(tǒng);另一方面企業(yè)里的監(jiān)控系統(tǒng)經(jīng)過一段時間沉淀,原有監(jiān)控系統(tǒng)最大的價值已經(jīng)不是監(jiān)控系統(tǒng)本身,而是上面的監(jiān)控配置項,事實上很多技術(shù)架構(gòu)及功能并不優(yōu)秀的監(jiān)控系統(tǒng)很難替換的原因就在于此。所以,本文講的集中監(jiān)控不是講一個監(jiān)控系統(tǒng),而站在運(yùn)維組織角度看監(jiān)控體系。(注:一些細(xì)化內(nèi)容可以參見《監(jiān)控體系建設(shè)》(點擊標(biāo)題可閱讀))1.從飛機(jī)監(jiān)控看運(yùn)維監(jiān)控如果說運(yùn)維行業(yè)工作特點是如履薄冰,那航空公司的運(yùn)維是事關(guān)生死,借鑒航空公司的運(yùn)維方案有助于持續(xù)提升業(yè)務(wù)連續(xù)性保障能力。以監(jiān)控為例,一方面,如果機(jī)組人員遺漏或延遲響應(yīng)監(jiān)控報警,可能會產(chǎn)生災(zāi)難,要求監(jiān)控系統(tǒng)的可靠性,報警的準(zhǔn)確性;另一方面,影響飛行安全的因素很多,不僅包括飛機(jī)自身的設(shè)備可靠性,燃油,氣候,航站樓安排等每一個環(huán)節(jié)都需要監(jiān)控到位,要求監(jiān)控系統(tǒng)覆蓋面;同時,由于事關(guān)生死,監(jiān)控報警響應(yīng)、處理、復(fù)盤的管理得到嚴(yán)格落實。本節(jié)內(nèi)容源于早前看過一篇關(guān)于波音777-200LR飛機(jī)監(jiān)控的貼子,為了實現(xiàn)一架飛機(jī)的監(jiān)控管理,波音777-200LR飛機(jī)部署了超過3000個傳感器,內(nèi)容覆蓋飛機(jī)內(nèi)部設(shè)備、人員操作、外部環(huán)境、燃油等多個維度的監(jiān)控。鑒于監(jiān)控報警的優(yōu)先級不同,對監(jiān)控的信息觸達(dá)與處置方式進(jìn)行分級,以確保監(jiān)控報警信息能夠得到處理。飛機(jī)這種監(jiān)控分級,報警處置要求,以及配套不同級別的提示對于運(yùn)維監(jiān)控體系有借鑒作用。以下摘錄出一些有意思的內(nèi)容。1)報警分級飛機(jī)監(jiān)控系統(tǒng)對不同的監(jiān)控報警劃分了5個級別,每個級別有不同定義,并有多種不同的報警方式。通過報警分級,飛行員或飛機(jī)運(yùn)營人員可以有主次的進(jìn)行針對性處理與決策。5個級別包括:備忘備忘表示飛機(jī)的一種正常狀態(tài),但該狀態(tài)需要機(jī)組知曉,類似于汽車上的大燈遠(yuǎn)光開啟這樣的指示信號。該級別信息通常為白色顯示,無聲音或首次出現(xiàn)時伴隨單次提示音。咨詢咨詢表示飛機(jī)的一種異常狀態(tài),但該狀態(tài)不會立即威脅飛行安全,條件允許時應(yīng)予以關(guān)注。該級別信息通常為黃色顯示,無聲音或首次出現(xiàn)時伴隨單次提示音。警戒警戒表示飛機(jī)出現(xiàn)故障或處于明顯異常狀態(tài),該狀態(tài)正在威脅飛行安全,應(yīng)盡快予以關(guān)注。該級別信息通常為黃色顯示,伴隨連續(xù)諧音警告或嘟嘟聲。告警告警表示飛機(jī)出現(xiàn)嚴(yán)重故障或處于危險狀態(tài),該狀態(tài)已經(jīng)嚴(yán)重威脅飛行安全,必須立即采取措施,否則極可能發(fā)生致命事故。該級別信息通常為紅色顯示,且故障排除前無法清除顯示的內(nèi)容,伴隨不間斷高分貝警告音或語音播報。急迫告警急迫告警表示飛機(jī)出現(xiàn)嚴(yán)重故障且持續(xù)惡化或處于即將發(fā)生致命事故的狀態(tài),必須立即采取措施,否則將不可避免的發(fā)生致命事故。該級別信息通常為紅色顯示,且故障排除前無法清除顯示的內(nèi)容,伴隨不可關(guān)閉的不間斷高分貝警告音或語音播報。注:還有一個維護(hù)級別,但該級別信息主要展示給地勤,起飛后無需關(guān)注,該級別信息通常為白色顯示,無聲音,僅在地面顯示或多功能顯示器選擇維護(hù)頁面時顯示。2)報警觸達(dá)手段注意到上面不同的報警級別,會有一些不同的報警觸達(dá)手段,以【急迫告警】級別為例:“……該級別信息通常為紅色顯示,且故障排除前無法清除顯示的內(nèi)容,伴隨不可關(guān)閉的不間斷高分貝警告音或語音播報?!背松鲜鰣缶|達(dá)手段,飛機(jī)上還有其他觸達(dá)手段,比如在不同面板,通過顏色、聲音等方式進(jìn)行設(shè)計,這些方法對于報警的響應(yīng)處理是一個輔助手段。*PFD顯示:在主飛行儀表上顯示*ND顯示:在導(dǎo)航儀表上顯示*EICAS顯示:在綜合信息儀表上顯示*

其他面板顯示:在飛行管理計算機(jī),備用儀表等其他面板上顯示*

主警報紅:紅色主警報燈亮起*

主警報黃:黃色主警報燈亮起*

專用警報燈:專用于該警報的燈光亮起*

聲音警報:各種聲音效果警報*

語音警報:語音播報的警報*

其他警報:操作桿震動等其他警報方式3)監(jiān)控覆蓋類型飛機(jī)報警來源很多,比如設(shè)備故障、維修不當(dāng)、設(shè)計失誤、航管指揮、天氣、鳥擊、機(jī)員失誤等因素,具體落地到飛機(jī)監(jiān)控覆蓋點包括:*

引氣系統(tǒng)監(jiān)控:引氣系統(tǒng)提供高壓空氣,與增壓,除冰,氣動液壓泵,空調(diào),引氣啟動等系統(tǒng)有關(guān)。*

自動飛行系統(tǒng)監(jiān)控:現(xiàn)代商業(yè)飛行全程95%以上的時間飛機(jī)由自動駕駛系統(tǒng)控制。*

通信系統(tǒng)監(jiān)控:檢測數(shù)字通信方面的問題,主要是天地數(shù)據(jù)鏈。*

電路有關(guān)監(jiān)控:飛機(jī)電力系統(tǒng)十分完善,通常不可能意外斷電,因此警報級別比較一般,所有電力系統(tǒng)的詳細(xì)工作狀態(tài)都可以在電力顯示中查看。*

引擎有關(guān)監(jiān)控:發(fā)動機(jī)可以說是整個飛機(jī)中最重要最昂貴的設(shè)備。*

火警有關(guān)監(jiān)控:駕駛艙可見的火警警報,有些區(qū)域的煙霧和火警警報反應(yīng)在乘務(wù)員面板上。*

飛行操作有關(guān)監(jiān)控:飛行操作系統(tǒng)包括多個擾流板,附翼,襟附翼,方向舵,安定面,升降舵等控制面,和一系列飛行計算機(jī),由于飛行操作系統(tǒng)直接關(guān)乎飛行安全,所以擁有較高的警報級別。*

飛行管理和導(dǎo)航系統(tǒng)監(jiān)控:導(dǎo)航幫助飛機(jī)實現(xiàn)高級自動駕駛,和更高的自動化飛行管理,大幅度降低機(jī)組的工作量。還有其他監(jiān)控分類,比如燃油、液壓、起落架、飛行保護(hù)系統(tǒng)、地形,姿態(tài),風(fēng)切等。我們可以看到飛機(jī)的監(jiān)控包括外部環(huán)境、內(nèi)部核心部件與關(guān)聯(lián)性系統(tǒng)、飛行操作等監(jiān)控,可以看到飛機(jī)監(jiān)控是一個多種監(jiān)控點組合而來。4)監(jiān)控報警信息監(jiān)控報警信息的準(zhǔn)確性、關(guān)鍵信息有效傳遞也很重要,這樣才能增加監(jiān)控報警出現(xiàn)后,處置的高效。以下是兩個咨詢類報警的示例,值得運(yùn)維監(jiān)控報警信息的學(xué)習(xí):“警報名稱:機(jī)組氧氣壓力低警報級別:咨詢警報方式:EICAS顯示:黃CREWOXYGENLOW觸發(fā)邏輯:機(jī)組備用氧氣鋼瓶壓力低補(bǔ)充信息:可在維護(hù)信息顯示中查看詳細(xì)狀況,備用氧氣僅供失壓或駕駛艙煙霧狀態(tài)下使用”“警報名稱:自動駕駛失效警報級別:告警,若在自動著陸系統(tǒng)工作時發(fā)生升級為急迫告警警報方式:EICAS顯示:紅AUTOPILOTDISC,笛聲,主警報紅觸發(fā)邏輯:自動駕駛無法在指令的工作狀態(tài)工作或飛行計算機(jī)正在放棄對飛行的控制權(quán)(包括人工斷開自動駕駛)補(bǔ)充信息:抓住操作桿并按下自動駕駛按鈕可以解除警報轉(zhuǎn)入人工控制(PFD將顯示F/D模式)”5)基于飛機(jī)傳感器數(shù)據(jù)分析更好感知飛機(jī)狀況美國五角大樓根據(jù)數(shù)字孿生理論,從飛機(jī)傳感器采集分析運(yùn)行數(shù)據(jù),構(gòu)建一個數(shù)字孿生飛機(jī)模型,輔助飛機(jī)運(yùn)維人員與飛行員進(jìn)行決策。即從飛機(jī)設(shè)備運(yùn)行數(shù)據(jù)采集起來,記錄實體發(fā)動機(jī)的運(yùn)營商、飛行小時數(shù)、運(yùn)營情況、維修情況等信息,為每臺發(fā)動機(jī)生成數(shù)字孿生模型。采用這種數(shù)字孿生技術(shù)監(jiān)控飛機(jī)發(fā)動機(jī),運(yùn)營人員可以更好分析發(fā)現(xiàn)飛機(jī)運(yùn)行的潛在風(fēng)險,并觸發(fā)異常報警,幫助飛機(jī)運(yùn)維人員更快的發(fā)現(xiàn)問題。從上面飛機(jī)監(jiān)控系統(tǒng),我們可以看到飛機(jī)監(jiān)控系統(tǒng)的設(shè)計,真正落實了監(jiān)控系統(tǒng)的“不漏報、少誤報、高響應(yīng)”基本目標(biāo),并利用數(shù)字孿生這種上帝視角全面觀察飛機(jī)運(yùn)行狀況。匯總一下有以下一些特點:*

外部因素、飛機(jī)設(shè)備、人工操作、自動駕駛、燃油容量等多種因素都可能影響飛機(jī)的正常航行,需要實現(xiàn)多種監(jiān)控策略與手段。*

監(jiān)控報警進(jìn)行了統(tǒng)一匯總,對監(jiān)控報警進(jìn)行分級管理。*

為了讓監(jiān)控報警得到有效處理,提供了多種不同類型的監(jiān)控觸達(dá)方式。*

分析監(jiān)控采集的性能指標(biāo)數(shù)據(jù),可提供運(yùn)行感知、輔助決策的數(shù)據(jù)支撐。*

飛機(jī)監(jiān)控系統(tǒng)與自動化系統(tǒng)相結(jié)合,為飛行決策提供支撐。2.關(guān)于集中監(jiān)控總體思路企業(yè)的生產(chǎn)系統(tǒng)要運(yùn)行良好,需要保證一系列的軟硬件設(shè)施的穩(wěn)定運(yùn)行,比如機(jī)房環(huán)控、網(wǎng)絡(luò)設(shè)施、服務(wù)器設(shè)施、系統(tǒng)軟件、數(shù)據(jù)庫、中間件、應(yīng)用服務(wù),以及交易與客戶體驗層面等等因素都與穩(wěn)定息息相關(guān),經(jīng)過多年的信息化建設(shè),很多公司己針對上述軟硬件設(shè)施配套了多種監(jiān)控手段,但如同其它領(lǐng)域的信息化建設(shè)一樣,運(yùn)維監(jiān)控的信息化建設(shè)中信息孤島,煙囪建設(shè)的問題也比較突出,以下歸納了監(jiān)控工具的一些常見問題:*

缺乏持續(xù)優(yōu)化監(jiān)控體系的機(jī)制,既存在監(jiān)控報警風(fēng)暴、監(jiān)控誤報多的現(xiàn)象,也存在對一些個性化的業(yè)務(wù)缺少監(jiān)控覆蓋,監(jiān)控漏報的情況;*

缺乏統(tǒng)籌建設(shè),監(jiān)控工具重復(fù)建設(shè)情況突出,且工具與工具間缺乏互聯(lián)互通,無法形成互補(bǔ);*

監(jiān)控數(shù)據(jù)的報警事件、性能數(shù)據(jù)集中程度不夠,沒有有效的利用這些數(shù)據(jù)輔助運(yùn)維優(yōu)化工作;由于運(yùn)維涉及的領(lǐng)域越來越多,系統(tǒng)架構(gòu)異構(gòu)情況越來越明顯,沒有哪一個監(jiān)控工具能夠做到一籃子解決方案,往往硬件廠商擅長硬件監(jiān)控,軟件廠商擅長軟件監(jiān)控,DBA擅長數(shù)據(jù)庫監(jiān)控,業(yè)務(wù)運(yùn)維擅長業(yè)務(wù)監(jiān)控、性能分析團(tuán)隊擅長性能體驗監(jiān)控等,基于這個現(xiàn)狀,建議傳統(tǒng)企業(yè)的監(jiān)控平臺規(guī)劃可以用以下幾個思路作為切入點:*

監(jiān)控基本目標(biāo)是“不漏報、少誤報、高響應(yīng)”;*

站在整個運(yùn)維組織看集中監(jiān)控,源端監(jiān)控工具關(guān)注“不漏報、少誤報”,集中監(jiān)控平臺關(guān)注“少誤報、高響應(yīng)”;*

源端監(jiān)控工具采用分層方式,劃分監(jiān)控覆蓋面能力要求;*

集中監(jiān)控平臺整合源端監(jiān)控工具產(chǎn)生的性能指標(biāo)、報警數(shù)據(jù),實現(xiàn)通用的平臺能力;*

基于數(shù)據(jù)驅(qū)動,量化“不漏報、少誤報、高響應(yīng)”指標(biāo),持續(xù)優(yōu)化;*

利用監(jiān)控性能指標(biāo)、報警數(shù)據(jù),與日志、配置、操作、流程等數(shù)據(jù),結(jié)合算法,進(jìn)一步完善“不漏報、少誤報、高響應(yīng)”的目標(biāo);基于上述的監(jiān)控平臺建設(shè)原則,抽象了監(jiān)控能力的整體思路(如下圖),建立以集中監(jiān)控平臺的思路,確保監(jiān)控覆蓋面,完善監(jiān)控工具,豐富監(jiān)控平臺能力,并通過智能化不斷提高監(jiān)控手段.2.1從分層看源端監(jiān)控工具為了便于監(jiān)控工具的管理,做好工具間的整合,需要對監(jiān)控進(jìn)行整合,劃分好具體的監(jiān)控工具所處的作用。但大部分運(yùn)維組織在運(yùn)維體系建設(shè)過程中,通過不斷沉淀,往往有一些深度定制的指標(biāo),在實施運(yùn)維過程中己起著重要作用,短期內(nèi)比較難馬上替換,這些監(jiān)控指標(biāo)分布在不同的監(jiān)控工具。建議采用一種有序整合方式,制定好監(jiān)控能力整合的原則與標(biāo)準(zhǔn),處理好工具替換的過渡方案。要處理好保留哪個工具,引入什么新的工具,需要從監(jiān)控體系上分析監(jiān)控覆蓋面的能力要求,做好分層與具體工具的對應(yīng)關(guān)系。1.監(jiān)控分層架構(gòu)每一層監(jiān)控的監(jiān)控指標(biāo)覆蓋能力需要有所定義,這樣就可以直觀的清楚當(dāng)前監(jiān)控平臺的監(jiān)控能力覆蓋面,才能不斷完善以實現(xiàn)”不漏報“的基本目標(biāo)。以下是每一層指標(biāo)能力的簡述:1)基礎(chǔ)設(shè)施狀態(tài)監(jiān)控包括機(jī)房供電、空調(diào)、網(wǎng)絡(luò)設(shè)備的軟硬件狀態(tài),如設(shè)備狀態(tài)等;性能監(jiān)控包括設(shè)備的性能情況,比如CPU、內(nèi)存大小、session數(shù)量、端口流量包量、內(nèi)存溢出監(jiān)控、內(nèi)存使用率等;網(wǎng)絡(luò)監(jiān)控包括設(shè)備錯包、丟包率,針對網(wǎng)絡(luò)設(shè)備以及網(wǎng)絡(luò)鏈路的探測延時、丟包率監(jiān)控等;容量監(jiān)控包括設(shè)備負(fù)載使用率、專線帶寬使用率、出口流量分布等;由于基礎(chǔ)設(shè)施硬件往往己有設(shè)備健康性的檢測機(jī)制,建議向這類廠商提要求,將設(shè)備的運(yùn)行事件主動送到監(jiān)控平臺整合。2)服務(wù)器層存儲:包括存儲設(shè)備,以及設(shè)備上的硬盤讀寫錯誤、讀寫超時、硬盤掉線、硬盤介質(zhì)錯誤服務(wù)器上的內(nèi)存(內(nèi)存缺失、內(nèi)存配置錯誤、內(nèi)存不可用、內(nèi)存校驗)、網(wǎng)卡(網(wǎng)卡速率;電源:電源電壓、電源模塊是否失效)、風(fēng)扇(風(fēng)扇轉(zhuǎn)速等)、Raid卡(Raid卡電池狀態(tài)、電池老化、電池和緩存是否在位、緩存策略)虛擬機(jī):vcenter狀況等存儲、物理設(shè)備、虛擬機(jī)等建議參考基礎(chǔ)設(shè)施層由廠商主動匯總事件到監(jiān)控平臺,由于容器方面的監(jiān)控工具并不多,則需根據(jù)實際情況選擇是否借鑒開源的工具進(jìn)行自研。3)平臺服務(wù)層平臺服務(wù)層的數(shù)據(jù)主要包括操作系統(tǒng)、中間件、數(shù)據(jù)庫,以及其它開源分布式中間件等工具,這方面包括很多,以操作系統(tǒng)和數(shù)據(jù)庫為例:操作系統(tǒng)的包括:CPU(CPU整體使用率、CPU各核使用率、CPULoad負(fù)載)、內(nèi)存(應(yīng)用內(nèi)存、整體內(nèi)存、Swap等)、磁盤IO(讀寫速率、IOPS、平均等待延時、平均服務(wù)延時等)、網(wǎng)絡(luò)IO(流量、包量、錯包、丟包)、連接(各種狀態(tài)的TCP連接數(shù)等)、進(jìn)程端口存活、文件句柄數(shù)、進(jìn)程數(shù)、內(nèi)網(wǎng)探測延時、丟包率等。數(shù)據(jù)庫的包括:數(shù)據(jù)庫連接數(shù)、低效SQL、索引缺失、并行處理會話數(shù)、緩存命中率、主從延時、鎖狀態(tài)等。容器:容器集群資源負(fù)載,集群基礎(chǔ)組件健康情況,節(jié)點性能監(jiān)控,以及微服務(wù)涉及TPS、QPS、請求熔斷、限流、超時次數(shù)等。另外,隨著開源組件的不斷涌現(xiàn)與應(yīng)用,像分布式數(shù)據(jù)庫中間件、web容器、負(fù)載均衡器、緩存、消息隊列等組件的監(jiān)控覆蓋能力的挑戰(zhàn)越來越大。在分析平臺服務(wù)層性能情況,需要客觀衡量業(yè)務(wù)負(fù)載高低情況,并結(jié)合擴(kuò)縮容調(diào)度,實現(xiàn)業(yè)務(wù)的負(fù)載和成本間的平衡??梢愿鶕?jù)服務(wù)器所在業(yè)務(wù)層級(接入層、邏輯層還是數(shù)據(jù)層)的不同,設(shè)置不同的容量參考指標(biāo)、指標(biāo)參考基準(zhǔn)、指標(biāo)計算規(guī)則、高低負(fù)載判別規(guī)則,設(shè)置業(yè)務(wù)模塊(由相同功能的多個服務(wù)器構(gòu)成的業(yè)務(wù)集群)的擴(kuò)縮容規(guī)則;由系統(tǒng)計算出服務(wù)器、業(yè)務(wù)模塊的負(fù)載情況,決策出是否需要擴(kuò)容或縮容,觸發(fā)業(yè)務(wù)模塊的擴(kuò)縮容操作。隨著云原生架構(gòu)的推進(jìn),平臺之上的應(yīng)用系統(tǒng)架構(gòu)向微服務(wù),容器化演進(jìn),面臨各種不同的公有云/私有云的混合云環(huán)境,以及各種跨云/跨平臺的操作。在以私有云為主的企業(yè)內(nèi),云原生架構(gòu)以容器化為主要表現(xiàn)形式,涉及容器集群資源負(fù)載,集群基礎(chǔ)組件健康情況,節(jié)點性能監(jiān)控,以及微服務(wù)涉及TPS、QPS、請求熔斷、限流、超時次數(shù)等常見微服務(wù)監(jiān)控指標(biāo),鏈路追蹤等數(shù)據(jù)。同時,建議平臺服務(wù)層的監(jiān)控工具主要采用引入更加主流的開源監(jiān)控工具,一方面可以更好的整合外部成熟的監(jiān)控指標(biāo)覆蓋能力,另一方面推動企業(yè)內(nèi)PAAS平臺、DBA、中間件管理員根據(jù)工作情況增加監(jiān)控指標(biāo)覆蓋面。4)應(yīng)用服務(wù)層架構(gòu)的復(fù)雜性,對應(yīng)用服務(wù)的可靠性、穩(wěn)定性、業(yè)務(wù)連續(xù)性帶來挑戰(zhàn),應(yīng)用服務(wù)層監(jiān)控能力建設(shè)是重中之重,包括:服務(wù)可用性監(jiān)控:如服務(wù)、端口是否存在,是否假死等應(yīng)用性能:應(yīng)用處理能力,比如交易量、成功率、失敗率、響應(yīng)率、錯誤數(shù)、實時實例數(shù)、GC次數(shù)、GC耗時、各個內(nèi)存區(qū)域的大小、當(dāng)前線程數(shù)、死鎖線程數(shù)等。調(diào)用跟蹤:請求量、耗時、超時量、拒絕量、URL存活、請求量、耗時、慢SQL次數(shù)、異常次數(shù)和慢調(diào)用次數(shù)等應(yīng)用交易:比如交易主動埋點、交易流水、訂單量、委托量、訪問日志、錯誤日志等應(yīng)用營業(yè)狀態(tài)監(jiān)控:指應(yīng)用的狀態(tài)是否滿足業(yè)務(wù)開業(yè)狀態(tài)5)客戶體驗層比如測速系統(tǒng)以及模擬用戶訪問的方式:以模擬用戶訪問為例,通過模擬用戶訪問業(yè)務(wù)并校驗返回數(shù)據(jù)結(jié)果,監(jiān)測業(yè)務(wù)是否可用、訪問質(zhì)量及性能、邏輯功能正確性的監(jiān)控系統(tǒng)。不僅僅是接入層(網(wǎng)站類業(yè)務(wù)是否能訪問,訪問的速度是否快),業(yè)務(wù)邏輯的驗證就涉及到登錄鑒權(quán)、關(guān)系數(shù)據(jù)自動化獲取等。2.源端監(jiān)控工具能力建設(shè)源端監(jiān)控工具來源很多,可以是主流的專業(yè)監(jiān)控工具,或IAAS層或PAAS層提供的平臺監(jiān)控工具,或應(yīng)用系統(tǒng)供應(yīng)商提供的監(jiān)控工具,或基于日志、NPM、APM,以及基于運(yùn)維數(shù)據(jù)分析平臺等提供的工具或監(jiān)控能力。我個人觀點,如果有人力最好選型更加主流的源端監(jiān)控工具,比如zabbix、open-falcon等,沒人力但有持續(xù)的資金投入則考慮采用成熟廠商的監(jiān)控工具。站在具體的監(jiān)控工具角度看,主要涉及:監(jiān)控性能指標(biāo)數(shù)據(jù)采集、性能指標(biāo)數(shù)據(jù)存儲、報警策略計算、報警事件及應(yīng)急操作行為。監(jiān)控性能指標(biāo)采集主流的方案利用代理在源端采集,這種方案對于監(jiān)控服務(wù)端的管理更加友好,擴(kuò)展性更好。但,由于當(dāng)前系統(tǒng)架構(gòu)越來越復(fù)雜,應(yīng)用服務(wù)層與客戶體驗層監(jiān)控越來越重要,基于日志與鏈路跟蹤的數(shù)據(jù)的采集也顯得尤為重要。性能指標(biāo)數(shù)據(jù)的存儲主要采用時序數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫,以及ES這類用于日志數(shù)據(jù)的存儲。報警策略上,工具已經(jīng)從固定閥值的基礎(chǔ)上增加動態(tài)基線的方法。在源端工具角度看報警事件,主要是監(jiān)控報警是否能夠及時按標(biāo)準(zhǔn)推送到統(tǒng)一的監(jiān)控報警模塊。各專業(yè)條線對各條線的監(jiān)控負(fù)責(zé),他們是最清楚自己需要什么監(jiān)控的團(tuán)隊,各專業(yè)條線對監(jiān)控覆蓋率負(fù)責(zé),監(jiān)控平臺的建設(shè)方負(fù)責(zé)平臺體系的建設(shè),提供基礎(chǔ)技術(shù)支撐。不同的專業(yè)條線、不同的分析技術(shù)可以有不同的監(jiān)控工具,采用這種多點開花的建設(shè)方式更有助于監(jiān)控“面“與”深度“的完善,所有的工具最終需要進(jìn)行標(biāo)準(zhǔn)化工具的整合,主體現(xiàn)在下面的事件整合、性能數(shù)據(jù)整合。2.2統(tǒng)一事件/報警GoogleSRE解密一書中提過(大體意思如下):監(jiān)控應(yīng)該盡可能簡單地把需要人介入或關(guān)注的信息展示給運(yùn)維團(tuán)隊,能通過自動化自愈解決、分析定位過程則不在一級視圖提供。當(dāng)前,能實現(xiàn)自愈的企業(yè)還比較少,或還在摸索建設(shè)過程中,所以如何讓每天產(chǎn)生上億條流水,觸發(fā)上萬次告警條件(同一告警如未解除會持續(xù)不斷觸發(fā)告警條件),來自各種不同工具、不同格式的告警事件以盡可能簡單的方式展示給一線監(jiān)控團(tuán)隊是監(jiān)控平臺需要解決的重要問題。事件整合主要包括以下幾塊:事件匯總:匯總不同層次、不同專業(yè)條線、不同類型事件是監(jiān)控集中管理的基礎(chǔ)。事件收斂:前面提到同一個故障會觸發(fā)多類指標(biāo)的告警,同一個指標(biāo)在故障未解除前也會重復(fù)產(chǎn)生大量的告警事件,如果將全部事件都展示出來,那對于監(jiān)控處理人員將是災(zāi)難性的,所以需要進(jìn)行事件收斂。事件分級:對于不同的事件需要有適當(dāng)層次的事件分級,事件升級的策略。事件分級是將事件當(dāng)前緊急程度進(jìn)行標(biāo)識顯示,事件升級是對于低級的事件當(dāng)達(dá)到一定的程度,比如處理時間過長,則需要進(jìn)行升級。事件分析:事件分析是建立事件的關(guān)聯(lián)關(guān)系,關(guān)聯(lián)分析可以從縱向和橫向關(guān)系進(jìn)行分析,縱向是指從底層的基礎(chǔ)設(shè)施、網(wǎng)絡(luò)、服務(wù)器硬件、虛擬機(jī)/容器、操作系統(tǒng)、中間件、應(yīng)用域、應(yīng)用、交易;橫向是指從當(dāng)前的應(yīng)用節(jié)點、上游服務(wù)器節(jié)點、下游服務(wù)器節(jié)點的交易關(guān)系。事件分析是形成故障樹,自愈的基礎(chǔ)。以下對事件整體解決方案的梳理,包括最底層的集成規(guī)則處理引擎,并在事件數(shù)據(jù)的基礎(chǔ)之上構(gòu)建事件展示、事件操作、事件策略管理、故障定位、故障應(yīng)急、統(tǒng)計分析等場景,詳見下圖:基于上述的事件整合思路,不僅是對各監(jiān)控工具來源的事件進(jìn)行匯總、處理、可視化,同時還需要基于監(jiān)控事件與企業(yè)值班、監(jiān)控響應(yīng)、應(yīng)急等場景整合起來。以下我們對事件豐富、分級與分析做進(jìn)一步介紹。1.事件豐富在建設(shè)監(jiān)控過程中通常會花較多時間在監(jiān)控數(shù)據(jù)采集、數(shù)據(jù)處理、指標(biāo)覆蓋面方面上,也就是“監(jiān)”上面的投入,對于“控”方面的投入較少?!翱亍狈矫娴牡耐度肷偻鶗?dǎo)致監(jiān)控報警后,運(yùn)維人員仍需花很大時間去判斷影響、定位根源、應(yīng)急處理等方面,延誤了故障恢復(fù)的戰(zhàn)機(jī),直接影響應(yīng)用可用性的提高。要做好“控”,事件豐富是關(guān)鍵,事件豐富的廣度與深度則依賴于CMDB的建設(shè)。監(jiān)控系統(tǒng)的事件豐富主要包括事件描述豐富(通過基本信息的豐富、拓?fù)湄S富)、事件現(xiàn)場豐富(基礎(chǔ)層、應(yīng)用可用性、性能、業(yè)務(wù)運(yùn)行指標(biāo)信息豐富)、知識庫豐富,提高運(yùn)維人員分析問題的能力。監(jiān)控事件發(fā)生后,僅僅給出“什么時候,什么資源,出現(xiàn)什么問題”是不夠的,因為運(yùn)維人員還要其它的運(yùn)行數(shù)據(jù)進(jìn)行故障的處理,也就是事件豐富。需要注意的是,事件豐富不能為了豐富而豐富,而是要從事件處理過程中需要的信息進(jìn)行豐富,比如判斷故障影響、問題定位、故障恢復(fù)、故障協(xié)同處理等工作(見下圖)。由于監(jiān)控系統(tǒng)很難覆蓋所有的信息,需要整合其它工具的能力(見上圖思維導(dǎo)圖中的黃色小批注),這些數(shù)據(jù)則需要靠CMDB進(jìn)行整合,關(guān)聯(lián)到同一個事件上來?;谏鲜鏊悸?,對每一個事件進(jìn)行了事件豐富,通過可視化的方式整合監(jiān)控、變更、CMDB等信息,輔助應(yīng)急管理。2.事件分級及事件分析為了規(guī)范化監(jiān)控事件分級,解決每個監(jiān)控工具不同分級方式的現(xiàn)狀,考慮到原有監(jiān)控工具改造的可行性與成功,我們沒有讓源系統(tǒng)進(jìn)行改造,而是選擇在事件集中后,由事件集中管理模塊承擔(dān)事件分級的標(biāo)準(zhǔn)化規(guī)范,比如制定“通知、預(yù)警、告警”三級,分別代表意義:告警:屬于已影響業(yè)務(wù)或可用性的異常事件,需要馬上介入處理(非營業(yè)時間的告警可以是預(yù)警)。預(yù)警:屬于異常事件,這類事件暫時不會有業(yè)務(wù)影響,需要運(yùn)維人員關(guān)注并處理(預(yù)警事件長時間不處理時,會升級為告警)。通知:知會性的監(jiān)控事件,這類監(jiān)控事件通常不是報警,屬于提醒性的消息,比如每天巡檢前發(fā)布某個業(yè)務(wù)系統(tǒng)的登錄量,業(yè)務(wù)量等;有了分級,就要對事件的處理的方式制定策略:微信或短信消息推送:不同級別的監(jiān)控事件,推送人員可以不同;電話撥打:緊急告警或告警事件N分鐘未受理,工具調(diào)用撥打電話接口撥打給負(fù)責(zé)人,負(fù)責(zé)未接電話或N分鐘仍未受理撥打群級經(jīng)理;可視化:通知采用單獨一標(biāo)簽頁,預(yù)警為字體紅色,告警為橙色,緊急告警為紅色;監(jiān)控報警處理時效性公示:對于監(jiān)控事件處理不及時的報警,可以按級別推送到團(tuán)隊的IM群中進(jìn)行公示;另外,需要注意的是上述3級事件根據(jù)受理時間,解決時間將會有升級機(jī)制,不同的級別的事件有不同的事件處理機(jī)制,不同的業(yè)務(wù)期間或非業(yè)務(wù)時段的事件級別或升級機(jī)制可以不同。對于有計劃解決的事件,可以設(shè)置掛起/維護(hù)期,期間如未發(fā)現(xiàn)該指標(biāo)有更快級別事件(或手工設(shè)置掛起期間的升級報警閥值,比如80%的空間報警,設(shè)置在2天內(nèi)95%內(nèi)不報警),不進(jìn)行升級。2.3統(tǒng)一性能指標(biāo)數(shù)據(jù)監(jiān)控事件整合是利用不同監(jiān)控工具已有的事件策略觸發(fā),并根據(jù)配置庫的關(guān)聯(lián),來提高事件的處理效率。在實際運(yùn)維過程中,可能還會遇到一些事件整合無法解決或解決起來費力的情況:*

個別工具的性能指標(biāo)、閥值、基線缺少或不合理導(dǎo)致的事件漏報或誤報的情況;*

個別工具因為工具本身的性能無法設(shè)置更高頻繁的事件監(jiān)測的情況;*

從各個工具間的事件數(shù)據(jù)只能相對表層的關(guān)聯(lián)出事件關(guān)系;*

上層場景化的數(shù)據(jù)消費需要更豐富、更全局的數(shù)據(jù)進(jìn)行整合分析獲得;*

僅有的事件數(shù)據(jù)無法有效的為后續(xù)數(shù)字化、智能化的監(jiān)控平臺提供數(shù)據(jù)基礎(chǔ);針對上面幾個問題,需要將多源頭的性能原始數(shù)據(jù)進(jìn)行數(shù)據(jù)整合,整合為一個事件完整的性能數(shù)據(jù)分布圖,進(jìn)而進(jìn)行監(jiān)控管理。具體來講,性能數(shù)據(jù)整合可集成主流的監(jiān)控數(shù)據(jù)源(如網(wǎng)絡(luò)監(jiān)控、硬件監(jiān)控、存儲監(jiān)控、系統(tǒng)監(jiān)控、應(yīng)用監(jiān)控等等),將各種監(jiān)控數(shù)據(jù)(主動接收的時序數(shù)據(jù),被動獲取的關(guān)系數(shù)據(jù)庫、日志ES數(shù)據(jù)等類型)關(guān)聯(lián)結(jié)合,協(xié)助用戶從業(yè)務(wù)角度、IT服務(wù)角度、資源角度等角度看待監(jiān)控、保障業(yè)務(wù)、優(yōu)化運(yùn)維。為了做到上述的目標(biāo),需有這一個監(jiān)控性能數(shù)據(jù)整合的工具或數(shù)字化平臺中的一個模塊,并具備以下特征:*

基于配置管理*

具備高性能、高可用存儲與計算能力的技術(shù)架構(gòu)*

具備簡約式、可視化的數(shù)據(jù)匯總配置,支持快速落地*

具備擴(kuò)展性的數(shù)據(jù)消費場景能力*

具備與事件整合關(guān)聯(lián)能力2.4監(jiān)控數(shù)據(jù)運(yùn)營在監(jiān)控建設(shè)過程中,很多團(tuán)隊將絕大部份時間放在工具功能的完善上,而未針對監(jiān)控工具使用的持續(xù)改進(jìn)。前面己提到了監(jiān)控平臺建設(shè)基本目標(biāo)是“不漏報、少誤報、高響應(yīng)”,圍繞這個基本目標(biāo),對于我們可以轉(zhuǎn)化為完善“監(jiān)”能力,增加“控”的能力,可以針對不同的階段量化目標(biāo),比如60%告警即故障,80%故障來自監(jiān)控。1、不漏報漏報可以從兩個層面看,一個是監(jiān)控工具不具備某一方面的監(jiān)控能力;一個是監(jiān)控工具具備監(jiān)控能力,但因為使用者使用問題導(dǎo)致未覆蓋監(jiān)控。前者需要完善監(jiān)控能力,比如針對生產(chǎn)故障舉一反三式的優(yōu)化,或由不同專業(yè)條線主動增加監(jiān)控能力,為了支持通用性的監(jiān)控覆蓋能力,我們設(shè)計了一些可定制化的監(jiān)控策略,比如以下這個支持動態(tài)配置SQL的方式,可以讓DBA配置基于數(shù)據(jù)庫層面的監(jiān)控策略,也可以支持業(yè)務(wù)運(yùn)維人員配置業(yè)務(wù)交易情況的策略。對于監(jiān)控使用的運(yùn)維人員漏配置監(jiān)控的問題,工具建設(shè)需要考慮幾個問題:*

管理上有沒有要求指標(biāo)的100%覆

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論