版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、 企業(yè)開源監(jiān)控平臺實踐高可用架構(gòu) 微信號 ArchNotes功能介紹 高可用架構(gòu)公眾號。提起監(jiān)控,相信大家都不陌生。從馬路上的監(jiān)控探頭、手機地圖的實時路況到特斯拉的自動駕駛傳感器,監(jiān)控無處不在。設(shè)想有一天,路上的監(jiān)控攝像頭都消失了,你還放心讓孩子一個人過馬路嗎?IT運維領(lǐng)域也是一樣,為保證系統(tǒng)的正常運行,便于運維人員及時了解當前狀態(tài),必須建設(shè)一套完整的監(jiān)控體系。假設(shè)IT運維沒有監(jiān)控,必然導(dǎo)致事故頻發(fā)(CPU/內(nèi)存使用率、進程狀態(tài)無從知曉)、debug困難(無法定位問題原因)、產(chǎn)品推廣緩慢(用戶指標、實時業(yè)務(wù)無法知曉)。到頭來,怎么死的都不知道!筆者就職于中國人壽數(shù)據(jù)中心,負責智能監(jiān)控系統(tǒng)建設(shè),
2、在長期的工作中對監(jiān)控體系建設(shè)有一些心得體會,愿與大家分享。一、監(jiān)控體系的金字塔結(jié)構(gòu)我們先來談?wù)処T運維的監(jiān)控結(jié)構(gòu)。這里說的IT運維監(jiān)控,是在機房基礎(chǔ)建設(shè)之上的,不包括機房的風、水、電等基礎(chǔ)建設(shè)的監(jiān)控。IT運維監(jiān)控主要分為三大領(lǐng)域:基礎(chǔ)環(huán)境監(jiān)控、安全監(jiān)控、應(yīng)用監(jiān)控?;A(chǔ)環(huán)境監(jiān)控指針對數(shù)據(jù)中心所有運行的服務(wù)器、數(shù)據(jù)庫、存儲、網(wǎng)絡(luò)設(shè)施的運行狀態(tài)的監(jiān)控,如CPU/內(nèi)存/磁盤空間使用率、網(wǎng)絡(luò)延遲、帶寬占用、數(shù)據(jù)庫死鎖、磁盤IOPS等,可理解為IaaS層的監(jiān)控;安全監(jiān)控包括對內(nèi)網(wǎng)用戶訪問的審計和外部攻擊的監(jiān)控等。對于金融企業(yè)而言,信息安全永遠是最重要的話題之一,所以要單獨把安全監(jiān)控列出來,作為單獨的一個領(lǐng)
3、域;應(yīng)用監(jiān)控是在基礎(chǔ)和安全監(jiān)控之上的領(lǐng)域,側(cè)重應(yīng)用系統(tǒng)的運行指標,如訪問量、交易時長、交易占比、業(yè)務(wù)指標等,可理解為PaaS或SaaS層的監(jiān)控。尤其是業(yè)務(wù)指標,每個系統(tǒng)的功能不一樣,有業(yè)務(wù)系統(tǒng)、有客戶服務(wù)系統(tǒng)、有辦公系統(tǒng),關(guān)注的業(yè)務(wù)指標也不一而足。因此,除了些共性的指標,針對每一個應(yīng)用系統(tǒng)設(shè)計不同的監(jiān)控指標,也是一件龐大而復(fù)雜的工作。基礎(chǔ)環(huán)境監(jiān)控、安全監(jiān)控、應(yīng)用監(jiān)控室最主要的三大領(lǐng)域,撐起這些領(lǐng)域的,是廣泛部署的監(jiān)控探針。就像汽車的傳感器,道路的攝像頭一樣,探針作為監(jiān)控系統(tǒng)的末梢,接入大量的被采集服務(wù)器,肩負起了獲取最原始監(jiān)控數(shù)據(jù)的重任。再好的監(jiān)控算法、再牛X的實時計算平臺,若原始數(shù)據(jù)都無法準
4、確、實時獲取,都是白費。很多人問筆者如何衡量一套監(jiān)控系統(tǒng)的好壞,筆者的回答是,先看探針!圖一、監(jiān)控系統(tǒng)的金字塔體系二、智能預(yù)警金字塔頂?shù)拿髦樘结?、三大監(jiān)控領(lǐng)域(基礎(chǔ)環(huán)境、安全、應(yīng)用)共同組成了中國人壽的IT監(jiān)控金字塔體系,不過我們不能忘了,在塔的頂端,還有一個領(lǐng)域,這就是需要著重強調(diào)的智能預(yù)警。前文提到的監(jiān)控,均是在系統(tǒng)發(fā)生故障后或指標達到預(yù)設(shè)的閾值后才發(fā)出告警,閾值是事先固定的,例如java進程down,CPU使用率超過85%等,是一個固定的值,不會隨著系統(tǒng)及時間的變化而變化。固定值會有一個問題:假如我們設(shè)定CPU使用率超過85%就告警,那么請問系統(tǒng)在凌晨沒什么人使用的時候,CPU使用率超過
5、了50%,系統(tǒng)是正常還是異常的?按照固定閾值算法,CPU使用率未超過85%,系統(tǒng)正常,不觸發(fā)告警。但是用常識想一想,業(yè)務(wù)閑時系統(tǒng)的CPU使用率也超過50%,明顯不正常??!這個問題怎么破?有人會說,把告警閾值動態(tài)調(diào)整,閑時設(shè)低一點,忙時設(shè)高一點。這個想法不錯,但是會有兩個問題:1、怎么識別閑時和忙時?2、每個指標都動態(tài)調(diào)整的話,自定義的量太大。所以,智能預(yù)警就非常重要。簡單地說,所謂智能預(yù)警,就是根據(jù)該指標歷史數(shù)據(jù),動態(tài)調(diào)整當前的告警閾值,做到早發(fā)現(xiàn)、早追蹤、早處理。智能預(yù)警引入了時間的維度,利用大數(shù)據(jù)和實時計算技術(shù),將之前幾周甚至幾個月的指標進行聚合計算,得出當前時間的動態(tài)告警閾值,并根據(jù)時間
6、的變化而不斷調(diào)整。如果說監(jiān)控是看現(xiàn)在,那么智能預(yù)警就是觀過去,測未來。別小看智能預(yù)警,中國人壽自主開發(fā)的智能預(yù)警系統(tǒng)“響尾蛇”,在2016年成功預(yù)測了12起潛在的故障,避免了嚴重的生產(chǎn)事故。圖二、中國人壽預(yù)警系統(tǒng)“響尾蛇”智能預(yù)警系統(tǒng)三、監(jiān)控的平臺化思路監(jiān)控系統(tǒng)是一個統(tǒng)一的平臺,其輸入為各種原始監(jiān)控數(shù)據(jù)和配置信息,輸出為各類業(yè)務(wù)和告警信息,監(jiān)控系統(tǒng)負責將輸入數(shù)據(jù)經(jīng)過處理和計算,輸出需要的信息。監(jiān)控系統(tǒng)平臺化架構(gòu)如下圖所示:圖三、監(jiān)控系統(tǒng)的平臺化思路其中輸入的監(jiān)控數(shù)據(jù)可通過本地、遠程或手工錄入的方式獲取,配置信息(服務(wù)器類別、用途、通知人、聯(lián)系方式等)從CMDB獲??;輸出的信息除發(fā)送至短信、郵件
7、系統(tǒng)外,也可以通過REST API供第三方系統(tǒng)調(diào)用,或?qū)幼詣踊\維平臺。平臺化架構(gòu)的優(yōu)勢在于開放。除了監(jiān)控系統(tǒng)配套的探針傳來的數(shù)據(jù),也可以通過API接收合規(guī)的第三方的數(shù)據(jù),大大拓展了監(jiān)控平臺的業(yè)務(wù)場景。四、中國人壽的監(jiān)控選型市場上的監(jiān)控產(chǎn)品種類繁多,收費的有,開源的也有。中國人壽根據(jù)自身特點,結(jié)合長期的運維經(jīng)驗,走出了最適合自身的一條監(jiān)控選型道路?;A(chǔ)環(huán)境監(jiān)控方面,我們選用了zabbix。眾所周知,在開源的服務(wù)器和網(wǎng)絡(luò)監(jiān)控產(chǎn)品中,zabbix是較為突出的一個。它具有自主發(fā)現(xiàn)服務(wù)器、分布式監(jiān)控、可視化配置等功能。同時zabbix社區(qū)會員眾多,一般的問題都可以直接解決。同時,我們針對zabbix
8、進行了二次開發(fā),增加了諸如統(tǒng)一告警頁面、對接cmdb、對接云助理(一款內(nèi)部辦公軟件)等功能。目前zabbix已接入近萬臺服務(wù)器,為中國人壽基礎(chǔ)環(huán)境穩(wěn)定運行提供監(jiān)控保障。安全監(jiān)控方面,我們采用了ELK技術(shù)棧對大量的安全設(shè)備日志進行統(tǒng)一采集和管理。ELK是ElasticSearch、Logstash、Kibana三款開源系統(tǒng)的統(tǒng)稱,其一般作為套件統(tǒng)一使用,提供日志檢索服務(wù)。作為國內(nèi)市值最大的保險集團,我們每天都會受到大量的外部網(wǎng)絡(luò)攻擊,部署的安全設(shè)備每天會生成大量的防護日志。因為品牌不同,日志格式不一致,監(jiān)控界面也不盡相同。因此,我們以ELK為核心,將分布在各品牌安全設(shè)備中的日志統(tǒng)一收集,統(tǒng)一展現(xiàn)
9、,統(tǒng)一管理,提高了公司整體的安全防護能力。圖四、中國人壽安全監(jiān)控“大黃蜂”安全監(jiān)控應(yīng)用監(jiān)控方面,針對不同的業(yè)務(wù)場景,我們選用了兩套不同的方案。對于運維人員,我們采用了和安全監(jiān)控相同的ELK方案,并在此基礎(chǔ)上增加了Filebeat作為agent,采集應(yīng)用系統(tǒng)的access log和server log,并根據(jù)統(tǒng)一模板定制展示。ElasticSearch強大的實時搜索能力可在毫秒內(nèi)搜索上億的業(yè)務(wù)日志信息,為告警和展現(xiàn)提供強有力的引擎支撐。同時,我們也自開發(fā)了遠程采集接口,可以做到無agent監(jiān)控,減少對被管機的壓力。圖五、中國人壽應(yīng)用監(jiān)控“全球鷹”應(yīng)用監(jiān)控(應(yīng)用監(jiān)控界面)針對業(yè)務(wù)管理人員,我們自開發(fā)了業(yè)務(wù)監(jiān)控系統(tǒng),展現(xiàn)渠道保費、區(qū)域分布、用戶數(shù)量、訪問量等信息,便于管理層實時決策;同時大屏監(jiān)控系統(tǒng)在每年開門紅期間(保險業(yè)的“雙十一”)提供強大的業(yè)務(wù)決策支撐。圖六、中國人壽應(yīng)用監(jiān)控“全球
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025中國建筑國際集團校園招聘245人高頻重點提升(共500題)附帶答案詳解
- 2025中國人壽保險股份限公司南漳縣支公司13人(湖北)高頻重點提升(共500題)附帶答案詳解
- 2025下半年重慶酉陽自治縣教育事業(yè)單位招聘125人開考歷年高頻重點提升(共500題)附帶答案詳解
- 2025下半年浙江省舟山市生態(tài)環(huán)境局下屬事業(yè)單位招聘2人歷年高頻重點提升(共500題)附帶答案詳解
- 2025下半年四川省阿壩州事業(yè)單位招聘191人高頻重點提升(共500題)附帶答案詳解
- 2025下半年四川甘孜州事業(yè)單位招聘619人歷年高頻重點提升(共500題)附帶答案詳解
- 2025上海市行政法制研究所研究人員公開招聘歷年高頻重點提升(共500題)附帶答案詳解
- 2025上半年江蘇省南通通州事業(yè)單位招聘78人歷年高頻重點提升(共500題)附帶答案詳解
- 2025上半年四川省資陽安岳縣人力資源和社會保障局考試招聘89人高頻重點提升(共500題)附帶答案詳解
- 2025上半年四川涼山西昌市招聘教師212人高頻重點提升(共500題)附帶答案詳解
- 表5.13.10鋼構(gòu)件(屋架、桁架)組裝工程檢驗批質(zhì)量驗收記錄錄
- 中國文化概要
- 新華制藥內(nèi)部控制管理手冊
- 醫(yī)學(xué)院臨安校區(qū)學(xué)生宿舍家具改造招標文件
- 揮鞭樣損傷描述課件
- 鈷酸鋰結(jié)構(gòu)特性
- 臺州造船行業(yè)產(chǎn)值分析
- 2024年度醫(yī)院兒童保健科醫(yī)務(wù)人員述職報告課件
- 勞動防護用品的使用和維護安全培訓(xùn)
- 23秋國家開放大學(xué)《漢語基礎(chǔ)》期末大作業(yè)(課程論文)參考答案
- 信息技術(shù)與初中語文學(xué)科教學(xué)深度融合的研究
評論
0/150
提交評論