版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、技術(shù)創(chuàng)新,變革未來MySQL集群告警系統(tǒng)設(shè)計一. 告警的選型二. Alertmanager的實現(xiàn) 三. Alertmanager的實踐錄CONTENTS告警的選型告警需求方案選型告警的對接告警的收斂告警的可用性告警需求多樣的告警源多樣的告警目標告警需求-告警的對接告警短信多關(guān)聯(lián)告警多運維期間不希望收到告警告警需求-告警的收斂告警系統(tǒng)的高可用隔離的故障域告警需求-告警的可用性告警需求方案選型告警的選型PrometheusZabbix Open-falcon方案選型-備選方案告警的對接告警源告警目標Zabbix多通道多通道Open-falcon多通道多通道Prometheus多通道多通道方案選型-
2、方案對比告警的收斂收斂通知次數(shù)Zabbix無支持Open-falcon簡單收斂支持Prometheus靈活規(guī)則不支持方案選型-方案對比告警的可用性故障域HAZabbix大單點Open-falcon小單點Prometheus小HA方案選型-方案對比其他配置語言Zabbix基于模版C+Open-falcon基于模版Go/PythonPrometheus樹形結(jié)構(gòu)Go方案選型-方案對比告警選型的背景-方案選型zabbixopen-falconprometheus監(jiān)控對象主要監(jiān)控集群主要監(jiān)控集群主要監(jiān)控集群可擴展性分層設(shè)計,可擴展分層設(shè)計,可擴展分層設(shè)計,可擴展告警支持告警支持告警支持(監(jiān)控告警項目分離
3、)監(jiān)控數(shù)據(jù)存儲MySQLPGMySQL+Redis+OpentsdbOpentsdb監(jiān)控節(jié)點規(guī)模1000+1000+1000+編程語言C+Go+PythonGo優(yōu)點1.成熟穩(wěn)定,應用廣泛2.部署簡單,運維方便3.圖形化配置1.架構(gòu)無單點2.微服務設(shè)計思路3.時序存儲4.支持grafana等多種展示方 式1.客戶端豐富 2.google系,社區(qū)熱度大3.容器監(jiān)控方案4.支持grafana等多種展示方 式缺點1.關(guān)系型存儲,集群大容易 卡慢2.沒有告警收斂1.項目時間短,社區(qū)穩(wěn)定性 考驗2.架構(gòu)復雜,運維成本大1.文檔相對缺位2.監(jiān)控數(shù)據(jù)保留時間短場景中型規(guī)模,私有云中大型規(guī)模,私有云中大型規(guī)模,
4、私有云、容器一.告警的選型二.Alertmanager的實現(xiàn) 三.Alertmanager的實踐錄CONTENTSAlertmanager的實現(xiàn)架構(gòu)對接收斂配置可 用 性Alertmanager的實現(xiàn)-架構(gòu)Alertmanager的實現(xiàn)-架構(gòu)Alertmanager的實現(xiàn)-架構(gòu)Alertmanager的實現(xiàn)架構(gòu)對接收斂配置可 用 性Alertmanager的實現(xiàn)-對接告警對接時需要滿足什么要求?接收不同告警源發(fā)送的告警將不同的告警發(fā)往不同的接收者PrometheusAlert generatorAlertmanagersmtpwechatAPIwebhookAlertmanager的實現(xiàn)-對接
5、接收HTTP API(/api/v1/alerts)發(fā)送# The unique name of the receiver. name: # Configurations for several notification integrations. - , . - , . - , . email_configs: webhook_configs: wechat_configs:Alertmanager的實現(xiàn)架構(gòu)對接收斂配置可 用 性Alertmanager的實現(xiàn)-收斂分組抑制靜默延時Alertmanager的實現(xiàn)-分組減少告警消息的數(shù)量同類告警的聚合幫助運維排查問題一堆關(guān)于MySQL的告警實例
6、1的告警實例2的告警郵件1郵件2Alertmanager的實現(xiàn)-分組alertname=mysql_cpu_high id=mysql-A alertname=mysql_uptime id=mysql-B alertname=mysql_slave_sql_thread_downid=mysql-Balertname=mysql_slave_io_thread_down id=mysql-Balertname=mysql_cpu_high id=mysql-A alertname=mysql_uptime id=mysql-B alertname=mysql_slave_sql_thread
7、_downid=mysql-Balertname=mysql_slave_io_thread_down id=mysql-Bgroup_by: idAlertmanager的實現(xiàn)-收斂分組抑制靜默延時消除了冗余的告警Alertmanager的實現(xiàn)-抑制主機1掛掉主機1的MySQL服務掛掉主機1掛掉alertname=mysql_uptime server=server-A alertname=server_uptime server=server-A alertname=server_uptime server=server-A server_uptime 抑制mysql_uptimeAler
8、tmanager的實現(xiàn)-抑制Alertmanager的實現(xiàn)-收斂分組抑制靜默延時Alertmanager的實現(xiàn)-靜默阻止發(fā)送可預期的告警一堆的告警(實例1,實例2,實例3)靜默實例1一堆的告警(實例2,實例3)alertname=qps_more_than_3000 id=mysql-A alertname=tps_more_than_2000 id=mysql-A alertname=thread_running_more_than_200 id=mysql-A alertname=thread_running_more_than_200 id=mysql-B”靜默mysql-A的告警ale
9、rtname=thread_running_more_than_20 id=mysql- B”Alertmanager的實現(xiàn)-靜默Alertmanager的實現(xiàn)-收斂分組抑制靜默延時Alertmanager的實現(xiàn)-延時不希望頻繁的收到重復的告警消息怎么辦?Repeat interval需要及時發(fā)送告警消息?Group interval故障剛發(fā)生時,接連收到幾個告警消息怎么辦?Group waitAlertmanager的實現(xiàn)架構(gòu)對接收斂配置可 用 性分組A:a1,a2,a3 分組B:b1,b2a1a2a1a2Group wait:5sGroup interval:5mRepeat interv
10、al:60ma1a2a1a25s5m55mb1b2b1b2b1b2Alertmanager的實現(xiàn)-告警收斂5sa1a2 a1a25mb1b260mb1b25ma1a2 a35sa1a2a1a2 a3a1a2 a355ma1a2a3使用樹形的路由配置,每個節(jié)點都定義了路 由規(guī)則,匹配路由規(guī)則的告警都發(fā)往同一個 接收者匹配條件接收者id=.+默認負責人id=mongo-a-zA-z0-9+MongoDB運維id=mysql-a-zA-Z0-9+MySQL運維group=group1業(yè)務1負責人group=group2業(yè)務2負責人Alertmanager的實現(xiàn)-配置route:receiver: d
11、efault-receiver group_wait: 5s group_interval: 5mrepeat_interval: 1h group_by: db_type routes:receiver: mongo_ops_receiver group_wait: 10smatch_re:service: mongo-a-zA-Z0-9+receiver: mysql_ops_receiver group_by: mysql_idmatch:group:group1Alertmanager的實現(xiàn)-配置Alertmanager的實現(xiàn)架構(gòu)對接收斂配置可 用 性microservice1micr
12、oservice2microservice3microservice1microservice2microservice3prometheusprometheusalertmanageralertmanagerGossipAlertmanager的實現(xiàn)-可用性一.告警的選型二.Alertmanager的實現(xiàn) 三.Alertmanager的實踐錄CONTENTSAlertmanager的實踐架構(gòu)調(diào)度層級SREalertmanagerWechatEmail管理界面分組/抑制/收斂顯示核心區(qū)HAagentagent采集采集MySQLMySQLMongo受管區(qū)APIprometheusAlertmanager的實踐-架構(gòu)Alertmanager的實踐架構(gòu)調(diào)度層級SREAlertmanager的實踐-調(diào)度層級監(jiān)控管理端監(jiān)控客戶端受管服務opsAlertmanagerPrometheuseAlertmanager的實踐架構(gòu)調(diào)度層級SREAlertmanager的實踐-SREGoogle SRE 對監(jiān)控系統(tǒng)的建議報警信息應由系統(tǒng)自動解決,僅當需要的時候才通知用戶收到報警的用戶需要立即執(zhí)行某種操作,以解決已發(fā)生的 問題或避免即將發(fā)生的問題A
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 個體單位勞動合同范例
- 安全防范合同范例
- 商務銷售服務合同范例
- 果園轉(zhuǎn)讓定金合同范例
- 勞務掛靠付款合同范例
- 平臺建設(shè)用料采購合同范例
- 智能影音購銷合同范例
- 攝影技術(shù)加盟合同范例
- 單身房東租房合同范例
- 人力搬運合同范例
- 部編版歷史九年級上冊第六單元 第17課君主立憲制的英國【課件】y
- 2024年《建筑設(shè)備安裝》復習考試題庫及答案(含各題型)
- 2024政府采購評審專家考試題庫附含答案
- 2022年內(nèi)蒙古導游資格考試(含各科)題庫(含答案和必背題)
- 道路清掃環(huán)衛(wèi)報價方案
- 第24課《穿井得一人》公開課一等獎創(chuàng)新教學設(shè)計 統(tǒng)編版語文七年級上冊
- 廣告創(chuàng)意與品牌宣傳考核試卷
- 提高吸入劑使用正確率品管圈成果匯報
- 《2025年日歷》電子版模板年歷月歷工作學習計劃橫版 日歷計劃
- 保安保潔保障人員院感培訓
- 會議接待擺臺培訓
評論
0/150
提交評論