




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2025數(shù)據(jù)驅(qū)動(dòng)的智能運(yùn)維SA,
SE,
OP,
DevOps,SRE?所以,你如何DevOps-ing?用這些DevOps-ready工具?所以,你如何DevOps-ing?還是自動(dòng)化、自動(dòng)化、自動(dòng)化?70%的微博故障原因是變更操作!你呢?數(shù)據(jù)驅(qū)動(dòng)的運(yùn)維操作我們需要充分的數(shù)據(jù)來(lái)證明,下一步變更是有必要的,安全的?,F(xiàn)在,請(qǐng)出示你的:alertsreportsmetricsexceptions…數(shù)據(jù)驅(qū)動(dòng)的運(yùn)維操作監(jiān)控軟件大多是采樣式的。采樣意味著監(jiān)控的評(píng)定是一種模糊估算,是去除了細(xì)節(jié)的大趨勢(shì)上的判斷。在通過(guò)監(jiān)控做到了總體穩(wěn)定的初級(jí)目標(biāo)以后,有必要通過(guò)全量數(shù)據(jù)分析的方式,對(duì)細(xì)節(jié)做更明確、更高效的診斷和優(yōu)化。隨著技術(shù)的發(fā)展,大數(shù)據(jù)的興起,靠數(shù)據(jù)來(lái)驅(qū)動(dòng)運(yùn)維,也成為可能。如何驅(qū)動(dòng)?Gartner2016.04:2019年,全球有25%的企業(yè)將搭建好自己的AIOps平臺(tái),而這個(gè)數(shù)字目前是不到5%。What's
inside
AIOps?三大作用:更靈活、更易用的訪問(wèn)和分析數(shù)據(jù);能分析過(guò)去散落在各組件中未利用上的業(yè)務(wù)數(shù)據(jù)和上下文;快速的探索和實(shí)驗(yàn)平臺(tái),提供獨(dú)特的洞擦力What's
inside
AIOps?『隨著日志文件的容量和類(lèi)型的增長(zhǎng),對(duì)日志數(shù)據(jù)進(jìn)行分析、追蹤潛在的問(wèn)題、發(fā)現(xiàn)錯(cuò)誤變得越來(lái)越難,尤其是在多日志相關(guān)性分析出現(xiàn)之后。即便在最佳狀態(tài)下,也需要經(jīng)驗(yàn)豐富的操作人員跟蹤事件鏈、過(guò)濾噪音,并最終診斷出導(dǎo)致復(fù)雜問(wèn)題產(chǎn)生的根本原因』--埃森哲咨詢What's
inside
AIOps?兩個(gè)方向:大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù),實(shí)現(xiàn)以數(shù)據(jù)為中心的可用性和性能分析;將以數(shù)據(jù)為中心的的方法擴(kuò)展到其他ITOA學(xué)科,比如SIEM和業(yè)務(wù)分析。What's
inside
AIOps?從『系統(tǒng)組成』看AIOps架構(gòu):數(shù)據(jù)湖、自動(dòng)化系統(tǒng)、記錄系統(tǒng)、交互系統(tǒng)和監(jiān)控生態(tài)圈What's
inside
AIOps?監(jiān)控系統(tǒng):硬件和虛擬平臺(tái)的檢測(cè),管理服務(wù)質(zhì)量;(StatsD,CollectD)記錄系統(tǒng):問(wèn)題記錄和知識(shí)庫(kù)積累,并與CMDB關(guān)聯(lián);(Jira,GitLab)自動(dòng)化系統(tǒng):自動(dòng)執(zhí)行固化事件的解決腳本;(Puppet,Saltstack,Ansible)交互系統(tǒng):降噪和實(shí)時(shí)分發(fā)信息到真正負(fù)責(zé)的人,以及一些早期檢測(cè)和修復(fù);(Nagios,Zabbix,Zenoss)數(shù)據(jù)湖:診斷、即時(shí)圖表和儀表盤(pán)。保存你所有可能會(huì)用到的日志,用于深度分析What's
inside
AIOps?從『數(shù)據(jù)流向』看AIOps架構(gòu):采集、存儲(chǔ)、分析、可視化。數(shù)據(jù)接入動(dòng)態(tài)的知識(shí)積累儀表盤(pán)動(dòng)態(tài)鉆取流程設(shè)計(jì),幫助無(wú)場(chǎng)景知識(shí)積累的人快速了解事件根源。告警交互系統(tǒng)"Alertmanager
...
takes
care
of
deduplicating,
grouping,and
routingthem
to
the
correct
receiver
integrations
such
as
email,
PagerDuty,or
OpsGenie.
It
also
takes
care
of
silencingand
inhibitionof
alerts."--
prometheus.io告警交互系統(tǒng)擴(kuò)展搜索風(fēng)暴靜默模板渲染告警交互系統(tǒng)有一個(gè)spl告警,告警名稱為『?jiǎn)斡蛎骄憫?yīng)時(shí)間大于
2s』,搜索條件是:*
|
bucket
timestamp
span=1h
as
ts|
stats
avg(request_time)as
avg_
by
domain,ts。觸發(fā)條
件為avg_大于2。這時(shí)候我想著如果能在告警出來(lái)的時(shí)候,順帶把
request_time:>10ANDupstream_resp_time:<1的部分日志也附帶上,可能會(huì)更有助于我們判斷故障。我們可以把這個(gè)搜索也保存下來(lái),然后在『擴(kuò)展搜索』上選擇這個(gè)搜索。然后填寫(xiě)這樣的告警郵件內(nèi)容模板:郵件內(nèi)容的django模板告警名稱:{{}}<br>觸發(fā)條件:{{
pare_desc_text
}}<br>可能導(dǎo)致本次服務(wù)異常的可疑訪問(wèn)如下:{%
for
hit
in
alert.result.extend_hits
%}{{
hit.raw_message
}}
<br>{%
endfor
%}建議您優(yōu)先排查這部分。郵件內(nèi)容告警名稱:?jiǎn)斡蛎骄憫?yīng)時(shí)間大于2s觸發(fā)條件:avg_的值大于2可能導(dǎo)致本次服務(wù)異常的可疑訪問(wèn)如下:24
-
-
[15/Jun/2016:14:21:06.588
+0800]"GET/index/login/
HTTP/1.1"
200
1938
"-"
"-"
"-"
13.21
0.03024
-
-
[15/Jun/2016:14:21:06.588
+0800]"GET/index.jsp
HTTP/1.1"
200
10326
"-"
"-"
"-"
10.22
0.30124
-
-
[15/Jun/2016:14:21:06.588
+0800]"GET/index/login/
HTTP/1.1"
200
1938
"-"
"-"
"-"
14.20
0.103建議您優(yōu)先排查這部分。智能運(yùn)維平臺(tái)實(shí)現(xiàn)要點(diǎn)非結(jié)構(gòu)化數(shù)據(jù)的處理多模塊關(guān)聯(lián)追蹤分析動(dòng)態(tài)閾值的異常檢測(cè)平臺(tái)服務(wù)的資源管控非結(jié)構(gòu)化數(shù)據(jù)的處理平臺(tái)運(yùn)維≠業(yè)務(wù)模塊開(kāi)發(fā)。90%的日志不會(huì)結(jié)構(gòu)化非結(jié)構(gòu)化數(shù)據(jù)的處理鼠標(biāo)拖拽命名,通過(guò)機(jī)器學(xué)習(xí)算法自動(dòng)生成正則非結(jié)構(gòu)化數(shù)據(jù)的處理古典方案:Hadoop的MapReduce離線批處理現(xiàn)代方案:ELK的預(yù)先處理,將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變?yōu)榘胱杂傻慕Y(jié)構(gòu)化數(shù)據(jù)后現(xiàn)代方案:在搜索運(yùn)行時(shí),對(duì)非結(jié)構(gòu)化數(shù)據(jù)做臨時(shí)性的必要結(jié)構(gòu)化處理統(tǒng)計(jì)非結(jié)構(gòu)化數(shù)據(jù)的處理查詢時(shí)字段的提取和統(tǒng)計(jì)非結(jié)構(gòu)化數(shù)據(jù)的處理矛盾:剛剛用算法避免了用戶學(xué)正則,轉(zhuǎn)身又還是要用戶在搜索的時(shí)候手寫(xiě)正則來(lái)提取了?解決辦法:通過(guò)算法生成的正則,自動(dòng)運(yùn)用到用戶搜索的數(shù)據(jù)上?難點(diǎn):正則的質(zhì)量無(wú)法保證。性能性能性能!重說(shuō)三……多模塊下的關(guān)聯(lián)分析幸運(yùn)的人:統(tǒng)一框架下,依賴于基礎(chǔ)庫(kù)的改造,實(shí)現(xiàn)比較方便的全局唯一ID關(guān)聯(lián);不幸的人:別說(shuō)多模塊之間的調(diào)用關(guān)系,連自己調(diào)用的模塊誰(shuí)寫(xiě)的都不清楚。誰(shuí)給你加ID?多模塊下的關(guān)聯(lián)分析{"timestamp":1491985634000,
"sid":1,
"module":"a"}{"timestamp":1491985634000,
"sid":2,
"module":"a"}{"timestamp":1491985634002,
"sid":1,
"module":"b"}{"timestamp":1491985634003,
"sid":1,
"module":"c"}{"timestamp":1491985634003,
"sid":2,
"module":"c"}{"timestamp":1491985634004,
"sid":3,
"module":"a"}{"timestamp":1491985634005,
"sid":3,
"module":"b"}通過(guò)聚類(lèi)模式,將時(shí)序數(shù)據(jù)經(jīng)過(guò)多ID串聯(lián),找到復(fù)雜拓?fù)湎碌恼?qǐng)求鏈關(guān)聯(lián)。多模塊關(guān)聯(lián)分析可視化基于聚類(lèi)算法的RCA對(duì)不同系統(tǒng)的相關(guān)性,采用距離算法做聚類(lèi)。Etsy的Oculus系統(tǒng):歐氏距離FastDTW基于聚類(lèi)算法的RCAUber的argos系統(tǒng)。nodes之間的weight決定了重要性。基于聚類(lèi)算法的RCAIBM的predictive
insightgranger
causeIf
past
values
of
A
and
B
can
predict
future
value
of
B
better
than
pastvalues
of
B
alone,Then,
time
series
A
granger
cause
time
series
B異常檢測(cè)到底什么叫異常檢測(cè):rare統(tǒng)計(jì)?同比環(huán)比?Box?Histogram?算法驅(qū)動(dòng)的異常檢測(cè):時(shí)序預(yù)測(cè):趨勢(shì)?季節(jié)?多樣本校驗(yàn)?多元預(yù)測(cè):降維?異常檢測(cè)不同算法的預(yù)測(cè)表現(xiàn):指數(shù)平滑多層感知線性回歸時(shí)序預(yù)測(cè)的開(kāi)源選擇Facebook在今年2月剛開(kāi)源的Prophet庫(kù)。(R/Python)Yahoo!在去年開(kāi)源的egads庫(kù)。(Java)Twitter在去年開(kāi)源的anomalydetection庫(kù)。(R)Netflix在2015年開(kāi)源的Surus庫(kù)。(Pig,基于PCA)Etsy在2013年開(kāi)源的skyline庫(kù)。(python)Numenta在2013年開(kāi)源的NuPIC庫(kù)。(python,基于HTM)RRDtool在1997年實(shí)現(xiàn)的HWPREDICT。(C,基于holt-winters)。。。IT環(huán)境下的時(shí)序預(yù)測(cè)一個(gè)穩(wěn)定的IT環(huán)境中,時(shí)序數(shù)據(jù)通常具有趨勢(shì)性,甚至季節(jié)性。Simple
exponential
smoothingDouble
exponential
smoothing
(Holt’s
linear
trend)Seasonal
triple
exponential
smoothing
(Holt
Winters)人工調(diào)節(jié)α,β,γ三個(gè)參數(shù),工作量太大。best
model
select(Akaike
information
criterion)best
smoothing
parameter
optimize(通過(guò)Nelder-Mead
simplex非線性優(yōu)化算法,獲得最小的MSE)IT環(huán)境下的時(shí)序預(yù)測(cè)多元預(yù)測(cè)示例服務(wù)器電力未來(lái)是否需要擴(kuò)容?單純靠電力自己的趨勢(shì)意義不大。盡量收集更多的服務(wù)器指標(biāo),嘗試做多元預(yù)測(cè)。完整性校驗(yàn)降維多元預(yù)測(cè)PCA降維多種算法的預(yù)測(cè)效果對(duì)比算法RAE耗時(shí)(s)kNN7.1043%31.65線性回歸19.2408%0.38MLP神經(jīng)網(wǎng)絡(luò)9.7343%0.39M5P樹(shù)回歸6.4732%0.42隨機(jī)森林6.2794%1.65平臺(tái)服務(wù)的資源管控平臺(tái)服務(wù)的『多租戶』特性,也是AIOps用『大數(shù)據(jù)』統(tǒng)一管理多個(gè)隔離的『小數(shù)據(jù)』的辦法。資源:邏輯資源,包括用戶所能讀寫(xiě)的數(shù)據(jù)、告警、報(bào)表資源管理;物理資源,包括用戶所能利用的CPU、IO、MEM資源管理。聽(tīng)起來(lái)像是Docker或者k8s的關(guān)鍵詞?日志分析系統(tǒng)既有海量數(shù)據(jù)不便切分遷移的難點(diǎn),又有資源隔離控制的需求。搜索的任務(wù)管理從純粹的實(shí)時(shí)分布式,變成任務(wù)式。任務(wù)管理的幾個(gè)思路:對(duì)超限的kill掉。Cgroup類(lèi)資源限制。CPU
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 咖啡廳翻新合同樣本
- 招商部用人合同范本
- 餐飲連鎖加盟合同
- 亞克力板采購(gòu)合同范本
- 企業(yè)展示與匯報(bào)模板
- 陽(yáng)臺(tái)防水合同范本
- 陜西省漢中市2025屆普通高中高三質(zhì)量檢測(cè)考試語(yǔ)文試題及參考答案
- 全國(guó)高校教師教學(xué)技能大賽(說(shuō)課比賽)特等獎(jiǎng)?wù)n件《國(guó)家安全》
- 語(yǔ)言學(xué)研究方法論知到課后答案智慧樹(shù)章節(jié)測(cè)試答案2025年春牡丹江師范學(xué)院
- 2025簡(jiǎn)式的蔬菜交易合同
- DB12T 1361-2024 地?zé)嵛菜毓嗉夹g(shù)規(guī)程
- 2024年中考語(yǔ)文復(fù)習(xí):非連續(xù)性文本閱讀(含練習(xí)題及答案)
- 成人腦室外引流護(hù)理-中華護(hù)理學(xué)會(huì)團(tuán)體 標(biāo)準(zhǔn)
- 2024年出售鋁廠鋁渣合同范本
- 地方導(dǎo)游基礎(chǔ)知識(shí)電子教案 專(zhuān)題七 學(xué)習(xí)情境一 陜西省課時(shí)教案
- 項(xiàng)目管理工程師招聘筆試題與參考答案(某大型集團(tuán)公司)2024年
- 高中文言文實(shí)詞虛詞總集(打印版)
- 24年追覓在線測(cè)評(píng)28題及答案
- 婚禮主要工作人員及分工職責(zé)
- 醫(yī)院改造工程設(shè)計(jì)服務(wù)方案
- 職業(yè)本科《大學(xué)英語(yǔ)》課程標(biāo)準(zhǔn)
評(píng)論
0/150
提交評(píng)論