2025數(shù)據(jù)驅(qū)動(dòng)的智能運(yùn)維_第1頁(yè)
2025數(shù)據(jù)驅(qū)動(dòng)的智能運(yùn)維_第2頁(yè)
2025數(shù)據(jù)驅(qū)動(dòng)的智能運(yùn)維_第3頁(yè)
2025數(shù)據(jù)驅(qū)動(dòng)的智能運(yùn)維_第4頁(yè)
2025數(shù)據(jù)驅(qū)動(dòng)的智能運(yùn)維_第5頁(yè)
已閱讀5頁(yè),還剩42頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2025數(shù)據(jù)驅(qū)動(dòng)的智能運(yùn)維SA,

SE,

OP,

DevOps,SRE?所以,你如何DevOps-ing?用這些DevOps-ready工具?所以,你如何DevOps-ing?還是自動(dòng)化、自動(dòng)化、自動(dòng)化?70%的微博故障原因是變更操作!你呢?數(shù)據(jù)驅(qū)動(dòng)的運(yùn)維操作我們需要充分的數(shù)據(jù)來(lái)證明,下一步變更是有必要的,安全的?,F(xiàn)在,請(qǐng)出示你的:alertsreportsmetricsexceptions…數(shù)據(jù)驅(qū)動(dòng)的運(yùn)維操作監(jiān)控軟件大多是采樣式的。采樣意味著監(jiān)控的評(píng)定是一種模糊估算,是去除了細(xì)節(jié)的大趨勢(shì)上的判斷。在通過(guò)監(jiān)控做到了總體穩(wěn)定的初級(jí)目標(biāo)以后,有必要通過(guò)全量數(shù)據(jù)分析的方式,對(duì)細(xì)節(jié)做更明確、更高效的診斷和優(yōu)化。隨著技術(shù)的發(fā)展,大數(shù)據(jù)的興起,靠數(shù)據(jù)來(lái)驅(qū)動(dòng)運(yùn)維,也成為可能。如何驅(qū)動(dòng)?Gartner2016.04:2019年,全球有25%的企業(yè)將搭建好自己的AIOps平臺(tái),而這個(gè)數(shù)字目前是不到5%。What's

inside

AIOps?三大作用:更靈活、更易用的訪問(wèn)和分析數(shù)據(jù);能分析過(guò)去散落在各組件中未利用上的業(yè)務(wù)數(shù)據(jù)和上下文;快速的探索和實(shí)驗(yàn)平臺(tái),提供獨(dú)特的洞擦力What's

inside

AIOps?『隨著日志文件的容量和類(lèi)型的增長(zhǎng),對(duì)日志數(shù)據(jù)進(jìn)行分析、追蹤潛在的問(wèn)題、發(fā)現(xiàn)錯(cuò)誤變得越來(lái)越難,尤其是在多日志相關(guān)性分析出現(xiàn)之后。即便在最佳狀態(tài)下,也需要經(jīng)驗(yàn)豐富的操作人員跟蹤事件鏈、過(guò)濾噪音,并最終診斷出導(dǎo)致復(fù)雜問(wèn)題產(chǎn)生的根本原因』--埃森哲咨詢What's

inside

AIOps?兩個(gè)方向:大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù),實(shí)現(xiàn)以數(shù)據(jù)為中心的可用性和性能分析;將以數(shù)據(jù)為中心的的方法擴(kuò)展到其他ITOA學(xué)科,比如SIEM和業(yè)務(wù)分析。What's

inside

AIOps?從『系統(tǒng)組成』看AIOps架構(gòu):數(shù)據(jù)湖、自動(dòng)化系統(tǒng)、記錄系統(tǒng)、交互系統(tǒng)和監(jiān)控生態(tài)圈What's

inside

AIOps?監(jiān)控系統(tǒng):硬件和虛擬平臺(tái)的檢測(cè),管理服務(wù)質(zhì)量;(StatsD,CollectD)記錄系統(tǒng):問(wèn)題記錄和知識(shí)庫(kù)積累,并與CMDB關(guān)聯(lián);(Jira,GitLab)自動(dòng)化系統(tǒng):自動(dòng)執(zhí)行固化事件的解決腳本;(Puppet,Saltstack,Ansible)交互系統(tǒng):降噪和實(shí)時(shí)分發(fā)信息到真正負(fù)責(zé)的人,以及一些早期檢測(cè)和修復(fù);(Nagios,Zabbix,Zenoss)數(shù)據(jù)湖:診斷、即時(shí)圖表和儀表盤(pán)。保存你所有可能會(huì)用到的日志,用于深度分析What's

inside

AIOps?從『數(shù)據(jù)流向』看AIOps架構(gòu):采集、存儲(chǔ)、分析、可視化。數(shù)據(jù)接入動(dòng)態(tài)的知識(shí)積累儀表盤(pán)動(dòng)態(tài)鉆取流程設(shè)計(jì),幫助無(wú)場(chǎng)景知識(shí)積累的人快速了解事件根源。告警交互系統(tǒng)"Alertmanager

...

takes

care

of

deduplicating,

grouping,and

routingthem

to

the

correct

receiver

integrations

such

as

email,

PagerDuty,or

OpsGenie.

It

also

takes

care

of

silencingand

inhibitionof

alerts."--

prometheus.io告警交互系統(tǒng)擴(kuò)展搜索風(fēng)暴靜默模板渲染告警交互系統(tǒng)有一個(gè)spl告警,告警名稱為『?jiǎn)斡蛎骄憫?yīng)時(shí)間大于

2s』,搜索條件是:*

|

bucket

timestamp

span=1h

as

ts|

stats

avg(request_time)as

avg_

by

domain,ts。觸發(fā)條

件為avg_大于2。這時(shí)候我想著如果能在告警出來(lái)的時(shí)候,順帶把

request_time:>10ANDupstream_resp_time:<1的部分日志也附帶上,可能會(huì)更有助于我們判斷故障。我們可以把這個(gè)搜索也保存下來(lái),然后在『擴(kuò)展搜索』上選擇這個(gè)搜索。然后填寫(xiě)這樣的告警郵件內(nèi)容模板:郵件內(nèi)容的django模板告警名稱:{{}}<br>觸發(fā)條件:{{

pare_desc_text

}}<br>可能導(dǎo)致本次服務(wù)異常的可疑訪問(wèn)如下:{%

for

hit

in

alert.result.extend_hits

%}{{

hit.raw_message

}}

<br>{%

endfor

%}建議您優(yōu)先排查這部分。郵件內(nèi)容告警名稱:?jiǎn)斡蛎骄憫?yīng)時(shí)間大于2s觸發(fā)條件:avg_的值大于2可能導(dǎo)致本次服務(wù)異常的可疑訪問(wèn)如下:24

-

-

[15/Jun/2016:14:21:06.588

+0800]"GET/index/login/

HTTP/1.1"

200

1938

"-"

"-"

"-"

13.21

0.03024

-

-

[15/Jun/2016:14:21:06.588

+0800]"GET/index.jsp

HTTP/1.1"

200

10326

"-"

"-"

"-"

10.22

0.30124

-

-

[15/Jun/2016:14:21:06.588

+0800]"GET/index/login/

HTTP/1.1"

200

1938

"-"

"-"

"-"

14.20

0.103建議您優(yōu)先排查這部分。智能運(yùn)維平臺(tái)實(shí)現(xiàn)要點(diǎn)非結(jié)構(gòu)化數(shù)據(jù)的處理多模塊關(guān)聯(lián)追蹤分析動(dòng)態(tài)閾值的異常檢測(cè)平臺(tái)服務(wù)的資源管控非結(jié)構(gòu)化數(shù)據(jù)的處理平臺(tái)運(yùn)維≠業(yè)務(wù)模塊開(kāi)發(fā)。90%的日志不會(huì)結(jié)構(gòu)化非結(jié)構(gòu)化數(shù)據(jù)的處理鼠標(biāo)拖拽命名,通過(guò)機(jī)器學(xué)習(xí)算法自動(dòng)生成正則非結(jié)構(gòu)化數(shù)據(jù)的處理古典方案:Hadoop的MapReduce離線批處理現(xiàn)代方案:ELK的預(yù)先處理,將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變?yōu)榘胱杂傻慕Y(jié)構(gòu)化數(shù)據(jù)后現(xiàn)代方案:在搜索運(yùn)行時(shí),對(duì)非結(jié)構(gòu)化數(shù)據(jù)做臨時(shí)性的必要結(jié)構(gòu)化處理統(tǒng)計(jì)非結(jié)構(gòu)化數(shù)據(jù)的處理查詢時(shí)字段的提取和統(tǒng)計(jì)非結(jié)構(gòu)化數(shù)據(jù)的處理矛盾:剛剛用算法避免了用戶學(xué)正則,轉(zhuǎn)身又還是要用戶在搜索的時(shí)候手寫(xiě)正則來(lái)提取了?解決辦法:通過(guò)算法生成的正則,自動(dòng)運(yùn)用到用戶搜索的數(shù)據(jù)上?難點(diǎn):正則的質(zhì)量無(wú)法保證。性能性能性能!重說(shuō)三……多模塊下的關(guān)聯(lián)分析幸運(yùn)的人:統(tǒng)一框架下,依賴于基礎(chǔ)庫(kù)的改造,實(shí)現(xiàn)比較方便的全局唯一ID關(guān)聯(lián);不幸的人:別說(shuō)多模塊之間的調(diào)用關(guān)系,連自己調(diào)用的模塊誰(shuí)寫(xiě)的都不清楚。誰(shuí)給你加ID?多模塊下的關(guān)聯(lián)分析{"timestamp":1491985634000,

"sid":1,

"module":"a"}{"timestamp":1491985634000,

"sid":2,

"module":"a"}{"timestamp":1491985634002,

"sid":1,

"module":"b"}{"timestamp":1491985634003,

"sid":1,

"module":"c"}{"timestamp":1491985634003,

"sid":2,

"module":"c"}{"timestamp":1491985634004,

"sid":3,

"module":"a"}{"timestamp":1491985634005,

"sid":3,

"module":"b"}通過(guò)聚類(lèi)模式,將時(shí)序數(shù)據(jù)經(jīng)過(guò)多ID串聯(lián),找到復(fù)雜拓?fù)湎碌恼?qǐng)求鏈關(guān)聯(lián)。多模塊關(guān)聯(lián)分析可視化基于聚類(lèi)算法的RCA對(duì)不同系統(tǒng)的相關(guān)性,采用距離算法做聚類(lèi)。Etsy的Oculus系統(tǒng):歐氏距離FastDTW基于聚類(lèi)算法的RCAUber的argos系統(tǒng)。nodes之間的weight決定了重要性。基于聚類(lèi)算法的RCAIBM的predictive

insightgranger

causeIf

past

values

of

A

and

B

can

predict

future

value

of

B

better

than

pastvalues

of

B

alone,Then,

time

series

A

granger

cause

time

series

B異常檢測(cè)到底什么叫異常檢測(cè):rare統(tǒng)計(jì)?同比環(huán)比?Box?Histogram?算法驅(qū)動(dòng)的異常檢測(cè):時(shí)序預(yù)測(cè):趨勢(shì)?季節(jié)?多樣本校驗(yàn)?多元預(yù)測(cè):降維?異常檢測(cè)不同算法的預(yù)測(cè)表現(xiàn):指數(shù)平滑多層感知線性回歸時(shí)序預(yù)測(cè)的開(kāi)源選擇Facebook在今年2月剛開(kāi)源的Prophet庫(kù)。(R/Python)Yahoo!在去年開(kāi)源的egads庫(kù)。(Java)Twitter在去年開(kāi)源的anomalydetection庫(kù)。(R)Netflix在2015年開(kāi)源的Surus庫(kù)。(Pig,基于PCA)Etsy在2013年開(kāi)源的skyline庫(kù)。(python)Numenta在2013年開(kāi)源的NuPIC庫(kù)。(python,基于HTM)RRDtool在1997年實(shí)現(xiàn)的HWPREDICT。(C,基于holt-winters)。。。IT環(huán)境下的時(shí)序預(yù)測(cè)一個(gè)穩(wěn)定的IT環(huán)境中,時(shí)序數(shù)據(jù)通常具有趨勢(shì)性,甚至季節(jié)性。Simple

exponential

smoothingDouble

exponential

smoothing

(Holt’s

linear

trend)Seasonal

triple

exponential

smoothing

(Holt

Winters)人工調(diào)節(jié)α,β,γ三個(gè)參數(shù),工作量太大。best

model

select(Akaike

information

criterion)best

smoothing

parameter

optimize(通過(guò)Nelder-Mead

simplex非線性優(yōu)化算法,獲得最小的MSE)IT環(huán)境下的時(shí)序預(yù)測(cè)多元預(yù)測(cè)示例服務(wù)器電力未來(lái)是否需要擴(kuò)容?單純靠電力自己的趨勢(shì)意義不大。盡量收集更多的服務(wù)器指標(biāo),嘗試做多元預(yù)測(cè)。完整性校驗(yàn)降維多元預(yù)測(cè)PCA降維多種算法的預(yù)測(cè)效果對(duì)比算法RAE耗時(shí)(s)kNN7.1043%31.65線性回歸19.2408%0.38MLP神經(jīng)網(wǎng)絡(luò)9.7343%0.39M5P樹(shù)回歸6.4732%0.42隨機(jī)森林6.2794%1.65平臺(tái)服務(wù)的資源管控平臺(tái)服務(wù)的『多租戶』特性,也是AIOps用『大數(shù)據(jù)』統(tǒng)一管理多個(gè)隔離的『小數(shù)據(jù)』的辦法。資源:邏輯資源,包括用戶所能讀寫(xiě)的數(shù)據(jù)、告警、報(bào)表資源管理;物理資源,包括用戶所能利用的CPU、IO、MEM資源管理。聽(tīng)起來(lái)像是Docker或者k8s的關(guān)鍵詞?日志分析系統(tǒng)既有海量數(shù)據(jù)不便切分遷移的難點(diǎn),又有資源隔離控制的需求。搜索的任務(wù)管理從純粹的實(shí)時(shí)分布式,變成任務(wù)式。任務(wù)管理的幾個(gè)思路:對(duì)超限的kill掉。Cgroup類(lèi)資源限制。CPU

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論