2020年全球運維大會-邁向智能運維時代-AIO課件_第1頁
2020年全球運維大會-邁向智能運維時代-AIO課件_第2頁
2020年全球運維大會-邁向智能運維時代-AIO課件_第3頁
2020年全球運維大會-邁向智能運維時代-AIO課件_第4頁
2020年全球運維大會-邁向智能運維時代-AIO課件_第5頁
已閱讀5頁,還剩23頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

邁向智能運維時代,AIOps服務應用運維——民生銀行的探索與實踐

目錄應用運維的挑戰(zhàn)1關(guān)于智能運維的思考2民生銀行的探索與實踐3

民生銀行科技發(fā)展趨勢200x年Now2012年SOA架構(gòu)

“新”核心項目單體應用

老核心分布式與微服務化業(yè)務與應用架構(gòu)革新

分布式核心系統(tǒng)新零售信貸體系企業(yè)綜合服務平臺成本中心實現(xiàn)需求Cost

Center緊跟業(yè)務戰(zhàn)略發(fā)展Business

Follower業(yè)務、架構(gòu)與技術(shù)的跨越式發(fā)展信息科技角色的巨大轉(zhuǎn)變金融科技協(xié)同業(yè)務創(chuàng)新FinTech

Enabler小微3.0遠程銀行民生應用運維的定位應用運維組織定位職能定位角色定位上線準 變更評 業(yè)務連 系統(tǒng)及入及實 審和實 續(xù)性管 流程優(yōu)施 施 理 化分析系統(tǒng)問題處理和服務請求運維工具體系建設(shè)運維部門“對外”窗口運維內(nèi)部組織協(xié)調(diào)主要維度(流程+項目+系統(tǒng))應急處理第一責任系統(tǒng)運行上線交付優(yōu)化反饋開發(fā)部門業(yè)務部門運維其他

部門民生應用運維的原則:基于SRE理念服務分級服務依賴驅(qū)動運維其他部門鼓勵推動業(yè)務流程優(yōu)化鼓勵發(fā)現(xiàn)系統(tǒng)隱患鼓勵建立問題工單對服務質(zhì)量 以發(fā)現(xiàn)問題 瑣事與工具負責 為榮 觀好工具不是規(guī)劃出來的工具和瑣事的蹺蹺板效應問題跟蹤詳細事件報告根因分析規(guī)避總結(jié)應急管理角色定位明確應急預案規(guī)范優(yōu)先恢復服務(雙十)以恢復生產(chǎn)服務為第一要務十分鐘定位問題,十分鐘解決問題

運維新挑戰(zhàn)產(chǎn)品推陳出新流程優(yōu)化改進注重客戶體驗要求快速響應業(yè)務創(chuàng)新新架構(gòu)新技術(shù)技術(shù)演進虛擬化云平臺服務治理運維支撐直銷銀行新零售信貸小微3.0遠程銀行分布式核心微服務與服務治理容器云平臺大數(shù)據(jù)|人工智能|區(qū)塊鏈|生物識別故障處理困難加大運維數(shù)據(jù)亟待挖掘運維價值難以體現(xiàn)軟硬件數(shù)量激增應用和架構(gòu)復雜化頻繁的變更操作調(diào)用鏈顯著加長運維數(shù)據(jù)井噴

目錄應用運維的挑戰(zhàn)1關(guān)于智能運維的思考2民生銀行的探索與實踐3

數(shù)據(jù)驅(qū)動運維數(shù)據(jù)中心形成數(shù)據(jù)思維,靠數(shù)據(jù)說話、靠數(shù)據(jù)決策的氛圍智能運維是數(shù)據(jù)驅(qū)動運維理念中,完成自動化知識加工的重要一環(huán)描述原始分散數(shù)據(jù)采集聯(lián)系加工告警一眼請經(jīng)驗規(guī)律可預測人工智能運維知識信息數(shù)據(jù)機器M的CPU使用率達到60%A類S系統(tǒng)的數(shù)據(jù)庫模塊M機器發(fā)生主要告警,CPU使用率超過50%正在數(shù)據(jù)清理操作,CPU升高為正?,F(xiàn)象,只要CPU不超過80%都沒有問題,數(shù)據(jù)清理時應關(guān)注數(shù)據(jù)庫歸檔日志,超過50%需要手工觸發(fā)歸檔

智能運維是下一代運維技術(shù)的必然選擇海量數(shù)據(jù)復雜關(guān)系經(jīng)驗依賴跨條線溝通傳統(tǒng)運維 智能運維數(shù)據(jù)驅(qū)動算法驅(qū)動智能決策給出解決方案架構(gòu)日益復雜基礎(chǔ)架構(gòu):云化應用架構(gòu):微服務化雙態(tài):傳統(tǒng)和互聯(lián)網(wǎng)化并存系統(tǒng)關(guān)系復雜應用系統(tǒng):系統(tǒng)間調(diào)用網(wǎng)化問題處理復雜工具:精

專團隊配合:信息不對稱——來自Garnter

Report

智能運維場景分類——摘自《企業(yè)級AIOps實施建議白皮書》

智能運維落地的局限與挑戰(zhàn)AI天生的局限現(xiàn)代統(tǒng)計學關(guān)聯(lián)與因果數(shù)據(jù)挑戰(zhàn)缺少標準,種類繁多,結(jié)構(gòu)多樣經(jīng)驗難以數(shù)據(jù)化數(shù)據(jù)完備性技術(shù)挑戰(zhàn)場景復雜,非單一數(shù)據(jù)傾斜非典型算法人才和組織挑戰(zhàn)中心化組織運維+AI人才匱乏智能運維是萬能的?不,智能運維需要準確定位

民生智能運維的目標與定位智能運維:單點時代智能算法運維流程學習人的經(jīng)驗提升人的效率解放人的精力靈魂拷問:智能運維究竟有什么用?

從痛點出發(fā):難,慢,重信息完備的海量的適合的定制的目錄應用運維的挑戰(zhàn)1關(guān)于智能運維的思考2民生銀行的探索與實踐3

智能運維的架構(gòu)設(shè)計機房監(jiān)控網(wǎng)絡(luò)監(jiān)控主機監(jiān)控交易監(jiān)控應用監(jiān)控存儲監(jiān)控日志采集展示層統(tǒng)一展示渠道多種通知線路智能運維平臺運維數(shù)據(jù)治理體系化運維數(shù)據(jù)模型定制智能運維算法強勁的計算能力開源可控的技術(shù)實現(xiàn)運維對象層雙態(tài)架構(gòu)數(shù)據(jù)源層運維數(shù)據(jù)全量接入應用場景層貼近需求,針對痛點流程管理運維工具智能運維算法庫服務接口數(shù)據(jù)接入數(shù)據(jù)治理數(shù)據(jù)存儲數(shù)據(jù)加工 運維數(shù)據(jù)模型 實時計算離線計算可視化平臺移動OA郵件工單短信自動化運維系統(tǒng)質(zhì)量保障效率提升成本優(yōu)化

運維數(shù)據(jù)基礎(chǔ)數(shù)據(jù)模型運維數(shù)據(jù)源數(shù)據(jù)摸底收集所有數(shù)據(jù)數(shù)據(jù)標準配置數(shù)據(jù)采集自動化數(shù)據(jù)模型格式,類型,字段

?主機、中間件、數(shù)

?28個數(shù)據(jù)模型據(jù)庫、網(wǎng)絡(luò)、存儲反饋優(yōu)化一次性接入不現(xiàn)實使用中提升質(zhì)量

背景與SRE的核心目標一致固定閾值誤報漏報多,人工維護成本高數(shù)據(jù)可用性指標,成功率、響應率、交易量、響應時間等智能運維場景設(shè)計1——可用性故障發(fā)現(xiàn)(1)故障發(fā)現(xiàn)要及時無漏報少誤報

挑戰(zhàn)簡單算法(如3sigma,LOF,孤立森林等)只能在特定數(shù)據(jù)下奏效指標情況各異,難以設(shè)計適應所有場景的算法節(jié)假日、尖峰、劇變等場景智能運維場景設(shè)計1——可用性故障發(fā)現(xiàn)(2)成功率智能運維場景設(shè)計1——可用性故障發(fā)現(xiàn)(3)算法:單指標異常檢測效果:開箱即用無需事先標注,節(jié)省人工故障發(fā)現(xiàn)更及時漏報少,大小故障不放過智能基帶周期偏移突變檢測劇變適配專項檢測自動識別指標陡變自動適配模式劇變自適應推斷自動適配跑批時長不固定基于GBRT的回歸基帶算法

背景每筆交易都有很多維度組成,影響故障的維度很多(機房、服務器、源系統(tǒng)、返回碼、交易碼)地理維度:機房、分片、服務器交互維度:源系統(tǒng)、交易碼、返回碼、響應時間業(yè)務維度:發(fā)起機構(gòu)、收款行號、產(chǎn)品編碼、稅務局代碼當整體指標出現(xiàn)告警時(如交易量上升),快速定位到具體的交叉維度(如渠道=手機銀行&服務名=黃金購買)的異常,輔助故障定位或確定影響范圍知其然,也知其所以然數(shù)據(jù)包含多種維度的交易明細智能運維場景設(shè)計2——多維故障篩查(1)時間渠道分行耗時交易名返回碼收款行號…2019-7-1

10:00:00手機銀行成都0.23跨行轉(zhuǎn)賬000000工商銀行2019-7-1

10:00:01柜面北京0.21行名行號查詢000000-…特征分析問題是否有特征?

算法從交易明細數(shù)據(jù)中,通過關(guān)聯(lián)分析找出每個系統(tǒng)的關(guān)鍵維度(數(shù)十個)整體指標出現(xiàn)告警時,觸發(fā)多維定位依據(jù)蒙特卡洛樹搜索算法,對各種維度的交叉情況評估,快速剪枝,找出交叉維度優(yōu)勢智能運維場景設(shè)計2——多維故障篩查(2)告警影響分析,緩解告警焦慮根因分析,智能下鉆7*24在線交易監(jiān)控交易明細維度提取多維定位維度庫事件定時執(zhí)行觸發(fā)總交易量交易量上升

例:渠道=手機銀行&

交易名=黃金購買異常維度定位結(jié)果

手機銀行第三方支付計費系統(tǒng)支付系統(tǒng)理財系統(tǒng)核心系統(tǒng)認證系統(tǒng)智能運維場景設(shè)計3——故障傳播分析(1)背景調(diào)用鏈路不斷延長烽火臺狼煙問題定界到底是哪個模塊出問題了呢?智能運維場景設(shè)計3——故障傳播分析(2)數(shù)據(jù)交易明細數(shù)據(jù)全局統(tǒng)一流水號算法相關(guān)聯(lián)的節(jié)點,曲線具有相似性以系統(tǒng)為節(jié)點,調(diào)用關(guān)系為邊,構(gòu)建調(diào)用關(guān)系圖按照排序結(jié)果,推薦最有可能的Top3系統(tǒng)構(gòu)建骨架圖根據(jù)報警節(jié)點間的相似性找出所有異常節(jié)點確定傳播方向根據(jù)報警類型和節(jié)點間調(diào)用關(guān)系確定直接故障傳播關(guān)系及方向定位排序根據(jù)故障傳播圖拓撲結(jié)構(gòu)及權(quán)值信息計算節(jié)點為根因所在節(jié)點的概率并排序

優(yōu)勢消除盲目的問題排查提高故障定位的效率智能運維場景設(shè)計4——監(jiān)控指標排查(1)背景機器數(shù)量增多,監(jiān)控項細分依靠報警,嚴重,核心指標系統(tǒng)特點不同,排障依賴經(jīng)驗數(shù)據(jù)CMDB監(jiān)控指標系統(tǒng)-模塊-服務器-類別-實例-指標網(wǎng)銀互聯(lián)-前置-NAPSAP1-Disk-hdiskpower99-磁盤繁忙率手機銀行-網(wǎng)關(guān)-MBGW01-Tomcat_線程池-活動線程數(shù)突出類別監(jiān)控指標都正常嗎?

智能運維場景設(shè)計4——監(jiān)控指標排查(2)優(yōu)勢與人工排查結(jié)果一致不忽略長尾指標大幅減少故障定位耗時

智能運維場景設(shè)計5——智能日志分析(1)背景日志數(shù)據(jù)內(nèi)涵豐富日志挖掘難度大非結(jié)構(gòu)化,無法直接分析數(shù)據(jù)量過大,人力無法完成數(shù)據(jù)已建立日志平臺,日志量豐富日志檢查看看日志里面有什么異常

OP

S

全球運維大會

20

智能運維場景設(shè)計5——智能日志分析(2)日志采集借助ELK天眼日志平臺的通道日志模版提取基于FP-tree的模版提取技術(shù)日志故障發(fā)現(xiàn)模版頻率的閾值或智能異常檢測重要變量分布異常檢測日志輔助問題定位模版頻率變化變量分布變化>2019-03-0702:07:41.

7fdb371cd7004rocksdb:(OriginalLogTime

2019/03/07-02:07:41.[/build/ceph-12.2.5/src/rocksdb/db/compaction_job.cc:621][default]compactedto:baseL1maxscore1.25,MB/sec:47.8rd,47.8wr,level2,filesin(1,17)out(19)MBin(65.4,1031.9)out(1097.3),read-write-amplify(33.5)write-a原始日志G

1

datetime=1537113183string=7fdb371cd700string=OriginalLogTimedatetime=

1537113183……string=L1maxscorenumber=1.25MB/secnumber=47.8rdwr,levelnumber=2

……變量+分詞[1][2]

4rocksdb:[3]()[4][][default]compactedto:baselevel1maxbytesbase268435456files[5]maxscore[6],MB/sec:[7]rd,wr,level

[8],filesin([9])out([10])MBin([11])out([12]),read-write-amplify([13])write-amplify([14]

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論