面向分布式轉(zhuǎn)型的異構(gòu)系統(tǒng)運維管理平臺建設_第1頁
面向分布式轉(zhuǎn)型的異構(gòu)系統(tǒng)運維管理平臺建設_第2頁
面向分布式轉(zhuǎn)型的異構(gòu)系統(tǒng)運維管理平臺建設_第3頁
面向分布式轉(zhuǎn)型的異構(gòu)系統(tǒng)運維管理平臺建設_第4頁
面向分布式轉(zhuǎn)型的異構(gòu)系統(tǒng)運維管理平臺建設_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

近年來,面對國際形勢變化以及互聯(lián)網(wǎng)企業(yè)架構(gòu)帶來的啟發(fā),商業(yè)銀行紛紛開

啟分布式轉(zhuǎn)型,同時其信息系統(tǒng)架構(gòu)也呈現(xiàn)出集中式與分布式并存的特點。在

此趨勢下,TT運維團隊不僅要繼續(xù)承擔傳統(tǒng)集中式大型主機平臺平穩(wěn)運行的運

維職責,又要做好未來分布式運維的技術儲備,尤其在大型主機技術相對封

閉、向分布式技術棧遷移難度較大的情況下,如何順利實現(xiàn)運維技術轉(zhuǎn)型成為

當前面臨的重大挑戰(zhàn)。與此同時,在集中式和分布式并存的復雜架構(gòu)下,只有

讓運維能力具備與運維對象松耦合的可遷移性和普適性,才能更好地適應銀行

信息系統(tǒng)技術不斷更迭的現(xiàn)狀和趨勢。

針對上述變化,筆者團隊以多年積累的運維經(jīng)驗為基礎,總結(jié)提煉了分布式運

維管理方法論,并配套搭建異構(gòu)系統(tǒng)運維管理平臺,創(chuàng)新開展了以數(shù)據(jù)統(tǒng)一采

集與標準化治理為基礎支撐、以標準化產(chǎn)品組件為控制接口、以即插即用的工

具平臺為共享服務、以運維需求為應用場景的落地實踐,逐步推動運維模式從

“事件驅(qū)動”向“數(shù)據(jù)驅(qū)動”轉(zhuǎn)變,推動平臺建設從“需求功能實現(xiàn)”向“通

用運維能力沉淀”轉(zhuǎn)變。

一、異構(gòu)系統(tǒng)運維管理平臺

架構(gòu)設計

面向分布式轉(zhuǎn)型趨勢,筆者團隊將新技術手段與管理流程優(yōu)化相融合,著力推

動以數(shù)據(jù)驅(qū)動的智能運維體系建設,并創(chuàng)新搭建了異構(gòu)系統(tǒng)運維管理平臺(如圖

1所示)。該平臺基于多維度運維數(shù)據(jù),在屏蔽底層運維對象復雜性的基礎上,

重點實現(xiàn)了標準化數(shù)據(jù)治理與規(guī)范化接口調(diào)用,旨在迭代推動運維模式向可視

化、自動化和智能化轉(zhuǎn)型。平臺設計重點強調(diào)了三項基本原則:一是相對獨

立,即將復雜的運維能力建設拆分為相對獨立的服務建設,通過規(guī)范接口,實

現(xiàn)平臺間、模塊間的相互調(diào)用協(xié)作;二是能力復用,即使每一個開發(fā)過的功能

模塊在之后的能力建設中能夠被最大程度被復用,進而降低成本、縮短時間,

實現(xiàn)乘數(shù)效應;三是閉環(huán)設計,即通過將人的能力和機器的能力統(tǒng)籌考慮,最

終實現(xiàn)數(shù)據(jù)、分析、決策、處置的操作閉環(huán)與事前、事中、事后的流程閉環(huán),

并借此持續(xù)推進自動化、智能化轉(zhuǎn)型。

功價

應用場景共享服務

景|告譽收斂]異常檢費]|連接關系

日志分析平臺大解展示

與ELKGrafana

服I時序舊淵]橫因定位U容■定位]

務時間序列分析平臺機學習

日志風否診片問!歐蜉'[運雄知識廛B

I1i1Horao算法座

控制接口數(shù)據(jù)治理

口原生工具集SA/ARM/SFI^SYSREXX主機性能容?平臺TDS

數(shù)一罐式健朦檢查自動化工具大數(shù)據(jù)平臺BIGDATA

據(jù)

自動化運堆管理平臺MOMA配置管理數(shù)據(jù)痹CMDB

運主機平臺

對系統(tǒng)DB2CICSMQ開放平臺X86平臺

象匚通像I存儲U批.JSWIFT-]

圖1異構(gòu)系統(tǒng)運維管理平臺架構(gòu)設計

基于上述原則,異構(gòu)系統(tǒng)運維管理平臺重點打造數(shù)據(jù)治理、控制接口、共享服

務、應用場景等四大功能模塊,并在其中內(nèi)嵌了“數(shù)據(jù)驅(qū)動、預防為主、應急

為輔”的預防性維護閉環(huán)流程。其中,數(shù)據(jù)治理功能重在實現(xiàn)對異構(gòu)運維對象

數(shù)據(jù)的統(tǒng)一采集、存儲、歸總,控制接口功能重在實現(xiàn)對異構(gòu)運維對象的統(tǒng)一

控制操作,共享服務功能重在將常用的數(shù)據(jù)分析服務集成為通用工具,應用場

景則是指根據(jù)事前、事中、事后的應急閉環(huán)迭代流程落地具體的運維場景,并

以統(tǒng)一門戶全景展示異構(gòu)運維對象的實時狀態(tài)。

1.數(shù)據(jù)治理模塊

異構(gòu)系統(tǒng)運維管理平臺的運維對象涉及大型主機平臺、AIX平臺、X86平臺等多

個并存的異構(gòu)系統(tǒng),每天有大量源數(shù)據(jù)存儲需求,數(shù)據(jù)的類型、格式也千差萬

別。對此,筆者團隊首先在數(shù)據(jù)治理模塊中搭載了數(shù)據(jù)字典,并據(jù)此標準化數(shù)

據(jù)采集工具,最后基于數(shù)據(jù)倉庫統(tǒng)一存儲的治理策略,搭建了主機性能容量平

臺(TDS)、大數(shù)據(jù)平臺(BIGDATA)、配置管理數(shù)據(jù)庫(CMDB)三大平臺作為數(shù)據(jù)治

理的主要抓手,建設標準化的平臺數(shù)據(jù)資源池。

以主機性能容量平臺為例,該平臺重點實現(xiàn)了對主機性能指標(SMF)數(shù)據(jù)的統(tǒng)一

結(jié)構(gòu)化存儲與管理。實踐中,TDS首先是按照系統(tǒng)、存儲、數(shù)據(jù)庫、交易中間

件、消息中間件、批量等組件劃分方式,分條目建設性能指標體系,再基于指

標體系抽取了685個常見的性能指標作為采集對象,每一類組件設計有單獨的

采集解析腳本,收集數(shù)據(jù)互不影響,且采集的數(shù)據(jù)會統(tǒng)一落入DB2和MySQL數(shù)

據(jù)庫。

在此基礎上,作為支持上層應用的數(shù)據(jù)資源,該平臺還重點搭載了三個典型應

用:第一部分是系統(tǒng)的健康檢查,幫助運維人員快速掌握系統(tǒng)運行狀態(tài),發(fā)現(xiàn)

潛在的性能問題;第二部分是關鍵指標的容量預估,通過分析指標的長期變化

趨勢,提前預估基礎環(huán)境中的容量問題,做好容量規(guī)劃,保障生產(chǎn)資源的彈性

擴容;第三部分是事后問題診斷,通過對底層多維度的指標關聯(lián)挖掘,平臺集

成有波動分析、趨勢分析、定比分析等多個分析模型,用于根因的快速分析定

位。

2.控制接口模塊

為實現(xiàn)對異構(gòu)平臺的統(tǒng)一自動化調(diào)用,控制接口模塊中搭載了中國銀行自主研

發(fā)的自動化運維管理平臺一一MOMAoM0MA通過將常見運維操作進行標準化打

包,可實現(xiàn)對異構(gòu)運維對象的統(tǒng)一控制,并基于工作流編排、調(diào)度和交互控制

等功能,支持用戶在網(wǎng)頁端定義一系列相互關聯(lián)的指令作業(yè),并按照事先約定

的執(zhí)行流程進行自動執(zhí)行與實時追蹤,從而實現(xiàn)一套流程、集中控制、重復使

用,顯著降低了管理成本和差錯率。

M0MA平臺通過標準化接口實現(xiàn)主機平臺和開源平臺對接,徹底改變了主機平臺

的閉源特性,使傳統(tǒng)主機平臺擁有了豐富的可視化界面。同時,在變更任務的

拆分過程中,通過開發(fā)大量能滿足平臺接口調(diào)用規(guī)范的主機平臺作業(yè)流,全面

覆蓋了自動化控制、智能判斷等功能,并共同組建了主機自動化運維腳本庫。

未來,伴隨著M0MA平臺的演進和發(fā)展,主機平臺的自動化運維能力也將不斷提

升,而主機接口標準化建設則為異構(gòu)運維對象的集中自動化調(diào)度鋪平了道路。

3.共享服務模塊

基于相對獨立和能力復用等設計原則,共享服務模塊作為對接數(shù)據(jù)與應用的通

用服務層,主要負責將運維場景常用的展示能力、分析能力、決策能力等集成

為即插即用的服務,以避免功能重復開發(fā)。目前,共享服務層重點建設了指標

展示大屏、時間序列分析平臺(Horae)、主機日志分析平臺、機器學習算法庫等

作為通用服務工具。

其中,時間序列分析平臺利用統(tǒng)計分析和機器學習算法,可對具有規(guī)律性的性

能指標數(shù)據(jù)進行精細化分析和價值挖掘,從而為上層應用場景提供任一性能指

標數(shù)據(jù)的趨勢預測和異常檢測服務。同時,該平臺通過將時間序列分析中常見

操作封裝為Horae平臺命令,支持用戶使用配置文件輸入命令和參數(shù)信息來調(diào)

用服務。截至目前,Horae平臺內(nèi)已集成有10余種時間序列分析算法,并支持

算法的動態(tài)彈性擴展,能夠很好地覆蓋運維中常見的序列類型。

4.應用場景模塊

應用場景模塊通過將團隊門戶作為統(tǒng)一入口,基于對告警、日志、生產(chǎn)問題、

性能指標等運維數(shù)據(jù)的挖掘分析,實現(xiàn)了包含數(shù)據(jù)、分析,決策、處置在內(nèi)的

操作閉環(huán)與覆蓋事前、事中、事后的流程閉環(huán)。例如,該模塊基于告警風暴收

斂、日志風險診斷、容量預估等功能可實現(xiàn)事前風險感知,通過運維知識庫、

異常檢測、自動處置等功能大幅提高了事中處置速度,以及結(jié)合問題跟蹤、根

因分析等功能實現(xiàn)了事后閉環(huán)迭代。

二、異構(gòu)系統(tǒng)運維管理平臺應用示例

1.告警風暴收斂

傳統(tǒng)運維方式下,運維團隊通常會根據(jù)重要性和緊急程度從高到低將告警分為

紅、橙、黃、藍四個等級。從告警數(shù)量來看,每天以重要程度較低的藍色告警

居多,因其包含了許多不重要的提示信息,所以很容易被運維人員忽視。鑒于

此,告警風暴收斂的一項重點工作即在于對藍色告警進行再分級,并最終從海

量藍色告警中篩選出真正有價值的風險。藍色告警再分級如圖2所示。

圖2藍色告警再分級

為實現(xiàn)上述目標,筆者團隊利用機器學習算法圍繞告警風險指數(shù)展開了統(tǒng)計分

析,其核心思想是抽取系統(tǒng)平穩(wěn)運行時出現(xiàn)的藍色告警歷史數(shù)據(jù)特征,并將其

作為風險等級較低的正樣本數(shù)據(jù),同時將新出現(xiàn)的藍色告警與歷史一段時間的

正樣本數(shù)據(jù)進行比對,當一條藍色告警的發(fā)生次數(shù)、告警內(nèi)容等特征與歷史情

況趨同時,說明該告警風險等級低,而一旦與歷史情況差別較大時,則說明可

能發(fā)生了異常情況,需要重點關注。

基于上述思想,筆者團隊結(jié)合TFIDF文本分析和Kmeans聚類算法,對每條藍色

告警的風險指數(shù)進行了實時計算,并將其依次分為“99999、1000+、100+、

10+、1+”五個風險等級,以輔助運維人員合理分配注意力,對風險等級高的藍

色告警予以重點關注,實現(xiàn)精細化區(qū)分告警風險等級的目標C結(jié)合實際應用來

看,偏離歷史一般規(guī)律越多的藍色告警的風險指數(shù)越高,而這一結(jié)果和運維經(jīng)

驗相吻合,可有效助力運維人員及時發(fā)現(xiàn)潛在風險。

2.運維知識庫

運維知識庫旨在實現(xiàn)處置方案的快速查找,從而有效提高事中的應急速度。按

照傳統(tǒng)的文檔庫建設思路,通常很難保證文檔版本的動態(tài)更新,且使用時也往

往需要進行復雜的檢索操作才能定位解決方案。為彌補上述不足,運維知識庫

基于“有警必有解”的建設思路,將告警信息作為知識庫統(tǒng)一入口,點擊任意

一條新出現(xiàn)的告警信息,均可鏈接到運維知識庫中針對該告警的具體解釋和處

理手段,從而實現(xiàn)了對每一條告警的快速應對。

此外,為保證運維知識庫的完備性,異構(gòu)系統(tǒng)運維管理平臺利用關鍵字技術對

告警的關閉操作和知識庫的錄入操作實施了強關聯(lián),即工程師想要關閉告警就

必須將解決方案錄入知識庫,從而實現(xiàn)了歷史經(jīng)驗的固化積累;同時,為保證每

一條處置方案都能對應到可操作層面,還為其專門建立了后評價反饋機制,即

由一線值班工程師在實際使用后進行評價反饋,將有問題的解決方案登記到問

題跟蹤,由二線處理并更新知識庫。

3.故障自動處置

目前,運維自動化主要指監(jiān)控告警自動化與處置操作自動化兩個方面。傳統(tǒng)運

維方式下,告警自動化產(chǎn)生后,通常需人工查找自動化腳本或工具提交執(zhí)行,

且事中處置同樣需人和機器枕,作完成。對此,異構(gòu)系統(tǒng)運維管理平臺通過內(nèi)嵌

自動處置模塊,力求打通監(jiān)控和執(zhí)行環(huán)節(jié),即在無人參與的前提下,根據(jù)告警

信息找到對應的處置方法自動執(zhí)行。

異構(gòu)系統(tǒng)運維管理平臺基于MOMA和主機自帶的自動化工具集,可將日常運維的

手工操作轉(zhuǎn)化為由自動化腳本組成的歸檔集成,并針對具有固定處理方式的告

警信息,抓取關鍵字觸發(fā)腳本進行自動化處置,從而為日常運維提供了自動化

的預防性維護能力。以高亮信息處理場景為例,高亮信息是大型主機特有的從

路由到終端的提示信息,作為監(jiān)控領域的一大痛點,運維人員每天都需要處理

大量的高亮信息,尤其在應用批次投產(chǎn)等特殊時段,甚至一天內(nèi)會出現(xiàn)20余萬

次,運維人員很容易在高亮風暴中忽略關鍵信息。針對上述難點,當利用異構(gòu)

系統(tǒng)運維管理平臺的自動處置功能進行高亮信息治理后,絕大部分高亮信息實

現(xiàn)了系統(tǒng)自動回復,使需要運維人員關注的高亮信息減少了80%以上,有力提

升了運維效率。

三、總結(jié)和展望

綜上所述,本文介紹了一種面向分布式轉(zhuǎn)型的運維管理方法,并基于此方法建

設了異構(gòu)系統(tǒng)運維管理平臺,不僅為預防性維護方法論的落地實現(xiàn)提供了一種

可參考的平臺框架,而且為異構(gòu)運維對象的統(tǒng)一管理維護奠定了能力基礎。與

此同時,該方法通過在異構(gòu)系統(tǒng)運維管理平臺中構(gòu)建標準化數(shù)據(jù)資源池,為實

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論