運維-數據分析_第1頁
運維-數據分析_第2頁
運維-數據分析_第3頁
運維-數據分析_第4頁
運維-數據分析_第5頁
已閱讀5頁,還剩12頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

運維數據分析今天,領先的數字原生企業(yè)不斷用數字化手段顛覆傳統(tǒng)行業(yè),傳統(tǒng)行業(yè)內領先的企業(yè)也在積極擁抱數字化,國家也適時的將“數據”列為生產要素參與分配,推動了以數據為關鍵要素的數字經濟進入了新時代。站在企業(yè)內運營后臺的運維部門,運維屬于數據密集型工作,團隊的價值創(chuàng)造都是在運維數字化工作空間中運作。在運維數字化工作空間中,運維利用各種代理,將人與機器、軟件系統(tǒng)連接在一起,通過線上化的運維流程或規(guī)程將參與者的運維協(xié)同形成連接,再基于“組織、流程、平臺”能力組裝連接成為運維場景,構成了運維的數字化工作空間。今天,如果運維失去了對運維數據的控制,運維連續(xù)性保障將失控,更談不上提升IT服務質量、加快IT交付速度、輔助提升客戶體驗的價值創(chuàng)造。運維數字化空間與滴滴的出行數字化空間類似,滴滴用手機定位這個超級傳感器,將乘客、司機、汽車三個參與者做了一次連接,通過數字地圖將出發(fā)點,目的地、路況、路線圖與參與者又做了一次連接,再通過實時的打車、坐車、評價、信用等運營模式做了連接,形成一個出行的數字化空間。雖然我們正在運維的數字化工作空間中協(xié)同運作,但我們需要正視的是我們對運維數據的認識及應用還處于皮毛,雖有理念但缺乏必要的、可執(zhí)行的方法。隨著運維數據平臺的建設,將極有可能出現當前大數據領域出現的數據孤島、數據不可用、數據質量不高、融合應用難、有數據不會用等諸多問題。上述問題,在當前運維領域資源投入不足顯得尤其重要。如何借鑒大數據領域數據治理的經驗,反思運維數據平臺建設應該關注的問題,減少不必要的坑,做好運維數據治理,讓運維數據更好用,用得更好,完善運維數字化工作空間,是本文的目的。4.5.3.1數據治理背景從1997年“大數據”概念從NASA武器研究中心第一次提出,到2001年gartner提出大數據模型,到2004年google推出的大數據技術論文,到接下來大數據、人工智能、云計算等技術的廣泛應用,再到今天數字時代,企業(yè)已逐漸了解數據所蘊含的價值,對數據的重視程度越來越高,投入大量資源進行大數據研發(fā)與應用。但我們必須承認,國內很多金融企業(yè)在大數據技術應用前并不是很重視數據治理,出現像投入大量資源建設大數據平臺,但用的時候又發(fā)現報表不準、數據質量不高,導致項目沒有達到預期效果的普遍性問題。上述問題促進企業(yè)反思,發(fā)現在數據從采集、存儲、計算、使用過程中,少了數據管理的步驟,即數據治理缺失。今天,數據治理已經被企業(yè)廣泛認可為必要的基礎性工作,以下整理一下數據治理所要解決的痛點:首先,信息孤島,有數不能用。數據孤島可能存在掌握數據的人主觀上不愿意共享,也有客觀上擔心數據共享存在敏感性問題,或數據與數據關聯性不夠導致不能有效連接。第二,數據質量不高,有數不好用。沒有統(tǒng)一的數據標準導致數據難以集成和統(tǒng)一,沒有質量控制導致海量數據因質量過低而難以被利用,沒有能有效管理整個大數據平臺的管理流程。第三,數據不可知,有數不會用。不知道數據平臺中有哪些數據,也不知道這些數據和業(yè)務的關系是什么,不知道平臺中有沒有能解決自己所面臨業(yè)務問題的關鍵數據。第四,數據服務不夠,有數據不可取。用戶即使知道自己業(yè)務所需要的是哪些數據,也不能便捷自助地拿到數據,相反,獲取數據需要很長的開發(fā)過程,導致業(yè)務分析的需求難以被快速滿足,而在數字時代,業(yè)務追求的是針對某個業(yè)務問題的快速分析。在運維領域,運維數據分布在大量的機器、軟件、“監(jiān)管控析”工具軟件上,除了上面大數據領域提到的信息孤島、質量不高、數據不可知、數據服務不夠的痛點外,運維數據還有以下突出痛點:資源投入不夠:從組織定位看,運維屬于企業(yè)后臺中的后臺部門,所做的事甚至都很難讓IT條線的產品、項目、開發(fā)明白“系統(tǒng)架構越來越復雜、迭代頻率越來越高、外部環(huán)境嚴峻等等需要持續(xù)性的運維投入”,更不要說讓IT條線以外部門理解你在做的事,在運維的資源投入通常是不夠的。所以,運維數據體系建設要強調投入產出比,在有限的資源投入下,收獲更多數據價值。數據標準化比例低:運維數據主要包括監(jiān)控、日志、性能、配置、流程、應用運行數據。除了統(tǒng)一監(jiān)控報警、配置、機器日志、ITIL里的幾大流程的數據格式是相關標準,其它數據存在格式眾多、非結構化、實時性要求高、海量數據、采集方式復雜等特點,可以說運維源數據天生就是非標準的,要在“資源投入不夠”的背景下,采用業(yè)務大數據的運作模式比較困難。缺乏成熟的方法:雖然行業(yè)也提出了ITOA、dataOps、AIOps的運維數據分析應用的思路,但是卻缺少一些成熟、全面的數據建模、分析、應用的方法,主流的運維數據方案目前主要圍繞監(jiān)控、應急領域探索。缺乏人才:如“資源投入不夠”這點提到的背景,因為投入不足,很難吸引到足夠人才投入到運維數據分析領域。通俗一點來說,就是運維數據分析要借鑒當前傳統(tǒng)大數據領域的數據治理的經驗,提高投入產出比,少走彎路,少跳坑。4.5.3.2運維數據治理定位以終為始,先分析運維數據應用場景。在《數智萬物下,重新思考運維價值》中,我總結過“增強業(yè)務連續(xù)性保障、提升軟件交付效率、提高IT服務質量、輔助提升客戶體驗”四個運維價值創(chuàng)造的舉措,其中與運維數據息息相關的舉措大概有如下內容:以“連接網絡+數據驅動”重塑“監(jiān)管控析”運維平臺化能力,全面提升業(yè)務連續(xù)保障能力(加強連續(xù)性保障)。以主動的運行數據分析,挖掘系統(tǒng)架構及應用系統(tǒng)的潛在運行風險,反向推進應用架構的健壯性提升(加強連續(xù)性保障)。利用運行數據運營分析,快速交付線上系統(tǒng)、產品、運營活動的運營實時分析看板,輔助業(yè)務決策(提升軟件交付效率)。建立系統(tǒng)退出機制,數據驅動釋放IT資源(提升軟件交付效率)。增加客戶行為數據的收集與分析,為產品設計的決策提供輔助數據(輔助提升客戶體驗)。加強業(yè)務系統(tǒng)的性能管理,推動優(yōu)化系統(tǒng)響應效率,提升客戶體驗(輔助提升客戶體驗)。模擬客戶行為操作監(jiān)控,提前發(fā)現并解決潛在問題(輔助提升客戶體驗)。建立評價IT服務質量的管理模型,以數據驅動IT運營效能提升(提高IT服務質量)。建立統(tǒng)一的IT服務目錄,開放面向性能、運營、客戶體驗等方向的數據分析能力(提高IT服務質量)。監(jiān)控數據:監(jiān)控事件報警數據、監(jiān)控性能/KPI指標數據兩類,特點是實時、代理、海量、時序為主。日志數據:機器運行日志、系統(tǒng)日志、應用日志,特點是海量、實時、非結構化、格式不統(tǒng)一、有業(yè)務相關數據。性能數據:APM、NPM、BPM,或應用主動上報的性能數據,特點是海量、實時、貼近業(yè)務與用戶體驗、鏈路關系、格式不統(tǒng)一。配置數據:圍繞CMDB的配置CI、關系、架構數據,特點是CMDB方案較成熟,關系與架構數據復雜但自發(fā)現能力困難。流程數據:圍繞ITSM,以及其他運維場景工具(監(jiān)管控析、安全、CMP等)記錄的數據,特點是關鍵流程基于ITSM、實時性不夠、大量瑣碎工作來源于各類工具。應用運行數據:記錄在業(yè)務系統(tǒng)數據庫中的系統(tǒng)運行數據,特點是與系統(tǒng)相關、貼近業(yè)務與用戶體驗、依賴研發(fā)支持、格式不統(tǒng)一。在上一篇《他山之石之運維數據》中,我舉例過當前常見的運維數據平臺項目有以下三種方式:基于特定場景的數據分析應用:這種方案以運維痛點為切入點,針對特定的場景選擇特定的數據,在解決方案上強調數據質量與算法?!氨O(jiān)管控析”分別管理數據,在上面建立一層匯集層。比如監(jiān)控負責存儲監(jiān)控性能與事件數據,日志平臺負責存儲日志數據,CMDB存儲配置數據,ITSM存儲流程數據等。這種方式,通常是先有工具的功能使用,再有運維數據分析需求。統(tǒng)一的運維大數據平臺。這種思路通常拿一套大數據架構,日志用ELK或ELG,實時數據分析用fink,監(jiān)控數據放influxDB等時序數據庫,消費中間件用KAFKA……可以看出,上面三種方式構建的運維數據體系主要包括:“技術平臺+應用場景”兩個部分組成,其中技術平臺指支撐運維海量數據的“采、存、算、管、用”的技術架構,算法也屬于技術平臺的一部分;應用場景指數據的“用”,包括:面向人使用的可視化、低代碼/服務化的開發(fā)工具,以及面向系統(tǒng)使用的數據服務API、感知或決策類的可視化、驅動自動化。鑒于運維數據有著來源多、標準化、實時、海量、非結構化、格式不統(tǒng)一等特點,僅從“技術平臺+應用場景”兩個角度看運維數據平臺,很容易將運維數據相關項目建成一個個數據孤島式的數據應用場景,無法發(fā)揮數據價值。需要在“技術平臺+應用場景”的基礎中,加上“運維數據治理”,三者關系相輔相成,缺少技術平臺則失去基礎,缺少應用場景則失去價值,缺少運維數據治理則不具備擴展性?;凇凹夹g平臺、應用場景、數據治理”三個部件構成的運維數據體系的關系可以考慮有以下架構圖,右下是針對技術平臺提供的“采存算管用”的技術解決方案,右上是針對數據應用場景,左邊是運維數據治理??偨Y下,運維數據治理是運維數據體系三大關鍵之一,運維數據治理要借鑒傳統(tǒng)大數據領域數據治理的成熟方法,結合運維領域特點打造運維數據治理方法,以獲得高質量、完整、互聯的數據,構建持續(xù)優(yōu)化型的數據生命周期管理,讓運維數據更好用,用得更好,以完善運維數字化工作空間。4.5.3.3運維數據治理主要內容大數據領域的數據治理主要包括元數據、主數據、數據標準、數據質量、數據模型、數據安全、數據生命周期7部分內容,以下結合運維領域特點,談一下我對運維數據治理的內容。1、元數據管理因為后面還會提到主數據、交易數據,講元數據前我覺得有必要介紹一下三者區(qū)別:交易數據:描述具體的事件或行為,通常是某個時間發(fā)生的行為,比如運維里的端終性能、客戶行為、監(jiān)控KPI指標、監(jiān)控報警、日志等數據。主數據:具有穩(wěn)定、可共享、權威、關系等特征的數據,比如主機、架構、拓撲關系、人員關系、流程、域名等數據。元數據:元數據是指描述數據的數據,是指從信息資源中抽取出來說明數據特征、內容的結構化的數據,用于組織、描述、檢索、保存、管理。運維數據的應用中,我們通常對不同數據采用不同的技術方案,比如日志放在ES,監(jiān)控KPI指標數據與工具選型有關,這種源端數據分散的現狀導致我們的運維數據指標的分析口徑不清晰,出現數據問題很難追遡。元數據這種對于數據的描述、來源、口徑等管理,有助于我們管理動態(tài)、分散在各處的數據,形成數據服務目錄體系,就類似于圖書館圖書的檢索信息、數字地圖中一個道路的位置信息,運維領域源端的日志解析規(guī)則、監(jiān)控報警字段描述、監(jiān)控KPI時序數據描述等,也屬于運維元數據。2、主數據管理主數據在信通院發(fā)布的《主數據管理實踐白皮書1.0》中的定義是:“指滿足跨部門業(yè)務協(xié)同需要的、反應核心業(yè)務實體狀態(tài)屬性的組織機構的基礎信息。主數據相對交易數據而言,屬性相對穩(wěn)定,準確度要求更高,唯一識別?!敝鲾祿芾硎侵敢徽子糜谏珊途S護主數據的規(guī)范、技術和方案,以保證主數據的完整性、一致性和準確性。主數據與交易數據不同,主數據的內容具有穩(wěn)定、可共享、權威幾個特征??偨Y一下運維主數據的主要數據:與機器相關的:環(huán)控、機房、網絡、服務器、存儲等。與軟件相關的:系統(tǒng)軟件、數據庫、中間件、應用系統(tǒng)、DNS等。與關系相關的:部署架構、邏輯架構、調用鏈路、上下游關系等。與人相關的:運維內(運維操作、SRE、運維開發(fā)、流程經理等)、IT部(開發(fā)、產品、測試等)、IT外的業(yè)務人員、客服、客戶等。與流程相關的:與ITIL相關的變更、事件、問題、配置等,以及團隊內協(xié)同規(guī)程等。與規(guī)則相關的:監(jiān)控策略、性能管理、容量管理等。3、數據標準管理數據標準是為了規(guī)范對數據的統(tǒng)一理解,促進數據共享,增強跨團隊協(xié)作中對數據定義與使用的一致性,降低溝通成本。數據標準通常包括組織架構、標準制度、管控流程、技術體系四個方向,應用統(tǒng)一的數據定義、數據分類、編碼規(guī)范,以及數據字典等。在運維領域數據標準可以考慮如下:組織架構:確定運維元數據、主數據、交易數據涉及的管理決策、數據業(yè)主、運營、質量、消費等團隊或崗位角色,以及所涉及的責權利。標準制度:圍繞源端數據制定分類、格式、編碼等規(guī)范,制定日志、報警、性能指標等數據標準,這里的標準應該與技術規(guī)范區(qū)別開。管控流程:要對運維數據管理的供應、變更、申請、共享、質量、運營等流程進行規(guī)范化、線上化。技術體系:綜合考慮平臺架構、接口規(guī)范、應用場景等,圍繞運維數據的“采存算管用”建立運維數據平臺。4、數據質量管理數據質量管理是指針對數據從計劃、獲取、存儲、共享、維護、應用、消亡生命周期的每個階段里可能引發(fā)的數據質量問題,進行識別、度量、監(jiān)控、預警等管理活動,并通過改善和提高組織的管理水平提高數據質量。相比其它數據,運維數據有如下特點:海量的非結構化數據、秒級以內的實時數據、源端數據標準化程度低、應用場景對實時性要求高、資源投入低、缺乏經驗指導。所以,運維數據質量管理,應該聚焦在有限資源的背景下,圍繞實時、在線、準確、完整、有效、規(guī)范等關鍵字推進。5、數據模型管理數據建模是基于對業(yè)務數據的理解和數據分析的需要,將各類數據進行整合和關聯,使得數據可以最終以可視化的方式呈現,讓使用者能夠快速地、高效地獲取到數據中有價值的信息,從而做出準確有效的決策。運維數據的模型管理方面,一是要借鑒傳統(tǒng)業(yè)務大數據的指標數據模型設計方法,畢竟大數據的數據模型已經在很多實時的反欺詐,非實時的海量數據分析等領域成熟運用多年;二要結合運維數據消費場景實時、準確等特征,利用流式計算方式區(qū)分源端原始數據,旁路后的加工數據,根據規(guī)則生成的指標數據等方式,設計運維實時數據模型;6、數據安全管理數據安全管理是實現數據安全策略和流程的制訂,數據安全管理需要遵循國家、行業(yè)的安全政策法規(guī),比如網絡安全法,等級保護,個人隱私安全等要求。另外,數據治理將依賴數據來源、內容、用途進行分類,所以數據安全管理還要求對數據內容敏感程度、影響等進行分級分類。運維數據都是生產數據,生產數據的安全管理,要從技術、管理兩個角度對環(huán)境、研發(fā)、測試、運營、消費進行全流程的安全管理。7、數據生命周期管理與軟件生命周期(SDLC)管理類似,數據也有生命周期,通常是指數據從產生、采集、存儲、整合、分析、消費/應用、歸檔、銷毀等過程的數據管理。數據價值決定著數據全生命周期過程的管理方式,數據價值可能會隨著時間的變化而遞減,影響著采集粒度、時效性、存儲方式、分析應用、場景消費等。數據生命周期管理對于運維是比較好理解,以存儲方式為例,在運維過程中為了保障系統(tǒng)穩(wěn)定性,提升系統(tǒng)性能,我們會對關系型數據進行分庫設計,對日志數據進行在線、近線、離線的數據存儲方式。對運維數據生命周期各個階段的特點采取不同的管理方法和控制手段,能從數據中挖掘出更多有效的數據價值。4.5.3.4以場景驅動運維數據治理從上一節(jié)可以看出,數據治理是一個復雜的工程性工作,每一部分內容范圍很大,涉及大量資源投入,如果要全面鋪開做運維數據治理,資源無法保障。所以,我認為運維數據治理要直擊實際問題,以應用場景為驅動,選擇必要的治理內容,有側重、有步驟的推行運維數據治理。本節(jié)從運維指標體系角度,談談我對運維指標體系建設過程中的數據治理內容。先簡單聊一下運維指標體系的背景。運維指標體系的建設主要基于運維研發(fā)效能、運維數據自助服務、運維平臺擴展性的痛點提出的解決方案。希望通過建立運維指標體系,能夠不斷沉淀可復用、可共享、可組裝的數據指標,并基于標準化的指標建立自助式、低代碼的數據應用工具,最終達到提升運維數據研發(fā)需求的交付速度,提升端到端的研發(fā)效能。而在指標研發(fā)過程中,很容易出現同一個指標重復建模、開發(fā),不僅導致工作量成倍增加,指標溝通成本過高,還帶來一致性問題,需要引入數據治理的元數據、主數據、標準的內容。元數據定義運維指標。舉個例子,針對特定業(yè)務的實時運行看板是我們比較常見的運維數據研發(fā)需求,這類看板通常涉及多個系統(tǒng)的數據開發(fā),理論上前期開發(fā)的數據指標可以為后面的需求提供基礎,但由于數據指標的處理邏輯寫在代碼上,指標定義不清導致實際的復用性很低。運維數據指標的元數據描述了指標是什么,如何生成,統(tǒng)計口徑是什么,數據相關方是誰等基本信息,可以說元數據定義了運維指標??梢钥紤]分:基本信息、統(tǒng)計信息、口徑信息、管理信息?;拘畔ⅲ罕热缍x指標分類(硬件指標,軟件性能,業(yè)務運營、交易等),指標編號(唯一識別編號),指標屬性信息(中文名稱、英文名稱、指標描述等)等。統(tǒng)計信息:指標維度(按機房、機架、主機、系統(tǒng)、渠道、功能號、相關干系人或部門等),統(tǒng)計周期(采集、計算、消費使用的周期),數據格式(數據類型,長度要求等)等。口徑信息:指標類型(基礎指標、組合指標)、數據來源(統(tǒng)一日志系統(tǒng)、集中監(jiān)控系統(tǒng)、統(tǒng)一監(jiān)控事件工具等)、數據產生方式(手填報、系統(tǒng)加工等)、數據加工口徑等。管理信息:數據業(yè)主,數據供應方、維護時間與人員等。主數據管理指標維度。在上面的元數據管理中提到指標維度,舉個例子,在業(yè)務連續(xù)保障管理中的“互聯網交易量”指標,我們遇到從多個不同維度去統(tǒng)計分析交易量指標,比如:系統(tǒng)、站點、終端類型、終端版本、功能號、機構等,這些維度在互聯網相關的其他運營、性能指標中同樣也會用到。上述的維度信息在指標體系中尤其重要,具有穩(wěn)定、可共享、權威、連接性等特征,適合作為運維主數據管理。在運維領域中,CMDB配置是運維“監(jiān)管控析”運維平臺體系要實現互聯互通的核心數據,在眾多運維場景中都將被共享使用。傳統(tǒng)CMDB已經實現了操作系統(tǒng)、主機、計算資源、存儲資源、網絡、機房等信息的配置管理,應用CMDB則從主機進一步向主機上的應用系統(tǒng)、模塊、軟件、上下游關系、終端、應用配置、環(huán)境配置等擴展。通過CMDB持續(xù)建設將各維度的配置數據、關系數據、架構數據都由CMDB統(tǒng)一管理,CMDB具備演進為主數據庫的條件。數據標準規(guī)范指標源數據。運維指標的生產流程通常包括:采集原始數據,根據模型規(guī)則引擎加工數據,寫入指標流水,指標消費應用。其中“根據模型規(guī)則引擎加工數據”是一個工作量大、瑣碎的步驟,要減少加工步驟的返工,保證數據加工過程穩(wěn)定,并生成正確的指標流水數據,需要確保采集的原始數據的類型、長度、周期等信息可靠。另一邊,運維指標數據來源于數據監(jiān)控、日志、性能、配置、流程、應用運行6類數據,每一類數據的源端很多。以監(jiān)控體系為例,監(jiān)控包括了多個層次,多個監(jiān)控工具共同運作,需要規(guī)范各個監(jiān)控工具生成的性能KPI指標、報警數據的標準化。所以,利用數據治理中的數據標準的制定,有助于規(guī)范數據平臺建設時對數據的統(tǒng)一理解,規(guī)范指標源數據的標準化,減少數據出錯,增強數據定義與使用的一致性,降低溝通成本。關于運維指標體系與數據質量(如何推進運維指標的實時、在線、準確、完整、有效、規(guī)范)、數據模型(如何線上化指標模型設計,映射到實體)、數據安全(如何有效控制指標在研發(fā)、運營、消費時的安全)、數據生命周期(如何針對性制定指標數據的存儲、時效性)的其它思路,后續(xù)實踐后再進一步分析。這里再重復本節(jié)點的主要觀點:運維數據治理要直擊實際問題,以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論