版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
中國建設(shè)銀行ITIT運(yùn)維體系建設(shè)總體規(guī)劃方案北京神州泰岳軟件股份有限公司1IT運(yùn)維規(guī)劃總體設(shè)計(jì)思路 3 31.1.1在一體化全方位管理基礎(chǔ)上充分考慮7層12P的新一代目標(biāo)架構(gòu) 31.1.2從“以IT為中心”上升到“以業(yè)務(wù)為中心” 51.1.3為大規(guī)模虛擬化集群及SOA組件服務(wù)提供必要管理手段 62IT運(yùn)維管理體系總體設(shè)計(jì) 73建設(shè)功能描述 3.1監(jiān)控管理體系 3.1.2應(yīng)用監(jiān)控 3.1.3跨系統(tǒng)交易監(jiān)控 3.2綜合分析體系 403.2.1總體分析平臺(tái)設(shè)計(jì) 403.2.2統(tǒng)計(jì)分析分類 3.3自動(dòng)化管理體系 543.4配置管理數(shù)據(jù)庫(CMDB) 573.5服務(wù)管理體系 583.5.1ITIL核心流程 錯(cuò)誤!未定義書簽。3.5.2知識(shí)庫管理 錯(cuò)誤!未定義書簽。3.5.3值班管理 錯(cuò)誤!未定義書簽。3.6統(tǒng)一展示體系 3.6.2大屏呈現(xiàn) 651IT運(yùn)維規(guī)劃1IT運(yùn)維規(guī)劃總體設(shè)計(jì)思路隨著我行的IT系統(tǒng)不斷建設(shè)與完善,在新一代業(yè)務(wù)系統(tǒng)統(tǒng)一規(guī)劃與建設(shè)過程中,對(duì)系統(tǒng)的運(yùn)行維護(hù)也需進(jìn)行整體規(guī)劃。我們將建立一套以客戶為中心,以業(yè)務(wù)為導(dǎo)向的綜合運(yùn)維管理體系,對(duì)各類物理資源和虛擬資源實(shí)現(xiàn)全方位、一體化的集中管理模式,遵循IT運(yùn)維相關(guān)規(guī)范,建立起包含集中監(jiān)控管理、自動(dòng)化運(yùn)維管理、統(tǒng)一配置管理CMDB、統(tǒng)一流程平臺(tái)、綜合分析分析、綜合展示為核心的一體化運(yùn)維管理平臺(tái),從物理資源管理深入到虛擬資源管理,為大規(guī)模虛擬化集群以及SOA組件服務(wù)提供必要管理手段,同時(shí)不斷提升用戶感知和用戶體驗(yàn),以業(yè)務(wù)的視角關(guān)注系統(tǒng)健康狀況,從IT管理上升到業(yè)務(wù)服務(wù)管理,逐步奠定我行新一代綜合運(yùn)維平臺(tái)“國內(nèi)領(lǐng)先、國際一流”的地位。批注[雨林木風(fēng)1]:請(qǐng)補(bǔ)充相關(guān)文字一代目標(biāo)架構(gòu)一體化的全方位管理,將實(shí)現(xiàn)對(duì)新一代業(yè)務(wù)系統(tǒng)支撐的資源包括物理資源和虛擬資源進(jìn)行一體化監(jiān)控,同時(shí)結(jié)合7層(渠道整合層、客戶服務(wù)整合層、應(yīng)用集成層、外聯(lián)集成層、產(chǎn)品服務(wù)層、數(shù)據(jù)集成層、管理分析層)12個(gè)域(渠道整合技術(shù)服務(wù)平臺(tái)、客戶服務(wù)應(yīng)用整合服務(wù)平臺(tái)、應(yīng)用集成服務(wù)平臺(tái)、外聯(lián)集成控制服務(wù)平臺(tái)、在線交易處理服務(wù)、支付服務(wù)平臺(tái)、數(shù)據(jù)集成服務(wù)平臺(tái)、管理分析服務(wù)平臺(tái)、在線交易處理服務(wù)平臺(tái)、事件控制服務(wù)平臺(tái))的新一代業(yè)務(wù)平臺(tái)核心設(shè)計(jì)理念,建立一套完整的“集中管理、集中監(jiān)控、集中運(yùn)維、集中配置”的綜合運(yùn)維管理體系。綜合展示平臺(tái)綜合展示平臺(tái)大屏展示研發(fā)測(cè)試及系統(tǒng)部署綜合評(píng)估自動(dòng)化管理平臺(tái)CMDB研發(fā)測(cè)試及系統(tǒng)部署綜合評(píng)估自動(dòng)化管理平臺(tái)CMDB運(yùn)維優(yōu)化綜合分析平臺(tái)服務(wù)流程平臺(tái)監(jiān)控管理平臺(tái)監(jiān)控管理平臺(tái)云基礎(chǔ)架構(gòu)統(tǒng)一管理云基礎(chǔ)架構(gòu)統(tǒng)一管理生產(chǎn)環(huán)境生產(chǎn)環(huán)境測(cè)試環(huán)境測(cè)試環(huán)境研發(fā)環(huán)境研發(fā)環(huán)境建立IT監(jiān)控管理體系,通過前期的建設(shè),目前CMP系統(tǒng)已經(jīng)實(shí)現(xiàn)了對(duì)開放平臺(tái)物理資源的監(jiān)管,已經(jīng)收到了良好的成效,從CMP系統(tǒng)對(duì)被管對(duì)象的故障發(fā)現(xiàn)率、故障發(fā)現(xiàn)及時(shí)性、準(zhǔn)確性、有效性,告警信息通知到人的及時(shí)、準(zhǔn)確性,監(jiān)控覆蓋面以及CMP系統(tǒng)的自身運(yùn)行情況幾個(gè)角度的實(shí)際使用效果來考量,CMP系統(tǒng)已經(jīng)初步建設(shè)成為了穩(wěn)定、準(zhǔn)確、高效、全面的監(jiān)控系統(tǒng),為日常的運(yùn)維工作提供了有力的保障,下一步將在該平臺(tái)基礎(chǔ)上進(jìn)一步完善物理資源監(jiān)控,繼續(xù)深入監(jiān)控的粒度、廣度;同時(shí)通過TPMS系統(tǒng)逐步深入到關(guān)鍵業(yè)務(wù)交易內(nèi)部,實(shí)現(xiàn)業(yè)務(wù)交易全路徑展示和端到端的分析;從物理資源管理邁入到虛擬資源管理,逐步對(duì)各類虛擬資源的全面監(jiān)控,最終實(shí)現(xiàn)監(jiān)控全方位、立體化、智能化的全方位管理,構(gòu)建一套先進(jìn)的監(jiān)控管理體系和平臺(tái)。建立IT服務(wù)管理體系,實(shí)現(xiàn)“五個(gè)轉(zhuǎn)變”:建立集中統(tǒng)一的IT服務(wù)組織管理模式,實(shí)現(xiàn)IT服務(wù)由分散管理向集中管理轉(zhuǎn)變;建立體系化的管理制度和績效考核指標(biāo),實(shí)現(xiàn)IT服務(wù)由粗放管理向精細(xì)管理轉(zhuǎn)變;建立規(guī)范標(biāo)準(zhǔn)的IT服務(wù)管理流程,實(shí)現(xiàn)IT服務(wù)由職能管理向流程管理轉(zhuǎn)變;建立統(tǒng)一的用戶服務(wù)窗口,實(shí)現(xiàn)IT服務(wù)由無序管理向有序管理轉(zhuǎn)變;建立先進(jìn)、實(shí)用、高效的IT服務(wù)管理平臺(tái),實(shí)現(xiàn)IT服務(wù)管理水平和能力的提升。建立自動(dòng)化管理體系,實(shí)現(xiàn)日常管理的自動(dòng)化操作,如日常巡檢、故障智能化處理、虛擬資源分配與變更處理、配置變更審計(jì)、軟件自動(dòng)裝載等,將日常運(yùn)維只是進(jìn)行固化,以減輕復(fù)雜的日常運(yùn)維帶來的龐大工作量。建立統(tǒng)一配置管理數(shù)據(jù)庫,隨著IT基礎(chǔ)架構(gòu)越來越復(fù)雜,越來越龐大,IT資產(chǎn)已經(jīng)成為運(yùn)營過程中很重要的管理對(duì)象。為了統(tǒng)一管理、共享資源,我行需要建立集中、統(tǒng)一的配置管理數(shù)據(jù)庫,實(shí)現(xiàn)各類配置資源集中化、規(guī)范化的管理。建立綜合分析體系,經(jīng)過前期的系統(tǒng)建設(shè),各類系統(tǒng)已經(jīng)采集并存儲(chǔ)了海量數(shù)據(jù),數(shù)據(jù)范圍涉及到了告警、性能、配置項(xiàng)、業(yè)務(wù)、運(yùn)營、運(yùn)維等多領(lǐng)域,如何將這些數(shù)據(jù)進(jìn)行有效的利用、分析為系統(tǒng)規(guī)范、系統(tǒng)分析、決策判斷提供準(zhǔn)確的依據(jù)成為系統(tǒng)發(fā)展的瓶頸。為更好的利用既有數(shù)據(jù),服務(wù)于業(yè)務(wù)運(yùn)營,提升業(yè)務(wù)運(yùn)營質(zhì)量,通過建設(shè)綜合分析平臺(tái)進(jìn)行綜合化的分析,分析中心主要面向管理人員、業(yè)務(wù)人員,維護(hù)人員,通過對(duì)既有數(shù)據(jù)進(jìn)行多視角、多維度的分析,直觀展示業(yè)務(wù)、應(yīng)用及系統(tǒng)的運(yùn)行狀況、發(fā)展趨勢(shì),最終為系統(tǒng)擴(kuò)容優(yōu)化、業(yè)務(wù)質(zhì)量提升提供運(yùn)維數(shù)據(jù)支持。建立綜合展示體系,通過建立IT運(yùn)維部門統(tǒng)一的門戶和大屏,為業(yè)務(wù)支撐部門內(nèi)包括部門領(lǐng)導(dǎo)、業(yè)務(wù)管理人員、運(yùn)維人員、值班監(jiān)控人員在內(nèi)的各層用戶提供統(tǒng)一的展示平臺(tái),實(shí)現(xiàn)統(tǒng)一用戶、統(tǒng)一認(rèn)證,不斷增強(qiáng)運(yùn)維平臺(tái)提升展示效果,積極提升用戶體驗(yàn)。我們將以業(yè)務(wù)為中心進(jìn)行IT運(yùn)維管理,和傳統(tǒng)的以IT為中心管理所關(guān)注的層面和建設(shè)的思路存在著本質(zhì)的區(qū)別。以業(yè)務(wù)為中心需要站在業(yè)務(wù)層面進(jìn)行系統(tǒng)的維護(hù)管理和深入剖析,傳統(tǒng)的以IT為中心的管理則只關(guān)注設(shè)備運(yùn)行情況、設(shè)備故障情況以及設(shè)備故障處理??梢哉f,以業(yè)務(wù)為中心不僅需要建設(shè)以IT為中心的日常運(yùn)維管理,還要對(duì)業(yè)務(wù)過程、業(yè)務(wù)數(shù)據(jù)甚至交易過程等進(jìn)行全方位的管理,并深入分析業(yè)務(wù)數(shù)據(jù),從業(yè)務(wù)本身情況,對(duì)IT進(jìn)行高層次的管理和應(yīng)用。新一代運(yùn)維管理平臺(tái)我們將摒棄以往割裂的看到服務(wù)器、應(yīng)用以及業(yè)務(wù)的監(jiān)控和處理方式,以業(yè)務(wù)為主線,從底層資源到上層業(yè)務(wù)進(jìn)行整體的監(jiān)控和關(guān)聯(lián)分析,以嶄新的業(yè)務(wù)視角來進(jìn)行管理,把業(yè)務(wù)服務(wù)的可用性和性能狀態(tài),與底層IT平臺(tái)部件和業(yè)務(wù)部件關(guān)聯(lián)起來,以便提供一個(gè)以業(yè)務(wù)為中心的IT服務(wù)平臺(tái),來支撐業(yè)務(wù)的運(yùn)營。同時(shí)基于ARM規(guī)范逐步批注[雨林木風(fēng)2]:批注[雨林木風(fēng)2]:請(qǐng)調(diào)整實(shí)現(xiàn)對(duì)業(yè)務(wù)交易的監(jiān)控,對(duì)交易線進(jìn)行監(jiān)控的意義在于交易線是面向業(yè)務(wù)邏輯的,而不是面向業(yè)務(wù)系統(tǒng)的。這就使得監(jiān)控管理能夠細(xì)化到各業(yè)務(wù)環(huán)節(jié)一級(jí),監(jiān)控每個(gè)業(yè)務(wù)環(huán)節(jié)在整個(gè)業(yè)務(wù)處理過程中的性能狀況,使業(yè)務(wù)處理全過程對(duì)運(yùn)維人員可見、可控,徹底改變目前業(yè)務(wù)管理長期處于被動(dòng)局面的最直接和有效的技術(shù)手段。通過業(yè)務(wù)和交易監(jiān)控,最終實(shí)現(xiàn)如下目標(biāo):通過對(duì)業(yè)務(wù)性能數(shù)據(jù)進(jìn)行綜合分析和業(yè)務(wù)系統(tǒng)優(yōu)化分析,找出系統(tǒng)瓶頸,為系統(tǒng)升級(jí)及優(yōu)化提供量化參考依據(jù)。對(duì)業(yè)務(wù)交易各處理環(huán)節(jié)進(jìn)行監(jiān)控,直觀的展現(xiàn)業(yè)務(wù)交易流轉(zhuǎn)路徑,反映每個(gè)關(guān)鍵處理環(huán)節(jié)的性能狀況,是運(yùn)維人員具備對(duì)用戶投訴做出快速響應(yīng)的能力。對(duì)業(yè)務(wù)交易進(jìn)行真正意義的實(shí)時(shí)監(jiān)視,使運(yùn)維部門具有主動(dòng)性的監(jiān)控能力,快速發(fā)現(xiàn)當(dāng)前故障,同時(shí)做到盡早發(fā)現(xiàn)可能的故障隱患。理手段理手段隨著云計(jì)算技術(shù)的逐漸成熟,其應(yīng)用逐步進(jìn)行擴(kuò)展,在我行新一代業(yè)務(wù)系統(tǒng)的建設(shè)中,云計(jì)算將是一個(gè)重點(diǎn)建設(shè)平臺(tái),而如何以云平臺(tái)作為基礎(chǔ),進(jìn)行日常的運(yùn)行維護(hù)管理,也將是新一代規(guī)劃的一個(gè)重點(diǎn)。因此在運(yùn)維平臺(tái)建設(shè)中,需實(shí)現(xiàn)面向基礎(chǔ)的云設(shè)施的一體化管理,并結(jié)合云服務(wù)的提供,建立自動(dòng)化管理機(jī)制,為我行云計(jì)算管理奠定好根基,為后續(xù)云計(jì)算的拓展建設(shè)和運(yùn)行維護(hù)打下基礎(chǔ),針對(duì)我行的實(shí)際情況,云管理主要包括以下主要內(nèi)容:云資源監(jiān)控:可以統(tǒng)一管理多種虛擬平臺(tái),包括VMwarevSphere(包括ESX版本)、CitrixXenServer,能夠提供物理主機(jī)設(shè)備、以及部署在其上的虛擬機(jī)狀態(tài)監(jiān)控,并能夠?qū)崿F(xiàn)虛擬機(jī)部署的自動(dòng)發(fā)現(xiàn)和自動(dòng)監(jiān)控;云資源分析:生產(chǎn)云的監(jiān)控(包括基礎(chǔ)物理平臺(tái)監(jiān)控、生產(chǎn)虛機(jī)監(jiān)控及應(yīng)用監(jiān)控)納入統(tǒng)一運(yùn)維管理系統(tǒng),能夠提供云計(jì)算平臺(tái)整體及各個(gè)子云的資源使用狀況、資源使用趨勢(shì)等指標(biāo)進(jìn)行監(jiān)控并能給出直觀的報(bào)告;云資源分配:對(duì)虛擬化平臺(tái)的管理功能包括:新建、擴(kuò)容、克隆、遷移、回收等。通過自動(dòng)化的虛擬資源管理可以大大提高虛擬資源的分配效率,降低人為操作失誤概率,從而實(shí)現(xiàn)減少人力成本。監(jiān)控管理平臺(tái)批注[雨林木風(fēng)3]:請(qǐng)根據(jù)上圖,補(bǔ)充相關(guān)文字,同時(shí)補(bǔ)充圖中綜合分析部分2評(píng)估治理研發(fā)測(cè)試及系統(tǒng)部署運(yùn)維優(yōu)化服務(wù)流程平臺(tái)自動(dòng)化管理平臺(tái)CMDB12個(gè)P平臺(tái)115個(gè)組件監(jiān)控管理平臺(tái)批注[雨林木風(fēng)3]:請(qǐng)根據(jù)上圖,補(bǔ)充相關(guān)文字,同時(shí)補(bǔ)充圖中綜合分析部分2評(píng)估治理研發(fā)測(cè)試及系統(tǒng)部署運(yùn)維優(yōu)化服務(wù)流程平臺(tái)自動(dòng)化管理平臺(tái)CMDB12個(gè)P平臺(tái)115個(gè)組件ITIT運(yùn)維管理體系總體設(shè)計(jì)綜合展現(xiàn)平臺(tái)綜合展現(xiàn)平臺(tái)綜合分析平臺(tái)綜合分析平臺(tái)服務(wù)門戶自助訂購合規(guī)策略服務(wù)優(yōu)化服務(wù)發(fā)布快速部署服務(wù)驗(yàn)證云基礎(chǔ)架構(gòu)統(tǒng)一管理服務(wù)門戶自助訂購合規(guī)策略服務(wù)優(yōu)化服務(wù)發(fā)布快速部署服務(wù)驗(yàn)證服務(wù)服務(wù)目錄附圖1.總體架構(gòu)設(shè)計(jì)經(jīng)過多年建設(shè),我行圍繞著IT運(yùn)維標(biāo)準(zhǔn)規(guī)范和最佳實(shí)踐,初步建立起一套較為成熟的運(yùn)維管理體系,涵蓋了以監(jiān)控、服務(wù)流程、CMDB、自動(dòng)化運(yùn)維為核心的IT總體運(yùn)維框架。我行目前采用了神州泰岳Ultra-NMS和BMCAgent產(chǎn)品組合方式,實(shí)現(xiàn)對(duì)開放平臺(tái)各類服務(wù)器、數(shù)據(jù)庫、中間件的監(jiān)控;采用了IBMNetCool產(chǎn)品實(shí)現(xiàn)了對(duì)整體網(wǎng)絡(luò)環(huán)境的監(jiān)控;采用了基于ARM的交易監(jiān)控方式實(shí)現(xiàn)了對(duì)業(yè)務(wù)交易線的監(jiān)控;采用了CAServiceDeskManager產(chǎn)品實(shí)現(xiàn)日常運(yùn)維工作的流程化、規(guī)范化、電子化;采用了BMCAtriumCMDB產(chǎn)品實(shí)現(xiàn)了統(tǒng)一配置數(shù)據(jù)庫管理;采用了HpOpsware基本實(shí)現(xiàn)了運(yùn)維管理自動(dòng)化。下一步我們將完善運(yùn)維管理體系,將整體運(yùn)維管理體系覆蓋到綜合分析、綜合展示以及虛擬化資源監(jiān)控等領(lǐng)域,不斷提升我行整體運(yùn)維管理水平,積極提升運(yùn)維部門對(duì)外形象,保障核心生產(chǎn)系統(tǒng)的安全生產(chǎn)和業(yè)務(wù)的穩(wěn)定發(fā)展。新一代運(yùn)維管理規(guī)劃將重點(diǎn)關(guān)注以下幾個(gè)主要方面的內(nèi)1.將管理范圍從傳統(tǒng)的基于物理平臺(tái)拓展到基于物理+虛擬化平臺(tái),包括:物理平臺(tái):網(wǎng)絡(luò)設(shè)備,服務(wù)器,存儲(chǔ),數(shù)據(jù)庫,中間件,安全設(shè)備,動(dòng)力環(huán)境等。虛擬平臺(tái):小機(jī)虛擬化(LPAR,VPAR,ZONEx86虛擬化(Vmware,Citrix,Hyper-V,RedHat),桌面虛擬化(ICA-VDI)。虛擬化資源管理不等于虛擬機(jī)管理。虛擬化資源除虛擬機(jī)(VM)外,還包括虛擬化平臺(tái)本身(如ESX,VC虛擬化資源池(ResourcePool虛擬化存儲(chǔ)(DataStor),虛擬化集群(Cluster)及動(dòng)態(tài)負(fù)載分配(DRS)等內(nèi)容,單一的虛擬機(jī)層面的監(jiān)管不完整。虛擬化平臺(tái)自身的穩(wěn)定性會(huì)影響其上層承載應(yīng)用的性能及穩(wěn)定性,通常很難定位問題的根源,需要考慮一體化的綜合分析手段。對(duì)虛擬化的池化資源及相關(guān)設(shè)施應(yīng)該制定統(tǒng)一的管理標(biāo)準(zhǔn)及管理措施。2.將傳統(tǒng)的針對(duì)應(yīng)用自身的監(jiān)管拓展到“應(yīng)用管理+平臺(tái)管理+SOA組件管理”三個(gè)維度。單純從應(yīng)用自身監(jiān)管的維度來嘗試將管理層次提升到“面向業(yè)務(wù)”的水平,在建行新一代系統(tǒng)中不可行。考慮到新一代的設(shè)計(jì)理念大量采用SOA架構(gòu),并將原有的300多個(gè)應(yīng)用利用統(tǒng)一的ESB總線接口及12個(gè)P平臺(tái)來完成整合,因此在管理平臺(tái)的設(shè)計(jì)中,追加了SOA及P平臺(tái)的管理維度。這三個(gè)維度的管理指標(biāo),作為基礎(chǔ)數(shù)據(jù),向上輔助交易層面的管理功能,真正實(shí)現(xiàn)“以IT為中心”上升到“以業(yè)務(wù)為中心”。缺乏這種支撐手段,單純展現(xiàn)某種交易的性能及故障,對(duì)業(yè)務(wù)的輔助將極其有限。3.將傳統(tǒng)的利用管理人員經(jīng)驗(yàn)進(jìn)行交易故障及性能的手動(dòng)分析拓展到的基于業(yè)務(wù)層面各交易的端對(duì)端管理,輔助進(jìn)行自動(dòng)化分析,并建立專家系統(tǒng)。將各種業(yè)務(wù)交易過程進(jìn)行細(xì)粒度的精細(xì)化分析,比如交易流轉(zhuǎn)路徑、交易時(shí)長等對(duì)業(yè)務(wù)交易實(shí)現(xiàn)真正意義的實(shí)時(shí)監(jiān)控,運(yùn)維部門主動(dòng)發(fā)現(xiàn)業(yè)務(wù)當(dāng)前的問題,而不是等待業(yè)務(wù)人員電話報(bào)送問題后進(jìn)行響應(yīng)。利用專家系統(tǒng)進(jìn)行業(yè)務(wù)綜合分析,快速定位業(yè)務(wù)環(huán)節(jié)中的故障范圍,并利用“應(yīng)用+P平臺(tái)+SOA”的三維監(jiān)控手段作為輔助,盡快制定業(yè)務(wù)問題的解決方案。利用專家系統(tǒng)進(jìn)行業(yè)務(wù)收益業(yè)務(wù)風(fēng)險(xiǎn)資源占用(包括云資源)關(guān)聯(lián)分析,幫助管理人員對(duì)整個(gè)新一代數(shù)據(jù)中心的業(yè)務(wù)運(yùn)行狀態(tài)是否合理做出判斷,保障優(yōu)質(zhì)資源配備給重要的業(yè)務(wù)應(yīng)用。4.將傳統(tǒng)的綜合分析由單一的歷史數(shù)據(jù)統(tǒng)計(jì)報(bào)表,拓展到包括的虛擬架構(gòu)優(yōu)化、預(yù)測(cè)未來容量需求、歷史工作負(fù)載和資源使用關(guān)聯(lián)分析、服務(wù)等級(jí)管理、行為模式及使用趨勢(shì)、組件容量管理(過度、不足)等內(nèi)容的專業(yè)化的綜合分析系統(tǒng),輔助制定整個(gè)新一代系統(tǒng)的運(yùn)行維護(hù)策略。傳統(tǒng)管理平臺(tái)中的綜合分析只是對(duì)物理資源進(jìn)行故障分布分析、性能趨勢(shì)分析、資產(chǎn)統(tǒng)計(jì)分析,并依賴報(bào)表進(jìn)行呈現(xiàn),這種分析手段依然必要,但不能夠完全滿足建行新一代IT運(yùn)維的要求。新一代系統(tǒng)建設(shè)的總體思路是利用SOA進(jìn)行應(yīng)用整合,并依托于虛擬化資源池進(jìn)行承載,因此,必須綜合考慮虛擬架構(gòu)優(yōu)化,業(yè)務(wù)質(zhì)量分析(關(guān)鍵業(yè)務(wù)指標(biāo)應(yīng)用架構(gòu)優(yōu)化,SOA組件合并及請(qǐng)求流程,物理實(shí)體容量規(guī)劃,資源池建設(shè)標(biāo)準(zhǔn)等相關(guān)同時(shí),參考國際上一流的綜合分析方案,引入歷史工作負(fù)載和資源使用關(guān)聯(lián)分析、服務(wù)等級(jí)管理、行為模式及使用趨勢(shì)、組件容量管理(過度、不足)等相關(guān)內(nèi)容。呈現(xiàn)手段也從單一報(bào)表方式而力求多樣化,滿足用戶直觀準(zhǔn)確快速獲取管理信息的要求。5.將傳統(tǒng)的開放平臺(tái)應(yīng)用監(jiān)控拓展到對(duì)開放平臺(tái)+大機(jī)的整體數(shù)據(jù)采集及分析,去掉傳統(tǒng)的大機(jī)管理“黑洞”,真實(shí)準(zhǔn)確地展現(xiàn)交易的每個(gè)環(huán)節(jié)。6.配合后續(xù)的定制開發(fā),提供多種貼近用戶需求的展示方式,包括:大屏展示,統(tǒng)一門戶(虛擬化+物理資源+云計(jì)算建設(shè)專家系統(tǒng),業(yè)務(wù)接入,流程管理等內(nèi)容。監(jiān)控管理體系的建設(shè),要求以我行新一代業(yè)務(wù)系統(tǒng)的規(guī)劃作為基礎(chǔ),站在業(yè)務(wù)應(yīng)用的高度進(jìn)行整體系統(tǒng)的一體化監(jiān)控管理。與傳統(tǒng)的監(jiān)控管理不同,一體化的監(jiān)控管理將以業(yè)務(wù)應(yīng)用為中心,從支撐業(yè)務(wù)系統(tǒng)運(yùn)行的資源、應(yīng)用,到業(yè)務(wù)交易,進(jìn)行全方位的監(jiān)控管理,以最終達(dá)到監(jiān)控管理向新一代業(yè)務(wù)系統(tǒng)應(yīng)用轉(zhuǎn)型和高度建設(shè)的目標(biāo)。因此在新一代規(guī)劃方案中,將分別從資源監(jiān)控、應(yīng)用監(jiān)控、交易監(jiān)控三個(gè)層面來進(jìn)行建設(shè)的功能要點(diǎn)闡述,以達(dá)到新一代業(yè)務(wù)系統(tǒng)整體運(yùn)行的可視、可控的管理。附圖2.監(jiān)控管理架構(gòu)資源維度:主要關(guān)注支撐業(yè)務(wù)系統(tǒng)運(yùn)行的平臺(tái)類監(jiān)控,管理對(duì)象包括物理資源和虛擬資源等。通過標(biāo)準(zhǔn)或非標(biāo)準(zhǔn)協(xié)議獲取這些被管對(duì)象的配置、性能、告警信息,而不涉及業(yè)務(wù)系統(tǒng)自身可用性及性能的監(jiān)控。應(yīng)用維度:從應(yīng)用系統(tǒng)可用性角度出發(fā),開始關(guān)注業(yè)務(wù)系統(tǒng)自身的一些關(guān)鍵監(jiān)控點(diǎn),包括核心業(yè)務(wù)系統(tǒng)(如網(wǎng)銀、證劵)自身的一些關(guān)鍵監(jiān)控點(diǎn)(如進(jìn)程、日志、端口等)和部分業(yè)務(wù)指標(biāo)??梢酝ㄟ^分析業(yè)務(wù)系統(tǒng)的日志或是執(zhí)行業(yè)務(wù)系統(tǒng)提供的管理指令獲取包括交易量、成功或失敗筆數(shù)、無響應(yīng)或超時(shí)筆數(shù)等相關(guān)指標(biāo)。交易維度:以業(yè)務(wù)邏輯(交易線)為線索,在關(guān)鍵交易模塊中嵌入監(jiān)控探針,采集交易路徑各個(gè)環(huán)節(jié)的交易狀態(tài)。從而對(duì)用戶真實(shí)的交易狀況進(jìn)行統(tǒng)計(jì),生成單位時(shí)間內(nèi)的交易量、交易模塊單位時(shí)間內(nèi)的執(zhí)行失敗率、交易模塊的平均響應(yīng)時(shí)間、交易的同異步信息、串聯(lián)生成交易拓?fù)涞鹊?,從業(yè)務(wù)邏輯層展現(xiàn)交易運(yùn)行情況,提供直觀、快速、準(zhǔn)確的定位手段。物理實(shí)體監(jiān)控我行于2006年開始建設(shè)CMP項(xiàng)目,通過5年的逐步實(shí)施和不斷努力,目前已形成面向我行開放系統(tǒng)的資源和應(yīng)用的全方位監(jiān)控管理體系,范圍涉及我行開放系統(tǒng)的1600多臺(tái)服務(wù)器(包括AIX、HP_UX、Windows、ScoUnix等操作系統(tǒng))、300多套數(shù)據(jù)庫(包括Oracle、DB2、Informix)、140多套中間件(包括WebLogic、Websphere、Tuxedo、WebsphereMQ、CICS、LotusDomino群件)、EMC和日立的存儲(chǔ)備份設(shè)備及其承載的多種證券、信貸、人力資源、龍卡、網(wǎng)銀、清算、OA業(yè)務(wù)應(yīng)用系統(tǒng)。使用CMP的人員為我行負(fù)責(zé)開放系統(tǒng)維護(hù)的管理人員、工程人員和維護(hù)人員、廠商技術(shù)支持人員,共有用戶1000余人,已經(jīng)形成了規(guī)范化的運(yùn)維管理體系。通過數(shù)據(jù)中心對(duì)CMP系統(tǒng)的實(shí)際使用,從CMP系統(tǒng)對(duì)被管對(duì)象的故障發(fā)現(xiàn)率、故障發(fā)現(xiàn)及時(shí)性、準(zhǔn)確性、有效性,告警信息通知到人的及時(shí)、準(zhǔn)確性,監(jiān)控覆蓋面以及CMP系統(tǒng)的自身運(yùn)行情況幾個(gè)角度的實(shí)際使用效果來考量,CMP系統(tǒng)已經(jīng)初步建設(shè)成為了穩(wěn)定、準(zhǔn)確、高效、全面的監(jiān)控系統(tǒng)。CMP系統(tǒng)為數(shù)據(jù)中心IT系統(tǒng)穩(wěn)定運(yùn)行提供了強(qiáng)有力的支撐與保障,每天晨會(huì)討論的80%事件出自CMP監(jiān)控系統(tǒng),其中5%若不加處理會(huì)釀成生產(chǎn)事故。CMP系統(tǒng)已經(jīng)成為我行安全生產(chǎn)的不可或缺的重要系統(tǒng)。在我行CMP項(xiàng)目的建設(shè)中,采用BMCPatrol進(jìn)行數(shù)據(jù)信息的采集,采用Ultra-NMS作為集中監(jiān)控管理平臺(tái)進(jìn)行數(shù)據(jù)的處理和展現(xiàn),其監(jiān)控管理效果已得到了充分的驗(yàn)證。虛擬實(shí)體監(jiān)控隨著虛擬化技術(shù)的逐漸成熟,其應(yīng)用逐步進(jìn)行擴(kuò)展,在我行新一代業(yè)務(wù)系統(tǒng)的建設(shè)中,虛擬化將是一個(gè)重點(diǎn)建設(shè)平臺(tái),而如何實(shí)現(xiàn)虛擬化資源的管控,也將是新一代規(guī)劃的一個(gè)重點(diǎn)。虛擬實(shí)體的監(jiān)控具體來說應(yīng)包含三個(gè)組成部分:對(duì)虛擬化平臺(tái)自身的監(jiān)控(如Vmware,Xen,IBMLPAR,Hyper-V,VBLOCK等)。對(duì)虛擬化平臺(tái)上衍生出的虛擬化實(shí)體的監(jiān)控(如:虛擬機(jī),虛擬網(wǎng)卡,虛擬內(nèi)存,虛擬CPU,虛擬存儲(chǔ),資源池,集群等動(dòng)態(tài)資源)。對(duì)虛擬桌面架構(gòu)(VDI云桌面)的監(jiān)控。批注[雨林木風(fēng)4]:批注[雨林木風(fēng)4]:指標(biāo)要列出來管理的需要。當(dāng)前,先進(jìn)的虛擬化健康度管理方法強(qiáng)調(diào)對(duì)整個(gè)虛擬化環(huán)境進(jìn)行統(tǒng)一的管控。從用戶體驗(yàn)的角度,自上而下的全面評(píng)估虛擬化環(huán)境的健康度,從而提高虛擬化環(huán)境的可用性和性能,擴(kuò)大虛擬化環(huán)境的適用范圍。通過提供一套統(tǒng)一的可管理多種虛擬化系統(tǒng)的管理平臺(tái),針對(duì)虛擬化建設(shè)及運(yùn)維過程中所面臨的困難,利用虛擬化健康度管理方法來逐步改進(jìn)和完善虛擬化建設(shè)的不足:一方面,這種全新的虛擬化健康度管理方法覆蓋了虛擬化環(huán)境所涉及到的軟硬件的各個(gè)層面,統(tǒng)一運(yùn)維,綜合分析,從而全面保障了虛擬化環(huán)境的健康度。另一方面,企業(yè)通過引入先進(jìn)的健康度管理方法,還可以使得業(yè)務(wù)人員和IT運(yùn)維人員可以更好地明確自己的管理職責(zé),更好地合作,提高了工作效率,同是也優(yōu)化的虛擬化環(huán)境的可用性。運(yùn)維人員可以從最終用戶、交易、應(yīng)用、主機(jī)、數(shù)據(jù)庫、中間件和網(wǎng)絡(luò)等各個(gè)方面,全面監(jiān)控和分析虛擬化環(huán)境的性能和瓶頸。通過事件關(guān)聯(lián)和SLA分析,快速發(fā)現(xiàn)虛擬化應(yīng)用服務(wù)事件,定位事件根源,快速解決問題。針對(duì)此次需要監(jiān)控的虛擬平臺(tái),主要實(shí)現(xiàn)以下指標(biāo)的監(jiān)控和管理:批注[雨林木風(fēng)5]:說法有問題,統(tǒng)一監(jiān)控實(shí)現(xiàn)跨小機(jī)(LPAR,VPAR)及x86(VMware等)批注[雨林木風(fēng)5]:說法有問題,統(tǒng)一監(jiān)控附圖3.小機(jī)及X86虛擬化統(tǒng)一管理實(shí)現(xiàn)對(duì)VMWareESXSERVER等虛擬化平臺(tái)自身健壯性的監(jiān)管,防止虛擬化平臺(tái)因自身故障導(dǎo)致上層的虛擬機(jī)出現(xiàn)問題。附圖4.虛擬化平臺(tái)自身監(jiān)控實(shí)現(xiàn)對(duì)VMware管理控制臺(tái)VirtualCenter的監(jiān)管,包括VirtualCenter服務(wù)器狀態(tài)(啟動(dòng)和停止)、VirtualCenter應(yīng)用(進(jìn)程、服務(wù)、日志等)信息的監(jiān)控和管理。實(shí)現(xiàn)對(duì)虛擬交換機(jī)(vSwitch虛擬存儲(chǔ)卷(DataStor),虛擬化資源池及集群等動(dòng)態(tài)資源的監(jiān)管,使得部署在虛擬化平臺(tái)上的各種應(yīng)用不會(huì)因?yàn)閯?dòng)態(tài)計(jì)算資源的變換而導(dǎo)致性能不穩(wěn)定。附圖5.虛擬化各組件監(jiān)控監(jiān)控ICA協(xié)議,XENSERVER及ESX,實(shí)現(xiàn)對(duì)虛擬桌面架構(gòu)(VDI)的統(tǒng)一管理。附圖6.云桌面監(jiān)控實(shí)現(xiàn)對(duì)虛擬機(jī)(VM)的監(jiān)控,包括CPU、內(nèi)存、硬盤、網(wǎng)絡(luò)等資源信息的監(jiān)控和管理。附圖7.虛擬機(jī)自身監(jiān)控參數(shù)實(shí)現(xiàn)對(duì)物理服務(wù)器虛擬化平臺(tái)上層應(yīng)用的關(guān)聯(lián)分析,以確定最終影響性能或者發(fā)生故障的范圍。圍繞12個(gè)核心域組織應(yīng)用監(jiān)控管理應(yīng)用監(jiān)控一個(gè)主要目標(biāo)就是是通過自動(dòng)化、智能化的IT手段對(duì)業(yè)務(wù)系統(tǒng)進(jìn)行實(shí)時(shí)監(jiān)控以及歷史數(shù)據(jù)分析,從而達(dá)到保障業(yè)務(wù)可用的目標(biāo)。因此,在進(jìn)行應(yīng)用監(jiān)控管理之前首先需要考慮管理對(duì)象是誰?管理哪些內(nèi)容?如何發(fā)現(xiàn)管理的內(nèi)容對(duì)管理對(duì)象產(chǎn)生的影響?要回答以上問題就需要拆解可能影響業(yè)務(wù)可用性的關(guān)鍵要素,判斷這些因素在何種情況下可能對(duì)業(yè)務(wù)發(fā)生影響,并實(shí)施跟蹤這些關(guān)鍵因素,保障業(yè)務(wù)免受這些因素的影響。根據(jù)建行新一代業(yè)務(wù)系統(tǒng)規(guī)劃思路,將相關(guān)核心業(yè)務(wù)抽象為12個(gè)P平臺(tái),包括渠道整合技術(shù)服務(wù)平臺(tái)(內(nèi)部、外部各1個(gè))、客戶服務(wù)應(yīng)用整合服務(wù)平臺(tái)(內(nèi)部、外部各1個(gè))、應(yīng)用集成服務(wù)平臺(tái)、外聯(lián)集成控制服務(wù)平臺(tái)、在線交易處理服務(wù)、支付服務(wù)平臺(tái)、數(shù)據(jù)集成服務(wù)平臺(tái)、管理分析服務(wù)平臺(tái)、在線交易處理服務(wù)平臺(tái)、事件控制服務(wù)平臺(tái)等平臺(tái)。集中監(jiān)控系統(tǒng)將統(tǒng)一規(guī)劃、分步實(shí)施,圍繞著12個(gè)P平臺(tái),逐步實(shí)現(xiàn)對(duì)于核心應(yīng)用的監(jiān)控和管理。我們將在項(xiàng)目實(shí)施過程中根據(jù)各個(gè)應(yīng)用系統(tǒng)的不同特點(diǎn)以及業(yè)務(wù)使用人員的監(jiān)控需求,通過業(yè)務(wù)建模、業(yè)務(wù)采集、業(yè)務(wù)處理、業(yè)務(wù)展現(xiàn)等技術(shù)手段,幫助運(yùn)維人員快速梳理業(yè)務(wù)關(guān)聯(lián)關(guān)系、定位業(yè)務(wù)故障根源、及時(shí)分析業(yè)務(wù)運(yùn)行趨勢(shì),保證業(yè)務(wù)系統(tǒng)的正常運(yùn)行。針對(duì)32個(gè)重要系統(tǒng)的應(yīng)用監(jiān)控通過前期的業(yè)務(wù)平臺(tái)梳理,后續(xù)我們將對(duì)32個(gè)重要系統(tǒng)的120個(gè)核心指標(biāo)進(jìn)行集中監(jiān)控管理,通過定義關(guān)鍵業(yè)務(wù)點(diǎn)(KBP)以及關(guān)鍵業(yè)務(wù)點(diǎn)的實(shí)例化原則,能夠?qū)⒏黝惐还軜I(yè)務(wù)對(duì)象納入監(jiān)控管理平臺(tái)的管理范圍,通過定義關(guān)鍵性能指標(biāo)(KPI能夠?qū)⑷魏蔚臄?shù)據(jù)指標(biāo)納入監(jiān)控管理平臺(tái)的監(jiān)控體系,下面著重說明監(jiān)控管理平臺(tái)如何實(shí)現(xiàn)業(yè)務(wù)性能、業(yè)務(wù)告警、業(yè)務(wù)關(guān)聯(lián)影響分析等重要業(yè)務(wù)管理場(chǎng)景。.1業(yè)務(wù)性能管理應(yīng)用系統(tǒng)監(jiān)控通過性能數(shù)據(jù)接口,集成各類業(yè)務(wù)系統(tǒng)的實(shí)時(shí)業(yè)務(wù)性能數(shù)據(jù),對(duì)業(yè)務(wù)性能的管理能夠展現(xiàn)實(shí)時(shí)展示和歷史性能數(shù)據(jù)分析統(tǒng)計(jì),對(duì)于實(shí)時(shí)的性能數(shù)據(jù)可以采用曲線圖的方式進(jìn)行響應(yīng)時(shí)間趨勢(shì)分析。附圖8.業(yè)務(wù)量實(shí)時(shí)分析附圖9.交易時(shí)長趨勢(shì)分析.2業(yè)務(wù)告警管理無論對(duì)平臺(tái)類告警,還是業(yè)務(wù)類告警,在監(jiān)控管理平臺(tái)中處理方式、處理流程,如告警過濾、告警相關(guān)性分析、告警確認(rèn)、告警清除等、告警通知、工單接口等都是一致的,對(duì)于業(yè)務(wù)類告警,唯一的區(qū)別體現(xiàn)在事件標(biāo)準(zhǔn)化規(guī)則方面,我們將采用統(tǒng)一的告警處理流程,將業(yè)務(wù)應(yīng)用類告警在業(yè)務(wù)監(jiān)控列表中實(shí)時(shí)分析和展示。附圖10.業(yè)務(wù)告警.3業(yè)務(wù)影響性分析業(yè)務(wù)人員日常工作中面對(duì)著復(fù)雜、繁多的業(yè)務(wù)對(duì)象及其業(yè)務(wù)指標(biāo),指標(biāo)數(shù)據(jù)歸屬于不同被管理的業(yè)務(wù)對(duì)象,同時(shí)業(yè)務(wù)對(duì)象之間又遵從于業(yè)務(wù)邏輯,如何能夠把業(yè)務(wù)實(shí)體與業(yè)務(wù)指標(biāo)有機(jī)的組織與呈現(xiàn),便于業(yè)務(wù)管理人員快速、準(zhǔn)確的查看系統(tǒng)狀況將在很大程度的決定監(jiān)控管理系統(tǒng)的價(jià)值?;跇I(yè)務(wù)建模中對(duì)象與對(duì)象之間的關(guān)系,結(jié)合業(yè)務(wù)邏輯,實(shí)現(xiàn)業(yè)務(wù)影響分析功能,使得在業(yè)務(wù)人員能夠發(fā)現(xiàn)某一故障對(duì)其它系統(tǒng)的影響程度。業(yè)務(wù)影響以業(yè)務(wù)影響拓?fù)涞男问匠尸F(xiàn)。業(yè)務(wù)影響拓?fù)涫钦宫F(xiàn)故障和告警影響或者緣由的視圖。業(yè)務(wù)對(duì)象之間、業(yè)務(wù)對(duì)象和平臺(tái)對(duì)象之間存在著各種影響關(guān)系,即某個(gè)對(duì)象上發(fā)生的告警影響哪些業(yè)務(wù)系統(tǒng)、以及對(duì)業(yè)務(wù)系統(tǒng)產(chǎn)生的影響程度有多大,監(jiān)控系統(tǒng)能夠以業(yè)務(wù)影響分析的視角分析高層業(yè)務(wù)到底層技術(shù)之間的影響范圍和程度的拓?fù)湟晥D,它既可以正向展現(xiàn)影響路徑,也可以反向展現(xiàn)緣由和根源。附圖11.業(yè)務(wù)影響視圖.4大機(jī)業(yè)務(wù)指標(biāo)監(jiān)控應(yīng)用監(jiān)控的管理范圍不僅僅包含了開放平臺(tái),可以進(jìn)一步擴(kuò)大應(yīng)用監(jiān)控管理范圍,將大機(jī)平臺(tái)的關(guān)鍵業(yè)務(wù)指標(biāo)納入進(jìn)來,可以和大機(jī)平臺(tái)廠商梳理相關(guān)業(yè)務(wù)指標(biāo),通過定制規(guī)范的集成接口,將大機(jī)的監(jiān)控指標(biāo)集成到應(yīng)用監(jiān)控平臺(tái)中進(jìn)行統(tǒng)一處理和展現(xiàn)。大機(jī)應(yīng)用性能管理:提供豐富的信息,提高對(duì)性能問題的響應(yīng)能力,此前這些問題通常都需要人工干預(yù)。通過簡(jiǎn)潔、界面自定義的界面訪問信息,它能夠?qū)崿F(xiàn)資源利用率監(jiān)測(cè)、性能調(diào)整、問題分析和解決。監(jiān)控實(shí)時(shí)和歷史的主機(jī)系統(tǒng)信息??啥ㄖ频拈y值報(bào)警,實(shí)現(xiàn)更加獨(dú)立的系統(tǒng)關(guān)鍵數(shù)據(jù)監(jiān)測(cè)。在指定時(shí)間段內(nèi)采集數(shù)據(jù),提高系統(tǒng)效率。大機(jī)應(yīng)用的性能管理附圖12.大機(jī)網(wǎng)絡(luò)監(jiān)控(TCP/大機(jī)應(yīng)用的性能管理附圖12.大機(jī)網(wǎng)絡(luò)監(jiān)控(TCP/IP及SNA提供了大型機(jī)內(nèi)部全面的網(wǎng)絡(luò)性能信息監(jiān)控與分析功能,針對(duì)不同的網(wǎng)絡(luò)協(xié)議TCP/IP或SNA提供了豐富的功能,以及SOA應(yīng)用程序提供了全面的支持。包括:提供連接時(shí)長信息和ConnectionTrace。分析連接性能指標(biāo)。DDF中的流量信息及應(yīng)用程序信息。大機(jī)應(yīng)用的網(wǎng)絡(luò)管理附圖13.批注[雨林木風(fēng)6]:加一個(gè)圖大機(jī)應(yīng)用性能調(diào)優(yōu)(MAT端到端性能管理是解決方案中非常重要的組件之一,大機(jī)應(yīng)用監(jiān)控平臺(tái)實(shí)時(shí)監(jiān)控發(fā)現(xiàn)業(yè)務(wù)應(yīng)用的性能問題后,調(diào)用MAT對(duì)目標(biāo)業(yè)務(wù)應(yīng)用進(jìn)行性能采樣與分析,收集好這支應(yīng)用程序在大型機(jī)中不同子系統(tǒng)(如:CICS,DB2,z/OS等)務(wù)應(yīng)用的性能問題后,調(diào)用MAT對(duì)目標(biāo)業(yè)務(wù)應(yīng)用進(jìn)行性能采樣與分析,收集好這支應(yīng)用程序在大型機(jī)中不同子系統(tǒng)(如:CICS,DB2,z/OS等)的性能開銷信息,及時(shí)或事后對(duì)這些樣本進(jìn)行分析,可以:發(fā)現(xiàn)應(yīng)用程序的CPU,I/O開銷的性能信息。定位引起應(yīng)用系統(tǒng)低效的編碼在哪一行,數(shù)據(jù)庫調(diào)用語句或系統(tǒng)服務(wù)。生成性能報(bào)告——一種詳盡列出在應(yīng)用系統(tǒng)執(zhí)行期間,時(shí)間消耗等,為改善系統(tǒng)和系統(tǒng)資源調(diào)優(yōu)提出報(bào)告依據(jù)。通過開放大機(jī)系統(tǒng)的相關(guān)接口,將大機(jī)的關(guān)鍵指標(biāo)集成應(yīng)用系統(tǒng)監(jiān)控平臺(tái)中統(tǒng)一分析,最終幫助用戶實(shí)現(xiàn)分布式端到大型機(jī)端應(yīng)用性能信息一覽無余,并利用統(tǒng)一的“儀表盤”展示真實(shí)的業(yè)務(wù)現(xiàn)狀,極大地提升解決問題的效率,并通過主動(dòng)的預(yù)警機(jī)制及未來使用趨勢(shì)分析進(jìn)一步保障業(yè)務(wù)連續(xù)性和穩(wěn)定性。批注[雨林木風(fēng)7]:和P平臺(tái)掛上鉤基于ARM的交易監(jiān)控傳統(tǒng)的業(yè)務(wù)管理模式難以從根本上改變金融企業(yè)運(yùn)維工作被動(dòng)的局面,難以業(yè)務(wù)運(yùn)維質(zhì)量得到大幅度的提升。這對(duì)提升用戶滿意度和企業(yè)形象都十分不利,因此我行迫切需要建設(shè)一套全方位滿足業(yè)務(wù)管理需求的業(yè)務(wù)交易監(jiān)控管理平臺(tái),提升運(yùn)維的質(zhì)量,為廣大客戶提供更優(yōu)質(zhì)的服務(wù)?;贏RM標(biāo)準(zhǔn)的交易監(jiān)控管理平臺(tái)TPMS系統(tǒng)在繼承和延續(xù)交易性能監(jiān)控基礎(chǔ)上,開展跨系統(tǒng)交易層面的監(jiān)控管理,通過TPMS系統(tǒng)的建設(shè)不斷完善我行IT生產(chǎn)環(huán)境的應(yīng)用系統(tǒng)交易監(jiān)控和管理體系,從根本上提高我行IT的監(jiān)控和管理水平,為我行的業(yè)務(wù)發(fā)展提供有利保障。通過TPMS系統(tǒng)的建設(shè),我們希望達(dá)到如下目標(biāo):令對(duì)跨系統(tǒng)的業(yè)務(wù)交易各處理環(huán)節(jié)進(jìn)行監(jiān)控,直觀的展現(xiàn)業(yè)務(wù)交易流轉(zhuǎn)路徑,反映每個(gè)關(guān)鍵處理環(huán)節(jié)的性能狀況,是運(yùn)維人員具備對(duì)用戶投訴做出快速響應(yīng)的能力;令對(duì)業(yè)務(wù)交易進(jìn)行真正意義的實(shí)時(shí)監(jiān)控,使運(yùn)維部門具有主動(dòng)性的監(jiān)控能力,快速發(fā)現(xiàn)當(dāng)前故障,同時(shí)做到盡早發(fā)現(xiàn)可能的故障隱患;令實(shí)現(xiàn)統(tǒng)一的業(yè)務(wù)故障管理,并通過對(duì)告警信息的相關(guān)性分析,減少不必要的冗余告警,準(zhǔn)確定位業(yè)務(wù)交易故障根源,具備故障精確定位的能力,有效提升故障排查效令通過對(duì)業(yè)務(wù)性能數(shù)據(jù)進(jìn)行綜合分析和業(yè)務(wù)系統(tǒng)優(yōu)化分析,找出系統(tǒng)瓶頸,為系統(tǒng)升級(jí)及優(yōu)化提供量化參考依據(jù)。.1關(guān)鍵技術(shù)分析對(duì)業(yè)務(wù)監(jiān)控的方式有很多種,但業(yè)務(wù)邏輯監(jiān)控有其特殊性,監(jiān)控粒度需要深入到業(yè)務(wù)系統(tǒng)內(nèi)部,實(shí)時(shí)反映業(yè)務(wù)系統(tǒng)內(nèi)部各環(huán)節(jié)性能狀況,目前,能夠充分滿足業(yè)務(wù)邏輯監(jiān)控需求,業(yè)界廣泛認(rèn)可的技術(shù)標(biāo)準(zhǔn)為ARM,ARM標(biāo)準(zhǔn)是目前國際公認(rèn)的也是業(yè)界遵循的唯一標(biāo)準(zhǔn)。所謂ApplicationResponseMeasurement(ARM)是一個(gè)應(yīng)用程序接口(API),它可以監(jiān)控不同應(yīng)用和系統(tǒng)下的業(yè)務(wù)事務(wù)的可用性和性能。ARM標(biāo)準(zhǔn)定義了事務(wù)何時(shí)開始和結(jié)束,因此這些事務(wù)就可以進(jìn)行測(cè)量和監(jiān)控?;旧希瑧?yīng)用程序調(diào)用ARMAPI。這種方法使得開發(fā)人員可以把企業(yè)管理工具直接擴(kuò)展到應(yīng)用程序本身,這就可以創(chuàng)建全面的管理能力,包括可用性、性能和應(yīng)用程序使用的監(jiān)控,也包括對(duì)端對(duì)端事務(wù)相應(yīng)時(shí)間的監(jiān)控。ARM的優(yōu)勢(shì)主要體現(xiàn)在以下幾個(gè)方面:口成熟的技術(shù)規(guī)范ARM標(biāo)準(zhǔn)由OpenGroup開發(fā),從1996年開始開發(fā)ARM的首個(gè)版本ARMVersion1,通過ARM工作組及其合作伙伴歷經(jīng)10多年的完善和發(fā)展,截止2008年ARM標(biāo)準(zhǔn)的最后版本是ARM4.0version2??缙脚_(tái)跨語言支持令A(yù)RM支持多種平臺(tái),這樣有利于監(jiān)控基于多個(gè)不同平臺(tái)的應(yīng)用程序;令A(yù)RM支持多種編程語言。目前最新的ARM4支持用JAVA和C/C++編寫的應(yīng)用程極低的性能消耗對(duì)性能進(jìn)行詳細(xì)的監(jiān)控同時(shí)沒有帶來太多性能上的損失。當(dāng)我們要對(duì)一個(gè)應(yīng)用性能進(jìn)行監(jiān)控的時(shí)候,監(jiān)控的細(xì)致程度往往和給應(yīng)用程序帶來的性能負(fù)載是成正比的。相較于其他監(jiān)控方式,ARM是一個(gè)最佳選擇,它可以讓我們根據(jù)需要進(jìn)行詳細(xì)的監(jiān)控,同時(shí)不會(huì)帶來太多性能上的影響。帶來業(yè)務(wù)監(jiān)控領(lǐng)域的革命隨著金融行業(yè)的電子化程度不斷提高,除了功能方面的需求,人們也對(duì)系統(tǒng)的性能、可靠性等方面的要求也越來越高,會(huì)越發(fā)關(guān)心類似以下問題:令這些transaction成功了嗎?令是什么原因?qū)е履硞€(gè)transaction失敗了?令客戶體驗(yàn)到的系統(tǒng)響應(yīng)時(shí)間是多少?令在整個(gè)交易過程中哪個(gè)部分耗時(shí)最長?令系統(tǒng)瓶頸在哪里?令如何能提高應(yīng)用系統(tǒng)的性能?ARM正是用來回答這些問題的。通過在應(yīng)用系統(tǒng)中引入ARMAPIs,可以讓這些應(yīng)用程序變得可管理、可監(jiān)控,再配合相應(yīng)的管理端系統(tǒng),就可以捕獲、分析運(yùn)行時(shí)數(shù)據(jù),回答以上這些問題。ARM規(guī)范經(jīng)過多年的發(fā)展,現(xiàn)已成為業(yè)界公認(rèn)的標(biāo)準(zhǔn),尤其是金融業(yè),對(duì)業(yè)務(wù)系統(tǒng)的穩(wěn)定性、可靠性的要求相當(dāng)高,越來越多的業(yè)務(wù)系統(tǒng)廠商開始遵循ARM規(guī)范進(jìn)行系統(tǒng)開發(fā),使得業(yè)務(wù)系統(tǒng)相關(guān)性能信息、屬性信息對(duì)管理者可見。業(yè)務(wù)監(jiān)控進(jìn)入白盒監(jiān)控時(shí)代。附圖14.ARM管理系統(tǒng)的工作流程.2系統(tǒng)邏輯架構(gòu)設(shè)計(jì)系統(tǒng)邏輯架構(gòu)如下圖所示,概括性的闡述了系統(tǒng)的邏輯架構(gòu)。其中,不同的顏色表示不同的模塊,方框表示軟件內(nèi)部的功能模塊,通過此圖可以直觀地看到不同的功能模塊在系統(tǒng)中的層次。附圖15.ARM系統(tǒng)邏輯架構(gòu)示意圖系統(tǒng)分為應(yīng)用接口層、數(shù)據(jù)采集層、數(shù)據(jù)處理層和數(shù)據(jù)展示層(用戶接口層)。1、應(yīng)用接口層提供客戶應(yīng)用調(diào)用接口,C實(shí)現(xiàn)的為基于標(biāo)準(zhǔn)的ARM4.1規(guī)范,它收集到的應(yīng)用性能信息發(fā)送到消息隊(duì)列中;針對(duì)J2EE系統(tǒng),通過Java字節(jié)碼注入的技術(shù)(Javaagent在系統(tǒng)運(yùn)行時(shí)在需要監(jiān)控的代碼塊前后插入探針,當(dāng)這個(gè)代碼塊被調(diào)用時(shí),就可以獲得這次調(diào)用的性能數(shù)據(jù);2、數(shù)據(jù)采集層負(fù)責(zé)收集由應(yīng)用接口層發(fā)送過來的性能數(shù)據(jù),進(jìn)行一些簡(jiǎn)單的計(jì)算后發(fā)送給數(shù)據(jù)處理層;在C語言實(shí)現(xiàn)中,由單獨(dú)的ARMAgent進(jìn)程讀取消息隊(duì)列中的性能數(shù)據(jù),計(jì)算處理后發(fā)送給ARMProbe;在Java實(shí)現(xiàn)中,由一個(gè)單獨(dú)的線程接受性能數(shù)據(jù),將相同交易模塊的性能數(shù)據(jù)合并(統(tǒng)計(jì)并定時(shí)發(fā)送給數(shù)據(jù)處理層;對(duì)于每個(gè)交易模塊單比的性能數(shù)據(jù),使用采樣率過濾(如果是有異常信息的則不被過濾然后發(fā)送給數(shù)據(jù)處理層。3、數(shù)據(jù)處理層接收到性能數(shù)據(jù),將他們儲(chǔ)存到數(shù)據(jù)庫中,并進(jìn)行一些計(jì)算分析,包括交易線統(tǒng)計(jì)分析、交易模塊統(tǒng)計(jì)分析和應(yīng)用統(tǒng)計(jì)分析,將分析結(jié)果儲(chǔ)存在數(shù)據(jù)庫中,供歷史查詢和報(bào)表使用;同時(shí),當(dāng)性能統(tǒng)計(jì)信息更新或告警發(fā)生時(shí),數(shù)據(jù)處理層會(huì)通知數(shù)據(jù)展示層,數(shù)據(jù)展示層將負(fù)責(zé)協(xié)調(diào)刷新客戶端,以達(dá)到實(shí)時(shí)監(jiān)控的效果。4、用戶通過瀏覽器請(qǐng)求數(shù)據(jù)展示層加載監(jiān)控界面,ARMServer負(fù)責(zé)對(duì)登錄的用戶進(jìn)行權(quán)限控制;用戶使用基于flex技術(shù)的富客戶端頁面與后臺(tái)的ARMServer交互,以拓?fù)鋱D的方式觀察業(yè)務(wù)系統(tǒng)之間以及系統(tǒng)內(nèi)部交易模塊之間的關(guān)系,診斷系統(tǒng)瓶頸。ARMServer實(shí)時(shí)刷新客戶端界面,并負(fù)責(zé)處理用戶的操作請(qǐng)求。.3實(shí)時(shí)交易監(jiān)控對(duì)于收集到的交易性能信息,需要提供三種不同視角的實(shí)時(shí)監(jiān)控方式。分別是應(yīng)用視角、交易模塊視角和交易線視角,以實(shí)現(xiàn)從總體到局部的較為全面的業(yè)務(wù)監(jiān)控,每種視角均可以正確的展示異構(gòu)系統(tǒng)之間的交易串聯(lián)。附圖16.異構(gòu)系統(tǒng)交易線示意圖基于C語言開發(fā)的應(yīng)用系統(tǒng)之間:基于C語言開發(fā)的應(yīng)用系統(tǒng)的交易監(jiān)控是基于ARM4.1標(biāo)準(zhǔn)并改造應(yīng)用代碼后實(shí)現(xiàn)的,同時(shí)根據(jù)該標(biāo)準(zhǔn),應(yīng)用系統(tǒng)模塊和模塊之間、應(yīng)用系統(tǒng)之間通過傳遞Correlator實(shí)現(xiàn)交易線自動(dòng)串聯(lián);基于Java開發(fā)的應(yīng)用系統(tǒng)之間以及系統(tǒng)內(nèi)部的異步調(diào)用:通過ARM4.1ForJAVA標(biāo)準(zhǔn),開發(fā)API產(chǎn)生并注入Correlator,以模擬上述基于C語言開發(fā)的應(yīng)用系統(tǒng)交易監(jiān)控實(shí)現(xiàn)方案;基于Java及C開發(fā)的應(yīng)用系統(tǒng)間調(diào)用:異構(gòu)系統(tǒng)之間的調(diào)用需要基于傳遞Correlator機(jī)制來實(shí)現(xiàn)自動(dòng)串聯(lián)交易線,Java端模擬產(chǎn)生Correlator,C系統(tǒng)接收它并調(diào)用ARMAPI注入,系統(tǒng)將自動(dòng)生成調(diào)用關(guān)系的交易線;反之亦然。業(yè)務(wù)交易在進(jìn)行流轉(zhuǎn)的同時(shí),會(huì)將交易相關(guān)性參數(shù)(Correlator)依次傳遞到交易線各個(gè)模塊,系統(tǒng)通過獲取這一參數(shù),了解業(yè)務(wù)交易路徑、交易的同步異步信息等,以此將各交易模塊串聯(lián)起來生成交易拓?fù)?,并以圖形方式展示出來。同時(shí)系統(tǒng)能夠采集交易數(shù)據(jù),并進(jìn)行統(tǒng)計(jì),生成單位時(shí)間內(nèi)的交易量、交易模塊單位時(shí)間內(nèi)的執(zhí)行失敗率、交易模塊的平均響應(yīng)時(shí)間等,對(duì)于上述性能指標(biāo),系統(tǒng)還提供歷史性能曲線,幫助管理員了解業(yè)務(wù)性能變化趨勢(shì),避免可能產(chǎn)生的故障。附圖17.交易拓?fù)湔故鞠到y(tǒng)將從應(yīng)用的視角將定期采集到的交易進(jìn)行統(tǒng)計(jì),計(jì)算一段時(shí)間內(nèi)的交易量和錯(cuò)誤的交易模塊筆數(shù),并以拓?fù)鋱D的形式展現(xiàn)出來,應(yīng)用之間如果有跨系統(tǒng)的調(diào)用關(guān)系則用箭頭表附圖18.交易指標(biāo)展示.3.4交易狀態(tài)實(shí)時(shí)排名如下圖所示,系統(tǒng)將對(duì)每個(gè)應(yīng)用內(nèi)的首交易模塊的交易量和平均響應(yīng)時(shí)間(每個(gè)統(tǒng)計(jì)周期內(nèi)的交易量)分別進(jìn)行實(shí)時(shí)排序,以列表形式來顯示;從應(yīng)用實(shí)時(shí)監(jiān)控面板可導(dǎo)航到實(shí)時(shí)排名面板,從實(shí)時(shí)排名頁面可導(dǎo)航到交易模塊實(shí)時(shí)監(jiān)控面板。附圖19.交易狀態(tài)排名告警集成ARM產(chǎn)生的告警需發(fā)送給CMP系統(tǒng),并通過告警模塊來產(chǎn)生告警動(dòng)作,監(jiān)控人員看見告警后,可導(dǎo)航到ARM系統(tǒng)的拓?fù)鋱D上,查看告警,進(jìn)行告警的確認(rèn)和清除。附圖20.交易告警明細(xì)交易告警視圖系統(tǒng)通過告警管理模塊對(duì)錯(cuò)誤和超時(shí)的交易模塊產(chǎn)生告警。超時(shí)告警:當(dāng)模塊超時(shí)次數(shù)超過設(shè)定次數(shù)時(shí),或是模塊單位時(shí)間內(nèi)超時(shí)次數(shù)與單位時(shí)間內(nèi)總筆數(shù)的比值超過設(shè)定值時(shí),系統(tǒng)會(huì)產(chǎn)生相應(yīng)告警;錯(cuò)誤告警:對(duì)錯(cuò)誤碼進(jìn)行設(shè)置,系統(tǒng)將捕捉應(yīng)用系統(tǒng)上報(bào)的錯(cuò)誤碼,并與設(shè)定值進(jìn)行比較,當(dāng)模塊單位時(shí)間內(nèi)錯(cuò)誤次數(shù)與單位時(shí)間內(nèi)總筆數(shù)的比值超過設(shè)定值時(shí),系統(tǒng)將產(chǎn)生告警。不同顏色顯示不同的告警級(jí)別,在交易拓?fù)渲锌梢灾庇^的展現(xiàn)故障點(diǎn),精確定位故障環(huán)節(jié),提高運(yùn)維人員的排障效率。附圖21.交易模塊告警視圖令歷史告警如下圖所示,對(duì)于ARM產(chǎn)生過的告警信息,用戶可通過界面查詢,查詢條件包括告警發(fā)生時(shí)間、交易模塊名稱和應(yīng)用名稱。附圖22.交易歷史告警.4交易查詢系統(tǒng)可根據(jù)交易相關(guān)信息包括主流水號(hào)、子流水號(hào)、發(fā)起系統(tǒng)、主交易碼、子交易碼、錯(cuò)誤碼等對(duì)錯(cuò)誤的交易環(huán)節(jié)進(jìn)行查詢,以列表的方式顯示所有負(fù)荷條件的交易模塊,用戶可以查看選中模塊的詳細(xì)信息,包括應(yīng)用名稱、應(yīng)用實(shí)例、交易名稱、交易實(shí)例、父交易實(shí)例、同步或異步調(diào)用、響應(yīng)時(shí)間、錯(cuò)誤碼等。附圖23.異常交易查詢.4.2單筆交易實(shí)例查詢當(dāng)采樣率設(shè)置為100%時(shí),系統(tǒng)將記錄每筆交易數(shù)據(jù)。根據(jù)交易相關(guān)信息用戶可以對(duì)單筆交易進(jìn)行查詢,查詢條件包括:主流水號(hào)、子流水號(hào)、發(fā)起系統(tǒng)、主交易碼、子交易碼、錯(cuò)誤碼和交易狀態(tài)等,同時(shí)顯示整條交易線的拓?fù)?。附圖24.單筆交易業(yè)務(wù)查詢.5歷史交易綜合分析.5.1交易模塊指標(biāo)歷史回溯對(duì)于每個(gè)交易模塊的平均響應(yīng)時(shí)間、交易量以及最大響應(yīng)時(shí)間、最小響應(yīng)時(shí)間,以曲線圖的方式來反映指標(biāo)的變化趨勢(shì),可通過選定時(shí)間范圍來查看。用橫向滾動(dòng)條來調(diào)整橫軸的精確度(精確度越低,橫軸單位長度所表示的時(shí)間間隔越大,圖中包含的數(shù)據(jù)就越多,反之,精確度越高,局部的變化趨勢(shì)就越詳細(xì),精確度最高可以到每15秒一個(gè)性能數(shù)據(jù))。如下圖所示,面板上顯示了交易模塊PCHK_PRECHECK在一定時(shí)間內(nèi)的交易量,橫坐標(biāo)是時(shí)間,縱坐標(biāo)是交易量。附圖25.交易模塊指標(biāo)歷史回朔.5.2交易量相對(duì)業(yè)務(wù)系統(tǒng)比重計(jì)算系統(tǒng)計(jì)算出一段時(shí)間內(nèi)交易模塊的交易量占該交易所屬業(yè)務(wù)系統(tǒng)的總交易量的百分比,用圖表來顯示(在一張圖上顯示交易模塊交易量和應(yīng)用交易量兩條曲線,并標(biāo)識(shí)出每個(gè)點(diǎn)上的百分比,或繪制百分比曲線)。如下圖所示:面板上顯示了交易模塊0001_MAIN_ANS在一段時(shí)間內(nèi)的交易量,以及這個(gè)交易模塊所屬業(yè)務(wù)系統(tǒng)pltserver的交易量,通過此圖可直觀的看到交易模塊業(yè)務(wù)量占業(yè)務(wù)系統(tǒng)的比附圖26.交易量相對(duì)業(yè)務(wù)系統(tǒng)比重分析對(duì)于一段歷史時(shí)間的曲線分析圖,提供同比和環(huán)比曲線作為對(duì)比。令同比圖包括:按星期同比,例如將這個(gè)星期的星期一和上個(gè)星期的星期一來對(duì)比;按月同比,例如將這個(gè)月的15號(hào)和上個(gè)月的15號(hào)進(jìn)行對(duì)比;按年同比,例如將今年5月1日和去年5月1日進(jìn)行對(duì)比;令環(huán)比圖包括:按天環(huán)比,例如將今天的和昨天的性能數(shù)據(jù)做對(duì)比;環(huán)比即給定一個(gè)統(tǒng)計(jì)周期,將這個(gè)統(tǒng)計(jì)周期和上一個(gè)周期進(jìn)行對(duì)比,統(tǒng)計(jì)周期長短可配置。附圖27.業(yè)務(wù)指標(biāo)同比3.1.3.2基于無代理方式的業(yè)務(wù)交易監(jiān)控一個(gè)全面的應(yīng)用性能監(jiān)控管理解決方案通常需要實(shí)時(shí)監(jiān)控到所有的用戶,所有的應(yīng)用,并可以適應(yīng)企業(yè)網(wǎng)絡(luò)拓?fù)涞母淖兓蛟鲩L。通過安裝代理程序可以實(shí)現(xiàn)端到端的性能檢測(cè)或分析,但不可避免的是,無論采取在主機(jī)上安裝代理,或安裝被動(dòng)式代理,主動(dòng)式代理都有一定的局限性。當(dāng)如果需要對(duì)所有服務(wù)器,應(yīng)用,用戶或網(wǎng)段進(jìn)行監(jiān)控就意味著需要安裝大量的代理程序。因此,我們需要另一種方式,也就是無代理方式對(duì)整個(gè)系統(tǒng)進(jìn)行監(jiān)控。無代理業(yè)務(wù)交易監(jiān)控的特點(diǎn)包括:1.無代理網(wǎng)絡(luò)監(jiān)控我們可以通過連接核心交換機(jī)上的鏡像端口或監(jiān)控端口,可收集并發(fā)現(xiàn)所有網(wǎng)絡(luò)上的協(xié)議,服務(wù)器,端口以及用戶。同時(shí),對(duì)IP(TCP和UDP)流量進(jìn)行分析,并可對(duì)其它IP或非IP流量進(jìn)行統(tǒng)計(jì)。針對(duì)不同網(wǎng)絡(luò)接口上采集到的相同的數(shù)據(jù)包,采用無重復(fù)數(shù)據(jù)包技術(shù)來保障數(shù)據(jù)采集的唯一性和無重復(fù)性,這一技術(shù)也用于多個(gè)探針采集到的同一IP數(shù)據(jù)流的處理,以此保障了對(duì)數(shù)據(jù)處理的準(zhǔn)確性。2.識(shí)別真實(shí)的應(yīng)用/網(wǎng)絡(luò)用戶自動(dòng)通過IP地址,登陸名發(fā)現(xiàn)所有的網(wǎng)絡(luò)用戶。分別監(jiān)控記錄每一用戶,應(yīng)用,服務(wù)器的使用情況和性能。對(duì)于使用VPN登陸企業(yè)內(nèi)網(wǎng)的用戶,系統(tǒng)會(huì)自動(dòng)識(shí)別出登陸名和用戶真實(shí)的IP地址。在基于網(wǎng)站的無代理監(jiān)控模式下,自動(dòng)發(fā)現(xiàn)所有的訪問網(wǎng)站的用戶,監(jiān)控每一位用戶使用情況和性能表現(xiàn),并對(duì)網(wǎng)站用戶數(shù)進(jìn)行統(tǒng)計(jì)。在真實(shí)網(wǎng)站用戶統(tǒng)計(jì)中,往往使用不同的人工模擬代理的方式。3.通用TCP流量分析提供基于TCP交易的應(yīng)用響應(yīng)時(shí)間,錯(cuò)誤率,可用率等性能指標(biāo)。所有的這些指標(biāo)適用于任何基于網(wǎng)絡(luò)的應(yīng)用和提供從鏈路層至?xí)拰拥膽?yīng)用控制。如需要應(yīng)用層的進(jìn)一步分析,可通過不同的協(xié)議解碼器實(shí)現(xiàn)。4.HTTP深度分析提供基于HTTP頁面的應(yīng)用層至表現(xiàn)層性能指標(biāo),使用HTTPHit-to算法??勺詣?dòng)發(fā)現(xiàn)網(wǎng)站所有的Web服務(wù);通過分析GET和POST請(qǐng)求來區(qū)分Web應(yīng)用。對(duì)于每個(gè)Web應(yīng)用(URL和相應(yīng)的GET/POST參數(shù))可監(jiān)控其使用,性能,HTTP錯(cuò)誤率等指標(biāo)。HTTP性能指標(biāo)包括,正常和較慢頁面加載數(shù)量統(tǒng)計(jì),頁面加載時(shí)間,網(wǎng)絡(luò)時(shí)間-服務(wù)器時(shí)間分別所占的時(shí)間,重定向時(shí)間,頁面大小,頁面吞吐。HTTP錯(cuò)誤包括HTTP客戶端錯(cuò)誤(錯(cuò)誤代碼如未授權(quán),未發(fā)現(xiàn),其它)和HTTP服務(wù)器端錯(cuò)誤。應(yīng)用錯(cuò)誤通常是經(jīng)基于模式匹配的HTML內(nèi)容檢查后所得出。HTML分析包括支持Frame結(jié)構(gòu)的頁面分析(<IFRAME>/<FRAMESET>標(biāo)簽,并支持遞歸模式)。Frame結(jié)構(gòu)的頁面被看做一個(gè)頁面而非一組頁面,F(xiàn)rame結(jié)構(gòu)的頁面的監(jiān)控模式可自動(dòng)或手工配置進(jìn)行監(jiān)控。5.業(yè)務(wù)交易分析HTTP業(yè)務(wù)交易是指在網(wǎng)站上,通過一組順序的URL頁面去執(zhí)行和業(yè)務(wù)相關(guān)的一系列操作。每一個(gè)業(yè)務(wù)交易都有自己的起始頁面,終止頁面和相關(guān)其它的一些頁面組成。以實(shí)時(shí)方式監(jiān)控所有網(wǎng)站用戶的業(yè)務(wù)交易。對(duì)于每一個(gè)業(yè)務(wù)交易,其監(jiān)控性能指標(biāo)包括執(zhí)行時(shí)間,實(shí)際步驟,以及各步驟,服務(wù)器處理時(shí)間,網(wǎng)絡(luò)消耗時(shí)間,和空閑時(shí)間的關(guān)系或時(shí)間比重。交易期間的錯(cuò)誤不僅會(huì)出現(xiàn)在HTTP頁面報(bào)告也同樣會(huì)反映到交易報(bào)告中。6.SMTP分析SMTP分析提供EMAIL流量數(shù)據(jù),包括EMAIL字節(jié)數(shù),附件數(shù)量,SMTP服務(wù)器性能,比如處理時(shí)間和錯(cuò)誤數(shù)。SMTP報(bào)表的用戶是EMAIL地址用戶。7.防火墻和負(fù)載均衡檢測(cè)監(jiān)控設(shè)備本身的延遲和丟失率。提供設(shè)備延遲時(shí)間,計(jì)算防火墻上被丟失的SESSION數(shù)8.網(wǎng)絡(luò)性能表現(xiàn)對(duì)被監(jiān)控的應(yīng)用的網(wǎng)絡(luò)性能,提供延遲(roundtriptime)和丟包率(retransmissions)。網(wǎng)絡(luò)性能往往作為應(yīng)用服務(wù)水平下降的一個(gè)原因-也就是,應(yīng)用服務(wù)是否受到網(wǎng)絡(luò)性能的影網(wǎng)絡(luò)性能表現(xiàn)可針對(duì)于單個(gè)用戶,應(yīng)用或服務(wù)器,并提供上傳和下傳兩方面評(píng)估參數(shù)。網(wǎng)絡(luò)延遲是TCPSESSION持續(xù)性的參數(shù)。9.應(yīng)用監(jiān)控對(duì)網(wǎng)絡(luò)上的每個(gè)應(yīng)用,服務(wù)器,用戶,可以按client-server和server-client分開監(jiān)測(cè)其流量(字節(jié),包帶寬使用,吞吐量等性能指標(biāo)。.1無代理采集探針采集探針將部署在關(guān)鍵網(wǎng)段,通常依附于交換機(jī)上的鏡像端口或監(jiān)控端口。通過無代理技術(shù),以被動(dòng)方式從交換機(jī)的端口或分流器收集數(shù)據(jù)。以實(shí)時(shí)方式對(duì)采集信息按網(wǎng)絡(luò)用戶和應(yīng)用程序等進(jìn)行初步的元數(shù)據(jù)處理,對(duì)元數(shù)據(jù)進(jìn)行進(jìn)一步的分析和整理,以提供報(bào)表和告警觸發(fā)信息。.2數(shù)據(jù)分析服務(wù)通過讀取一個(gè)或多個(gè)探針收集的信息,在數(shù)據(jù)庫中,為每一個(gè)網(wǎng)站用戶,服務(wù)和URL建立相應(yīng)的性能指標(biāo)。數(shù)據(jù)的處理是以準(zhǔn)實(shí)時(shí)的方式進(jìn)行,因此可保證報(bào)表的準(zhǔn)確性和及時(shí)性。并且,所有的報(bào)表都可以以WEB的方式進(jìn)行訪問。數(shù)據(jù)庫不僅保存實(shí)時(shí)的各指標(biāo)性能數(shù)據(jù),還留有歷史紀(jì)錄,這樣可以方便地進(jìn)行趨勢(shì)分析和自動(dòng)計(jì)算性能基線。.3高級(jí)診斷服務(wù)Web應(yīng)用通常采用復(fù)雜的多層(multi-tier)網(wǎng)站架構(gòu)?;贖TTP的應(yīng)用需要智能化的診斷,深入到Web用戶以表格、向?qū)Щ蛘弑闅v等各種形式動(dòng)態(tài)交互的頁面。在這種情形下,網(wǎng)站的用戶故障診斷成為一項(xiàng)復(fù)雜的任務(wù)。網(wǎng)站的系統(tǒng)問題定位也變得非常具有挑戰(zhàn)性,以至經(jīng)常引起架構(gòu)部門、內(nèi)容設(shè)計(jì)部門和應(yīng)用管理部門難以化解的爭(zhēng)端。深入分析HTTP針對(duì)每個(gè)網(wǎng)站用戶、每個(gè)HTTP點(diǎn)擊、用戶請(qǐng)求的每個(gè)頁面分別收集數(shù)據(jù),這些數(shù)據(jù)存入數(shù)據(jù)庫,從而轉(zhuǎn)化為用戶-網(wǎng)站交互(Hit和Pages)的原子級(jí)別的診斷信息。由于這些詳細(xì)信息是根據(jù)業(yè)務(wù)模塊分別累積的,詳細(xì)的HTTP分析可以專注于單個(gè)用戶或者Web應(yīng)用的故障診斷,包括業(yè)務(wù)應(yīng)用、用戶和位置信息。詳細(xì)的分析是基于一系列可根據(jù)具體需求定制的報(bào)告進(jìn)行的。即時(shí)可通的報(bào)告包括頁面加載漸進(jìn)視圖、對(duì)請(qǐng)求時(shí)間、服務(wù)器時(shí)間、空閑時(shí)間、響應(yīng)時(shí)間以及他們之間在一個(gè)頁面加載內(nèi)的關(guān)系的做詳細(xì)評(píng)估。業(yè)務(wù)交易監(jiān)測(cè)將探針收集的數(shù)據(jù)定制可擴(kuò)展的報(bào)表,可以生成業(yè)務(wù)交易報(bào)表。即時(shí)可用的報(bào)表包括業(yè)務(wù)交易記分牌視圖和漸進(jìn)視圖。業(yè)務(wù)交易報(bào)表包含的信息有事務(wù)性能、利用率和出錯(cuò)矩陣。漸進(jìn)視圖專注于事務(wù)執(zhí)行,用來展示事務(wù)之間的時(shí)間關(guān)系。最終用戶還可以深入至事務(wù)內(nèi)部的每個(gè)頁面。網(wǎng)站問題解決報(bào)表我們將構(gòu)建一個(gè)網(wǎng)站性能分析模型,用于找出導(dǎo)致基于HTTP的應(yīng)用性能下降的系統(tǒng)問題。系統(tǒng)問題的出現(xiàn)頻率、原因以及影響都被量化并和網(wǎng)絡(luò)、服務(wù)器、客戶端時(shí)延、內(nèi)容設(shè)計(jì)等關(guān)聯(lián)起來。根據(jù)特定單元的失敗導(dǎo)致的頁面加載緩慢的數(shù)量來量化系統(tǒng)問題的影響范圍和嚴(yán)重級(jí)別,然后將它們以一種便于理解的形式展示出來,以幫助IT人員重點(diǎn)解決那些最為嚴(yán)重的網(wǎng)站問題。業(yè)務(wù)模擬體驗(yàn)來自Google和Microsoft的研究證明,即使是一秒鐘的延遲都會(huì)對(duì)用戶體驗(yàn)、收入和品牌忠實(shí)度產(chǎn)生明顯影響。用戶一直渴望和要求更好的交互體驗(yàn)和更快的響應(yīng)速度。當(dāng)用戶數(shù)和交易數(shù)量不斷增加,現(xiàn)有的系統(tǒng)運(yùn)維風(fēng)險(xiǎn)開始變大,而且越來越難以保證新版本發(fā)布后的擴(kuò)展性和穩(wěn)定性。用戶體驗(yàn)的重要性不言而喻,那么通過怎樣的手段來保障用戶體驗(yàn)是最有效的呢?業(yè)務(wù)模擬體驗(yàn)管理,是衡量應(yīng)用性能最直觀的指標(biāo)?;A(chǔ)架構(gòu)的建設(shè)、應(yīng)用系統(tǒng)的開發(fā)運(yùn)維,最終目標(biāo)是提供一個(gè)高效的業(yè)務(wù)運(yùn)行平臺(tái),隨著信息技術(shù)與業(yè)務(wù)的融合,用戶對(duì)于業(yè)務(wù)的接觸界面被虛擬化了。業(yè)務(wù)部門對(duì)于用戶體驗(yàn)的掌控開始失效,而用戶體驗(yàn)管理就是為了彌補(bǔ)這種狀況。而信息技術(shù)部門對(duì)于應(yīng)用運(yùn)維的評(píng)價(jià),已經(jīng)不能單純從單個(gè)網(wǎng)絡(luò)、系統(tǒng)、數(shù)據(jù)庫、應(yīng)用來進(jìn)行了,即使一切組件都運(yùn)行正常,也難以確保用戶體驗(yàn)良好,必須從真實(shí)用戶的實(shí)際體驗(yàn)角度對(duì)運(yùn)維進(jìn)行評(píng)價(jià),才不致于片面失察。業(yè)務(wù)模擬體驗(yàn)管理提供對(duì)于用戶行為和用戶體驗(yàn)的完全可視性,它捕獲每一次用戶點(diǎn)擊,無論該點(diǎn)擊來自何種設(shè)備,何種瀏覽器類型,都提供24*7的全時(shí)性能和錯(cuò)誤分析,繼而與動(dòng)態(tài)生成的性能基線進(jìn)行比對(duì),為IT運(yùn)維與業(yè)務(wù)管理層提供快速直觀的故障診斷報(bào)告業(yè)務(wù)模擬體驗(yàn)管理作為業(yè)務(wù)服務(wù)管理的重要組成部分,完全以最終用戶的角度,通過自動(dòng)對(duì)系統(tǒng)的模擬操作,記錄并分析模擬體驗(yàn)結(jié)果從而度量用戶敏感度高的客戶接觸類業(yè)務(wù),為運(yùn)維人員提供體統(tǒng)可用性、系統(tǒng)質(zhì)量的信息。業(yè)務(wù)模擬體驗(yàn)管理以7×24小時(shí)不間斷的方式,主動(dòng)地模擬用戶使用業(yè)務(wù)的行為,發(fā)現(xiàn)關(guān)鍵業(yè)務(wù)流程潛在的性能和可用性問題,建立預(yù)警機(jī)制,通過系統(tǒng)監(jiān)控管理生成業(yè)務(wù)體驗(yàn)告警事件。業(yè)務(wù)模擬體驗(yàn)管理目標(biāo)是借助端到端的模擬請(qǐng)求,找出體驗(yàn)較差的業(yè)務(wù)流程,彌補(bǔ)系統(tǒng)監(jiān)控管理發(fā)現(xiàn)不了的缺陷。模擬功能管理現(xiàn)代Web或企業(yè)應(yīng)用的用戶體驗(yàn)需要一個(gè)端到端、基于交易的方案?,F(xiàn)代應(yīng)用越來越多的調(diào)用第三方服務(wù),例如內(nèi)容分布式網(wǎng)絡(luò),廣告服務(wù)等等。而且,越來越多的代碼在瀏覽器端執(zhí)行以增加與用戶的互動(dòng)性,虛擬化的基礎(chǔ)設(shè)施和云服務(wù)被采用以降低風(fēng)險(xiǎn)和提供更大的靈活性。傳統(tǒng)方案只能看見傳輸?shù)椒?wù)器的網(wǎng)絡(luò)數(shù)據(jù)以及其攜帶的有限信息。我們將提供完全基于交易的端到端的用戶體驗(yàn)管理功能。第一次實(shí)現(xiàn)對(duì)真實(shí)用戶體驗(yàn)、行為等信息的管理能力,能夠全面了解使用任何設(shè)備的用戶,從點(diǎn)擊鼠標(biāo)到最終數(shù)據(jù)庫的整體性能。可視化實(shí)時(shí)交易流即使在最理想的狀態(tài)下,隔離性能問題仍然是非常有挑戰(zhàn)性的一件事,而對(duì)于今天復(fù)雜,分布式,動(dòng)態(tài)的應(yīng)用,仍然沿用老的性能監(jiān)控工具去隔離性能問題幾乎是不可能的。實(shí)時(shí)交易流拓?fù)鋱D實(shí)時(shí)勾畫出穿越你的應(yīng)用環(huán)境中的每一個(gè)交易,包括全面的概覽,或者是某個(gè)出現(xiàn)性能偏移的交易,或者是作為特定SLA一部分的交易??梢钥吹绞悄囊粋€(gè)應(yīng)用組件被使用來處理這個(gè)交易,了解組件之間的互動(dòng)關(guān)系以及層與層之間交互時(shí)的性能影響,展示一個(gè)交易在每層消耗的時(shí)間以及資源消耗比如CPU利用率。另外,交易流視圖也可以展現(xiàn)每次交易執(zhí)行時(shí)所調(diào)用的服務(wù)次數(shù),高亮產(chǎn)生性能瓶頸的問題類別。附圖28.可視化實(shí)時(shí)交易流端到端交易服務(wù)端到端的交易跟蹤,可以跨越WEB/WebServer/Java/.Net/C邊界,同時(shí)會(huì)記錄和捕捉上下文環(huán)境,例如用戶會(huì)話信息、方法參數(shù)、返回值,日志消息,異常詳細(xì)信息等。采用可視化的技術(shù)快速定位性能瓶頸。附圖29.端到端交易分析分析應(yīng)用在瀏覽端的性能可以深入分析應(yīng)用在瀏覽器端執(zhí)行的性能,包括Javascript執(zhí)行時(shí)間,頁面渲染時(shí)間,解析時(shí)間,網(wǎng)絡(luò)時(shí)間,服務(wù)器時(shí)間。附圖30.瀏覽器端性能分析分布部署模擬體驗(yàn)點(diǎn)功能應(yīng)具備從不同地理位置發(fā)起業(yè)務(wù)體驗(yàn)的能力。這些業(yè)務(wù)體驗(yàn)發(fā)起地點(diǎn)應(yīng)部署在用戶體驗(yàn)較差、性能問題多發(fā)地點(diǎn),或者業(yè)務(wù)量較大的地點(diǎn)。所有體驗(yàn)點(diǎn)都會(huì)把采集到的用戶體驗(yàn)數(shù)據(jù)發(fā)送到業(yè)務(wù)管理平臺(tái),按照小時(shí)、天、周、月、季度和年等時(shí)間周期進(jìn)行逐層聚合,便于進(jìn)行歷史數(shù)據(jù)分析。模擬體驗(yàn)點(diǎn)歷史性能數(shù)據(jù)分析功能以業(yè)務(wù)為中心,按照模擬業(yè)務(wù)體驗(yàn)發(fā)起時(shí)間、發(fā)起地點(diǎn)、業(yè)務(wù)響應(yīng)時(shí)間和業(yè)務(wù)體驗(yàn)結(jié)果等維度進(jìn)行歷史數(shù)據(jù)分析,找出體驗(yàn)較差的業(yè)務(wù)。經(jīng)過前期的系統(tǒng)建設(shè),運(yùn)維體系中各個(gè)管理系統(tǒng)已經(jīng)采集并存儲(chǔ)了海量數(shù)據(jù),數(shù)據(jù)范圍涉及到了告警、性能、配置項(xiàng)、業(yè)務(wù)、運(yùn)營、運(yùn)維等多領(lǐng)域,如何將這些數(shù)據(jù)進(jìn)行有效的利用、分析,為系統(tǒng)分析、決策判斷提供準(zhǔn)確的依據(jù)成為系統(tǒng)發(fā)展的瓶頸。為更好的利用既有數(shù)據(jù),服務(wù)于業(yè)務(wù)運(yùn)營,提升業(yè)務(wù)運(yùn)營質(zhì)量,通過建設(shè)綜合分析平臺(tái)進(jìn)行綜合化的分析,分析中心主要面向管理人員、業(yè)務(wù)人員,維護(hù)人員,通過對(duì)既有數(shù)據(jù)進(jìn)行多視角、多維度的分析,直觀展示業(yè)務(wù)、應(yīng)用及系統(tǒng)的運(yùn)行狀況、發(fā)展趨勢(shì),最終為系統(tǒng)擴(kuò)容優(yōu)化、業(yè)務(wù)質(zhì)量提升提供運(yùn)維數(shù)據(jù)支持。提供方便的查詢功能,可以通過導(dǎo)航對(duì)各專業(yè)的維度和指標(biāo)進(jìn)行簡(jiǎn)單定制的查詢;提供多種統(tǒng)計(jì)分析能力,圍繞分析主題進(jìn)行不同角度、不同層次的數(shù)據(jù)分析,用戶能夠在頁面上快速實(shí)現(xiàn)指標(biāo)的對(duì)比分析、分布分析、同比分析、環(huán)比分析、趨勢(shì)分析等,從而形成一系列的指標(biāo)分析內(nèi)容;提供了靈活、易用的應(yīng)用展現(xiàn)功能,包括:圖、表、圖表結(jié)合、文字、符號(hào)等多種可視化界面;提供靈活的多維瀏覽展現(xiàn),用戶可以對(duì)數(shù)據(jù)進(jìn)行靈活的鉆取分析、切片旋轉(zhuǎn)分析,幫助發(fā)現(xiàn)數(shù)據(jù)之間潛在的、不易為人察覺的關(guān)系,洞悉業(yè)務(wù)發(fā)展規(guī)律;同時(shí)能夠?qū)⒎治鼋Y(jié)果自動(dòng)生成所需要的報(bào)告;各種數(shù)據(jù)分析方法和操作方法——對(duì)比分析、分布分析、同比分析、環(huán)比分析、趨勢(shì)分析、閾值分析和鉆取分析、關(guān)聯(lián)分析、切片分析、旋轉(zhuǎn)分析、排序分析、數(shù)據(jù)導(dǎo)出,需根據(jù)主題分析內(nèi)容可選實(shí)現(xiàn)。故障分布分析CMP系統(tǒng)每天會(huì)產(chǎn)生數(shù)量眾多的告警信息,報(bào)表模塊從告警類型、告警級(jí)別、告警源等多個(gè)角度分析這些告警信息。提供按照日、周、月等不同時(shí)間粒度的告警明細(xì)和統(tǒng)計(jì)報(bào)表,幫助維護(hù)人員定位故障頻發(fā)點(diǎn)、故障多發(fā)時(shí)段,故障多發(fā)類型,分析故障發(fā)生原因,以采取有針對(duì)性的措施,盡量防止故障的發(fā)生。統(tǒng)計(jì)分析平臺(tái)提供關(guān)于當(dāng)前告警和歷史告警的查詢、統(tǒng)計(jì)和分析功能,并給出故障分析報(bào)告等信息,為透徹掌握系統(tǒng)運(yùn)行情況提供分析數(shù)據(jù)。維護(hù)人員能夠通過報(bào)表查看和處理告警和故障,對(duì)系統(tǒng)運(yùn)行狀況進(jìn)行快速總結(jié)和匯報(bào);管理人員也能夠通過報(bào)表看到故障發(fā)生、處理、趨勢(shì)等數(shù)據(jù)和圖表,作為決策和考核的數(shù)據(jù)基礎(chǔ)。告警管理報(bào)表能夠提供以下信息:令當(dāng)前告警:提供了多種維度的當(dāng)前告警信息,方便查看各種需求的告警統(tǒng)計(jì),為故障及時(shí)處理提供了告警和故障的有效展現(xiàn)工具,主要包括:告警列表查詢:以最小粒度1分鐘及時(shí)刷新當(dāng)前告警,并提供按照設(shè)備、告警類型、告警標(biāo)題、告警內(nèi)容、告警級(jí)別、告警狀態(tài)、發(fā)生時(shí)間、重復(fù)告警等條件的查詢功能,當(dāng)前告警可以鉆取(DrillDown)到詳細(xì)的告警信息。按照設(shè)備分布查詢:將告警按照不同設(shè)備統(tǒng)計(jì)嚴(yán)重告警/主要告警/次要告警/警告告警等告警,可以按照設(shè)備鉆?。―rillDown)到詳細(xì)的告警信息。自定義查詢:可以按照設(shè)備屬性、告警屬性、其它屬性、告警發(fā)生時(shí)間等條件進(jìn)行復(fù)合查詢。設(shè)備狀態(tài)圖:按照系統(tǒng)、主機(jī)、網(wǎng)絡(luò)、數(shù)據(jù)庫等分別組織的設(shè)備狀態(tài)的直觀展現(xiàn)工具圖表,可以將所有設(shè)備的主要屬性(如主機(jī)的CPU/內(nèi)存/Disk/Swap/磁盤/進(jìn)程/文件系統(tǒng)/通斷性等)的當(dāng)前狀態(tài),按照不同顏色顯示嚴(yán)重/主要/次要/警告/不確定/正常等不同狀態(tài),可以鉆取訪問到詳細(xì)的告警信息。令歷史告警:提供了多種維度的歷史告警信息,方便查看多種方式的告警統(tǒng)計(jì),為故障處理的考核提供了數(shù)據(jù)基礎(chǔ),主要包括:按照不同的系統(tǒng)統(tǒng)計(jì)歷史告警按照不同的時(shí)長統(tǒng)計(jì)歷史告警,包括告警時(shí)長、處理時(shí)長、響應(yīng)時(shí)長等按照不同的告警類別統(tǒng)計(jì)歷史告警按照不同的告警級(jí)別統(tǒng)計(jì)歷史告警按照不同的設(shè)備統(tǒng)計(jì)歷史告警自定義統(tǒng)一和自定義查詢。附圖31.故障分析報(bào)表性能綜合分析系統(tǒng)運(yùn)行情況性能報(bào)告是報(bào)表系統(tǒng)的重要內(nèi)容。報(bào)表模塊能夠提供各種性能KPI指標(biāo)報(bào)表,同時(shí)展現(xiàn)設(shè)定的性能指標(biāo)的門限值,使維護(hù)人員能夠通過報(bào)表系統(tǒng)了解IT系統(tǒng)、子系統(tǒng)的運(yùn)轉(zhuǎn)狀況,分析運(yùn)行趨勢(shì),定位性能瓶頸,為合理的容量規(guī)劃和系統(tǒng)擴(kuò)容提供量化依可以將多種數(shù)據(jù)來源的后臺(tái)數(shù)據(jù)經(jīng)過計(jì)算、加工、整理、組織,形成系統(tǒng)設(shè)備的歷史性能數(shù)據(jù),并按照最終展現(xiàn)的報(bào)表要求,進(jìn)行各種時(shí)間粒度的聚合,從業(yè)務(wù)應(yīng)用的角度,將經(jīng)過聚合處理的數(shù)據(jù)按照各種維度進(jìn)行重新組織,方便地展現(xiàn)各級(jí)不同用戶需要的性能統(tǒng)計(jì)報(bào)令業(yè)務(wù)系統(tǒng)狀態(tài)報(bào)表各個(gè)業(yè)務(wù)系統(tǒng)的維護(hù)人員在日常運(yùn)維過程中需要了解自己負(fù)責(zé)維護(hù)設(shè)備的Overview情況。因此,報(bào)表模塊提供了各業(yè)務(wù)系統(tǒng)的Overview報(bào)表,包括了該業(yè)務(wù)系統(tǒng)所屬設(shè)備列表(可DrillDown察看明細(xì)資產(chǎn)數(shù)據(jù))、當(dāng)前設(shè)備告警情況(可DrillDown察看明細(xì)告警數(shù)據(jù))、若干主要性能指標(biāo)的TopN報(bào)表(可DrillDown察看性能明細(xì)數(shù)據(jù))。性能查詢報(bào)表對(duì)于服務(wù)器、數(shù)據(jù)庫、中間件等的性能報(bào)表提供靈活的明細(xì)數(shù)據(jù)查詢功能。能夠?qū)π畔⒌膬?nèi)容條目設(shè)置查詢條件,也能夠?qū)χ饕臈l目進(jìn)行復(fù)合條件的組合過濾查詢。在用戶設(shè)置如時(shí)間、日期等查詢條件時(shí),可以對(duì)輸入內(nèi)容的合法性進(jìn)行檢查。能夠提供性能指標(biāo)的橫向比對(duì)和縱向比對(duì)的功能。橫向比對(duì)即若干臺(tái)設(shè)備的同一個(gè)或幾個(gè)性能指標(biāo)在同一時(shí)間段內(nèi)的性能曲線比對(duì),縱向比對(duì)即同一臺(tái)設(shè)備的某幾個(gè)性能指標(biāo)的當(dāng)前情況與昨日、上周、上月、往年同期的比對(duì)分析。對(duì)于通過折線圖展現(xiàn)的多指標(biāo)報(bào)表,可以區(qū)分到底哪條曲線代表哪個(gè)指標(biāo),能夠?qū)Σ煌闹笜?biāo)加以不同的標(biāo)記。同一張報(bào)表中展示多個(gè)指標(biāo),而這些指標(biāo)的單位不同,可能是數(shù)量、時(shí)間、百分比等,報(bào)表模塊提供同時(shí)展現(xiàn)多個(gè)坐標(biāo)軸的功能。用戶在查看性能指標(biāo)數(shù)據(jù)的同時(shí)也可以查看到這些性能指標(biāo)的告警門限,以直觀的了解在一段時(shí)間內(nèi)該指標(biāo)的變化情況。如果用戶需要了解某些指標(biāo)對(duì)另外一個(gè)重要指標(biāo)構(gòu)成的壓力情況,還提供在同一張報(bào)表中展示不同指標(biāo),指標(biāo)狀態(tài)和變化趨勢(shì)可以分別用柱圖、折線圖表示。附圖32.性能分析報(bào)表資產(chǎn)分析對(duì)于用戶關(guān)心的IT系統(tǒng)的資源資產(chǎn)情況,可以通過資源資產(chǎn)分析報(bào)表獲得。提供按照生產(chǎn)廠商、業(yè)務(wù)系統(tǒng)、設(shè)備型號(hào)、設(shè)備類型、聯(lián)系部門、地理位置等多種維度組合查詢功能,容量規(guī)劃容量規(guī)劃使維護(hù)人員能夠清晰地了解IT系統(tǒng)中各種設(shè)備、軟件、應(yīng)用的資源配置情況。報(bào)表查詢可以按照整體統(tǒng)計(jì)或設(shè)備明細(xì)進(jìn)行,通過統(tǒng)計(jì)報(bào)表的向下鉆取也可得到明細(xì)報(bào)表。資源資產(chǎn)報(bào)表為用戶提供了翔實(shí)的數(shù)據(jù),為維護(hù)人員、管理人員掌控系統(tǒng)資源信息,充分了解系統(tǒng)資源配置情況提供非常便利的工具。資源資產(chǎn)報(bào)表還提供在指定時(shí)間段內(nèi)資產(chǎn)配置信息發(fā)生變化的配置變化報(bào)表。附圖33.資產(chǎn)分析報(bào)表批注[雨林木風(fēng)8]:加入虛擬化容量規(guī)劃附圖34.容量規(guī)劃視圖附圖35.容量趨勢(shì)報(bào)表.1.1主機(jī)容量規(guī)劃主機(jī)容量規(guī)劃是指依據(jù)對(duì)歷史數(shù)據(jù)分析結(jié)果,形成評(píng)估模型,可以通過業(yè)務(wù)增漲量評(píng)估主機(jī)應(yīng)具備的運(yùn)算能力(TPC-C值與內(nèi)存需求量從而為支撐部門按業(yè)務(wù)量進(jìn)行主機(jī)擴(kuò)容提供參考依據(jù)。.1.1.1規(guī)劃要素規(guī)劃要素包括:分析模型、分析變量、分析常量、分析結(jié)果。主機(jī)容量數(shù)據(jù)要素包括:主機(jī)型號(hào)、TPCC值、CPU主頻與數(shù)量、內(nèi)存容量、CPU利用率、內(nèi)存利用率。主機(jī)容量按指定的忙時(shí),提取單臺(tái)采集主機(jī)容量指標(biāo),數(shù)據(jù)來源為性能數(shù)據(jù)或系統(tǒng)狀態(tài)快照文件。業(yè)務(wù)數(shù)據(jù)的內(nèi)容包括:業(yè)務(wù)指標(biāo)名稱、業(yè)務(wù)指標(biāo)量、業(yè)務(wù)指標(biāo)的統(tǒng)計(jì)周期、需要使用的系統(tǒng)資源名稱,以及完成業(yè)務(wù)量處理所需要的運(yùn)行時(shí)長。.1.1.2規(guī)劃方法TPC-C評(píng)估方法TPC-C測(cè)試基準(zhǔn)主要用于計(jì)算主機(jī)服務(wù)器每分鐘能夠處理的聯(lián)機(jī)交易筆數(shù),評(píng)估產(chǎn)生的單位結(jié)果是TPM值(TransactionPerMinute,即每分鐘處理的交易比數(shù))。TPC-C雖然客觀的反映了各個(gè)計(jì)算機(jī)廠商的系統(tǒng)處理性能,并且測(cè)試基準(zhǔn)也在不斷完善以更加貼近現(xiàn)實(shí)應(yīng)用的交易環(huán)境,但是仍然無法與紛繁多樣的各類實(shí)際應(yīng)用完全吻合;而且參加TPC測(cè)試的主機(jī)系統(tǒng)都做了適當(dāng)程度的系統(tǒng)優(yōu)化。因此,在實(shí)際業(yè)務(wù)應(yīng)用系統(tǒng)選擇主機(jī)服務(wù)器乘載體時(shí),必須考慮到多方面的因素,以最大程度的做到適合應(yīng)用系統(tǒng)的生產(chǎn)需內(nèi)存量估計(jì)方法首先根據(jù)數(shù)據(jù)庫容量算出所需的數(shù)據(jù)庫緩存大小,再估計(jì)出操作系統(tǒng)、系統(tǒng)軟件等所需內(nèi)存,再根據(jù)按合理的利率計(jì)算出的值,即是所需的內(nèi)存容量。公式如下:TOTAL_MEM=(OS_BASE_MEM+OS_HA_MEM+APP_MEM+DB_SYS_MEM+DB_CACHE_MEM)/Good_Rate其中:OS_BASE_MEM:操作系統(tǒng)所占的內(nèi)存量OS_HA_MEM:雙機(jī)熱備等系統(tǒng)軟件所占的內(nèi)存量APP_MEM:應(yīng)用程序所占的內(nèi)存量DB_SYS_MEM:數(shù)據(jù)庫管理系統(tǒng)所占的內(nèi)存量DB_CACHE_MEM:數(shù)據(jù)庫緩存內(nèi)存量Good_Rate:合理的內(nèi)存利用率,建議:75%.1.1.3規(guī)劃結(jié)論以業(yè)務(wù)量預(yù)測(cè)值為基礎(chǔ),給出滿足預(yù)測(cè)值的主機(jī)容量建議。.1.2數(shù)據(jù)庫容量規(guī)劃根據(jù)數(shù)據(jù)庫容量評(píng)估得到的趨勢(shì)圖,形成DB容量要素指標(biāo)和數(shù)據(jù)量的變化模型,通過數(shù)據(jù)增量評(píng)估數(shù)據(jù)庫要素指標(biāo)的增量,從而得到規(guī)劃的數(shù)據(jù)量對(duì)應(yīng)的的數(shù)據(jù)庫要素指標(biāo),為支撐部門按業(yè)務(wù)量規(guī)劃DB容量要素提供參考依據(jù)。批注[雨林木風(fēng)批注[雨林木風(fēng)9]:.1.2.1規(guī)劃要素令數(shù)據(jù)庫容量要素:硬件因素:包括表空間增量、內(nèi)存增量;調(diào)整參數(shù)因素,包括游標(biāo)增量、會(huì)話增量、進(jìn)程增量、鎖增量、任務(wù)隊(duì)列增量;.1.2.2規(guī)劃方法根據(jù)數(shù)據(jù)庫容量評(píng)估得到的趨勢(shì)圖,形成DB容量要素與業(yè)務(wù)量的變化模型,根據(jù)評(píng)估模型,形成DB容量要素增量的關(guān)系。.1.2.3規(guī)劃結(jié)論根據(jù)評(píng)估方法模型得到數(shù)據(jù)庫的容量規(guī)劃,為支撐部門按業(yè)務(wù)量規(guī)劃DB容量提供參考依據(jù)。容量規(guī)劃主要是建立未來系統(tǒng)擴(kuò)容計(jì)劃。通過容量評(píng)估已經(jīng)可以得到系統(tǒng)支持的最大業(yè)務(wù)量,但是無法通過業(yè)務(wù)量趨勢(shì)分析得到到達(dá)最大業(yè)務(wù)量的時(shí)間。容量規(guī)劃可以通過對(duì)現(xiàn)有系統(tǒng)平臺(tái)指標(biāo)的趨勢(shì)分析,獲得平臺(tái)指標(biāo)到達(dá)閥值的時(shí)間。通過以上分析可以在業(yè)務(wù)量不明的情況下進(jìn)行系統(tǒng)容量規(guī)劃,獲得擴(kuò)容的時(shí)間點(diǎn)。同時(shí),當(dāng)獲得業(yè)務(wù)部門預(yù)測(cè)未來的業(yè)務(wù)量是,可以通過系統(tǒng)交易模型反推出該業(yè)務(wù)量所需要的平臺(tái)指標(biāo)大小,進(jìn)而分析要支撐未來業(yè)務(wù)量所需要擴(kuò)容的項(xiàng)目和大小。.1.3虛擬化容量規(guī)劃針對(duì)虛擬及物理實(shí)體的容量進(jìn)行統(tǒng)一分析及預(yù)測(cè)由迅速增長和部署的虛擬服務(wù)器趨勢(shì)所推動(dòng)。首先容量管理解決方案需要監(jiān)控并收集、過濾、歸一并分析所有物理及虛擬實(shí)體的性能及配置數(shù)據(jù),然后基于這些性能和配置數(shù)據(jù)以及可能的工作負(fù)載情況,預(yù)測(cè)未來的虛擬及物理實(shí)體對(duì)容量的需求狀況。虛擬化增加了數(shù)據(jù)中心的靈活性。但同時(shí)也增加了復(fù)雜度。有些服務(wù)器實(shí)施了虛擬化,有些則沒有。首先對(duì)虛擬及物理實(shí)體的性能及配置數(shù)據(jù)進(jìn)行收集,整合來自多種異構(gòu)性能數(shù)據(jù)源實(shí)例的性能數(shù)據(jù),并將這些數(shù)據(jù)標(biāo)準(zhǔn)化,在整合過程中實(shí)現(xiàn)自動(dòng)抓取、標(biāo)準(zhǔn)化、同步和驗(yàn)證來自多種普及供應(yīng)商和自定義數(shù)據(jù)源的性能數(shù)據(jù)。首先需要確保數(shù)據(jù)之間不存在差別,保證準(zhǔn)確性。如果需要,可以根據(jù)實(shí)際的業(yè)務(wù)和應(yīng)用生命周期,重新定義數(shù)據(jù)采集周期和指標(biāo)水平。企業(yè)肯定都擁有多個(gè)來源的性能和配置數(shù)據(jù),因此要求容量數(shù)據(jù)收集能支持單一儲(chǔ)存庫支持和利用所有來源數(shù)據(jù)。例如應(yīng)用一部分運(yùn)行在VMware中,而另外一部分運(yùn)行在HPMonitoring管理的UNIX/Linux服務(wù)器中,還有一部分則通過SAR或PerfMon進(jìn)行監(jiān)測(cè),收集器可以提供集成的標(biāo)準(zhǔn)化數(shù)據(jù)集,從而實(shí)現(xiàn)報(bào)告和建模功能。即使獨(dú)特的數(shù)據(jù)源也可以在收集器中加以利用,實(shí)現(xiàn)最終的靈活性。收集器還包括開放式報(bào)告框架,可以在容量儲(chǔ)存庫中提供所有內(nèi)容的報(bào)告視圖。用戶能夠利用立即可用的集成報(bào)告,支持簡(jiǎn)單的趨勢(shì)分析和應(yīng)用概要分析,或者他們能夠采用自己的報(bào)告編寫軟件,創(chuàng)建自己的報(bào)告。如果需要理解當(dāng)前應(yīng)用的運(yùn)行情況,收集器可以實(shí)現(xiàn)圖形展示,無需額外的時(shí)間或部分精力。基于html的報(bào)告可以輕松實(shí)現(xiàn)與相關(guān)者的共享,以便促進(jìn)討論和決策支持。用戶還擁有可選項(xiàng),利用預(yù)先定義的報(bào)表模板用于報(bào)告。容量管理解決方案其目的就是在盡可能確保容量滿足業(yè)務(wù)的服務(wù)水平的前提下節(jié)約成本。因此首先需要深入了解提供正確組合基礎(chǔ)設(shè)施的洞察力,并且通過醒目的執(zhí)行儀表板提批注[雨林木風(fēng)10]:加上其他幾條批注[雨林木風(fēng)10]:加上其他幾條供信息。再對(duì)比硬件供應(yīng)商和配置,確定哪種基礎(chǔ)設(shè)施組合可以采用最佳成本滿足服務(wù)水平要求。最后規(guī)劃并且定制傳統(tǒng)的或虛擬的環(huán)境,包括應(yīng)用環(huán)境。及早發(fā)現(xiàn)性能瓶頸,將風(fēng)險(xiǎn)保持在最低程度,通過預(yù)測(cè)提前糾正。虛擬實(shí)體綜合分析通過分析虛擬實(shí)體的性能監(jiān)測(cè)數(shù)據(jù)可以發(fā)現(xiàn)已經(jīng)發(fā)生的問題,然而,當(dāng)用于構(gòu)建未來的績效模型時(shí),這種數(shù)據(jù)沒有太大價(jià)值。已經(jīng)采集的數(shù)據(jù)利用價(jià)值在于,可以迅速創(chuàng)建應(yīng)用和基礎(chǔ)設(shè)施的準(zhǔn)確仿真模型,并且對(duì)它進(jìn)行虛擬變更,不會(huì)給生產(chǎn)系統(tǒng)帶來風(fēng)險(xiǎn)。憑借超過90%的精確度,可以獲得所需的所有洞察力,從而做出明智的IT投資決策。一旦模型創(chuàng)建之后,可以應(yīng)用“假設(shè)分析”("what-if")場(chǎng)景來加以實(shí)現(xiàn)。譬如不斷更改的硬件供應(yīng)商、整合服務(wù)器、不斷增長的工作負(fù)載等等各種場(chǎng)景,有超過4000個(gè)硬件模型庫的組件可以輕松挖掘出這些可能的趨勢(shì)。在發(fā)生故障之前,便能識(shí)別出潛在的性能瓶頸,對(duì)需要投資領(lǐng)域的IT運(yùn)行環(huán)境容量進(jìn)行規(guī)劃。一旦模型創(chuàng)建完成,可以采用內(nèi)置的執(zhí)行和運(yùn)行報(bào)告,將基礎(chǔ)設(shè)施和應(yīng)用的詳細(xì)信息以報(bào)表的方式對(duì)IT和業(yè)務(wù)部門進(jìn)行展現(xiàn),容量管理解決方案支持開放式報(bào)告框架,所有建模相關(guān)的成果都可以在開放式XML結(jié)構(gòu)中提供,任何支持XML數(shù)據(jù)源的報(bào)告編寫軟件都可以獲得包含報(bào)告在內(nèi)的建模成果。容量管理解決方案還可以提供立即可用、與CrystalReports的額外集成,以實(shí)現(xiàn)執(zhí)行和自定義報(bào)告功能。通過利用專利預(yù)測(cè)分析技術(shù),結(jié)合真實(shí)世界的績效數(shù)據(jù)、建模、仿真、財(cái)務(wù)信息和決策支持儀表板,綜合分析解決方案可以提供對(duì)于虛擬和物理實(shí)體的容量信息的深入洞察能力和決策支持。運(yùn)維管理綜合分析運(yùn)維分析主要是對(duì)DCM系統(tǒng)的數(shù)據(jù)進(jìn)行分析,反映服務(wù)管理工作的質(zhì)量和效率,從而評(píng)估流程管理的有效性和效率。運(yùn)維分析的維度可以按照事件流程、問題流程、需求流程、配置流程、變更流程、發(fā)布流程、服務(wù)請(qǐng)求運(yùn)維流程進(jìn)行分類,分析指標(biāo)應(yīng)該涵蓋數(shù)量、解決率、及時(shí)率、響應(yīng)時(shí)長、中斷時(shí)長、重復(fù)率、成功率等,詳情請(qǐng)見下表:表格1.運(yùn)維專題分析表維度主要指標(biāo)數(shù)量解決率及時(shí)率解決時(shí)長中斷時(shí)長重復(fù)率成功率事件管理√√√√√√√√√√√√統(tǒng)√√√√√√優(yōu)先級(jí)√√√√√√√√√√√√
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024個(gè)人的簡(jiǎn)單借款合同
- 國際貿(mào)易協(xié)議樣本
- 廠房租賃合同范例
- 特色農(nóng)產(chǎn)品胡柚購銷合同法律問題探討
- 共同投資開設(shè)武術(shù)館協(xié)議
- 標(biāo)準(zhǔn)入職協(xié)議書范例
- 旅行社與導(dǎo)游勞動(dòng)合同范本
- 2023年高考地理第一次模擬考試卷-(湖南A卷)(全解全析)
- 房地產(chǎn)代理合同模板
- 2024年建筑渣土運(yùn)輸合同范文
- 2024年中國白酒行業(yè)數(shù)字化轉(zhuǎn)型研究報(bào)告-36氪-202409
- 《學(xué)校主人公:3 校園廣播站》教學(xué)設(shè)計(jì)-2024-2025學(xué)年五年級(jí)上冊(cè)綜合實(shí)踐活動(dòng)滬科黔科版
- 外傷急救包扎技術(shù)說課課件
- 人教版(2024新版)七年級(jí)上冊(cè)英語全冊(cè)語法知識(shí)點(diǎn)講義
- 全國青島版信息技術(shù)七年級(jí)下冊(cè)專題一第8課三、《高級(jí)統(tǒng)計(jì)-數(shù)據(jù)透視表》教學(xué)設(shè)計(jì)
- 內(nèi)分泌科品管圈成果匯報(bào)提高糖尿病患者健康教育知曉率
- 2024年秋季新人教版七年級(jí)數(shù)學(xué)上冊(cè)教學(xué)課件 第五章 一元一次方程 5.3實(shí)際問題與一元一次方程(第4課時(shí))
- 清淡的晚餐(課件)六年級(jí)上冊(cè)勞動(dòng)北京版
- 婦科內(nèi)分泌疾病診斷與治療考核試卷
- 城鎮(zhèn)雨污分流項(xiàng)目可行性研究報(bào)告
- 《19 海濱小城》公開課一等獎(jiǎng)創(chuàng)新教學(xué)設(shè)計(jì)及反思
評(píng)論
0/150
提交評(píng)論