版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、多數(shù)據(jù)業(yè)務(wù)平臺統(tǒng)一維護(hù)管理系統(tǒng)的研究與實(shí)現(xiàn)摘 要隨著中國移動數(shù)據(jù)業(yè)務(wù)的蓬勃發(fā)展,提供數(shù)據(jù)業(yè)務(wù)應(yīng)用的各類系統(tǒng)的數(shù)量和種類也在不斷地攀升,眾多的業(yè)務(wù)系統(tǒng)增加了日常維護(hù)的復(fù)雜度,也給維護(hù)人員的工作帶來了新的挑戰(zhàn)。本報告針對中國移動現(xiàn)網(wǎng)各類數(shù)據(jù)業(yè)務(wù)系統(tǒng)維護(hù)現(xiàn)狀進(jìn)行了分析,闡述了多數(shù)據(jù)業(yè)務(wù)平臺統(tǒng)一維護(hù)管理的必要性,提出了多數(shù)據(jù)業(yè)務(wù)平臺統(tǒng)一維護(hù)管理系統(tǒng)的功能需求, 并對各系統(tǒng)日常監(jiān)控的內(nèi)容和通信接口進(jìn)行了研究和梳理,詳細(xì)剖析了實(shí)現(xiàn)多數(shù)據(jù)業(yè)務(wù)系統(tǒng)各指標(biāo)采集的技術(shù)手段, 在此基礎(chǔ)上描述了多數(shù)據(jù)業(yè)務(wù)平臺統(tǒng)一維護(hù)管理系統(tǒng)的整體架構(gòu)和各模塊功能,闡述了如何實(shí)現(xiàn)各業(yè)務(wù)系統(tǒng)不同監(jiān)控指標(biāo)的統(tǒng)一配置,統(tǒng)一調(diào)度,集中告警和統(tǒng)
2、一報表生成, 從而達(dá)到多數(shù)據(jù)業(yè)務(wù)平臺的統(tǒng)一全面自動化維護(hù)。目錄目錄2引言3第一章 數(shù)據(jù)業(yè)務(wù)系統(tǒng)維護(hù)概述4第一節(jié) 數(shù)據(jù)業(yè)務(wù)系統(tǒng)簡介4第二節(jié) 數(shù)據(jù)業(yè)務(wù)系統(tǒng)維護(hù)現(xiàn)狀和統(tǒng)一維護(hù)的必要性6第三節(jié) 多數(shù)據(jù)業(yè)務(wù)平臺統(tǒng)一維護(hù)系統(tǒng)功能需求7第二章 多數(shù)據(jù)業(yè)務(wù)平臺監(jiān)控分析9第一節(jié) 監(jiān)控指標(biāo)分類描述9第二節(jié) 現(xiàn)網(wǎng)設(shè)備采集通信接口匯總10第三章 多數(shù)據(jù)業(yè)務(wù)統(tǒng)一維護(hù)系統(tǒng)的實(shí)現(xiàn)13第一節(jié) 系統(tǒng)監(jiān)控開發(fā)包14第二節(jié) 采集模塊15第三節(jié) 密碼管理模塊25第四節(jié) 實(shí)時告警模塊25第五節(jié) 存儲模塊26第六節(jié) 報表模塊28第七節(jié) 配置模塊29第八節(jié) 監(jiān)控處理模塊34第四章 統(tǒng)一管理平臺的現(xiàn)網(wǎng)部署34第一節(jié) 硬件部署34第二節(jié) 軟件
3、部署35第三節(jié) 網(wǎng)絡(luò)部署36第四節(jié) 現(xiàn)網(wǎng)監(jiān)控指標(biāo)的部署37第五節(jié) 軟件系統(tǒng)測試39第六節(jié) 試運(yùn)行結(jié)果40第五章 項(xiàng)目總結(jié)43第一節(jié) 預(yù)期目標(biāo)評估43第二節(jié) 項(xiàng)目成果帶來的效益44引言 系統(tǒng)日常維護(hù)的目的在于通過實(shí)時監(jiān)控現(xiàn)網(wǎng)各主機(jī)系統(tǒng)以及網(wǎng)絡(luò)設(shè)備的運(yùn)行狀況從而及時發(fā)現(xiàn)潛在問題并快速作出響應(yīng)。系統(tǒng)監(jiān)控的自動化也隨著現(xiàn)網(wǎng)數(shù)據(jù)業(yè)務(wù)系統(tǒng)的增多而變得愈加重要。上海移動的數(shù)據(jù)業(yè)務(wù)系統(tǒng)僅欽州機(jī)房就有400多臺主機(jī)服務(wù)器和網(wǎng)絡(luò)設(shè)備。它們因業(yè)務(wù)的不同所實(shí)現(xiàn)的功能也各不相同,需要監(jiān)控的內(nèi)容也各種各樣,主要包括系統(tǒng)硬件運(yùn)行狀態(tài)指標(biāo)、系統(tǒng)軟件運(yùn)行狀態(tài)指標(biāo)、業(yè)務(wù)運(yùn)行容量和質(zhì)量指標(biāo)等三類。為全面保障各數(shù)據(jù)業(yè)務(wù)系統(tǒng)可靠、穩(wěn)定
4、、高效地運(yùn)行,提高日維的工作質(zhì)量和工作效率,需要對監(jiān)控任務(wù)實(shí)現(xiàn)集中化、自動化管理和維護(hù),以協(xié)助日維工作人員完成繁雜的日維工作,做到有問題及時發(fā)現(xiàn),防患于未然。本報告將著重闡述如何實(shí)現(xiàn)多數(shù)據(jù)業(yè)務(wù)平臺統(tǒng)一維護(hù)系統(tǒng),以滿足現(xiàn)網(wǎng)多數(shù)據(jù)業(yè)務(wù)日常維護(hù)的需求。文章內(nèi)容安排如下:第一章主要回顧了現(xiàn)網(wǎng)數(shù)據(jù)業(yè)務(wù)系統(tǒng)的維護(hù)現(xiàn)狀,闡述了對各數(shù)據(jù)業(yè)務(wù)平臺實(shí)施統(tǒng)一維護(hù)管理的必要性和迫切性,并根據(jù)業(yè)務(wù)系統(tǒng)維護(hù)日常要求提出了實(shí)現(xiàn)多數(shù)據(jù)業(yè)務(wù)平臺統(tǒng)一維護(hù)管理系統(tǒng)的功能需求。第二章對現(xiàn)網(wǎng)所需要的各監(jiān)控指標(biāo)進(jìn)行分類描述,并梳理了現(xiàn)網(wǎng)數(shù)據(jù)業(yè)務(wù)系統(tǒng)的各類維護(hù)通信接口。第三章提出了多數(shù)據(jù)業(yè)務(wù)平臺統(tǒng)一維護(hù)管理系統(tǒng)的設(shè)計框架,然后依次對系統(tǒng)監(jiān)
5、控開發(fā)包,采集模塊,密碼管理模塊,實(shí)時告警模塊,存儲模塊,報表模塊,配置模塊和監(jiān)控處理模塊的功能和部分實(shí)現(xiàn)進(jìn)行了詳細(xì)描述。第四章闡述了該維護(hù)管理系統(tǒng)的硬件、軟件和網(wǎng)絡(luò)部署,以及對現(xiàn)網(wǎng)各數(shù)據(jù)業(yè)務(wù)系統(tǒng)監(jiān)控指標(biāo)的實(shí)施方案,并介紹了系統(tǒng)測試和試運(yùn)行狀況。第五章總結(jié)了該創(chuàng)新項(xiàng)目創(chuàng)新成果和取得的收益。第一章 數(shù)據(jù)業(yè)務(wù)系統(tǒng)維護(hù)概述第一節(jié) 數(shù)據(jù)業(yè)務(wù)系統(tǒng)簡介上海移動數(shù)據(jù)業(yè)務(wù)機(jī)房目前有欽州機(jī)房,浦東idc機(jī)房,怒江idc機(jī)房,金橋機(jī)房,它們承擔(dān)上海所有數(shù)據(jù)業(yè)務(wù)和部分全網(wǎng)數(shù)據(jù)業(yè)務(wù)的業(yè)務(wù)服務(wù)。其中大多數(shù)的數(shù)據(jù)現(xiàn)網(wǎng)業(yè)務(wù)的業(yè)務(wù)系統(tǒng)都部署在欽州機(jī)房,包括adc管理平臺、手機(jī)網(wǎng)游、wappush、misc管理平臺、彩鈴門戶、
6、集團(tuán)總機(jī)門戶、彩話門戶、www門戶、個人數(shù)據(jù)門戶、企信通、行業(yè)網(wǎng)關(guān)m模塊、ip電話系統(tǒng)、農(nóng)信通、城管通、小區(qū)短信、lbs、閃信、親子通、天網(wǎng)、信令采集系統(tǒng)、電子商務(wù)、流媒體手機(jī)電視和視頻監(jiān)控等20多種業(yè)務(wù),共有400多臺主機(jī)和網(wǎng)絡(luò)設(shè)備。眾多的業(yè)務(wù)系統(tǒng)總結(jié)下來存在以下特點(diǎn)。、功能各不相同。不同的業(yè)務(wù)為提供不同的服務(wù)實(shí)現(xiàn)了不同的功能,這就使得業(yè)務(wù)系統(tǒng)的各主機(jī)和網(wǎng)絡(luò)設(shè)備在功能各有差異。大致可分為數(shù)據(jù)庫服務(wù)器,文件服務(wù)器,web服務(wù)器,應(yīng)用服務(wù)器,負(fù)載均衡服務(wù)器,防火墻服務(wù)器,路由設(shè)備,交換設(shè)備等。、服務(wù)器硬件設(shè)備類型差異。不同的業(yè)務(wù)是由不同廠商提供的,這就決定了硬件設(shè)備的多樣性。目前硬件設(shè)備的廠商有
7、3com,b16,bigip,cisco,compaq,dell,emc,hp,ibm,juniper,netapp,netscreen,redware,raritan,sdk,sun,uu,中興,華為,大華,安氏,思科,港灣,綠盟,融天科技等30多家廠商。、軟件類型的差異。不同業(yè)務(wù)應(yīng)用是由不同軟件開發(fā)商提供的,各系統(tǒng)運(yùn)行的操作系統(tǒng)類型和版本,第三方軟件類型和版本,以及業(yè)務(wù)應(yīng)用軟件使得軟件千差萬別。如操作系統(tǒng)有windows,aix,hp-unix,sunos,suselinux,redhatlinux。數(shù)據(jù)庫軟件有:oracle,mysql,sqlserver等。web服務(wù)器軟件有iis,a
8、pache,weblogic等。軟硬件的差異決定了日常維護(hù)工作的繁雜性,也給日常維護(hù)人員帶來了挑戰(zhàn)。為確保各主機(jī)和網(wǎng)絡(luò)設(shè)備穩(wěn)定、安全、高效的運(yùn)行,日常維護(hù)工作就需要對現(xiàn)網(wǎng)系統(tǒng)進(jìn)行全方位的監(jiān)控,通過定時采集各個系統(tǒng)的性能和功能指標(biāo),實(shí)現(xiàn)對異常問題早發(fā)現(xiàn),早分析,早排除,從而防患于未然。第二節(jié) 數(shù)據(jù)業(yè)務(wù)系統(tǒng)維護(hù)現(xiàn)狀和統(tǒng)一維護(hù)的必要性通過對目前數(shù)據(jù)業(yè)務(wù)系統(tǒng)維護(hù)狀況的調(diào)查,總結(jié)起來有以下幾個特點(diǎn)。1、日維監(jiān)控工具分散且不統(tǒng)一。目前一些業(yè)務(wù)如misc,小區(qū)短信,企信通,天網(wǎng)等系統(tǒng)的監(jiān)控工具是由業(yè)務(wù)開發(fā)商提供的,只針對單個業(yè)務(wù)使用,風(fēng)格各異,且不具有通用性,無法用于其它系統(tǒng)維護(hù)使用。另有一些業(yè)務(wù)的監(jiān)控工具
9、是由業(yè)務(wù)負(fù)責(zé)人自己編寫,各自負(fù)責(zé)運(yùn)行和維護(hù)。分散各異的監(jiān)控工具之間的協(xié)同工作能力較差,使得日常維值人員難以達(dá)到同時兼顧,影響維護(hù)效率。2、系統(tǒng)安全埋有隱患。部分業(yè)務(wù)頻繁地手工登錄訪問系統(tǒng)主機(jī)查看系統(tǒng)和業(yè)務(wù)的運(yùn)行狀況,既耗費(fèi)人力又難以做到安全防護(hù)而且易產(chǎn)生誤操作從而影響現(xiàn)網(wǎng)業(yè)務(wù)的正常運(yùn)行。另外,有些對主機(jī)遠(yuǎn)程訪問密碼使用明文保存和分散管理的方式,安全性和維護(hù)性不高。3、監(jiān)控指標(biāo)不全面。各業(yè)務(wù)主機(jī)系統(tǒng)和網(wǎng)絡(luò)設(shè)備既需要有共同的監(jiān)控指標(biāo)如硬件運(yùn)行狀態(tài)指標(biāo)cpu利用率、內(nèi)存空間使用率、磁盤空間利用率和磁盤讀寫繁忙率等,也需要有根據(jù)不同設(shè)備和業(yè)務(wù)的差異而不同的軟件運(yùn)行狀態(tài)指標(biāo)和業(yè)務(wù)運(yùn)行狀態(tài)指標(biāo)。所有指標(biāo)數(shù)
10、據(jù)均正常才能確保整個業(yè)務(wù)的穩(wěn)定,可靠運(yùn)行。而目前大多數(shù)業(yè)務(wù)系統(tǒng)對于很多關(guān)鍵性指標(biāo)均沒有達(dá)到實(shí)時自動化監(jiān)控,無法做到防患于未然。4、監(jiān)控指標(biāo)數(shù)據(jù)存儲分散或無存儲。由于監(jiān)控工具的分散使得監(jiān)控采集數(shù)據(jù)各自存放,既增加了軟硬件的開銷,又難以進(jìn)行系統(tǒng)和業(yè)務(wù)的橫向指標(biāo)比較。另外,部分自己開發(fā)的簡易的監(jiān)控工具沒有存儲功能,難以生成數(shù)據(jù)報表和統(tǒng)計報表進(jìn)行分析。5、告警系統(tǒng)欠主動。大部分業(yè)務(wù)僅能將告警匯報在各自的業(yè)務(wù)維護(hù)系統(tǒng)內(nèi),需要管理員定期去提取、查看, 可能會導(dǎo)致問題發(fā)現(xiàn)不及時。、業(yè)務(wù)報表數(shù)據(jù)手工填寫和生成。業(yè)務(wù)報表需日維人員登錄到各系統(tǒng)上采集業(yè)務(wù)指標(biāo)后,手工填寫到報表中,重復(fù)性的手工操作既花費(fèi)了時間,實(shí)時
11、性和準(zhǔn)確性也無法充分保證。7、監(jiān)控指標(biāo)擴(kuò)展性較弱。對現(xiàn)有的廠商提供的各業(yè)務(wù)監(jiān)控工具,如有業(yè)務(wù)功能擴(kuò)展或欲新增監(jiān)控指標(biāo),需向廠商提出新的需求,并委托廠商開發(fā),然后進(jìn)行軟件升級,從而增加了時間延遲、費(fèi)用開銷和升級風(fēng)險。第三節(jié) 多數(shù)據(jù)業(yè)務(wù)平臺統(tǒng)一維護(hù)系統(tǒng)功能需求基于以上分析,傳統(tǒng)的系統(tǒng)維護(hù)方式已經(jīng)無法滿足日益增加的數(shù)據(jù)業(yè)務(wù)系統(tǒng)日常維護(hù)的要求,我們需要建立一個能夠支持多數(shù)據(jù)業(yè)務(wù)的統(tǒng)一維護(hù)管理系統(tǒng),來協(xié)助日維人員完成繁雜的日常監(jiān)控任務(wù),從而提高工作效率和工作質(zhì)量。該系統(tǒng)需要實(shí)現(xiàn)以下功能:1、 實(shí)現(xiàn)各種數(shù)據(jù)業(yè)務(wù)系統(tǒng)下各種監(jiān)控指標(biāo)的數(shù)據(jù)提取,屏蔽各種監(jiān)控方式的差異,實(shí)現(xiàn)采集手段的集中配置,采集任務(wù)的統(tǒng)一調(diào)度
12、和采集結(jié)果的集中化實(shí)時展示。2、 支持監(jiān)控方式的通用性,提取監(jiān)控方式的共同點(diǎn),便于將此監(jiān)控方式快速應(yīng)用到同類型的其他業(yè)務(wù)、系統(tǒng)和指標(biāo)的監(jiān)控。3、 支持監(jiān)控方式的可擴(kuò)展。便于新的采集接口和采集內(nèi)容的快速開發(fā)和部署。4、 實(shí)現(xiàn)實(shí)時告警和告警方式的多樣化,支持基本聲音顏色告警,支持?jǐn)U展的email,sms告警,支持企信通平臺的實(shí)時短信下發(fā)。5、 支持告警方式的可定制功能,可以根據(jù)需求快速開發(fā)和部署,同時支持短信內(nèi)容和下發(fā)對象的自定義功能。6、 支持監(jiān)控指標(biāo)數(shù)據(jù)的統(tǒng)一存儲和備份,實(shí)現(xiàn)數(shù)據(jù)匯聚,便于進(jìn)行統(tǒng)計分析和報表生成。7、 支持業(yè)務(wù)指標(biāo)報表的自動化生成。8、 系統(tǒng)自身用戶界面友好,部署成本應(yīng)相對較低
13、,且易于維護(hù)和升級。9、 系統(tǒng)設(shè)計有前瞻性,能有效應(yīng)對后續(xù)移動數(shù)據(jù)業(yè)務(wù)的增長。第二章 多數(shù)據(jù)業(yè)務(wù)平臺監(jiān)控分析集中監(jiān)控是實(shí)現(xiàn)統(tǒng)一維護(hù)的關(guān)鍵內(nèi)容,也是集中告警,統(tǒng)一存儲和統(tǒng)一報表的功能實(shí)現(xiàn)的前提條件。本章將對現(xiàn)網(wǎng)監(jiān)控指標(biāo)和通信接口進(jìn)行梳理。第一節(jié) 監(jiān)控指標(biāo)分類描述 現(xiàn)網(wǎng)數(shù)據(jù)業(yè)務(wù)指標(biāo)依據(jù)業(yè)務(wù)功能和軟硬件的不同而各種各樣,既有通用的監(jiān)控指標(biāo)也有業(yè)務(wù)相關(guān)的獨(dú)有的監(jiān)控指標(biāo)。歸納起來分為以下三類。1、 系統(tǒng)硬件運(yùn)行狀態(tài)指標(biāo)。系統(tǒng)硬件運(yùn)行狀態(tài)指標(biāo)是指各主機(jī)、網(wǎng)絡(luò)設(shè)備的硬件資源的使用情況,包括cpu利用率,內(nèi)存空間利用率,磁盤利用率,磁盤讀寫繁忙率和網(wǎng)絡(luò)帶寬利用率等。它們是系統(tǒng)穩(wěn)定和高效運(yùn)行的基礎(chǔ),也是最基本的
14、監(jiān)控指標(biāo)。當(dāng)然,根據(jù)設(shè)備功能的不同對不同的性能監(jiān)控指標(biāo)有所側(cè)重,如對于應(yīng)用服務(wù)器,cpu利用率和內(nèi)存利用率的監(jiān)控比較重要,它們直接決定了應(yīng)用程序的運(yùn)行效率,也會反映業(yè)務(wù)服務(wù)的質(zhì)量。而對于存儲服務(wù)器,磁盤利用率和io讀寫繁忙率的監(jiān)控就更重要。系統(tǒng)運(yùn)行性能指標(biāo)也會依據(jù)操作系統(tǒng)和設(shè)備類型的不同而表現(xiàn)為不同的指標(biāo)數(shù)據(jù)。詳細(xì)內(nèi)容見附件一:系統(tǒng)硬件運(yùn)行狀態(tài)指標(biāo)。2、 系統(tǒng)軟件運(yùn)行狀態(tài)指標(biāo)。這類指標(biāo)主要指業(yè)務(wù)正常運(yùn)行在功能和性能上的要求,會因業(yè)務(wù)的不同而各有差異,包括網(wǎng)絡(luò)連通性,url 連通性和有效性,服務(wù)運(yùn)行狀態(tài),進(jìn)程運(yùn)行實(shí)例數(shù),進(jìn)程運(yùn)行狀態(tài),應(yīng)用程序運(yùn)行狀態(tài)和數(shù)據(jù)庫運(yùn)行狀態(tài)等等。通過檢查這些指標(biāo)可以判斷
15、各軟件在功能和性能上是否正常運(yùn)行。具體指標(biāo)詳細(xì)內(nèi)容見附件二:系統(tǒng)軟件運(yùn)行狀態(tài)指標(biāo)。3、 業(yè)務(wù)運(yùn)行容量和質(zhì)量指標(biāo)。業(yè)務(wù)容量和質(zhì)量指標(biāo)是評估業(yè)務(wù)運(yùn)行情況和運(yùn)行能力的重要手段,也是部門和中心kpi考核指標(biāo),主要分為業(yè)務(wù)運(yùn)行成功率和業(yè)務(wù)并發(fā)處理能力兩大類。這類指標(biāo)會因業(yè)務(wù)的不同而各不相同。具體內(nèi)容見附件三:日報表業(yè)務(wù)指標(biāo)。第二節(jié) 現(xiàn)網(wǎng)設(shè)備采集通信接口匯總各業(yè)務(wù)主機(jī)從安全性和可維護(hù)性上考慮提供了不同的外部訪問服務(wù)接口,日維人員通過這些服務(wù)遠(yuǎn)程訪問現(xiàn)網(wǎng)設(shè)備和業(yè)務(wù)功能。歸納起來有以下幾種。1、 遠(yuǎn)程登錄(telnet ,ssh)服務(wù)。遠(yuǎn)程登錄服務(wù)是現(xiàn)網(wǎng)所有主機(jī)操作系統(tǒng)(sun solaris,hp unix
16、,windows:telnet,suselinux,redhatlinux,aix)和網(wǎng)絡(luò)設(shè)備操作系統(tǒng)(ciscoios,huaweivrp)默認(rèn)支持的服務(wù)類型,用戶可以通過網(wǎng)絡(luò)遠(yuǎn)程登錄到遠(yuǎn)程ip網(wǎng)絡(luò)計算機(jī)上,并以本地虛擬終端方式在遠(yuǎn)程設(shè)備上執(zhí)行操作。其中,ssh服務(wù)實(shí)現(xiàn)了網(wǎng)絡(luò)傳輸數(shù)據(jù)的壓縮和加密。既能防止網(wǎng)絡(luò)傳輸過程中傳輸內(nèi)容被截獲,也能提高傳輸效率,它完全實(shí)現(xiàn)了telnet的功能?,F(xiàn)網(wǎng)一些主機(jī)和網(wǎng)絡(luò)設(shè)備開放了遠(yuǎn)程登錄端口,便于系統(tǒng)維護(hù)的日維人員通過網(wǎng)管網(wǎng)絡(luò)對主機(jī),網(wǎng)絡(luò)設(shè)備的運(yùn)行狀態(tài)做日常檢查和錯誤診斷等日常維護(hù)工作。2、 文件傳輸(ftp,sftp)服務(wù)。文件傳輸服務(wù)也是所有現(xiàn)網(wǎng)主機(jī)操作系
17、統(tǒng)默認(rèn)支持的服務(wù)類型。用戶通過虛擬終端連接到遠(yuǎn)程計算機(jī)上,實(shí)現(xiàn)將文件從遠(yuǎn)程計算機(jī)上拷到本地計算機(jī)或把本地計算機(jī)的文件推送到遠(yuǎn)程計算機(jī)去的功能。sftp服務(wù)是采用加密方式來傳輸數(shù)據(jù)的,比ftp在傳輸方式上更安全。通過文件傳輸服務(wù),日維人員在需要日志、報表傳輸時可以方便的通過網(wǎng)管網(wǎng)絡(luò)實(shí)現(xiàn)對各種類型文件的獲取。3、 超文本鏈接(http,https)服務(wù)。http服務(wù)通過服務(wù)器端開放web服務(wù)偵聽端口提供web應(yīng)用,客戶端只需通過標(biāo)準(zhǔn)web瀏覽器,就可以訪問業(yè)務(wù)web服務(wù)器提供的網(wǎng)站。在日常維護(hù)工作中,日維人員通過在本地部署如ie,firefox,netscape等web瀏覽器,就可以方便地進(jìn)行ww
18、w網(wǎng)站的有效性測試,日常報表數(shù)據(jù)、業(yè)務(wù)運(yùn)行狀態(tài)和日志查詢等操作。4、 簡單網(wǎng)絡(luò)管理(snmp)服務(wù)。snmp服務(wù)提供了一種從網(wǎng)絡(luò)主機(jī)設(shè)備和網(wǎng)絡(luò)設(shè)備中提取和收集設(shè)備管理信息(mib)的方法。mib來自各廠家為產(chǎn)品定義的被管理對象名的集合,包括設(shè)備性能特性、數(shù)據(jù)吞吐量、通信超載和錯誤等與設(shè)備相關(guān)的數(shù)據(jù)指標(biāo)。snmp服務(wù)功能包括管理站和代理兩部分,它們分別部署在同一個或兩個不同的網(wǎng)絡(luò)設(shè)備上。snmp提供了兩種管理信息的獲取方式:提?。╯nmp get),指的是由管理站發(fā)起要求獲得管理信息的請求,代理則根據(jù)請求中的mib標(biāo)識從當(dāng)前設(shè)備上提取對應(yīng)的mib值,將結(jié)果返回給管理站;收集(snmp trap)
19、,指的是代理上設(shè)置相應(yīng)mib信息的告警規(guī)則,當(dāng)出現(xiàn)告警,代理將主動向管理站發(fā)送或在網(wǎng)絡(luò)上廣播trap包來報告意外情況。目前,所有的主流操作系統(tǒng)都支持snmp服務(wù)。系統(tǒng)維護(hù)的日維人員通過在本地部署snmp管理站,來查看遠(yuǎn)程網(wǎng)絡(luò)設(shè)備的運(yùn)行狀態(tài)。5、 網(wǎng)絡(luò)控制報文(icmp)協(xié)議。用于在ip主機(jī)、路由器之間傳遞控制消息??刂葡ňW(wǎng)絡(luò)是否連通、主機(jī)是否可達(dá)、路由是否可用等網(wǎng)絡(luò)本身的消息。這些控制消息雖然并不傳輸用戶數(shù)據(jù),但是對于用戶數(shù)據(jù)的傳遞起著重要的作用。所有的主機(jī)系統(tǒng)和網(wǎng)絡(luò)設(shè)備默認(rèn)都支持此協(xié)議。日維人員通常使用ping程序和transrouter程序來測試網(wǎng)絡(luò)連通性和主機(jī)可到達(dá)性。6、 數(shù)據(jù)庫
20、服務(wù)器網(wǎng)絡(luò)偵聽服務(wù)。數(shù)據(jù)庫服務(wù)器網(wǎng)絡(luò)偵聽服務(wù)用于偵聽數(shù)據(jù)庫客戶端到數(shù)據(jù)庫服務(wù)器的連接請求,提供通過網(wǎng)絡(luò)遠(yuǎn)程訪問數(shù)據(jù)庫的服務(wù)。所有的主流數(shù)據(jù)庫(oracle,sql server,sysbase,mysql)都支持這種網(wǎng)絡(luò)接入服務(wù)。通過在服務(wù)器端開啟網(wǎng)絡(luò)偵聽服務(wù),將客戶端部署到本地網(wǎng)管主機(jī),日維人員可以實(shí)現(xiàn)數(shù)據(jù)庫的遠(yuǎn)程接入和數(shù)據(jù)訪問。第三章 多數(shù)據(jù)業(yè)務(wù)統(tǒng)一維護(hù)系統(tǒng)的實(shí)現(xiàn)統(tǒng)一維護(hù)系統(tǒng)設(shè)計采用分層次的模塊化結(jié)構(gòu),基于windows和linux操作系統(tǒng)為開發(fā)平臺,以系統(tǒng)監(jiān)控開發(fā)包和oracle數(shù)據(jù)庫作為承載模塊進(jìn)行實(shí)現(xiàn)??傮w框架如下圖所示:圖表 1 多數(shù)據(jù)業(yè)務(wù)平臺統(tǒng)一維護(hù)系統(tǒng)框架圖如圖所示,為實(shí)現(xiàn)系統(tǒng)
21、功能, 在系統(tǒng)監(jiān)控開發(fā)包和oracle數(shù)據(jù)庫等形成的軟件承載基礎(chǔ)上,設(shè)計了配置模塊,密碼管理模塊,采集模塊,監(jiān)控處理模塊, 存儲模塊, 告警模塊和報表模塊, 并通過各模塊之間的消息傳遞,方法調(diào)用和網(wǎng)絡(luò)端口通信來完成對各監(jiān)控指標(biāo)的配置,調(diào)度,告警, 存儲和統(tǒng)計等功能。下面就對各模塊功能作詳細(xì)描述。第一節(jié) 系統(tǒng)監(jiān)控開發(fā)包系統(tǒng)監(jiān)控開發(fā)包是由ks-soft公司基于dephi集成開發(fā)環(huán)境推出的基礎(chǔ)開發(fā)包, 通常運(yùn)行在windows系列操作系統(tǒng)平臺之上,主要適用于主機(jī)監(jiān)控軟件的二次開發(fā)。它提供了標(biāo)準(zhǔn)化展示界面及統(tǒng)一調(diào)度功能, 支持代理方式的數(shù)據(jù)采集,代理可以運(yùn)行在windows,aix,linux,uni
22、x操作系統(tǒng)上。在采集方式上,它支持通用的snmp采集方式可用于遠(yuǎn)程mib庫信息的提??;也具備odbc開放式調(diào)用接口, 為實(shí)現(xiàn)數(shù)據(jù)庫統(tǒng)一訪問提供了可能;而提供代理和非代理方式下的開放的外部可執(zhí)行程序調(diào)用接口, 則為用戶的個性化監(jiān)控需求的采集實(shí)現(xiàn)提供了支持。我們通過編寫多重可執(zhí)行腳本和程序可以實(shí)現(xiàn)所有現(xiàn)網(wǎng)業(yè)務(wù)系統(tǒng)監(jiān)控指標(biāo)的采集需求,如果有新的業(yè)務(wù)指標(biāo)需要新的采集方法,只要添加新編寫的vb腳本、可執(zhí)行程序或shell腳本,經(jīng)過獨(dú)立測試后就可以集成到現(xiàn)有采集功能列表,靈活實(shí)現(xiàn)業(yè)務(wù)指標(biāo)采集功能的擴(kuò)展,節(jié)省了二次開發(fā)的費(fèi)用,節(jié)約了維護(hù)成本。另外,為了增強(qiáng)代碼的通用性,我們還采用程序模塊參數(shù)化的思想,使得同
23、一程序通過接收不同參數(shù)實(shí)現(xiàn)多指標(biāo)采集的代碼共享。在告警方式上,通過開放的外部可執(zhí)行程序的調(diào)用,我們也可以根據(jù)需求實(shí)現(xiàn)任意方式的告警通知??傊?,該開發(fā)包為我們在其上進(jìn)行二次開發(fā),實(shí)現(xiàn)多數(shù)據(jù)業(yè)務(wù)平臺的統(tǒng)一維護(hù)管理系統(tǒng)提供了較好的支持。第二節(jié) 采集模塊采集模塊負(fù)責(zé)與遠(yuǎn)程主機(jī)和網(wǎng)絡(luò)設(shè)備進(jìn)行通信執(zhí)行定時數(shù)據(jù)采集功能。通過提取采集方式,讀取參數(shù)輸入來選擇調(diào)用不同的應(yīng)用程序?qū)崿F(xiàn)代理或無代理方式下的采集數(shù)據(jù)的提取,同時接收采集數(shù)據(jù)。采集方式根據(jù)采集端口共分為兩種:一、 客戶機(jī)/代理/服務(wù)器模式。這種方式通過在被監(jiān)控的主機(jī)端部署代理軟件,提供了采集端(客戶端)和被采集端(服務(wù)器)通信的統(tǒng)一的tcp端口,從而不依
24、靠其它通信端口和服務(wù)就能夠?qū)崿F(xiàn)本地網(wǎng)管主機(jī)的到遠(yuǎn)程網(wǎng)絡(luò)設(shè)備的訪問。消息流程圖如下所示:圖表 2 客戶機(jī)/代理/服務(wù)器消息流程、 建立連接階段。運(yùn)行在服務(wù)器主機(jī)系統(tǒng)上的代理,開放tcp偵聽端口并始終保持偵聽狀態(tài);客戶機(jī)通過socket發(fā)起建立連接請求,其中包括代理所在的主機(jī)名和端口信息,代理偵聽器接收到連接請求,查找預(yù)先配置的主機(jī)名列表,如果是合法主機(jī),則返回連接成功。、 認(rèn)證階段??蛻魴C(jī)收到連接響應(yīng)后立即發(fā)送用戶名和密碼認(rèn)證請求給代理程序,代理進(jìn)行密碼校驗(yàn)成功后將生成通信文件描述符,客戶端返回認(rèn)證成功。代理主進(jìn)程創(chuàng)建通信子進(jìn)程,通信子進(jìn)程根據(jù)通信文件描述符將與客戶端進(jìn)行通信。主進(jìn)程關(guān)閉通信文件
25、描述符繼續(xù)偵聽端口上的連接請求,這種方式將避免了多個請求連接阻塞,實(shí)現(xiàn)了并發(fā)訪問。、 內(nèi)容請求執(zhí)行階段??蛻舳税l(fā)送命令請求并等待代理執(zhí)行返回,代理通信子進(jìn)程在接收到命令請求后,直接轉(zhuǎn)發(fā)給服務(wù)器執(zhí)行請求,服務(wù)器在解析并執(zhí)行命令請求后將結(jié)果返回給代理通信子進(jìn)程,后者將結(jié)果通過轉(zhuǎn)發(fā)給客戶機(jī)。、 連接斷開階段??蛻魴C(jī)收到執(zhí)行結(jié)果后將斷開socket連接,代理在收到請求后則退出通信子進(jìn)程。客戶機(jī)和代理隨即釋放系統(tǒng)資源,返回連接前狀態(tài)。代理方式的優(yōu)點(diǎn)在于,客戶機(jī)和服務(wù)器之間可以減少互操作次數(shù),降低網(wǎng)絡(luò)流量;另外,通過開放統(tǒng)一端口,限制客戶機(jī)源地址和密碼認(rèn)證來實(shí)現(xiàn)安全的數(shù)據(jù)訪問。這種訪問方式的缺點(diǎn)是需要在遠(yuǎn)
26、程網(wǎng)絡(luò)主機(jī)上額外部署軟件程序并占用主機(jī)資源。由以上消息流程可以看出,代理實(shí)現(xiàn)通信連接和轉(zhuǎn)發(fā)功能,而和請求內(nèi)容和返回結(jié)果無關(guān)。這樣,客戶機(jī)即可根據(jù)實(shí)際需求自由定制請求內(nèi)容,只要請求能被服務(wù)器應(yīng)用程序解釋執(zhí)行,同時,對服務(wù)器端返回的結(jié)果,客戶機(jī)程序同樣能夠解釋即可。對于這種采集方式,在實(shí)現(xiàn)手段上按服務(wù)器端的操作系統(tǒng)類型分為兩類。、 采用shell腳本方式提取采集指標(biāo)數(shù)據(jù)(適用于linux,unix,aix操作系統(tǒng))。shell是所有非windows操作系統(tǒng)以外的主流操作系統(tǒng)都支持的解釋型的編程語言。它既是命令語言,又是一種程序設(shè)計語言。作為命令語言,它交互式地解釋和執(zhí)行用戶輸入系統(tǒng)命令,文件操作命
27、令,以及各種應(yīng)用程序命令;作為程序設(shè)計語言,它仍然支持交互式命令的解釋執(zhí)行,并定義了各種變量和參數(shù),提供了許多在高級語言中才具有的控制結(jié)構(gòu),包括循環(huán)和分支。當(dāng)手工提取這類操作系統(tǒng)的指標(biāo)數(shù)據(jù)時,可通過輸入一個或多個shell交互命令的方式實(shí)現(xiàn)。一般來說,只要shell命令能夠做到的,我們都能通過shell腳本,實(shí)現(xiàn)該類操作系統(tǒng)的任何指標(biāo)的采集邏輯。下圖是對shell概念的描述圖。圖表 3shell概念描述圖、 采用vbs腳本方式提取采集指標(biāo)數(shù)據(jù)(適用于windows系列操作系統(tǒng))。vbs 是一種windows腳本,visual basic的一個抽象子集,解釋執(zhí)行器宿主host是windows操作
28、系統(tǒng)內(nèi)置的。vbs源代碼文件無需編譯就可以直接執(zhí)行,便于調(diào)試和更新,使各種各樣的任務(wù)自動化,能極大地提高工作效率。它最強(qiáng)大的地方就是提供了對indows通用com對象的支持。只要找到包含有所需要的功能的模塊文件,并在腳本中規(guī)范的引用,就可以實(shí)現(xiàn)特定的功能。目前業(yè)界提供了眾多的com對象包括操作系統(tǒng)build-in的組件可供調(diào)用,能夠?qū)崿F(xiàn)windows操作系統(tǒng)上任意指標(biāo)的數(shù)據(jù)采集。下圖是vbs的概念描述圖以及本地采集方式下的com組件的支持。圖表 4vbs 概念描述圖采集接口com對象服務(wù)器操作系統(tǒng)命令方式scripting.shellwindows文本文件scripting.filesyste
29、mobject,scripting.filewindowsexcel文件excel.applicationwindows圖表 5com組件列表二、 通過通用遠(yuǎn)程通信服務(wù)端口實(shí)現(xiàn)遠(yuǎn)程監(jiān)控。這種方式是在本地運(yùn)行可執(zhí)行程序來模擬完整的手工遠(yuǎn)程訪問操作,消息流程如下圖所示。它無需在遠(yuǎn)程網(wǎng)絡(luò)設(shè)備上安裝額外的代理程序,從而不占用因此產(chǎn)生的軟硬件資源消耗。但對于難以提取的復(fù)雜的監(jiān)控指標(biāo)需要進(jìn)行多次交互,增加了網(wǎng)絡(luò)流量。我們可以盡量多的將多個操作放在一條命令里執(zhí)行,也可以將它們編寫成可執(zhí)行文件保存在遠(yuǎn)程主機(jī),在本地發(fā)送指令觸發(fā)可執(zhí)行文件遠(yuǎn)程運(yùn)行,通過這些方式來減少因頻繁交互而產(chǎn)生的網(wǎng)絡(luò)帶寬的消耗。圖表 6 通
30、用網(wǎng)絡(luò)通信服務(wù)交互消息流程、 建立連接。服務(wù)器打開遠(yuǎn)程網(wǎng)絡(luò)通信服務(wù),如ssh,telnet,http,snmp,icmp,數(shù)據(jù)庫網(wǎng)絡(luò)服務(wù)等服務(wù)。此時服務(wù)對應(yīng)的偵聽端口將被開啟,負(fù)責(zé)接收客戶端的請求。客戶機(jī)發(fā)送連接請求給服務(wù)端的主機(jī)名和端口號,服務(wù)器將返回連接成功響應(yīng)。、 認(rèn)證階段。認(rèn)證階段的行為依據(jù)不同服務(wù)而有不同的表現(xiàn)。shh,telnet服務(wù)的認(rèn)證是在成功連接后通過用戶名、密碼的方式進(jìn)行認(rèn)證;http服務(wù)本身無需認(rèn)證,對web應(yīng)用的訪問權(quán)限依賴web應(yīng)用程序是否提供認(rèn)證功能而定;icmp服務(wù)則無需認(rèn)證過程;snmp的認(rèn)證是通過指定服務(wù)器端community完成的;數(shù)據(jù)庫網(wǎng)絡(luò)服務(wù)是通過數(shù)據(jù)庫
31、實(shí)例名、用戶名和密碼進(jìn)行認(rèn)證的。、 執(zhí)行階段。登錄完成后客戶機(jī)可以通過發(fā)送命令和消息請求方式完成和服務(wù)器操作的交互,并對命令執(zhí)行和消息返回結(jié)果進(jìn)行分析和處理,根據(jù)實(shí)際需要可能進(jìn)行多次交互最終實(shí)現(xiàn)遠(yuǎn)程操作目的。、 客戶端在獲得處理結(jié)果后將主動斷開此次連接,雙方系統(tǒng)釋放此次操作所占資源,并返回連接前狀態(tài)。根據(jù)以上消息流程,依賴各類遠(yuǎn)程通訊端口,我們通過采用以下不同的技術(shù)手段,可以實(shí)現(xiàn)任意消息和命令的發(fā)送來獲得服務(wù)器端的各項(xiàng)指標(biāo)的提?。骸?shù)據(jù)庫方式。通過odbc技術(shù)實(shí)現(xiàn)對數(shù)據(jù)庫的集中訪問。微軟開發(fā)了開放數(shù)據(jù)互聯(lián)(odbc)中間件,它屏蔽了不同數(shù)據(jù)庫軟件的差異,提供統(tǒng)一的數(shù)據(jù)庫訪問接口。用戶在客戶端上
32、安裝數(shù)據(jù)庫odbc驅(qū)動程序,然后創(chuàng)建數(shù)據(jù)源,即可對不同數(shù)據(jù)庫服務(wù)器進(jìn)行遠(yuǎn)程訪問,再通過編寫不同的sql語句,就能完成不同實(shí)例下的各庫指標(biāo)的統(tǒng)一接口提取。odbc實(shí)現(xiàn)參考模型如下圖所示:圖表 7 odbc實(shí)現(xiàn)參考模型、 命令提取方式。這種方式通常通過遠(yuǎn)程登錄服務(wù)ssh,telnet執(zhí)行服務(wù)器可執(zhí)行命令完成的,com組件weonlydo.wodsshcom.1提供了對象供vbs調(diào)用實(shí)現(xiàn)遠(yuǎn)程登錄,命令發(fā)送,命令接收,退出登錄等一系列的步驟,可以完成任何命令形式的數(shù)據(jù)采集功能。、 文件方式。這種方式一部分是通過向服務(wù)器發(fā)送命令的方式實(shí)現(xiàn)的,但對于復(fù)雜的文件格式和數(shù)據(jù)的提取,我們是通過將文件ftp到客戶
33、端,然后執(zhí)行文件讀取操作實(shí)現(xiàn)的。ftp可以通過window提供的內(nèi)置的com組件wscript.shell來實(shí)現(xiàn)。、 web方式。這種方式是通過客戶端打開瀏覽器,進(jìn)行web應(yīng)用訪問實(shí)現(xiàn)指標(biāo)數(shù)據(jù)的提取,對于這種方式,windows提供了內(nèi)置的com組件internetexplorer.application實(shí)現(xiàn)網(wǎng)頁打開和關(guān)閉操作;對象document則實(shí)現(xiàn)對網(wǎng)頁任意內(nèi)容的提取。、 wql方式。是windows管理技術(shù)(wmi)查詢語言,wmi提供訪問、配置、管理和監(jiān)視幾乎所有的windows資源的功能,包括驅(qū)動器,文件系統(tǒng),進(jìn)程,服務(wù),共享,注冊表,網(wǎng)絡(luò)模塊,事件日志,用戶等對象。通過編寫wmi
34、查詢語言(wql)語句完成對windows資源對象的狀態(tài)的提取。windows提供了內(nèi)置的com對象winmgmt:服務(wù)器名實(shí)現(xiàn)對遠(yuǎn)程wmi服務(wù)的接入。、 snmp方式。cisco網(wǎng)絡(luò)設(shè)備提供對外開放的指標(biāo)mib oid列表,通過在服務(wù)器上開啟snmp服務(wù)并定義身份驗(yàn)證字段community字段值,客戶端提供服務(wù)器主機(jī)名,community值和miboid就可以實(shí)現(xiàn)對應(yīng)指標(biāo)的提取。從以上采集實(shí)現(xiàn)方式可以看出,不同的主機(jī)和網(wǎng)絡(luò)設(shè)備可以根據(jù)實(shí)際情況的需要采取不同的方式,詳細(xì)采集命令和采集實(shí)現(xiàn)方式見附件一:系統(tǒng)硬件運(yùn)行狀態(tài)指標(biāo).xls,附件二:系統(tǒng)軟件運(yùn)行狀態(tài)指標(biāo).xls,附件三:日報表業(yè)務(wù)指標(biāo).x
35、ls。第三節(jié) 密碼管理模塊 vbs腳本在實(shí)現(xiàn)遠(yuǎn)程登陸方式采集時都需要遠(yuǎn)程主機(jī)的主機(jī)名或ip地址,用戶名和密碼信息。這種情況下密碼就需通過明文方式多處存放,為了提高操作的安全性,通過密碼管理功能模塊將密碼加密后統(tǒng)一存儲到數(shù)據(jù)庫表中供采集模塊的可執(zhí)行程序調(diào)用。同時,我們開發(fā)了動態(tài)鏈接庫prjencryptiondb.dll提供了prjencryptiondb.clsencryptiondb對象供各vb腳本和可執(zhí)行程序調(diào)用來獲取主機(jī)名或ip地址和用戶名對應(yīng)的訪問密碼, 從而達(dá)到了一處保存,多處使用的安全的密碼管理功能。該功能模塊加密算法采用了支持反解密的二進(jìn)制異或算法,用于在采集模塊程序提取后的遠(yuǎn)程
36、登錄操作。第四節(jié) 實(shí)時告警模塊此模塊負(fù)責(zé)超過閥值的監(jiān)控任務(wù)采集數(shù)據(jù)的異常告警。當(dāng)采集模塊執(zhí)行返回后,如返回數(shù)值滿足告警閥值,此模塊將被觸發(fā)執(zhí)行,告警流程如下所示。圖表 8 告警處理流程告警模塊選擇加載預(yù)定義的告警方式程序,接收輸入?yún)?shù)并作相應(yīng)處理,創(chuàng)建發(fā)送通信對象,設(shè)置發(fā)送內(nèi)容和發(fā)送接受對象,發(fā)送告警信息并返回發(fā)送狀態(tài),最后析構(gòu)通信對象。為有效保證實(shí)時告警,根據(jù)系統(tǒng)網(wǎng)絡(luò)部署的需求,我們還實(shí)現(xiàn)了通過數(shù)據(jù)業(yè)務(wù)的企信通平臺實(shí)時下發(fā)異常告警功能,它是通過vbs調(diào)用企信通提供的外部開發(fā)接口對象empp.emptcl完成的。輸入?yún)?shù)為:接收者,告警指標(biāo)名稱,告警時間,采集結(jié)果,采集結(jié)果狀態(tài)等信息。下圖為通
37、過企信通平臺實(shí)現(xiàn)的告警下發(fā)短信樣式。 圖表 9 下發(fā)短信樣式第五節(jié) 存儲模塊此模塊提供了系統(tǒng)數(shù)據(jù)的集中存儲功能,便于該平臺配置數(shù)據(jù)和采集數(shù)據(jù)的統(tǒng)一存儲和備份。對定時采集的數(shù)據(jù)可以選擇忽略,文件存儲,數(shù)據(jù)庫存儲三種存儲方式。對存儲內(nèi)容可以選擇所有調(diào)度均存儲,狀態(tài)改變時存儲和告警時存儲等多種方式,其中對于數(shù)據(jù)量較小和不經(jīng)常變化的信息,通常采用文件存儲的方式,主要存放在文件系統(tǒng)內(nèi)。包括,指標(biāo)任務(wù)列表:用于對各指標(biāo)配置數(shù)據(jù)的存儲。采集方法列表:用于記錄已支持的各種采集方式信息。告警方式列表:用于記錄已支持的不同的告警方式。日志文件:用于記錄該平臺運(yùn)行狀態(tài)信息。對于經(jīng)常變化和數(shù)據(jù)量比較大的信息,我們將它
38、們同于存儲到oracle數(shù)據(jù)庫。包括:采集數(shù)據(jù)列表:用于實(shí)時記錄各指標(biāo)的采集數(shù)據(jù)信息。密碼存儲列表:用于記錄遠(yuǎn)程訪問的主機(jī)登陸密碼信息。其它各模塊可以通過上述列表對相應(yīng)數(shù)據(jù)進(jìn)行讀寫操作。各列表存儲內(nèi)容和關(guān)系結(jié)構(gòu)圖如圖所示。圖表 10 存儲列表關(guān)系結(jié)構(gòu)圖 所有采集到信息都可通過系統(tǒng)監(jiān)控開發(fā)包所提供的開放式采集指標(biāo)數(shù)據(jù)存儲接口加以存儲,當(dāng)然,考慮到系統(tǒng)軟、硬件運(yùn)行狀態(tài)指標(biāo)的采集間隔比較短(10分鐘),采集數(shù)據(jù)比較大;業(yè)務(wù)日報表指標(biāo)采集周期相對來講較長(天),為便于不同類型數(shù)據(jù)的統(tǒng)計分析和報表生成,通過編寫存儲過程將這兩類數(shù)據(jù)分別存放到oracle數(shù)據(jù)庫的2張數(shù)據(jù)表中。考慮到每天會有大量的采集數(shù)據(jù)入
39、庫,我們定義了linux定時任務(wù),對采集數(shù)據(jù)列表中的采集記錄進(jìn)行每天舊數(shù)據(jù)定時清理,確保數(shù)據(jù)庫數(shù)據(jù)表空間被循環(huán)利用。舊數(shù)據(jù)清理策略為,對設(shè)備性能和業(yè)務(wù)運(yùn)行功能數(shù)據(jù)在數(shù)據(jù)庫中只保留1個月的記錄,而對于日報表指標(biāo)采集數(shù)據(jù)設(shè)置保留1年的記錄。另外,為了防止所有數(shù)據(jù)的丟失,我們對所有的數(shù)據(jù)列表進(jìn)行備份,將windows文件系統(tǒng)和linux oracle數(shù)據(jù)庫系統(tǒng)接入了欽州統(tǒng)一存儲備份平臺。在windows數(shù)據(jù)庫服務(wù)器上安裝了veritaswindows客戶端,備份策略為所有的文件列表每天下午18:00進(jìn)行文件備份。在linux上安裝了veritas linux客戶端和oracle備份代理軟件,備份策略
40、為每天下午18:00整執(zhí)行數(shù)據(jù)庫日增備,每周五下午22:00整執(zhí)行數(shù)據(jù)庫周全備。第六節(jié) 報表模塊 報表模塊實(shí)現(xiàn)定時從數(shù)據(jù)庫中提取最新指標(biāo)數(shù)據(jù),并生成業(yè)務(wù)報表的功能。業(yè)務(wù)報表包括質(zhì)量考核指標(biāo)、用戶數(shù)、系統(tǒng)流量、設(shè)備性能等指標(biāo)類型共100多個指標(biāo)數(shù)據(jù)??紤]到指標(biāo)數(shù)據(jù)的可配置和可擴(kuò)展性,該模塊在設(shè)計上采用了將報表程序與報表內(nèi)容分離的設(shè)計思路,通過配置文件將數(shù)據(jù)庫中指標(biāo)數(shù)據(jù)與報表模板中的數(shù)據(jù)單元一一對應(yīng)起來,供報表程序讀取并執(zhí)行。該配置文件是xml文件格式,具有很強(qiáng)的結(jié)構(gòu)性,方便更新和維護(hù)。該模塊結(jié)構(gòu)如圖所示。圖表 11 報表模塊結(jié)構(gòu)圖報表程序被定時任務(wù)觸發(fā)器觸發(fā)執(zhí)行,后者首先讀取配置文件信息,遍歷指
41、標(biāo)項(xiàng)形成指標(biāo)列表,然后通過數(shù)據(jù)庫接口調(diào)用提取對應(yīng)的指標(biāo)采集數(shù)據(jù),根據(jù)配置文件指定的指標(biāo)項(xiàng)所在報表模板中的行和列,將采集數(shù)據(jù)寫入指標(biāo)列表的指定位置,然后加載報表模板,生成業(yè)務(wù)報表.并將運(yùn)行過程中產(chǎn)生的數(shù)據(jù)和運(yùn)行結(jié)果做為日志保存在日志文件中供查詢和分析使用。第七節(jié) 配置模塊配置模塊化是提高通用性,高可用性和可維護(hù)性的重要手段之一,也是提高系統(tǒng)擴(kuò)展性的必要條件, 下面對各配置模塊功能進(jìn)行描述。一、 采集方法配置模塊。該模塊提供一組可供選擇的個性化的可執(zhí)行程序和通用采集方式的集合,并根據(jù)業(yè)務(wù)特性配置相應(yīng)的采集方法。1)對于有代理方式的外部程序調(diào)用,所支持的腳本或可執(zhí)行程序的代碼需要根據(jù)操作系統(tǒng)類型(版
42、本)和監(jiān)控指標(biāo)類型進(jìn)行分類。結(jié)合現(xiàn)網(wǎng)監(jiān)控的現(xiàn)狀和需求,對有代理的方式,目前支持如下指標(biāo)的采集功能:圖表 12 有代理方式下的外部程序列表可執(zhí)行程序支持參數(shù)化程序調(diào)用以增強(qiáng)代碼的通用型,使得同類型的操作系統(tǒng)可以重用代碼。如下圖是內(nèi)存利用率的參數(shù)配置。圖表 13 有代理方式下的外部程序memoryusage輸入?yún)?shù)2) 對于無代理模式的外部程序調(diào)用,通過編寫vbs腳本按通信接口、操作系統(tǒng)和監(jiān)控指標(biāo)類型的進(jìn)行分類, 來實(shí)現(xiàn)采集方法的配置。對無代理模式,目前支持如下采集方法:圖表 14 無代理方式下的外部程序列表無代理方式的輸入?yún)?shù)比代理方式下的外部程序增加了遠(yuǎn)程訪問的主機(jī)名或ip地址和用戶名,如下圖
43、所示:圖表 15 無代理方式下的外部程序memoryusage輸入?yún)?shù)3)snmp通用采集方式, 通常適用于cisco網(wǎng)絡(luò)設(shè)備,該模塊提供可視化參數(shù)配置,指定ip地址或網(wǎng)絡(luò)設(shè)備名和mib oid就可以實(shí)現(xiàn)ciscoioscpu,freemem,ifbandusage等指標(biāo)的采集。4)odbc方式。所有數(shù)據(jù)庫指標(biāo)的采集均可以通過這種方式。提供的可配置參數(shù)為數(shù)據(jù)源名稱、登錄用戶名、密碼以及sql查詢語句。目前根據(jù)現(xiàn)網(wǎng)需求,支持的數(shù)據(jù)庫指標(biāo)分為兩類:數(shù)據(jù)庫性能監(jiān)控指標(biāo)和需要從數(shù)據(jù)庫中提取的業(yè)務(wù)日報表指標(biāo)。監(jiān)控內(nèi)容請參考附件二:系統(tǒng)軟件運(yùn)行狀態(tài)指標(biāo)和附件三:日報表指標(biāo)。二、 密碼配置模塊。該模塊提供了
44、對監(jiān)控主機(jī)的遠(yuǎn)程接入密碼加密存儲的添加、刪除和修改功能的可視化界面,所有遠(yuǎn)程接入的密碼信息將被加密保存在數(shù)據(jù)庫中。輸入接口包括ip地址或主機(jī)名或用戶名,密碼。界面如下圖所示:圖表 16 密碼管理界面三、 任務(wù)調(diào)度配置模塊。此模塊用于指標(biāo)任務(wù)采集時間的配置,分為兩類:一類是以采集間隔作為調(diào)度點(diǎn),采集粒度支持小時,分和秒,可任意根據(jù)需要進(jìn)行設(shè)置, 適合性能指標(biāo)和業(yè)務(wù)功能指標(biāo)的實(shí)時監(jiān)控;另一類是以固定時間作為調(diào)度點(diǎn),可每天,每周,每月的固定時間執(zhí)行一次采集任務(wù),適合日報表數(shù)據(jù)指標(biāo)的采集。四、 告警閥值配置模塊。此模塊用于設(shè)置告警產(chǎn)生的條件,通常結(jié)合以下兩種方式:、 條件方式:該方式通過關(guān)系表達(dá)式(大
45、于,小于,大于等于,小于等于,不等于,等于)和正則表達(dá)式(包含,不包含)供不同監(jiān)控指標(biāo)選擇;、 數(shù)值方式:一般為告警閥值。 在維護(hù)人員通過該模塊設(shè)置了告警條件和告警閥值之后,監(jiān)控處理模塊會將采集來的數(shù)據(jù)與設(shè)置的告警條件/閥值比較,如匹配,系統(tǒng)則發(fā)出告警。五、 告警方式配置模塊。該模塊提供了多種告警方式的選擇。對實(shí)時監(jiān)控的業(yè)務(wù)指標(biāo), 支持短信告警,email告警,聲音告警,顏色報警,彈出窗口式告警等多種告警方式以滿足不同告警需求,其中顏色告警是默認(rèn)必須的告警方式,紅色表示超過閥值,黃色表示未知錯誤,白色表示正常。系統(tǒng)監(jiān)控開發(fā)包針對告警方式提供了可擴(kuò)展的外部調(diào)用接口,用戶可通過編寫可執(zhí)行程序可以選
46、擇實(shí)現(xiàn)各種方式的告警。第八節(jié) 監(jiān)控處理模塊該模塊為監(jiān)控模塊,告警模塊和存儲模塊之間的橋梁。它通過讀取任務(wù)配置信息,生成實(shí)時任務(wù)調(diào)度表,并根據(jù)調(diào)度時間間隔依次觸發(fā)采集模塊執(zhí)行采集任務(wù),接收采集結(jié)果進(jìn)行主界面展示和告警閥值比對,當(dāng)出現(xiàn)告警閥值越界情況,此模塊將觸發(fā)告警模塊執(zhí)行告警信息通知, 另外,還調(diào)用數(shù)據(jù)庫接口將采集數(shù)據(jù)實(shí)時寫入統(tǒng)一存儲數(shù)據(jù)庫中。第四章 統(tǒng)一管理平臺的現(xiàn)網(wǎng)部署第一節(jié) 硬件部署此管理平臺需2臺服務(wù)器,一臺為部署統(tǒng)一維護(hù)管理軟件的應(yīng)用服務(wù)器,另一臺為部署oralce的數(shù)據(jù)庫服務(wù)器。1、 應(yīng)用服務(wù)器,最小配置如下。l cpu:1ghzl mem:512mhzl disk space:4
47、0 mb 對此服務(wù)器的硬件配置因監(jiān)控指標(biāo)任務(wù)的數(shù)量級別而不同,目前現(xiàn)網(wǎng)監(jiān)控指標(biāo)約有800個監(jiān)控任務(wù),所需的硬件配置如下:l cpu:3g hzxeonl mem:1gbl disk:10gb2、 數(shù)據(jù)庫服務(wù)器。l cpu:2*2.8ghzxeonl mem:2gbl disk:146.8gb第二節(jié) 軟件部署1、應(yīng)用服務(wù)器l 操作系統(tǒng):windows 2003 sp2,microsoft提供 l internet explorer ,microsoft提供l office2003 excel,microsoft提供l 系統(tǒng)監(jiān)控開發(fā)包, ks-soft提供l oracle/sysbase/mysq
48、l等數(shù)據(jù)庫的odbc客戶端驅(qū)動,oracle,sysbase,mysql提供。l 多數(shù)據(jù)業(yè)務(wù)平臺統(tǒng)一維護(hù)管理系統(tǒng)軟件,開發(fā)實(shí)現(xiàn)。l veritas備份軟件windows客戶端,symantec提供。2、數(shù)據(jù)庫服務(wù)器。l 操作系統(tǒng):redhat linux, redhat提供。l oracle企業(yè)版服務(wù)器軟件包,oracle提供。l veritas備份軟件linux客戶端,symantec提供。l oracle備份代理,oracle提供。第三節(jié) 網(wǎng)絡(luò)部署圖表 17 網(wǎng)絡(luò)拓?fù)鋱D黃色標(biāo)識兩臺新增的服務(wù)器,說明如下:1、 將應(yīng)用服務(wù)器和數(shù)據(jù)庫服務(wù)器接入“內(nèi)網(wǎng)網(wǎng)管接入交換機(jī)”,不建立和cmnet的路由,
49、確保了采集信息私密性和傳輸?shù)陌踩浴?、 由于所有業(yè)務(wù)主機(jī)都需與內(nèi)網(wǎng)網(wǎng)管網(wǎng)絡(luò)連通,對現(xiàn)網(wǎng)業(yè)務(wù)系統(tǒng)主機(jī)的指標(biāo)采集無需額外配置路由,就可以將采集請求通過網(wǎng)管交換機(jī),欽州內(nèi)網(wǎng)路由器轉(zhuǎn)發(fā)到欽州網(wǎng)管交換機(jī),然后發(fā)送到業(yè)務(wù)系統(tǒng)內(nèi)部網(wǎng)絡(luò)。3、 將數(shù)據(jù)庫服務(wù)器和應(yīng)用服務(wù)器配置在統(tǒng)一網(wǎng)段,確保了兩臺服務(wù)器之間數(shù)據(jù)傳輸?shù)母咝院涂煽啃浴5谒墓?jié) 現(xiàn)網(wǎng)監(jiān)控指標(biāo)的部署為了便于管理和維護(hù),將現(xiàn)網(wǎng)監(jiān)控指標(biāo)任務(wù)按業(yè)務(wù)名稱和指標(biāo)類型分層次展示。目前所有業(yè)務(wù)都已經(jīng)納入了統(tǒng)一維護(hù)平臺,總共800多個監(jiān)控任務(wù),如下圖所示。指標(biāo)類型為:網(wǎng)絡(luò)連通性,cpu利用率,內(nèi)存利用率,磁盤利用率,服務(wù)運(yùn)行狀態(tài),數(shù)據(jù)庫狀態(tài),業(yè)務(wù)質(zhì)量指標(biāo)等等。圖表
50、18 現(xiàn)網(wǎng)監(jiān)控指標(biāo)展示界面不同的指標(biāo)配置了不同的采集方式,為減少調(diào)用程序代碼進(jìn)程和線程并發(fā)量,可以通過設(shè)置質(zhì)數(shù)采集間隔和避免整數(shù)間隔方式來降低各監(jiān)控任務(wù)的采集耦合度。經(jīng)過一段時間的調(diào)試,目前,應(yīng)用服務(wù)器系統(tǒng)的最大并發(fā)量為80個,最大cpu利用率為50,平均cpu利用率為10。數(shù)據(jù)庫服務(wù)器采集數(shù)據(jù)列表1(性能指標(biāo))寫入速率大約為103409條/天,采集數(shù)據(jù)列表1(業(yè)務(wù)容量和質(zhì)量指標(biāo))寫入速率大約為20條/天。表空間利用率保持在40%左右。系統(tǒng)運(yùn)行穩(wěn)定。第五節(jié) 軟件系統(tǒng)測試多數(shù)據(jù)業(yè)務(wù)平臺統(tǒng)一維護(hù)系統(tǒng)項(xiàng)目實(shí)現(xiàn)完成后,為確保上線后的穩(wěn)定性和可靠性,我們依照業(yè)務(wù)系統(tǒng)維護(hù)的流程對該系統(tǒng)每個功能模塊進(jìn)行了分
51、階段功能測試和負(fù)載運(yùn)行測試,并及時更正了測試中發(fā)現(xiàn)的問題。1、功能測試:1) 數(shù)據(jù)采集階段。我們以遍歷所有采集方式的功能測試為主導(dǎo)思想,選擇了具有代表性的監(jiān)控指標(biāo)做為測試對象, 測試結(jié)果達(dá)到預(yù)期目標(biāo),各采集任務(wù)被定時觸發(fā)并按照預(yù)先配置的采集方式接入到遠(yuǎn)程被監(jiān)控主機(jī)和網(wǎng)絡(luò)設(shè)備,執(zhí)行結(jié)果能立即返回,并及時呈現(xiàn)在主界面。另外,我們還將本系統(tǒng)的應(yīng)用服務(wù)器和數(shù)據(jù)庫服務(wù)器納入了監(jiān)控范圍, 經(jīng)過一段時間的測試,發(fā)現(xiàn)應(yīng)用服務(wù)器cpu,內(nèi)存以及數(shù)據(jù)庫服務(wù)器表空間等性能指標(biāo)數(shù)據(jù)最高值達(dá)到了預(yù)期目標(biāo),數(shù)據(jù)變化無明顯波動,系統(tǒng)運(yùn)行穩(wěn)定可靠。2) 告警功能。對采集指標(biāo)設(shè)置較低的告警閥值,以期告警程序被觸發(fā)執(zhí)行。測試結(jié)果
52、達(dá)到了預(yù)期目標(biāo),告警消息被按照預(yù)先配置了方式進(jìn)行了告警提醒和內(nèi)容下發(fā),提醒及時率為100。3) 存儲功能。經(jīng)過測試,所有的采集數(shù)據(jù)都被實(shí)時按字段寫入數(shù)據(jù)庫中,無漏寫錯寫現(xiàn)象。表空間利用率穩(wěn)定在70左右。4) 報表功能。報表程序被定時觸發(fā),平均報表生成時間為8秒。報表文件按日期時間正確生成,報表數(shù)據(jù)準(zhǔn)確無誤,可以立即上報上級部門。2、負(fù)載運(yùn)行測試:目前上海移動數(shù)據(jù)中心有800多個數(shù)據(jù)業(yè)務(wù)系統(tǒng)指標(biāo)任務(wù)需要監(jiān)控,通過增加采集頻率來模擬增加監(jiān)控量,我們測試了在2倍正常負(fù)荷情況下的系統(tǒng)運(yùn)行狀況,經(jīng)修改測試中發(fā)現(xiàn)的問題,目前結(jié)果一切正常,有效應(yīng)對后續(xù)移動數(shù)據(jù)業(yè)務(wù)的增長。第六節(jié) 試運(yùn)行結(jié)果目前,該系統(tǒng)已經(jīng)運(yùn)
53、行大約2個月的時間,通過試運(yùn)行期間的調(diào)試和改進(jìn),目前系統(tǒng)運(yùn)行狀態(tài)良好,并成功發(fā)現(xiàn)多起業(yè)務(wù)系統(tǒng)潛在問題, 以下列舉部分例證:1、adc業(yè)務(wù)數(shù)據(jù)庫服務(wù)器表空間利用率越界告警。在試運(yùn)行期間, 我們曾通過統(tǒng)一維護(hù)管理系統(tǒng)將該adc業(yè)務(wù)的數(shù)據(jù)庫表空間利用率告警閥值設(shè)置為90,將采集間隔設(shè)置為31分鐘。2009年2月16日,維值人員收到實(shí)時告警短信后, 發(fā)現(xiàn)當(dāng)時統(tǒng)一維護(hù)管理系統(tǒng)的展示界面上也出現(xiàn)了該監(jiān)控指標(biāo)的紅色告警,立即手工查看了adc業(yè)務(wù)數(shù)據(jù)庫表空間,確認(rèn)其可用空間已經(jīng)超過了警戒閥值,并且還在呈不斷的減小趨勢。維值人員及時通知業(yè)務(wù)主管,業(yè)務(wù)主管在分析原因后隨即刪除了部分舊數(shù)據(jù),確保了后續(xù)業(yè)務(wù)新數(shù)據(jù)能成功寫入,避免了因此而產(chǎn)生的不必要的損失。2、流媒體報表主機(jī)文件系統(tǒng)空間利用率告警。流媒體報表主機(jī)將每天的流媒體下載,點(diǎn)播等日志信息記錄在文件系統(tǒng)上用于報表數(shù)據(jù)的生成,這樣每天都有新增的文件占用文件系統(tǒng)空間。我們把主機(jī)文件系統(tǒng)納入了統(tǒng)一維護(hù)管理系統(tǒng)的監(jiān)控范疇,并實(shí)現(xiàn)了對主機(jī)系統(tǒng)單個文件系統(tǒng)邏輯盤空間利用率的監(jiān)控,將存儲日志信息的邏輯盤最小閥值設(shè)置為200m,采集間隔設(shè)置為11分鐘,自動告警方式設(shè)置為企信通短信下發(fā)方式。當(dāng)采集指標(biāo)低于200m空間,監(jiān)控展示界面將此監(jiān)控指標(biāo)顯示為紅色;同時,業(yè)務(wù)主管接收到了告警短信通知,通過查看系統(tǒng)磁盤空間后發(fā)現(xiàn)隨著流媒體用戶下載和直播數(shù)的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度個人教育培訓(xùn)資金延期使用合同4篇
- 二零二五年度高端建筑涂料工程分包合同標(biāo)準(zhǔn)版3篇
- 二零二五年度個人肖像權(quán)授權(quán)使用合同音樂MV個人形象使用4篇
- 清潔能源技術(shù)轉(zhuǎn)讓合同
- 快遞合作合同
- 二零二五年度集體土地承包經(jīng)營權(quán)轉(zhuǎn)讓合同范本3篇
- 2025版水電節(jié)能改造與咨詢服務(wù)協(xié)議3篇
- 代收款協(xié)議書范本
- 決策咨詢常年顧問服務(wù)合同
- VIP會員儲值卡銷售協(xié)議
- 煤礦反三違培訓(xùn)課件
- 向流程設(shè)計要效率
- 安全文明施工的管理要點(diǎn)
- 2024年中國航空發(fā)動機(jī)集團(tuán)招聘筆試參考題庫含答案解析
- 當(dāng)代中外公司治理典型案例剖析(中科院研究生課件)
- GMP-基礎(chǔ)知識培訓(xùn)
- 動力管道設(shè)計手冊-第2版
- 2022年重慶市中考物理試卷A卷(附答案)
- Python繪圖庫Turtle詳解(含豐富示例)
- 煤礦機(jī)電設(shè)備檢修技術(shù)規(guī)范完整版
- 榆林200MWp并網(wǎng)光伏發(fā)電項(xiàng)目可行性研究報告
評論
0/150
提交評論