CRM域專業(yè)網管項目-需求說明書_第1頁
CRM域專業(yè)網管項目-需求說明書_第2頁
CRM域專業(yè)網管項目-需求說明書_第3頁
CRM域專業(yè)網管項目-需求說明書_第4頁
CRM域專業(yè)網管項目-需求說明書_第5頁
已閱讀5頁,還剩30頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、精選優(yōu)質文檔-傾情為你奉上*2014年CRM域專業(yè)網管項目(項目編號:)需求說明書 2014年5月14 日第1章 建設背景隨著業(yè)務發(fā)展,公司業(yè)務系統(tǒng)逐漸增多,線上系統(tǒng)的數(shù)量也在不斷增加,依靠過去人工巡檢系 統(tǒng)的方式發(fā)現(xiàn)系統(tǒng)故障、潛在風險及安全隱患的方式效率越來越低下且運維人員的工作強度及壓力也在不斷增加,為了提高發(fā)現(xiàn)系統(tǒng)故障的及時性、系統(tǒng)維護的專業(yè) 性、規(guī)范化、科學性同時也能把運維人員從重復的工作中解放出來去做更多有意義的事情,因此我們亟需引入新的監(jiān)控手段、工具來協(xié)助運維工程師解決當前的問 題。第2章 建設目標2.1 實現(xiàn)的業(yè)務目標為保證自有軟件平臺運行穩(wěn)定性,對線上平臺進行自動化監(jiān)控,合理設

2、置監(jiān)控粒度及監(jiān)控對象。盡可能的把潛在問題在萌芽狀態(tài)解決及消除隱患,以此提高IT技術支持部門的整體集成能力和交付系統(tǒng)運行質量。針對分散的IT資源通過自動化的監(jiān)控工具來進行管理,實現(xiàn)從“被動”轉 “主動”管理,隨時掌控設備、系統(tǒng)、應用的運行情況,并對監(jiān)控資源進行整合,以業(yè)務的形式展現(xiàn)給管理人員,供管理人員來判斷問題,最終形成一種主動化、自動化的監(jiān)控方式,來減輕管理人員的壓力、提升工作效率,保障業(yè)務正常運。l 及時發(fā)現(xiàn)潛在的問題化被動為主動維護l 為平臺性能優(yōu)化提供直觀參考依據l 提高系統(tǒng)維護的專業(yè)性和規(guī)范性l 提高用戶體驗,降低服務宕機時間,隨時掌控業(yè)務的運行情況l 為保障CRM域各系統(tǒng)的運營穩(wěn)定

3、,減少事件發(fā)生的數(shù)量n 提升ITSM運維處理效率n 加強系統(tǒng)正常運營監(jiān)控,縮短故障停機事件n 接口探測,預防接口異常導致系統(tǒng)間流程中斷,預防事件的發(fā)生監(jiān)控目標:l 資源:對每一個資源進行監(jiān)控,細化到具體指標。n 支持對各種軟硬件的監(jiān)控,包括主機、應用、中間件等l 監(jiān)控:靈活多樣的輪詢策略及閥值設定提供多種告警方式。n 系統(tǒng)可以靈活的設置性能閥值、監(jiān)控頻率,并支持在告警后加頻監(jiān)控,可以設置幾次出現(xiàn)問題后才告警,避免引引瞬間負載過高而告警,并可以設置告警的級別。l 展現(xiàn):以業(yè)務、資源、節(jié)點等方式進行展現(xiàn)。n 提供以業(yè)務為核心,提供業(yè)務邏輯關系圖,在業(yè)務關系中圖中能看到每個環(huán)節(jié)所處的地位,一旦當業(yè)務

4、系統(tǒng)不正常時,拓撲圖中相應的環(huán)節(jié)顏色就會發(fā)生變化,黃色代表不健康,但是可以使用,紅色代表不可用,這樣當業(yè)務系統(tǒng)不正常時,可以快速的定位故障點。n 系統(tǒng)可以資源進行分類顯示,顯示每一類資源正常的個數(shù),不正常的個數(shù),點擊可以進去查看詳細的情況。n 系統(tǒng)也可以按照IP節(jié)點進行顯示,并通過顏色來區(qū)分節(jié)點中相關的資源的運行情況。l 分析:提供業(yè)務系統(tǒng)的運行質量和運行趨勢報表。n 系統(tǒng)提供以業(yè)務為核心,把組成業(yè)務的相關資源組合到一起,通過加權算法,計算出整個業(yè)務的可用率和健康率,提供業(yè)務系統(tǒng)運行質量分析,針對有問題的業(yè)務,系統(tǒng)通過顏色來區(qū)分,當鼠標停留到業(yè)務系統(tǒng)上可以看到具體不健康的節(jié)點或資源,點擊進去可

5、以看到相應的告警原因。n 系統(tǒng)以柱形圖、折線圖的形式,直觀的展現(xiàn)各類監(jiān)控指標的運行情況,并提供近期的趨勢圖。2.2 應用范圍第3章 功能需求3.1 通用功能需求1. 集中監(jiān)控管理負責收集和處理來自系統(tǒng)中的各類告警信息,并進行告警信息的匯聚和根源分析,幫助運維人員找出故障發(fā)生的原因,快速定位故障點并包含網絡、主機、及應用管理(系統(tǒng)軟硬件配置信息、系統(tǒng)性能指標、故障告警和日志管理)。具體實現(xiàn):對于日志的歸檔工作采用本地shell及信息收集引擎的方式將系統(tǒng)信息及異常日志集中存儲到監(jiān)控平臺做分析并進行告警、生成報表等工作。2. 統(tǒng)一監(jiān)控管理界面和多樣的告警方式通過布局合理的圖形化界面集中反映網絡、系統(tǒng)

6、、數(shù)據庫和應用的實時狀態(tài),通過手機短信、郵件以及頁面等多種方式進行告警。3. 自定義告警優(yōu)先級策略一般的監(jiān)控到的結果是成功或者失敗,如Ping不通、訪問網頁出錯、連接不到Socket,發(fā)生時這些稱之為故障,故障是最優(yōu)先的告警。除此之外,還能監(jiān)控到返回的延時、內容等,如Ping返回的延時、訪問網頁的時間、訪問網頁取到的內容等。利用返回的結果可以自定義告警條件,如Ping監(jiān)控的返回延時一般是10-30ms之間,當延時大于100ms時候,表示網絡或者服務器可能出現(xiàn)問題,引起網絡響應慢,需要立即檢查是否流量過大或者服務器CPU太高等問題。4. 自定義告警信息內容標準 當服務器或應用發(fā)生故障時告警信息內

7、容非常多,如告警運行業(yè)務名稱、服務器IP、監(jiān)控的線路、監(jiān)控的服務錯誤級別、出錯信息、發(fā)生時間等。預先定義告警內容及標準使收到的告警內容具有規(guī)范性及可讀性。這點對于用短信接受告警內容特別有意義,短信內容最多是70個字符,要在70個字符完全知道故障內容比較困難,更需要預先定義內容規(guī)范。如:“CRM工作流服務器監(jiān)控:組建異常,請重啟”,清晰明了的知道故障原因。5. 短信告警功能目前平臺可以實現(xiàn)按照不同業(yè)務、責任人通過短信告警功能自動發(fā)送告警短消息到相應運維工程師手機之上。同時可以實現(xiàn)調用第三方API方式進行系統(tǒng)告警功能,第三方API只需須留有手機號碼,短信內容變量即可完成短信的即時發(fā)送功能。6. 通

8、過郵件接收匯總報表實現(xiàn)每天收到一封網站服務器監(jiān)控的匯總報表郵件,花兩三分鐘總體了解網站和服務器的狀態(tài)。7. 監(jiān)控管理標準實現(xiàn)對網絡運行狀態(tài)、系統(tǒng)服務質量和故障告警等的實時監(jiān)控管理。8. 豐富的數(shù)據報表分析功能結合上述的各項功能,系統(tǒng)能夠根據工作需要產生標準格式報表,并能夠按條件生成和調整各類報表,以滿足IT系統(tǒng)管理及審計等多種需求。3.2 功能模塊需求3.2.1 拓撲管理3.2.1.1 拓撲對象瀏覽 根據CRM、CSB、EAI、PPM、10000號門戶、代理商門戶、UAM等系統(tǒng)硬件配置及當前應用,通過圖形化展現(xiàn)。同時能夠自動識別網段范圍內的機器和應用的配置情況。 拓撲圖按系統(tǒng)類別區(qū)分,不同的系

9、統(tǒng),以相同的展示風格分開展示。 根據發(fā)現(xiàn)設備之間的關系自動生成全局的二層或三層的網絡拓撲結構圖。 經過網絡拓撲結構的生成后,可以在拓撲圖上看到整個網絡的拓撲結構圖,并能直觀地看到各個資源的狀態(tài)變化。 通過雙擊拓撲圖中服務器,頁面可跳轉到當前服務器的應用情況、機器配置情況及資源占用情況等。3.2.1.2 拓撲對象編輯 系統(tǒng)管理員可以在有限制的范圍內對在線的硬件配置及應用情況進行編輯操作,自動記錄編輯操作日志。3.2.1.3 管理功能關聯(lián) 系統(tǒng)管理員,可手工添加服務器,并通過線條配置,將新增服務器添加至響應系統(tǒng)的拓撲圖中。3.2.1.4 拓撲對象清單(后續(xù)補充)1. CRM清單2. CSB/EAI

10、清單3. PPM清單4. 10000號門戶清單5. 代理商門戶清單6. UAM清單3.2.2 故障管理故障管理是網管系統(tǒng)監(jiān)控平臺的核心組件。可以對原始事件、事件、告警信息進行多環(huán)節(jié)的處理,實現(xiàn)實時告警定位、展示和通知。可以通過告警內容直接定位到拓撲中的設備。3.2.2.1 告警采集實時地采集所有服務器生成的各種設備故障告警報告、網絡事件報告以及與網絡、業(yè)務相關的應用故障報警報告。 能夠自動采集告警數(shù)據,采集時間和采集周期可設置; 需要時能夠即時手工啟動告警數(shù)據采集程序,保證數(shù)據采集的完整性;3.2.2.2 告警規(guī)則配置系統(tǒng)可根據業(yè)務要求,配置告警規(guī)則,根據規(guī)則自動識別系統(tǒng)問題,自動生成告警提升

11、。告警規(guī)則配置可以增可改,系統(tǒng)記錄規(guī)則變更記錄。告警規(guī)則: 可設置告警閥值,超過閥值自動生成告警。 具備告警升級功能,當連續(xù)告警未處理時,告警提示到上級主管。升級策略可自定義配置并實現(xiàn)逐級配置。 增加告警暫停功能,當有人開始處理告警時,系統(tǒng)可手工暫停告警提示,暫停時間可通過閥值設置。 可手工觸發(fā)告警升級機制,已通知上級主管及時了解告警情況。3.2.2.3 告警處理系統(tǒng)可以定義告警相關及處理的具體規(guī)則,對每條將要入庫的告警信息按規(guī)則進行相應的告警相關性分析,然后根據分析結果進行相應的處理。告警相關分為兩類,一類產生新的告警,涉及告警的自定義,另一類并不產生新的告警。例如: 消除重復發(fā)送的同一告警

12、;去除已有告警引起的其他告警; 推測出一組告警中的決定性告警,并清除其他次要告警; 對頻繁發(fā)生的告警自動提高告警級別,從而保證網管中心告警信息的有效性、重要性。3.2.2.4 告警過濾根據配置進行告警事件的過濾,過濾條件的設置可通過圖形化的用戶界面完成。3.2.2.5 告警呈現(xiàn)告警序列號、告警發(fā)生時間、告警確認時間、告警清除時間、告警類型、告警級別、告警原始類型、告警原始級別、活動狀態(tài)、告警源、確認操作人員、清除操作人員、告警標題、告警內容等3.2.2.6 告警查詢能夠對告警數(shù)據進行查詢。系統(tǒng)提供界面,能夠按照用戶的要求或時間表的設置對所采集的告警數(shù)據進行查詢;3.2.2.7 告警關聯(lián)分析在具

13、備相關信息庫的條件下,系統(tǒng)具備關聯(lián)分析功能,可進行相關性分析,確定主要告警,標識或刪除從屬告警;另外系統(tǒng)還可以就告警對業(yè)務或客戶產生的影響進行分析,幫助操作人員及時發(fā)現(xiàn)告警所影響的業(yè)務或客戶。3.2.3 性能管理系統(tǒng)要實現(xiàn)全面的性能管理,包括服務器性能管理、數(shù)據庫性能管理、中間件性能管理、存儲性能管理、網絡性能管理、應用性能管理等。維護人員可以根據需要靈活的設定性能閥值,生成相應的性能告警。可以以圖形化的方式,批量對監(jiān)控對象、監(jiān)控指標和監(jiān)控策略進行設置,并支持靈活的設定采樣周期。根據采集到的不同對象的性能參數(shù),在統(tǒng)一的界面內分別以曲線圖,餅圖或表格的方式顯示,可以根據分析的需要,將不同的參數(shù)指

14、標或不同主機的性能參數(shù)指標在同一窗口內顯示比較,從而可以了解系統(tǒng)的性能瓶頸和不同系統(tǒng)的負載壓力。對于性能的指標,還可以做到根據歷史的變化趨勢,設置在某一置信度下的預測功能。從而可預言到系統(tǒng)需要升級擴展的時間。性能管理會集成所有收集到的性能指標信息,與后端的報表工具集成,生成性能統(tǒng)計報表。3.2.3.1 性能采集管理性能數(shù)據采集應具有以下四個主要功能: 能夠周期性地24小時自動采集性能數(shù)據,采集周期和采集時間可選擇,最小的數(shù)據采集時間周期為15分鐘,采集的時間粒度可以基于服務器和應用進行選擇; 能夠即時手工啟動性能數(shù)據采集程序(分系統(tǒng)、分時段); 當報表數(shù)據不全時,能夠提供簡單的手段確認所采集的

15、系統(tǒng)數(shù)據的齊全;l 采集和補采的數(shù)據能夠自動入庫。3.2.3.2 性能閥值管理告警產生機制:根據性能采集后的數(shù)據結果和性能告警設置進行比較,如果滿足性能告警設置條件,發(fā)送相應的性能告警?;謴透婢喝绻l(fā)生了“滿足性能告警設置條件”“不滿足性能告警設置條件”的變化,則發(fā)送相應的恢復告警。性能告警分類: 閾值性能告警:通過閾值設置產生的性能告警 基線性能告警:偏離基線時產生的性能告警 梯度性能告警:梯度變化滿足一定條件時產生的性能告警 高級性能告警:滿足給定的組合條件時產生的性能告警說明:性能告警,如果滿足性能告警設置條件,則每5分鐘發(fā)送一次,直到告警恢復為至。3.2.3.3 性能數(shù)據保存網管系統(tǒng)

16、應該能夠對性能數(shù)據進行備份、刪除和恢復。系統(tǒng)提供界面,能夠按照用戶的要求或時間表的設置對所采集的性能數(shù)據進行歸檔、刪除和恢復。3.2.3.4 性能數(shù)據查詢能夠對性能數(shù)據進行查詢。系統(tǒng)提供界面,能夠按照用戶的要求或時間表的設置對所采集的性能數(shù)據進行查詢。3.2.3.5 完整性檢查系統(tǒng)能夠通過手工觸發(fā)方式,對系統(tǒng)各關鍵節(jié)點進行完整性的檢查,包括應用是否完整、對象是否完整、部署是否完整等。3.2.3.6 實施性能監(jiān)視當性能指標超出預先設定的范圍時,系統(tǒng)觸發(fā)的告警稱為性能告警。系統(tǒng)需提供對性能告警信息的顯示、查詢和統(tǒng)計的功能。用于性能告警的主要指標有:l Cpu的使用效率 網路的丟包率 內存的使用量l

17、 等等3.2.4 安全管理通過用戶名密碼認證控制,限制用戶的權限,確保用戶只能使用權限范圍內的功能,只能瀏覽權限范圍內的數(shù)據。丟失密碼的用戶可以通過“回答密碼找回問題”順利找回密碼。同時,系統(tǒng)提供授權控制,包括系統(tǒng)管理員和內容發(fā)布管理員。l 網站或應用系統(tǒng)管理IT人員:可以查看所有監(jiān)控數(shù)據,并多維度給出分析報告。l 網站或應用系統(tǒng)業(yè)務人員:可以查看業(yè)務相關的監(jiān)控數(shù)據,如系統(tǒng)功能的運行性能速度監(jiān)控分析、用戶行為分析、用戶來源分布分析、用戶終端分析等。l 網站或應用系統(tǒng)管理用戶:在應用系統(tǒng)中即可查看自己的操作日志。3.2.4.1 分權分域管理系統(tǒng)需要根據不同的系統(tǒng),分為不同的管理和使用角色。比如C

18、RM系統(tǒng),則需要設置CRM系統(tǒng)管理員和日常使用人員。3.2.4.2 用戶管理IT基礎架構及業(yè)務監(jiān)控平臺具有多級操作員權限控制,不同的操作員管理不同的對象,并且具有不同的權限。可以考慮特定的管理員只能管理職權范圍內的設備,根據人員的多少,可以細分為各種業(yè)務的管理員,如系統(tǒng)管理員,數(shù)據庫管理員。系統(tǒng)用戶可以分為管理用戶和普通用戶。管理用戶能執(zhí)行軟件的全部功能,普通用戶不能修改系統(tǒng)的定義、配置和存儲管理功能。管理用戶可以可以進行用戶管理,包括用戶的添加、刪除、修改和禁用等。3.2.4.3 角色管理角色用來控制在同一個頁面數(shù)據的不同呈現(xiàn)方式,管理用戶可以看到所有系統(tǒng)的信息數(shù)據,普通用戶只能看到自己歸屬

19、系統(tǒng)的信息數(shù)據。3.2.4.4 安全策略管理管理人員應該審視那些能夠管理特權賬戶(如域管理員賬戶、應用程序管理員賬戶、數(shù)據庫管理員)的IT安全策略,要保障安全策略的存在,還要清楚存取訪問是如何被處理、驗證、證明的,要確保對這些策略定期進行審查。否則,基本上就不存在管理特權訪問的基礎了。在沒有相關報告的情況下,管理特權賬戶的策略是不完整的。特權賬戶的口令審核報告經常要涉及到如下的問題:口令何時更新、更新失敗有哪些,以及在一個共享賬戶下,個別用戶如何執(zhí)行任務等等。3.2.4.5 操作日志管理系統(tǒng)應當將任何的操作寫入系統(tǒng)日志,管理員及相關管控人員可以根據需求查詢用戶操作日志,從而具備分析和恢復輔助功

20、能。3.2.5 系統(tǒng)管理3.2.5.1 自身配置管理系統(tǒng)自身監(jiān)控功能、閥值可配置。3.2.5.2 系統(tǒng)自身監(jiān)控系統(tǒng)具備自身監(jiān)控功能,自身監(jiān)控可通過自身配置功能實現(xiàn)。比如:對于系統(tǒng)異常時,可以有告警提示網管系統(tǒng)異常。自身監(jiān)控包括:l 服務器狀態(tài)l CPU:CPU使用率等l 硬盤:磁盤使用大小及使用率、磁盤讀寫速率等指標l 內存:物理內存及緩存的使用大小及使用率l 文件系統(tǒng):文件系統(tǒng)的利用率,如root文件系統(tǒng)、var文件系統(tǒng)、tmp文件系統(tǒng)、應用文件系統(tǒng)等。l 虛擬內存:虛擬內存的總量、利用率等。l 進程:所有重要的進程的啟動、停止和狀態(tài)改變情況。l 網絡:網卡連接及流量、網絡端口的丟包率、利用

21、率、發(fā)送速率等指標。l 日志:監(jiān)控系統(tǒng)的異常日志。n 系統(tǒng)運行日志包括:系統(tǒng)運行情況中產生的故障信息,主要系統(tǒng)模塊的運行情況、系統(tǒng)定時任務的運行情況等;n 用戶操作日志包括:系統(tǒng)必須記錄每個操作員進入、退出、發(fā)現(xiàn)、注冊、修改、刪除等操作的操作時間、操作人、操作模塊、操作對象等;n 日志管理支持對系統(tǒng)運行日志和用戶操作日志的瀏覽、查詢、刪除和統(tǒng)計功能;n 當具備日志管理權限的管理員進入日志管理功能后,可以看到日志記錄的列表顯示;n 支持通過輸入關鍵字查詢統(tǒng)計相關的日志記錄,關鍵字包括時間段、操作類型、操作人等;n 系統(tǒng)運行日志和用戶操作日志都支持日志的備份和恢復。l 其它:能夠監(jiān)測操作系統(tǒng)中的應

22、用服務、進程及系統(tǒng)日志、文件、目錄、磁盤I/O、網絡流量等信息。3.2.5.3 備份與恢復3.2.5.4 接口連通性探測系統(tǒng)需要分系統(tǒng)進行接口連通性探測。主要探測CRM、CSB、EAI、代理商門戶、10000號門戶、UAM、PPM等系統(tǒng)與其他連接系統(tǒng)的接口連通性。1、系統(tǒng)需要配置各系統(tǒng)需要探測的接口清單,以列表方式展示,列表尾端增加連通性探測按鈕,點擊按鈕,可自動觸發(fā)接口連通性探測。探測結果:以報文形式展現(xiàn),同時提示接口連通正常或者接口連通不正常。2、系統(tǒng)支持接口自動探測,探測時間閥值可配置。可根據閥值自動探測接口連通性,并以統(tǒng)一的頁面,展示所有接口的連通性探測結果。3、各系統(tǒng)接口探測清單如下

23、: CRM探測接口清單: CSB接口探測清單: EAI接口探測清單: 10000號門戶接口探測清單: 代理商門戶接口探測清單:UAM接口探測清單:PPM接口探測清單:3.2.5.5 遠程接入系統(tǒng)具備遠程接入能力,但是需要進行安全驗證。3.2.6 系統(tǒng)監(jiān)控3.2.6.1 服務主機系統(tǒng)監(jiān)控1. 主機CPU監(jiān)控針對CPU的監(jiān)控,監(jiān)控CPU的1分鐘、五分鐘和15分鐘的CPU負載,監(jiān)控CPU用戶態(tài)使用時間、CPU系統(tǒng)態(tài)使用時間、CPU等待IO的時間和CPU空閑時間等,當CPU的使用率超過閾值時,產生告警通知。針對CPU瞬時增高的問題,用戶可以自己定義閥值,保證CPU在確實已經多次超過閾值的情況下產生告警

24、。2. 主機內存監(jiān)控針對內存的監(jiān)控,系統(tǒng)需要提供內存利用率、交換空間利用率、交換空間大小、交換空間使用情況、內存頁交換速率、內存錯頁率、內存頁面調進速率、內存頁面調出速率等指標來監(jiān)控物理內存、虛擬內存、以及系統(tǒng)頁面調入、調出情況。當這些指標超過預先設定的閾值值,產生告警。3. 主機磁盤監(jiān)控針對磁盤的監(jiān)控,系統(tǒng)需要通過分區(qū)利用率、分區(qū)容量、磁盤分區(qū)利用率、硬盤容量等指標監(jiān)控硬盤和分區(qū)的使用情況,通過硬盤讀速率、硬盤寫速率、硬盤平均讀速度和硬盤平均寫速率等指標監(jiān)控硬盤的使用情況。4. 主機進程監(jiān)控系統(tǒng)需要提供對進程的進程名稱、進程ID、父進程ID、運行該進程的用戶、進程優(yōu)先級、運行終端等的監(jiān)控,其

25、中有運行權限的用戶可以修改進程的優(yōu)先級和殺死進程。提供對進程運行狀態(tài)的監(jiān)控,這包括進程活、進程死、進程sleep、進程等待等狀態(tài)。當進程啟動或者僵死時,產生告警,通知系統(tǒng)管理員。同時提供對進程進行停止等操作。5. 統(tǒng)一監(jiān)控頁面系統(tǒng)需要提供統(tǒng)一的監(jiān)控界面監(jiān)控所有的服務器,通過統(tǒng)一的界面展現(xiàn)服務器的狀態(tài)和監(jiān)控指標的狀態(tài),并可在服務器狀態(tài)和具體監(jiān)控界面之間來回切換。需要對各類操作系統(tǒng)提供大量的資源模型,針對各系統(tǒng)的主機監(jiān)控需求,主要包括如下內容:l 服務器狀態(tài)l CPU:CPU使用率等l 硬盤:磁盤使用大小及使用率、磁盤讀寫速率等指標l 內存:物理內存及緩存的使用大小及使用率l 文件系統(tǒng):文件系統(tǒng)的

26、利用率,如root文件系統(tǒng)、var文件系統(tǒng)、tmp文件系統(tǒng)、應用文件系統(tǒng)等。l 虛擬內存:虛擬內存的總量、利用率等。l 進程:所有重要的進程的啟動、停止和狀態(tài)改變情況。l 網絡:網卡連接及流量、網絡端口的丟包率、利用率、發(fā)送速率等指標。l 日志:監(jiān)控UNIX系統(tǒng)的syslog日志和Windows的Event Log。l 其它:能夠監(jiān)測操作系統(tǒng)中的應用服務、進程及系統(tǒng)日志、文件、目錄、磁盤I/O、網絡流量等信息。系統(tǒng)需要通過連續(xù)監(jiān)視重要系統(tǒng)資源,自動檢測瓶頸問題和潛在的問題,同時對事件主動做出反應,來幫助管理大型的異構環(huán)境。通過擴展現(xiàn)有關鍵業(yè)務服務器的監(jiān)視能力,從而實現(xiàn)智能化管理,在最終用戶受到

27、影響之前發(fā)現(xiàn)問題。3.2.6.2 數(shù)據庫系統(tǒng)監(jiān)控1. 數(shù)據庫監(jiān)控預定義指標數(shù)據庫監(jiān)測模塊可在數(shù)據庫問題對應用及最終用戶構成影響前主動加以識別,可以通過多個預定義閾值事件和狀態(tài)來完成的,預定義的指標跟蹤的信息可包括:l DB status、Instance status、Listener Statusl 占用CPU、內存情況、SGA、PGAl Buffer Cache,分類、緩沖、共享池和事務處理性能,如每類平均行數(shù)和字典高速緩存命中率l Connection 并行連接數(shù),死連接數(shù)等l Process,重算分段統(tǒng)計數(shù)字,如縮減量和等待獲取百分比l Lock(鎖)的占用情況信息l DB Space

28、、表空間空間管理,如表格剩余空間和分割、分段最大極限l Transation(事務)錯誤狀況,如跟蹤文件、SYS.DUAL狀態(tài)、快照錯誤l SQL Statistics,表格和索引性能,包括高速緩存表格數(shù)量和全表格掃描速率l 物理讀寫,報警記錄信息,如數(shù)據塊損壞、剩余資源隊列、內部錯誤和I/O讀/寫故障l Redo Log等文檔信息,包括文檔記錄寫入平均間隔時間、安插在文檔設施中的記錄數(shù)量等2. Oracle數(shù)據庫監(jiān)控Mocha KoolPoint數(shù)據庫管理模塊可對Orcale數(shù)據庫進行監(jiān)控,當Oracle DB工作異常以及表空間使用率超過閥值、數(shù)據庫會話數(shù)超過閥值時自動告警,能夠自動監(jiān)控、收

29、集交換分區(qū)使用情況、TOP SOL、鎖爭用、死鎖等信息,能夠記錄導致異常或消耗資源很大的SQL語句,并能生成相應圖表、統(tǒng)計報告供管理員使用。Mocha KoolPoint對Oracle數(shù)據庫的監(jiān)測指標如下:資源指標類別指標名稱英文名稱Oracle DB可用性指標實例可用性OracleInstanceAvailability監(jiān)聽器可用性OracleListenerAvailability性能指標系統(tǒng)CPU利用率OracleSystemCPURateOracle DB CPU利用率OracleCPURate系統(tǒng)內存利用率OracleSystemMemoryRateOracle DB 內存利用率Or

30、acleMemoryRatePGA命中率OraclePGAHitRate庫緩存命中率OracleLibraryCacheHitRate高速緩沖緩存命中率OracleBufferCacheHitRate物理讀速率OraclePhysicalReadsSpeed物理寫速率OraclePhysicalWritesSpeed數(shù)據塊獲取數(shù)/秒OracleDBBlockGetsPerSecond一致性獲取數(shù)/秒OracleConsistentGetsPerSecond內存排序比率OracleSortsMemoryRate當前連接會話數(shù)OracleCurrentSessions當前進程數(shù)OracleCurr

31、entProcesses登陸會話數(shù)/秒OracleSessionsPerSecond當前打開的游標數(shù)OracleOpenedCursors當前鎖數(shù)量OracleCurrentLocks死鎖數(shù)量OracleDeadLocksSQL解析次數(shù)/秒OracleSQLParsesPerSecond事務數(shù)/秒OracleTransactionsPerSecond事務回滾率OracleTransactionRollbackRate信息指標資源名稱OracleResourceName版本OracleVersion操作系統(tǒng)OracleOSVersion主機名稱OracleHostNameIP地址OracleHo

32、stIP主機Mac地址OracleHostMac連續(xù)運行時間OracleUptime實例名稱OracleInstanceName數(shù)據庫名稱OracleDBNameDomain名稱OracleDomainName數(shù)據庫大小OracleDBSizeOpen模式OracleOpenModeSQL語句TOP10CPUTimeOracleSQLTop10CPUTimeSQL語句TOP10DiskReadsOracleSQLTop10DiskReadsOracleSQLTop10BufferGetsOracleSQLTop10BufferGetsSQL語句TOP10BufferGetsOracleSQLT

33、op10ElapsedTime磁盤排序次數(shù)OracleSortsDisk內存排序次數(shù)OracleSortsMemory事務回滾數(shù)OracleTransactionRollbacks事務提交數(shù)OracleTransactionCommits配置指標表空間個數(shù)OracleTablespases數(shù)據文件個數(shù)OracleDatafilesLog模式OracleLogMode高速緩沖池OracleDBBufferCacheSize共享池OracleSharePoolSize大型池OracleLargePoolSizeJava池OracleJavaPoolSize日志緩沖池OracleLogBufferS

34、izeSGAOracleSGASizePGAOraclePGASize物理內存容量OracleSystemMemorySize表空間(子資源)可用性指標表空間狀態(tài)OracleTablespaceAvailability性能指標表空間增長率OracleTablespaceRiseRate表空間利用率OracleTablespaceUtilization信息指標表空間名稱OracleTablespaceName表空間大小OracleTablespaceSize表空間已用空間OracleTablespaceUsedSize數(shù)據文件(子資源)可用性指標數(shù)據文件狀態(tài)OracleDatafileAvail

35、ability性能指標數(shù)據文件增長率OracleDatafileRiseRate數(shù)據文件利用率OracleDatafileUtilization物理讀速率OracleDiskReadsSpeed物理寫速率OracleDiskWritesSpeed信息指標數(shù)據文件名稱OracleDatafileName數(shù)據文件IdOracleDatafileId數(shù)據文件大小OracleDatafileSize數(shù)據文件已用空間OracleDatafileUsedSize進程(子資源)可用性指標進程狀態(tài)OracleProcessAvailability信息指標Oracle實例名稱(進程)OracleInstance

36、NameForProcess進程名稱OracleProcessName文件系統(tǒng)(子資源)性能指標文件系統(tǒng)利用率OracleFileSystemRate信息指標文件系統(tǒng)名稱OracleFileSystemName文件系統(tǒng)已用空間OracleFileSystemUsed文件類型OracleFileSystemType配置指標文件系統(tǒng)大小OracleFileSystemSize3.2.6.3 Web服務器監(jiān)控3.2.6.4 應用服務器監(jiān)控3.2.7 操作維護3.2.7.1 操作維護終端3.2.7.2 輔助操作維護3.2.7.3 集中數(shù)據修改倪總的數(shù)據修改帽子程序,遷入本系統(tǒng)。3.2.8 統(tǒng)計分析3.

37、2.8.1 告警統(tǒng)計分析系統(tǒng)可根據告警種類,告警時間段、告警業(yè)務場景、告警等級、告警處理響應時間等多維度進行告警統(tǒng)計分析3.2.8.2 性能統(tǒng)計分析系統(tǒng)可根據性能采集方式、采集時間、閥值、服務器、系統(tǒng)、性能問題發(fā)現(xiàn)時間段、性能解決時間段、處理人員等維度進行性能統(tǒng)計分析3.2.8.3 綜合分析3.2.8.4 報表自定義報表管理模塊可提供的自定義的報表,比如:l 對比報告:對比同類型資源的可用性和性能指標l 趨勢報表:分析資源的可用性趨勢,由特定時間段內的歷史數(shù)據分析出預測曲線,生成圖表進行比較。l 可用性報表:關注設備和資源的可用性。l TopN報表:可用性最差或者最好的N臺服務器。l 故障分析

38、報表:著重于未解決故障、重大故障次數(shù)、Mean Time To Repair(平均回復時間) 、Mean Time Between Failure(故障平均時間)等方面。l 事件統(tǒng)計報表:統(tǒng)計主機、網絡設備、應用的事件發(fā)生次數(shù)。并且可以按照事件的嚴重級別和優(yōu)先級進行分析統(tǒng)計??梢愿鶕虾k娦趴蛻暨\行維護管理考核的要求及時調整報表的模板。3.2.9 系統(tǒng)管理和展現(xiàn)界面3.2.9.1 B/S架構需求系統(tǒng)需要全部為B/S架構,界面統(tǒng)一,使用門檻低,容易上手且維護簡單,從而大大提高系統(tǒng)管理員的工作效率,降低維護工作量,降低培訓成本和周期。3.2.9.2 可視化管理需求系統(tǒng)需要采用所見即所得的友好界面,

39、支持多種展現(xiàn)效果,可以用Flash動畫和實現(xiàn)自定義顯示。3.2.9.3 資源一覽表頁面需求為了更好的讓客戶了解到相關的監(jiān)控資源整體上處理一個什么樣的水平范圍 ,一共監(jiān)控了多少資源,其中報警的有多少、超標的有多少、正常運作的有多少、宕機的有多少,系統(tǒng)需要通過資源一覽表方式展示,可以讓客戶清楚的了解到企業(yè)監(jiān)控資源的現(xiàn)狀。3.2.9.4 TOP N的資源展示系統(tǒng)監(jiān)控資源最關心的就是哪些資源的使用率最高,需要通過TOP N的展示讓使用者一目了然,同時基于Portal技術的展示架構,可以隨心訂制相關的資源的TOP N。3.2.10 平臺監(jiān)控需求范圍編號類型監(jiān)控范圍備注1網絡交換、路由、F5網絡設備性能參

40、數(shù)指標、性能指標超限告警2主機、Windows監(jiān)視服務器性能參數(shù)指標、性能指標超限告警3中間件Tom監(jiān)視中間件性能參數(shù)指標、性能指標超限告警4流媒體Wowza、Nginx監(jiān)視流媒體性能參數(shù)指標、性能指標超限告警5數(shù)據庫Oracle監(jiān)視數(shù)據庫性能參數(shù)指標、性能指標超限告警3.3 掌上網管需求3.4 平臺網絡架構需求平臺采用統(tǒng)一監(jiān)控,集中展現(xiàn)的方式實現(xiàn)對設備的監(jiān)控。監(jiān)控服務器通過部署在各監(jiān)控對象上的引擎收集信息,通過報表服務器進行過濾、加工、整理,通過統(tǒng)一門戶進行展現(xiàn)及短信告警功能。第4章 性能需求第5章 其他需求5.1 對現(xiàn)有管理系統(tǒng)資源消耗評估5.1.1 對主機的影響評估需求對于監(jiān)控的資源進行監(jiān)控,在監(jiān)控后,操作系統(tǒng)上內存占用不允許大于2M, CPU占用低于0.5%,CPU瞬間峰值小于5。對于單CPU操作系統(tǒng),只進行操作系統(tǒng)的監(jiān)控CPU占用率峰值不高于0.5%,內存低于13M。如果運行所有數(shù)據庫的監(jiān)控(超過30個),CPU占

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論