版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)系統(tǒng)平臺(tái)項(xiàng)目售后服務(wù)及運(yùn)營(yíng)方案目錄TOC\o"1-3"\h\u8140大數(shù)據(jù)系統(tǒng)平臺(tái)項(xiàng)目售后服務(wù)及運(yùn)營(yíng)方案 114789一、方案編制目的及原則 5206021.1、方案制定原則 68112二、組織體系 6298242.1、項(xiàng)目運(yùn)維工作小組 6310792.2、項(xiàng)目運(yùn)維工作小組人員清單 7165402.3、現(xiàn)場(chǎng)應(yīng)急處理工作組 724142.4、運(yùn)維質(zhì)量分 7130792.4.1、運(yùn)維服務(wù)質(zhì)量指標(biāo) 8193172.4.1、運(yùn)維服務(wù)滿意度指標(biāo) 97484三、標(biāo)準(zhǔn)化運(yùn)維流程 1016493.1、服務(wù)標(biāo)準(zhǔn) 10249973.1.1、服務(wù)工作時(shí)間 10133783.1.2、響應(yīng)時(shí)間 10219363.1.3、故障恢復(fù)時(shí)間 1050603.1.4、保密條款 10265903.2、需求管理流程 1082593.3、變更處理流程 10312103.4、主動(dòng)運(yùn)維服務(wù) 10168031、服務(wù)報(bào)告 1153372、系統(tǒng)性能排查 11252833、軟件監(jiān)控 1236714、項(xiàng)目風(fēng)險(xiǎn)識(shí)別 12183905、客戶回訪 1212820四、運(yùn)維及駐場(chǎng)服務(wù)內(nèi)容 1332874.1、健康檢查 13222784.1.1、檢查列表 13133744.1.2、操作系統(tǒng)檢查 18183614.1.3、數(shù)據(jù)庫(kù)檢查 19124374.1.4、中間件服務(wù)檢查 21240774.1.5、大數(shù)據(jù)相關(guān)檢查 26265424.2、深度巡檢服務(wù) 27302394.2.1、平臺(tái)資源配置 27257294.2.2、自動(dòng)告警 30146334.3、日常問(wèn)題及BUG處理 35217564.4、信息資源調(diào)研支持 3521964.5、需求變更收集和反饋處理 3569844.6、平臺(tái)小版本升級(jí) 35211564.7、共享交換前置區(qū)維護(hù) 36139114.8、資源監(jiān)控與容量評(píng)估 3695624.8.1、實(shí)時(shí)監(jiān)控 3691374.8.2、告警提醒 37147164.8.3、統(tǒng)計(jì)分析 37114824.8.4、優(yōu)化分析 38161114.9、業(yè)務(wù)上線支持 38258084.10、資源目錄動(dòng)態(tài)維護(hù) 38155534.11、數(shù)據(jù)維護(hù)服務(wù) 39323544.11.1、采集數(shù)據(jù)建模入庫(kù)服務(wù) 39108974.11.2、數(shù)據(jù)處理(清洗、比對(duì)、轉(zhuǎn)換)服務(wù) 39108774.12、數(shù)據(jù)交換運(yùn)維服務(wù) 39220794.12.1、公司數(shù)據(jù)調(diào)研服務(wù) 39260134.12.2、公司數(shù)據(jù)目錄梳理服務(wù) 3924.12.3、公司的數(shù)據(jù)采集方案支持服務(wù) 3956364.12.4、公司的數(shù)據(jù)采集服務(wù) 40103334.13、數(shù)據(jù)共享運(yùn)維服務(wù) 40103404.13.1、數(shù)據(jù)中心數(shù)據(jù)根據(jù)需求提供數(shù)據(jù)接口服務(wù) 4098654.13.2、公司數(shù)據(jù)需求提共享庫(kù)數(shù)據(jù)服務(wù) 4018224.14、技術(shù)交流 4049334.15、技能傳遞服務(wù) 40266994.16、重大活動(dòng)運(yùn)維服務(wù) 4013113五、數(shù)據(jù)備份 4143845.1、常規(guī)備份 4195415.1.1、備份策略 41249505.1.2、備份實(shí)施 42318615.1.3、備份文件驗(yàn)證 45205955.1.4、恢復(fù)實(shí)施 45272535.1.5、存儲(chǔ)空間估算 4629905.2、容災(zāi)備份 4817165.2.1、相關(guān)概念說(shuō)明 48133805.2.2、應(yīng)用系統(tǒng)容災(zāi)目標(biāo) 48244755.2.3、應(yīng)用系統(tǒng)容災(zāi)需求分析 49209155.2.4、MySQL數(shù)據(jù)庫(kù)容災(zāi)實(shí)現(xiàn)方案 50119065.2.5、應(yīng)用程序容災(zāi)實(shí)現(xiàn)方案 5342205.2.6、應(yīng)用系統(tǒng)災(zāi)備恢復(fù)預(yù)案 5631475.2.7、容災(zāi)建設(shè)資源需求清單 5721204六、安全密鑰處置管理 57132566.1、管理機(jī)制簡(jiǎn)述與建議 573059(一)工程階段 572131(二)后續(xù)建議 57252786.2、業(yè)務(wù)系統(tǒng)訪問(wèn)賬號(hào)管理 5726366.3、服務(wù)器訪問(wèn)賬號(hào)管理 58160966.4、數(shù)據(jù)庫(kù)訪問(wèn)賬號(hào)管理 59287586.5、賬號(hào)變更及密鑰變更管理 5915250七、技術(shù)支持 6049877.1、專家保障 6055257.2、電話咨詢 6035107.3、遠(yuǎn)程協(xié)助 6156907.4、現(xiàn)場(chǎng)響應(yīng) 619575八、故障處理 61193058.1、業(yè)務(wù)SLA定級(jí) 62137518.2、故障級(jí)別 6274208.3、故障處理流程 637808.3.1、處理故障需注意以下事項(xiàng) 6345978.3.2、故障為以下問(wèn)題的處理流程 639186九、應(yīng)急保障 64277279.1、現(xiàn)場(chǎng)應(yīng)急處理 64107119.2、系統(tǒng)應(yīng)急保障 65144679.2.1、機(jī)房故障 65214169.2.2、電源故障 6556149.2.3、設(shè)備故障 6562499.2.4、主備倒換故障 66265639.2.5、安全攻擊 6774969.2.6、系統(tǒng)卡頓 68230849.2.7、平臺(tái)無(wú)法登錄 68178569.2.8、附件無(wú)法上傳下載 6866439.2.9、API網(wǎng)關(guān)故障 6929519.3、數(shù)據(jù)應(yīng)急保障 7099109.3.1、誤刪數(shù)據(jù) 7056519.3.2、庫(kù)表資源異常 7149099.3.3、部門數(shù)據(jù)交換異常 71206079.4、網(wǎng)絡(luò)應(yīng)急保障 72307429.4.1、網(wǎng)絡(luò)故障 72108389.5、報(bào)告與總結(jié) 72374十、護(hù)航保障措施 721424910.1、本地化服務(wù) 72481310.2、組織及人員保障 721404410.3、必備資料 732410610.4、數(shù)據(jù)保障 732099110.5、安全條款 73325410.6、宣傳、培訓(xùn)和演習(xí) 732447910.7、定期巡檢 741962210.8、服務(wù)監(jiān)督 7418298十一、服務(wù)報(bào)告 753064911.1、周報(bào) 75447411.2、月報(bào) 752423611.3、季報(bào) 75662711.4、年報(bào) 752695611.5、運(yùn)維例會(huì) 7531641十二、運(yùn)維進(jìn)度安排 7530729十三、運(yùn)維涉及表單 76253413.1、客戶需求確認(rèn)單 76696913.2、客戶需求評(píng)估單 771566113.3、需求變更申請(qǐng)單 77549213.4、需求變更實(shí)施單 782109613.5、客戶需求結(jié)案單 79246613.6、故障分析報(bào)告 79701213.7、現(xiàn)場(chǎng)維護(hù)確認(rèn)單 803141813.8、服務(wù)器巡檢報(bào)告 811180213.9、培訓(xùn)簽到表 811286713.10、季度/年度維護(hù)服務(wù)總結(jié)報(bào)告 812140013.11、客戶拜訪單 81方案編制目的及原則確保各公司辦公系統(tǒng)信息安全和數(shù)據(jù)安全,提高應(yīng)對(duì)突發(fā)事件的組織指揮能力和應(yīng)急處置能力,最大限度地預(yù)防和減少突發(fā)信息安全事件及其造成的損害,確保系統(tǒng)的安全暢通,為客戶提供及時(shí)、有效、穩(wěn)定的服務(wù)。方案制定原則本方案主要針對(duì)應(yīng)用系統(tǒng)、服務(wù)器及數(shù)據(jù)庫(kù)軟件制定合理科學(xué)的維保策略。方案的制定遵循以下原則:本項(xiàng)目的最終目標(biāo)是保證業(yè)務(wù)系統(tǒng)的安全和可靠運(yùn)行。包括計(jì)算機(jī)系統(tǒng)的可靠運(yùn)行和業(yè)務(wù)數(shù)據(jù)的安全保證,我們將動(dòng)用一切有效的措施手段,力求業(yè)務(wù)系統(tǒng)萬(wàn)無(wú)一失,我們的目標(biāo)是:“非正常性停機(jī)時(shí)間為零”。重在措施:注重預(yù)防,我們將在傳統(tǒng)的被動(dòng)式服務(wù)的基礎(chǔ)上提供主動(dòng)式的服務(wù),和客戶一起做好系統(tǒng)的監(jiān)控維護(hù)工作。采取以預(yù)防為主的策略,把故障隱患消滅在萌芽中。服務(wù)組織,服務(wù)組織管理和流程管理是項(xiàng)目成功得關(guān)鍵。我們將在責(zé)任工程師(項(xiàng)目經(jīng)理)的統(tǒng)一調(diào)度下,指揮技術(shù)、應(yīng)用、商務(wù)及服務(wù)監(jiān)督人員,在售前、服務(wù)實(shí)施、售后的各個(gè)環(huán)節(jié)緊密與客戶方配合追求最佳性價(jià)比:服務(wù)的級(jí)別意味著客戶的成本,我們?cè)诒U细邩?biāo)準(zhǔn)服務(wù)的前提下,努力通過(guò)精心組織、精心實(shí)施來(lái)降低客戶的成本,同時(shí)為客戶提供更多的增值服務(wù)。組織體系項(xiàng)目運(yùn)維工作小組成立項(xiàng)目運(yùn)維工作小組,團(tuán)隊(duì)成員不少于10人。組長(zhǎng)由運(yùn)維部主管工程師擔(dān)任,指定為項(xiàng)目售后服務(wù)接口人。副組長(zhǎng)由開發(fā)部、實(shí)施部各相關(guān)部門技術(shù)骨干擔(dān)任。成員公司由項(xiàng)目開發(fā)組成員,項(xiàng)目實(shí)施組成員等組成。小組的職責(zé):負(fù)責(zé)系統(tǒng)運(yùn)行維護(hù)管理工作;研究制定系統(tǒng)信息安全應(yīng)急處置工作的規(guī)劃、計(jì)劃和政策;協(xié)調(diào)推進(jìn)系統(tǒng)信息安全應(yīng)急機(jī)制和工作體系建設(shè);指導(dǎo)協(xié)調(diào)各類應(yīng)急工作組開展對(duì)信息安全突發(fā)事件的應(yīng)急響應(yīng)與處置工作;對(duì)系統(tǒng)信息安全事件的響應(yīng)作出正確的判斷和決策等。根據(jù)項(xiàng)目特點(diǎn)決定駐場(chǎng)人員個(gè)數(shù),駐場(chǎng)人員不少于4人,負(fù)責(zé)駐點(diǎn)運(yùn)維工作,包括相應(yīng)系統(tǒng)的管理和運(yùn)維,運(yùn)維人員提供工作日5*8小時(shí)的現(xiàn)場(chǎng)駐場(chǎng)服務(wù),嚴(yán)格按客戶的工作日要求進(jìn)行出勤。項(xiàng)目運(yùn)維工作小組人員清單無(wú)現(xiàn)場(chǎng)應(yīng)急處理工作組現(xiàn)場(chǎng)應(yīng)急處理工作組,在出現(xiàn)安全事件后,對(duì)計(jì)算機(jī)系統(tǒng)和網(wǎng)絡(luò)安全事件的處理提供技術(shù)支持和指導(dǎo),遵循正確的流程,采取正確快速的行動(dòng)作出響應(yīng),提出事件統(tǒng)計(jì)分析報(bào)告?,F(xiàn)場(chǎng)應(yīng)急處理工作組由以下各方面的人員組成:管理方面包含項(xiàng)目經(jīng)理,以及相關(guān)成員、部門負(fù)責(zé)人。主要確保安全策略的制定與執(zhí)行;識(shí)別網(wǎng)絡(luò)與信息系統(tǒng)正常運(yùn)行的主要威脅;在出現(xiàn)問(wèn)題時(shí)決定所采取行動(dòng)的先后順序;做出關(guān)鍵的決定;批準(zhǔn)例外的特殊情況等。技術(shù)方面應(yīng)包含開發(fā)部技術(shù)人員,實(shí)施部技術(shù)人員等主要負(fù)責(zé)從技術(shù)方面處理發(fā)生問(wèn)題的系統(tǒng);檢測(cè)入侵事件,并采取技術(shù)手段來(lái)降低損失。運(yùn)維質(zhì)量分共享開發(fā)平臺(tái)軟件運(yùn)維質(zhì)量分由服務(wù)質(zhì)量和服務(wù)滿意度兩部分構(gòu)成,分別占有總分的90%和10%,總分100分。服務(wù)質(zhì)量以默認(rèn)100分為基準(zhǔn),當(dāng)出現(xiàn)一項(xiàng)不滿足項(xiàng)進(jìn)行扣分,出現(xiàn)多次不滿足時(shí)可以重復(fù)扣分??蛻魸M意度以默認(rèn)100分為基準(zhǔn),當(dāng)出現(xiàn)一項(xiàng)不滿足項(xiàng)進(jìn)行扣分,出現(xiàn)多次不滿足時(shí)可以重復(fù)扣分??傮w得分=(服務(wù)質(zhì)量得分/100)×90+(客戶滿意度得分/100)×10。從服務(wù)質(zhì)量、服務(wù)使用滿意度兩個(gè)角度衡量,這些級(jí)別構(gòu)成了以三星級(jí)為最高級(jí),一星級(jí)為最低級(jí)的層次結(jié)構(gòu)。級(jí)別對(duì)應(yīng)實(shí)際評(píng)估值區(qū)間三星★★★90≤X<100二星★★75≤X<90一星★60≤X<75注:X為按照本方法進(jìn)行評(píng)估而獲取的評(píng)估分?jǐn)?shù)值。運(yùn)維服務(wù)質(zhì)量指標(biāo)包括應(yīng)用系統(tǒng)運(yùn)維服務(wù)、數(shù)據(jù)運(yùn)維服務(wù)、安全管理服務(wù)、故障應(yīng)急服務(wù)4個(gè)方面,包含7個(gè)內(nèi)容:共享開放平臺(tái)功能維護(hù)、數(shù)據(jù)運(yùn)維、數(shù)據(jù)入庫(kù)與出庫(kù)、信息安全管理及數(shù)據(jù)標(biāo)準(zhǔn)制定、應(yīng)急預(yù)案建立及使用機(jī)制、技術(shù)支持人員、故障及時(shí)修復(fù)機(jī)制,具體指標(biāo)如下所示。服務(wù)分類服務(wù)內(nèi)容扣分原則否(次)應(yīng)用系統(tǒng)運(yùn)維服務(wù)(20分)共享開放平臺(tái)功能維護(hù)(20分)項(xiàng)目組是否每日檢查系統(tǒng)運(yùn)行情況、數(shù)據(jù)庫(kù)運(yùn)行情況并每周、每月、每季度、每年反映項(xiàng)目運(yùn)維情況?是,不扣分;否,每次扣除1分(10分)協(xié)助進(jìn)行數(shù)據(jù)調(diào)研工作,完善政務(wù)資源目錄;在相關(guān)平臺(tái)系統(tǒng)的應(yīng)用功能不能適應(yīng)業(yè)務(wù)需求時(shí),運(yùn)維方應(yīng)及時(shí)安排技術(shù)人員進(jìn)行軟件功能的修改或升級(jí)。分值10分,未完成一次扣2分。數(shù)據(jù)運(yùn)維服務(wù)(30分)數(shù)據(jù)運(yùn)維(10分)建立數(shù)據(jù)質(zhì)量和安全的防護(hù)機(jī)制。分值10分。數(shù)據(jù)質(zhì)量問(wèn)題未及時(shí)推進(jìn)每1個(gè)扣1分。按周期備份數(shù)據(jù),每少1次或備份數(shù)據(jù)不全扣1分。發(fā)生數(shù)據(jù)泄露,扣10分,并追究后續(xù)責(zé)任。數(shù)據(jù)入庫(kù)與出庫(kù)(20分)各委辦局提交數(shù)據(jù)后,接口數(shù)據(jù)和數(shù)據(jù)庫(kù)同步要求實(shí)時(shí)入庫(kù);前置機(jī)數(shù)據(jù)要在1個(gè)工作日內(nèi)完成數(shù)據(jù)入庫(kù)。各委辦局?jǐn)?shù)據(jù)共享審批完成后,要在2個(gè)工作日內(nèi)完成數(shù)據(jù)出庫(kù)的相應(yīng)工作。分值20分。未按時(shí)完成一次扣1分。安全管理服務(wù)(10分)信息安全管理及數(shù)據(jù)標(biāo)準(zhǔn)制定(10分)建立信息安全保障和業(yè)務(wù)流程體系,與數(shù)據(jù)處理專職團(tuán)隊(duì)及人員簽訂保密協(xié)議;根據(jù)主流數(shù)據(jù)庫(kù)及中間件技術(shù)標(biāo)準(zhǔn),制定符合相應(yīng)數(shù)據(jù)格式的統(tǒng)一標(biāo)準(zhǔn)。分值10分。未簽訂保密協(xié)議扣5分,未制定統(tǒng)一標(biāo)準(zhǔn)扣5分。故障應(yīng)急服務(wù)(40分)應(yīng)急預(yù)案建立及使用機(jī)制(10分)建立應(yīng)急預(yù)案,并在遇到緊急事件時(shí)使用應(yīng)急預(yù)案。分值10分。未建立應(yīng)急預(yù)案扣10分,遇緊急情況未使用應(yīng)急預(yù)案一次扣2分。技術(shù)支持人員(10分)技術(shù)支持總?cè)藬?shù)應(yīng)不少于4人,并應(yīng)在半小時(shí)內(nèi)響應(yīng)。分值10分。未在半小時(shí)內(nèi)響應(yīng)1次扣2分。故障及時(shí)修復(fù)機(jī)制(20分)應(yīng)保障共享開發(fā)平臺(tái)運(yùn)行平穩(wěn),如出現(xiàn)故障應(yīng)及時(shí)修復(fù),分值10分。每出現(xiàn)1次影響委辦局正常使用的故障,扣1分,在1小時(shí)內(nèi)未修復(fù)的,再扣1分;每出現(xiàn)1次影響項(xiàng)目正常使用的故障,扣5分,在半小時(shí)內(nèi)未修復(fù)的,再扣2分;出現(xiàn)重大故障,在1天內(nèi)未修復(fù)或被資源使用方書面投訴并確認(rèn)的,1次扣10分??傮w得分滿分100分運(yùn)維服務(wù)滿意度指標(biāo)服務(wù)滿意度指標(biāo)是衡量服務(wù)提供機(jī)構(gòu)服務(wù)質(zhì)量的綜合指標(biāo),是從甲方角度評(píng)價(jià)服務(wù)產(chǎn)品或服務(wù)質(zhì)量的一種指標(biāo)體系,具體指標(biāo)如下所示。項(xiàng)目服務(wù)使用滿意度指標(biāo)否/次運(yùn)維人員服務(wù)滿意度運(yùn)維人員的服務(wù)態(tài)度和服務(wù)意識(shí)的滿意度(10分)運(yùn)維人員對(duì)事件及處理問(wèn)題的響應(yīng)速度(10分)運(yùn)維人員對(duì)系統(tǒng)問(wèn)題診斷及處理結(jié)果滿意度(10分)運(yùn)維人員專業(yè)水平滿意度(10分)運(yùn)維人員服務(wù)管理規(guī)范性的滿意度(10分)系統(tǒng)滿意度系統(tǒng)穩(wěn)定性滿意度(10分)系統(tǒng)運(yùn)行速度滿意度(10分)系統(tǒng)操作方便性(10)數(shù)據(jù)服務(wù)滿意度數(shù)據(jù)處理質(zhì)量滿意度(10)數(shù)據(jù)服務(wù)質(zhì)量滿意度(10)總體得分滿分100分標(biāo)準(zhǔn)化運(yùn)維流程服務(wù)標(biāo)準(zhǔn)服務(wù)工作時(shí)間項(xiàng)目最終驗(yàn)收前提供對(duì)系統(tǒng)提供維護(hù)服務(wù),對(duì)已經(jīng)上線運(yùn)行的系統(tǒng)提供5*8小時(shí)運(yùn)維服務(wù)。自驗(yàn)收之日起提供不低于1年的現(xiàn)場(chǎng)支持服務(wù)。7*24*365電話、網(wǎng)站、電子郵件等方式受理服務(wù)請(qǐng)求或幫助客戶解決技術(shù)問(wèn)題。響應(yīng)時(shí)間現(xiàn)場(chǎng)服務(wù)時(shí)間為5*8小時(shí),其余時(shí)間接到報(bào)修后30分鐘內(nèi)予以實(shí)質(zhì)性響應(yīng),工程師1小時(shí)內(nèi)到達(dá)服務(wù)現(xiàn)場(chǎng)。故障恢復(fù)時(shí)間一般性故障在2小時(shí)內(nèi)做出故障診斷和恢復(fù),復(fù)雜故障在4小時(shí)內(nèi)恢復(fù)。保密條款本公司將嚴(yán)格遵循保密協(xié)議,凡涉及客戶的機(jī)型配置、IP地址、軟件等信息不得向第三方泄露,維護(hù)過(guò)程中如需涉及客戶系統(tǒng)的數(shù)據(jù)信息,必須先通過(guò)客戶方認(rèn)可,維護(hù)工作的數(shù)據(jù)信息(無(wú)論是打印或介質(zhì)上的數(shù)據(jù)信息)不得帶離客戶工作現(xiàn)場(chǎng)。需求管理流程執(zhí)行需求管理流程。變更處理流程執(zhí)行變更處理流程。主動(dòng)運(yùn)維服務(wù)在維護(hù)工作前,本公司工程師須提前24小時(shí)(緊急故障處理除外)向客戶項(xiàng)目主管提出書面的維護(hù)申請(qǐng)。內(nèi)容包括維護(hù)的目的、操作工程師、操作步驟、涉及系統(tǒng)硬件變更、涉及系統(tǒng)軟件變更、預(yù)計(jì)操作所需時(shí)間、申請(qǐng)操作所需時(shí)間等內(nèi)容。待得到客戶項(xiàng)目主管書面批復(fù)后維護(hù)工作方能開始,且所有操作必須有客戶方代表在場(chǎng)。如維護(hù)工作需要使用移動(dòng)介質(zhì),則必須事先在本地進(jìn)行病毒檢查,經(jīng)客戶方確認(rèn)方可使用。維護(hù)操作必須事先做好操作方案并制定應(yīng)急方案,必須嚴(yán)格掌握控制操作時(shí)間。所有操作記錄須存檔并長(zhǎng)期保留。主動(dòng)改進(jìn)服務(wù)方向:及時(shí)發(fā)現(xiàn)維護(hù)人員在項(xiàng)目維護(hù)過(guò)程中的問(wèn)題,要求改進(jìn)。方式:服務(wù)報(bào)告、系統(tǒng)排查、軟件監(jiān)控、事項(xiàng)風(fēng)險(xiǎn)識(shí)別、客戶回訪。服務(wù)方式:1、服務(wù)報(bào)告每月項(xiàng)目刷選人員通過(guò)維護(hù)事項(xiàng)發(fā)生的頻率測(cè)算各項(xiàng)目所需服務(wù)報(bào)告的類型,發(fā)出郵件通知要求不同的項(xiàng)目需要產(chǎn)生周報(bào)、月報(bào)、季報(bào)提供給客戶。年終需產(chǎn)生年報(bào)提供給客戶。通過(guò)月報(bào)匯總近階段項(xiàng)目運(yùn)行情況和問(wèn)題處理進(jìn)展,讓客戶了解維護(hù)人員的工作內(nèi)容和職責(zé)。一方面讓客戶認(rèn)可維護(hù)人員的工作;另一方面客戶對(duì)項(xiàng)目問(wèn)題進(jìn)展有質(zhì)疑或工作內(nèi)容有遺漏等情況,可根據(jù)月報(bào)中提供的部門管理人員的聯(lián)系方式進(jìn)行溝通,方便部門及時(shí)發(fā)現(xiàn)問(wèn)題進(jìn)行協(xié)調(diào),降低項(xiàng)目維護(hù)的風(fēng)險(xiǎn)。頻率:每周有5個(gè)及以上維護(hù)事項(xiàng)需整理周報(bào)發(fā)送給客戶;每月有5個(gè)及以上維護(hù)事項(xiàng)需整理月報(bào)發(fā)送給客戶;每季有3個(gè)及以上維護(hù)事項(xiàng)需整理季報(bào)發(fā)送給客戶;所有項(xiàng)目年終需整理年報(bào)發(fā)送給客戶。系統(tǒng)性能排查在做服務(wù)器巡檢的同時(shí)排查系統(tǒng)中是否存在執(zhí)行耗時(shí)長(zhǎng)的語(yǔ)句,及時(shí)進(jìn)行處理。主動(dòng)排查和處理系統(tǒng)中存在執(zhí)行慢的語(yǔ)句,對(duì)系統(tǒng)進(jìn)行優(yōu)化,并對(duì)此項(xiàng)記錄整合至月報(bào)中,提升客戶體驗(yàn)。步驟:(1)維護(hù)人員在做服務(wù)器巡檢時(shí)需檢查數(shù)據(jù)庫(kù)中語(yǔ)句的執(zhí)行情況,項(xiàng)目的巡檢事項(xiàng)中除了反饋巡檢報(bào)告外,還需反饋系統(tǒng)性能排查的結(jié)果和處理過(guò)程。(2)sql通過(guò)sqlProfiler進(jìn)行跟蹤處理。(3)對(duì)刷選出執(zhí)行時(shí)長(zhǎng)超過(guò)3秒的語(yǔ)句,通過(guò)增加索性等方式先自行處理,若沒(méi)有效果,把問(wèn)題在巡檢事項(xiàng)中描述清楚,可直接把事項(xiàng)轉(zhuǎn)給開發(fā)人員,要求開發(fā)優(yōu)化語(yǔ)句。(4)完成后處理后,需把跟蹤出的語(yǔ)句、處理過(guò)程、最終結(jié)果整理在月報(bào)的“監(jiān)控和排查處理”欄中。3、軟件監(jiān)控每天定時(shí)訪問(wèn)系統(tǒng),一旦系統(tǒng)不能訪問(wèn),維護(hù)負(fù)責(zé)人會(huì)在公司OA中收到郵件提醒,及時(shí)進(jìn)行處理。及時(shí)發(fā)現(xiàn)系統(tǒng)不能訪問(wèn)這類嚴(yán)重情況,爭(zhēng)取在客戶聯(lián)系維護(hù)人員前就處理完成,讓客戶感受到維護(hù)人員對(duì)項(xiàng)目的主動(dòng)關(guān)注。4、項(xiàng)目風(fēng)險(xiǎn)識(shí)別部門經(jīng)理每半個(gè)月發(fā)起部門內(nèi)維護(hù)項(xiàng)目風(fēng)險(xiǎn)收集郵件,維護(hù)負(fù)責(zé)人羅列所有正在處理中或已經(jīng)處理完成但仍存在風(fēng)險(xiǎn)的維護(hù)事項(xiàng),并根據(jù)提供的風(fēng)險(xiǎn)判斷標(biāo)準(zhǔn),描述有風(fēng)險(xiǎn)的事項(xiàng),收集后部門經(jīng)理針對(duì)風(fēng)險(xiǎn)事項(xiàng)安排協(xié)調(diào)。及時(shí)發(fā)現(xiàn)維護(hù)項(xiàng)目中資源協(xié)調(diào)困難、處理進(jìn)度緩慢等情況,由部門經(jīng)理通過(guò)溝通協(xié)調(diào)或逐級(jí)上報(bào)等方式,控制項(xiàng)目風(fēng)險(xiǎn)。步驟:(1)每半月提醒人員發(fā)出郵件提醒各部門對(duì)維護(hù)事項(xiàng)進(jìn)行風(fēng)險(xiǎn)排查。(2)部門安排維護(hù)人員在2工作內(nèi)把處理中維護(hù)事項(xiàng)和風(fēng)險(xiǎn)點(diǎn)進(jìn)行反饋。(3)匯總?cè)藛T匯總部門內(nèi)維護(hù)人員反饋列表。(4)部門經(jīng)理了解事項(xiàng)的風(fēng)險(xiǎn)點(diǎn),通過(guò)提供建議、溝通協(xié)調(diào)、逐級(jí)上報(bào)等方式控制項(xiàng)目風(fēng)險(xiǎn)。5、客戶回訪重點(diǎn)項(xiàng)目由組長(zhǎng)或部門經(jīng)理和維護(hù)負(fù)責(zé)人一起去客戶現(xiàn)場(chǎng)拜訪,普通項(xiàng)目安排條線專人進(jìn)行電話回訪,了解項(xiàng)目的維護(hù)情況,及時(shí)調(diào)整和改進(jìn)維護(hù)過(guò)程中的問(wèn)題。通過(guò)客戶回訪,了解項(xiàng)目的維護(hù)情況,及時(shí)調(diào)整和改進(jìn)維護(hù)過(guò)程中的問(wèn)題。(1)部門安排采集重點(diǎn)和普通項(xiàng)目列表。(2)部門經(jīng)理和組長(zhǎng)對(duì)項(xiàng)目列表進(jìn)行審核,對(duì)重點(diǎn)項(xiàng)目安排好去現(xiàn)場(chǎng)的人員和日期。(3)針對(duì)現(xiàn)場(chǎng)拜訪的項(xiàng)目:(3.1)維護(hù)負(fù)責(zé)人登記“拜訪”類維護(hù)事項(xiàng),跟組長(zhǎng)或部門經(jīng)理一起去現(xiàn)場(chǎng)拜訪。(3.2)現(xiàn)場(chǎng)拜訪需登記現(xiàn)場(chǎng)簽單,完成后拍照上傳至對(duì)應(yīng)事項(xiàng)。(3.3)整理現(xiàn)場(chǎng)拜訪采集到的問(wèn)題,發(fā)出相關(guān)事項(xiàng)跟進(jìn)處理。若有新增需求發(fā)郵件提醒商務(wù)并安排開發(fā)人員進(jìn)行評(píng)估。運(yùn)維及駐場(chǎng)服務(wù)內(nèi)容健康檢查對(duì)應(yīng)用系統(tǒng)和部署應(yīng)用系統(tǒng)的服務(wù)器每一個(gè)月進(jìn)行一次巡檢,對(duì)應(yīng)用軟件自身的風(fēng)險(xiǎn)進(jìn)行排查處理,對(duì)第三方的設(shè)備導(dǎo)致業(yè)務(wù)系統(tǒng)的風(fēng)險(xiǎn),提出相應(yīng)的建議和改進(jìn)方案,巡檢結(jié)束后提供《巡檢報(bào)告》。巡檢報(bào)告期提供給客戶負(fù)責(zé)人,客戶對(duì)于巡檢報(bào)告的任何疑問(wèn)可以聯(lián)系項(xiàng)目負(fù)責(zé)人。檢查列表序號(hào)檢查點(diǎn)是否必要檢查類型完成狀態(tài)一.操作系統(tǒng)相關(guān)Linux系統(tǒng)1服務(wù)器啟用系統(tǒng)防火墻必要人工2服務(wù)器時(shí)間設(shè)置同步開啟必要人工3查看系統(tǒng)時(shí)間是否正常(特別是內(nèi)網(wǎng)服務(wù)器,無(wú)法同步時(shí)間的情況)必要人工4查看計(jì)劃任務(wù),是否有非公司業(yè)務(wù)任務(wù)可選人工5檢查監(jiān)聽端口,查看是否有非公司業(yè)務(wù)端口可選人工6檢查進(jìn)程,查看是否有可疑進(jìn)程可選人工7檢查登錄信息可選人工8檢查passwd文件,查看是否有可疑用戶可選人工9sudoer中是否有可疑用戶可選人工10root密碼策略是否包含字母大小寫、數(shù)字、特殊字符和長(zhǎng)度大于8位必要人工11設(shè)置密碼最大嘗試次數(shù)及超過(guò)錯(cuò)誤次數(shù)封禁策略必要人工12root密碼過(guò)期天數(shù)設(shè)置可選人工13檢查/etc/hosts文件,是否被篡改可選人工14系統(tǒng)端口開放必要(紅線)人工二.?dāng)?shù)據(jù)庫(kù)相關(guān)MySQL15檢查服務(wù)器是否為linux必要人工16限制MySQL的訪問(wèn)IP來(lái)源,只允許業(yè)務(wù)服務(wù)器才能通過(guò)網(wǎng)絡(luò)連接必要人工17修改MySQL的默認(rèn)端口必要人工18檢查MySQL是否以mysql用戶進(jìn)行啟動(dòng)必要人工19檢查mysql用戶的權(quán)限,僅對(duì)mysql的datadir有權(quán)限必要人工20檢查mysql用戶的權(quán)限,不能以普通用戶的方式登錄系統(tǒng)必要人工21檢查MySQL的root賬號(hào)是否可以被遠(yuǎn)程訪問(wèn),除了MHAManager服務(wù)器和監(jiān)控服務(wù)器以外,禁止root用戶遠(yuǎn)程登錄必要人工22檢查/etc/f中是否包含密碼必要人工23數(shù)據(jù)庫(kù)是否開啟加密可選人工24數(shù)據(jù)庫(kù)是否做了定時(shí)備份必要人工25數(shù)據(jù)庫(kù)是否做了異機(jī)備份必要人工26確保業(yè)務(wù)程序的數(shù)據(jù)庫(kù)連接使用普通用戶權(quán)限,而非root權(quán)限必要人工27確保業(yè)務(wù)程序使用的用戶權(quán)限僅在業(yè)務(wù)自己的數(shù)據(jù)庫(kù),而不能讀取其他數(shù)據(jù)庫(kù)必要人工28確保mysql的root密碼策略是否包含字母大小寫、數(shù)字、特殊字符和長(zhǎng)度大于8位必要人工29確保業(yè)務(wù)系統(tǒng)的用戶的密碼策略是否包含字母大小寫、數(shù)字、特殊字符和長(zhǎng)度大于8位必要人工30確保數(shù)據(jù)庫(kù)有完整的備份策略必要人工三.中間件相關(guān)Tomcat31檢查tomcat版本必要人工32隱藏Tomcat和訪問(wèn)404頁(yè)面時(shí)的版本信息必要人工33刪除Tomcat目錄下,docs、examples、hostmanager、manager、pspframe、ROOT應(yīng)用必要人工34檢查JVM是否使用server參數(shù)啟動(dòng)必要人工35檢查服務(wù)器環(huán)境是否安裝JDK環(huán)境必要人工36不可以使用多個(gè)虛擬主機(jī)部署應(yīng)用必要人工37關(guān)閉war包自動(dòng)部署的功能必要人工38以非root用戶啟動(dòng)應(yīng)用必要人工39tomcat下禁用不安全的http方法必要人工Nginx40檢查nginx版本必要人工41禁止使用Nginx正向代理必要人工42禁止nobody對(duì)所有目錄的讀取權(quán)限,對(duì)網(wǎng)站目錄的讀取權(quán)限必要人工43限制訪問(wèn)nginx下的txt文件或則log文件必要人工44禁止列出nginx目錄下的文件夾必要人工45禁止nginx在錯(cuò)誤頁(yè)面顯示版本信息必要人工Redis46檢查redis版本必要人工47不建議公網(wǎng)環(huán)境下redis直接對(duì)外提供服務(wù)必要人工48綁定網(wǎng)絡(luò)監(jiān)聽的IP地址必要人工49給redis添加密碼必要人工50使用非root權(quán)限啟動(dòng)Redis必要人工四.大數(shù)據(jù)相關(guān)51業(yè)務(wù)系統(tǒng)密碼復(fù)雜度必要人工52業(yè)務(wù)系統(tǒng)雙因素認(rèn)證必要人工53Web安全模塊必要人工54https證書必要人工55檢查是否部署nginx反向代理必要人工56業(yè)務(wù)系統(tǒng)高可用可選人工57檢查超時(shí)斷開空閑會(huì)話必要人工58系統(tǒng)最大并發(fā)連接限制必要人工59單個(gè)用戶多重并發(fā)限制必要人工60平臺(tái)監(jiān)控必要人工61檢查業(yè)務(wù)系統(tǒng)JDBC連接數(shù)據(jù)庫(kù)是否傳輸加密必要人工62檢查數(shù)據(jù)交換平臺(tái)JDBC連接數(shù)據(jù)庫(kù)是否傳輸加密必要人工63Kong組件啟用https必要人工64檢查Kong接口是否開啟日志審計(jì)必要人工Linux操作系統(tǒng)檢查服務(wù)器時(shí)間設(shè)置同步開啟查看系統(tǒng)時(shí)間是否正常(特別是內(nèi)網(wǎng)服務(wù)器,無(wú)法同步時(shí)間的情況)查看計(jì)劃任務(wù),是否有非公司業(yè)務(wù)任務(wù) 檢查進(jìn)程,查看是否有可疑進(jìn)程 檢查登錄信息 檢查passwd文件,查看是否有可疑用戶 sudoer中是否有可疑用戶 root密碼策略是否包含字母大小寫、數(shù)字、特殊字符和長(zhǎng)度大于8位設(shè)置密碼最大嘗試次數(shù)及超過(guò)錯(cuò)誤次數(shù)封禁策略root密碼過(guò)期天數(shù)設(shè)置 檢查/etc/hosts文件,是否被篡改 系統(tǒng)端口開放數(shù)據(jù)庫(kù)檢查限制MySQL的訪問(wèn)IP來(lái)源,只允許業(yè)務(wù)服務(wù)器才能通過(guò)網(wǎng)絡(luò)連接修改MySQL的默認(rèn)端口檢查MySQL是否以mysql用戶進(jìn)行啟動(dòng)檢查mysql用戶的權(quán)限,僅對(duì)mysql的datadir有權(quán)限檢查mysql用戶的權(quán)限,不能以普通用戶的方式登錄系統(tǒng)檢查MySQL的root賬號(hào)是否可以被遠(yuǎn)程訪問(wèn),除了MHAManager服務(wù)器和監(jiān)控服務(wù)器以外,禁止root用戶遠(yuǎn)程登錄檢查/etc/f中是否包含密碼數(shù)據(jù)庫(kù)是否開啟加密 數(shù)據(jù)庫(kù)是否做了定時(shí)備份 數(shù)據(jù)庫(kù)是否做了異機(jī)備份 確保業(yè)務(wù)程序的數(shù)據(jù)庫(kù)連接使用普通用戶權(quán)限,而非root權(quán)限確保業(yè)務(wù)程序使用的用戶權(quán)限僅在業(yè)務(wù)自己的數(shù)據(jù)庫(kù),而不能讀取其他數(shù)據(jù)庫(kù)確保mysql的root密碼策略是否包含字母大小寫、數(shù)字、特殊字符和長(zhǎng)度大于8位確保業(yè)務(wù)系統(tǒng)的用戶的密碼策略是否包含字母大小寫、數(shù)字、特殊字符和長(zhǎng)度大于8位確保數(shù)據(jù)庫(kù)有完整的備份策略中間件服務(wù)檢查Tomcat檢查tomcat版本隱藏Tomcat和訪問(wèn)404頁(yè)面時(shí)的版本信息刪除Tomcat目錄下,docs、examples、hostmanager、manager、pspframe目錄檢查JVM是否使用server參數(shù)啟動(dòng)
檢查服務(wù)器環(huán)境是否安裝JDK環(huán)境不可以使用多個(gè)虛擬主機(jī)部署應(yīng)用關(guān)閉war包自動(dòng)部署的功能
以非root用戶啟動(dòng)應(yīng)用禁用不安全的http方法Nginx檢查Nginx版本禁止使用Nginx正向代理
禁止nobody對(duì)所有目錄的讀取權(quán)限,對(duì)網(wǎng)站目錄的讀取權(quán)限限制訪問(wèn)nginx下的txt文件或則log文件
禁止列出nginx目錄下的文件夾禁止nginx在錯(cuò)誤頁(yè)面顯示版本信息Redis檢查Redis版本不建議公網(wǎng)環(huán)境下redis直接對(duì)外提供服務(wù)綁定網(wǎng)絡(luò)監(jiān)聽的IP地址給redis添加密碼使用非root權(quán)限啟動(dòng)Redis大數(shù)據(jù)相關(guān)檢查使用HTTPS加密協(xié)議傳輸檢查業(yè)務(wù)系統(tǒng)JDBC連接數(shù)據(jù)庫(kù)是否傳輸加密檢查數(shù)據(jù)交換平臺(tái)JDBC連接數(shù)據(jù)庫(kù)是否傳輸加密深度巡檢服務(wù)平臺(tái)資源配置服務(wù)端服務(wù)器巡檢每日安排人員定時(shí)監(jiān)控服務(wù)端主機(jī)服務(wù)器運(yùn)行狀態(tài),監(jiān)控內(nèi)存、cpu、磁盤使用率及讀寫速率情況、網(wǎng)卡收發(fā)速率等相關(guān)重要參數(shù)值;協(xié)調(diào)服務(wù)器資源管理方定期提供管理平臺(tái)服務(wù)器階段時(shí)間內(nèi)運(yùn)行狀態(tài)監(jiān)控報(bào)告,發(fā)現(xiàn)異常時(shí)及時(shí)進(jìn)行排查處理。確保服務(wù)端服務(wù)穩(wěn)定運(yùn)行??蛻舳酥鳈C(jī)服務(wù)器狀態(tài)監(jiān)控每日安排人員通過(guò)管理平臺(tái)進(jìn)行監(jiān)控主機(jī)的運(yùn)行狀態(tài),對(duì)cpu、內(nèi)存、運(yùn)行情況、磁盤空間使用情況何讀寫情況、網(wǎng)卡接收、發(fā)送及磁盤分區(qū)情況進(jìn)行監(jiān)控。同時(shí)需定期檢查客戶端與服務(wù)端的連通性,確保整體服務(wù)的穩(wěn)定性。應(yīng)用監(jiān)控應(yīng)用創(chuàng)建時(shí)會(huì)讓我們自動(dòng)生成監(jiān)控地址,在平臺(tái)監(jiān)控平臺(tái)體系中,平臺(tái)會(huì)根據(jù)監(jiān)控地址,結(jié)合用戶指定的監(jiān)控協(xié)議發(fā)送心跳包,檢測(cè)被監(jiān)控應(yīng)用是否存活,例如如果指定了HTTP,則平臺(tái)會(huì)向指定地址發(fā)送一個(gè)HTTP請(qǐng)求,如果返回200或者302則代表該應(yīng)用是存活的。在應(yīng)用監(jiān)控視圖中可以查看到該應(yīng)用的狀態(tài),此處需要注意的是,如果在此處需要注意如果應(yīng)用監(jiān)控填寫的監(jiān)控地址正確無(wú)誤的話,若發(fā)現(xiàn)應(yīng)用監(jiān)控存在異常,需要立刻檢查是否該應(yīng)用下所屬的容器與虛擬機(jī)應(yīng)用正常運(yùn)轉(zhuǎn),因?yàn)槿绻麍?bào)出異常說(shuō)明你的應(yīng)用已經(jīng)停止了服務(wù)。服務(wù)監(jiān)控對(duì)服務(wù)的監(jiān)控是對(duì)一個(gè)托管于應(yīng)用的性能監(jiān)控最直觀的地方,在服務(wù)監(jiān)控中包含了很多基礎(chǔ)組件的監(jiān)控指標(biāo),對(duì)日常的運(yùn)維與管理提供相關(guān)數(shù)據(jù)依據(jù)。點(diǎn)擊菜單【綜合監(jiān)控】-【服務(wù)監(jiān)控】即可打開服務(wù)監(jiān)控概覽視圖,在該界面中,我們可以根據(jù)系統(tǒng)概覽視圖快速的過(guò)濾出關(guān)心的系統(tǒng),并以此快速的選出我們需要監(jiān)控查看的服務(wù)。在概覽視圖中我們可以快速的查看到平臺(tái)為使用者準(zhǔn)備的幾個(gè)較為重要的值,以最常用的Tomcat為例,使用者可以快速的查看到,當(dāng)前Tomcat容器每秒的請(qǐng)求并發(fā)數(shù),已經(jīng)當(dāng)前工作線程數(shù)量,和JVM內(nèi)存使用。在概覽視圖中這些數(shù)據(jù)默認(rèn)為當(dāng)前最新的值,點(diǎn)擊最右側(cè)的詳情頁(yè)面按鈕即可查看針對(duì)每一個(gè)組件的更多監(jiān)控指標(biāo)。點(diǎn)擊查看詳情按鈕即可打開服務(wù)監(jiān)控詳情查看頁(yè)面,如下圖所示,以Tomcat為例:巡檢人員可以在概覽頁(yè)面中獲取到如下指標(biāo):JVM的使用內(nèi)存信息Tomcat配置的最大線程數(shù)與當(dāng)前工作的線程數(shù)信息Tomcat進(jìn)出流量統(tǒng)計(jì):該值需要與實(shí)際的機(jī)房網(wǎng)卡帶寬作為比較,如果宿主機(jī)的網(wǎng)卡帶寬是屬于百兆的網(wǎng)絡(luò),那么這里的最高值也就只有百兆。請(qǐng)求總數(shù):Tomcat接收到的請(qǐng)求總數(shù),該數(shù)值中包含成功請(qǐng)求(狀態(tài)為200或302)和錯(cuò)誤失敗請(qǐng)求數(shù)量(狀態(tài)為50x)。請(qǐng)求數(shù):Tomcat接受到并正確處理響應(yīng)的請(qǐng)求數(shù)。錯(cuò)誤數(shù):Tomcat接收到請(qǐng)求,但是為正確的處理返回50x的請(qǐng)求數(shù)。請(qǐng)求最大處理時(shí)間:該值統(tǒng)計(jì)了所有的請(qǐng)求中處理時(shí)間最長(zhǎng)的一個(gè)請(qǐng)求耗時(shí)請(qǐng)求平均處理時(shí)間:該值表示Tomcat自啟動(dòng)后處理所有的請(qǐng)求平均耗時(shí)。使用者可以通過(guò)Tab頁(yè)面切換不同的視角對(duì)服務(wù)進(jìn)行監(jiān)控,如下所示,我們可以切換至請(qǐng)求信息頁(yè)面,即可查看到所有的請(qǐng)求數(shù)據(jù),以線狀圖的形式統(tǒng)計(jì)所有的歷史數(shù)據(jù)。介紹平臺(tái)中常用的一些服務(wù)的監(jiān)控指標(biāo)及其意義。Nginx服務(wù)監(jiān)控在服務(wù)監(jiān)控頁(yè)面概覽中,使用者可以獲取如下監(jiān)控指標(biāo):進(jìn)程數(shù):Nginx服務(wù)啟動(dòng)的工作進(jìn)程數(shù),默認(rèn)情況下該值配置為auto,Nginx會(huì)根據(jù)服務(wù)器的CPU自動(dòng)適配響應(yīng)的進(jìn)程數(shù),已獲得較高的性能連接數(shù):該指標(biāo)指明當(dāng)前Nginx與前端包含多少個(gè)KeepAlived連接,該數(shù)值越高越好。請(qǐng)求數(shù):該值表示Nginx每秒鐘接受的請(qǐng)求數(shù)處理數(shù):該值表示當(dāng)前Nginx每秒鐘正在處理的請(qǐng)求數(shù)丟棄數(shù):該值表示當(dāng)前Nginx每秒鐘未處理請(qǐng)求數(shù)訪問(wèn)成功數(shù):該值表示每秒鐘Nginx成功代理的請(qǐng)求數(shù)訪問(wèn)失敗數(shù):該值表示每秒鐘Nginx未成功代理的請(qǐng)求數(shù)點(diǎn)擊詳情頁(yè)面即可查看到更加詳細(xì)的監(jiān)控指標(biāo),以及使用折線圖形式繪制出的歷史值變化曲線。如上圖所示,使用在詳細(xì)監(jiān)控視圖中還可以獲取到Nginx組件網(wǎng)絡(luò)流量收發(fā)情況等信息:運(yùn)行時(shí)間:Nginx組件自啟動(dòng)到查看監(jiān)控時(shí),運(yùn)行時(shí)長(zhǎng),每次重啟Nginx服務(wù)該時(shí)間都會(huì)進(jìn)行一次重置接收速率:Nginx組件每秒鐘接收到的請(qǐng)求流量發(fā)送速率:Nginx組件每秒鐘發(fā)送出去的請(qǐng)求流量切換相應(yīng)的Tab頁(yè)面即可查看相應(yīng)的監(jiān)控指標(biāo),以請(qǐng)求信息為例,使用者的可以查看到小時(shí)、天、周、月等不同監(jiān)控范圍內(nèi)的數(shù)值波動(dòng)Redis服務(wù)監(jiān)控在服務(wù)監(jiān)控頁(yè)面概覽中,使用者可以獲取如下監(jiān)控指標(biāo):訪問(wèn)地址:從此處可以快速獲取到redis的訪問(wèn)地址與端口信息。連接數(shù):從此處獲取到當(dāng)前連接到redis的服務(wù)端的連接數(shù),在默認(rèn)配置中提供的redis鏡像默認(rèn)配置10000個(gè)連接刷新時(shí)間:最近一次獲取redis監(jiān)控指標(biāo)的時(shí)間key總數(shù):表示當(dāng)前redis服務(wù)中包含的key總數(shù)命令數(shù)/s:表示當(dāng)前redis每秒鐘執(zhí)行的命令數(shù)命中率:表示當(dāng)前redis服務(wù)中執(zhí)行g(shù)et/hget等命令操作時(shí)快速命中key的百分比,該數(shù)值越大越好集群:該字段表示當(dāng)前redis服務(wù)的模式,standalone表示當(dāng)前節(jié)點(diǎn)為單實(shí)例模式,cluster表示當(dāng)前服務(wù)模式為集群模式點(diǎn)擊詳情頁(yè)面即可查看到更加詳細(xì)的監(jiān)控指標(biāo),以及使用折線圖形式繪制出的歷史值變化曲線:分配內(nèi)存:該監(jiān)控指標(biāo)表示當(dāng)前操作系統(tǒng)預(yù)分配給redis服務(wù)的內(nèi)存,該值不表示所有redis已使用的內(nèi)存:使用內(nèi)存:該監(jiān)控指標(biāo)表示當(dāng)前redis占用的內(nèi)存值A(chǔ)OF狀態(tài):該值表示是否開啟AOF持久化,標(biāo)記為開啟AOF大小狀態(tài)才有監(jiān)控值存在RDB最近保存時(shí)間:該值表示當(dāng)前最新一次保存內(nèi)存鏡像快照的時(shí)間切換不同的tab頁(yè)即可以查看監(jiān)控指標(biāo)歷史值信息。容器監(jiān)控本節(jié)主要如何在平臺(tái)中監(jiān)控業(yè)務(wù)容器的運(yùn)行狀態(tài),主要包括容器使用的CPU、內(nèi)存、磁盤讀寫與IOPS、容器日志等。在WEB管理面中依次進(jìn)入【綜合監(jiān)控】-【容器監(jiān)控】即可打開主機(jī)狀態(tài)概覽界面,概覽界面包含兩個(gè)組成部分,系統(tǒng)分類樹視圖和容器概覽視圖,點(diǎn)入界面默認(rèn)顯示所有容器狀態(tài),用戶可以選擇左側(cè)的系統(tǒng)目錄樹,則只顯示與所選系統(tǒng)相關(guān)聯(lián)的容器狀態(tài)。如上圖所示。在容器概覽中可以查看到當(dāng)前容器的狀態(tài),以及使用的CPU和內(nèi)存情況,這里需要明確的是,如果沒(méi)有限制CPU和內(nèi)存量,則列表中顯示的使用率都是相對(duì)于主機(jī)的資源,例如,內(nèi)存使用50%,則表示,當(dāng)前容器使用的內(nèi)存占整個(gè)主機(jī)的50%。如上圖所示,通過(guò)容器監(jiān)控詳情頁(yè)面主要提供如下幾個(gè)監(jiān)控指標(biāo)容器網(wǎng)絡(luò)的使用量:提供該容器網(wǎng)卡的接收速率和發(fā)送速率,公司是Mb/s,此處需要明確,無(wú)論是橋接或者HOST模式啟動(dòng)的容器,該值只代表該容器使用的網(wǎng)絡(luò)速率容器磁盤的使用量:提供容器讀取速率與寫入速率,公司是MB/s,IOPS是沒(méi)有公司的,此處需要明確,對(duì)于單獨(dú)掛載數(shù)據(jù)卷進(jìn)入容器,監(jiān)控其讀寫使用需要監(jiān)控?cái)?shù)據(jù)卷所在磁盤的用量,而非此處的值。如上圖所示,點(diǎn)擊【查看監(jiān)控詳情】按鈕即可以曲線圖的形式展示容器監(jiān)控指標(biāo)的歷史值,同主機(jī)監(jiān)控一樣,通常情況下我們建議,評(píng)定某一個(gè)值達(dá)到瓶頸不要單單只是查看一個(gè)監(jiān)控指標(biāo)的瞬時(shí)值,而是應(yīng)該查看該監(jiān)控指標(biāo)在監(jiān)控時(shí)間段內(nèi)的平均值或連續(xù)值。在平臺(tái)中,將容器的日志分為兩種三種類型:容器啟動(dòng)日志-boot.log:該日志記錄了Docker啟動(dòng)一個(gè)容器的日志。容器標(biāo)準(zhǔn)輸出/錯(cuò)誤日志:該日志記錄了容器啟動(dòng)過(guò)程中標(biāo)準(zhǔn)輸出與標(biāo)準(zhǔn)錯(cuò)誤輸出日志,從當(dāng)中可以找到容器啟動(dòng)后立即停止的問(wèn)題(請(qǐng)區(qū)分容器啟動(dòng)不了和容器啟動(dòng)了但是內(nèi)部程序無(wú)法訪問(wèn)的區(qū)別)。容器內(nèi)應(yīng)用程序日志:該日志是容器內(nèi)程序(例如Tomcat產(chǎn)生的wrapper日志)產(chǎn)生的日志,框架業(yè)務(wù)程序的報(bào)錯(cuò)日志都記錄在這里。ECAgent啟動(dòng)日志:該日志記錄了平臺(tái)ECAgent啟動(dòng)容器時(shí)使用的參數(shù)信息。與主機(jī)日志監(jiān)控方式類似,平臺(tái)提供如下即可日志查看操作。如上圖所示,使用者可以在頁(yè)面中選擇需要查看的日志內(nèi)容,在頁(yè)面上方,平臺(tái)提供給大家五種查看日志的操作:下載:點(diǎn)擊此按鈕可以將當(dāng)前查看的日志下載至本地目錄中清空頁(yè)面內(nèi)容:對(duì)于日志輸出較多的程序,使用可以清楚頁(yè)面中的內(nèi)容重新獲取最新的內(nèi)容(此操作不會(huì)清除日志)停止刷新:對(duì)于輸出日志較多的程序,頁(yè)面會(huì)不斷的滾動(dòng)顯示日志,點(diǎn)擊此按鈕即可停止實(shí)時(shí)輸出滾動(dòng)啟用刷新:與停止刷新按鈕操作相反數(shù)據(jù)庫(kù)監(jiān)控在監(jiān)控?cái)?shù)據(jù)庫(kù)的實(shí)質(zhì)就是在數(shù)據(jù)庫(kù)中預(yù)埋入一段存儲(chǔ)過(guò)程,所以在添加的數(shù)據(jù)庫(kù)監(jiān)控時(shí),請(qǐng)確保監(jiān)控的賬戶具有DBA權(quán)限,否則平臺(tái)無(wú)法實(shí)現(xiàn)對(duì)數(shù)據(jù)庫(kù)的監(jiān)控,下面以MySQL為例配置一個(gè)數(shù)據(jù)庫(kù)監(jiān)控,首先點(diǎn)擊【部署編排】-【數(shù)據(jù)庫(kù)管理】按鈕進(jìn)入數(shù)據(jù)庫(kù)監(jiān)控配置頁(yè)面,點(diǎn)擊【新增數(shù)據(jù)庫(kù)】按鈕添加數(shù)據(jù)監(jiān)控,如下圖所示,請(qǐng)確保在數(shù)據(jù)庫(kù)用戶名和密碼處填寫具有DBA權(quán)限的賬戶。配置完成后點(diǎn)擊保存按鈕,等待平臺(tái)采集監(jiān)控指標(biāo)值。配置完數(shù)據(jù)庫(kù)后用戶可以在【綜合監(jiān)控】-【數(shù)據(jù)庫(kù)監(jiān)控】菜單中查看到剛才添加的數(shù)據(jù)庫(kù)監(jiān)控狀態(tài),在概覽頁(yè)面中可以查看到數(shù)據(jù)庫(kù)的概要信息。點(diǎn)擊詳情按鈕即可查看到當(dāng)前數(shù)據(jù)庫(kù)詳細(xì)的監(jiān)控信息。點(diǎn)開詳情頁(yè)面可以看到當(dāng)前MySQL數(shù)據(jù)庫(kù)的監(jiān)控詳情信息,如下圖所示,從監(jiān)控指標(biāo)中我們可以獲取到當(dāng)前數(shù)據(jù)庫(kù)的連接數(shù),數(shù)據(jù)庫(kù)緩存使用量等等監(jiān)控指標(biāo)。自動(dòng)告警平臺(tái)提供系統(tǒng)運(yùn)行健康度指標(biāo)的實(shí)時(shí)監(jiān)控和自動(dòng)告警功能。系統(tǒng)以下健康指標(biāo)到達(dá)告警閾值后,會(huì)立即發(fā)送告警信息到運(yùn)維人員賬號(hào),并記錄告警的詳細(xì)信息,供運(yùn)維人員排查問(wèn)題原因。中文名稱比較符號(hào)比較值類型處理類別處理建議應(yīng)用訪問(wèn)時(shí)間>=3000apprsptime1、通過(guò)查看應(yīng)用日志是否有異常提示,或發(fā)送給開發(fā)進(jìn)行排查
2、通過(guò)查看應(yīng)用容器cpu,內(nèi)存使用率是否過(guò)高
3、通過(guò)查看應(yīng)用相關(guān)中間件及數(shù)據(jù)庫(kù)的資源使用率是否過(guò)高應(yīng)用狀態(tài)!=1appstate1、通過(guò)查看tomcat服務(wù)本身是否正常
2、通過(guò)查看應(yīng)用日志是否有報(bào)錯(cuò)提示容器狀態(tài)!=1dockerstate1、通過(guò)查看容器所在主機(jī)本身是否運(yùn)行
2、通過(guò)查看容器實(shí)時(shí)日志是否正常容器cpu使用率>=90dockercpu1、通過(guò)查看應(yīng)用日志是否有異常提示,或發(fā)送給開發(fā)進(jìn)行排查容器內(nèi)存使用率>=90dockermen1、通過(guò)查看應(yīng)用日志是否有異常提示,或發(fā)送給開發(fā)進(jìn)行排查主機(jī)磁盤空閑<=5hostdisk1、按實(shí)施巡檢規(guī)范處理,清理無(wú)用數(shù)據(jù)或擴(kuò)容磁盤主機(jī)cpu使用率>=90hostcpu1、通過(guò)查看主機(jī)內(nèi)所有容器利用率情況,然后查看利用率高的容器中應(yīng)用日志是否有異常提示,或發(fā)送給開發(fā)進(jìn)行排查主機(jī)內(nèi)存使用率>=90hostmen1、通過(guò)查看主機(jī)內(nèi)所有容器利用率情況,然后查看利用率高的容器中應(yīng)用日志是否有異常提示,或發(fā)送給開發(fā)進(jìn)行排查主機(jī)狀態(tài)!=1hoststate1、檢查主機(jī)網(wǎng)絡(luò)是否聯(lián)通,嘗試ping或遠(yuǎn)程
2、檢查主機(jī)開機(jī)狀態(tài),聯(lián)系機(jī)房管理員云平臺(tái)控制查看或機(jī)房檢查主機(jī)根分區(qū)空閑<=1hostdisk1、按實(shí)施巡檢規(guī)范處理,清理無(wú)用數(shù)據(jù)或擴(kuò)容磁盤mongodb數(shù)據(jù)庫(kù)狀態(tài)!=1mongodbstate1、遠(yuǎn)程所在主機(jī)查看服務(wù)運(yùn)行狀態(tài)
2、使用對(duì)應(yīng)工具檢測(cè)連接是否正常mongodb數(shù)據(jù)庫(kù)當(dāng)前連接數(shù)>=700mongodbconn1、查看是否有連接泄露,具體做法遠(yuǎn)程主機(jī)輸入命令:ss-tunp|grep<port>請(qǐng)將<port>替換為項(xiàng)目現(xiàn)場(chǎng)真實(shí)的端口,默認(rèn)為27017,然后將輸出的列表發(fā)給項(xiàng)目開發(fā)進(jìn)一步排查mongodb數(shù)據(jù)庫(kù)連接使用率>=80mongodbconn1、查看是否有連接泄露,具體做法遠(yuǎn)程主機(jī)輸入命令:ss-tunp|grep<port>請(qǐng)將<port>替換為項(xiàng)目現(xiàn)場(chǎng)真實(shí)的端口,默認(rèn)為27017,然后將輸出的列表發(fā)給項(xiàng)目開發(fā)進(jìn)一步排查mssql數(shù)據(jù)庫(kù)當(dāng)前連接數(shù)>=700mssqlconn1、查看是否有連接泄露,具體做法遠(yuǎn)程主機(jī)CMD中輸入命令:netstat-an|findstr<port>請(qǐng)將<port>替換為項(xiàng)目現(xiàn)場(chǎng)真實(shí)的端口,默認(rèn)為1433,然后將輸出的列表發(fā)給項(xiàng)目開發(fā)進(jìn)一步排查mssql數(shù)據(jù)庫(kù)狀態(tài)!=1mssqlstate1、遠(yuǎn)程所在主機(jī)查看服務(wù)運(yùn)行狀態(tài)
2、使用對(duì)應(yīng)工具檢測(cè)連接是否正常mssql數(shù)據(jù)庫(kù)最大連接數(shù)<=800mssqlconn1、查看是否有連接泄露,具體做法遠(yuǎn)程主機(jī)CMD中輸入命令:netstat-an|findstr<port>請(qǐng)將<port>替換為項(xiàng)目現(xiàn)場(chǎng)真實(shí)的端口,默認(rèn)為1433,然后將輸出的列表發(fā)給項(xiàng)目開發(fā)進(jìn)一步排查mssql數(shù)據(jù)庫(kù)連接占用率>=80mssqlconn1、查看是否有連接泄露,具體做法遠(yuǎn)程主機(jī)CMD中輸入命令:netstat-an|findstr<port>請(qǐng)將<port>替換為項(xiàng)目現(xiàn)場(chǎng)真實(shí)的端口,默認(rèn)為1433,然后將輸出的列表發(fā)給項(xiàng)目開發(fā)進(jìn)一步排查mysql數(shù)據(jù)庫(kù)當(dāng)前連接數(shù)>=700mysqlconn1、查看是否有連接泄露,具體做法遠(yuǎn)程主機(jī)輸入命令:ss-tunp|grep<port>請(qǐng)將<port>替換為項(xiàng)目現(xiàn)場(chǎng)真實(shí)的端口,默認(rèn)為3306,然后將輸出的列表發(fā)給項(xiàng)目開發(fā)進(jìn)一步排查mysql數(shù)據(jù)庫(kù)狀態(tài)!=1mysqlstate1、遠(yuǎn)程所在主機(jī)查看服務(wù)運(yùn)行狀態(tài)
2、使用對(duì)應(yīng)工具檢測(cè)連接是否正常mysql數(shù)據(jù)庫(kù)最大連接數(shù)<=800mysqlconn1、查看是否有連接泄露,具體做法遠(yuǎn)程主機(jī)輸入命令:ss-tunp|grep<port>請(qǐng)將<port>替換為項(xiàng)目現(xiàn)場(chǎng)真實(shí)的端口,默認(rèn)為3306,然后將輸出的列表發(fā)給項(xiàng)目開發(fā)進(jìn)一步排查mysql數(shù)據(jù)庫(kù)連接占用率>=80mysqlconn1、查看是否有連接泄露,具體做法遠(yuǎn)程主機(jī)輸入命令:ss-tunp|grep"3306"查看有哪些ip連接,然后進(jìn)行進(jìn)一步分析nginx服務(wù)狀態(tài)!=1nginxstate1、通過(guò)查看所在容器狀態(tài)是否正常
2、通過(guò)遠(yuǎn)程容器查看nginx進(jìn)程是否正常
3、通過(guò)查看nginx日志是否有異常提示,或發(fā)送給開發(fā)進(jìn)行排查oracle數(shù)據(jù)庫(kù)會(huì)話使用率>=80oracleconn1、查看是否有連接泄露,具體做法遠(yuǎn)程主機(jī)輸入命令:netstat-tunp|grep<port>請(qǐng)將<port>替換為項(xiàng)目現(xiàn)場(chǎng)真實(shí)的端口,默認(rèn)為1521,然后將輸出的列表發(fā)給項(xiàng)目開發(fā)進(jìn)一步排查oracle數(shù)據(jù)庫(kù)表空間使用率>=80oracletablespace1、清理無(wú)用數(shù)據(jù)或進(jìn)行擴(kuò)容oracle數(shù)據(jù)庫(kù)狀態(tài)!=1oraclestate1、遠(yuǎn)程所在主機(jī)查看服務(wù)運(yùn)行狀態(tài)
2、使用對(duì)應(yīng)工具檢測(cè)連接是否正常oracle數(shù)據(jù)庫(kù)當(dāng)前會(huì)話數(shù)>=2000oracleconn1、查看是否有連接泄露,具體做法遠(yuǎn)程主機(jī)輸入命令:netstat-tunp|grep<port>請(qǐng)將<port>替換為項(xiàng)目現(xiàn)場(chǎng)真實(shí)的端口,默認(rèn)為1521,然后將輸出的列表發(fā)給項(xiàng)目開發(fā)進(jìn)一步排查oracle數(shù)據(jù)庫(kù)最大連接數(shù)<=1800oracleconn1、查看是否有連接泄露,具體做法遠(yuǎn)程主機(jī)輸入命令:netstat-tunp|grep<port>請(qǐng)將<port>替換為項(xiàng)目現(xiàn)場(chǎng)真實(shí)的端口,默認(rèn)為1521,然后將輸出的列表發(fā)給項(xiàng)目開發(fā)進(jìn)一步排查rabbitmq服務(wù)狀態(tài)!=1rabbitmqstate1、通過(guò)查看所在容器狀態(tài)是否正常
2、通過(guò)遠(yuǎn)程容器查看rabbitmq進(jìn)程是否正常
3、通過(guò)查看rabbitmq日志是否有異常提示,或發(fā)送給開發(fā)進(jìn)行排查rabbitmq服務(wù)消費(fèi)速率<=80rabbitmqrabbitmq1、查看是否有連接泄露,具體做法遠(yuǎn)程主機(jī)輸入命令:ss-tunp|grep<port>請(qǐng)將<port>替換為項(xiàng)目現(xiàn)場(chǎng)真實(shí)的端口,默認(rèn)為5672,然后將輸出的列表發(fā)給項(xiàng)目開發(fā)進(jìn)一步排查rabbitmq服務(wù)磁盤剩余量<=2rabbitmqrabbitmq1、通過(guò)監(jiān)控頁(yè)面查看消息數(shù)量
2、清理無(wú)用數(shù)據(jù)或進(jìn)行擴(kuò)容rabbitmq服務(wù)內(nèi)存使用率>=80rabbitmqrabbitmq1、查看是否有連接泄露,具體做法遠(yuǎn)程主機(jī)輸入命令:ss-tunp|grep<port>請(qǐng)將<port>替換為項(xiàng)目現(xiàn)場(chǎng)真實(shí)的端口,默認(rèn)為5672,然后將輸出的列表發(fā)給項(xiàng)目開發(fā)進(jìn)一步排查redis服務(wù)已連接>=32768redisconn1、查看是否有連接泄露,具體做法遠(yuǎn)程主機(jī)輸入命令:ss-tunp|grep<port>請(qǐng)將<port>替換為項(xiàng)目現(xiàn)場(chǎng)真實(shí)的端口,默認(rèn)為6379,然后將輸出的列表發(fā)給項(xiàng)目開發(fā)進(jìn)一步排查redis服務(wù)連接使用率>=80redisconn1、查看是否有連接泄露,具體做法遠(yuǎn)程主機(jī)輸入命令:ss-tunp|grep<port>請(qǐng)將<port>替換為項(xiàng)目現(xiàn)場(chǎng)真實(shí)的端口,默認(rèn)為6379,然后將輸出的列表發(fā)給項(xiàng)目開發(fā)進(jìn)一步排查redis服務(wù)狀態(tài)!=1redisstate1、遠(yuǎn)程所在主機(jī)查看服務(wù)運(yùn)行狀態(tài)
2、使用對(duì)應(yīng)工具檢測(cè)連接是否正常tomcat服務(wù)內(nèi)存使用率>=90tomcatmem1、通過(guò)查看tomcat日志是否有異常提示,或發(fā)送給開發(fā)進(jìn)行排查tomcat服務(wù)狀態(tài)!=1tomcatstate1、通過(guò)查看所在容器狀態(tài)是否正常
2、通過(guò)遠(yuǎn)程容器查看tomcat進(jìn)程是否正常
3、通過(guò)查看tomcat日志是否有異常提示,或發(fā)送給開發(fā)進(jìn)行排查redis的AOF文件大小aof1、清理無(wú)用數(shù)據(jù)或進(jìn)行擴(kuò)容平臺(tái)通過(guò)發(fā)送內(nèi)部消息提醒、記錄告警詳細(xì)日志的方式在平臺(tái)內(nèi)部進(jìn)行告警通知。同時(shí),平臺(tái)可以對(duì)接短信平臺(tái)或郵箱,提供發(fā)送短信或郵件告警服務(wù)。告警閾值及告警處理方式,詳見下表。日常問(wèn)題及BUG處理系統(tǒng)出現(xiàn)的問(wèn)題在響應(yīng)后2個(gè)工作日內(nèi)給出問(wèn)題處理時(shí)間不影響系統(tǒng)正常使用的bug問(wèn)題24小時(shí)內(nèi)給出解決方案,3個(gè)工作日內(nèi)解決影響系統(tǒng)正常使用的bug問(wèn)題2小時(shí)內(nèi)恢復(fù),2個(gè)工作日內(nèi)找出問(wèn)題原因并給出問(wèn)題解決時(shí)間嚴(yán)重影響系統(tǒng)正常使用的bug問(wèn)題1小時(shí)內(nèi)恢復(fù),1個(gè)工作日內(nèi)給出問(wèn)題原因并給出問(wèn)題解決時(shí)間對(duì)于7個(gè)工作日內(nèi)無(wú)法解決bug問(wèn)題告知最晚完成時(shí)間并在規(guī)定時(shí)間內(nèi)完成信息資源調(diào)研支持在客戶提出配合全市部門公司政務(wù)信息資源調(diào)研工作時(shí),提供人員、交通、現(xiàn)場(chǎng)等支持。包括數(shù)據(jù)標(biāo)準(zhǔn)、政務(wù)資源目錄、上下游應(yīng)用、以及其他有關(guān)本平臺(tái)的新增業(yè)務(wù)需求等調(diào)研工作。需求變更收集和反饋處理新增或變更需求3個(gè)工作日內(nèi)給出解決方案新增或變更需求給出任務(wù)完成時(shí)間,并在規(guī)定時(shí)間內(nèi)完成任務(wù)平臺(tái)小版本升級(jí)提供信息系統(tǒng)軟件的補(bǔ)丁升級(jí),補(bǔ)丁升級(jí)包括對(duì)甲方已有的軟件功能的提升、缺陷的修正,根據(jù)甲方的需要對(duì)軟件進(jìn)行個(gè)別的、小規(guī)模的修改。共享交換前置區(qū)維護(hù)專人負(fù)責(zé)共享開放平臺(tái)前置區(qū)的數(shù)據(jù)庫(kù)、交換節(jié)點(diǎn)日常巡檢維護(hù),保證前置交換節(jié)點(diǎn)服務(wù)的正常運(yùn)行,確保數(shù)據(jù)交換服務(wù)的正常運(yùn)行。配合客戶方維護(hù)人員處理數(shù)據(jù)交換前置區(qū)的各種故障,包括網(wǎng)絡(luò)故障、系統(tǒng)故障、數(shù)據(jù)庫(kù)故障、安全故障等。在運(yùn)維服務(wù)期間每周至少檢查一次前置區(qū)的服務(wù)器硬件性能及數(shù)據(jù)交換服務(wù)的運(yùn)行情況。資源監(jiān)控與容量評(píng)估實(shí)時(shí)監(jiān)控物理資源監(jiān)控物理資源監(jiān)控實(shí)現(xiàn)對(duì)共享開放平臺(tái)物理資源運(yùn)行狀態(tài)的監(jiān)控。保障共享開放平臺(tái)物理資源的穩(wěn)定運(yùn)行和高效使用。提供基于主機(jī)的硬件和系統(tǒng)的運(yùn)行監(jiān)控,包括主機(jī)的cpu、內(nèi)存、磁盤、網(wǎng)絡(luò)等運(yùn)行狀態(tài)的監(jiān)控。提供基于網(wǎng)絡(luò)的監(jiān)控,包括交換機(jī)、路由器等網(wǎng)絡(luò)設(shè)備運(yùn)行狀態(tài)的監(jiān)控。提供數(shù)據(jù)庫(kù)運(yùn)行狀態(tài)的監(jiān)控,包括數(shù)據(jù)庫(kù)內(nèi)存、數(shù)據(jù)庫(kù)表空間、數(shù)據(jù)文件或數(shù)據(jù)設(shè)備的讀寫次數(shù)、數(shù)據(jù)庫(kù)碎片、數(shù)據(jù)庫(kù)鎖、數(shù)據(jù)庫(kù)用戶占用資源等情況,對(duì)數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行實(shí)時(shí)監(jiān)控,從而確保系統(tǒng)以高性能持續(xù)運(yùn)行具有重要的價(jià)值。提供對(duì)共享開放平臺(tái)分布式計(jì)算集群中間件、消息中間件、應(yīng)用服務(wù)器等運(yùn)行狀態(tài)的監(jiān)控。邏輯資源監(jiān)控邏輯資源監(jiān)控對(duì)整個(gè)共享開放平臺(tái)下運(yùn)行的所有邏輯資源的運(yùn)行狀態(tài)進(jìn)行監(jiān)控,通過(guò)對(duì)邏輯資源的監(jiān)控,可以保障共享開放平臺(tái)邏輯資源的高效率使用和穩(wěn)定運(yùn)行。邏輯資源監(jiān)控包括如下方面:提供系統(tǒng)進(jìn)程和應(yīng)用進(jìn)程運(yùn)行狀態(tài)的監(jiān)控。提供集群整體運(yùn)行狀態(tài)監(jiān)控,包括進(jìn)程狀態(tài)、訪問(wèn)狀態(tài)等;同時(shí)提供對(duì)集群節(jié)點(diǎn)CPU利用率、內(nèi)存利用率、網(wǎng)卡、硬盤存儲(chǔ)狀態(tài)的運(yùn)行監(jiān)控,幫助管理員盡早發(fā)現(xiàn)節(jié)點(diǎn)潛在的故障,對(duì)集群管理起著輔助作用。應(yīng)用資源監(jiān)控應(yīng)用資源監(jiān)控提供共享開放平臺(tái)所有應(yīng)用資源運(yùn)行狀態(tài)的監(jiān)控。通過(guò)對(duì)應(yīng)用資源的監(jiān)控,可以保障共享開放平臺(tái)應(yīng)用資源的穩(wěn)定運(yùn)行和高效使用。應(yīng)用資源監(jiān)控包括如下方面:提供對(duì)共享開放平臺(tái)進(jìn)行各種操作狀態(tài)的監(jiān)控,以獲得更好的負(fù)載平衡,并根據(jù)全局資源狀況進(jìn)行統(tǒng)一調(diào)度。從多租戶角度可以監(jiān)控每個(gè)作業(yè)設(shè)置運(yùn)行時(shí)間點(diǎn)、任務(wù)數(shù)、資源配額使用情況(CPU、內(nèi)存等)、網(wǎng)絡(luò)流量、運(yùn)行周期、運(yùn)行服務(wù)器等調(diào)度狀態(tài)。提供對(duì)多租戶資源池使用狀況的監(jiān)控。提供對(duì)作業(yè)、任務(wù)運(yùn)行所耗費(fèi)的系統(tǒng)資源進(jìn)行監(jiān)控,包括CPU、內(nèi)存、存儲(chǔ)和網(wǎng)絡(luò)等告警提醒通過(guò)告警提醒能夠?qū)崿F(xiàn)對(duì)共享開放平臺(tái)運(yùn)行異常狀況的及時(shí)處理,保障共享開放平臺(tái)運(yùn)行的穩(wěn)定性。告警提醒為共享開放平臺(tái)提供告警生成、告警自動(dòng)處理等靈活的策略配制功能。根據(jù)平臺(tái)的物理資源、邏輯資源、應(yīng)用資源的運(yùn)行狀態(tài)生成告警數(shù)據(jù),并通過(guò)短信或郵件方式通知各相關(guān)干系人進(jìn)行處理。前臺(tái)告警前臺(tái)告警功能對(duì)共享開放平臺(tái)運(yùn)行中發(fā)生的各項(xiàng)告警進(jìn)行統(tǒng)一前臺(tái)視圖管理。通過(guò)告警、提醒等方式,支撐運(yùn)維人員快速獲取告警詳細(xì)信息并開展后續(xù)告警處理工作。前臺(tái)告警對(duì)共享開放平臺(tái)運(yùn)行中所產(chǎn)生的告警進(jìn)行前臺(tái)的告警流程處理,并允許配置告警觸發(fā)項(xiàng)和處理人員(如開發(fā)人員、系統(tǒng)負(fù)責(zé)人員等)。統(tǒng)計(jì)分析統(tǒng)計(jì)分析提供按周期對(duì)共享開放平臺(tái)的物理資源、邏輯資源、應(yīng)用資源的使用情況以及對(duì)作業(yè)運(yùn)行狀態(tài)的綜合分析。統(tǒng)計(jì)分析包含系統(tǒng)性能分析、作業(yè)異常分析和資源計(jì)量分析。依據(jù)分析結(jié)果,形成對(duì)共享開放平臺(tái)資源使用情況的定量、直觀的認(rèn)識(shí),為后續(xù)平臺(tái)資源的合理使用及優(yōu)化提供保障。系統(tǒng)性能分析系統(tǒng)性能分析是對(duì)共享開放平臺(tái)的資源(物理資源、邏輯資源、應(yīng)用資源等)運(yùn)行狀況提供的分析。共享開放平臺(tái)的系統(tǒng)性能分析提供面向作業(yè)、任務(wù)、多租戶的系統(tǒng)監(jiān)控信息的性能分析,并針對(duì)CPU、內(nèi)存、網(wǎng)絡(luò)和磁盤等維度提供相關(guān)性能的分析。系統(tǒng)性能分析為共享開放平臺(tái)系統(tǒng)性能的正常發(fā)揮提供重要的參考。運(yùn)營(yíng)維護(hù)子系統(tǒng)對(duì)共享開放平臺(tái)的系統(tǒng)性能分析提供日?qǐng)?bào)、周報(bào)等統(tǒng)計(jì)分析,為運(yùn)維人員對(duì)共享開放平臺(tái)的維護(hù)提供參考。作業(yè)異常分析作業(yè)異常分析是對(duì)共享開放平臺(tái)上運(yùn)行的作業(yè)狀態(tài)的監(jiān)控信息提供的分析。共享開放平臺(tái)的作業(yè)異常分析提供面向作業(yè)、任務(wù)、多租戶的作業(yè)異常原因定位,需要提供作業(yè)執(zhí)行的詳細(xì)日志,具備完善的日志匯總和采集能力的集成,以便于排查作業(yè)問(wèn)題,并提供日常的解決方案建議,為共享開放平臺(tái)上的作業(yè)正常運(yùn)行提供重要的參考。優(yōu)化分析共享開放平臺(tái)的監(jiān)控優(yōu)化分析是對(duì)其監(jiān)控結(jié)果進(jìn)行的分析總結(jié)。通過(guò)對(duì)共享開放平臺(tái)的物理資源、邏輯資源、應(yīng)用資源和業(yè)務(wù)層面的作業(yè)狀態(tài)的監(jiān)控結(jié)果進(jìn)行的匯總、分析,運(yùn)維管理人員可以優(yōu)化共享開放平臺(tái)中的資源運(yùn)行狀況的閾值或者模型。優(yōu)化分析的輸出結(jié)果為共享開放平臺(tái)的穩(wěn)定運(yùn)行及共享開放平臺(tái)資源的合理利用提供重要參考。共享開放平臺(tái)運(yùn)營(yíng)維護(hù)子系統(tǒng)提供優(yōu)化分析日?qǐng)?bào)、周報(bào)等,為運(yùn)維人員對(duì)共享開放平臺(tái)的維護(hù)提供參考。業(yè)務(wù)上線支持每日安排人員對(duì)各部門業(yè)務(wù)人員進(jìn)行系統(tǒng)使用支撐,對(duì)于部門進(jìn)行目錄編制和數(shù)據(jù)歸集上的問(wèn)題進(jìn)行支撐,保障目錄注冊(cè)、數(shù)據(jù)歸集和數(shù)據(jù)治理。每日安排人員對(duì)各部門的資源共享需求進(jìn)行支撐,包含資源的申請(qǐng)、訂閱,以及前置庫(kù)的管理,保障整個(gè)平臺(tái)的資源共享通暢。對(duì)于各公司咨詢數(shù)據(jù)交換、平臺(tái)使用、方案建議積極給予詳細(xì)解答。資源目錄動(dòng)態(tài)維護(hù)完善政務(wù)資源目錄的線上系統(tǒng),保持實(shí)際入庫(kù)信息情況與在線目錄展示情況同步調(diào)整、部門共享需求的在線申請(qǐng)、受理、審批等功能正常使用。主要工作如下:部門目錄發(fā)布持續(xù)推進(jìn);部門資源掛載持續(xù)推進(jìn);前置庫(kù)到中心庫(kù)數(shù)據(jù)交換配置;國(guó)家、省、市、部門接口二次封裝處理;上級(jí)數(shù)據(jù)歸集追蹤,歸集問(wèn)題協(xié)調(diào)處理;重要目錄數(shù)據(jù)歸集追蹤,必要時(shí)設(shè)置短信預(yù)警;部門數(shù)據(jù)應(yīng)用總結(jié);部門需求協(xié)助、共享協(xié)助;資源共享問(wèn)題排查。數(shù)據(jù)維護(hù)服務(wù)對(duì)委辦局提供到中心的原有、新增數(shù)據(jù)進(jìn)行管理,進(jìn)行數(shù)據(jù)符合性校驗(yàn),并推動(dòng)數(shù)據(jù)質(zhì)量問(wèn)題解決。定期進(jìn)行數(shù)據(jù)備份,并對(duì)備份數(shù)據(jù)定期檢查。防止各種形式的數(shù)據(jù)泄露。采集數(shù)據(jù)建模入庫(kù)服務(wù)公司新增數(shù)據(jù)資源在公司提供數(shù)據(jù)的情況下,7個(gè)工作日內(nèi)完成數(shù)據(jù)資源建模公司新增數(shù)據(jù)資源在數(shù)據(jù)建模完成后,7個(gè)工作日內(nèi)完成數(shù)據(jù)入庫(kù)數(shù)據(jù)處理(清洗、比對(duì)、轉(zhuǎn)換)服務(wù)對(duì)于入庫(kù)數(shù)據(jù)給出合理的數(shù)據(jù)處理方案數(shù)據(jù)處理方案確定后,7個(gè)工作日內(nèi)完成數(shù)據(jù)處理方案的配置數(shù)據(jù)交換運(yùn)維服務(wù)公司數(shù)據(jù)調(diào)研服務(wù)公司新增數(shù)據(jù)資源在7個(gè)工作日內(nèi)安排人員調(diào)研并形成調(diào)研報(bào)告。公司數(shù)據(jù)目錄梳理服務(wù)公司新增數(shù)據(jù)資源在調(diào)研并形成調(diào)研報(bào)告后3個(gè)工作日內(nèi)對(duì)數(shù)據(jù)資源及數(shù)據(jù)資源元數(shù)據(jù)編目入庫(kù)。公司的數(shù)據(jù)采集方案支持服務(wù)公司新增數(shù)據(jù)資源如果需要采集方案支持的在7個(gè)工作日內(nèi)給出合理的數(shù)據(jù)采集方案。公司新增數(shù)據(jù)資源在采集方案確定后,積極催促各公司提供數(shù)據(jù)(一周上門一次,3個(gè)工作內(nèi)打一次電話)并每周向電政辦匯報(bào)各公司數(shù)據(jù)提供情況。公司的數(shù)據(jù)采集服務(wù)公司新增數(shù)據(jù)資源在公司提供數(shù)據(jù)的情況下,7個(gè)工作日內(nèi)完成交換任務(wù)搭建并開始采集數(shù)據(jù)。數(shù)據(jù)共享運(yùn)維服務(wù)數(shù)據(jù)中心數(shù)據(jù)根據(jù)需求提供數(shù)據(jù)接口服務(wù)對(duì)于數(shù)據(jù)中心提出的某一數(shù)據(jù)資源目錄提供接口服務(wù),7個(gè)工作日完成接口配置工作。公司數(shù)據(jù)需求提共享庫(kù)數(shù)據(jù)服務(wù)對(duì)于公司在共享平臺(tái)提出的數(shù)據(jù)申請(qǐng),在7個(gè)工作日內(nèi)完成共享庫(kù)共享工作。技術(shù)交流定期技術(shù)交流為了更好的了解客戶的技術(shù)需求,同時(shí)也是我們與客戶互相學(xué)習(xí)、共同提高的機(jī)會(huì),我們將不定期的進(jìn)行技術(shù)交流。形式可以是座談,也可以是講座和培訓(xùn)。交流內(nèi)容包括但不僅限于以下:數(shù)據(jù)管理方面:數(shù)據(jù)收集、數(shù)據(jù)傳輸、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)查詢、數(shù)據(jù)血緣、數(shù)據(jù)安全、數(shù)據(jù)計(jì)算、實(shí)時(shí)計(jì)算。數(shù)據(jù)應(yīng)用方面:用戶畫像、增長(zhǎng)黑客、圖譜挖掘、機(jī)器學(xué)習(xí)、物聯(lián)網(wǎng)、人工智能。技能傳遞服務(wù)對(duì)于系統(tǒng)使用公司給予細(xì)致的培訓(xùn)。培訓(xùn)會(huì)議積極配合、會(huì)后對(duì)參會(huì)公司進(jìn)行指導(dǎo)并給出用戶操作手冊(cè)。重大活動(dòng)運(yùn)維服務(wù)對(duì)于市召開的各種有關(guān)平臺(tái)的會(huì)議、展示、宣傳和其他活動(dòng)給予積極的配合,在活動(dòng)期間根據(jù)需要提供足夠的人員現(xiàn)場(chǎng)保障。數(shù)據(jù)備份常規(guī)備份備份策略備份內(nèi)容備份內(nèi)容,主要分為以下4類:1.PaaS平臺(tái)、共享開放平臺(tái)數(shù)據(jù)庫(kù);2.共享交換平臺(tái)前置數(shù)據(jù)庫(kù);3.非結(jié)構(gòu)化數(shù)據(jù);4.應(yīng)用系統(tǒng)流水線(即應(yīng)用子系統(tǒng)部署包)。備份工具主要使用到的備份工具如下:1.數(shù)據(jù)庫(kù)備份工具此次項(xiàng)目中,共享交換平臺(tái)和事項(xiàng)管理系統(tǒng)均使用MySQL數(shù)據(jù)。針對(duì)Linux服務(wù)器上的MySQL數(shù)據(jù)庫(kù),我們采用Percona公司出品的Xtrabackup進(jìn)行備份和還原,該工具在大多數(shù)的互聯(lián)網(wǎng)公司均有采用,例如網(wǎng)易、騰訊、阿里等,尤其阿里云的RDS上,采用Xtrabackup進(jìn)行RDS的備份和還原,上百G的數(shù)據(jù)可以在幾分鐘內(nèi)還原完成。2.異機(jī)備份工具針對(duì)Linux服務(wù)器上的異機(jī)備份操作,我們采用開源的rsync進(jìn)行異機(jī)備份。定時(shí)將每天通過(guò)Xtrabackup新增的數(shù)據(jù)庫(kù)備份文件以及通過(guò)NFS傳輸存儲(chǔ)的非結(jié)構(gòu)化數(shù)據(jù),通過(guò)差異備份方式備份到異機(jī)備份服務(wù)器上Linux服務(wù)器上的NFS文件服務(wù)器,我們采用開源的rsync進(jìn)行異機(jī)備份。定時(shí)將每天新增的非結(jié)構(gòu)化數(shù)據(jù),通過(guò)差異備份方式備份到異機(jī)備份服務(wù)器上。備份策略結(jié)構(gòu)化數(shù)據(jù)備份策略圖示1.每周日晚上22點(diǎn),數(shù)據(jù)庫(kù)開始進(jìn)行全量備份;2.每周一到周六的晚上22點(diǎn),數(shù)據(jù)庫(kù)進(jìn)行一次增量備份。腳本安裝后,即使當(dāng)日非周日,腳本在第一次執(zhí)行時(shí)也會(huì)進(jìn)行判斷并進(jìn)行一次全量備份。備份實(shí)施結(jié)構(gòu)化數(shù)據(jù)備份實(shí)施腳本說(shuō)明:1.如果是mysqlmha,則將腳本文件拷貝到主節(jié)點(diǎn)服務(wù)器,通過(guò)crontab運(yùn)行該腳本即可。2.如果是mysql單節(jié)點(diǎn),則將腳本文件拷貝到單節(jié)點(diǎn)服務(wù)器上,通過(guò)crontab運(yùn)行該腳本即可。結(jié)構(gòu)化數(shù)據(jù)備份實(shí)施步驟備份對(duì)象備份位置備份對(duì)象位置備份步驟PaaS平臺(tái)數(shù)據(jù)庫(kù)本地磁盤共享開放平臺(tái)業(yè)務(wù)數(shù)據(jù)庫(kù)MHA本地磁盤交換節(jié)點(diǎn)數(shù)據(jù)庫(kù)MHA本地磁盤部門前置數(shù)據(jù)庫(kù)MHA本地磁盤異機(jī)備份實(shí)施腳本安裝在異機(jī)備份服務(wù)器(rsync服務(wù)端配置)1.安裝rsync包:2.編輯rsyncd.conf配置文件3.參數(shù)解釋:4.創(chuàng)建rsync賬號(hào)及共享目錄:5.創(chuàng)建rsync虛擬賬號(hào)及密碼(可自行修改):6.啟動(dòng)rsync服務(wù):7.寫入到開機(jī)自啟動(dòng)腳本中:結(jié)構(gòu)化數(shù)據(jù)異機(jī)備份實(shí)施步驟備份對(duì)象備份位置備份對(duì)象位置備份方式備份步驟PaaS平臺(tái)數(shù)據(jù)庫(kù)共享磁盤增量共享開放平臺(tái)業(yè)務(wù)數(shù)據(jù)庫(kù)MHA共享磁盤增量交換節(jié)點(diǎn)數(shù)據(jù)庫(kù)MHA共享磁盤增量部門前置數(shù)據(jù)庫(kù)MHA共享磁盤增量非結(jié)構(gòu)化數(shù)據(jù)異機(jī)備份實(shí)施步驟備份對(duì)象備份位置備份對(duì)象位置備份方式備份步驟非結(jié)構(gòu)化數(shù)據(jù)共享磁盤增量應(yīng)用系統(tǒng)部署包異機(jī)備份實(shí)施步驟備份對(duì)象備份位置備份對(duì)象位置備份方式備份步驟應(yīng)用系統(tǒng)部署包共享磁盤增量備份文件驗(yàn)證結(jié)構(gòu)化數(shù)據(jù)備份文件檢查將備份腳本加入到計(jì)劃任務(wù)后,需要定期去檢查備份情況,以免造成數(shù)據(jù)丟失。檢查備份是否正常的方法非常簡(jiǎn)單,首先去對(duì)應(yīng)WEEK_X的目錄下看是否缺失備份目錄,例如上周的備份應(yīng)該會(huì)存在FULL、INCR_1~INCR_6一共7個(gè)目錄,分別對(duì)應(yīng)一天的全量備份和6天的增量備份,然后去查WEEK_X目錄下的backup.log的日志,該日志記錄了備份情況,通過(guò)執(zhí)行tail–fbackup.log命令,查看備份日志的最后幾行,如果顯示completedOK!則代表備份是正常的。結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、應(yīng)用系統(tǒng)部署包異機(jī)備份文件檢查異機(jī)備份主要使用rsync工具。rsync自帶兩種驗(yàn)證方式,當(dāng)進(jìn)行同步數(shù)據(jù)時(shí),數(shù)據(jù)會(huì)分別通過(guò)MD5和HASH去驗(yàn)證,這就能保證數(shù)據(jù)一致??梢杂眠@個(gè)特點(diǎn)保證數(shù)據(jù)一致,也就是完整性。另外可以通過(guò)查看日志中是否有錯(cuò)誤信息來(lái)判斷同步是否出現(xiàn)問(wèn)題,執(zhí)行tail–f/var/log/rsyncd.log,來(lái)查看日志中是否有error信息?;謴?fù)實(shí)施結(jié)構(gòu)化數(shù)據(jù)恢復(fù)實(shí)施腳本說(shuō)明:1.如果是mysqlmha,則將腳本文件拷貝到主節(jié)點(diǎn)服務(wù)器,然后再執(zhí)行該腳本即可。2.如果是mysql單節(jié)點(diǎn),則將腳本文件拷貝到單節(jié)點(diǎn)服務(wù)器上,然后再執(zhí)行該腳本即可。結(jié)構(gòu)化數(shù)據(jù)恢復(fù)實(shí)施步驟關(guān)于數(shù)據(jù)庫(kù)的還原需牢記一個(gè)原則:不能夠在一個(gè)正在運(yùn)行的(線上環(huán)境)MySQL數(shù)據(jù)庫(kù)上進(jìn)行還原,需要先停止MySQL,然后將數(shù)據(jù)根目錄中的內(nèi)容刪除,確保成為一個(gè)空庫(kù),在執(zhí)行恢復(fù)腳本。同時(shí)在腳本執(zhí)行的過(guò)程中也會(huì)檢測(cè)數(shù)據(jù)文件夾是否為空,如果不為空,則會(huì)退出恢復(fù)過(guò)程并給出錯(cuò)誤提示。備份對(duì)象備份位置備份對(duì)象位置恢復(fù)步驟PaaS平臺(tái)數(shù)據(jù)庫(kù)本地磁盤共享開放平臺(tái)業(yè)務(wù)數(shù)據(jù)庫(kù)MHA本地磁盤交換節(jié)點(diǎn)數(shù)據(jù)庫(kù)MHA本地磁盤部門前置數(shù)據(jù)庫(kù)MHA本地磁盤非結(jié)構(gòu)化數(shù)據(jù)、應(yīng)用系統(tǒng)部署包恢復(fù)實(shí)施步驟關(guān)于非結(jié)構(gòu)化數(shù)據(jù)和應(yīng)用系統(tǒng)部署包的恢復(fù)有多種方式,在這里列舉幾種方式:1.可以在異機(jī)備份服務(wù)器上手工拷貝所需文件到目標(biāo)服務(wù)器;2.在異機(jī)備份服務(wù)器上執(zhí)行scp命令進(jìn)行文件傳輸;3.利用rsync工具,將目標(biāo)服務(wù)器作為rsync服務(wù)端,將異機(jī)備份服務(wù)器作為客戶端。存儲(chǔ)空間估算本地備份存儲(chǔ)空間估算說(shuō)明:本次估算以當(dāng)前正式環(huán)境運(yùn)行所產(chǎn)生的數(shù)據(jù)量和增長(zhǎng)量進(jìn)行存儲(chǔ)空間估算。備份對(duì)象備份位置備份方式數(shù)據(jù)量(GB)全備周期(天)差備周期(天)保留時(shí)間(天)單次全備生成數(shù)據(jù)量(GB)單次增備生成數(shù)據(jù)量(GB)數(shù)據(jù)庫(kù)大?。℅B)五年后備份文件大?。℅B)五年后存儲(chǔ)需求(GB)五年期PaaS平臺(tái)數(shù)據(jù)庫(kù)本地磁盤全量32G7308M100G1G110G共享開放平臺(tái)業(yè)務(wù)數(shù)據(jù)庫(kù)MHA本地磁盤增量、全量133GB713520G3G250G800G1.2T交換節(jié)點(diǎn)數(shù)據(jù)庫(kù)MHA本地磁盤增量、全量17GB713544M3M140G420G600G部門前置數(shù)據(jù)庫(kù)MHA本地磁盤增量、全量887GB717102G11G1.5T1T2.5T非結(jié)構(gòu)化數(shù)據(jù)共享磁盤增量93G1永久200G200G應(yīng)用系統(tǒng)部署包共享磁盤增量15G1永久16G20G異機(jī)備份存儲(chǔ)空間估算規(guī)劃1臺(tái)異機(jī)備份服務(wù)器對(duì)共享交換平臺(tái)相關(guān)數(shù)據(jù)進(jìn)行異機(jī)備份。規(guī)劃7T(規(guī)劃5年)存儲(chǔ)空間用于共享交換平臺(tái)異機(jī)備份。容災(zāi)備份相關(guān)概念說(shuō)明災(zāi)難:由于人為或自然的原因,造成信息系統(tǒng)嚴(yán)重故障或癱瘓,使信息系統(tǒng)支持的業(yè)務(wù)功能停頓或服務(wù)水平不可接受、達(dá)到特定的時(shí)間的突發(fā)性事件。災(zāi)難恢復(fù):為了將信息系統(tǒng)從災(zāi)難造成的故障或癱瘓狀態(tài)恢復(fù)到可正常運(yùn)行狀態(tài)、并將其支持的與功能從災(zāi)難造成的不正常狀態(tài)恢復(fù)到可接受狀態(tài),而設(shè)計(jì)的活動(dòng)和流程。災(zāi)難備份中心:用于災(zāi)難發(fā)生后接替主系統(tǒng)進(jìn)行數(shù)據(jù)處理和支持關(guān)鍵業(yè)務(wù)功能運(yùn)作的場(chǎng)所?;謴?fù)時(shí)間目標(biāo)RTO(RecoveryTimeObjective):災(zāi)難發(fā)生后,信息系統(tǒng)或業(yè)務(wù)功能從停頓到必須恢復(fù)的時(shí)間要求?;謴?fù)點(diǎn)目標(biāo)RPO(RecoveryPointObjective):災(zāi)難發(fā)生后,系統(tǒng)和數(shù)據(jù)必須恢復(fù)到的時(shí)間點(diǎn)要求。應(yīng)用系統(tǒng)容災(zāi)目標(biāo)目的就是通過(guò)建設(shè)獨(dú)立的災(zāi)備中心,引入數(shù)據(jù)備份、實(shí)時(shí)同步等技術(shù),盡可能的降低災(zāi)難性故障導(dǎo)致的系統(tǒng)癱瘓時(shí)間和損失。詳細(xì)的目標(biāo)要求:建立完備的備用基礎(chǔ)設(shè)施:有符合介質(zhì)存放的備用場(chǎng)地有符合備用數(shù)據(jù)處理系統(tǒng)和備用網(wǎng)絡(luò)設(shè)備運(yùn)行要求的場(chǎng)地有滿足關(guān)鍵業(yè)務(wù)功能恢復(fù)運(yùn)作要求的場(chǎng)地以上場(chǎng)地保持7*24小時(shí)運(yùn)作數(shù)據(jù)備份要求:完全數(shù)據(jù)每天備份一次備份介質(zhì)場(chǎng)外存放數(shù)據(jù)實(shí)時(shí)復(fù)制備用數(shù)據(jù)處理系統(tǒng):備用與生產(chǎn)的處理能力一致并完全兼容所有備用設(shè)備達(dá)到就緒(待命)狀態(tài),具備快速替代生產(chǎn)環(huán)境的能力備用網(wǎng)絡(luò)系統(tǒng):與生產(chǎn)系統(tǒng)相同等級(jí)備用網(wǎng)絡(luò)處于運(yùn)行狀態(tài)可同時(shí)接入主、備中心災(zāi)備恢復(fù)預(yù)案:經(jīng)過(guò)完整測(cè)試和演練應(yīng)用系統(tǒng)容災(zāi)需求分析災(zāi)難恢復(fù)指標(biāo)要求按照國(guó)家平臺(tái)統(tǒng)一標(biāo)準(zhǔn)指標(biāo)要求,系統(tǒng)恢復(fù)時(shí)間目標(biāo)RTO為30分鐘,恢復(fù)點(diǎn)目標(biāo)RPO約等于零(盡可能無(wú)數(shù)據(jù)損失)。容災(zāi)建設(shè)范圍mysql數(shù)據(jù)庫(kù)(需要)已明確由第三方提供實(shí)時(shí)數(shù)據(jù)同步方案,本建設(shè)方案無(wú)需考慮。reids緩存服務(wù)(暫不需要)redis中雖然存儲(chǔ)了數(shù)據(jù),但是這些都是數(shù)據(jù)庫(kù)數(shù)據(jù)的復(fù)制或者用戶會(huì)話生成的臨時(shí)數(shù)據(jù),無(wú)需持久化,自然也無(wú)需考慮備份。當(dāng)災(zāi)備中心切換后,備用的redis集群會(huì)在應(yīng)用系統(tǒng)啟動(dòng)后重新灌入數(shù)據(jù)。nas存儲(chǔ)(暫不需要)暫時(shí)考慮由平臺(tái)方面提供存儲(chǔ)同步方案,本建設(shè)方案無(wú)需考慮Java程序、nginx等這些程序組件本身不是數(shù)據(jù),但其配置信息、程序文件也需要考慮容災(zāi)備份。雙中心數(shù)據(jù)同步帶寬需求測(cè)算在容災(zāi)需求中,所有主機(jī)房做的數(shù)據(jù)變更操作都要實(shí)時(shí)的同步到災(zāi)備機(jī)房,寫入數(shù)據(jù)的同時(shí)就會(huì)損耗雙中心間的網(wǎng)絡(luò)帶寬,做數(shù)據(jù)傳輸和同步。所以,瞬時(shí)寫入數(shù)據(jù)量的最大值,就是對(duì)雙中心間網(wǎng)絡(luò)帶寬的需求值。在共享開放平臺(tái),數(shù)據(jù)寫入量最大的是數(shù)據(jù)的匯聚過(guò)程,數(shù)據(jù)量測(cè)算:經(jīng)過(guò)統(tǒng)計(jì),每日增量為1199145條,每條按照100KB估算,總大小為117104MB,加上索引數(shù)據(jù),總量為原數(shù)據(jù)的兩倍,即234208MB。根據(jù)總體流程,數(shù)據(jù)需在2個(gè)小時(shí)之內(nèi)完成入庫(kù),故對(duì)存儲(chǔ)I/O速率需求為:234208MB/2/3600=32.5MB/S,考慮10%左右的預(yù)留,最終需求為36MB/S。整個(gè)匯聚過(guò)程中,數(shù)據(jù)會(huì)錄入數(shù)據(jù)庫(kù),2個(gè)數(shù)據(jù)庫(kù)都需要做數(shù)據(jù)同步,數(shù)據(jù)寫入量需要乘以3倍,則為36MB/S*3=108MB/S,按此則同步數(shù)據(jù)量也為108MB/s,換算為帶寬則為108*8=864Mbps。額外考慮在數(shù)據(jù)匯聚時(shí),并發(fā)有少量數(shù)據(jù)寫入操作,推薦的帶寬量為千兆帶寬。技術(shù)風(fēng)險(xiǎn)與挑戰(zhàn)分析應(yīng)用系統(tǒng)使用了多達(dá)上百臺(tái)服務(wù)器、每個(gè)服務(wù)器內(nèi)都有1個(gè)或多個(gè)應(yīng)用程序,每個(gè)應(yīng)用程序下又會(huì)有成百上千的程序文件。應(yīng)用程序的容災(zāi)的傳統(tǒng)做法都可能存在不同程度的缺陷:通過(guò)人工方式,在災(zāi)備中心按同樣的配置架構(gòu),部署與生產(chǎn)環(huán)境相同的系統(tǒng)。存在的問(wèn)題:服務(wù)器、應(yīng)用系統(tǒng)數(shù)量過(guò)多,程序的物理拷貝如有遺漏或一旦出現(xiàn)不同步,就會(huì)造成主備環(huán)境的不一致,可能造成不可知的問(wèn)題即使確保備用環(huán)境先期一致,隨著程序的維護(hù),通過(guò)人工方式的迭代更新,難免出現(xiàn)主備環(huán)境開始不同步的問(wèn)題而一旦出現(xiàn)不同步問(wèn)題,又無(wú)有效手段快速比較出差異。為每個(gè)服務(wù)器各自配置文件系統(tǒng)備份同步,解決主備程序文件不一致,但還是會(huì)存在如下問(wèn)題:服務(wù)器數(shù)量過(guò)多,同步配置本身也可能會(huì)錯(cuò)誤或遺漏。只能單純的同步文件,無(wú)法同步程序的啟停狀態(tài)。例如用戶更新一個(gè)配置后需要生效可能要重啟系統(tǒng),這個(gè)人工操作很難保證每次都在主備系統(tǒng)中同步做了。往往不能確認(rèn),當(dāng)前主、備系統(tǒng)內(nèi)各自運(yùn)行的是否是相同的程序版本?;谏鲜鰡?wèn)題,應(yīng)提供一個(gè)集應(yīng)用程序文件管理、程序版本管理、配置部署、服務(wù)啟停的在線平臺(tái),才能妥善的解決大型復(fù)雜應(yīng)用下應(yīng)用程序的同步問(wèn)題。MySQL數(shù)據(jù)庫(kù)容災(zāi)實(shí)現(xiàn)方案MySQL數(shù)據(jù)實(shí)時(shí)同步技術(shù)原理MySQLReplication是MySQL非常出色的一個(gè)功能,該功能將一個(gè)MySQL實(shí)例中的數(shù)據(jù)復(fù)制到另一個(gè)MySQL實(shí)例中。整個(gè)過(guò)程是異步進(jìn)行的,但由于其高效的性能設(shè)計(jì),復(fù)制的延時(shí)非常小。MySQL復(fù)制功能在實(shí)際的應(yīng)用場(chǎng)景中被廣泛的應(yīng)用于保證數(shù)據(jù)系統(tǒng)數(shù)據(jù)的安全性和可擴(kuò)展設(shè)計(jì)中。MySQLReplication復(fù)制架構(gòu):MySQLReplication復(fù)制過(guò)程:Slave服務(wù)器上執(zhí)行startslave,開啟主從復(fù)制開關(guān)。此時(shí),Slave服務(wù)器上的IO線程會(huì)通過(guò)Master服務(wù)器上授權(quán)的有復(fù)制權(quán)限的用戶請(qǐng)求連接Master服務(wù)器,并請(qǐng)求從指定binlog日志文件的指定位置之后發(fā)送binlog日志內(nèi)容。(日志文件名和位置就是在配置主從復(fù)制任務(wù)時(shí)執(zhí)行changemaster命令時(shí)指定的)Master服務(wù)器接收到來(lái)自Slave服務(wù)器的IO線程的請(qǐng)求后,Master服務(wù)器上的IO線程根據(jù)Slave服務(wù)器的IO線程請(qǐng)求的信息,讀取指定binlog日志文件指定位置之后的binlog日志信息,然后返回給Slave端的IO線程。返回的信息中除了binlog日志內(nèi)容外,還有本次返回日志內(nèi)容后在Master服務(wù)器端的新的binlog文件名以及在binlog中的下一個(gè)指定更新位置。當(dāng)Slave服務(wù)器的IO線程獲取來(lái)自Master服務(wù)器上IO線程發(fā)送的日志內(nèi)容及日志文件和位置點(diǎn)后,將binlog日志內(nèi)容依次寫入到Slave端自身的relaylog(即中繼日志)文件(mysql-relay-bin.xxxxxx)的最末端,并將新的binlog文件名和位置記錄到master-info文件中,以便下一次讀取Master端新binlog日志時(shí),能告訴Master服務(wù)器需要從新binlog日志的哪個(gè)文件哪個(gè)位置開始請(qǐng)求新的binlog日志內(nèi)容。Slave服務(wù)器端的SQL線程會(huì)實(shí)時(shí)檢測(cè)本地relaylog中新增加的日志內(nèi)容,然后及時(shí)的把relaylog文件中的內(nèi)容解析成在Master端曾經(jīng)執(zhí)行的SQL語(yǔ)句的內(nèi)容,并在自身Slave服務(wù)器上按語(yǔ)句的順序執(zhí)行應(yīng)用這些SQL語(yǔ)句,應(yīng)用完畢后清理應(yīng)用過(guò)的日志。經(jīng)過(guò)了上面的過(guò)程,就可以確保在Master端和Slave端執(zhí)行了同樣的SQL語(yǔ)句。當(dāng)復(fù)制狀態(tài)正常的情況下,Master端和Slave端的數(shù)據(jù)是完全一樣的。MySQL容災(zāi)部署架構(gòu)MySQL的部署架構(gòu)如圖:架構(gòu)說(shuō)明:現(xiàn)有單機(jī)房中,為了保證MySQL的高可用,使用了MySQLMHA集群方案,通過(guò)搭建1主(MySQLMaster)1從(MySQLSlave)和一個(gè)管理節(jié)點(diǎn)(MySQLManage)來(lái)實(shí)現(xiàn)。當(dāng)主節(jié)點(diǎn)出現(xiàn)故障時(shí),管理節(jié)點(diǎn)會(huì)檢測(cè)到并把數(shù)據(jù)庫(kù)連接自動(dòng)轉(zhuǎn)移到從節(jié)點(diǎn)之上。在雙中心的架構(gòu)方案下,需要在災(zāi)備機(jī)房中,與主
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024高考化學(xué)一輪復(fù)習(xí)專練14鐵銅及其化合物含解析新人教版
- 2024高考化學(xué)一輪復(fù)習(xí)第一部分考點(diǎn)13化學(xué)與可持續(xù)發(fā)展強(qiáng)化訓(xùn)練含解析
- 2024高考化學(xué)一輪復(fù)習(xí)第四章非金屬及其化合物第二講富集在海水中的元素-氯規(guī)范演練含解析新人教版
- 2024高考?xì)v史一輪復(fù)習(xí)模塊四選修部分第1講歷史上重大改革回眸學(xué)案含解析人民版
- 學(xué)校視頻監(jiān)控配置情況匯報(bào)
- 鋼結(jié)構(gòu)廠房工程施工要點(diǎn)
- 2024年湖北三峽職業(yè)技術(shù)學(xué)院高職單招語(yǔ)文歷年參考題庫(kù)含答案解析
- 平安福產(chǎn)說(shuō)會(huì)修正版
- 八年級(jí)物理下冊(cè)121杠桿課件新版新人教版
- 二零二五年度高校畢業(yè)生就業(yè)見習(xí)實(shí)習(xí)實(shí)訓(xùn)基地安全管理合同3篇
- 降脂藥行業(yè)深度:龐大患者群體前沿靶點(diǎn)迎來(lái)新突破
- 2025年手術(shù)室護(hù)士長(zhǎng)工作計(jì)劃樣本(3篇)
- 2024美團(tuán)商家入駐平臺(tái)合作協(xié)議及商家權(quán)益保障體系3篇
- 淮北市和淮南市2025屆高三第一次質(zhì)量檢測(cè)(一模)地理試卷(含答案)
- 二年級(jí)語(yǔ)文教學(xué)反思
- 安徽省淮北市部分學(xué)校2024-2025學(xué)年七年級(jí)上學(xué)期1月期末歷史試卷
- 化學(xué)-安徽省淮北市和淮南市2025屆高三第一質(zhì)量檢測(cè)(淮北淮南一模)試題和答案
- 2025內(nèi)蒙古電力(集團(tuán))限責(zé)任公司供電單位邊遠(yuǎn)地區(qū)崗位招聘713高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2020-2021學(xué)年【江西省撫州市】八年級(jí)(上)期末生物試卷
- 2025年山西文旅集團(tuán)招聘筆試參考題庫(kù)含答案解析
- 2024-2030年撰寫:中國(guó)隧道式軸流風(fēng)機(jī)行業(yè)發(fā)展趨勢(shì)及競(jìng)爭(zhēng)調(diào)研分析報(bào)告
評(píng)論
0/150
提交評(píng)論