網(wǎng)易云音樂(lè)穩(wěn)定性保障體系_第1頁(yè)
網(wǎng)易云音樂(lè)穩(wěn)定性保障體系_第2頁(yè)
網(wǎng)易云音樂(lè)穩(wěn)定性保障體系_第3頁(yè)
網(wǎng)易云音樂(lè)穩(wěn)定性保障體系_第4頁(yè)
網(wǎng)易云音樂(lè)穩(wěn)定性保障體系_第5頁(yè)
已閱讀5頁(yè),還剩26頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、網(wǎng)易云音樂(lè)穩(wěn)定性保障體系穩(wěn)定性保障體系依賴治理實(shí)踐故障演練實(shí)踐后續(xù)規(guī)劃網(wǎng)易云音樂(lè)產(chǎn)品介紹2013.04網(wǎng)易云音樂(lè)正式上線定位音樂(lè)社交和移動(dòng)社區(qū)2015.07用戶數(shù)突破2億2017.04用戶數(shù)突破3億2017.03網(wǎng)易云音樂(lè)4.0版上線在音樂(lè)APP中首個(gè)上線短視頻功能網(wǎng)易云音樂(lè)2.0版上線 增加私人FM2014.022016.07用戶數(shù)突破1億3.0版上線全面推進(jìn)個(gè)性化2015.10用戶數(shù)突破4億2017.112017.09上線自制精品付費(fèi)電臺(tái)進(jìn)軍知識(shí)付費(fèi)領(lǐng)域2018.012018.032019.08用戶數(shù)突破8億2019.08主辦國(guó)內(nèi)首個(gè)獨(dú)立音樂(lè)人盛典硬地圍爐夜2017網(wǎng)易云音樂(lè)原創(chuàng)盛典5.0

2、版本上線,全新升級(jí)視頻頁(yè)面全新社區(qū)版塊“云村”穩(wěn)定性治理挑戰(zhàn)日常流量保持高位運(yùn)行,對(duì)系統(tǒng)可用性要求高,稍有不慎,引發(fā)輿論危機(jī)云音樂(lè)的社交屬性,有傳播發(fā)酵的天然優(yōu)勢(shì),小活動(dòng)也能帶來(lái)流量裂變隨著云音樂(lè)業(yè)務(wù)高速發(fā)展,系統(tǒng)穩(wěn)定性要求越來(lái)越高,相應(yīng)地,對(duì)穩(wěn)定性測(cè)試工作提出了挑戰(zhàn)流量沖擊系統(tǒng)復(fù)雜穩(wěn)定性意識(shí)線上系統(tǒng)復(fù)雜度,指數(shù)級(jí)增長(zhǎng)穩(wěn)定性保障工作覆蓋面廣且雜,任意環(huán)節(jié)沒(méi)有做到位,都能引起大事故線上故障是低頻偶發(fā)事件,ROI不明確,在迭代過(guò)程中以業(yè)務(wù)產(chǎn)出為導(dǎo)向,穩(wěn)定性工作容易被忽視穩(wěn)定性意識(shí)周期性波動(dòng),由低頻事故強(qiáng)化意識(shí)+隨著時(shí)間淡薄,穩(wěn)定性專項(xiàng)推進(jìn)困難穩(wěn)定性治理思路實(shí)戰(zhàn)演練為抓手方法論、工具鏈為基礎(chǔ)演練發(fā)現(xiàn)

3、 恢復(fù)預(yù)防高效、可持續(xù)管控穩(wěn)定性風(fēng)險(xiǎn)高可用組件標(biāo)準(zhǔn)化部署 資源使用優(yōu)化充分暴露不穩(wěn)定因素 訓(xùn)練強(qiáng)化人員穩(wěn)定性意識(shí)撬動(dòng)開(kāi)發(fā)、測(cè)試、運(yùn)維協(xié)作閉環(huán)穩(wěn)定性意識(shí)發(fā)現(xiàn)預(yù)防恢復(fù)復(fù)盤(pán)穩(wěn)定性保障體系故障演練流量演練依賴演練準(zhǔn)入條件準(zhǔn)入條件完善依賴關(guān)系拓?fù)潋?yàn)證強(qiáng)弱依賴合理性評(píng)估容量,驗(yàn)證過(guò)載保護(hù)措施建立性能基線,把控迭代過(guò)程質(zhì)量驗(yàn)證系統(tǒng)故障恢復(fù)能力、預(yù)案完備性和有效性真實(shí)操練,訓(xùn)練人員應(yīng)急處置能力穩(wěn)定性保障體系依賴治理實(shí)踐故障演練實(shí)踐后續(xù)規(guī)劃依賴治理思路定義當(dāng)依賴節(jié)點(diǎn)出現(xiàn)問(wèn)題時(shí),對(duì)系統(tǒng)核心業(yè)務(wù)數(shù)據(jù)、可用性產(chǎn)生影響,該依賴即為強(qiáng)依賴,反 之為弱依賴用途整改不合理強(qiáng)依賴關(guān)系,提升系統(tǒng)健壯性;驗(yàn)證弱依賴降級(jí)策略,提升系

4、統(tǒng)自愈能力 完善依賴關(guān)系拓?fù)洌瑤椭\斷故障根因、容量變化趨勢(shì)依賴治理思路指標(biāo)項(xiàng)驗(yàn)收標(biāo)準(zhǔn)服務(wù)強(qiáng)依賴高級(jí)別應(yīng)用不允許強(qiáng)依賴低級(jí)別應(yīng)用P0資源層(業(yè)務(wù)方定義)允許被強(qiáng)依賴,非P0資源層不允許被強(qiáng)依賴服務(wù)弱依賴弱依賴斷言返回碼200(磐石平臺(tái)默認(rèn)值),可根據(jù)業(yè)務(wù)實(shí)際情況調(diào)整斷言弱依賴降級(jí)預(yù)案不允許影響用戶體驗(yàn),且自動(dòng)觸發(fā)場(chǎng)景強(qiáng)依賴場(chǎng)景不允許強(qiáng)依賴非P0接口場(chǎng)景弱依賴弱依賴降級(jí)預(yù)案不允許影響用戶體驗(yàn),且自動(dòng)觸發(fā)場(chǎng)景強(qiáng)弱依賴場(chǎng)景維度梳理場(chǎng)景與服務(wù)間的強(qiáng)弱依賴關(guān)系明確業(yè)務(wù)影響范圍,推動(dòng)客戶端穩(wěn)定性保障服務(wù)強(qiáng)弱依賴接口/應(yīng)用維度梳理服務(wù)上下游之間的強(qiáng)弱依賴關(guān)系推動(dòng)依賴關(guān)系治理,提高服務(wù)穩(wěn)定性流量錄制回放流量檢

5、索故障注入規(guī)則匹配依賴分析大盤(pán)審計(jì)依賴治理實(shí)踐依賴治理實(shí)踐應(yīng)用維度的依賴關(guān)系判斷應(yīng)用間的耦合關(guān)系、提供依賴容量評(píng)估依據(jù)依賴治理實(shí)踐api/rpc維度的依賴關(guān)系應(yīng)用于故障分析診斷、降級(jí)方案設(shè)計(jì)依賴治理實(shí)踐引入工作流,管控治理進(jìn)展大盤(pán)展示依賴風(fēng)險(xiǎn)每日自動(dòng)檢測(cè)不合理依賴,提供定位信息依賴治理實(shí)踐依賴治理成果用例數(shù)16w+鏈路覆蓋率80%+發(fā)現(xiàn)問(wèn)題數(shù)300+質(zhì)量每天全量自動(dòng)化執(zhí)行全量執(zhí)行耗時(shí)4h節(jié)省人力1h/功能點(diǎn)效率穩(wěn)定性保障體系依賴治理實(shí)踐故障演練實(shí)踐后續(xù)規(guī)劃故障演練思路定義為提高系統(tǒng)高可用性和訓(xùn)練人員應(yīng)急處置能力,根據(jù)故障用例和故障恢復(fù)預(yù)案,進(jìn)行演習(xí) 的過(guò)程背景壓力施加在系統(tǒng)或模塊的 性能測(cè)試流

6、量,模擬 系統(tǒng)真實(shí)運(yùn)行狀態(tài)故障注入代碼級(jí)別系統(tǒng)級(jí)別機(jī)房級(jí)別故障演練思路指標(biāo)項(xiàng)驗(yàn)收標(biāo)準(zhǔn)SLO故障演練實(shí)施后,達(dá)到99.99%發(fā)現(xiàn)時(shí)間故障發(fā)現(xiàn)到人員響應(yīng)在15min內(nèi)止血時(shí)間自愈時(shí)間15s 人工止血5min故障影響范圍應(yīng)用層:調(diào)用鏈路雙向不影響無(wú)狀態(tài)中間件:不允許出現(xiàn)全局性影響有狀態(tài)中間件:要求自愈業(yè)務(wù)影響范圍模塊不可用用戶比例 資損影響用戶比例 資損金額故障恢復(fù)恢復(fù)效果:業(yè)務(wù)恢復(fù)、容量恢復(fù)、數(shù)據(jù)恢復(fù)如初 恢復(fù)時(shí)間:30min故障演練思路故障演練實(shí)踐環(huán)境標(biāo)準(zhǔn)化:用完即拋,機(jī)器共享演練環(huán)境隔離:支持多套測(cè)試環(huán)境、線上環(huán)境,不影響正常測(cè)試工作故障演練實(shí)踐代碼級(jí)故障注入系統(tǒng)級(jí)故障注入故障演練實(shí)踐參數(shù)配置

7、:故障注入對(duì)象、故障類型下發(fā)通道:故障命令執(zhí)行器目標(biāo)策略:注入對(duì)象的集群故障比例預(yù)期指標(biāo):故障時(shí)及故障恢復(fù)后的預(yù)期表現(xiàn)故障演練實(shí)踐記錄演練過(guò)程的關(guān)鍵事件監(jiān)控系統(tǒng)表現(xiàn)、流量表現(xiàn),后續(xù)打通業(yè)務(wù)指標(biāo)故障演練實(shí)踐基于用戶場(chǎng)景,設(shè)計(jì)演練任務(wù)場(chǎng)景管理梳理數(shù)專評(píng)論頁(yè)的所有接口,對(duì)接口定級(jí)故障演練實(shí)踐演練環(huán)境根據(jù)接口鏈路信息,自動(dòng)創(chuàng)建測(cè)試環(huán)境演練任務(wù)選擇故障注入點(diǎn)和故障類型,批量創(chuàng)建演練任務(wù)故障演練實(shí)踐驗(yàn)證評(píng)論服務(wù)在數(shù)專服務(wù) 故障時(shí)的應(yīng)急預(yù)案數(shù)專服務(wù)rpc異常評(píng)論服務(wù)client注入數(shù)專rpc錯(cuò)誤,遠(yuǎn)程調(diào)用失敗故障下發(fā)后核心功能正常評(píng)論用戶不顯示頭像掛件會(huì)員不能對(duì)付費(fèi)資源評(píng)論故障恢復(fù)后業(yè)務(wù)恢復(fù)正常系統(tǒng)容量恢復(fù)正常故障演練實(shí)踐故障演練成果用例數(shù)500+預(yù)案數(shù)200+故障類型50+發(fā)現(xiàn)問(wèn)題數(shù)150+質(zhì)量一鍵執(zhí)行,產(chǎn)出報(bào)告服務(wù)端演練自動(dòng)化節(jié)省人力5h/場(chǎng)景效率中間件高可用標(biāo)準(zhǔn)雙機(jī)房部署標(biāo)準(zhǔn)資源隔離標(biāo)準(zhǔn)標(biāo)準(zhǔn)化穩(wěn)定性保障體系依賴治理實(shí)踐故障演練實(shí)踐后續(xù)規(guī)劃后續(xù)規(guī)劃穩(wěn)定性基線:依托

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論