版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
混沌工程實(shí)踐指南(2021年)目 錄一、混沌工程概述 1(一)混沌工程旨在主動(dòng)防范軟件系統(tǒng)的穩(wěn)定性風(fēng)險(xiǎn) 1(二)混沌工程的發(fā)展歷程:國(guó)外先行、國(guó)內(nèi)繁榮 5(三)混沌工程實(shí)踐是系統(tǒng)性工作,亟需建立方法論 7二、一個(gè)核心工作:混沌工程實(shí)驗(yàn) 9(一)混沌工程實(shí)驗(yàn)設(shè)計(jì) 9(二)混沌工程實(shí)驗(yàn)實(shí)施 14(三)混沌工程實(shí)驗(yàn)結(jié)果分析 16三、五個(gè)配套措施:戰(zhàn)略、人員、文化、風(fēng)險(xiǎn)防范、評(píng)估體系 19(一)混沌工程實(shí)踐的戰(zhàn)略規(guī)劃 19(二)混沌工程實(shí)踐的人員培養(yǎng) 21(三)混沌工程文化的形成 22(四)混沌工程實(shí)踐的潛在風(fēng)險(xiǎn)及應(yīng)對(duì)措施 23(五)混沌工程實(shí)踐的評(píng)估體系建立 25四、兩個(gè)延伸保障:加強(qiáng)架構(gòu)和制度保障 28(一)提升系統(tǒng)架構(gòu)的韌性 28(二)加強(qiáng)研發(fā)運(yùn)維過(guò)程中的制度保障 29五、混沌工程發(fā)展趨勢(shì) 30(一)產(chǎn)業(yè)環(huán)境和政策導(dǎo)向加速混沌工程實(shí)踐落地 31(二)智能技術(shù)推動(dòng)混沌工程實(shí)踐更加自動(dòng)化 31(三)數(shù)字技術(shù)的推廣應(yīng)用將帶動(dòng)混沌工程推廣落地 32附錄 35(一)業(yè)內(nèi)混沌工程工具一覽 35(二)混沌工程平臺(tái)簡(jiǎn)要介紹 36(三)混沌工程實(shí)踐案例 37圖目錄圖1系統(tǒng)穩(wěn)定性危機(jī)與對(duì)策發(fā)展時(shí)間線 2圖2企業(yè)服務(wù)中斷每小時(shí)造成的損失統(tǒng)計(jì) 4圖3混沌工程發(fā)展時(shí)間線 6圖4混沌工程實(shí)踐體系以及其和傳統(tǒng)研發(fā)運(yùn)維的聯(lián)系 8圖5參與中國(guó)信通院產(chǎn)品評(píng)測(cè)的分布式數(shù)據(jù)庫(kù)在不同擾動(dòng)下的相對(duì)性能 18圖6混沌工程平臺(tái)架構(gòu) 37圖7騰訊區(qū)塊鏈團(tuán)隊(duì)混沌工程實(shí)施框架 38圖8華為云故障模式庫(kù)內(nèi)容概覽 40表目錄表12020年9月至2021年9月影響嚴(yán)重的系統(tǒng)失效事故匯總 3表2混沌工程和現(xiàn)階段穩(wěn)定性保障措施的對(duì)比 4表3混沌工程對(duì)系統(tǒng)研發(fā)運(yùn)維團(tuán)隊(duì)不同人員的意義 5表4混沌工程實(shí)驗(yàn)系統(tǒng)指標(biāo)類(lèi)別 表5混沌工程實(shí)驗(yàn)擾動(dòng)類(lèi)別 表6混沌工程接納程度評(píng)估參考框架 25表7混沌工程能力評(píng)估參考框架 26表8混沌工程價(jià)值收益評(píng)估參考框架 27表9基于混沌工程實(shí)驗(yàn)的系統(tǒng)架構(gòu)優(yōu)化方向 28表10混沌工程工具總結(jié) 35混沌工程實(shí)踐指南(2021混沌工程實(shí)踐指南(2021年)PAGEPAGE10一、混沌工程概述(ChaosEngineering)擾動(dòng)((一)混沌工程旨在主動(dòng)防范軟件系統(tǒng)的穩(wěn)定性風(fēng)險(xiǎn)DevOps的普來(lái)源:中國(guó)信息通信研究院,2021年圖1系統(tǒng)穩(wěn)定性危機(jī)與對(duì)策發(fā)展時(shí)間線歷次軟件危機(jī)促使系統(tǒng)穩(wěn)定性保障措施不斷完善1960年起,軟件系統(tǒng)逐步從計(jì)算機(jī)系統(tǒng)中分化出來(lái),用于處理70年代80當(dāng)前IT行業(yè)的高速發(fā)展帶來(lái)新的穩(wěn)定性隱患IT212005系統(tǒng)分布式化后更容易受到硬件擾動(dòng)的影響:?jiǎn)吸c(diǎn)性能瓶頸導(dǎo)致StatistaIT202040%的IT10020196%。17%500表12020年9月至2021年9月影響嚴(yán)重的系統(tǒng)失效事故匯總機(jī)構(gòu)名稱(chēng)發(fā)生時(shí)間持續(xù)時(shí)長(zhǎng)影響范圍原因嗶哩嗶哩2021年7月約1小時(shí)直播等多項(xiàng)服務(wù)機(jī)房故障,災(zāi)備系統(tǒng)失效Fastly2021年6月約1小時(shí)包括亞馬遜、紐約時(shí)報(bào)、CNN在內(nèi)的登錄網(wǎng)頁(yè)系統(tǒng)漏洞被配置更改操作觸發(fā)推特2021年3月約2小時(shí)登錄失敗系統(tǒng)內(nèi)部錯(cuò)誤滴滴打車(chē)2021年2月約1小時(shí)滴滴打車(chē)APP系統(tǒng)內(nèi)部錯(cuò)誤美聯(lián)儲(chǔ)2021年2月約4小時(shí)美聯(lián)儲(chǔ)大部分業(yè)務(wù)操作失誤谷歌2020年12月約1小時(shí)谷歌旗下大部分業(yè)務(wù)存儲(chǔ)超出限額亞馬遜2020年11月約5小時(shí)部分服務(wù)無(wú)法訪問(wèn)系統(tǒng)漏洞被不當(dāng)?shù)倪\(yùn)維操作觸發(fā)微軟2020年9月約5小時(shí)MicrosoftOffice365流量激增導(dǎo)致服辦公軟件和Azure云產(chǎn)品務(wù)中斷2021年Statista,2020年圖2企業(yè)服務(wù)中斷每小時(shí)造成的損失統(tǒng)計(jì)混沌工程是系統(tǒng)穩(wěn)定性保障方式的新探索現(xiàn)有的穩(wěn)定性保障措施側(cè)重點(diǎn)在于如何防范已知范圍內(nèi)系統(tǒng)缺(表2混沌工程和現(xiàn)階段穩(wěn)定性保障措施的對(duì)比對(duì)比維度現(xiàn)階段穩(wěn)定性保障措施混沌工程工作內(nèi)容防范缺陷的引入,故障發(fā)生時(shí)對(duì)缺陷進(jìn)行快速的識(shí)別和響應(yīng)通過(guò)實(shí)驗(yàn)主動(dòng)探究系統(tǒng)缺陷排查缺陷的類(lèi)型低層次缺陷,比較明顯的缺陷,或已經(jīng)引發(fā)故障的缺陷未知的、潛在的缺陷,還未造成明顯后果的缺陷應(yīng)對(duì)缺陷的方式被動(dòng)響應(yīng),缺陷應(yīng)對(duì)的開(kāi)始時(shí)間取決于故障何時(shí)發(fā)生,缺陷應(yīng)對(duì)成本不可控始時(shí)間取決于混沌工程可控識(shí)別缺陷的效率效率低,對(duì)于一些觸發(fā)條件苛刻的潛在缺陷可能需要很長(zhǎng)時(shí)間才能被識(shí)別效率高,可以使?jié)撛谌毕荼M快暴露??s短缺陷識(shí)別周期來(lái)源:中國(guó)信息通信研究院,2021年表3混沌工程對(duì)系統(tǒng)研發(fā)運(yùn)維團(tuán)隊(duì)不同人員的意義人員類(lèi)別實(shí)踐混沌工程的意義研發(fā)工程師、架構(gòu)師加深對(duì)系統(tǒng)的理解,驗(yàn)證系統(tǒng)架構(gòu)的容錯(cuò)能力運(yùn)維工程師提高故障的應(yīng)急效率,實(shí)現(xiàn)故障告警、定位、恢復(fù)的有效應(yīng)對(duì)測(cè)試工程師彌補(bǔ)傳統(tǒng)測(cè)試方法留下的空白,更主動(dòng)的方式探究系統(tǒng)問(wèn)題產(chǎn)品設(shè)計(jì)人員了解產(chǎn)品在突發(fā)情況下的表現(xiàn),提升客戶(hù)在突發(fā)情況下的產(chǎn)品使用體驗(yàn)來(lái)源:中國(guó)信息通信研究院,2021年(二)混沌工程的發(fā)展歷程:國(guó)外先行、國(guó)內(nèi)繁榮來(lái)源:中國(guó)信息通信研究院,2021年圖3混沌工程發(fā)展時(shí)間線20088月,2010年開(kāi)發(fā)了ChaosMonkeyChaosMonkey2012年在SimainArmy2015(PrincipalofChaosEngineering),程實(shí)驗(yàn)的目的、意義和方法論。2016年混沌工程商業(yè)公司Gremlin2018內(nèi)廠商主導(dǎo)的混沌工程開(kāi)源項(xiàng)目ChaosBlade和ChaosMesh20192020DVD2型互聯(lián)網(wǎng)公司面對(duì)的是世界上最龐大的互聯(lián)網(wǎng)流量,分布式軟件架構(gòu)、DevOps程項(xiàng)目的開(kāi)源社區(qū)較為活躍;三是我國(guó)正處于數(shù)字化轉(zhuǎn)型的關(guān)鍵時(shí)(三)混沌工程實(shí)踐是系統(tǒng)性工作,亟需建立方法論何選型支撐混沌工程實(shí)踐落地的技術(shù)工具仍缺乏標(biāo)準(zhǔn),亟需理論引導(dǎo)。4來(lái)源:中國(guó)信息通信研究院,2021年圖4混沌工程實(shí)踐體系以及其和傳統(tǒng)研發(fā)運(yùn)維的聯(lián)系混沌工程實(shí)驗(yàn)是實(shí)踐混沌工程的核心工作沌工程實(shí)踐的配套體系險(xiǎn)應(yīng)對(duì)以及評(píng)估體系的建立。對(duì)架構(gòu)和制度的兩類(lèi)改進(jìn)方案是混沌工程實(shí)踐的延伸二、一個(gè)核心工作:混沌工程實(shí)驗(yàn)(一)混沌工程實(shí)驗(yàn)設(shè)計(jì)建立假設(shè)故障。實(shí)驗(yàn)場(chǎng)景設(shè)計(jì)(或采用系統(tǒng)評(píng)估指標(biāo)設(shè)計(jì)典型的系統(tǒng)評(píng)估指標(biāo)可以分為以下類(lèi)別:表4混沌工程實(shí)驗(yàn)系統(tǒng)指標(biāo)類(lèi)別指標(biāo)類(lèi)別指標(biāo)描述案例時(shí)間類(lèi)指標(biāo)系統(tǒng)完成實(shí)驗(yàn)場(chǎng)景單個(gè)或批量任務(wù)所需的時(shí)間服務(wù)器端響應(yīng)時(shí)間、網(wǎng)絡(luò)響應(yīng)時(shí)間、客戶(hù)端響應(yīng)時(shí)間,任務(wù)完成耗時(shí)等效率類(lèi)指標(biāo)系統(tǒng)在實(shí)驗(yàn)場(chǎng)景中的工作效率PerSecond,每秒鐘完成的業(yè)務(wù)數(shù)QPS(QueryPer等失效率類(lèi)指標(biāo)系統(tǒng)執(zhí)行功能失敗的比例接口響應(yīng)失敗率、服務(wù)自動(dòng)隔離或下線時(shí)間占比等資源類(lèi)指標(biāo)系統(tǒng)使用資源的情況CPU使用率、內(nèi)存使用量,磁盤(pán)輸入和輸出量,網(wǎng)絡(luò)輸入和輸出量等綜合業(yè)務(wù)類(lèi)指標(biāo)用戶(hù)對(duì)于業(yè)務(wù)的反饋情況用戶(hù)重試率、用戶(hù)報(bào)錯(cuò)數(shù)量等來(lái)源:中國(guó)信息通信研究院,2021年擾動(dòng)類(lèi)型設(shè)計(jì)表5混沌工程實(shí)驗(yàn)擾動(dòng)類(lèi)別擾動(dòng)類(lèi)別擾動(dòng)描述案例基礎(chǔ)硬件資源擾動(dòng)以各系統(tǒng)運(yùn)行所需的硬件基礎(chǔ)設(shè)備為目標(biāo)的擾動(dòng),模擬硬件設(shè)備因老化、質(zhì)量問(wèn)題和環(huán)境因素而發(fā)生的故障CPU寫(xiě)滿(mǎn)、硬盤(pán)掉盤(pán)等網(wǎng)絡(luò)擾動(dòng)作用于網(wǎng)絡(luò)連接的擾動(dòng),模擬光纖、路由、DNS的異常造成的網(wǎng)網(wǎng)絡(luò)抖動(dòng)、丟包、超時(shí)、網(wǎng)卡滿(mǎn)、DNS故障、斷網(wǎng)等絡(luò)問(wèn)題系統(tǒng)和中間件擾動(dòng)作用于系統(tǒng)和中間件資源的擾或資源限制操作系統(tǒng)或中間件的崩潰、時(shí)鐘錯(cuò)誤、卡頓等,以及CPU、內(nèi)存、磁盤(pán)空間等系統(tǒng)資源的占用應(yīng)用擾動(dòng)作用于實(shí)驗(yàn)對(duì)象系統(tǒng)內(nèi)部的擾動(dòng)連接關(guān)閉、進(jìn)程終止、API訪問(wèn)故障等用戶(hù)操作擾動(dòng)用戶(hù)群體的極端操作行為服務(wù)請(qǐng)求激增、異常操作激增、異地訪問(wèn)量激增等來(lái)源:中國(guó)信息通信研究院,2021年擾動(dòng)注入模式的選擇固定擾動(dòng)或隨機(jī)擾動(dòng):擾動(dòng)注入的隨機(jī)性通常體現(xiàn)在注入時(shí)間:實(shí)驗(yàn)結(jié)果預(yù)期(二)混沌工程實(shí)驗(yàn)實(shí)施前期準(zhǔn)備工作的影響。實(shí)驗(yàn)過(guò)程常。止實(shí)驗(yàn)并采取應(yīng)對(duì)措施。(三)混沌工程實(shí)驗(yàn)結(jié)果分析系統(tǒng)穩(wěn)定性分析PEEEE0(R):REREEER類(lèi)型的擾動(dòng),如CPU、內(nèi)存、網(wǎng)絡(luò)等資源的占用,可以通過(guò)計(jì)算相(C)影響:CPR0R其中R為實(shí)驗(yàn)組的可用系統(tǒng)資源,R012021同數(shù)據(jù)產(chǎn)品進(jìn)行量化的穩(wěn)定性評(píng)估。來(lái)源:中國(guó)信息通信研究院,2021年圖5參與中國(guó)信通院產(chǎn)品評(píng)測(cè)的分布式數(shù)據(jù)庫(kù)在不同擾動(dòng)下的相對(duì)性能系統(tǒng)缺陷原因分析對(duì)于穩(wěn)定性不符合預(yù)期的實(shí)驗(yàn)組需要考慮以下幾個(gè)方面:評(píng)估結(jié)果優(yōu)化無(wú)效告警。對(duì)模塊間的依賴(lài)關(guān)系進(jìn)行分析:通過(guò)評(píng)估注入擾動(dòng)的模塊是否會(huì)對(duì)其他模塊的功能和性能造成影響,可以反映各模塊間的依賴(lài)關(guān)系。根據(jù)評(píng)估結(jié)果對(duì)不符合預(yù)期的依賴(lài)予以改進(jìn)。三、五個(gè)配套措施:戰(zhàn)略、人員、文化、風(fēng)險(xiǎn)防范、評(píng)估體系(一)混沌工程實(shí)踐的戰(zhàn)略規(guī)劃在測(cè)試中使用混沌工程的思想主動(dòng)設(shè)計(jì)擾動(dòng),發(fā)起混沌工程紅藍(lán)對(duì)抗演練建立混沌工程實(shí)驗(yàn)平臺(tái)2混沌工程實(shí)驗(yàn)的爆炸半徑即混沌工程實(shí)驗(yàn)的影響范圍混沌工程實(shí)驗(yàn)的自動(dòng)化實(shí)施(二)混沌工程實(shí)踐的人員培養(yǎng)整體層面普及混沌工程理念和基本知識(shí)在具備一定混沌工程實(shí)踐基礎(chǔ)的機(jī)構(gòu)中,混沌工程實(shí)驗(yàn)通常由專(zhuān)專(zhuān)業(yè)層面注重技術(shù)和經(jīng)驗(yàn)的積累(三)混沌工程文化的形成混沌工程文化是指一個(gè)團(tuán)隊(duì)在進(jìn)行混沌工程相關(guān)工作時(shí)所需的混沌工程文化的形成需要相對(duì)寬松的企業(yè)文化背景面向錯(cuò)誤、擁抱失敗是混沌工程文化的核心內(nèi)容工程文化并不是一蹴而就的,需要經(jīng)過(guò)一段時(shí)間的混沌工程實(shí)踐積(四)混沌工程實(shí)踐的潛在風(fēng)險(xiǎn)及應(yīng)對(duì)措施混沌工程實(shí)踐的落地需對(duì)現(xiàn)有研發(fā)運(yùn)維體系進(jìn)行部分調(diào)整,這一過(guò)程中由于技術(shù)、人員和管理等不確定因素,存在著諸多潛在風(fēng)險(xiǎn)。在混沌工程實(shí)踐過(guò)程中須注重對(duì)這些風(fēng)險(xiǎn)的識(shí)別與應(yīng)對(duì)。在生產(chǎn)環(huán)境進(jìn)行混沌工程實(shí)驗(yàn)可能造成系統(tǒng)失效合規(guī)性要求和混沌工程實(shí)驗(yàn)發(fā)生沖突合規(guī)性要求和混沌工程實(shí)驗(yàn)產(chǎn)生沖突是實(shí)踐混沌工程的另一個(gè)現(xiàn)有系統(tǒng)透明度低或存在無(wú)法克服的不穩(wěn)定性投資回報(bào)率評(píng)估困難混沌工程實(shí)踐價(jià)值宣貫是極其必要的。(五)混沌工程實(shí)踐的評(píng)估體系建立建立混沌工程實(shí)踐評(píng)估體系可以幫助機(jī)構(gòu)很好地了解混沌工程系統(tǒng)運(yùn)營(yíng)者可以根據(jù)評(píng)估結(jié)果有針對(duì)性的補(bǔ)齊混沌工程實(shí)踐過(guò)混沌工程接納程度評(píng)估則說(shuō)明組織機(jī)構(gòu)對(duì)混沌工程的接納程度越高,混沌工程的推進(jìn)越徹底。表6混沌工程接納程度評(píng)估參考框架混沌工程接納程度等級(jí)1級(jí)2級(jí)3級(jí)4級(jí)應(yīng)用平臺(tái)種類(lèi)及個(gè)數(shù)單個(gè)平臺(tái)單一種類(lèi)平臺(tái)少數(shù)種類(lèi)平臺(tái)多種平臺(tái)應(yīng)用項(xiàng)目和產(chǎn)品個(gè)數(shù)單個(gè)項(xiàng)目或產(chǎn)品單一種類(lèi)項(xiàng)目或產(chǎn)品少數(shù)種類(lèi)項(xiàng)目或產(chǎn)品多種項(xiàng)目或產(chǎn)品發(fā)現(xiàn)缺陷的影響范圍有發(fā)現(xiàn)但范圍較小有一定的范圍,但無(wú)法劃分有一定的范圍,且能劃分影響范圍較廣泛發(fā)現(xiàn)缺陷的種類(lèi)單一缺陷單一類(lèi)別缺陷(儲(chǔ)、網(wǎng)絡(luò))多種類(lèi)別缺陷多種缺陷,缺陷類(lèi)型全面混沌工程實(shí)踐人員部門(mén)內(nèi)部,兼職部門(mén)內(nèi)部,專(zhuān)員具有混沌工程團(tuán)隊(duì)具有混沌工程團(tuán)隊(duì),公司其他人員也積極參與混沌工程實(shí)踐頻率偶爾嘗試定期進(jìn)行,周期較長(zhǎng)定期進(jìn)行,周期較短混沌工程實(shí)踐為日常工作混沌工程實(shí)踐場(chǎng)景單一場(chǎng)景單一類(lèi)型場(chǎng)景多種類(lèi)型場(chǎng)景多種類(lèi)型場(chǎng)景,場(chǎng)景類(lèi)型全面來(lái)源:中國(guó)信息通信研究院,2021年混沌工程能力評(píng)估表7混沌工程能力評(píng)估參考框架混沌工程能力等級(jí)1級(jí)2級(jí)3級(jí)4級(jí)5級(jí)架構(gòu)抵御擾動(dòng)的能力無(wú)抵御擾動(dòng)的能力一定的冗余性冗余且可擴(kuò)展已使用可避免級(jí)聯(lián)故障的技術(shù)已實(shí)現(xiàn)韌性架構(gòu)實(shí)驗(yàn)指標(biāo)設(shè)計(jì)無(wú)系統(tǒng)指標(biāo)監(jiān)控實(shí)驗(yàn)結(jié)果只反映系統(tǒng)狀態(tài)指標(biāo)實(shí)驗(yàn)結(jié)果反映應(yīng)用的健康狀況指標(biāo)實(shí)驗(yàn)結(jié)果反映聚合的業(yè)務(wù)指標(biāo)指標(biāo)的差異實(shí)驗(yàn)環(huán)境選擇只敢在開(kāi)發(fā)和測(cè)試環(huán)境中運(yùn)行實(shí)驗(yàn)可在預(yù)生產(chǎn)環(huán)境中運(yùn)行實(shí)驗(yàn)未在生產(chǎn)環(huán)境中,用復(fù)制的生產(chǎn)流量來(lái)運(yùn)行實(shí)驗(yàn)在生產(chǎn)環(huán)境中運(yùn)行實(shí)驗(yàn)包括生產(chǎn)在內(nèi)的任意環(huán)境都可以運(yùn)行實(shí)驗(yàn)實(shí)驗(yàn)自動(dòng)化能力全人工流程利用工具進(jìn)行半自動(dòng)運(yùn)行實(shí)驗(yàn)自助式創(chuàng)建自動(dòng)結(jié)果分析,自動(dòng)終止實(shí)驗(yàn)全自動(dòng)的設(shè)計(jì)、執(zhí)行和終止實(shí)驗(yàn)但需要手動(dòng)監(jiān)控和停止實(shí)驗(yàn)實(shí)驗(yàn)工具使用無(wú)實(shí)驗(yàn)工具采用實(shí)驗(yàn)工具使用實(shí)驗(yàn)框架實(shí)驗(yàn)框架和持續(xù)發(fā)布工具集成和控制組擾動(dòng)注入場(chǎng)景只對(duì)實(shí)驗(yàn)對(duì)象注入一些簡(jiǎn)單事件,如突發(fā)高CPU高內(nèi)存等等EC2故障等等對(duì)實(shí)驗(yàn)對(duì)象注入較高級(jí)的事件,如網(wǎng)絡(luò)延遲對(duì)變量組引入如服務(wù)級(jí)別的影響和組合式的異常事件同使用模的事件終止擾動(dòng)注入能力擾動(dòng)無(wú)法獨(dú)立終止人為干預(yù),長(zhǎng)時(shí)間可終止人為干預(yù)可終止可定時(shí)終止可依據(jù)觸發(fā)條件自動(dòng)終止故障監(jiān)控能力無(wú)法監(jiān)控能獲取到少量數(shù)據(jù)信息可人為搭建監(jiān)控自帶監(jiān)控儀表盤(pán)自帶監(jiān)控儀表盤(pán)和告警能力定位問(wèn)題能力無(wú)法定位可人工定位可自動(dòng)定位可自動(dòng)精準(zhǔn)定位自動(dòng)精準(zhǔn)定位,提供改進(jìn)方式環(huán)境恢復(fù)能力無(wú)法恢復(fù)正常環(huán)境可手動(dòng)恢復(fù)環(huán)境可半自動(dòng)恢復(fù)環(huán)境部分可自動(dòng)恢復(fù)環(huán)境韌性架構(gòu)自動(dòng)恢復(fù)實(shí)驗(yàn)結(jié)果整理沒(méi)有生成的實(shí)驗(yàn)結(jié)果,需要人工整理判斷要人工整解讀集實(shí)驗(yàn)結(jié)解讀可通過(guò)實(shí)驗(yàn)工具持續(xù)收集實(shí)驗(yàn)結(jié)果和報(bào)告,并完成簡(jiǎn)單的故障原因分析實(shí)驗(yàn)結(jié)果可預(yù)測(cè)收入損失、容量規(guī)劃、區(qū)分出不同服務(wù)實(shí)際的關(guān)鍵程度來(lái)源:中國(guó)信息通信研究院,2021年混沌工程價(jià)值收益評(píng)估過(guò)混沌工程實(shí)踐是否能夠發(fā)現(xiàn)并解決系統(tǒng)中的問(wèn)題,是否能夠?qū)ΡO(jiān)表8混沌工程價(jià)值收益評(píng)估參考框架混沌工程價(jià)值收益等級(jí)1級(jí)2級(jí)3級(jí)4級(jí)解決問(wèn)題的應(yīng)急效率(問(wèn)題處理時(shí)間/解決問(wèn)題需要的人員數(shù))低中較高高缺陷復(fù)發(fā)率高較高低趨近于0生產(chǎn)過(guò)程中單位時(shí)間內(nèi)缺陷發(fā)現(xiàn)數(shù)多較多少趨近于0修復(fù)缺陷的嚴(yán)重程度較輕輕中等嚴(yán)重監(jiān)控告警時(shí)間(發(fā)現(xiàn)問(wèn)題所需時(shí)間)長(zhǎng)較長(zhǎng)較短短系統(tǒng)透明度低較低較高高混沌工程實(shí)驗(yàn)效率低較低較高高來(lái)源:中國(guó)信息通信研究院,2021年四、兩個(gè)延伸保障:加強(qiáng)架構(gòu)和制度保障(一)提升系統(tǒng)架構(gòu)的韌性適用。表9基于混沌工程實(shí)驗(yàn)的系統(tǒng)架構(gòu)優(yōu)化方向架構(gòu)優(yōu)化方向描述適用情況架構(gòu)使用案例冗余設(shè)計(jì)對(duì)資源留出安全的余量系統(tǒng)的正常工作極制等擾動(dòng)的影響重要的數(shù)據(jù)庫(kù)項(xiàng)目建設(shè)中可以采用異地多活,確保服務(wù)不會(huì)輕易中斷無(wú)狀態(tài)設(shè)計(jì)服務(wù)單元只涉及邏輯處混沌實(shí)驗(yàn)中故障的原因經(jīng)常被定位在從而使客戶(hù)端的多次請(qǐng)求不必訪理而不存儲(chǔ)某個(gè)模塊由承壓超問(wèn)同一臺(tái)服務(wù)器,確保服務(wù)的穩(wěn)定狀態(tài),方便服過(guò)閾值而崩潰務(wù)崩潰時(shí)業(yè)務(wù)的遷移將故障的影故障隔離響限制在較避免級(jí)聯(lián)故擾動(dòng)注入的影響范圍大于預(yù)期消息中間件在推送消息時(shí),會(huì)啟動(dòng)調(diào)節(jié)策略,將沒(méi)有響應(yīng)的消費(fèi)節(jié)點(diǎn)剔除,避免損失更多的系統(tǒng)資源障的發(fā)生過(guò)載保護(hù)在服務(wù)請(qǐng)求超過(guò)服務(wù)能少服務(wù)接收的比率用戶(hù)請(qǐng)求激增、容量超額等實(shí)驗(yàn)場(chǎng)景易引發(fā)全面的服務(wù)受損在系統(tǒng)資源不足時(shí)采取限制流量(限流)或終止服務(wù)(熔斷)等措施有損服務(wù)在服務(wù)能力不夠的異常以有所取舍用戶(hù)請(qǐng)求激增、容量超額等實(shí)驗(yàn)場(chǎng)景易引發(fā)較嚴(yán)重的服務(wù)受損直播業(yè)務(wù)在帶寬有限的情況下,會(huì)降低碼率減少清晰度,而不應(yīng)該拒絕服務(wù)去關(guān)鍵路徑、關(guān)鍵節(jié)點(diǎn)關(guān)鍵路徑或節(jié)點(diǎn)是系統(tǒng)應(yīng)盡量避免在某個(gè)鏈路或節(jié)點(diǎn)進(jìn)行擾動(dòng)注入對(duì)系統(tǒng)整體造成了較為嚴(yán)重的影響軍用系統(tǒng)中常常采用去中心化的統(tǒng)造成重大影響盡量平均地在混沌工程實(shí)驗(yàn)中負(fù)載均衡分配系統(tǒng)所分散壓力對(duì)限制單一服務(wù)實(shí)例的服務(wù)能力,其工作并未被其他服務(wù)Kubernetes提供多種負(fù)載均衡方充分的利用系統(tǒng)的影響實(shí)例分擔(dān)來(lái)源:中國(guó)信息通信研究院,2021年(二)加強(qiáng)研發(fā)運(yùn)維過(guò)程中的制度保障研發(fā)過(guò)程管控產(chǎn)生。析等。測(cè)試過(guò)程管控發(fā)布過(guò)程管控盡量采用灰度發(fā)布的方式,確保有完善的回滾機(jī)制和應(yīng)急預(yù)案。如發(fā)生故障,需對(duì)故障進(jìn)行復(fù)盤(pán)分析。五、混沌工程發(fā)展趨勢(shì)(一)產(chǎn)業(yè)環(huán)境和政策導(dǎo)向加速混沌工程實(shí)踐落地1ITGartner202340%20%。(二)智能技術(shù)推動(dòng)混沌工程實(shí)踐更加自動(dòng)化智能化弱點(diǎn)識(shí)別可視化交互式演練平臺(tái)自動(dòng)化依賴(lài)強(qiáng)度分析步完善。用于故障模擬的自動(dòng)化硬件設(shè)施(三)數(shù)字技術(shù)的推廣應(yīng)用將帶動(dòng)混沌工程推廣落地化。而數(shù)字技術(shù)的應(yīng)用,也迫使各行業(yè)IT系統(tǒng)直接面臨系統(tǒng)穩(wěn)定性風(fēng)險(xiǎn)的躍遷。所以混沌工程將伴隨著這類(lèi)數(shù)字技術(shù),逐漸推廣落地。物聯(lián)網(wǎng)物聯(lián)網(wǎng)是將各種信息傳感設(shè)備通過(guò)互聯(lián)網(wǎng)連接形成的分布式網(wǎng)區(qū)塊鏈區(qū)塊鏈?zhǔn)怯蓞⑴c者通過(guò)網(wǎng)絡(luò)連接和內(nèi)部算法來(lái)創(chuàng)建并維護(hù)的分(Ethereum)DAO分布式數(shù)據(jù)庫(kù)ITMongoDBEvergreen,混沌工程實(shí)踐指南(2021混沌工程實(shí)踐指南(2021年)PAGEPAGE35附錄(一)業(yè)內(nèi)混沌工程工具一覽86%表10混沌工程工具總結(jié)工具名稱(chēng)最新版本項(xiàng)目維護(hù)狀態(tài)語(yǔ)言涉及場(chǎng)景特定依賴(lài)ChaosMonkey2.0.2停滯Go終止EC2實(shí)例SpinnakerSimianArmy2.5.3廢棄JavaEC2實(shí)例,阻盤(pán)卷,CPU/IO/故障無(wú)orchestrator3.1.1活躍Go純MySQL集群故障場(chǎng)景無(wú)kube-monkey0.3.0停滯Go終止K8sPods依賴(lài)于K8s集群chaostoolkit1.2.0活躍PythonIaaSPaaS平可與多個(gè)監(jiān)控平臺(tái)合作觀測(cè)和記錄指標(biāo)信息通過(guò)插件形
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 總經(jīng)理年會(huì)致辭15篇
- 學(xué)校社團(tuán)活動(dòng)總結(jié)(合集15篇)
- 湖南省永州市高三上學(xué)期第一次模擬考試語(yǔ)文試題(含答案)
- 水下自激吸氣式射流裝置沖刷特性研究
- 二零二五年度社會(huì)保險(xiǎn)停繳合同范本(國(guó)有企業(yè))3篇
- 基于FPGA的聲紋識(shí)別系統(tǒng)研究與實(shí)現(xiàn)
- 二零二五版外專(zhuān)局外籍教師教學(xué)成果推廣與應(yīng)用合同規(guī)范3篇
- 融資租賃合同出租人取回權(quán)制度的法律問(wèn)題研究
- 建筑與市政工程巡查結(jié)果的評(píng)估與總結(jié)
- 二零二五年度個(gè)人旅游分期付款合同范本4篇
- 【企業(yè)作業(yè)成本在上海汽車(chē)集團(tuán)中的應(yīng)用研究案例7300字(論文)】
- 高中物理答題卡模板
- 《民航服務(wù)溝通技巧》教案第6課巧妙化解沖突
- 化學(xué)用語(yǔ)專(zhuān)項(xiàng)訓(xùn)練
- 芳香植物與芳香療法講解課件
- 不孕癥診斷、治療新進(jìn)展課件
- 學(xué)校食堂食品質(zhì)量控制方案
- 天津2021公需課量子信息技術(shù)答案
- 切實(shí)加強(qiáng)領(lǐng)導(dǎo)干部的作風(fēng)建設(shè)課件
- (完整word版)奧賽起跑線(上)六年級(jí)
- 變頻電機(jī)使用說(shuō)明書(shū)(完整版)
評(píng)論
0/150
提交評(píng)論