「可靠性」是「可用性」_第1頁
「可靠性」是「可用性」_第2頁
「可靠性」是「可用性」_第3頁
「可靠性」是「可用性」_第4頁
「可靠性」是「可用性」_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

11/11「可靠性」是「可用性」?相信點開這篇文章的讀者,一定或多或少接觸過“高可靠”“高可用”這些字眼,但是往往或語焉不詳,或羅列術(shù)語(MTBF、MTTR...),那么我們到底應(yīng)該如何定量描述系統(tǒng)的可靠性和可用性指標呢,這些看著很上流的術(shù)語到底意味著什么呢?

首先了解一下故障的定義:

故障定義

硬件故障(Hardwarefailure)

工業(yè)界通常使用“浴盆曲線”來描述硬件故障,具體如下圖所示。具體來說,硬件的生命周期一般被劃分為三個時期:

1)

Thefirstpartisadecreasingfailurerate,knownasearlyfailures2)

Thesecondpartisaconstantfailurerate,knownasrandomfailures3)

Thethirdpartisanincreasingfailurerate,knownaswear-outfailures

圖1.浴盆曲線(Bathtubcurve)

軟件故障(Softwarefailure)

軟件故障可以通過每千行代碼的缺陷數(shù)(Defects/KLOC)進行測量,稱為缺陷密度(DefectDensity):DefectDensity=NumberofDefects/KLOC

影響缺陷密度的因素主要有如下幾點:1)軟件過程(代碼評審、單元測試等)2)軟件復(fù)雜度3)軟件規(guī)模4)開發(fā)團隊經(jīng)驗5)可復(fù)用代碼比例(久經(jīng)考驗的代碼)6)產(chǎn)品交付前的測試

衡量指標

平均故障間隔時間(MTBF)

英文全稱:MeanTimeBetweenFailure,顧名思義,是指相鄰兩次故障之間的平均工作時間,是衡量一個產(chǎn)品的可靠性指標。

故障率(FailureRate)

以下文字摘自wiki,避免翻譯失真:Failurerateisthefrequencywithwhichanengineeredsystemorcomponentfails,expressed,forexample,infailuresperhour.ItisoftendenotedbytheGreekletterλ(lambda)andisimportantinreliabilityengineering.

Thefailurerateofasystemusuallydependsontime,withtheratevaryingoverthelifecycleofthesystem.Forexample,anautomobile'sfailurerateinitsfifthyearofservicemaybemanytimesgreaterthanitsfailurerateduringitsfirstyearofservice.Onedoesnotexpecttoreplaceanexhaustpipe,overhaulthebrakes,orhavemajortransmissionproblemsinanewvehicle.

Inpractice,themeantimebetweenfailures(MTBF,1/λ)isoftenreportedinsteadofthefailurerate.Thisisvalidandusefulifthefailureratemaybeassumedconstant–oftenusedforcomplexunits/systems,electronics–andisageneralagreementinsomereliabilitystandards(MilitaryandAerospace).Itdoesinthiscaseonlyrelatetotheflatregionofthebathtubcurve,alsocalledthe"usefullifeperiod".Becauseofthis,itisincorrecttoextrapolateMTBFtogiveanestimateoftheservicelifetimeofacomponent,whichwilltypicallybemuchlessthansuggestedbytheMTBFduetothemuchhigherfailureratesinthe"end-of-lifewearout"partofthe"bathtubcurve".

為便于理解,舉個例子:比如正在運行中的100只硬盤,1年之內(nèi)出了2次故障,則故障率為0.02次/年。

上文提到的關(guān)于MTBF和FailureRate關(guān)系值得細細體會,在現(xiàn)實生活中,硬件廠商也的確更熱衷于在產(chǎn)品上標注MTBF(個人猜測是因為MTBF往往高達十萬小時甚至百萬小時,容易吸引眼球)。FailureRate伴隨著產(chǎn)品生命周期會產(chǎn)生變化,因此,只有在前述“浴盆曲線”的平坦底部(通俗點說就是產(chǎn)品的“青壯年時期”)才存在如下關(guān)系:

MTBF=1/λ

平均修復(fù)時間(MTTR)

英文全稱:MeanTimeToRepair,顧名思義,是描述產(chǎn)品由故障狀態(tài)轉(zhuǎn)為工作狀態(tài)時修理時間的平均值。在工程學,MTTR是衡量產(chǎn)品維修性的值,在維護合約里很常見,并以之作為服務(wù)收費的準則。

圖2.硬件MTTR估算圖3.軟件MTTR估算

可用性(Availability)

GB/T3187-97對可用性的定義:在要求的外部資源得到保證的前提下,產(chǎn)品在規(guī)定的條件下和規(guī)定的時刻或時間區(qū)間內(nèi)處于可執(zhí)行規(guī)定功能狀態(tài)的能力。它是產(chǎn)品可靠性、維修性和維修保障性的綜合反映。

關(guān)于Availability這個計算公式,很容易理解,這里不多做解釋。通常大家習慣用N個9來表征系統(tǒng)可用性,比如99.9%(3-ninesavailability),99.999%(5-ninesavailability)。

宕機時間(Downtime)

顧名思義,指機器出現(xiàn)故障的停機時間。這里之所以會提Downtime,是因為使用每年的宕機時間來衡量系統(tǒng)可用性,更符合直覺,更容易理解。

圖4.Availability與Downtime對應(yīng)關(guān)系

延伸思考

MTBF不靠譜?

一般來說,服務(wù)器的主要部件MTBF,廠商標稱值都在百萬小時以上。比如:主板、CPU、硬盤為100wh,內(nèi)存為400wh(4根內(nèi)存約為100wh),從而可以推算出服務(wù)器整體MTBF約25wh(約30年),年故障約3%,也就是說,100臺服務(wù)器每年總要壞那么幾臺。

上面的理論計算看著貌似也沒啥問題,感覺還挺靠譜。但如果換個角度想想,總覺得哪里不太對勁:MTBF約30年,難道說可以期望它服役30年?先看看**的工程師如何解釋:

ItiscommontoseeMTBFratingsbetween300,000to1,200,000hoursforharddiskdrivemechanisms,whichmightleadonetoconcludethatthespecificationpromisesbetween30and120yearsofcontinuousoperation.Thisisnotthecase!Thespecificationisbasedonalarge(statisticallysignificant)numberofdrivesrunningcontinuouslyatatestsite,withdataextrapolatedaccordingtovariousknownstatisticalmodelstoyieldtheresults.

Basedontheobservederrorrateoverafewweeksormonths,theMTBFisestimatedandnotrepresentativeofhowlongyourindividualdrive,oranyindividualproduct,islikelytolast.NoristheMTBFawarranty-itisrepresentativeoftherelativereliabilityofafamilyofproducts.AhigherMTBFmerelysuggestsagenerallymorereliableandrobustfamilyofmechanisms(dependingupontheconsistencyofthestatisticalmodelsused).Historically,thefieldMTBF,whichincludesallreturnsregardlessofcause,istypically50-60%ofprojectedMTBF.

看到這里,再聯(lián)系前文對于FailureRate的闡述,我知道各位讀者有沒有摸清其中的門道。其實說白了很簡單,這些廠商真正測算的是產(chǎn)品在“青壯年”健康時期的FailureRate,然后基于與MTBF的倒數(shù)關(guān)系,得出了動輒百萬小時的MTBF。而現(xiàn)實世界中,這些產(chǎn)品的FailureRate在“中晚年”時期會快速上升,因此,這些MTBF根本無法反映產(chǎn)品的真實壽命。文中也提到,**也意識到MTBF存在弊端,因此改用AFR(AnnualizedFailureRate),俗稱“年度不良率”。

其實,早在2007年,Google和CMU同時在FAST07發(fā)表論文,詳細討論了硬盤故障的問題:

CMU《Diskfailuresintherealworld:WhatdoesanMTTFof1,000,000hoursmeantoyou?》

Google《FailureTrendsinaLargeDiskDrivePopulation》

Google采集了公司超過10w塊消費級HDD硬盤數(shù)據(jù)(SATA和PATA,5400轉(zhuǎn)和7200轉(zhuǎn),7家不同廠商,9種不同型號,容量從

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論