宏杉科技IDDC與CRAID技術(shù)_第1頁
宏杉科技IDDC與CRAID技術(shù)_第2頁
宏杉科技IDDC與CRAID技術(shù)_第3頁
宏杉科技IDDC與CRAID技術(shù)_第4頁
宏杉科技IDDC與CRAID技術(shù)_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

MacroSANIDDC與CRAID技術(shù)杭州宏杉科技有限公司典型案例某用戶配置了16塊1TB磁盤做RAID5,承載其在線關(guān)鍵業(yè)務(wù)。運(yùn)行3年后,磁盤開始陸續(xù)損壞,發(fā)現(xiàn)其重建過程漫長。在其業(yè)務(wù)未中斷的情況下,完成一次重建所需時(shí)間長達(dá)5天,這種情況還不是最糟的。更糟的是,在某次重建過程中,重建進(jìn)程完成到60%時(shí),重建過程被異常中止,RAID組fail,整個(gè)數(shù)據(jù)卷損壞,數(shù)據(jù)丟失。經(jīng)檢查發(fā)現(xiàn),在重建過程中,該RAID組中的另一塊磁盤發(fā)生了讀錯(cuò)誤,導(dǎo)致磁盤failed,被RAID組踢出。通過這個(gè)案例我們可以看出幾個(gè)問題:1、磁盤屬于消耗品,發(fā)生老化后,會(huì)產(chǎn)生潛在故障盤或假象故障盤;2、故障盤或假象故障盤都將導(dǎo)致RAID組重建;3、大容量磁盤RAID重建時(shí)間過長,重建過程風(fēng)險(xiǎn)巨大;4、潛在故障盤將導(dǎo)致RAID重建失??;什么是假象故障磁盤簡單的說,假象故障磁盤就是在使用中發(fā)生錯(cuò)誤告警,但返廠后經(jīng)檢查發(fā)現(xiàn)該磁盤沒有任何物理損壞,檢測為正常的磁盤。為什么會(huì)有假象故障磁盤通常是與設(shè)備運(yùn)行環(huán)境有關(guān)的,比如磁盤受到外力導(dǎo)致的振動(dòng)達(dá)到一定程度,就會(huì)造成磁盤工作失靈,這種失靈往往在消除振動(dòng)后可以恢復(fù)。磁頭在盤面的水平方面振動(dòng),會(huì)導(dǎo)致磁頭與磁道偏離,磁頭與目標(biāo)磁道位置偏離過大,超過了伺服機(jī)構(gòu)能響應(yīng)的允許值,此時(shí)磁頭根本無法定位,造成工作失靈;磁頭在與盤面垂直方向的振動(dòng),導(dǎo)致磁盤盤面與磁頭距離的變化,磁頭和盤片的間隙過大,造成磁頭感應(yīng)到的信號(hào)電壓不足,磁盤無法讀/寫;什么是潛在故障磁盤■Vi宏杉科技^macmsan簡單的說,潛在故障磁盤就是已經(jīng)存在損壞扇區(qū),但在設(shè)備運(yùn)行狀態(tài)中卻顯示為正常的磁盤。為什么會(huì)有潛在故障磁盤由于磁盤本身屬于易耗品,存儲(chǔ)設(shè)備長期在線運(yùn)行后,根據(jù)業(yè)務(wù)類型及機(jī)房環(huán)境不同,磁盤會(huì)出現(xiàn)不同程度的老化。這些老化磁盤中可能會(huì)存在不同程度的損壞扇區(qū),而損壞扇區(qū)在沒有io讀寫觸發(fā)的條件下,通常不會(huì)被存儲(chǔ)設(shè)備感知。這種未被感知,但又存在一定損壞扇區(qū)的磁盤,就是潛在故障磁盤。一般情況下,潛在故障磁盤在非RAID環(huán)境中可能會(huì)導(dǎo)致磁盤中的部份文件塤壞或丟失。若存在于配置了RAID組的存儲(chǔ)環(huán)境中,其危險(xiǎn)性將及有可能會(huì)乘以N倍的數(shù)量放大。故障磁盤的危害冗余RAID組重建頻繁:存儲(chǔ)設(shè)備長期在網(wǎng)運(yùn)行后,由于機(jī)械設(shè)備老化,磁盤假象故障發(fā)生的機(jī)率增加,并且會(huì)有越來越多的潛在故障磁盤轉(zhuǎn)化為故障磁盤,這些磁盤的陸續(xù)損壞導(dǎo)致了頻繁的RAID組重建。傳統(tǒng)存儲(chǔ)設(shè)備的RAID組重建過程中,會(huì)大量消耗讀寫性能,尤其對于大容量磁盤,重建時(shí)間過長。因而往往會(huì)影響到用戶業(yè)務(wù)的正常訪問,且易出現(xiàn)冗余RAID組重建失敗,發(fā)生數(shù)據(jù)丟失的事故。冗余RAID組重建失?。焊鶕?jù)冗余RAID組原理,特別是采用積偶效驗(yàn)算法的RAID組,如RAID5、RAID6,在進(jìn)行RAID組重建時(shí),需要讀取該RAID組中其它成員成盤上的所有數(shù)據(jù),來計(jì)算被替換故障磁盤的數(shù)據(jù)。對于長期在網(wǎng)運(yùn)行,磁盤老化較嚴(yán)重的設(shè)備,往往會(huì)隱藏著一定的潛在故障磁盤,一旦這些磁盤在重建過程中轉(zhuǎn)化為故障磁盤,該RAID組會(huì)立刻失效,重建失敗,導(dǎo)致該RAID組所有數(shù)據(jù)丟失。問題與挑戰(zhàn)隨著云時(shí)代的到來,數(shù)據(jù)量越來越多,磁盤容量越來越大,發(fā)生磁盤損壞的比率也越來越大,如何解決磁盤故障對存儲(chǔ)帶來的危害成為重要課題目。問題:1、磁盤屬于消耗品,一般3年左右,發(fā)生機(jī)械老化;2、發(fā)生老化后,會(huì)產(chǎn)生潛在故障盤或假象故障盤;3、故障盤或假象故障盤都將導(dǎo)致RAID組重建;4、大容量磁盤RAID重建時(shí)間過長,重建過程風(fēng)險(xiǎn)巨大;5、潛在故障盤易導(dǎo)致RAID重建失敗;挑戰(zhàn):1、變被動(dòng)重建為主動(dòng)檢測;2、提高RAID容錯(cuò)度;3、降低磁盤誤判;4、提高錯(cuò)誤修復(fù)效率;5、減少數(shù)據(jù)丟失風(fēng)險(xiǎn);磁盤維護(hù)新方式一IDDC主動(dòng)式磁盤診斷中心基于多年存儲(chǔ)維護(hù)經(jīng)驗(yàn)的深刻理解,MacroSAN開發(fā)了一套可以在不增加任何附加投資的條件下,最大化提高磁盤及RAID組安全性的,智能存儲(chǔ)磁盤維護(hù)檢測修復(fù)工具。IDDC:InitiativeDiskDiagnosisCenter,主動(dòng)式磁盤診斷中心該診斷中心包含了4個(gè)模塊(磁盤檢測、快速修復(fù)、壞塊復(fù)位、磁盤診斷)它可以通過預(yù)先設(shè)置的策略定期對磁盤進(jìn)行錯(cuò)誤檢測,用于發(fā)現(xiàn)磁盤中是否存在錯(cuò)誤碼。再根據(jù)錯(cuò)誤碼叛斷磁盤錯(cuò)誤類型,并進(jìn)行相應(yīng)的壞塊修復(fù)、磁盤遷移或磁盤修復(fù)等操作,以提早處理磁盤潛在故障隱患,降低RAID組重建損壞機(jī)率,提高設(shè)備穩(wěn)定性。磁盤檢測:對所有磁盤進(jìn)行周期性全盤檢測,提前發(fā)現(xiàn)故障;支持磁盤檢測速率動(dòng)態(tài)調(diào)整,不影響應(yīng)用性能;發(fā)現(xiàn)問題的磁盤交由診斷中心統(tǒng)一處理;快速復(fù)位:結(jié)合CRAID的局部重建機(jī)制,可快速修復(fù)磁盤邏輯錯(cuò)誤,降低全盤重建機(jī)率。

壞塊修復(fù):經(jīng)過檢測的磁盤發(fā)現(xiàn)存在壞塊(扇區(qū))后,會(huì)觸發(fā)磁盤自身的remap機(jī)制,將壞塊的指針重定向到好的保留扇區(qū)中。然后調(diào)用RAID組的校驗(yàn)功能,重建該數(shù)據(jù)塊,確保數(shù)據(jù)一致性。磁盤診斷:所有告警磁盤、故障磁盤會(huì)在診斷中心進(jìn)行復(fù)診并嘗試修復(fù),減少磁盤故障誤判。修復(fù)后的磁盤自動(dòng)轉(zhuǎn)為全局熱備磁盤。3.1.磁盤檢測對所有磁盤進(jìn)行周期性全盤檢測,提前發(fā)現(xiàn)錯(cuò)誤并交由磁盤診斷中心統(tǒng)一處理。該功能可以通過以下幾個(gè)模塊實(shí)現(xiàn):?時(shí)間周期:可以預(yù)設(shè)每一輪磁盤檢測的起始時(shí)間和周期間隔?磁盤范圍:可根據(jù)業(yè)務(wù)需要設(shè)置某一組磁盤進(jìn)行磁盤檢測?全盤讀檢測:對檢測盤進(jìn)行全盤讀操作,以發(fā)現(xiàn)磁盤中的不正常扇區(qū)?逐盤檢測:預(yù)設(shè)的時(shí)間到達(dá)時(shí),對滿足檢測要求的磁盤進(jìn)行排隊(duì),逐個(gè)啟動(dòng)磁盤檢測?S.M.A.R.T.信息處理:如果磁盤S.M.A.R.T.檢測失敗,則將該磁盤直接轉(zhuǎn)到磁盤診斷中心,若S.M.A.R.T.信息未超過危險(xiǎn)值,便啟動(dòng)IDDC的全盤檢測處理過程"kb?進(jìn)度管理:以圖形化的方式體現(xiàn)檢測法度能動(dòng)態(tài)調(diào)整:檢測速率會(huì)根據(jù)磁盤10流量動(dòng)態(tài)調(diào)整,保證該破盤所承載業(yè)務(wù)不受影響3.2.快速復(fù)位處理過程"kb磁盤子系統(tǒng)的核心功能之一就是磁盤錯(cuò)誤處理,在收到磁盤返回的磁盤錯(cuò)誤之后,根據(jù)不同的錯(cuò)誤,可以采取不同的錯(cuò)誤處理方案,包括:重試,即針對磁盤可恢復(fù)的臨時(shí)性故障(磁盤的假故障,比如震動(dòng)引起的讀/寫錯(cuò)誤),磁盤子系統(tǒng)對命令進(jìn)行重試;對磁盤下電再上電,即從硬件上復(fù)位磁盤,嘗試修復(fù)磁盤錯(cuò)誤,結(jié)合上面提到的RAID基于Cell的局部重建機(jī)制,復(fù)位磁盤過程中新寫入的數(shù)據(jù)可快速完成重建,恢復(fù)RAID的數(shù)據(jù)冗余性;磁盤錯(cuò)誤透傳,由RAID進(jìn)行處理。3.3.壞塊修復(fù)發(fā)現(xiàn)磁盤壞塊(扇區(qū)),根據(jù)RAID信息重建數(shù)據(jù),觸發(fā)磁盤自身的remap機(jī)制,實(shí)現(xiàn)壞塊替換磁盤在出廠前會(huì)留有一部份備用扇區(qū),當(dāng)正常使用的扇區(qū)出現(xiàn)損壞的情況下,磁盤會(huì)啟用remap自動(dòng)修復(fù)機(jī)制,將損壞扇區(qū)重定位到備用扇區(qū),這樣磁盤的整體容量和功能就不會(huì)受到影響,對于用戶來講,這個(gè)磁盤還是一個(gè)完整的好盤。采用remap機(jī)制把備用扇區(qū)替換到原始扇區(qū)后,雖然磁盤的功能得到恢復(fù),但是原始扇區(qū)中的數(shù)據(jù)是已經(jīng)丟失的,IDDC的壞塊修復(fù)功能可以根據(jù)RAID組校驗(yàn)信息,計(jì)算出損壞扇區(qū)中的數(shù)據(jù),并進(jìn)行恢復(fù),這個(gè)過程只是針對產(chǎn)生壞扇區(qū)的部份,而不需要對整個(gè)RAID進(jìn)行重建,重建過程所耗性能幾乎可以忽略不計(jì)。3.4.磁盤診斷所有告警磁盤、故障磁盤會(huì)在診斷中心進(jìn)行復(fù)診并嘗試修復(fù),減少磁盤故障誤判。修復(fù)后的磁盤自動(dòng)轉(zhuǎn)為全局熱備磁盤。磁盤檢測中心對磁盤進(jìn)行掃描后,會(huì)根據(jù)發(fā)現(xiàn)的磁盤錯(cuò)誤類型進(jìn)行標(biāo)記,如warning盤、fail盤等,并通過相應(yīng)的功能模塊將這部分磁盤替換出來,轉(zhuǎn)移到磁盤診斷中心由于磁盤檢測時(shí)只能對磁盤進(jìn)行全讀操作,對于一些邏輯錯(cuò)誤無法進(jìn)行準(zhǔn)確的判斷。所以磁盤診斷中心會(huì)對磁盤進(jìn)行全寫操作,并對邏輯錯(cuò)誤嘗試進(jìn)行修復(fù)??梢酝ㄟ^磁盤診斷中心修復(fù)的磁盤會(huì)被設(shè)置為熱備磁盤。不能通過的會(huì)被設(shè)為fail磁盤,并會(huì)通過通知模塊提醒用戶更換。4.RAID維護(hù)新方式一CRAID根據(jù)前面的統(tǒng)計(jì)分析,存儲(chǔ)系統(tǒng)的硬件故障90%以上是磁盤故障,而故障磁盤中,只有12%是完全的物理損壞,88%屬于部分/完全可用。如果磁盤發(fā)生錯(cuò)誤后立即被踢出陣列,一方面客戶需要為100%的故障磁盤買單,另外一方面客戶還需要承擔(dān)故障磁盤被踢出陣列到被更換過程中其他磁

盤再次故障所導(dǎo)致的數(shù)據(jù)丟失風(fēng)險(xiǎn)。ODSP存儲(chǔ)軟件平臺(tái)在分層次、模塊化設(shè)計(jì)的基礎(chǔ)上,對多個(gè)層次上進(jìn)行了磁盤錯(cuò)誤處理,其目標(biāo)是:“盡量嘗試修復(fù),盡可能減少踢盤”,以提高用戶的投資回報(bào)率,提出基于Cell的RAID同步和重建技術(shù)。Cell,形象稱之為“細(xì)胞”,指帶“活性”的數(shù)據(jù)單元,是存儲(chǔ)資源管理的基本單位。引入Cell的概念后,資源管理層次如下圖所示,在具體的實(shí)現(xiàn)上,首先用物理磁盤創(chuàng)建RAID,然后把RAID的可用空間根據(jù)指定長度(默認(rèn)1GB)劃分為多個(gè)Cell,創(chuàng)建LUN時(shí),系統(tǒng)自動(dòng)分配空閑Cell,破除了LUN與RAID、Disk之間的捆綁關(guān)系,使RAID的最小維護(hù)單位由原來的磁盤變成了更小更靈活的Cell,實(shí)現(xiàn)了完全的虛擬化存儲(chǔ)架構(gòu)。4?1.CRAID基于Cell的重建功能RAID5組□□空數(shù)據(jù)塊校驗(yàn)數(shù)據(jù)塊原數(shù)據(jù)塊替換數(shù)據(jù)塊壞數(shù)據(jù)塊10年3月cell9^的塊3損壞敦?fù)?jù)盤3被熱備盤替RAID5組□□空數(shù)據(jù)塊校驗(yàn)數(shù)據(jù)塊原數(shù)據(jù)塊替換數(shù)據(jù)塊壞數(shù)據(jù)塊10年3月cell9^的塊3損壞敦?fù)?jù)盤3被熱備盤替09年12月Cell9替換Cell508年8月Cell7替換CelliLJ□109年7月Cell8替換Cell3Cell3Cell4Cell5Cell6Cell?按照Cell維護(hù)健康狀態(tài),突破了傳統(tǒng)RAID對可容忍的磁盤數(shù)目的限制。比如,傳統(tǒng)的RAID5支持1塊磁盤故障,第2塊磁盤故障時(shí),RAID失效,不能繼續(xù)使用。在ODSP存儲(chǔ)軟件平臺(tái)的實(shí)現(xiàn)中,只要磁盤出錯(cuò)區(qū)域不在同一個(gè)Cell內(nèi),RAID中的數(shù)據(jù)仍然可以訪問,即RAID可容忍非同一個(gè)Cell內(nèi)多個(gè)磁盤發(fā)生介質(zhì)錯(cuò)誤,在極端的情況下,可能出現(xiàn)RAID中所有的成員磁盤上都存在介質(zhì)錯(cuò)誤,但是數(shù)據(jù)仍然可以訪問,提高了存儲(chǔ)產(chǎn)品對硬盤的容錯(cuò)性以及業(yè)務(wù)連續(xù)性。同時(shí),針對多個(gè)磁盤出錯(cuò)區(qū)域在同一個(gè)Cell內(nèi)的情況,ODSP存儲(chǔ)軟件平臺(tái)繼承了物理的處理方式,即這些磁盤錯(cuò)誤僅影響當(dāng)前的Cell,其他Cell仍然可以繼續(xù)訪問,使得錯(cuò)誤的影響范圍降到最小。4.1.1.快速重建區(qū)別于傳統(tǒng)RAID先踢盤再重建的方式,CRAID的快速重建可只重建錯(cuò)誤磁盤上的損壞數(shù)據(jù)塊,未發(fā)生錯(cuò)誤的區(qū)域直接使用拷貝方式將數(shù)據(jù)塊復(fù)制到熱備盤,重建完成后,再將錯(cuò)誤磁盤轉(zhuǎn)移至IDDC磁盤診斷中心處理,該方式可明顯降低重建過程對RAID組性能造成的影響。

快速重建:m::m!|m:m;:FW^;;FW^;FW^:FW^;:^E;;^E;:^S;;E*1無;E!^B::^B;Fn^iFW:快速重建11I1I耳版壞數(shù)據(jù)塊■核驗(yàn)數(shù)據(jù)塊、亶整賣」'_棗整典4’|數(shù)據(jù)盤3耳版壞數(shù)據(jù)塊■核驗(yàn)數(shù)據(jù)塊傳統(tǒng)RAID組重建時(shí),最消耗性能和時(shí)間的原因是需要調(diào)用所有磁盤進(jìn)行異或校驗(yàn)??焖僦亟ㄓ捎趯⑷P校驗(yàn)改成了按Cell校驗(yàn)+磁盤復(fù)制,其校驗(yàn)任務(wù)只有傳統(tǒng)全盤重建的幾百分一或千分之一,校驗(yàn)時(shí)間幾乎可以忽略不記,而磁盤復(fù)制的速度可以達(dá)到磁盤讀寫的最大值。以1TB的SATA磁盤為例,在15塊盤的RAID中,全盤重建時(shí)間約30小時(shí),而快速重建的時(shí)間差最快可以達(dá)到6小時(shí)。4.1.2.局部重建類似于快速重建,但不是重建熱備盤,而是只對原盤的變化部分進(jìn)行重建,使其同步。適用于磁盤未損壞,但發(fā)生過閃斷或人為誤操作,短時(shí)間內(nèi)拔出又插回的情況。該方法可重建5分鐘內(nèi)磁盤不在位過程中所丟失的數(shù)據(jù),重建時(shí)間短,極大降低RAID組受影響程度。磁盤拔出有數(shù)據(jù)寫入—HbH—.—???X.■=—'一■:WCTslSe;B]BiSHE:^D;:S1:I^I:EI;:^B;:^0:^B:(^3;■QD::$l:IS;l3i^_?MaiJsaftaJ、CRAID5磁盤插回后只重建差異部分4.1.3.優(yōu)化重建僅重建被LUN使用的Cell,未使用的Cell不重建,如下圖,僅重建Celli、2、3、4,Cell5、6不需重建;RAID5組j[*Cell2[;CCI3fcell5重建調(diào)度時(shí),優(yōu)先重建存在介質(zhì)錯(cuò)誤的Cell,然后再使用拷貝的方式重建其他Cell,以盡可能的避免該Cell所處的其它磁盤發(fā)生故障導(dǎo)致的Cell損壞;r|CelllIjew先校驗(yàn)再拷貝支持多重重建,可同時(shí)重建多個(gè)故障磁盤,如一個(gè)RAID組中的兩塊磁盤所處的不同Cell存在壞塊,可以兩個(gè)Cell并發(fā)重建,提高重建總體效率。4.1.4.全盤重建與傳統(tǒng)RAID組一樣,適用于磁盤被拔走或者磁盤嚴(yán)重故障不能繼續(xù)使用的情況使用。4.1.5.IDDC+CRAID處理流程示例IDDC磁盤診斷中心與CRAID優(yōu)化同步重建技術(shù)相互聯(lián)動(dòng),形成了一套對于磁盤的自動(dòng)檢測、故障處理,以及RAID快速恢復(fù)的智能處理流程,在提高設(shè)備易用性和可維護(hù)性的同時(shí),更是大大的提高了設(shè)備的安全性假象故障磁盤—快速復(fù)位+局部重建壞扇區(qū)?壞塊修復(fù)-yesno潛在故障磁盤?檢查S.M.A.R.T.-OK?全盤檢測^壞Cell^^^Cell重建壞Cell超出閾值-快速重建LFAIL>診斷中心磁盤被異常拔出-5分鐘內(nèi)插回。局部重建5分鐘后插回■全盤重建?修復(fù)晶功修復(fù)失敗熱備盤通知更換假象故障磁盤—快速復(fù)位+局部重建壞扇區(qū)?壞塊修復(fù)-yesno潛在故障磁盤?檢查S.M.A.R.T.-OK?全盤檢測^壞Cell^^^Cell重建壞Cell超出閾值-快速重建LFAIL>診斷中心磁盤被異常拔出-5分鐘內(nèi)插回。局部重建5分鐘后插回■全盤重建?修復(fù)晶功修復(fù)失敗熱備盤通知更換■Cell5RAID5組[ICel13IfcelM如上圖所示,如選擇按LUN同步,則只需同步圖中的Celli、2、3、4即可完成同步,余下的Cell可在創(chuàng)建其它LUN時(shí)再做同步。該方法可大幅縮短同步時(shí)間,對于隨機(jī)讀寫要求高,又急需使用的環(huán)境,該方法較為有效。4.2.2.快速同步(全0同步)校驗(yàn)RAID組在初始同步時(shí)會(huì)計(jì)算每個(gè)條帶的校驗(yàn)值,做過校驗(yàn)的條帶會(huì)大大提高小數(shù)據(jù)的隨機(jī)寫的性能,采用所

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論