


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、重復(fù)數(shù)據(jù)刪除技術(shù)分析及分類 重復(fù)數(shù)據(jù)刪除也稱為智能壓縮或單一實(shí)例存儲(chǔ),是一種可自動(dòng)搜索重復(fù)數(shù)據(jù),將相同數(shù)據(jù)只保留唯一的一個(gè)副本,并使用指向單一副本的指針替換掉其他重復(fù)副本,以達(dá)到消除冗余數(shù)據(jù)、降低存儲(chǔ)容量需求的存儲(chǔ)技術(shù)。本文首先從不同角度介紹重復(fù)數(shù)據(jù)刪除技術(shù)的分類,然后分別介紹相同數(shù)據(jù)重復(fù)數(shù)據(jù)刪除技術(shù)和相似數(shù)據(jù)重復(fù)數(shù)據(jù)刪除技術(shù),并介紹重復(fù)數(shù)據(jù)消除的性能提升方法,最后分析重復(fù)數(shù)據(jù)技術(shù)的應(yīng)用場景。1 重復(fù)數(shù)據(jù)刪除技術(shù)的分類1.1 基 重復(fù)數(shù)據(jù)刪除也稱為智能壓縮
2、或單一實(shí)例存儲(chǔ),是一種可自動(dòng)搜索重復(fù)數(shù)據(jù),將相同數(shù)據(jù)只保留唯一的一個(gè)副本,并使用指向單一副本的指針替換掉其他重復(fù)副本,以達(dá)到消除冗余數(shù)據(jù)、降低存儲(chǔ)容量需求的存儲(chǔ)技術(shù)。本文首先從不同角度介紹重復(fù)數(shù)據(jù)刪除技術(shù)的分類,然后分別介紹相同數(shù)據(jù)重復(fù)數(shù)據(jù)刪除技術(shù)和相似數(shù)據(jù)重復(fù)數(shù)據(jù)刪除技術(shù),并介紹重復(fù)數(shù)據(jù)消除的性能提升方法,最后分析重復(fù)數(shù)據(jù)技術(shù)的應(yīng)用場景。1 重復(fù)數(shù)據(jù)刪除技術(shù)的分類1.1 基于重復(fù)內(nèi)容識(shí)別方法的分類(1)基于散列識(shí)別該方法通過數(shù)據(jù)的散列值來判斷是否是重復(fù)數(shù)據(jù)。對于每個(gè)新數(shù)據(jù)塊都生成一個(gè)散列,如果數(shù)據(jù)塊的散列與存儲(chǔ)設(shè)備上散列索引中的一個(gè)散列匹配,就表明該數(shù)據(jù)塊是一個(gè)重復(fù)的數(shù)據(jù)塊。Data Dom
3、ain、飛康、昆騰的DXi系列設(shè)備都是采用SHA-1、MD-5等類似的散列算法來進(jìn)行重復(fù)數(shù)據(jù)刪除?;谏⒘械姆椒ù嬖趦?nèi)置的可擴(kuò)展性問題。為了快速識(shí)別一個(gè)數(shù)據(jù)塊是否已經(jīng)被存儲(chǔ),這種基于散列的方法會(huì)在內(nèi)存中擁有散列索引。隨著數(shù)據(jù)塊數(shù)量增加,該索引也隨之增長。一旦索引增長超過了設(shè)備在內(nèi)存中保存它所支持的容量,性能會(huì)急速下降,同時(shí)磁盤搜索會(huì)比內(nèi)存搜索更慢。因此,目前大部分基于散列的系統(tǒng)都是獨(dú)立的,可以保持存儲(chǔ)數(shù)據(jù)所需的內(nèi)存量與磁盤空間量的平衡。這樣的設(shè)計(jì)使得散列表就永遠(yuǎn)不會(huì)變得太大。(2)基于內(nèi)容識(shí)別該方法采用內(nèi)嵌在數(shù)據(jù)中的文件系統(tǒng)的元數(shù)據(jù)識(shí)別文件,與其數(shù)據(jù)存儲(chǔ)庫中的其他版本進(jìn)行逐字節(jié)地比較,找到該版
4、本與第一個(gè)已存儲(chǔ)版本的不同之處并為這些不同的數(shù)據(jù)創(chuàng)建一個(gè)增量文件。這種方法可以避免散列沖突,但是需要使用支持該功能的應(yīng)用設(shè)備以便設(shè)備可以提取元數(shù)據(jù)。(3)基于ProtecTier VTL的技術(shù)這種方法像基于散列的方法產(chǎn)品那樣將數(shù)據(jù)分成塊,并且采用自有算法決定給定的數(shù)據(jù)塊是否與其他數(shù)據(jù)塊的相似,然后與相似塊中的數(shù)據(jù)進(jìn)行逐字節(jié)的比較,以判斷該數(shù)據(jù)塊是否已經(jīng)被存儲(chǔ)。1.2 基于去重粒度的分類(1)全文件層次的重復(fù)數(shù)據(jù)刪除以整個(gè)文件為單位來檢測和刪除重復(fù)數(shù)據(jù),計(jì)算整個(gè)文件的哈希值,然后根據(jù)文件哈希值查找存儲(chǔ)系統(tǒng)中是否存在相同的文件。這種方法的好處是在普通硬件條件下計(jì)算速度非???;這種方法的缺點(diǎn)是即使不
5、同文件存在很多相同的數(shù)據(jù),也無法刪除文件中的重復(fù)數(shù)據(jù)。(2)文件塊消冗將一個(gè)文件按不同的方式劃分成數(shù)據(jù)塊,以數(shù)據(jù)塊為單位進(jìn)行檢測。該方法的優(yōu)點(diǎn)是計(jì)算速度快、對數(shù)據(jù)變化較敏感。(3)字節(jié)級消冗從字節(jié)層次查找和刪除重復(fù)的內(nèi)容,一般通過差異壓縮策略生成差異部分內(nèi)容。字節(jié)級消冗的優(yōu)點(diǎn)是去重率比較高,缺點(diǎn)就是去重速度比較慢。1.3 基于消冗執(zhí)行次序的分類(1)在線式消冗在線處理的重復(fù)數(shù)據(jù)刪除是指在數(shù)據(jù)寫入磁盤之前執(zhí)行重復(fù)數(shù)據(jù)刪除。其最大的優(yōu)點(diǎn)是經(jīng)濟(jì)高效,可以降低對存儲(chǔ)容量的需求,并且不需要用于保存還未進(jìn)行重復(fù)數(shù)據(jù)刪除的數(shù)據(jù)集。在線處理的重復(fù)數(shù)據(jù)刪除減少了數(shù)據(jù)量,但同時(shí)也存在一個(gè)問題,處理本身會(huì)減慢數(shù)據(jù)吞
6、吐速度。正是因?yàn)橹貜?fù)數(shù)據(jù)刪除是在寫入到磁盤之前進(jìn)行的,因此重復(fù)數(shù)據(jù)刪除處理本身就是一個(gè)單點(diǎn)故障。(2)后處理式消冗后處理的重復(fù)數(shù)據(jù)刪除,也被稱為離線重復(fù)數(shù)據(jù)刪除,是在數(shù)據(jù)寫到磁盤后再執(zhí)行重復(fù)數(shù)據(jù)刪除。數(shù)據(jù)先被寫入到臨時(shí)的磁盤空間,之后再開始重復(fù)數(shù)據(jù)刪除,最后將經(jīng)過重復(fù)數(shù)據(jù)刪除的數(shù)據(jù)拷貝到末端磁盤。由于重復(fù)數(shù)據(jù)刪除是數(shù)據(jù)寫入磁盤后再在單獨(dú)的存儲(chǔ)設(shè)備上執(zhí)行的,因此不會(huì)對正常業(yè)務(wù)處理造成影響。管理員可以隨意制訂重復(fù)數(shù)據(jù)刪除的進(jìn)程。通常先將備份數(shù)據(jù)保留在磁盤上再進(jìn)行重復(fù)數(shù)據(jù)刪除,企業(yè)在需要時(shí)可以更快速地訪問最近存儲(chǔ)的文件和數(shù)據(jù)。而后處理方式的最大問題在于它需要額外的磁盤空間來保存全部還未刪除的重復(fù)數(shù)據(jù)
7、集。1.4 基于實(shí)現(xiàn)層次的分類(1)基于軟件的重復(fù)數(shù)據(jù)刪除在軟件層次,重復(fù)數(shù)據(jù)刪除可以有兩種集成方式,即可以將軟件產(chǎn)品安裝在專用的服務(wù)器上實(shí)現(xiàn),也可以將其集成到備份/歸檔軟件中?;谲浖闹貜?fù)數(shù)據(jù)刪除的部署成本比較低;但是基于軟件的重復(fù)數(shù)據(jù)刪除在安裝中容易中斷運(yùn)行,維護(hù)也更加困難?;谲浖闹貜?fù)數(shù)據(jù)刪除產(chǎn)品有EMC公司的Avamar軟件產(chǎn)品、Symantec公司的Veritas NetBackup產(chǎn)品以及Sepaton公司的DeltaStor存儲(chǔ)軟件等。(2)基于硬件的重復(fù)數(shù)據(jù)刪除基于硬件的重復(fù)數(shù)據(jù)刪除主要由存儲(chǔ)系統(tǒng)自己完成數(shù)據(jù)的刪減,例如:在虛擬磁帶庫系統(tǒng)、備份平臺(tái)或者網(wǎng)絡(luò)附加存儲(chǔ)(NAS)等一般目的的存儲(chǔ)系統(tǒng)中融入重復(fù)數(shù)據(jù)刪除機(jī)制,由這些系統(tǒng)自身完成重復(fù)數(shù)據(jù)刪除功能?;谟布闹貜?fù)數(shù)據(jù)刪除的優(yōu)點(diǎn)是高性能、可擴(kuò)展性和相對無中斷部署,并且重復(fù)數(shù)據(jù)刪除操作對上層的應(yīng)用都是透明的。這種設(shè)備的缺點(diǎn)就是部署成本比較高,要高于基于軟件的重復(fù)數(shù)據(jù)刪除。目前基于硬件的重復(fù)數(shù)據(jù)刪除系統(tǒng)主要包括VTL和NAS備份產(chǎn)品兩大類,例如:Data Domain公司的DD410系列產(chǎn)品、Diligent Technologies公司的P
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度科技產(chǎn)品銷售提成及創(chuàng)新激勵(lì)協(xié)議
- 二零二五年度金融機(jī)構(gòu)資金結(jié)算服務(wù)協(xié)議
- 二零二五年度山坪塘承包合同履行中的合同糾紛解決
- 二零二五年度終止雙方在線教育平臺(tái)合作協(xié)議
- 二零二五年度海底油氣管道水平定向鉆施工合作協(xié)議
- 二零二五年度全球市場傭金分成合作協(xié)議
- 2、2024廣西專業(yè)技術(shù)人員繼續(xù)教育公需科目參考答案(97分)
- 2025年合作貨運(yùn)從業(yè)資格證科目一考試答案
- 預(yù)制裝配式檢查井施工工法
- 公司領(lǐng)導(dǎo)發(fā)言稿范文
- 《青春期心理健康指導(dǎo)》課件
- 第18講 等腰三角形 課件中考數(shù)學(xué)復(fù)習(xí)
- 社會(huì)階層與教育選擇行為分析-深度研究
- 2025年內(nèi)蒙古呼和浩特市屬國企業(yè)紀(jì)檢監(jiān)察機(jī)構(gòu)招聘工作人員80人高頻重點(diǎn)模擬試卷提升(共500題附帶答案詳解)
- 社會(huì)工作行政(第三版)課件匯 時(shí)立榮 第6-11章 項(xiàng)目管理- 社會(huì)工作行政的挑戰(zhàn)、變革與數(shù)字化發(fā)展
- 全過程工程咨詢文件管理標(biāo)準(zhǔn)
- 模特?cái)z影及肖像使用合同協(xié)議范本
- 2025年湘潭醫(yī)衛(wèi)職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測試近5年??及鎱⒖碱}庫含答案解析
- 《預(yù)制高強(qiáng)混凝土風(fēng)電塔筒生產(chǎn)技術(shù)規(guī)程》文本附編制說明
- 2025福建福州地鐵集團(tuán)限公司運(yùn)營分公司校園招聘高頻重點(diǎn)提升(共500題)附帶答案詳解
- 兒童睡眠障礙治療
評論
0/150
提交評論