重复数据删除:块级技术VS.字节级技术
塊級技術
塊級重復數據刪除技術將數據流分割成塊,檢查數據塊,并判定之前是否碰到相同的數據塊(通常對每個數據塊執行散列算法,形成數字簽名或獨特的標識符)。如果數據塊是唯一的,就被寫入磁盤,其標識符也存入索引中;否則,僅存入指針,指向存儲相同數據塊的原始位置。這種方法用小容量的指針替代重復的數據塊,而不是將重復數據塊再次存儲,這樣就節省了磁盤存儲空間。
塊級技術的缺點為:1)利用散列算法計算獨一無二的ID,可能產生錯誤;2)將唯一的ID存入索引中,當索引擴大,需要磁盤I/O時,檢查過程就會變慢(除非控制索引大小,在存儲器中完成數據比較工作)。
利用散列算法判斷重復數據時,散列之間的沖突可能引發錯誤。MD5、SHA-1等散列算法都是針對檢查的數據塊,形成唯一的編碼。雖然有可能發生散列沖突和數據損壞,但幾率較小。
字節級重復數據刪除
從字節級別上分析數據流是重復數據刪除的另外一種方法。將新數據流和已存儲的數據流挨個比較字節,能夠實現更高的精度。使用這種技術的重復數據刪除產品具有一個共同點:可能之前已見過流入的數據流,因此就會檢查其是否與之前接收的數據相符。
采用字節級技術的產品通常能“識別內容”,也就是說,供應商對備份程序的數據流執行了逆向工程,從而了解如何檢索文件名、文件種類、日期/時間戳記等信息。在判斷重復數據時,這種方法能夠減少計算量。警告呢?這種方法通常在后處理階段發揮作用——備份完成后,判斷備份數據是否重復。因此,需要備份整個磁盤的數據,必須具有磁盤緩存,才能執行重復數據刪除過程。而且,重復數據刪除過程可能僅局限于某個備份組的備份數據流,而不是應用到整個備份組中。
完成了重復數據刪除過程后,字節級技術能收回磁盤空間。在收回空間之前,應執行一致性檢驗,以保證刪除重復數據以后,仍能滿足原始數據的目標。保留最后一次的完全備份,這樣恢復過程就不必依賴重構后的數據,加快恢復過程。
哪種方法效果最佳?
塊級和字節級刪除技術都能優化存儲容量。針對你的備份環境及其需求,核定執行刪除過程的時間、位置和方法,然后再決定選擇哪種方法。核定內容還包括:參考那些與你的公司具有相似特征和需求的公司。
作者:佚名 來源:51CTO總結
以上是生活随笔為你收集整理的重复数据删除:块级技术VS.字节级技术的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 物联网离风口还差最关键一环?
- 下一篇: 书生云王东临:真正的超融合产品要像“机器