日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

数据去重技术原理分析

發布時間:2024/8/24 综合教程 31 生活家
生活随笔 收集整理的這篇文章主要介紹了 数据去重技术原理分析 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

數據去重又稱重復數據刪除,是指在一個數字文件集合中,找出重復的數據并將其刪除,只保存唯一的數據單元。在刪除的同時,要考慮數據重建,即雖然文件的部分內容被刪除,但當需要時,仍然將完整的文件內容重建出來,這就需要保留文件與唯一數據單元之間的索引信息。

應用數據去重技術的好處

節省存儲空間。通過重復數據刪除,可以大大降低需要的存儲介質數量,進而降低成本。甚至可以使基于硬盤的存儲系統成本低于磁帶庫,同時提供更好的性能。因此,支持數據去重技術的存儲系統,特別適合用來做數據的備份。
提升寫入性能。磁盤的寫入性能是有限的,通常順序寫入在100MB/s左右,如果在寫入數據的時候就進行數據去重,可以避免一部分的數據寫入磁盤,從而提升寫入性能。
節省網絡帶寬。如果在客戶端進行數據去重,僅將新增的數據傳輸到存儲系統,可以減少網絡上的數據傳輸量,從而節省網絡帶寬。

數據去重的粒度

文件級別的數據去重。最粗粒度也是最容易實現的一種,通過為文件整體計算一個hash值,對于相同的hash值的文件只存儲一份。缺點是去重效果比較差。比較適合變動不太頻繁的文件或者小文件。大家都用的百度云盤采用這個級別的數據去重,程序員都用的git也采用這個級別的數據去重。
固定分塊的數據去重。將文件按照offset切分為固定大小的數據塊,比如4MB,比如512KB,然后在數據塊的級別做去重。這種方法實現簡單,還可以用來實現斷點續傳和并發傳輸。缺點是去重效果還是比較差,難以應對在文件中間insert數據的情況。360云盤采用512KB的固定分塊去重。
可變分塊的數據去重。通過對數據的每一個滑動窗口計算rolling hash,并選取具有滿足固定模式的hash值的窗口作為boundary,這樣就實現了基于內容的數據分塊。然后對數據分塊計算hash值,在分塊的級別上實現數據去重。這種方式的優點是去重效果好,可以應對數據的各種變化情況。缺點是技術要復雜,包括高效的具有好的區分度的rolling hash,合適的分塊大小的選取,性能和存儲量之間的折衷等,可以展開寫一篇長文了。著名的Data Domain的存儲系統,就使用了這種去重方式。LBFS也是用這種方式的數據去重,并選用Rabin Fingerprint算法作為rolling hash。
rsync。類unix系統上,大家常用來做備份的rsync,其實也應用了數據去重技術,它通過在服務器端固定分塊,在客戶端逐字節比較來實現去重。我不確定是否應該算是固定分塊還是可變分塊,所以單獨列了出來。rsync的缺點,是必須有明確的歷史版本才能實現去重,不能實現全局去重。rsync只能檢測到重復數據,并不能減少存儲量。要減少存儲量還要使用delta encoding。通過是用類似rsync的算法,得到新增文件與其歷史文件的變化值delta,可以不必立即重建這個新增文件并存儲,而是只存儲這個delta數據,在需要時候重建。進而減少數據存儲量。最成功的網盤Dropbox使用這種方式實現數據去重。

數據去重技術的用途

備份系統。
網盤系統。
HTTP頁面加載速度提升。可以看看這個。

數據去重與通常說的大家常用的數據壓縮的區別,主要在于去重的粒度。數據壓縮技術在比較小的范圍內以比較小的粒度查找重復數據,粒度一般為幾個比特到幾個字節。而重復數據刪除是在比較大的范圍內查找大塊的重復數據,一般重復數據塊尺寸在1KB以上。

一個好的數據去重系統,尤其是基于內容的可變分塊的數據去重系統,實現難度是比較大的。就目前來看,國內的存儲系統廠商基本上還沒看到好的產品出來。

相對于應用到備份系統上,如果將數據去重應用到云存儲系統上,其實現難度會更拿到,因為云存儲系統是一個online系統,不僅要關注系統的吞吐量,更要關注每一次請求的響應延時。貝爾實驗室在今年剛剛發表了一篇論文SEARS來論證這種可能性。

reference

重復數據刪除—維基百科

總結

以上是生活随笔為你收集整理的数据去重技术原理分析的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。