當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

HBase学习笔记（三）——布隆过滤器(Bloom Filter)的原理

發布時間：2024/5/14 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了 HBase学习笔记（三）——布隆过滤器(Bloom Filter)的原理小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

????布隆過濾器（Bloom Filter）由 Burton Howard Bloom 在 1970 年提出，是一種空間效率高的概率型數據結構。它專門用來檢測集合中是否存在特定的元素。

布隆過濾器帶有以下特點：

布隆過濾器（Bloom Filter）的核心是實現一個超大的位數組和幾個哈希函數。

????假設位數組的長度為m，哈希函數的個數為k，以上圖為例。
具體操作流程如下：

假設集合里面有3個元素 {x,y,z}，哈希函數的個數為3。首先將位數組進行初始化，將里面每個位都設置為0。

對于集合里面的每一個元素，將元素依次通過3個哈希函數進行映射，每次映射都會產生一個哈希值，這個值對應位數組上面的一個點，然后將位數組對應的位置標記為1。

查詢 W 元素是否存在集合中的時候，同樣的方法將 W 通過哈希映射到位數組上的3個點。

如果3個點的其中有一個點不為1，則可以判斷該元素一定不存在集合中。反之，如果3個點都為1，則該元素可能存在集合中。

注意：此處不能判斷該元素是否一定存在集合中，可能存在一定的誤判率。

可以從圖中可以看到：假設某個元素通過映射對應下標為4、5、6這3個點。雖然這3個點都為1，但是很明顯這3個點是不同元素經過哈希得到的位置，因此這種情況說明元素雖然不在稽核中，也可能對應的都是1，這是誤判率存在的原因。

布隆過濾器添加元素

布隆過濾器查詢元素

優點

缺點

存在假陽性的概率，不適用于任何要求 100% 準確率的場景；
只能插入和查詢元素，不能刪除元素，這與產生假陽性的原因是相同的。我們可以簡單地想到通過計數（即將一個比特擴展為計數值）來記錄元素數，但仍然無法保證刪除的元素一定在集合中。

????所以，Bloom Filter 在對查準度要求沒有那么苛刻，而對時間、空間效率要求較高的場合非常合適，本文第一句話提到的用途即屬于此類。另外，由于它不存在假陰性問題，所以用作“不存在”邏輯的處理時有奇效，比如可以用來作為緩存系統（如Redis）的緩沖，防止緩存穿透。

以上是生活随笔為你收集整理的HBase学习笔记（三）——布隆过滤器(Bloom Filter)的原理的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。