當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

布隆过滤器(Bloom Filter)原理及优缺点剖析

發(fā)布時(shí)間：2025/1/21 编程问答 23 豆豆

生活随笔收集整理的這篇文章主要介紹了布隆过滤器(Bloom Filter)原理及优缺点剖析小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

直觀的說，bloom算法類似一個(gè)hash set，用來判斷某個(gè)元素（key）是否在某個(gè)集合中。
和一般的hash set不同的是，這個(gè)算法無需存儲key的值，對于每個(gè)key，只需要k個(gè)比特位，每個(gè)存儲一個(gè)標(biāo)志，用來判斷key是否在集合中。

算法：

首先需要k個(gè)hash函數(shù)，每個(gè)函數(shù)可以把key散列成為1個(gè)整數(shù)

初始化時(shí)，需要一個(gè)長度為n比特的數(shù)組，每個(gè)比特位初始化為0

某個(gè)key加入集合時(shí)，用k個(gè)hash函數(shù)計(jì)算出k個(gè)散列值，并把數(shù)組中對應(yīng)的比特位置為1

判斷某個(gè)key是否在集合時(shí)，用k個(gè)hash函數(shù)計(jì)算出k個(gè)散列值，并查詢數(shù)組中對應(yīng)的比特位，如果所有的比特位都是1，認(rèn)為在集合中。

優(yōu)點(diǎn)：不需要存儲key，節(jié)省空間

缺點(diǎn)：

算法判斷key在集合中時(shí)，有一定的概率key其實(shí)不在集合中

無法刪除

典型的應(yīng)用場景：
某些存儲系統(tǒng)的設(shè)計(jì)中，會存在空查詢?nèi)毕?#xff1a;當(dāng)查詢一個(gè)不存在的key時(shí)，需要訪問慢設(shè)備，導(dǎo)致效率低下。
比如一個(gè)前端頁面的緩存系統(tǒng)，可能這樣設(shè)計(jì)：先查詢某個(gè)頁面在本地是否存在，如果存在就直接返回，如果不存在，就從后端獲取。但是當(dāng)頻繁從緩存系統(tǒng)查詢一個(gè)頁面時(shí)，緩存系統(tǒng)將會頻繁請求后端，把壓力導(dǎo)入后端。

這是只要增加一個(gè)bloom算法的服務(wù)，后端插入一個(gè)key時(shí)，在這個(gè)服務(wù)中設(shè)置一次
需要查詢后端時(shí)，先判斷key在后端是否存在，這樣就能避免后端的壓力。

布隆過濾器［1］（Bloom Filter）是由布隆（Burton Howard Bloom）在1970年提出的。它實(shí)際上是由一個(gè)很長的二進(jìn)制向量和一系列隨機(jī)映射函數(shù)組成，布隆過濾器可以用于檢索一個(gè)元素是否在一個(gè)集合中。它的優(yōu)點(diǎn)是空間效率和查詢時(shí)間都遠(yuǎn)遠(yuǎn)超過一般的算法，缺點(diǎn)是有一定的誤識別率（假正例False positives，即Bloom Filter報(bào)告某一元素存在于某集合中，但是實(shí)際上該元素并不在集合中）和刪除困難，但是沒有識別錯(cuò)誤的情形（即假反例False negatives，如果某個(gè)元素確實(shí)沒有在該集合中，那么Bloom Filter 是不會報(bào)告該元素存在于集合中的，所以不會漏報(bào)）。

在日常生活中，包括在設(shè)計(jì)計(jì)算機(jī)軟件時(shí)，我們經(jīng)常要判斷一個(gè)元素是否在一個(gè)集合中。比如在字處理軟件中，需要檢查一個(gè)英語單詞是否拼寫正確（也就是要判斷它是否在已知的字典中）；在 FBI，一個(gè)嫌疑人的名字是否已經(jīng)在嫌疑名單上；在網(wǎng)絡(luò)爬蟲里，一個(gè)網(wǎng)址是否被訪問過等等。最直接的方法就是將集合中全部的元素存在計(jì)算機(jī)中，遇到一個(gè)新元素時(shí)，將它和集合中的元素直接比較即可。一般來講，計(jì)算機(jī)中的集合是用哈希表（hash table）來存儲的。它的好處是快速準(zhǔn)確，缺點(diǎn)是費(fèi)存儲空間。當(dāng)集合比較小時(shí)，這個(gè)問題不顯著，但是當(dāng)集合巨大時(shí)，哈希表存儲效率低的問題就顯現(xiàn)出來了。比如說，一個(gè)象 Yahoo,Hotmail 和 Gmai 那樣的公眾電子郵件（email）提供商，總是需要過濾來自發(fā)送垃圾郵件的人（spamer）的垃圾郵件。一個(gè)辦法就是記錄下那些發(fā)垃圾郵件的 email 地址。由于那些發(fā)送者不停地在注冊新的地址，全世界少說也有幾十億個(gè)發(fā)垃圾郵件的地址，將他們都存起來則需要大量的網(wǎng)絡(luò)服務(wù)器。如果用哈希表，每存儲一億個(gè) email 地址，就需要 1.6GB 的內(nèi)存（用哈希表實(shí)現(xiàn)的具體辦法是將每一個(gè) email 地址對應(yīng)成一個(gè)八字節(jié)的信息指紋（詳見：googlechinablog.com/2006/08/blog-post.html），然后將這些信息指紋存入哈希表，由于哈希表的存儲效率一般只有 50%，因此一個(gè) email 地址需要占用十六個(gè)字節(jié)。一億個(gè)地址大約要 1.6GB，即十六億字節(jié)的內(nèi)存）。因此存貯幾十億個(gè)郵件地址可能需要上百 GB 的內(nèi)存。除非是超級計(jì)算機(jī)，一般服務(wù)器是無法存儲的［2］。（該段引用谷歌數(shù)學(xué)之美：http://www.google.com.hk/ggblog/googlechinablog/2007/07/bloom-filter_7469.html）

基本概念

如果想判斷一個(gè)元素是不是在一個(gè)集合里，一般想到的是將所有元素保存起來，然后通過比較確定。鏈表，樹等等數(shù)據(jù)結(jié)構(gòu)都是這種思路. 但是隨著集合中元素的增加，我們需要的存儲空間越來越大，檢索速度也越來越慢。不過世界上還有一種叫作散列表（又叫哈希表，Hash table）的數(shù)據(jù)結(jié)構(gòu)。它可以通過一個(gè)Hash函數(shù)將一個(gè)元素映射成一個(gè)位陣列（Bit Array）中的一個(gè)點(diǎn)。這樣一來，我們只要看看這個(gè)點(diǎn)是不是 1 就知道可以集合中有沒有它了。這就是布隆過濾器的基本思想。

Hash面臨的問題就是沖突。假設(shè) Hash 函數(shù)是良好的，如果我們的位陣列長度為 m 個(gè)點(diǎn)，那么如果我們想將沖突率降低到例如 1%, 這個(gè)散列表就只能容納 m/100 個(gè)元素。顯然這就不叫空間有效了（Space-efficient）。解決方法也簡單，就是使用多個(gè) Hash，如果它們有一個(gè)說元素不在集合中，那肯定就不在。如果它們都說在，雖然也有一定可能性它們在說謊，不過直覺上判斷這種事情的概率是比較低的。

優(yōu)點(diǎn)

相比于其它的數(shù)據(jù)結(jié)構(gòu)，布隆過濾器在空間和時(shí)間方面都有巨大的優(yōu)勢。布隆過濾器存儲空間和插入/查詢時(shí)間都是常數(shù)。另外, Hash 函數(shù)相互之間沒有關(guān)系，方便由硬件并行實(shí)現(xiàn)。布隆過濾器不需要存儲元素本身，在某些對保密要求非常嚴(yán)格的場合有優(yōu)勢。

布隆過濾器可以表示全集，其它任何數(shù)據(jù)結(jié)構(gòu)都不能；

k 和 m 相同，使用同一組 Hash 函數(shù)的兩個(gè)布隆過濾器的交并差運(yùn)算可以使用位操作進(jìn)行。

缺點(diǎn)

但是布隆過濾器的缺點(diǎn)和優(yōu)點(diǎn)一樣明顯。誤算率（False Positive）是其中之一。隨著存入的元素?cái)?shù)量增加，誤算率隨之增加。但是如果元素?cái)?shù)量太少，則使用散列表足矣。

另外，一般情況下不能從布隆過濾器中刪除元素. 我們很容易想到把位列陣變成整數(shù)數(shù)組，每插入一個(gè)元素相應(yīng)的計(jì)數(shù)器加1, 這樣刪除元素時(shí)將計(jì)數(shù)器減掉就可以了。然而要保證安全的刪除元素并非如此簡單。首先我們必須保證刪除的元素的確在布隆過濾器里面. 這一點(diǎn)單憑這個(gè)過濾器是無法保證的。另外計(jì)數(shù)器回繞也會造成問題。

False positives 概率推導(dǎo)

假設(shè) Hash 函數(shù)以等概率條件選擇并設(shè)置 Bit Array 中的某一位，m 是該位數(shù)組的大小，k 是 Hash 函數(shù)的個(gè)數(shù)，那么位數(shù)組中某一特定的位在進(jìn)行元素插入時(shí)的 Hash 操作中沒有被置位的概率是：

那么在所有 k 次 Hash 操作后該位都沒有被置 “1” 的概率是：

如果我們插入了 n 個(gè)元素，那么某一位仍然為 “0” 的概率是：

因而該位為 "1"的概率是：

現(xiàn)在檢測某一元素是否在該集合中。標(biāo)明某個(gè)元素是否在集合中所需的 k 個(gè)位置都按照如上的方法設(shè)置為 “1”，但是該方法可能會使算法錯(cuò)誤的認(rèn)為某一原本不在集合中的元素卻被檢測為在該集合中（False Positives），該概率由以下公式確定：

其實(shí)上述結(jié)果是在假定由每個(gè) Hash 計(jì)算出需要設(shè)置的位（bit）的位置是相互獨(dú)立為前提計(jì)算出來的，不難看出，隨著 m （位數(shù)組大小）的增加，假正例（False Positives）的概率會下降，同時(shí)隨著插入元素個(gè)數(shù) n 的增加，False Positives的概率又會上升，對于給定的m，n，如何選擇Hash函數(shù)個(gè)數(shù) k 由以下公式確定：

此時(shí)False Positives的概率為：

而對于給定的False Positives概率 p，如何選擇最優(yōu)的位數(shù)組大小 m 呢，

上式表明，位數(shù)組的大小最好與插入元素的個(gè)數(shù)成線性關(guān)系，對于給定的 m，n，k，假正例概率最大為：

下圖是布隆過濾器假正例概率 p 與位數(shù)組大小 m 和集合中插入元素個(gè)數(shù) n 的關(guān)系圖，假定 Hash 函數(shù)個(gè)數(shù)選取最優(yōu)數(shù)目：

Bloom Filter 用例

Google 著名的分布式數(shù)據(jù)庫 Bigtable 使用了布隆過濾器來查找不存在的行或列，以減少磁盤查找的IO次數(shù)［3］。

Squid 網(wǎng)頁代理緩存服務(wù)器在 cache digests 中使用了也布隆過濾器［4］。

Venti 文檔存儲系統(tǒng)也采用布隆過濾器來檢測先前存儲的數(shù)據(jù)［5］。

SPIN 模型檢測器也使用布隆過濾器在大規(guī)模驗(yàn)證問題時(shí)跟蹤可達(dá)狀態(tài)空間［6］。

Google Chrome瀏覽器使用了布隆過濾器加速安全瀏覽服務(wù)［7］。

在很多Key-Value系統(tǒng)中也使用了布隆過濾器來加快查詢過程，如 Hbase，Accumulo，Leveldb，一般而言，Value 保存在磁盤中，訪問磁盤需要花費(fèi)大量時(shí)間，然而使用布隆過濾器可以快速判斷某個(gè)Key對應(yīng)的Value是否存在，因此可以避免很多不必要的磁盤IO操作，只是引入布隆過濾器會帶來一定的內(nèi)存消耗，下圖是在Key-Value系統(tǒng)中布隆過濾器的典型使用：

布隆過濾器相關(guān)擴(kuò)展

Counting filters

基本的布隆過濾器不支持刪除（Deletion）操作，但是 Counting filters 提供了一種可以不用重新構(gòu)建布隆過濾器但卻支持元素刪除操作的方法。在Counting filters中原來的位數(shù)組中的每一位由 bit 擴(kuò)展為 n-bit 計(jì)數(shù)器，實(shí)際上，基本的布隆過濾器可以看作是只有一位的計(jì)數(shù)器的Counting filters。原來的插入操作也被擴(kuò)展為把 n-bit 的位計(jì)數(shù)器加1，查找操作即檢查位數(shù)組非零即可，而刪除操作定義為把位數(shù)組的相應(yīng)位減1，但是該方法也有位的算術(shù)溢出問題，即某一位在多次刪除操作后可能變成負(fù)值，所以位數(shù)組大小 m 需要充分大。另外一個(gè)問題是Counting filters不具備伸縮性，由于Counting filters不能擴(kuò)展，所以需要保存的最大的元素個(gè)數(shù)需要提前知道。否則一旦插入的元素個(gè)數(shù)超過了位數(shù)組的容量，false positive的發(fā)生概率將會急劇增加。當(dāng)然也有人提出了一種基于 D-left Hash 方法實(shí)現(xiàn)支持刪除操作的布隆過濾器，同時(shí)空間效率也比Counting filters高。

Data synchronization

Byers等人提出了使用布隆過濾器近似數(shù)據(jù)同步［9］。

Bloomier filters

Chazelle 等人提出了一個(gè)通用的布隆過濾器，該布隆過濾器可以將某一值與每個(gè)已經(jīng)插入的元素關(guān)聯(lián)起來，并實(shí)現(xiàn)了一個(gè)關(guān)聯(lián)數(shù)組Map［10］。與普通的布隆過濾器一樣，Chazelle實(shí)現(xiàn)的布隆過濾器也可以達(dá)到較低的空間消耗，但同時(shí)也會產(chǎn)生false positive，不過，在Bloomier filter中，某 key 如果不在 map 中，false positive在會返回時(shí)會被定義出的。該Map 結(jié)構(gòu)不會返回與 key 相關(guān)的在 map 中的錯(cuò)誤的值。

Compact approximators［11］

Stable Bloom filters［12］

Scalable Bloom filters［13］

Attenuated Bloom filters［14］

參考鏈接

https://www.cnblogs.com/liyulong1982/p/6013002.html

參考資料

［1］維基百科：布隆過濾器：http://zh.wikipedia.org/zh/%E5%B8%83%E9%9A%86%E8%BF%87%E6%BB%A4%E5%99%A8

［2］數(shù)學(xué)之美二十一：布隆過濾器（Bloom Filter）：http://www.google.com.hk/ggblog/googlechinablog/2007/07/bloom-filter_7469.html

［3］Chang, Fay; Dean, Jeffrey; Ghemawat, Sanjay; Hsieh, Wilson; Wallach, Deborah; Burrows, Mike; Chandra, Tushar; Fikes, Andrew et al. (2006), “Bigtable: A Distributed Storage System for Structured Data”, Seventh Symposium on Operating System Design and Implementation

［4］Wessels, Duane (January 2004), “10.7 Cache Digests”, Squid: The Definitive Guide (1st ed.), O’Reilly Media, p. 172, ISBN 0-596-00162-2, “Cache Digests are based on a technique first published by Pei Cao, called Summary Cache. The fundamental idea is to use a Bloom filter to represent the cache contents.”

［5］http://plan9.bell-labs.com/magic/man2html/8/venti

［6］http://spinroot.com/

［7］http://src.chromium.org/viewvc/chrome/trunk/src/chrome/browser/safe_browsing/bloom_filter.h?view=markup

［8］http://en.wikipedia.org/wiki/Bloom_filter

［9］Byers, John W.; Considine, Jeffrey; Mitzenmacher, Michael; Rost, Stanislav (2004), “Informed content delivery across adaptive overlay networks”, IEEE/ACM Transactions on Networking 12 (5): 767, DOI:10.1109/TNET.2004.836103

［10］Chazelle, Bernard; Kilian, Joe; Rubinfeld, Ronitt; Tal, Ayellet (2004), “The Bloomier filter: an efficient data structure for static support lookup tables”, Proceedings of the Fifteenth Annual ACM-SIAM Symposium on Discrete Algorithms, pp. 30–39

［11］Boldi, Paolo; Vigna, Sebastiano (2005), “Mutable strings in Java: design, implementation and lightweight text-search algorithms”, Science of Computer Programming 54 (1): 3–23, DOI:10.1016/j.scico.2004.05.003

［12］Deng, Fan; Rafiei, Davood (2006), “Approximately Detecting Duplicates for Streaming Data using Stable Bloom Filters”, Proceedings of the ACM SIGMOD Conference, pp. 25–36

［13］Almeida, Paulo; Baquero, Carlos; Preguica, Nuno; Hutchison, David (2007), “Scalable Bloom Filters”, Information Processing Letters 101 (6): 255–261, DOI:10.1016/j.ipl.2006.10.007

［14］http://en.wikipedia.org/wiki/Bloom_filter#Attenuated_Bloom_filters

總結(jié)

以上是生活随笔為你收集整理的布隆过滤器(Bloom Filter)原理及优缺点剖析的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：【网址收藏】k8s中helm方式安装po
下一篇： postgresql常用数据类型：数值、