12.23 布隆過濾器原理以及Golang下的簡單實現

2019-12-23 20:01:56 阿邁達聊技術

摘要：

判斷目標值是否在一個大的集合中是比較常見的業務場景，相應的解決方案有很多，比如大的Hash表、Byte數組、BitSet等方案。當集合非常大的時候，這些方案在內存佔用方面都比較大。BitSet方案相對比較可行。

BloomFilter是解決這種問題最好的方案，它在內存佔用、查詢性能等方面都是最優秀的，但是它有一定的誤判概率，這種誤判概率是可以接受的。

假設我們有這樣的一個業務邏輯：

我們有一個網站，並且網站的流量和獨立用戶數非常大。當有用戶訪問我們網站的時候，我們需要判斷該用戶是否是第一次訪問我們的網站。這是一個很場景的業務場景，我們可以想到以下兩種方案來解決該問題。

一、Hash表來存儲每個用戶的IP

當有用戶訪問網站發送請求的時候，我們把用戶的IP存到一張Hash表中。當有用戶發送訪問請求的時候，我們先去Hash表中找該IP，如果可以找到，則證明用戶訪問過。Hash表的存取時間複雜度都是O(1)，效率很高。

這種方案看似沒什麼問題，但是前提是網站的獨立用戶數不大。如果網站的獨立用戶數非常大，我們假設達到了1個億。那這1個億的IP Hash值需要多大的內存空間呢？每個ip的長度是15，一共需要15 * 100000000 = 1500000000Bytes = 1.4G，這還沒考慮hash衝突的問題（hash表中的槽位越多，越浪費空間，槽位越少，效率越低）。

二、IP轉換成無符號的int型值來存儲

Hash表佔用太大的內存空間，為了節省內存空間。我們可以把ip轉換成無符號的int型值來存儲，這樣一個ip只需要佔用4個字節就行了，這時1億個ip佔用的空間是4 * 100000000 = 400000000Bytes = 380M，空間消耗降低了很多。

除了以上兩種方法，我們還有沒有其其它更好的方法呢？有，BitSet。

三、BitSet

32位無符號int型能表示的最大值是4294967295，所有的ip都在這個範圍內，我們可以用一個bit位來表示某個ip是否出現過，如果出現過，就把代表該ip的bit位置為1，那麼我們最多需要429496729個bit就可以表示所有的ip了。

舉個例子比如127.0.0.1轉換成int是167772161，那麼把長度為4294967295的bit數組的第167772161個位置置為1即可，當有ip訪問時，只需要檢查該標誌位是否為1就行了。

<code>4294967295bit = 536870912Byte = 512M/<code>

如果用hash表示所有4294967295範圍內的數組的話，需要十幾G的空間。

我們來看看BitSet具體怎樣實現。

首先，比如我們有一個長度=2的byte數組，2個字節一共有16位，可以表示0-15的數字是否存在。比如我們要驗證11是否出現過，那麼我們先檢查第11個位置是否為1，如果為0，說明11沒出現過，然後我們把第11位置為1，表示11已經出現過了

所以，BitSet基本只有兩個操作，set(int value) 和 isHas(int value)

set(int value)

我們先來看set怎麼實現，因為一個byte佔8位，所以對於一個給定的value，我們先求出該value應該位於哪個Byte上，這很簡單，

<code> int byteIndex = value / 8/<code>

找到value在byte數組中的位置後，再就是在該字節中尋找表示value的bit位，我們知道，一個byte其實就是一個長為8的bit數組，那麼value在該bit數組中的位置也就很好算了

<code>int bitIndex = value % 8;/<code>

最後我們把該bit位設置為1就可以了

<code>byte[byteIndex] = byte[byteIndex] | 1 << ( 7 - bitIndex)

/<code>

<code>public void set(int value){

int byteIndex = value / 8;

int bitIndex = value % 8;

byte[byteIndex] = byte[byteIndex] | 1 << (7 - bitIndex)

}/<code>

isHas(int value)

<code>public boolean isHash(int value){

int byteIndex = value / 8;

int bitIndex = value % 8;

return byte[byteIndex] & 1 << (7 - bitIndex) > 0 


}/<code>

BitSet的侷限性

BitSet有兩個比較侷限的地方：

當樣本分佈極度不均勻的時候，BitSet會造成很大空間上的浪費。

舉個例子，比如你有10個數，分別是1、2、3、4、5、6、7、8、99999999999；那麼你不得不用99999999999個bit位去實現你的BitSet,而這個BitSet的中間絕大多數位置都是0，並且永遠不會用到，這顯然是極度不划算的。

當元素不是整型的時候，BitSet就不適用了。

想想看，你拿到的是一堆url，然後如果你想用BitSet做去重的話，先得把url轉換成int型，在轉換的過程中難免某些url會計算出相同的int值，於是BitSet的準確性就會降低。

那針對這兩種情況有沒有解決辦法呢？

第一種分佈不均勻的情況可以通過hash函數，將元素都映射到一個區間範圍內，減少大段區間閒置造成的浪費，這很簡單，取模就好了，難的是取模之後的值保證不相同，即不發生hash衝突。

第二種情況，把字符串映射成整數是必要的，那麼唯一要做的就是保證我們的hash函數儘可能的減少hash衝突，一次不行我就多hash幾次，hash還是容易碰撞，那我就擴大數組的範圍，使hash值儘可能的均勻分佈，減少hash衝突的概率。

基於這種思想，BloomFilter誕生了。

BloomFilter

BloomFiler又叫布隆過濾器，下面舉例說明BlooFilter的實現原理：

比如你有10個Url，你完全可以創建一長度是100bit的數組，然後對url分別用5個不同的hash函數進行hash，得到5個hash後的值，這5個值儘可能的保證均勻分佈在100個bit的範圍內。然後把5個hash值對應的bit位都置為1，判

斷一個url是否已經存在時，一次看5個bit位是否為1就可以了，如果有任何一個不為1，那麼說明這個url不存在。這裡需要注意的是，如果對應的bit位值都為1，那麼也不能肯定這個url一定存在，這個是BloomFilter的特點之一。

BloomFilter的核心思想有兩點：

多個hash，增大隨機性，減少hash碰撞的概率。

擴大數組範圍，使hash值均勻分佈，進一步減少hash碰撞的概率。

BloomFilter的準確性

儘管BloomFilter已經儘可能的減小hash碰撞的概率了，但是，並不能徹底消除，因此正如上面提到的：

如果對應的bit位值都為1，那麼也不能肯定這個url一定存在。

BloomFilter其實是存在一定的誤判的，這個誤判的概率顯然和數組的大小以及hash函數的個數以及每個hash函數本身的好壞有關。不過這種誤判概率還是比較小的，空間利用率也很高。

BloomFilter的應用

黑名單

比如郵件黑名單過濾器，判斷郵件地址是否在黑名單中

排序(僅限於BitSet)

BitSet在set(int value)的時候，“順便”把value也給排序了。

網絡爬蟲

判斷某個URL是否已經被爬取過

K-V系統快速判斷某個key是否存在

典型的例子有Hbase，Hbase的每個Region中都包含一個BloomFilter，用於在查詢時快速判斷某個key在該region中是否存在，如果不存在，直接返回，節省掉後續的查詢。

BloomFilter Golang代碼實現：

1、定義BloomFilter以及Hash方法

2、初始化BloomFilter

3、定義add方法

4、定義contain方法

最後：

布隆過濾器是一個非常經典的算法，在大數匹配的場景中很有用。如果業務中涉及到判斷目標值是否在一個大的集合中，可以考慮選擇使用布隆過濾器。

分享到:

閱讀更多 阿邁達聊技術 的文章

關鍵字: Hash BitSet 方案

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"

12.23 布隆過濾器原理以及Golang下的簡單實現

摘要：

一、Hash表來存儲每個用戶的IP

二、IP轉換成無符號的int型值來存儲

三、BitSet

BloomFilter

BloomFilter Golang代碼實現：

最後：

相關文章:

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

Hive分桶表

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

第一章 Spring Framework概述

opencv人工智能深度學習這樣實現人臉的年齡檢測

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

Redis內存分析工具--rdr安裝與使用

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

一行代碼提升遷移性能

利用相似幾何信息，做可泛化3D形狀分割模型

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

分佈式緩存，真香

特徵工程的力量

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

SpringBoot如何優雅的使用RocketMQ

css代碼規範工具stylelint

如何理解《紅樓夢》中麝月判詞？真正的含義是什麼？

10.7湖人87-103輸快船，三分18中3貢獻20次失誤，無詹湖人實力就這樣？

劉震雲的《手機》，拋開馮小剛、崔永元不談，那它到底有多大的藝術價值？

驚聞臧天朔去世之消息，深感惋惜，你覺得臧天朔算一個藝術家嗎？還是隻能算一個歌手？

為什麼有些人嘴上說愛國卻選擇移民美國，不願意回國？這些人是什麼心理？

你認為有些明星是如何大發橫財的？

那些在國外要被註銷綠卡，但已經沒有中國國籍的移民，以後該怎麼辦？

為什麼有一些富人和明星，天天嘴裡喊著多麼愛國，其實早就移民改國籍了呢？

分開一段時間的情侶還有機會在一起嗎？

在養蜂過程中，蜜蜂經常死亡，如何通過蜜蜂屍體判斷蜜蜂死亡原因？

喜歡的人以前和別人發生過關係，想在一起一輩子，但是內心介意怎麼辦？

明天a股開盤，星期一的走向會如何？你怎麼看？

有些人支持禁止養狗，對此你怎麼看？

豐臺商場“搶孩子”一方說認錯孩子了，你信嗎？認錯孩子就可以搶別人孩子而不犯法嗎？

2018年山東的花生米多少錢一斤？為什麼會出現這種價格？

你們說以後有沒有可能研製出，戰鬥機發現後面目標，向後發射空空導彈擊毀敵機的可能？

陝西漢中火車站有沒有可能成為一個鐵路樞紐站？

漢中是一個怎樣的城市？

1926年出征的北伐軍為何只打吳佩孚、孫傳芳和張作霖，而不打其他軍閥？

韓國總統已成全球最高危職業，以後還有人幹嗎？你怎麼看？

急性乳腺炎，該怎麼緩解？

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪