以下我們介紹了什么是布隆過濾器?它的使用場景和執行流程,以及在 redis 中它的使用,那么問題來了,在日常開發中,也就是在 JAVA 開發中,我們又將如何操作布隆過濾器呢?
布隆過濾器(Bloom Filter)是一種空間效率極高的概率型數據結構,用于判斷一個元素是否在一個集合中。它基于位數組和多個哈希函數的原理,可以高效地進行元素的查詢,而且占用的空間相對較小,如下圖所示:
根據 key 值計算出它的存儲位置,然后將此位置標識全部標識為 1(未存放數據的位置全部為 0),查詢時也是查詢對應的位置是否全部為 1,如果全部為 1,則說明數據是可能存在的,否則一定不存在。
也就是說,如果布隆過濾器說一個元素不在集合中,那么它一定不在這個集合中;但如果它說一個元素在集合中,則有可能是不存在的(存在誤差)。
1、布隆執行過程
布隆過濾器的具體執行步驟如下:
- 在 Redis 中創建一個位數組,用于存儲布隆過濾器的位向量。
- 初始化多個哈希函數,并將每個哈希函數的計算結果對應的位數組位置設置為 1。
- 添加元素到布隆過濾器時,對元素進行多次哈希計算,并將對應的位數組位置設置為 1。
- 查詢元素是否存在時,對元素進行多次哈希計算,并檢查對應的位數組位置是否都為 1。
2、布隆使用場景
布隆過濾器的主要使用場景有以下幾個:
- 大數據量去重:可以用布隆過濾器來進行數據去重,判斷一個數據是否已經存在,避免重復插入。
- 緩存穿透:可以用布隆過濾器來過濾掉惡意請求或請求不存在的數據,避免對后端存儲的頻繁訪問。
- 網絡爬蟲的 URL 去重:可以用布隆過濾器來判斷 URL 是否已經被爬取,避免重復爬取。
3、如何實現布隆過濾器?
在 Redis 中不能直接使用布隆過濾器,但我們可以通過 Redis 4.0 版本之后提供的 modules (擴展模塊) 的方式引入,它的實現步驟如下。
(1)打包RedisBloom插件
“
git clone https://Github.com/RedisLabsModules/redisbloom.git
cd redisbloom
make # 編譯redisbloom
”
編譯正常執行完,會在根目錄生成一個 redisbloom.so 文件。
(2)啟用RedisBloom插件
重新啟動 Redis 服務,并指定啟動 RedisBloom 插件,具體命令如下:
“
redis-server redis.conf --loadmodule ./src/modules/RedisBloom-master/redisbloom.so
”
(3)創建布隆過濾器
創建一個布隆過濾器,并設置期望插入的元素數量和誤差率,在 Redis 客戶端中輸入以下命令:
“
BF.RESERVE my_bloom_filter 0.01 100000
”
(4)添加元素到布隆過濾器
在 Redis 客戶端中輸入以下命令:
“
BF.ADD my_bloom_filter leige
”
(5)檢查元素是否存在
在 Redis 客戶端中輸入以下命令:
“
BF.EXISTS my_bloom_filter leige
”
課后思考
以上我們介紹了什么是布隆過濾器?它的使用場景和執行流程,以及在 Redis 中它的使用,那么問題來了,在日常開發中,也就是在 Java 開發中,我們又將如何操作布隆過濾器呢?