日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù)，提交前請(qǐng)做好本站友鏈：【網(wǎng)站目錄：http://www.ylptlb.cn 】，免友鏈快審服務(wù)（50元/站），

點(diǎn)擊這里在線咨詢客服

網(wǎng)站：51998
待審：31
小程序：12
文章：1030137
會(huì)員：747

首頁 > 新聞資訊 > IT業(yè)界 >正文

使用布隆過濾器用于Python網(wǎng)絡(luò)爬蟲URL去重布隆過濾器原理布隆過濾器參數(shù)選擇布隆過濾器應(yīng)用

發(fā)布時(shí)間：2023-07-03 11:44:01 作者：網(wǎng)友整理

布隆過濾器（BloomFilter）類似于hash set，用來判斷元素是否在集合中。但是與hash set區(qū)別是：布隆過濾器不需要存儲(chǔ)元素值，就能判斷元素是否在集合中。

說一下布隆過濾器優(yōu)缺點(diǎn)：

優(yōu)點(diǎn)：相比于其它的數(shù)據(jù)結(jié)構(gòu)，其在空間和時(shí)間方面都有巨大的優(yōu)勢(shì)，內(nèi)存資源占用低、查找速度快；
缺點(diǎn)：存在低概率的識(shí)別錯(cuò)誤（布隆過濾器識(shí)別某一元素存在，但是實(shí)際上該元素并不在），以及更新到集合中的元素不能刪除。

布隆過濾器原理

布隆過濾器是由一個(gè)特定長(zhǎng)度的二進(jìn)制向量（可以理解為位數(shù)組，如32位的位數(shù)組，大小為4個(gè)字節(jié)，每一位取值只有0和1）和多個(gè)哈希函數(shù)構(gòu)成。

布隆過濾器添加元素過程：

有一個(gè)m位的位數(shù)組，位數(shù)組每一位初始化為0
選擇k個(gè)不同的哈希函數(shù)，第n個(gè)哈希函數(shù)對(duì)字符串的哈希值，記為hash(n,str)，且hash(n,str)取值范圍0~m-1
字符串經(jīng)k個(gè)不同的哈希函數(shù)，計(jì)算得到k個(gè)數(shù)值，記為hash(1,str)…hash(k,str)
字符串每個(gè)哈希數(shù)值，對(duì)應(yīng)位數(shù)組的下標(biāo)位置對(duì)應(yīng)的值，置1
這樣字符串就映射到位數(shù)組中k個(gè)二進(jìn)制位了

使用布隆過濾器用于Python網(wǎng)絡(luò)爬蟲URL去重

布隆過濾器查詢?cè)剡^程：

將要查詢的字符串給k個(gè)哈希函數(shù)，得到對(duì)應(yīng)于位數(shù)組上的k個(gè)位置
如果k個(gè)位置有一個(gè)為0，則集合一定不存在該字符串
如果k個(gè)位置全部為1，則集合可能存在該字符串

如何判斷字符串存在呢？

只需將字符串經(jīng)hash(1,str)…hash(k,str)哈希映射，檢查每一個(gè)映射所對(duì)應(yīng)位數(shù)組位置的值是否都為1，若k個(gè)位置的值都是1，則字符串存在，不全為1，則字符串一定不存在。

其中選擇k個(gè)哈希函數(shù)比較麻煩，這里換個(gè)思路，選擇一個(gè)哈希函數(shù)，附帶k個(gè)不同的參數(shù)

布隆過濾器參數(shù)選擇

布隆過濾器參數(shù)選擇分為：哈希函數(shù)選擇以及參數(shù)m,n,k取值

哈希函數(shù)選擇

哈希函數(shù)的選擇對(duì)布隆過濾器的性能影響很大，哈希函數(shù)要具有較好的離散性（能近似等概率的將字符串映射到各個(gè)位）。

哈希函數(shù)推薦采用Murmur hash

Murmur hash是一種非加密型哈希函數(shù)，適用于一般的哈希檢索操作，與其它流行的哈希函數(shù)相比，對(duì)于規(guī)律性較強(qiáng)的字符串內(nèi)容，MurmurHash的隨機(jī)分布特征表現(xiàn)更良好，而且計(jì)算性能也很快

參數(shù)m,n,k取值

k - 哈希函數(shù)個(gè)數(shù)
m - 位數(shù)組的長(zhǎng)度
n - 布隆過濾器加入字符串?dāng)?shù)量

當(dāng)k、m、n三者滿足 k = ln(2)* m/n 時(shí)，誤識(shí)別率最低。

當(dāng)哈希函數(shù)個(gè)數(shù)k=10，位數(shù)組長(zhǎng)度m是字符串個(gè)數(shù)n的20倍時(shí)，誤識(shí)別概率是0.0000889 ；即10萬次判斷，存在9次誤判，1億次判斷，誤判的次數(shù)為9000次

布隆過濾器應(yīng)用

網(wǎng)絡(luò)爬蟲 - 爬蟲是否訪問過URL
垃圾郵件過濾
檢測(cè)海量的名單
檢查單詞拼寫是否正確 - 看它是否在已經(jīng)字典中

分享到：

標(biāo)簽：過濾器

網(wǎng)友整理

注冊(cè)時(shí)間：

網(wǎng)站：5 個(gè) 小程序：0 個(gè) 文章：12 篇

51998
網(wǎng)站
12
小程序
1030137
文章
747
會(huì)員

趕快注冊(cè)賬號(hào)，推廣您的網(wǎng)站吧！

文章分類

熱門網(wǎng)站

各百科-專業(yè)百科問答知識(shí)名網(wǎng)站 m.geelcn.com
免費(fèi)軟件,綠色軟件園,手機(jī)軟件下載,熱門游戲下載中心-中當(dāng)網(wǎng) m.deelcn.com
魔扣科技 www.ylptlb.cn
體育新聞_國(guó)際體育資訊_全球體育賽事-中名網(wǎng) www.feelcn.com/tiyu/tiyuxinwen/
食品安全_健康飲食_舌尖上的安全-中名網(wǎng) www.feelcn.com/shenghuo/shipinanquan/
中合網(wǎng) www.heelcn.com
中當(dāng)網(wǎng) www.deelcn.com
魔扣網(wǎng)站維護(hù)代運(yùn)營(yíng) www.ylptlb.cn/tg
中合網(wǎng)-健康養(yǎng)生知識(shí)科普名站 m.heelcn.com
各百科 www.geelcn.com

最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲，玩家需要根據(jù)9

答題星

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試

全階人生考試2018-06-03

各種考試題，題庫(kù)，初中，高中，大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù)，積累氧氣值。還可偷

每日養(yǎng)生app

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定

熱門文章