日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

前言

Hello,朋友們好,歡迎來到我的口述算法系列,今天的主題是大規模數據去重。

思路一

首先,這里的 IP 地址就是類似 192.168.1.1 這種具體的 IP 地址,而并不是 192.168.1.1/16 這種帶掩碼的表示方法。

一個 IP 地址可以用 4 個字節表示,對應一個 int 類型的整數,這個數的最大值就是 2 的 32 次方,大約是 512 Mbyte。從而,定義一個長度為 512M 的 bitset. 如果出現某個 IP 地址就把 bitset 對應的位置設為 1.

思路二

如果 IP 地址換成 IPv6 呢?每個 IPv6 地址需要用 64 bit 表示,那么這個 bitset 需要多大呢?2 的 64 次方,約 2 Ebyte,這是個天文數字。所以,如何在有限空間的 bitset 上實現大規模數據的去重呢?答案就是布隆過濾器,在我之前的文章中有詳細介紹過C++ 實現布隆過濾器 - 從上億條數據中查找某個記錄是否存在 。

大規模數據集中的每個元素就是 key,通過多個哈希函數計算出多個索引值,然后將 bitset 對應位置置為 1. 同理,在查找的時候,如果每個哈希函數求出來的索引值對應的 bitset 中都為 1,那么這個 key 就存在。

但是,布隆過濾器有個小小的缺點,它有一定的誤判概率,假設哈希函數的個數是 k,誤判率大概是 0.5 的 k 次方,所以誤判率隨著 k 的增加會變得非常小。

分享到:
標簽:地址 IP
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定