日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網為廣大站長提供免費收錄網站服務，提交前請做好本站友鏈：【網站目錄：http://www.ylptlb.cn 】，免友鏈快審服務（50元/站），

點擊這里在線咨詢客服

網站：51998
待審：31
小程序：12
文章：1030137
會員：747

首頁 > 新聞資訊 > IT業界 >正文

Python網絡爬蟲之URL去重方法：本地內存，Redis，布隆過濾器URL去重應用幾種URL去重方法介紹最終URL去重方案最后

發布時間：2023-07-03 16:59:16 作者：網友整理

URL去重應用

URL去重廣泛應用于網絡爬蟲方面，主要體現在以下兩點：

實現增量爬蟲時，需要判斷哪些網頁已經爬取了，哪些網頁是新產生的，對新產生的網頁，增量爬蟲需要抓取其內容；
避免爬蟲出現“死循環”，由于網絡間鏈接非常復雜，爬蟲在爬取數據時，容易出現閉環的死循環現象，重復做無用功，無法爬取新的內容，為了避免出現死循環，需要讓爬蟲知道哪些URL已經爬取了，已爬取的URL不再訪問。

幾種URL去重方法介紹

使用關系型數據庫對URL去重

點評：使用關系型數據庫查詢URL是否存在，進而實現URL去重，這種方式效率低，速度慢，數據量越大查詢越慢，不推薦！

使用類Python set數據結構（內存去重）

又可以分為兩種方法：使用Python set結構直接存儲URL去重，或者存儲URL對應的MD5來去重;

兩種方法是基于內存去重，但第二種方法優勢在于降低了內存的消耗。

假設存儲1億個不同的URL，每個URL平均長度為80個字符：

通過Python set結構存儲URL，消耗的內存大小為7.45GB
通過Python set結構存儲URL對應的MD5，消耗的內存大小為2.98GB

關于內存消重，能夠實現數據快速去重，但受制內存大小的限制，這就決定了去重數據量規模，如果是十億級，百億級URL消重，就無法應付了；同時內存去重還有一個問題就是數據持久化問題：主機意外故障，內存數據將不復存在。

使用redis數據庫去重，利用Redis中的set數據結構（內存去重）

也是基于內存去重，Redis數據庫有集合數據類型，可以直接存儲URL去重，或者存儲URL對應的MD5來去重;

優勢在于：便于分布式爬蟲共用同一份消重數據，保證了數據一致性，而且支持數據持久化；

缺點在于：同樣，受制于內存大小限制，如果是十億級，百億級URL消重，就無法應付了；

使用布隆過濾器（BloomFilter）實現URL去重

布隆過濾器是一種去重算法，這種去重方法占用內存極低，基本上可以忽略內存大小對去重數據量的限制；但是有一個問題，存在低概率的誤報。

最終URL去重方案

綜合以上URL去重方法，URL最終的去重方案為：

內存去重：基于Redis數據庫，存儲URL對應的MD5，實現百萬或千萬級數據量消重方案，可以滿足大多數中型爬蟲業務需要
布隆過濾器（BloomFilter）+ Redis方案：上億甚至十幾億海量數據消重方案，滿足大型爬蟲業務需要

最后根據業務場景需求，選擇合適的去重方式！

以上兩點核心問題在于如何實現快速去重方法。

最后

有關布隆過濾器介紹，及Python版實現，會在后續文章重點介紹，敬請期待！

分享到：

標簽：Python

網友整理

注冊時間：

網站：5 個小程序：0 個文章：12 篇

51998
網站
12
小程序
1030137
文章
747
會員

趕快注冊賬號，推廣您的網站吧！

文章分類

熱門網站

各百科-專業百科問答知識名網站 m.geelcn.com
免費軟件,綠色軟件園,手機軟件下載,熱門游戲下載中心-中當網 m.deelcn.com
魔扣科技 www.ylptlb.cn
體育新聞_國際體育資訊_全球體育賽事-中名網 www.feelcn.com/tiyu/tiyuxinwen/
食品安全_健康飲食_舌尖上的安全-中名網 www.feelcn.com/shenghuo/shipinanquan/
中合網 www.heelcn.com
中當網 www.deelcn.com
魔扣網站維護代運營 www.ylptlb.cn/tg
中合網-健康養生知識科普名站 m.heelcn.com
各百科 www.geelcn.com

最新入駐小程序

數獨大挑戰

數獨大挑戰2018-06-03

數獨一種數學游戲，玩家需要根據9

答題星

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試

全階人生考試2018-06-03

各種考試題，題庫，初中，高中，大學四六

運動步數有氧達人

運動步數有氧達人2018-06-03

記錄運動步數，積累氧氣值。還可偷

每日養生app

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定

熱門文章