今天盤點 6 個爬蟲開源項目，它們可以幫你爬天爬地爬空氣，爬微博、爬B站、爬知乎、爬*站。

提前聲明，切勿使用這些項目從事非法商業活動，僅用于用于科研學習

私信小編01即可獲取大量Python/ target=_blank class=infotextkey>Python學習資源

01 微博爬蟲

這個開源項目程序可以持續爬取一個或多個新浪微博用戶（如李文di、無疫煩）的數據，并將結果信息寫入文件或數據庫。寫入信息幾乎包括用戶微博的所有數據，包括用戶信息和微博信息兩大類。

地址：https://github.com/dataabc/weiboSpider

爬取結果可寫入文件和數據庫，具體的寫入文件類型如下：

txt文件
csv文件
json文件
MySQL數據庫
MongoDB數據庫
SQLite數據庫

同時支持下載微博中的圖片和視頻，具體的可下載文件如下：

原創微博中的原始圖片
轉發微博中的原始圖片
原創微博中的視頻
轉發微博中的視頻
原創微博Live Photo中的視頻
轉發微博Live Photo中的視頻

首先需要修改 config.json 文件，然后爬取，程序會自動生成一個 weibo 文件夾，我們以后爬取的所有微博都被存儲在這里。

然后程序在該文件夾下生成一個名為"微博名字"的文件夾，明星的所有微博爬取結果都在這里。文件夾里包含一個csv文件、一個txt文件、一個json文件、一個img文件夾和一個video文件夾，img文件夾用來存儲下載到的圖片，video文件夾用來存儲下載到的視頻。如果你設置了保存數據庫功能，這些信息也會保存在數據庫里，數據庫設置見設置數據庫部分。

02 Python爬蟲教程

Python爬蟲教程系列、從 0 到 1 學習 Python 爬蟲，包括瀏覽器抓包，手機 App 抓包，如 fiddler、mitmproxy，各種爬蟲涉及的模塊的使用，如：requests、beautifulSoup、selenium、appium、scrapy 等，以及驗證碼識別，MySQL，MongoDB 數據庫的 Python 使用，多線程多進程爬蟲的使用，css 爬蟲加密逆向破解，JS爬蟲逆向，分布式爬蟲，爬蟲項目實戰實例等。

地址：https://github.com/wistbean/learn_python3_spider

03 爬蟲集合

這個開源項目收集了各種爬蟲，包括 Blibli、博客園、百度百科、北郵人、百度云網盤、Boss、貝殼、豆瓣、CSDN、抖音、GitHub、京東、知乎、拉鉤、鏈家、微信公眾號、網易云等等，你能想到的國內外網站爬蟲，都可以先來這里看看有沒有開源的爬蟲。

地址：https://github.com/facert/awesome-spider

04 智能爬蟲平臺

這個開源平臺以流程圖的方式定義爬蟲，是一個高度靈活可配置的爬蟲平臺。你可以在該平臺配置各種爬蟲。

地址：https://gitee.com/ssssssss-team/spider-flow

接下來以流程圖的方式，開始配置一些變量和參數，點開始就能爬出你想要的數據。

05 JAVA爬蟲

Spiderman 是一個Java開源Web數據抽取工具，它能夠收集指定的Web頁面并從這些頁面中提取有用的數據。

Spiderman主要是運用了像XPath，正則表達式等這些技術來實數據抽取。

地址：https://gitee.com/l-weiwei/spiderman

06 爬蟲大全

這個開源項目包含多種網站、電商數據爬蟲。包含：淘寶商品、微信公眾號、大眾點評、招聘網站、閑魚、阿里任務、scrapy博客園、微博、百度貼吧、豆瓣電影、包圖網、全景網、豆瓣音樂、某省藥監局、搜狐新聞、機器學習文本采集、fofa資產采集、汽車之家、國家統計局、百度關鍵詞收錄數、蜘蛛泛目錄、今日頭條、豆瓣影評???。

地址：https://gitee.com/AJay13/ECommerceCrawlers

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

被稱之為永遠的神！就這6個Python爬蟲開源項目？

01

微博爬蟲

02

Python爬蟲教程

03

爬蟲集合

04

智能爬蟲平臺

05

JAVA爬蟲

06

爬蟲大全

數獨大挑戰2018-06-03

答題星2018-06-03

全階人生考試2018-06-03

運動步數有氧達人2018-06-03

每日養生app2018-06-03

體育訓練成績評定2018-06-03