今天盤點 6 個爬蟲開源項目,它們可以幫你爬天爬地爬空氣,爬微博、爬B站、爬知乎、爬*站。
提前聲明,切勿使用這些項目從事非法商業活動,僅用于用于科研學習
私信小編01即可獲取大量Python/ target=_blank class=infotextkey>Python學習資源
01
微博爬蟲
這個開源項目程序可以持續爬取一個或多個新浪微博用戶(如李文di、無疫煩)的數據,并將結果信息寫入文件或數據庫。寫入信息幾乎包括用戶微博的所有數據,包括用戶信息和微博信息兩大類。
地址:https://github.com/dataabc/weiboSpider
爬取結果可寫入文件和數據庫,具體的寫入文件類型如下:
- txt文件
- csv文件
- json文件
- MySQL數據庫
- MongoDB數據庫
- SQLite數據庫
同時支持下載微博中的圖片和視頻,具體的可下載文件如下:
- 原創微博中的原始圖片
- 轉發微博中的原始圖片
- 原創微博中的視頻
- 轉發微博中的視頻
- 原創微博Live Photo中的視頻
- 轉發微博Live Photo中的視頻
首先需要修改 config.json 文件,然后爬取,程序會自動生成一個 weibo 文件夾,我們以后爬取的所有微博都被存儲在這里。
然后程序在該文件夾下生成一個名為"微博名字"的文件夾,明星的所有微博爬取結果都在這里。文件夾里包含一個csv文件、一個txt文件、一個json文件、一個img文件夾和一個video文件夾,img文件夾用來存儲下載到的圖片,video文件夾用來存儲下載到的視頻。如果你設置了保存數據庫功能,這些信息也會保存在數據庫里,數據庫設置見設置數據庫部分。
02
Python爬蟲教程
Python爬蟲教程系列、從 0 到 1 學習 Python 爬蟲,包括瀏覽器抓包,手機 App 抓包,如 fiddler、mitmproxy,各種爬蟲涉及的模塊的使用,如:requests、beautifulSoup、selenium、appium、scrapy 等,以及驗證碼識別,MySQL,MongoDB 數據庫的 Python 使用,多線程多進程爬蟲的使用,css 爬蟲加密逆向破解,JS爬蟲逆向,分布式爬蟲,爬蟲項目實戰實例等。
地址:https://github.com/wistbean/learn_python3_spider
03
爬蟲集合
這個開源項目收集了各種爬蟲 ,包括 Blibli、博客園、百度百科、北郵人、百度云網盤、Boss、貝殼、豆瓣、CSDN、抖音、GitHub、京東、知乎、拉鉤、鏈家、微信公眾號、網易云等等,你能想到的國內外網站爬蟲,都可以先來這里看看有沒有開源的爬蟲。
地址:https://github.com/facert/awesome-spider
04
智能爬蟲平臺
這個開源平臺以流程圖的方式定義爬蟲,是一個高度靈活可配置的爬蟲平臺。你可以在該平臺配置各種爬蟲。
地址:https://gitee.com/ssssssss-team/spider-flow
接下來以流程圖的方式,開始配置一些變量和參數,點開始就能爬出你想要的數據。
05
JAVA爬蟲
Spiderman 是一個Java開源Web數據抽取工具,它能夠收集指定的Web頁面并從這些頁面中提取有用的數據。
Spiderman主要是運用了像XPath,正則表達式等這些技術來實數據抽取。
地址:https://gitee.com/l-weiwei/spiderman
06
爬蟲大全
這個開源項目包含多種網站、電商數據爬蟲。包含:淘寶商品、微信公眾號、大眾點評、招聘網站、閑魚、阿里任務、scrapy博客園、微博、百度貼吧、豆瓣電影、包圖網、全景網、豆瓣音樂、某省藥監局、搜狐新聞、機器學習文本采集、fofa資產采集、汽車之家、國家統計局、百度關鍵詞收錄數、蜘蛛泛目錄、今日頭條、豆瓣影評???。
地址:https://gitee.com/AJay13/ECommerceCrawlers