大家都知道“網絡爬蟲”這個詞,知道的朋友都聽過一句話”爬蟲學的好,監獄進的早“,其實任何工具如果合理利用,會大大幫助使用者提高效率,而使用過度了,就會造成負面影響,在這里。本身“網絡爬蟲”實際意思是“代替人們自動地在互聯網中進行數據信息的采集與整理”,說白了“網絡爬蟲”的核心其實就是“數據收集自動化”技術,如果說我們認識中的“爬蟲”是一個不好的詞的話,在這里,我希望通過“數據收集自動化”來代替,通過簡單的方式實現大家在工作生活中根據自身的需求收集網絡公開數據,并實現自動化收集的技術。
今天給大家帶來的是我認為全網最簡單的爬蟲工具——Instant Data Scraper
這是一個瀏覽器插件,主要運行環境是有Chome內核的瀏覽器,比如Chrome瀏覽器、
Edge瀏覽器、360極速瀏覽器等,之所以說這個工具是最簡單的數據采集自動化工具,它有以下幾個優點:
- 不需要任何代碼
- 可視化選擇想要的數據
- 無需重開窗口,不用登錄操作
- 多種分頁采集方式選擇
- 表格實現顯示采集結果
- 后臺操作,不影響前臺操作其他動作
- 延遲和最大等待時間自定義所需的抓取速度
- 數據導出保存方式可選擇XLSX、XLS、CSV格式文檔,適用不同場景
- 免費!免費!免費!
以Edge瀏覽器為例,教大家如何安裝Instant Data Scraper
- 打開Microsoft Edge瀏覽器擴展市場Microsoft Edge Addons
- 搜索Instant Data Scraper
Edge瀏覽器擴展搜索Instant Data Scraper結果
3.獲取Instant Data Scraper 并添加擴展
通過Instant Data Scraper在Edge擴展市場的網頁也可以直接安裝,省區上面兩個搜索步驟,鏈接如下:Microsoft Edge Addons安裝方式二:crx擴展文件離線安裝
- 最新版的Instant Data Scraper我已經上傳到了藍奏網盤,大家可以通過Instant_Data_Scraper_v1.0.8.crx - 藍奏云獲取到
- 打開Edge瀏覽器管理擴展頁面(本地鏈接edge://extentsions)
- 打開開發人員模式
打開edge瀏覽器開發人員模式
4.將Instant_Data_Scraper_v1.0.8.crx文件拖放到Edge瀏覽器管理擴展頁面并進行安裝擴展即可
以上方式不僅僅適用于Edge瀏覽器,Chrome瀏覽器以及國產其他Chrome內核的瀏覽器均適用,不過關于擴展應用市場是否能搜索到沒有確定,特別是Chrome瀏覽器需要特殊方式才能訪問擴展應用市場,所以建議無法在應用市場安裝的通過方式二進行安裝。
最終安裝后的效果,會在瀏覽器擴展管理頁面看到,有的瀏覽器默認會顯示在擴展欄處,有如下標志顯示
Instant Data Scraper擴展欄展示
Instant Data Scraper使用方法
關于Instant Data Scraper 的使用方法,我會通過幾個不同的使用場景來去介紹,不僅僅是教會大家如果使用Instant Data Scraper,同時通過不同場景的使用,可以融會貫通與類似的數據獲取方法。
通過Instant Data Scraper采集【豆瓣電影 Top250】數據并保存本地表格
學過Python/ target=_blank class=infotextkey>Python爬蟲的小伙伴都知道,初學python爬蟲技術,基本上都會拿豆瓣電影 Top250作為實例測試,而python要獲取豆瓣電影 Top250的數據可能對于初學者是一個敲門磚,我們看看通過Instant Data Scraper獲取豆瓣電影 Top250會有多么的簡單。
- 打開豆瓣定影Top250頁面「鏈接」
2.點擊Instant Data Scraper擴展程序,自動識別并以表格實時展現當前頁面的數據,同時可以直接進行相關編輯,比如修改首行標題、刪除不想要的數據列等等,由此獲取豆瓣電影Top250的第一頁內容已經完美得到
Instant Data Scraper獲取豆瓣電影250數據
第一次打開Instant Data Scraper頁面,由于界面都是英文的,其實頁沒什么內容,在此我通過一個截圖翻譯一下整個Instant Data Scraper界面的大致意思和功能。
Instant Data Scraper頁面介紹
3.定位“下一頁”元素進行分頁獲取數據操作:點擊“Locate 'Next' button", 進入元素選擇模式(鼠標所在會顯示綠色陰影),鼠標選擇“后頁”元素(這個網頁是選擇“后頁”,但其他的網站不一定,通過觀察看點擊那個會自動跳到下一頁即可)
Instant Data Scraper選擇下一頁
4.當選擇“下一頁”元素之后原來的"Location 'Next' button"會顯示成"Start crawling"標志,代表已選擇分頁選擇模式,點擊"Start crawling"即可開始爬取。如果“下一頁”元素選擇錯誤可以直接再重新點擊“下一頁”元素標記即可。
Instant Data Scraper開始獲取數據
不同網站會設定連續翻頁時間間隔限制防爬,Instant Data Scraper默認的時間間隔是1-20秒隨機時間延遲,針對于后期使用過程中,可根據需求自定義,沒有時間限制的可以減少最大延遲時間,以加快獲取數據速度。
5.當出現上面截圖顯示時代表了爬取數據結束,選擇合適的格式下載結果,如沒有特殊需求建議下載XLSX的常用office表格格式,方便進行進一步數據篩選編輯等操作。
Instant Data Scraper數據獲取結束頁面
數據下載完成打開即可看到全部250條影視信息詳情列表了,可以進行相關的其他操作,比如設定第一行改為需要的標題,刪除不需要的內容等,同時有其他需求的還可以進行數據篩查、數據透視表等操作。
通過實際操作,小伙伴應該會發現,通過Instant Data Scraper 進行數據獲取時多么簡單的一個事情,拿獲取豆瓣250數據為例,及時通過Python寫爬蟲腳本,也需要不斷時間,而通過Instant Data Scraper 獲取數據,僅需要點擊幾下就可以,是不是最簡單的數據獲取工具呢?
當然,Instant Data Scraper一定不是萬能的,面對于有更高要求的用戶,或者獲取到的內容不一定是自己需要的,Instant Data Scraper暫時就做不到了,最大的局限性應該就在于不可自定義,純傻瓜式操作,而Instant Data Scraper最大的優點也同樣是傻瓜式操作,即可自動化獲取數據,基本滿足大部分人日常辦公生活等場景需要。
關注我,下一期帶你去看Instant Data Scraper在其他場景下的使用方法,比如電商平臺,比如圖片網站等,同時后期我也會帶來更多其他“數據收集自動化”技術,針對人群是廣大沒有編程基礎或者僅在日常工作場景使用的簡單的數據收集的人。