1. 工欲善其事必先利其器
做下載的爬蟲工程師在開工之前,都是人手必備自己熟練使用的一套工具,最基本的工具包括以下幾點:
1.1資源展示介質
由于資源展示介質多樣性,導致爬蟲身邊必備的被爬資源展示介質也是多樣性的,大致可以分為:瀏覽器(PC端和移動端)、PC客戶端和移動端App。
瀏覽器
在瀏覽器中Elements、Network、Sources和Resources是爬蟲工程師需要注意的tab;其中Network是網絡請求的原始數據,而Elements是經過瀏覽器渲染后的數據。PC客戶端和移動端app這里面就不多做介紹了。
1.2抓包工具
目前可用的抓包工具有很多,包括:Wireshark、fiddler、Firebug、HttpFox、tcpdump、sniffer、omnipeek和charles。推薦使用的是:Wireshark。
Wireshark是一款小巧、開源且能在幾乎所有流行操作系統下使用的抓包工具軟件,很適合一般人員學習網絡協議使用,也是協議開發人員驗證協議的好工具。由于Wireshark存在緩存溢出的BUG,建議不要將它用于分析流量很大的百兆網絡,也不要用于千兆網絡分析。
Wireshark
Charles抓手機數據包
網址:http://m.blog.csdn.net/article/details?id=47038675
注意電腦防火墻要關閉。
1.3 Android APK介質
在抓Android APK請求數據包,可以將你要抓取的Android APK裝在真機、Android自帶的模擬器或者第三方模擬器上。使用真機話過程比較繁瑣,需要在真機上通過tcpdump抓包并通過adb待分析的包pull到PC上;使用Andorid自帶的模擬器速度比較慢。這里推薦使用第三方模擬器。
目前市面上第三方安卓模擬器軟件有兩大流派:Bluestacks和Virutalbox,都是可以在電腦上玩手游的,主要包含以下:
a. Bluestacks:安卓模擬器鼻祖,印度公司研發,號稱全球有1億用戶。對于國內部分流行游戲不兼容不支持。受制于內核技術,雖然使用電腦的門檻低,但是游戲兼容性,尤其是性能欠佳。
b. 靠譜助手:國內最早(2013年開始)基于Bluestacks內核的安卓模擬器,優化了使用界面與用戶體驗。但是靠譜缺少屬于自己的內核技術,在兼容性和性能方面依舊有很大的提升空間,產品的形態無法自由更改。
c. 海馬玩:國內首款基于Oracle Virtualbox商業版的安卓模擬器,2014年底產品推出時與Bluestacks內核的安卓模擬器形成鮮明對比,在性能及兼容性都有明顯提升,獲得了比Bluestacks內核模擬器好很多的口碑。優點是較穩定,但版本更新速度慢,彈出廣告插件多,用戶體驗差,功能定制方面有較多缺失。
d. 逍遙安卓模擬器:基于自研定制Virtualbox的強勁安卓模擬器,業界首創的一鍵多開是其亮點。版本更新快,性能強,運行流暢,需求響應及時。模擬器性能和兼容性均不錯,在手游體驗的優化上做的非常好,這個是亮點,玩手游玩家的首選。
e. 夜神模擬器:2015年中推出的基于定制Virtualbox的安卓模擬器,直接集成NOVA桌面是它的一大亮點,多開效率需進行提升,系統不穩定。
夜神模擬器
1.4網絡請求模擬器
這里推薦使用的是:火狐瀏覽器的HttpRequester。
HttpRequester
2.工具大全
做爬蟲開發工作,必須手上家伙要夠,且使起來順手才可以,通過日常開發總結了爬蟲工程師要有如下工具包,如下圖所示。
這里就不做過多介紹了,這些工具易用性很高,就是不清楚如何用網上也有現成的教程。
3.虛擬賬號
3.1虛擬手機號
目前免費虛擬手機號碼有很多,國內的有阿里小號、或者是移動、聯通、電信提供的副號,直接去營業廳或者是網上營業廳就能開通。也有虛擬運營商,但是他們的信號都是掛載在移動、聯通、或者是電信上面,你可以理解為聯營或者是聯名卡,但并不是虛擬運營商就是自己建造的信號塔,自己做的號碼,而是國有運營商授權發布的虛擬運營商,虛擬號段。上面說的是國內虛擬號碼,而國際上面最流行的虛擬手機號碼就屬于google Voice、叮咚等等,挺多的,功能也比較強大,可以獲取很多國家的虛擬號碼,比如英國的+44的號碼、美國+1的號碼俄羅斯+7的號碼等等。
國內接碼平臺搜集匯總
http://www.360doc.com/content/18/0716/13/32544506_770776650.shtml
3.2 10秒郵箱
https://www.linshiyouxiang.net/