日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長提供免費收錄網(wǎng)站服務,提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

Python學習網(wǎng)絡爬蟲主要分3個大的版塊:抓取,分析,存儲。

另外,比較常用的爬蟲框架Scrapy,這里最后也詳細介紹一下。

5分鐘帶你深入了解Python爬蟲,你會發(fā)現(xiàn)爬蟲其實沒有那么難

 

當我們在瀏覽器中輸入一個url后回車,后臺會發(fā)生什么?比如說你輸入:http://www.baidu.com/,你就會看到百度首頁。

簡單來說這段過程發(fā)生了以下4個步驟:

  • 查找域名對應的IP地址。
  • 向IP對應的服務器發(fā)送請求。
  • 服務器響應請求,發(fā)回網(wǎng)頁內(nèi)容。
  • 瀏覽器解析網(wǎng)頁內(nèi)容。

網(wǎng)絡爬蟲要做的,簡單來說,就是實現(xiàn)瀏覽器的功能。通過指定url,直接返回給用戶所需要的數(shù)據(jù),而不需要一步步人工去操縱瀏覽器獲取。

抓取

這一步,你要明確要得到的內(nèi)容是什么?是html源碼,還是Json格式的字符串等。

最基本的抓取

抓取大多數(shù)情況屬于get請求,即直接從對方服務器上獲取數(shù)據(jù)。

首先,Python中自帶urllib及urllib2這兩個模塊,基本上能滿足一般的頁面抓取。另外,requests也是非常有用的包,與此類似的,還有httplib2等等。

5分鐘帶你深入了解Python爬蟲,你會發(fā)現(xiàn)爬蟲其實沒有那么難

 

此外,對于帶有查詢字段的url,get請求一般會將來請求的數(shù)據(jù)附在url之后,以?分割url和傳輸數(shù)據(jù),多個參數(shù)用&連接。

5分鐘帶你深入了解Python爬蟲,你會發(fā)現(xiàn)爬蟲其實沒有那么難

 

對于登陸情況的處理

1、使用表單登陸

這種情況屬于post請求,即先向服務器發(fā)送表單數(shù)據(jù),服務器再將返回的cookie存入本地。

5分鐘帶你深入了解Python爬蟲,你會發(fā)現(xiàn)爬蟲其實沒有那么難

 

2、使用cookie登陸

使用cookie登陸,服務器會認為你是一個已登陸的用戶,所以就會返回給你一個已登陸的內(nèi)容。因此,需要驗證碼的情況可以使用帶驗證碼登陸的cookie解決。

5分鐘帶你深入了解Python爬蟲,你會發(fā)現(xiàn)爬蟲其實沒有那么難

 

若存在驗證碼,此時采用response = requests_session.post(url=url_login, data=data)是不行的,做法應該如下:

5分鐘帶你深入了解Python爬蟲,你會發(fā)現(xiàn)爬蟲其實沒有那么難

 

對于反爬蟲機制的處理

1、使用代理

適用情況:限制IP地址情況,也可解決由于“頻繁點擊”而需要輸入驗證碼登陸的情況。

這種情況最好的辦法就是維護一個代理IP池,網(wǎng)上有很多免費的代理IP,良莠不齊,可以通過篩選找到能用的。對于“頻繁點擊”的情況,我們還可以通過限制爬蟲訪問網(wǎng)站的頻率來避免被網(wǎng)站禁掉。

5分鐘帶你深入了解Python爬蟲,你會發(fā)現(xiàn)爬蟲其實沒有那么難

 

2、時間設置

適用情況:限制頻率情況。

Requests,Urllib2都可以使用time庫的sleep()函數(shù):

import time
time.sleep(1)

3、偽裝成瀏覽器,或者反“反盜鏈”

有些網(wǎng)站會檢查你是不是真的瀏覽器訪問,還是機器自動訪問的。這種情況,加上User-Agent,表明你是瀏覽器訪問即可。有時還會檢查是否帶Referer信息還會檢查你的Referer是否合法,一般再加上Referer。

5分鐘帶你深入了解Python爬蟲,你會發(fā)現(xiàn)爬蟲其實沒有那么難

 

對于斷線重連

不多說

5分鐘帶你深入了解Python爬蟲,你會發(fā)現(xiàn)爬蟲其實沒有那么難

 

或者

5分鐘帶你深入了解Python爬蟲,你會發(fā)現(xiàn)爬蟲其實沒有那么難

 

這樣我們就可以使用multi_session或multi_open對爬蟲抓取的session或opener進行保持。

多進程抓取

這里針對華爾街見聞進行并行抓取的實驗對比:Python多進程抓取 與 JAVA單線程和多線程抓取。

 

對于Ajax請求的處理

對于“加載更多”情況,使用Ajax來傳輸很多數(shù)據(jù)。

它的工作原理是:從網(wǎng)頁的url加載網(wǎng)頁的源代碼之后,會在瀏覽器里執(zhí)行JavaScript程序。這些程序會加載更多的內(nèi)容,“填充”到網(wǎng)頁里。這就是為什么如果你直接去爬網(wǎng)頁本身的url,你會找不到頁面的實際內(nèi)容。

這里,若使用google Chrome分析”請求“對應的鏈接(方法:右鍵→審查元素→Network→清空,點擊”加載更多“,出現(xiàn)對應的GET鏈接尋找Type為text/html的,點擊,查看get參數(shù)或者復制Request URL),循環(huán)過程。

  • 如果“請求”之前有頁面,依據(jù)上一步的網(wǎng)址進行分析推導第1頁。以此類推,抓取抓Ajax地址的數(shù)據(jù)。
  • 對返回的json格式數(shù)據(jù)(str)進行正則匹配。json格式數(shù)據(jù)中,需從'\uxxxx'形式的unicode_escape編碼轉(zhuǎn)換成u'\uxxxx'的unicode編碼。

 

自動化測試工具Selenium

Selenium是一款自動化測試工具。它能實現(xiàn)操縱瀏覽器,包括字符填充、鼠標點擊、獲取元素、頁面切換等一系列操作。總之,凡是瀏覽器能做的事,Selenium都能夠做到。

這里列出在給定城市列表后,使用selenium來動態(tài)抓取去哪兒網(wǎng)的票價信息的代碼。

 

驗證碼識別

對于網(wǎng)站有驗證碼的情況,我們有三種辦法:

  • 使用代理,更新IP。
  • 使用cookie登陸。
  • 驗證碼識別。

使用代理和使用cookie登陸之前已經(jīng)講過,下面講一下驗證碼識別。

可以利用開源的Tesseract-OCR系統(tǒng)進行驗證碼圖片的下載及識別,將識別的字符傳到爬蟲系統(tǒng)進行模擬登陸。當然也可以將驗證碼圖片上傳到打碼平臺上進行識別。如果不成功,可以再次更新驗證碼識別,直到成功為止。

爬取有兩個需要注意的問題:

  • 如何監(jiān)控一系列網(wǎng)站的更新情況,也就是說,如何進行增量式爬取?
  • 對于海量數(shù)據(jù),如何實現(xiàn)分布式爬取?

分析

抓取之后就是對抓取的內(nèi)容進行分析,你需要什么內(nèi)容,就從中提煉出相關的內(nèi)容來。

常見的分析工具有正則表達式,BeautifulSoup,lxml等等。

 

存儲

分析出我們需要的內(nèi)容之后,接下來就是存儲了。

我們可以選擇存入文本文件,也可以選擇存入MySQL或MongoDB數(shù)據(jù)庫等。

存儲有兩個需要注意的問題:

  • 如何進行網(wǎng)頁去重?
  • 內(nèi)容以什么形式存儲?

 

Scrapy

Scrapy是一個基于Twisted的開源的Python爬蟲框架,在工業(yè)中應用非常廣泛。

相關內(nèi)容可以參考基于Scrapy網(wǎng)絡爬蟲的搭建,同時給出這篇文章介紹的微信搜索爬取的項目代碼,給大家作為學習參考。

 

Robots協(xié)議

好的網(wǎng)絡爬蟲,首先需要遵守Robots協(xié)議。Robots協(xié)議(也稱為爬蟲協(xié)議、機器人協(xié)議等)的全稱是“網(wǎng)絡爬蟲排除標準”(Robots Exclusion Protocol),網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。

在網(wǎng)站根目錄下放一個robots.txt文本文件(如 https://www.taobao.com/robots.txt ),里面可以指定不同的網(wǎng)絡爬蟲能訪問的頁面和禁止訪問的頁面,指定的頁面由正則表達式表示。網(wǎng)絡爬蟲在采集這個網(wǎng)站之前,首先獲取到這個robots.txt文本文件,然后解析到其中的規(guī)則,然后根據(jù)規(guī)則來采集網(wǎng)站的數(shù)據(jù)。

1、Robots協(xié)議規(guī)則

5分鐘帶你深入了解Python爬蟲,你會發(fā)現(xiàn)爬蟲其實沒有那么難

 

注意: 一個英文要大寫,冒號是英文狀態(tài)下,冒號后面有一個空格,"/"代表整個網(wǎng)站

2. Robots協(xié)議舉例

5分鐘帶你深入了解Python爬蟲,你會發(fā)現(xiàn)爬蟲其實沒有那么難

 

總結:

以上就是我要說的寫的內(nèi)容,希望以上的內(nèi)容可以幫助到正在默默艱辛,遇到瓶疾且不知道怎么辦的Python程序員們,奶蓋能幫你的只有這么多了,希望大家在往后的工作中,一切順利。

覺得小編文章寫的不錯的,請大家關注奶蓋哦!

分享到:
標簽:爬蟲 Python
用戶無頭像

網(wǎng)友整理

注冊時間:

網(wǎng)站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨大挑戰(zhàn)2018-06-03

數(shù)獨一種數(shù)學游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數(shù)有氧達人2018-06-03

記錄運動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定