此教程需要有一定的html基礎(chǔ)，了解HTML結(jié)構(gòu)和標(biāo)簽即可，

先寫(xiě)一個(gè)簡(jiǎn)單的 HTML

通過(guò)編寫(xiě)和修改 HTML，可以更好地理解 HTML。首先打開(kāi)一個(gè)記事本，然后輸入下面的內(nèi)容：

<html>

<head>

<title> Python 爬蟲(chóng)入門(mén)</title>

</head>

<body>

<div>

<p>Python 3爬蟲(chóng)與數(shù)據(jù)清洗入門(mén)</p>

</div>

<div>

<ul>

<li><a href="http://c.biancheng.net">爬蟲(chóng)</a></li>

</ul>

</div>

</body>

輸入代碼后，保存記事本，然后修改文件名和后綴名為"HTML.html"；
Version:1.0 StartHTML:000000200 EndHTML:000028810 StartFragment:000000664 EndFragment:000028766 StartSelection:000000668 EndSelection:000028738 SourceURL:http://c.biancheng.net/view/2011.html

使用 requests 庫(kù)請(qǐng)求網(wǎng)站

安裝 requests 庫(kù)

首先在 PyCharm 中安裝 requests 庫(kù)，為此打開(kāi) PyCharm，單擊“File”（文件）菜單，選擇“Setting for New Projects...”命令，如圖 1 所示。

圖1

選擇“Project Interpreter”（項(xiàng)目編譯器）命令，確認(rèn)當(dāng)前選擇的編譯器，然后單擊右上角的加號(hào)，如圖 2所示。

圖2

在搜索框輸入：requests（注意，一定要輸入完整，不然容易出錯(cuò)），然后單擊左下角的“Install Package”（安裝庫(kù)）按鈕。如圖 3 所示：

圖3

安裝完成后，會(huì)在 Install Package 上顯示“Package‘requests’ installed successfully”（庫(kù)的請(qǐng)求已成功安裝），如圖 4 所示；如果安裝不成功將會(huì)顯示提示信息。

圖4

安裝成功

爬蟲(chóng)的基本原理

網(wǎng)頁(yè)請(qǐng)求的過(guò)程分為兩個(gè)環(huán)節(jié)：

Request （請(qǐng)求）：每一個(gè)展示在用戶面前的網(wǎng)頁(yè)都必須經(jīng)過(guò)這一步，也就是向服務(wù)器發(fā)送訪問(wèn)請(qǐng)求。
Response（響應(yīng)）：服務(wù)器在接收到用戶的請(qǐng)求后，會(huì)驗(yàn)證請(qǐng)求的有效性，然后向用戶（客戶端）發(fā)送響應(yīng)的內(nèi)容，客戶端接收服務(wù)器響應(yīng)的內(nèi)容，將內(nèi)容展示出來(lái)，就是我們所熟悉的網(wǎng)頁(yè)請(qǐng)求，如圖 5 所示。

圖5

Response相應(yīng)

網(wǎng)頁(yè)請(qǐng)求的方式也分為兩種：

GET：最常見(jiàn)的方式，一般用于獲取或者查詢資源信息，也是大多數(shù)網(wǎng)站使用的方式，響應(yīng)速度快。
POST：相比 GET 方式，多了以表單形式上傳參數(shù)的功能，因此除查詢信息外，還可以修改信息。

所以，在寫(xiě)爬蟲(chóng)前要先確定向誰(shuí)發(fā)送請(qǐng)求，用什么方式發(fā)送。

使用 GET 方式抓取數(shù)據(jù)

復(fù)制任意一條首頁(yè)首條新聞的標(biāo)題，在源碼頁(yè)面按【Ctrl+F】組合鍵調(diào)出搜索框，將標(biāo)題粘貼在搜索框中，然后按【Enter】鍵。
標(biāo)題可以在源碼中搜索到，請(qǐng)求對(duì)象是地址，請(qǐng)求方式是GET（所有在源碼中的數(shù)據(jù)請(qǐng)求方式都是GET），如圖 6 所示。

圖6

確定好請(qǐng)求對(duì)象和方式后，在 PyCharm 中輸入以下代碼：

import requests        #導(dǎo)入requests包url = 'http://www.cntour.cn/'strhtml = requests.get(url)        #Get方式獲取網(wǎng)頁(yè)數(shù)據(jù)print(strhtml.text)

import requests        #導(dǎo)入requests包
url = 'http://www.cntour.cn/'
strhtml = requests.get(url)        #Get方式獲取網(wǎng)頁(yè)數(shù)據(jù)
print(strhtml.text)

運(yùn)行結(jié)果如圖 7所示：

圖7

運(yùn)行結(jié)果效果圖
加載庫(kù)使用的語(yǔ)句是 import+庫(kù)的名字。在上述過(guò)程中，加載 requests 庫(kù)的語(yǔ)句是：import requests。
用 GET 方式獲取數(shù)據(jù)需要調(diào)用 requests 庫(kù)中的 get 方法，使用方法是在 requests 后輸入英文點(diǎn)號(hào)，如下所示：

requests.get

將獲取到的數(shù)據(jù)存到 strhtml 變量中，代碼如下：

strhtml = request.get(url)

這個(gè)時(shí)候 strhtml 是一個(gè) URL 對(duì)象，它代表整個(gè)網(wǎng)頁(yè)，但此時(shí)只需要網(wǎng)頁(yè)中的源碼，下面的語(yǔ)句表示網(wǎng)頁(yè)源碼：

strhtml.text

使用 POST 方式抓取數(shù)據(jù)

首先輸入有道翻譯的網(wǎng)址：http://fanyi.youdao.com/，進(jìn)入有道翻譯頁(yè)面。
按快捷鍵 F12，進(jìn)入開(kāi)發(fā)者模式，單擊 Network，此時(shí)內(nèi)容為空，如圖 8 所示：

圖8

在有道翻譯中輸入“我愛(ài)中國(guó)”，單擊“翻譯”按鈕，如圖 9 所示：

圖9

在開(kāi)發(fā)者模式中，依次單擊“Network”按鈕和“XHR”按鈕，找到翻譯數(shù)據(jù)，如圖 10 所示：

圖10

單擊 Headers，發(fā)現(xiàn)請(qǐng)求數(shù)據(jù)的方式為 POST。如圖 11 所示：

圖11

找到數(shù)據(jù)所在之處并且明確請(qǐng)求方式之后，接下來(lái)開(kāi)始撰寫(xiě)爬蟲(chóng)。
首先，將 Headers 中的 URL 復(fù)制出來(lái)，并賦值給 url，代碼如下：

url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'

POST 的請(qǐng)求獲取數(shù)據(jù)的方式不同于 GET，POST 請(qǐng)求數(shù)據(jù)必須構(gòu)建請(qǐng)求頭才可以。
Form Data 中的請(qǐng)求參數(shù)如圖所示：

圖12

將其復(fù)制并構(gòu)建一個(gè)新字典：

From_data={'i':'我愛(ài)中國(guó)','from':'zh-CHS','to':'en','smartresult':'dict','client':'fanyideskweb','salt':'15477056211258','sign':'b3589f32c38bc9e3876a570b8a992604','ts':'1547705621125','bv':'b33a2f3f9d09bde064c9275bcb33d94e','doctype':'json','version':'2.1','keyfrom':'fanyi.web','action':'FY_BY_REALTIME','typoResult':'false'}

接下來(lái)使用 requests.post 方法請(qǐng)求表單數(shù)據(jù)，代碼如下：

import requests #導(dǎo)入requests包response = requests.post(url,data=payload)

將字符串格式的數(shù)據(jù)轉(zhuǎn)換成 JSON 格式數(shù)據(jù)，并根據(jù)數(shù)據(jù)結(jié)構(gòu)，提取數(shù)據(jù)，并將翻譯結(jié)果打印出來(lái)，代碼如下：

import jsoncontent = json.loads(response.text)print(content['translateResult'][0][0]['tgt'])

import json
content = json.loads(response.text)
print(content['translateResult'][0][0]['tgt'])

使用 requests.post 方法抓取有道翻譯結(jié)果的完整代碼如下：

import requests        #導(dǎo)入requests包import jsondef get_translate_date(word=None):    url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'    From_data={'i':word,'from':'zh-CHS','to':'en','smartresult':'dict','client':'fanyideskweb','salt':'15477056211258','sign':'b3589f32c38bc9e3876a570b8a992604','ts':'1547705621125','bv':'b33a2f3f9d09bde064c9275bcb33d94e','doctype':'json','version':'2.1','keyfrom':'fanyi.web','action':'FY_BY_REALTIME','typoResult':'false'}    #請(qǐng)求表單數(shù)據(jù)    response = requests.post(url,data=From_data)    #將Json格式字符串轉(zhuǎn)字典    content = json.loads(response.text)    print(content)    #打印翻譯后的數(shù)據(jù)    #print(content['translateResult'][0][0]['tgt'])if __name__=='__main__':    get_translate_date('我愛(ài)中國(guó)')

import requests        #導(dǎo)入requests包
import json
def get_translate_date(word=None):
    url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
    From_data={'i':word,'from':'zh-CHS','to':'en','smartresult':'dict','client':'fanyideskweb','salt':'15477056211258','sign':'b3589f32c38bc9e3876a570b8a992604','ts':'1547705621125','bv':'b33a2f3f9d09bde064c9275bcb33d94e','doctype':'json','version':'2.1','keyfrom':'fanyi.web','action':'FY_BY_REALTIME','typoResult':'false'}
    #請(qǐng)求表單數(shù)據(jù)
    response = requests.post(url,data=From_data)
    #將Json格式字符串轉(zhuǎn)字典
    content = json.loads(response.text)
    print(content)
    #打印翻譯后的數(shù)據(jù)
    #print(content['translateResult'][0][0]['tgt'])
if __name__=='__main__':
    get_translate_date('我愛(ài)中國(guó)')

使用 Beautiful Soup 解析網(wǎng)頁(yè)

通過(guò) requests 庫(kù)已經(jīng)可以抓到網(wǎng)頁(yè)源碼，接下來(lái)要從源碼中找到并提取數(shù)據(jù)。Beautiful Soup 是 python 的一個(gè)庫(kù)，其最主要的功能是從網(wǎng)頁(yè)中抓取數(shù)據(jù)。Beautiful Soup 目前已經(jīng)被移植到 bs4 庫(kù)中，也就是說(shuō)在導(dǎo)入 Beautiful Soup 時(shí)需要先安裝 bs4 庫(kù)。
安裝 bs4 庫(kù)的方式如圖 13 所示:

圖13

安裝好 bs4 庫(kù)以后，還需安裝 lxml 庫(kù)。如果我們不安裝 lxml 庫(kù)，就會(huì)使用 Python 默認(rèn)的解析器。盡管 Beautiful Soup 既支持 Python 標(biāo)準(zhǔn)庫(kù)中的 HTML 解析器又支持一些第三方解析器，但是 lxml 庫(kù)具有功能更加強(qiáng)大、速度更快的特點(diǎn)，因此筆者推薦安裝 lxml 庫(kù)。
安裝 Python 第三方庫(kù)后，輸入下面的代碼，即可開(kāi)啟 Beautiful Soup 之旅：

import requests        #導(dǎo)入requests包from bs4 import    BeautifulSoupurl='http://www.cntour.cn/'strhtml=requests.get(url)soup=BeautifulSoup(strhtml.text,'lxml')data = soup.select('#main>div>div.mtop.firstMod.clearfix>div.centerBox>ul.newsList>li>a')print(data)

import requests        #導(dǎo)入requests包
from bs4 import    BeautifulSoup
url='http://www.cntour.cn/'
strhtml=requests.get(url)
soup=BeautifulSoup(strhtml.text,'lxml')
data = soup.select('#main>div>div.mtop.firstMod.clearfix>div.centerBox>ul.newsList>li>a')
print(data)

代碼運(yùn)行結(jié)果如圖 14 所示。

圖14

Beautiful Soup 庫(kù)能夠輕松解析網(wǎng)頁(yè)信息，它被集成在 bs4 庫(kù)中，需要時(shí)可以從 bs4 庫(kù)中調(diào)用。其表達(dá)語(yǔ)句如下：

from bs4 import BeautifulSoup

首先，HTML 文檔將被轉(zhuǎn)換成 Unicode 編碼格式，然后 Beautiful Soup 選擇最合適的解析器來(lái)解析這段文檔，此處指定 lxml 解析器進(jìn)行解析。解析后便將復(fù)雜的 HTML 文檔轉(zhuǎn)換成樹(shù)形結(jié)構(gòu)，并且每個(gè)節(jié)點(diǎn)都是 Python 對(duì)象。這里將解析后的文檔存儲(chǔ)到新建的變量 soup 中，代碼如下：

soup=BeautifulSoup(strhtml.text,'lxml')

接下來(lái)用 select（選擇器）定位數(shù)據(jù)，定位數(shù)據(jù)時(shí)需要使用瀏覽器的開(kāi)發(fā)者模式，將鼠標(biāo)光標(biāo)停留在對(duì)應(yīng)的數(shù)據(jù)位置并右擊，然后在快捷菜單中選擇“檢查”命令，

隨后在瀏覽器右側(cè)會(huì)彈出開(kāi)發(fā)者界面，右側(cè)高亮的代碼（參見(jiàn)圖 15(b)）對(duì)應(yīng)著左側(cè)高亮的數(shù)據(jù)文本（參見(jiàn)圖 15(a)）。右擊右側(cè)高亮數(shù)據(jù)，在彈出的快捷菜單中選擇“Copy”?“Copy Selector”命令，便可以自動(dòng)復(fù)制路徑。

圖15

圖 15 復(fù)制路徑將路徑粘貼在文檔中，代碼如下:

#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li:nth-child(1) > a

由于這條路徑是選中的第一條的路徑，而我們需要獲取所有的頭條新聞，因此將 li：nth-child（1）中冒號(hào)（包含冒號(hào)）后面的部分刪掉，代碼如下：

#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a

使用 soup.select 引用這個(gè)路徑，代碼如下：

data = soup.select('#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a')

爬蟲(chóng)攻防戰(zhàn)

爬蟲(chóng)是模擬人的瀏覽訪問(wèn)行為，進(jìn)行數(shù)據(jù)的批量抓取。當(dāng)抓取的數(shù)據(jù)量逐漸增大時(shí)，會(huì)給被訪問(wèn)的服務(wù)器造成很大的壓力，甚至有可能崩潰。換句話就是說(shuō)，服務(wù)器是不喜歡有人抓取自己的數(shù)據(jù)的。那么，網(wǎng)站方面就會(huì)針對(duì)這些爬蟲(chóng)者，采取一些反爬策略。
服務(wù)器第一種識(shí)別爬蟲(chóng)的方式就是通過(guò)檢查連接的 useragent 來(lái)識(shí)別到底是瀏覽器訪問(wèn)，還是代碼訪問(wèn)的。如果是代碼訪問(wèn)的話，訪問(wèn)量增大時(shí)，服務(wù)器會(huì)直接封掉來(lái)訪 IP。
那么應(yīng)對(duì)這種初級(jí)的反爬機(jī)制，我們應(yīng)該采取何種舉措？
還是以前面創(chuàng)建好的爬蟲(chóng)為例。在進(jìn)行訪問(wèn)時(shí)，我們?cè)陂_(kāi)發(fā)者環(huán)境下不僅可以找到 URL、Form Data，還可以在 Request headers 中構(gòu)造瀏覽器的請(qǐng)求頭，封裝自己。服務(wù)器識(shí)別瀏覽器訪問(wèn)的方法就是判斷 keyword 是否為 Request headers 下的 User-Agent，如圖16所示。

因此，我們只需要構(gòu)造這個(gè)請(qǐng)求頭的參數(shù)。創(chuàng)建請(qǐng)求頭部信息即可，代碼如下：

headers={'User-Agent':'Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}response = request.get(url,headers=headers)

寫(xiě)到這里，很多讀者會(huì)認(rèn)為修改 User-Agent 很太簡(jiǎn)單。確實(shí)很簡(jiǎn)單，但是正常人1秒看一個(gè)圖，而個(gè)爬蟲(chóng)1秒可以抓取好多張圖，比如 1 秒抓取上百?gòu)垐D，那么服務(wù)器的壓力必然會(huì)增大。也就是說(shuō)，如果在一個(gè) IP 下批量訪問(wèn)下載圖片，這個(gè)行為不符合正常人類的行為，肯定要被封 IP。
其原理也很簡(jiǎn)單，就是統(tǒng)計(jì)每個(gè)IP的訪問(wèn)頻率，該頻率超過(guò)閾值，就會(huì)返回一個(gè)驗(yàn)證碼，如果真的是用戶訪問(wèn)的話，用戶就會(huì)填寫(xiě)，然后繼續(xù)訪問(wèn)，如果是代碼訪問(wèn)的話，就會(huì)被封 IP。
這個(gè)問(wèn)題的解決方案有兩個(gè)，第一個(gè)就是常用的增設(shè)延時(shí)，每 3 秒鐘抓取一次，代碼如下：

import timetime.sleep(3)

但是，我們寫(xiě)爬蟲(chóng)的目的是為了高效批量抓取數(shù)據(jù)，這里設(shè)置 3 秒鐘抓取一次，效率未免太低。其實(shí)，還有一個(gè)更重要的解決辦法，那就是從本質(zhì)上解決問(wèn)題。
不管如何訪問(wèn)，服務(wù)器的目的就是查出哪些為代碼訪問(wèn)，然后封鎖 IP。解決辦法：為避免被封 IP，在數(shù)據(jù)采集時(shí)經(jīng)常會(huì)使用代理。當(dāng)然，requests 也有相應(yīng)的 proxies 屬性。
首先，構(gòu)建自己的代理 IP 池，將其以字典的形式賦值給 proxies，然后傳輸給 requests，代碼如下：

proxies={    "http":"http://10.10.1.10:3128",    "https":"http://10.10.1.10:1080",}response = requests.get(url, proxies=proxies)

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

Python之爬蟲(chóng)入門(mén)教程先寫(xiě)一個(gè)簡(jiǎn)單的 HTML使用 requests 庫(kù)請(qǐng)求網(wǎng)站安裝 requests 庫(kù)爬蟲(chóng)的基本原理使用 GET 方式抓取數(shù)據(jù)使用 POST 方式抓取數(shù)據(jù)使用 Beautifu

先寫(xiě)一個(gè)簡(jiǎn)單的 HTML

使用 requests 庫(kù)請(qǐng)求網(wǎng)站

安裝 requests 庫(kù)

爬蟲(chóng)的基本原理

使用 GET 方式抓取數(shù)據(jù)

使用 POST 方式抓取數(shù)據(jù)

使用 Beautiful Soup 解析網(wǎng)頁(yè)

爬蟲(chóng)攻防戰(zhàn)

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

答題星2018-06-03

全階人生考試2018-06-03

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

每日養(yǎng)生app2018-06-03

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03