日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

此教程需要有一定的html基礎(chǔ),了解HTML結(jié)構(gòu)和標(biāo)簽即可,

先寫(xiě)一個(gè)簡(jiǎn)單的 HTML

通過(guò)編寫(xiě)和修改 HTML,可以更好地理解 HTML。首先打開(kāi)一個(gè)記事本,然后輸入下面的內(nèi)容:

<html>

<head>

<title> Python 爬蟲(chóng)入門(mén)</title>

</head>

<body>

<div>

<p>Python 3爬蟲(chóng)與數(shù)據(jù)清洗入門(mén)</p>

</div>

<div>

<ul>

<li><a href="http://c.biancheng.net">爬蟲(chóng)</a></li>

<li>數(shù)據(jù)清洗</li>

</ul>

</div>

</body>

輸入代碼后,保存記事本,然后修改文件名和后綴名為"HTML.html";
Version:1.0 StartHTML:000000200 EndHTML:000028810 StartFragment:000000664 EndFragment:000028766 StartSelection:000000668 EndSelection:000028738 SourceURL:http://c.biancheng.net/view/2011.html

使用 requests 庫(kù)請(qǐng)求網(wǎng)站

安裝 requests 庫(kù)

首先在 PyCharm 中安裝 requests 庫(kù),為此打開(kāi) PyCharm,單擊“File”(文件)菜單,選擇“Setting for New Projects...”命令,如圖 1 所示。

Python之爬蟲(chóng)入門(mén)教程

圖1


選擇“Project Interpreter”(項(xiàng)目編譯器)命令,確認(rèn)當(dāng)前選擇的編譯器,然后單擊右上角的加號(hào),如圖 2所示。

Python之爬蟲(chóng)入門(mén)教程

圖2


在搜索框輸入:requests(注意,一定要輸入完整,不然容易出錯(cuò)),然后單擊左下角的“Install Package”(安裝庫(kù))按鈕。如圖 3 所示:

Python之爬蟲(chóng)入門(mén)教程

圖3


安裝完成后,會(huì)在 Install Package 上顯示“Package‘requests’ installed successfully”(庫(kù)的請(qǐng)求已成功安裝),如圖 4 所示;如果安裝不成功將會(huì)顯示提示信息。

Python之爬蟲(chóng)入門(mén)教程

圖4


安裝成功

爬蟲(chóng)的基本原理

網(wǎng)頁(yè)請(qǐng)求的過(guò)程分為兩個(gè)環(huán)節(jié):

  1. Request (請(qǐng)求):每一個(gè)展示在用戶面前的網(wǎng)頁(yè)都必須經(jīng)過(guò)這一步,也就是向服務(wù)器發(fā)送訪問(wèn)請(qǐng)求。
  2. Response(響應(yīng)):服務(wù)器在接收到用戶的請(qǐng)求后,會(huì)驗(yàn)證請(qǐng)求的有效性,然后向用戶(客戶端)發(fā)送響應(yīng)的內(nèi)容,客戶端接收服務(wù)器響應(yīng)的內(nèi)容,將內(nèi)容展示出來(lái),就是我們所熟悉的網(wǎng)頁(yè)請(qǐng)求,如圖 5 所示。
Python之爬蟲(chóng)入門(mén)教程

圖5


Response相應(yīng)


網(wǎng)頁(yè)請(qǐng)求的方式也分為兩種:

  1. GET:最常見(jiàn)的方式,一般用于獲取或者查詢資源信息,也是大多數(shù)網(wǎng)站使用的方式,響應(yīng)速度快。
  2. POST:相比 GET 方式,多了以表單形式上傳參數(shù)的功能,因此除查詢信息外,還可以修改信息。


所以,在寫(xiě)爬蟲(chóng)前要先確定向誰(shuí)發(fā)送請(qǐng)求,用什么方式發(fā)送。

使用 GET 方式抓取數(shù)據(jù)

復(fù)制任意一條首頁(yè)首條新聞的標(biāo)題,在源碼頁(yè)面按【Ctrl+F】組合鍵調(diào)出搜索框,將標(biāo)題粘貼在搜索框中,然后按【Enter】鍵。
標(biāo)題可以在源碼中搜索到,請(qǐng)求對(duì)象是地址,請(qǐng)求方式是GET(所有在源碼中的數(shù)據(jù)請(qǐng)求方式都是GET),如圖 6 所示。

Python之爬蟲(chóng)入門(mén)教程

圖6


確定好請(qǐng)求對(duì)象和方式后,在 PyCharm 中輸入以下代碼:

import requests        #導(dǎo)入requests包url = 'http://www.cntour.cn/'strhtml = requests.get(url)        #Get方式獲取網(wǎng)頁(yè)數(shù)據(jù)print(strhtml.text)
import requests        #導(dǎo)入requests包
url = 'http://www.cntour.cn/'
strhtml = requests.get(url)        #Get方式獲取網(wǎng)頁(yè)數(shù)據(jù)
print(strhtml.text)

運(yùn)行結(jié)果如圖 7所示:

Python之爬蟲(chóng)入門(mén)教程

圖7


運(yùn)行結(jié)果效果圖
加載庫(kù)使用的語(yǔ)句是 import+庫(kù)的名字。在上述過(guò)程中,加載 requests 庫(kù)的語(yǔ)句是:import requests。
用 GET 方式獲取數(shù)據(jù)需要調(diào)用 requests 庫(kù)中的 get 方法,使用方法是在 requests 后輸入英文點(diǎn)號(hào),如下所示:

requests.get

將獲取到的數(shù)據(jù)存到 strhtml 變量中,代碼如下:

strhtml = request.get(url)

這個(gè)時(shí)候 strhtml 是一個(gè) URL 對(duì)象,它代表整個(gè)網(wǎng)頁(yè),但此時(shí)只需要網(wǎng)頁(yè)中的源碼,下面的語(yǔ)句表示網(wǎng)頁(yè)源碼:

strhtml.text

使用 POST 方式抓取數(shù)據(jù)

首先輸入有道翻譯的網(wǎng)址:http://fanyi.youdao.com/,進(jìn)入有道翻譯頁(yè)面。
按快捷鍵 F12,進(jìn)入開(kāi)發(fā)者模式,單擊 Network,此時(shí)內(nèi)容為空,如圖 8 所示:

Python之爬蟲(chóng)入門(mén)教程

圖8


在有道翻譯中輸入“我愛(ài)中國(guó)”,單擊“翻譯”按鈕,如圖 9 所示:

Python之爬蟲(chóng)入門(mén)教程

圖9


在開(kāi)發(fā)者模式中,依次單擊“Network”按鈕和“XHR”按鈕,找到翻譯數(shù)據(jù),如圖 10 所示:

Python之爬蟲(chóng)入門(mén)教程

圖10


單擊 Headers,發(fā)現(xiàn)請(qǐng)求數(shù)據(jù)的方式為 POST。如圖 11 所示:

Python之爬蟲(chóng)入門(mén)教程

圖11


找到數(shù)據(jù)所在之處并且明確請(qǐng)求方式之后,接下來(lái)開(kāi)始撰寫(xiě)爬蟲(chóng)。
首先,將 Headers 中的 URL 復(fù)制出來(lái),并賦值給 url,代碼如下:

url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'

POST 的請(qǐng)求獲取數(shù)據(jù)的方式不同于 GET,POST 請(qǐng)求數(shù)據(jù)必須構(gòu)建請(qǐng)求頭才可以。
Form Data 中的請(qǐng)求參數(shù)如圖所示:

Python之爬蟲(chóng)入門(mén)教程

圖12


將其復(fù)制并構(gòu)建一個(gè)新字典:

From_data={'i':'我愛(ài)中國(guó)','from':'zh-CHS','to':'en','smartresult':'dict','client':'fanyideskweb','salt':'15477056211258','sign':'b3589f32c38bc9e3876a570b8a992604','ts':'1547705621125','bv':'b33a2f3f9d09bde064c9275bcb33d94e','doctype':'json','version':'2.1','keyfrom':'fanyi.web','action':'FY_BY_REALTIME','typoResult':'false'}

接下來(lái)使用 requests.post 方法請(qǐng)求表單數(shù)據(jù),代碼如下:

import requests #導(dǎo)入requests包response = requests.post(url,data=payload)

將字符串格式的數(shù)據(jù)轉(zhuǎn)換成 JSON 格式數(shù)據(jù),并根據(jù)數(shù)據(jù)結(jié)構(gòu),提取數(shù)據(jù),并將翻譯結(jié)果打印出來(lái),代碼如下:

import jsoncontent = json.loads(response.text)print(content['translateResult'][0][0]['tgt'])
import json
content = json.loads(response.text)
print(content['translateResult'][0][0]['tgt'])

使用 requests.post 方法抓取有道翻譯結(jié)果的完整代碼如下:

import requests        #導(dǎo)入requests包import jsondef get_translate_date(word=None):    url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'    From_data={'i':word,'from':'zh-CHS','to':'en','smartresult':'dict','client':'fanyideskweb','salt':'15477056211258','sign':'b3589f32c38bc9e3876a570b8a992604','ts':'1547705621125','bv':'b33a2f3f9d09bde064c9275bcb33d94e','doctype':'json','version':'2.1','keyfrom':'fanyi.web','action':'FY_BY_REALTIME','typoResult':'false'}    #請(qǐng)求表單數(shù)據(jù)    response = requests.post(url,data=From_data)    #將Json格式字符串轉(zhuǎn)字典    content = json.loads(response.text)    print(content)    #打印翻譯后的數(shù)據(jù)    #print(content['translateResult'][0][0]['tgt'])if __name__=='__main__':    get_translate_date('我愛(ài)中國(guó)')
import requests        #導(dǎo)入requests包
import json
def get_translate_date(word=None):
    url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
    From_data={'i':word,'from':'zh-CHS','to':'en','smartresult':'dict','client':'fanyideskweb','salt':'15477056211258','sign':'b3589f32c38bc9e3876a570b8a992604','ts':'1547705621125','bv':'b33a2f3f9d09bde064c9275bcb33d94e','doctype':'json','version':'2.1','keyfrom':'fanyi.web','action':'FY_BY_REALTIME','typoResult':'false'}
    #請(qǐng)求表單數(shù)據(jù)
    response = requests.post(url,data=From_data)
    #將Json格式字符串轉(zhuǎn)字典
    content = json.loads(response.text)
    print(content)
    #打印翻譯后的數(shù)據(jù)
    #print(content['translateResult'][0][0]['tgt'])
if __name__=='__main__':
    get_translate_date('我愛(ài)中國(guó)')

使用 Beautiful Soup 解析網(wǎng)頁(yè)

通過(guò) requests 庫(kù)已經(jīng)可以抓到網(wǎng)頁(yè)源碼,接下來(lái)要從源碼中找到并提取數(shù)據(jù)。Beautiful Soup 是 python 的一個(gè)庫(kù),其最主要的功能是從網(wǎng)頁(yè)中抓取數(shù)據(jù)。Beautiful Soup 目前已經(jīng)被移植到 bs4 庫(kù)中,也就是說(shuō)在導(dǎo)入 Beautiful Soup 時(shí)需要先安裝 bs4 庫(kù)。
安裝 bs4 庫(kù)的方式如圖 13 所示:

Python之爬蟲(chóng)入門(mén)教程

圖13


安裝好 bs4 庫(kù)以后,還需安裝 lxml 庫(kù)。如果我們不安裝 lxml 庫(kù),就會(huì)使用 Python 默認(rèn)的解析器。盡管 Beautiful Soup 既支持 Python 標(biāo)準(zhǔn)庫(kù)中的 HTML 解析器又支持一些第三方解析器,但是 lxml 庫(kù)具有功能更加強(qiáng)大、速度更快的特點(diǎn),因此筆者推薦安裝 lxml 庫(kù)。
安裝 Python 第三方庫(kù)后,輸入下面的代碼,即可開(kāi)啟 Beautiful Soup 之旅:

import requests        #導(dǎo)入requests包from bs4 import    BeautifulSoupurl='http://www.cntour.cn/'strhtml=requests.get(url)soup=BeautifulSoup(strhtml.text,'lxml')data = soup.select('#main>div>div.mtop.firstMod.clearfix>div.centerBox>ul.newsList>li>a')print(data)
import requests        #導(dǎo)入requests包
from bs4 import    BeautifulSoup
url='http://www.cntour.cn/'
strhtml=requests.get(url)
soup=BeautifulSoup(strhtml.text,'lxml')
data = soup.select('#main>div>div.mtop.firstMod.clearfix>div.centerBox>ul.newsList>li>a')
print(data)

代碼運(yùn)行結(jié)果如圖 14 所示。

Python之爬蟲(chóng)入門(mén)教程

圖14


Beautiful Soup 庫(kù)能夠輕松解析網(wǎng)頁(yè)信息,它被集成在 bs4 庫(kù)中,需要時(shí)可以從 bs4 庫(kù)中調(diào)用。其表達(dá)語(yǔ)句如下:

from bs4 import BeautifulSoup

首先,HTML 文檔將被轉(zhuǎn)換成 Unicode 編碼格式,然后 Beautiful Soup 選擇最合適的解析器來(lái)解析這段文檔,此處指定 lxml 解析器進(jìn)行解析。解析后便將復(fù)雜的 HTML 文檔轉(zhuǎn)換成樹(shù)形結(jié)構(gòu),并且每個(gè)節(jié)點(diǎn)都是 Python 對(duì)象。這里將解析后的文檔存儲(chǔ)到新建的變量 soup 中,代碼如下:

soup=BeautifulSoup(strhtml.text,'lxml')

接下來(lái)用 select(選擇器)定位數(shù)據(jù),定位數(shù)據(jù)時(shí)需要使用瀏覽器的開(kāi)發(fā)者模式,將鼠標(biāo)光標(biāo)停留在對(duì)應(yīng)的數(shù)據(jù)位置并右擊,然后在快捷菜單中選擇“檢查”命令,


隨后在瀏覽器右側(cè)會(huì)彈出開(kāi)發(fā)者界面,右側(cè)高亮的代碼(參見(jiàn)圖 15(b))對(duì)應(yīng)著左側(cè)高亮的數(shù)據(jù)文本(參見(jiàn)圖 15(a))。右擊右側(cè)高亮數(shù)據(jù),在彈出的快捷菜單中選擇“Copy”?“Copy Selector”命令,便可以自動(dòng)復(fù)制路徑。

Python之爬蟲(chóng)入門(mén)教程

圖15


圖 15 復(fù)制路徑將路徑粘貼在文檔中,代碼如下:

#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li:nth-child(1) > a

由于這條路徑是選中的第一條的路徑,而我們需要獲取所有的頭條新聞,因此將 li:nth-child(1)中冒號(hào)(包含冒號(hào))后面的部分刪掉,代碼如下:

#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a

使用 soup.select 引用這個(gè)路徑,代碼如下:

data = soup.select('#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a')

爬蟲(chóng)攻防戰(zhàn)

爬蟲(chóng)是模擬人的瀏覽訪問(wèn)行為,進(jìn)行數(shù)據(jù)的批量抓取。當(dāng)抓取的數(shù)據(jù)量逐漸增大時(shí),會(huì)給被訪問(wèn)的服務(wù)器造成很大的壓力,甚至有可能崩潰。換句話就是說(shuō),服務(wù)器是不喜歡有人抓取自己的數(shù)據(jù)的。那么,網(wǎng)站方面就會(huì)針對(duì)這些爬蟲(chóng)者,采取一些反爬策略。
服務(wù)器第一種識(shí)別爬蟲(chóng)的方式就是通過(guò)檢查連接的 useragent 來(lái)識(shí)別到底是瀏覽器訪問(wèn),還是代碼訪問(wèn)的。如果是代碼訪問(wèn)的話,訪問(wèn)量增大時(shí),服務(wù)器會(huì)直接封掉來(lái)訪 IP。
那么應(yīng)對(duì)這種初級(jí)的反爬機(jī)制,我們應(yīng)該采取何種舉措?
還是以前面創(chuàng)建好的爬蟲(chóng)為例。在進(jìn)行訪問(wèn)時(shí),我們?cè)陂_(kāi)發(fā)者環(huán)境下不僅可以找到 URL、Form Data,還可以在 Request headers 中構(gòu)造瀏覽器的請(qǐng)求頭,封裝自己。服務(wù)器識(shí)別瀏覽器訪問(wèn)的方法就是判斷 keyword 是否為 Request headers 下的 User-Agent,如圖16所示。

Python之爬蟲(chóng)入門(mén)教程

 


因此,我們只需要構(gòu)造這個(gè)請(qǐng)求頭的參數(shù)。創(chuàng)建請(qǐng)求頭部信息即可,代碼如下:

headers={'User-Agent':'Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}response = request.get(url,headers=headers)

寫(xiě)到這里,很多讀者會(huì)認(rèn)為修改 User-Agent 很太簡(jiǎn)單。確實(shí)很簡(jiǎn)單,但是正常人1秒看一個(gè)圖,而個(gè)爬蟲(chóng)1秒可以抓取好多張圖,比如 1 秒抓取上百?gòu)垐D,那么服務(wù)器的壓力必然會(huì)增大。也就是說(shuō),如果在一個(gè) IP 下批量訪問(wèn)下載圖片,這個(gè)行為不符合正常人類的行為,肯定要被封 IP。
其原理也很簡(jiǎn)單,就是統(tǒng)計(jì)每個(gè)IP的訪問(wèn)頻率,該頻率超過(guò)閾值,就會(huì)返回一個(gè)驗(yàn)證碼,如果真的是用戶訪問(wèn)的話,用戶就會(huì)填寫(xiě),然后繼續(xù)訪問(wèn),如果是代碼訪問(wèn)的話,就會(huì)被封 IP。
這個(gè)問(wèn)題的解決方案有兩個(gè),第一個(gè)就是常用的增設(shè)延時(shí),每 3 秒鐘抓取一次,代碼如下:

import timetime.sleep(3)

但是,我們寫(xiě)爬蟲(chóng)的目的是為了高效批量抓取數(shù)據(jù),這里設(shè)置 3 秒鐘抓取一次,效率未免太低。其實(shí),還有一個(gè)更重要的解決辦法,那就是從本質(zhì)上解決問(wèn)題。
不管如何訪問(wèn),服務(wù)器的目的就是查出哪些為代碼訪問(wèn),然后封鎖 IP。解決辦法:為避免被封 IP,在數(shù)據(jù)采集時(shí)經(jīng)常會(huì)使用代理。當(dāng)然,requests 也有相應(yīng)的 proxies 屬性。
首先,構(gòu)建自己的代理 IP 池,將其以字典的形式賦值給 proxies,然后傳輸給 requests,代碼如下:

proxies={    "http":"http://10.10.1.10:3128",    "https":"http://10.10.1.10:1080",}response = requests.get(url, proxies=proxies)

分享到:
標(biāo)簽:爬蟲(chóng) Python
用戶無(wú)頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過(guò)答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫(kù),初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定