今天我們?nèi)耘f利用scrapy框架實(shí)現(xiàn)自動(dòng)翻頁(yè)爬取數(shù)據(jù),爬取詩(shī)詞胖排行榜(
https://www.shicimingju.com/paiming)中的標(biāo)題。
1.新建文件夾
scrapy starproject 文件名(wallpaper)
2.新建爬蟲(chóng)文件
scrapy genspider 文件名(landscape)www.xxx.com
3.發(fā)送請(qǐng)求并解析數(shù)據(jù)
上兩節(jié)課有詳細(xì)的講解,所以這部分不再贅述。
4.建立翻頁(yè)鏈接
上面我們放的鏈接為第一頁(yè)的地址,根據(jù)翻頁(yè)網(wǎng)頁(yè)的地址我們可以發(fā)現(xiàn),“p”對(duì)應(yīng)的值為變量,因此我們拼接網(wǎng)址:
5.對(duì)翻頁(yè)鏈接發(fā)送請(qǐng)求
基本格式為:yield scrapy.Request(url地址,callback=self.parse),當(dāng)遇到第二頁(yè)的時(shí)候,會(huì)根據(jù)上面的拼接地址填入,并解析數(shù)據(jù)
6.總結(jié)
要實(shí)現(xiàn)翻頁(yè)自動(dòng)發(fā)送請(qǐng)求,需要先建立好第一頁(yè)的請(qǐng)求并解析,然后寫(xiě)入翻頁(yè)的網(wǎng)址之后,通過(guò)調(diào)用yield關(guān)鍵字實(shí)現(xiàn)翻頁(yè)自動(dòng)發(fā)送請(qǐng)求