爬蟲環境
Python3.7+pycharm
最近發現一個網站,首商網,上面企業信息百萬以上,然而網站一點兒反爬機制都沒有,這對我們喜歡爬蟲的來講豈不是太爽了,直接拿出擼一套代碼,用了三次并發,每次用20條線程,爬了五六個小時,拿下了20萬條數據,美滋滋!
還是老規矩,下面直接上代碼,所有的注釋以及解釋都在代碼中,可以直接運行:
for k in range(1, 1651, 50):
# -*- coding: utf-8 -*-
# 本項目是原始的異步爬蟲,沒有封裝為函數
import asyncio
import aiohttp
import time
from bs4 import BeautifulSoup
import csv
import requests
from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED
# 先用并發獲取每個頁面的子鏈接
########################################################################################################################
pro = 'zhaoshuang:LINA5201314@ 14.215.44.251:28803'
proxies = {'http://': 'http://' + pro,
'httpS://': 'https://' + pro
}
# 加入請求頭
headers = {'User-Agent': 'Mozilla/5.0 (windows NT 10.0; WOW64) AppleWebKit'
'/537.36 (Khtml, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}
wzs = []
def parser(url):
print(url)
try:
response = requests.get(url, headers=headers)
soup1 = BeautifulSoup(response.text, "lxml")
# body > div.list_contain > div.left > div.list_li > ul > li:nth-child(1) > table > tbody > tr > td:nth-child(3) > div.title > a
wz = soup1.select('div.title')
for i in wz:
wzs.append(i.contents[0].get("href"))
time.sleep(1)
except:
print('公司正在審核中')
urls = ['http://www.sooshong.com/c-3p{}'.format(num) for num in range(k, k + 50)]
# 利用并發加速爬取,最大線程為50個,本文章中一共有50個網站,可以加入50個線程
# 建立一個加速器對象,線程數每個網站都不同,太大網站接受不了會造成數據損失
executor = ThreadPoolExecutor(max_workers=10)
# submit()的參數: 第一個為函數, 之后為該函數的傳入參數,允許有多個
future_tasks = [executor.submit(parser, url) for url in urls]
# 等待所有的線程完成,才進入后續的執行
wait(future_tasks, return_when=ALL_COMPLETED)
print('子頁鏈接抓取完畢!')
########################################################################################################################
# 使用并發法爬取詳細頁鏈接
# 定義函數獲取每個網頁需要爬取的內容
wzs1 = []
def parser(url):
# 利用正則表達式解析網頁
try:
res = requests.get(url, headers=headers)
# 對響應體進行解析
soup = BeautifulSoup(res.text, "lxml")
# 找到頁面子鏈接,進入子頁面,對子頁面進行抓取
# 用select函數抽取需要的內容,單擊需要的內容》檢查》copy select
lianjie = soup.select('#main > div.main > div.intro > div.intros > div.text > p > a')
lianjie = lianjie[0].get('href')
wzs1.append(lianjie)
print(lianjie)
except:
print('子頁解析失敗')
# 利用并發加速爬取,最大線程為50個,本文章中一共有50個網站,可以加入50個線程
# 建立一個加速器對象,線程數每個網站都不同,太大網站接受不了會造成數據損失
executor = ThreadPoolExecutor(max_workers=10)
# submit()的參數: 第一個為函數, 之后為該函數的傳入參數,允許有多個
future_tasks = [executor.submit(parser, url) for url in wzs]
# 等待所有的線程完成,才進入后續的執行
wait(future_tasks, return_when=ALL_COMPLETED)
print('詳細頁鏈接獲取完畢!')
"""
# 使用異步法抓取子頁面的鏈接
########################################################################################################################
async def get_html(sess, ur):
try:
proxy_auth = aiohttp.BasicAuth('zhaoshuang', 'LINA5201314')
html = await sess.get(ur,
headers=headers) # , proxy='http://'+'14.116.200.33:28803', proxy_auth=proxy_auth)
r = await html.text()
return r
except:
print("error")
# f = requests.get('http://211775.sooshong.com', headers=headers)
wzs1 = []
# 解析網頁
async def parser(respo):
# 利用正則表達式解析網頁
try:
# 對響應體進行解析
soup = BeautifulSoup(respo, "lxml")
# 找到頁面子鏈接,進入子頁面,對子頁面進行抓取
# 用select函數抽取需要的內容,單擊需要的內容》檢查》copy select
lianjie = soup.select('#main > div.main > div.intro > div.intros > div.text > p > a')
lianjie = lianjie[0].get('href')
wzs1.append(lianjie)
print(lianjie)
company = soup.select("#main > div.aside > div.info > div.info_c > p:nth-child(1) > strong") # 標題
company = company[0].text
# 匹配電話號碼
dianhua = soup.select("#main > div.aside > div.info > div.info_c > p:nth-child(3)") # 地址
dianhua = dianhua[0].text.split(":")[1]
# 匹配手機號碼
phone = soup.select("#main > div.aside > div.info > div.info_c > p:nth-child(4)") # 日租價格
phone = phone[0].text.split(":")[1]
# 匹配傳真
chuanzhen = soup.select("#main > div.aside > div.info > div.info_c > p:nth-child(5)") # 月租價格
chuanzhen = chuanzhen[0].text.split(":")[1]
# 經營模式
jingying = soup.select("#main > div.aside > div.info > div.info_c > p:nth-child(8)") # 面積大小
jingying = jingying[0].text.split(":")[1]
# 公司地址
address = soup.select('#main > div.aside > div.info > div.info_c > p:nth-child(9)') # 抽取建造年份
address = address[0].text.split(":")[1]
# 公司簡介
# introduction = soup.select("#main > div.main > div.intro > div.intros > div.text > p") # 樓層屬性
# introduction = introduction[0].text.strip()
data = [company, address, dianhua, phone, chuanzhen, jingying]
print(data)
with open('首富網企業7.csv', 'a+', newline='', encoding='GB2312', errors='ignore') as csvfile:
w1 = csv.writer(csvfile)
w1.writerow(data, [1])
標簽:python# -*- coding: utf-8 -*-
# 本項目是原始的異步爬蟲,沒有封裝為函數
import asyncio
import aiohttp
import time
from bs4 import BeautifulSoup
import csv
import requests
from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED
# 先用并發獲取每個頁面的子鏈接
########################################################################################################################
pro = 'zhaoshuang:LINA5201314@ 14.215.44.251:28803'
proxies = {'http://': 'http://' + pro,
'httpS://': 'https://' + pro
}
# 加入請求頭
headers = {'User-Agent': 'Mozilla/5.0 (windows NT 10.0; WOW64) AppleWebKit'
'/537.36 (Khtml, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}
wzs = []
def parser(url):
print(url)
try:
response = requests.get(url, headers=headers)
soup1 = BeautifulSoup(response.text, "lxml")
# body > div.list_contain > div.left > div.list_li > ul > li:nth-child(1) > table > tbody > tr > td:nth-child(3) > div.title > a
wz = soup1.select('div.title')
for i in wz:
wzs.append(i.contents[0].get("href"))
time.sleep(1)
except:
print('公司正在審核中')
urls = ['http://www.sooshong.com/c-3p{}'.format(num) for num in range(k, k + 50)]
# 利用并發加速爬取,最大線程為50個,本文章中一共有50個網站,可以加入50個線程
# 建立一個加速器對象,線程數每個網站都不同,太大網站接受不了會造成數據損失
executor = ThreadPoolExecutor(max_workers=10)
# submit()的參數: 第一個為函數, 之后為該函數的傳入參數,允許有多個
future_tasks = [executor.submit(parser, url) for url in urls]
# 等待所有的線程完成,才進入后續的執行
wait(future_tasks, return_when=ALL_COMPLETED)
print('子頁鏈接抓取完畢!')
########################################################################################################################
# 使用并發法爬取詳細頁鏈接
# 定義函數獲取每個網頁需要爬取的內容
wzs1 = []
def parser(url):
# 利用正則表達式解析網頁
try:
res = requests.get(url, headers=headers)
# 對響應體進行解析
soup = BeautifulSoup(res.text, "lxml")
# 找到頁面子鏈接,進入子頁面,對子頁面進行抓取
# 用select函數抽取需要的內容,單擊需要的內容》檢查》copy select
lianjie = soup.select('#main > div.main > div.intro > div.intros > div.text > p > a')
lianjie = lianjie[0].get('href')
wzs1.append(lianjie)
print(lianjie)
except:
print('子頁解析失敗')
# 利用并發加速爬取,最大線程為50個,本文章中一共有50個網站,可以加入50個線程
# 建立一個加速器對象,線程數每個網站都不同,太大網站接受不了會造成數據損失
executor = ThreadPoolExecutor(max_workers=10)
# submit()的參數: 第一個為函數, 之后為該函數的傳入參數,允許有多個
future_tasks = [executor.submit(parser, url) for url in wzs]
# 等待所有的線程完成,才進入后續的執行
wait(future_tasks, return_when=ALL_COMPLETED)
print('詳細頁鏈接獲取完畢!')
"""
# 使用異步法抓取子頁面的鏈接
########################################################################################################################
async def get_html(sess, ur):
try:
proxy_auth = aiohttp.BasicAuth('zhaoshuang', 'LINA5201314')
html = await sess.get(ur,
headers=headers) # , proxy='http://'+'14.116.200.33:28803', proxy_auth=proxy_auth)
r = await html.text()
return r
except:
print("error")
# f = requests.get('http://211775.sooshong.com', headers=headers)
wzs1 = []
# 解析網頁
async def parser(respo):
# 利用正則表達式解析網頁
try:
# 對響應體進行解析
soup = BeautifulSoup(respo, "lxml")
# 找到頁面子鏈接,進入子頁面,對子頁面進行抓取
# 用select函數抽取需要的內容,單擊需要的內容》檢查》copy select
lianjie = soup.select('#main > div.main > div.intro > div.intros > div.text > p > a')
lianjie = lianjie[0].get('href')
wzs1.append(lianjie)
print(lianjie)
company = soup.select("#main > div.aside > div.info > div.info_c > p:nth-child(1) > strong") # 標題
company = company[0].text
# 匹配電話號碼
dianhua = soup.select("#main > div.aside > div.info > div.info_c > p:nth-child(3)") # 地址
dianhua = dianhua[0].text.split(":")[1]
# 匹配手機號碼
phone = soup.select("#main > div.aside > div.info > div.info_c > p:nth-child(4)") # 日租價格
phone = phone[0].text.split(":")[1]
# 匹配傳真
chuanzhen = soup.select("#main > div.aside > div.info > div.info_c > p:nth-child(5)") # 月租價格
chuanzhen = chuanzhen[0].text.split(":")[1]
# 經營模式
jingying = soup.select("#main > div.aside > div.info > div.info_c > p:nth-child(8)") # 面積大小
jingying = jingying[0].text.split(":")[1]
# 公司地址
address = soup.select('#main > div.aside > div.info > div.info_c > p:nth-child(9)') # 抽取建造年份
address = address[0].text.split(":")[1]
# 公司簡介
# introduction = soup.select("#main > div.main > div.intro > div.intros > div.text > p") # 樓層屬性
# introduction = introduction[0].text.strip()
data = [company, address, dianhua, phone, chuanzhen, jingying]
print(data)
with open('首富網企業7.csv', 'a+', newline='', encoding='GB2312', errors='ignore') as csvfile:
w1 = csv.writer(csvfile)
w1.writerow(data, [1])