日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

每天一個爬蟲練習,爬取天氣數據,適合新手

 

每天一個爬蟲練習,爬個比較簡單的網站

import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
def get_data(url):
    resp = requests.get(url)

    html = resp.content.decode('gbk')

    soup = BeautifulSoup(html, 'html.parser')
    tr_list = soup.find_all('tr')

    dates, conditions, tempmin, tempmax = [], [], [], []
    for data in tr_list[1:]:
        sub_data = data.text.split()

        dates.Append(sub_data[0])
        conditions.append(''.join(sub_data[1:3]))
        tempmax.append(sub_data[3])
        tempmin.append(sub_data[5])
    _data = pd.DataFrame()
    _data["日期"] = dates
    _data['天氣狀況'] = conditions
    _data['最高氣溫'] = tempmax
    _data['最低氣溫'] = tempmin

    return _data

#data_1_month = get_data('此處為任一月份數據的網址') 使用時只需修改此處,具體示例如下


print('正在抓取1月份數據')
data_1_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201101.html')
print('正在抓取2月份數據')
data_2_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201102.html')
print('正在抓取3月份數據')
data_3_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201103.html')
print('正在抓取4月份數據')
data_4_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201104.html')
print('正在抓取5月份數據')
data_5_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201105.html')
print('正在抓取6月份數據')
data_6_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201106.html')
print('正在抓取7月份數據')
data_7_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201107.html')
print('正在抓取8月份數據')
data_8_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201108.html')
print('正在抓取9月份數據')
data_9_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201109.html')
print('正在抓取10月份數據')
data_10_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201110.html')
print('正在抓取11月份數據')
data_11_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201111.html')
print('正在抓取12月份數據')
data_12_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201112.html')


print('數據抓取成功!正在整合該年數據,請稍后......')
time.sleep(3)

data = pd.concat([data_1_month, data_2_month, data_3_month, data_4_month, data_5_month, data_6_month, data_7_month, data_8_month, data_9_month, data_10_month, data_11_month, data_12_month]).reset_index(drop=True)
print(data)

print('數據整合完畢!')
#數據爬取結果會保存在此代碼同一徑下

示例結果:

每天一個爬蟲練習,爬取天氣數據,適合新手

 

分享到:
標簽:爬蟲
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定