日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

如今,需要使用代理IP的地方有很多,例如網(wǎng)絡(luò)投票、大數(shù)據(jù)分析、人工智能等領(lǐng)域。那么如何獲取代理IP呢?很多人想到了免費(fèi)代理IP,免費(fèi)不用錢,豈不美哉。雖然個(gè)人不太建議使用免費(fèi)代理IP,但還是給大家分享下思路方法。

怎么用python批量獲取免費(fèi)代理IP

 

一、收集網(wǎng)站

想要獲取免費(fèi)代理IP,首先得收集一些有免費(fèi)代理IP的網(wǎng)站,然后編寫代碼去批量獲取網(wǎng)站上的免費(fèi)代理IP。這里就不說(shuō)有哪些網(wǎng)站呢,自己去百度一搜,大把的有。

二、分析網(wǎng)站

收集到網(wǎng)站后,對(duì)含有免費(fèi)代理IP的網(wǎng)頁(yè)進(jìn)行分析,比如總共有多少頁(yè),想要的數(shù)據(jù)是在哪里,要怎么來(lái)獲取。

三、編寫代碼

分析完網(wǎng)站后,就可以開(kāi)始編寫代碼了,這里貼出代碼,僅供參考。

import requests
import csv
import pandas as pd
from fake_useragent import UserAgent
import time

#獲取含有免費(fèi)代理IP的所有頁(yè)面url
def get_pageUrls(startUrl,endUrl,pageCount):
    page_url_list = []

# range 從1開(kāi)始,所以pageCount+1,左閉右開(kāi)

    for i in range(1,pageCount+1):
    
    #頁(yè)面URL一般由三部分組成,前半部分url+第幾頁(yè)+后半部分url,
    #有的頁(yè)面URL最后以頁(yè)數(shù)結(jié)尾,沒(méi)有后半部分,那么endUrl設(shè)置為空字符串即可
    
        page_url = startUrl + str(i) + endUrl
        page_url_list.Append(page_url)

    return page_url_list

#請(qǐng)求所有免費(fèi)代理IP的頁(yè)面url,獲取免費(fèi)代理IP
def get_content(page_url_list):
    ua =UserAgent()
    data_list = []
    for page_url in page_url_list:
        try:
            resp = requests.get(page_url, headers={'User-Agent': ua.random})
          #如果免費(fèi)代理IP是放在表格里,可以直接使用 pandas來(lái)獲取,比較簡(jiǎn)單,
          #若不是,則需要用BeautifulSoup,或者xpath,或正則表達(dá)式來(lái)提取
            datas = pd.read_html(resp.text)
            # print(datas)
            data_list.append(datas)
            time.sleep(2)
            
        except:
            print('錯(cuò)誤的請(qǐng)求URL:'+page_url)

    # print(data_list)
    return data_list

# 將獲取到的免費(fèi)代理IP保存到本地的Excel表格里,留待后用,也可以保存到TXT文本,或數(shù)據(jù)庫(kù)里
def save_csv(data_list,save_path):
    for datas in data_list:
        for data in datas:
            # print(data)
            data.to_csv(sava_path,mode='a',encoding='utf-8',header=1,index=0)




if __name__ == '__main__':
    #前半部分url
    startUrl = 'https://*******/free/inha/'
   #頁(yè)數(shù)
    pageCount = 4
   #若頁(yè)面URL最后是以頁(yè)數(shù)結(jié)尾,后半部分url設(shè)置為空字符串
    endUrl = ''
     #文件保存路徑
    save_path = r'D:3.xlsx'

    page_url_list = get_pageUrls(startUrl,endUrl,pageCount)
    data_list = get_content(page_url_list)
    save_csv(data_list,save_path)

也許代碼不夠完善,不當(dāng)之處歡迎指正,希望和大家一起交流。

分享到:
標(biāo)簽:代理 IP
用戶無(wú)頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過(guò)答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫(kù),初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定