日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

如今,需要使用代理IP的地方有很多,例如網絡投票、大數據分析、人工智能等領域。那么如何獲取代理IP呢?很多人想到了免費代理IP,免費不用錢,豈不美哉。雖然個人不太建議使用免費代理IP,但還是給大家分享下思路方法。

怎么用python批量獲取免費代理IP

 

一、收集網站

想要獲取免費代理IP,首先得收集一些有免費代理IP的網站,然后編寫代碼去批量獲取網站上的免費代理IP。這里就不說有哪些網站呢,自己去百度一搜,大把的有。

二、分析網站

收集到網站后,對含有免費代理IP的網頁進行分析,比如總共有多少頁,想要的數據是在哪里,要怎么來獲取。

三、編寫代碼

分析完網站后,就可以開始編寫代碼了,這里貼出代碼,僅供參考。

import requests
import csv
import pandas as pd
from fake_useragent import UserAgent
import time

#獲取含有免費代理IP的所有頁面url
def get_pageUrls(startUrl,endUrl,pageCount):
    page_url_list = []

# range 從1開始,所以pageCount+1,左閉右開

    for i in range(1,pageCount+1):
    
    #頁面URL一般由三部分組成,前半部分url+第幾頁+后半部分url,
    #有的頁面URL最后以頁數結尾,沒有后半部分,那么endUrl設置為空字符串即可
    
        page_url = startUrl + str(i) + endUrl
        page_url_list.Append(page_url)

    return page_url_list

#請求所有免費代理IP的頁面url,獲取免費代理IP
def get_content(page_url_list):
    ua =UserAgent()
    data_list = []
    for page_url in page_url_list:
        try:
            resp = requests.get(page_url, headers={'User-Agent': ua.random})
          #如果免費代理IP是放在表格里,可以直接使用 pandas來獲取,比較簡單,
          #若不是,則需要用BeautifulSoup,或者xpath,或正則表達式來提取
            datas = pd.read_html(resp.text)
            # print(datas)
            data_list.append(datas)
            time.sleep(2)
            
        except:
            print('錯誤的請求URL:'+page_url)

    # print(data_list)
    return data_list

# 將獲取到的免費代理IP保存到本地的Excel表格里,留待后用,也可以保存到TXT文本,或數據庫里
def save_csv(data_list,save_path):
    for datas in data_list:
        for data in datas:
            # print(data)
            data.to_csv(sava_path,mode='a',encoding='utf-8',header=1,index=0)




if __name__ == '__main__':
    #前半部分url
    startUrl = 'https://*******/free/inha/'
   #頁數
    pageCount = 4
   #若頁面URL最后是以頁數結尾,后半部分url設置為空字符串
    endUrl = ''
     #文件保存路徑
    save_path = r'D:3.xlsx'

    page_url_list = get_pageUrls(startUrl,endUrl,pageCount)
    data_list = get_content(page_url_list)
    save_csv(data_list,save_path)

也許代碼不夠完善,不當之處歡迎指正,希望和大家一起交流。

分享到:
標簽:代理 IP
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定