日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

前言

嗨嘍!大家好呀,這里是Python/ target=_blank class=infotextkey>Python茜吖~

一個幫助用戶表達自我,記錄的視頻平臺。●記錄美好、智能匹配音樂、一鍵卡點視頻,超多原創、濾鏡、場景切換幫你...

今天我們就來用Python 采集無水印視頻內容

環境介紹:

  • python 3.8 解釋器
  • pycharm 2021專業版 >>> 激活碼 編輯器
  • 谷歌瀏覽器
  • 谷歌驅動
  • selenium >>> 驅動 >>> 瀏覽器

模塊使用]:

采集一個視頻

  • requests >>> pip install requests
  • re

采集多個視頻

  • selenium >>> pip install selenium==3.141.0 (3.141.0) 指定模塊版本去安裝
    使用這個模塊安裝瀏覽器驅動
  • time

模塊安裝問題:

如果安裝python第三方模塊:

    1. win + R 輸入 cmd 點擊確定, 輸入安裝命令 pip install 模塊名 (pip install requests) 回車
    2. 在pycharm中點擊Terminal(終端) 輸入安裝命令

安裝失敗原因

失敗一: pip 不是內部命令
解決方法: 設置環境變量

 

失敗二: 出現大量報紅 (read time out)
解決方法: 因為是網絡鏈接超時, 需要切換鏡像源
清華:
https://pypi.tuna.tsinghua.edu.cn/simple
阿里云:
https://mirrors.aliyun.com/pypi/simple/
中國科技大學
https://pypi.mirrors.ustc.edu.cn/simple/
華中理工大學:
https://pypi.hustunique.com/
山東理工大學:
https://pypi.sdutlinux.org/
豆瓣:
https://pypi.douban.com/simple/
例如:pip3 install -i
https://pypi.doubanio.com/simple/ 模塊名

 

失敗三: cmd里面顯示已經安裝過了, 或者安裝成功了, 但是在pycharm里面還是無法導入
解決方法: 可能安裝了多個python版本 (anaconda 或者 python 安裝一個即可) 卸載一個就好
或者你pycharm里面python解釋器沒有設置好


如何配置pycharm里面的python解釋器?

選擇file(文件) >>> setting(設置) >>> Project(項目) >>> python interpreter(python解釋器)點擊齒輪, 選擇add添加python安裝路徑


pycharm如何安裝插件?

選擇file(文件) >>> setting(設置) >>> Plugins(插件)點擊 Marketplace 輸入想要安裝的插件名字 比如:翻譯插件 輸入 translation / 漢化插件 輸入 Chinese選擇相應的插件點擊 install(安裝) 即可安裝成功之后 是會彈出 重啟pycharm的選項 點擊確定, 重啟即可生效


爬蟲實現思路流程: (****)

一. 數據來源分析確定爬取的內容是什么?
爬取抖音視頻內容通過開發者工具進行抓包分析 F12 或者 鼠標右鍵點擊插件選?.NETwork
I. 通過分析已經找到播放地址
II. 去分析, 播放地址可以從什么獲取
對于視頻播放url地址 進行一次轉碼 *** >>> 等會提取的時候 需要進行解碼

 

二. 代碼實現步驟

過程發送請求, 用python代碼模擬瀏覽器去發送請求

獲取數據, 獲取服務器返回響應數據

解析數據, 提取視頻url地址 以及 視頻標題

保存數據, 保存數據到本地


開始我們的代碼

導入模塊

# 導入數據請求模塊
import requests  # pip install requests  win + R 輸入cmd
# 導入正則
import re  # 內置模塊 不需要大家去安裝
import time  # 時間模塊
from selenium import webdriver  # pip install selenium==3.141.0

代碼

def drop_down():
    """執行頁面滾動的操作"""  # JAVAscript
    for x in range(1, 30, 4):  # 1 3 5 7 9  在你不斷的下拉過程中, 頁面高度也會變的
        time.sleep(1)
        j = x / 9  # 1/9  3/9  5/9  9/9
        # document.documentElement.scrollTop  指定滾動條的位置
        # document.documentElement.scrollHeight 獲取瀏覽器頁面的最大高度
        js = 'document.documentElement.scrollTop = document.documentElement.scrollHeight * %f' % j
        driver.execute_script(js)


# 人怎么去操作瀏覽器的, 就怎么寫代碼...
# 1. 打開一個瀏覽器或者下載一個瀏覽器吧 創建瀏覽器對象(實例化一個瀏覽器對象)
driver = webdriver.Chrome()
# 2. 輸入一個網址 請求網址
driver.get('https://www.douyin.com/user/MS4wLjABAAAA4N4OrZzTSmCPp8vVAqCeyU215Kav2JgFv2Lfy4DNWRs')
driver.implicitly_wait(10)
# 3. 提取所有li標簽 返回列表
# drop_down()
lis = driver.find_elements_by_css_selector('.ECMy_Zdt')
for li in lis:
    html_url = li.find_element_by_css_selector('a').get_attribute('href')
    print(html_url)
    #  1. 發送請求, 用python代碼模擬瀏覽器去發送請求
    # url = 'https://www.douyin.com/video/7066324040335592738'
    # headers 作用 偽裝python代碼 偽裝成瀏覽器 user-agent: 用戶代理 瀏覽器基本身份標識  cookie 用于檢測用戶信息, 是否有登陸賬號
    headers = {
        'cookie': 'douyin.com; ttcid=444dfe8e89ff4d99b0662076ad171c8775; ttwid=1%7CTnFKlrGi3lHjKf5bshFdP9Nwu_Vsiwo-TxvX9NISgj8%7C1642083887%7Cfbfa904ea2900763eb6ac090bdd09014d80840da1ca485bbfea193d5401b330e; MONITOR_WEB_ID=6d75c626-96a0-4270-ac18-aa0090b5bdb8; MONITOR_DEVICE_ID=341246a2-17c2-4c11-9c70-3ffd2cda0ffa; MONITOR_WEB_ID=c27b9f4a-4917-4256-be93-e948308467e3; odin_tt=0510c3c4196f54b541a96ac64e8b585b3a755be85057da8a1f3fa068e3f7b75ca2de4345e2b856f1e7b3f9455d86079731fe7d07a9f10890f26855d3674858e1; _tea_utm_cache_6383=undefined; douyin.com; strategyABtestKey=1648291293.035; passport_csrf_token=e0b90cb756903c370592bd558c2b0cf5; passport_csrf_token_default=e0b90cb756903c370592bd558c2b0cf5; AB_LOGIN_GUIDE_TIMESTAMP=1648291292963; s_v_web_id=verify_l17q2u00_kNENOykG_BIPh_4VLs_AVDZ_yMj0GtFSNH1u; _tea_utm_cache_1300=undefined; _tea_utm_cache_2285=undefined; THEME_STAY_TIME=299042; IS_HIDE_THEME_CHANGE=1; msToken=5X5W_7rY6cmo_SaaiMyCREV1hCZs-Jd9b7whX5GNCZsd9FU0zCTWYYAl0VhqGGUCjKS3bQf0f191VXdWHPNgqUz08MHEhk6qWhu4wVOlxhLyh3Vliaw37NU=; __ac_nonce=0623f02e00009007ea9bb; __ac_signature=_02B4Z6wo00f010eZ3RAAAIDCJJMde2RciUNHvdmAALPkmrPh1wY1Ey-OtTubjdK69ub9bqUt9DNRx8aP7dPtbOjyxcxyyK6yToF.7c4e615hiM5fYGwFCq0x8jHiY7BYLt6JZLIH8y38eMikd9; home_can_add_dy_2_desktop=1; msToken=fSBhJysNLifNHon5sgM-8n_3ZzJD49mCn9GUHLQydo7g52tCvrhNEKMFhxKEKlAxdE-z7er6yxwoJyO7-C_RdyslJnPejx9AAnkluZ22tSxM4siS7FUuO8E=; tt_scid=T-Exmos8oZiW6Wkb0uEjKsqAdjzxSnn4nznfku9EUmnDmpgq6Me7VDpIiYW4Fv805451; pwa_guide_count=3',
        'user-agent': 'Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.82 Safari/537.36'
    }
    response = requests.get(url=html_url, headers=headers)  # <Response [200]> 表示的是響應對象 200狀態碼 請求成功
    # 2. 獲取數據
    # print(response.text)  # 獲取html字符串數據  服務器返回response響應文本數據
    # 3. 解析數據
    # findall 找到所有, 從什么哪里去找什么數據  正則匹配出來數據返回都是列表數據 [] 列表 [0] 取第一個元素
    title = re.findall('<title data-react-helmet="true">(.*?) - 抖音</title>', response.text)[0]
    video_url = re.findall('src(.*?)vr%3D%2', response.text)[0]
    # print(video_url)
    video_url = requests.utils.unquote(video_url).replace('":"', 'https:')  # 解碼 并且使用replace字符串替換
    # print(title)
    # print(video_url)
    # 4. 保存數據 視頻數據內容
    video_content = requests.get(url=video_url, headers=headers).content  # 對于視頻播放地址發送請求,獲取二進制數據內容
    with open('video\' + title + '.mp4', mode='wb') as f:
        f.write(video_content)
    print(title, '保存完成')

視頻地址

python采集抖音孫一寧所發小視頻~簡單爬蟲小案例_嗶哩嗶哩_bilibili

尾語

好了,我的這篇文章寫到這里就結束啦!

有更多建議或問題可以評論區或私信我哦!一起加油努力叭(? •_•)?

喜歡就關注一下博主,或點贊收藏評論一下我的文章叭!!!

分享到:
標簽:Python
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定