日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

【Part1——理論篇】

大家好,我是皮皮。

試想一個問題,如果我們要抓取某個微博大V微博的評論數據,應該怎么實現呢?最簡單的做法就是找到微博評論數據接口,然后通過改變參數來獲取最新數據并保存。首先從微博api尋找抓取評論的接口,如下圖所示。

一篇文章教會你使用Python定時抓取微博評論

 

但是很不幸,該接口頻率受限,抓不了幾次就被禁了,還沒有開始起飛,就涼涼了。

一篇文章教會你使用Python定時抓取微博評論

 

接下來小編又選擇微博的移動端網站,先登錄,然后找到我們想要抓取評論的微博,打開瀏覽器自帶流量分析工具,一直下拉評論,找到評論數據接口,如下圖所示。

一篇文章教會你使用Python定時抓取微博評論

 

之后點擊“參數”選項卡,可以看到參數為下圖所示的內容:

一篇文章教會你使用Python定時抓取微博評論

 

可以看到總共有4個參數,其中第1、2個參數為該條微博的id,就像人的身份證號一樣,這個相當于該條微博的“身份證號”,max_id是變換頁碼的參數,每次都要變化,下次的max_id參數值在本次請求的返回數據中。

一篇文章教會你使用Python定時抓取微博評論

 

【Part2——實戰篇】

有了上文的基礎之后,下面我們開始擼代碼,使用Python/ target=_blank class=infotextkey>Python進行實現。

一篇文章教會你使用Python定時抓取微博評論

 

1、首先區分url,第一次不需要max_id,第二次需要用第一次返回的max_id。

一篇文章教會你使用Python定時抓取微博評論

 

2、請求的時候需要帶上cookie數據,微博cookie的有效期比較長,足夠抓一條微博的評論數據了,cookie數據可以從瀏覽器分析工具中找到。

一篇文章教會你使用Python定時抓取微博評論

 

3、然后將返回數據轉換成json格式,取出評論內容、評論者昵稱和評論時間等數據,輸出結果如下圖所示。

一篇文章教會你使用Python定時抓取微博評論

 

4、為了保存評論內容,我們要將評論中的表情去掉,使用正則表達式進行處理,如下圖所示。

一篇文章教會你使用Python定時抓取微博評論

 

5、之后接著把內容保存到txt文件中,使用簡單的open函數進行實現,如下圖所示。

一篇文章教會你使用Python定時抓取微博評論

 

6、重點來了,通過此接口最多只能返回16頁的數據(每頁20條),網上也有說返回50頁的,但是接口不同、返回的數據條數也不同,所以我加了個for循環,一步到位,遍歷還是很給力的,如下圖所示。

一篇文章教會你使用Python定時抓取微博評論

 

7、這里把函數命名為job。為了能夠一直取出最新的數據,我們可以用schedule給程序加個定時功能,每隔10分鐘或者半個小時抓1次,如下圖所示。

一篇文章教會你使用Python定時抓取微博評論

 

8、對獲取到的數據,做去重處理,如下圖所示。如果評論已經在里邊的話,就直接pass掉,如果沒有的話,繼續追加即可。

一篇文章教會你使用Python定時抓取微博評論

 

這項工作到此就基本完成了。

 

【Part3——總結篇】

這種方法雖然抓不全數據,但在這種微博的限制條件下,也是一種比較有效的方法。

分享到:
標簽:Python
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定