本文的文字及圖片來源于網絡,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯系我們以作處理。
作者: 南小小川/南川筆記
PS:如有需要Python學習資料的小伙伴可以加點擊下方鏈接自行獲取
http://note.youdao.com/noteshare?id=3054cce4add8a909e784ad934f956cef
本教程完全基于Python3版本,主要使用Chrome瀏覽器調試網頁、Scrapy框架爬取數據、MongoDB數據庫存儲數據,選擇這個組合的理由是成熟、穩定、快速、通行,此外可能會涉及Requests+BeautifulSoup解析、redis數據庫、Djiango/Flask框架等,適合已有一定爬蟲基礎的朋友學習爬取主流網站數據。
工作流程
根據前期查詢、分析、總結,得到一條實現本項目的路徑:
反爬分析
- UA
訪問網易云只需要User-Agent是正常的即可,直接通過F12把自己的瀏覽器UI存入程序中。
- IP
網易云對于爬取過快的單擊將會拉黑IP,根據使用校園網被拉黑的經歷來看,網易云封IP的時間還是挺長的,可能接近1天,比新浪微博返回418要殘忍很多,所以千萬不要用校園網爬取網易云,不然被ban了你連正常的網易云都訪問不了了。我自己使用的是芝麻代理,已經寫成了DOWNLOAD_MIDDLEWARE,結合MongoDB數據庫Scrapy在爬取中會自動切換、重新獲得可用的代理IP。網上也有很多免費代理IP的網站,比如西刺等,Github上也有現成開源的動態爬取免費IP的項目,有些有點問題,但因為工程量的問題,我一直沒用。
- iFrame
網易云的所有歌曲信息、評論等等,都是嵌在iFrame框架里的,這個要特別特別注意。具體的表現為,當你在程序中使用Requests或者Scrapy訪問李榮浩的熱門歌曲頁面:時,你會得不到任何你想要的歌曲信息,但你把這個#號去掉,就可以得到了。但是當你用正常瀏覽器訪問這兩個網址時,都會跳轉到第一個,因為瀏覽器對其進行了JAVAScript渲染。這點非常重要,具體的直觀測試方法,就是在瀏覽器頁面內右鍵,可以看到有兩個選項,一個是查看網頁源代碼(View Page Source),一個是查看框架源代碼(View Frame Source),自己點點看就能明顯地知道區別了。如果你是用Selenium等自動化程序訪問的,不要忘了切換Frame才能得到自己想要的數據。
- API
網易云的很多數據其實是有API的,只是不去研究不知道,或者說沒有公開開放,但你在知乎、簡書、Github上能找到一些,本次項目里面的爬取評論部分就是用的知乎里面一位用戶給出的VIP的API,幫了我非常大的忙,因為如果不是有這個VIP的API,我們就要走前端JavaScript解密,去破解網易云的Aes和RSA加密過程,這個代價就巨高了,而且爬取速度也絕非直接用API能比的。用代理IP爬取網易云主站信息大概每1000頁就要死一個,但是爬評論的API,每十萬頁死一個差不多了,甚至也許都不會死(我的IP都是短期生存5-25分鐘的,所以可能是自己死掉了)。
核心代碼
以下是Scrapy中從歌手分類頁到歌手專輯頁再到專輯內的單曲頁爬取鏈:
def start_requests(self): for area in self._seq_area: for kind in self._seq_kind: for initial in self._seq_cat_initial: cat = f'{area}00{kind}' artists_url = self.settings['HOST_ARTISTS'].format(cat=cat, initial=initial) yield Request(artists_url, callback=self.parse_artists)def parse_artists(self, response): for singer_node in response.css('#m-artist-box li'): response.meta['item'] = singer_item = SingerItem() singer_item['_id'] = singer_item['singer_id'] = singer_id = int(singer_node.css('a.nm::attr(href)').re_first('d+')) singer_item['crawl_time'] = datetime.now() singer_item['singer_name'] = singer_node.css('a.nm::text').get() singer_item['singer_desc_url'] = self.get_singer_desc(singer_id) singer_item['singer_hot_songs'] = response.urljoin(singer_node.css('a.nm::attr(href)').re_first('S+')) singer_item['cat_name'] = response.css('.z-slt::text').get() singer_item['cat_id'] = int(response.css('.z-slt::attr(href)').re_first('d+')) singer_item['cat_url'] = response.urljoin(response.css('.z-slt::attr(href)').re_first('S+')) yield singer_item yield Request(self.get_singer_albums(singer_id), callback=self.parse_albums)def parse_albums(self, response): for li in response.css('#m-song-module li'): yield response.follow(li.css('a.msk::attr(href)').get(), callback=self.parse_songs) next_page = response.css('div.u-page a.znxt::attr(href)').get() if next_page: yield response.follow(next_page, callback=self.parse_albums)def parse_songs(self, response): album_item = AlbumItem() album_item['_id'] = album_item['album_id'] = int(re.search('id=(d+)', response.url).group(1)) album_item['album_name'] = response.css('h2::text').get() album_item['album_author'] = response.css('a.u-btni::attr(data-res-author)').get() album_item['album_author_id'] = int(response.css('p.intr:nth-child(2) a::attr(href)').re_first('d+')) album_item['album_authors'] =[{'name': a.css('::text').get(), 'href': a.css('::attr(href)').get()} for a in response.css('p.intr:nth-child(2) a')] album_item['album_time'] = response.css('p.intr:nth-child(3)::text').get() album_item['album_url'] = response.url album_item['album_img'] = response.css('.cover img::attr(src)').get() album_item['album_company'] = response.css('p.intr:nth-child(4)::text').re_first('w+') album_item['album_desc'] = response.xpath('string(//div[@id="album-desc-more"])').get() if response.css('#album-desc-more') else response.xpath('string(.//div[@class="n-albdesc"]/p)').get() # 用這個 'span#cnt_comment_count::text' 有些沒有評論的會出問題,會變成“評論” album_item['album_comments_cnt'] = int(response.css('#comment-box::attr(data-count)').get()) album_item['album_songs'] = response.css('#song-list-pre-cache li a::text').getall() album_item['album_Appid'] = int(json.loads(response.css('script[type="application/ld+json"]::text').get())['appid']) yield album_item for li in response.css('#song-list-pre-cache li'): song_item = SongItem() song_item['crawl_time'] = datetime.now() song_item['song_name'] = li.css('a::text').get() song_item['_id'] = song_item['song_id'] = int(li.css('a::attr(href)').re_first('d+')) song_item['song_url'] = response.urljoin(li.css('a::attr(href)').re_first('S+')) yield song_item try: # 熱歌信息在節點下,可以通過div#hotsong-list li a 得到歌曲的Id, href, name # 但是,可以通過下面的textarea節點得到更為詳細的data,這個不能通過正則匹配[],不然會被一些歌曲名給套住 # 有些歌手沒有熱門歌曲,比如: https://music.163.com/#/artist?id=13226806,
當接近200萬首歌的數據爬取完畢之后,我們啟動評論爬蟲,主要工作就是遍歷數據庫中還沒有更新“評論數”這個字段的歌曲id,然后訪問對應的評論api,得到我們想要的評論數據。
核心代碼如下:
def start_requests(self): cursor = self.coll_song.find({'comments_cnt': {'$exists': False}}, no_cursor_timeout=True) for song_item in cursor: if self.settings.get('PARSE_ALL_COMMENTS'): limit, offset = 100, 0 elif self.settings.get('PARSE_HOT_COMMENTS'): limit, offset = 0, 0 else: limit, offset = 0, 1 comment_url = self.get_comment_page_url(song_item['song_id'], limit=limit, offset=offset) yield Request(comment_url, dont_filter=False, callback=self.parse, meta={'song_item': song_item, 'limit': limit, 'offset': offset}) cursor.close() def parse(self, response): json_data = json.loads(response.text) comment_item = CommentItem() comment_item['comment_url'] = response.url.split('?')[0] comment_item['crawl_time'] = datetime.now() comment_item['isMusician'] = json_data['isMusician'] comment_item['comments_cnt'] = comments_cnt = json_data['total'] comment_item['song_name'] = response.meta['song_item']['song_name'] comment_item['singer_name'] = response.meta['song_item']['singer_name'] comment_item['song_id'] = song_id = response.meta['song_item']['song_id'] for comment_info in json_data.get('comments'): comment_item.update(comment_info) comment_item['_id'] = comment_info['commentId'] yield comment_item for comment_info in json_data.get('hotComments'): comment_item.update(comment_info) comment_item['_id'] = comment_info['commentId'] yield comment_item if self.settings.get("PARSE_ALL_COMMENTS") and json_data['more']: response.meta['offset'] = new_offset = response.meta['offset'] + 10 yield Request(self.get_comment_page_url(song_id, offset=new_offset), callback=self.parse, dont_filter=False, meta=response.meta) else: song_item = SongItem() song_item['_id'] = response.meta['song_item']['song_id'] song_item['comments_cnt'] = comments_cnt yield song_item
小結
本項目提供了一個爬取網易云音樂的可行路徑,即歌手分類 → 歌手 → 歌手的專輯 → 專輯內的單曲 → 單曲的評論,是一個非常廣度的路徑,如果全程爬完能得到3萬歌手、20萬專輯、200萬首單曲的必要信息,可根據這些信息做歌手、專輯、單曲排序,制作歌單、熱點追蹤等等,很有意義。