日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

爬蟲的編程語言有不少,但 Python 絕對(duì)是其中的主流之一。下面就為大家介紹下 Python 在編寫網(wǎng)絡(luò)爬蟲常常用到的一些庫。

請(qǐng)求庫:實(shí)現(xiàn) HTTP 請(qǐng)求操作

  • urllib:一系列用于操作URL的功能。
  • requests:基于 urllib 編寫的,阻塞式 HTTP 請(qǐng)求庫,發(fā)出一個(gè)請(qǐng)求,一直等待服務(wù)器響應(yīng)后,程序才能進(jìn)行下一步處理。
  • selenium:自動(dòng)化測試工具。一個(gè)調(diào)用瀏覽器的 driver,通過這個(gè)庫你可以直接調(diào)用瀏覽器完成某些操作,比如輸入驗(yàn)證碼。
  • aiohttp:基于 asyncio 實(shí)現(xiàn)的 HTTP 框架。異步操作借助于 async/await 關(guān)鍵字,使用異步庫進(jìn)行數(shù)據(jù)抓取,可以大大提高效率。

解析庫:從網(wǎng)頁中提取信息

  • beautifulsoup:html 和 XML 的解析,從網(wǎng)頁中提取信息,同時(shí)擁有強(qiáng)大的API和多樣解析方式。
  • pyquery:jQuery 的 Python 實(shí)現(xiàn),能夠以 jQuery 的語法來操作解析 HTML 文檔,易用性和解析速度都很好。
  • lxml:支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高。
  • tesserocr:一個(gè) OCR 庫,在遇到驗(yàn)證碼(圖形驗(yàn)證碼為主)的時(shí)候,可直接用 OCR 進(jìn)行識(shí)別。

存儲(chǔ)庫:Python 與數(shù)據(jù)庫交互

  • pyMySQL:一個(gè)純 Python 實(shí)現(xiàn)的 MySQL 客戶端操作庫。
  • pymongo:一個(gè)用于直接連接 mongodb 數(shù)據(jù)庫進(jìn)行查詢操作的庫。
  • redisdump:一個(gè)用于 redis 數(shù)據(jù)導(dǎo)入/導(dǎo)出的工具。基于 ruby 實(shí)現(xiàn)的,因此使用它,需要先安裝 Ruby。

爬蟲框架

  • Scrapy:很強(qiáng)大的爬蟲框架,可以滿足簡單的頁面爬取(比如可以明確獲知url pattern的情況)。用這個(gè)框架可以輕松爬下來如亞馬遜商品信息之類的數(shù)據(jù)。但是對(duì)于稍微復(fù)雜一點(diǎn)的頁面,如 weibo 的頁面信息,這個(gè)框架就滿足不了需求了。
  • Crawley:高速爬取對(duì)應(yīng)網(wǎng)站的內(nèi)容,支持關(guān)系和非關(guān)系數(shù)據(jù)庫,數(shù)據(jù)可以導(dǎo)出為 JSON、XML 等。
  • Portia:可視化爬取網(wǎng)頁內(nèi)容。
  • newspaper:提取新聞、文章以及內(nèi)容分析。
  • python-goose:JAVA 寫的文章提取工具。
  • cola:一個(gè)分布式爬蟲框架。項(xiàng)目整體設(shè)計(jì)有點(diǎn)糟,模塊間耦合度較高。

Web 框架庫

  • flask:輕量級(jí)的 web 服務(wù)程序,簡單,易用,靈活,主要來做一些 API 服務(wù)。做代理時(shí)可能會(huì)用到。
  • django:一個(gè) web 服務(wù)器框架,提供了一個(gè)完整的后臺(tái)管理,引擎、接口等,使用它可做一個(gè)完整網(wǎng)站。

分享到:
標(biāo)簽:爬蟲 網(wǎng)絡(luò) Python
用戶無頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績?cè)u(píng)定