Python 是一個很棒的語言。它是世界上發(fā)展最快的編程語言之一。它一次又一次地證明了在開發(fā)人員職位中和跨行業(yè)的數(shù)據(jù)科學職位中的實用性。整個 Python 及其庫的生態(tài)系統(tǒng)使它成為全世界用戶(初學者和高級用戶)的合適選擇。它的成功和流行的原因之一是它強大的第三方庫的集合,這些庫使它可以保持活力和高效。
在本文中,我們會研究一些用于數(shù)據(jù)科學任務的 Python 庫,而不是常見的比如 panda、scikit-learn 和 matplotlib 等的庫。盡管像 panda 和 scikit-learn 這樣的庫,是在機器學習任務中經(jīng)常出現(xiàn)的,但是了解這個領(lǐng)域中的其它 Python 產(chǎn)品總是很有好處的。
Wget
從網(wǎng)絡上提取數(shù)據(jù)是數(shù)據(jù)科學家的重要任務之一。Wget 是一個免費的實用程序,可以用于從網(wǎng)絡上下載非交互式的文件。它支持 HTTP、HTTPS 和 FTP 協(xié)議,以及通過 HTTP 的代理進行文件檢索。由于它是非交互式的,即使用戶沒有登錄,它也可以在后臺工作。所以下次當你想要下載一個網(wǎng)站或者一個頁面上的所有圖片時,wget 可以幫助你。
安裝:
$ pip install wget
例子:
import wget
url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3'
filename = wget.download(url)
100% [.......................] 3841532 / 3841532
filename
'razorback.mp3'
Pendulum
對于那些在 python 中處理日期時間時會感到沮喪的人來說,Pendulum 很適合你。它是一個簡化日期時間操作的 Python 包。它是 Python 原生類的簡易替代。請參閱文檔深入學習。
安裝:
$ pip install pendulum
例子:
import pendulum
dt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto')
dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver')
print(dt_vancouver.diff(dt_toronto).in_hours())
3