numpy是Python中常用的一個矩陣運算庫,而且numpy的底層都是采用c實現的,所以執(zhí)行效率和速度也是很快的,但numpy是利用CPU來進行矩陣運算的,如果遇到大數據的矩陣運算,你會發(fā)現numpy真的很慢。那有沒有什么辦法來加速呢?想到大矩陣的運算肯定會想多使用GPU來計算,就讓我們來看看numpy的GPU版本cupy。
環(huán)境要求
操作系統(tǒng)
官方推薦安裝環(huán)境是在linux操作系統(tǒng)下安裝:
- Ubuntu 16.04 / 18.04 LTS (64-bit)
- centos 7 (64-bit)
不確保能夠在windows和mac OS下正常運行
其他
- python版本:3.5.1+, 3.6.0+, 3.7.0+ 和 3.8.0+
- cuda版本:8.0, 9.0, 9.1, 9.2, 10.0, 10.1 and 10.2
- cudnn版本:v5, v5.1, v6, v7, v7.1, v7.2, v7.3, v7.4 和v7.5
安裝cupy
- 源碼安裝
pip install cupy
- 從git安裝最新版本
git clone https://github.com/cupy/cupy.git
cd cupy
pip install .
- 直接通過whl文件安裝
在安裝之前需要先確定cuda的版本,以安裝對應的版本,否則在后面使用cupy的是會出現一些錯誤
#查看cuda的版本
nvcc -V
#輸出信息
#nvcc: NVIDIA (R) Cuda compiler driver
#Copyright (c) 2005-2017 NVIDIA Corporation
#Built on Fri_Sep__1_21:08:03_CDT_2017
#Cuda compilation tools, release 9.0, V9.0.176
#通過上面的信息,可以看出cuda的版本是9.0
#安裝cuda為9.0版本的cupy
pip install cupy-cuda90
速度對比
下面我們通過一些例子來對比一下numpy和cupy的執(zhí)行效率,cupy的函數接口和numpy基本上都是一樣的
- 矩陣點積運算
我們定義一個函數來統(tǒng)計numpy和cupy的矩陣運算時間
對比100000×1024矩陣和1024×1矩陣的點積運算的消耗時間,計算10次統(tǒng)計最終的平均時間
num = 100000
test_dot_time(True,num)
#a time consume 0.18 sec
test_dot_time(False,num)
#a time consume 5.48 sec
通過對比可以發(fā)現,cupy要比numpy節(jié)省30倍的時間消耗,這里只是展示了一種運算,如果你的矩陣運算越多,矩陣越大使用cupy運算節(jié)省的時間會更加明顯。
那么是不是以后我們可以使用cupy來替代numpy了呢?這也不一定,我們來看看當num較小時的情況,當num為10的時候會怎么樣呢?
num = 10
test_dot_time(True,num,times=10)
# a time consume 0.20425036 sec
test_dot_time(False,num,times=10)
#a time consume 0.00120769 sec
這時候居然numpy要比cupy更快?這是為什么呢?
一方面是因為CPU<->GPU這里有一個數據傳輸,而且CPU中還有一個cache可以用來計算,這個計算速度要比GPU快,不過這個大小有限大概幾十M。這就是為什么小數據CPU要比GPU快的原因。