为了学习CUDA+python ,在自己笔记本呢搭建pycuda环境,没想到踩了如此多的坑,所以,记录一下。
anaconda会提供一些常用的工具包,在它下面运行python会比较方便(LCX语)。从官网下载安装包默认安装即可,建议在安装时将它添加到环境变量中方便使用。
下载官网 https://www.anaconda.com/distribution/#download-section,版本根据需要选择,这里我选择的是Python3.7版本,具体的安装步骤这里不做赘述。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9H1dxDzI-1586685180264)(C:\Users\yc\AppData\Roaming\Typora\typora-user-images\image-20200412155927851.png)]
因为后续的安装需要VC++的支持,看网上的版本大多数使用的2017,甚至是2015版本,头铁的我这里使用的最新的2019版本,VS2019下载地址](https://visualstudio.microsoft.com/zh-hans/vs/whatsnew/?rr=https%3A%2F%2Fblog.csdn.net%2Fqq_43018280%2Farticle%2Fdetails%2F86500740)。
因为我已经安装2019,这里的图片是参考的是安装2017专业版的,大同小异,值得注意的是需要勾选红色框中的VC++ 2015这个运行库。
深度神经网络库CUDNN https://developer.nvidia.com/cudnn下载好,后续需要。
cuda下载地址
下载版本如下:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3cIYgmPO-1586685180266)(C:\Users\yc\AppData\Roaming\Typora\typora-user-images\image-20200412163526600.png)]
CUDA会自动配置一些环境变量,还有一些需要手动配置。
环境变量中添加:
环境变量自动添加如下
CUDA_PATH = C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2
CUDA_PATH_V10_2 = C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2
环境变量中需要自己添加如下:
CUDA_LIB_PATH = %CUDA_PATH%\lib\x64
CUDA_BIN_PATH = %CUDA_PATH%\bin
CUDA_SDK_PATH = C:\ProgramData\NVIDIA Corporation\CUDA Samples\v10.2
CUDA_SDK_BIN_PATH = %CUDA_SDK_PATH%\bin\win64
CUDA_SDK_LIB_PATH = %CUDA_SDK_PATH%\common\lib\x64
Path中添加:
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2\lib\x64
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2\include
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2\extras\CUPTI\lib64
C:\ProgramData\NVIDIA Corporation\CUDA Samples\v10.2\bin\win64
C:\ProgramData\NVIDIA Corporation\CUDA Samples\v10.2\common\lib\x64
将CUDNN下的bin include lib三个文件夹添加到C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2下面的bin include lib中,实际上只是将CUDNN的三个文件添加到目录下。
打开命令窗口cmd,输入验证命令 nvcc -V
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QAOdS3qa-1586685180267)(C:\Users\yc\AppData\Roaming\Typora\typora-user-images\image-20200412165252148.png)]
进入命令提示符窗口,然后进入C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2\extras\demo_suite路径下,运行bandwidthTest.exe命令,结果如下:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TWskIxhC-1586685180267)(C:\Users\yc\AppData\Roaming\Typora\typora-user-images\image-20200412170304437.png)]
同上运行deviceQuery.exe结果如下:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XAn7G7vJ-1586685180268)(C:\Users\yc\AppData\Roaming\Typora\typora-user-images\image-20200412170607066.png)]
此时确认都出现了Result = PASS,即CUDA 安装成功了。
可以通过 conda install pycuda 和pip install pycuda进行安装,此处前者报错,后者可以。具体可能是Aconda对pycuda的支持不够。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3inloT7y-1586685180269)(C:\Users\yc\AppData\Roaming\Typora\typora-user-images\image-20200412171305706.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MO9gXxLK-1586685180269)(C:\Users\yc\AppData\Roaming\Typora\typora-user-images\image-20200412171401129.png)]
这里,我已经安装过了。
**注意:**在安装pycuda之前,需要确认前面的步骤安装正确,因为pycuda 依赖于前者,不然会安装报错。
此处利用
在Jupyter notebook 上进行演示:
在你使用PyCuda之前,要先用import命令初始化。
import pycuda.autoinit
import pycuda.driver as drv
import numpy
from pycuda.compiler import SourceModule
调用pycuda.compiler.SourceModule:
mod = SourceModule("""
__global__ void multiply_them(float *dest, float *a, float *b)
{
const int i = threadIdx.x;
dest[i] = a[i] * b[i];
}
""")
这里的threadIDx是CUDA C语言的内置变量,这里借此确定了a,b数组所在的位置,然后通过指针对数组a,b中每一个元素进行了乘积的得到新的数组dest。
我运行这个遇到了如下报错:
nvcc fatal : Cannot find compiler 'cl.exe' in PATH
参考
添加了path 变量
INCLUDE = C:\Program Files (x86)\Windows Kits\10\Include\10.0.10240.0\ucrt
LIB = C:\Program Files (x86)\Windows Kits\10\Lib\10.0.10240.0\um\x64
C:\Program Files (x86)\Windows Kits\10\Lib\10.0.10240.0\ucrt\x64
解决了问题。
**注意:**将cl.exe的路径添加到环境变量的path中然后重启计算机(重启才会生效)
multiply_them = mod.get_function("multiply_them")
multiply_them(
drv.Out(dest), drv.In(a), drv.In(b),
block=(400,1,1), grid=(1,1))
这一步如果没有出错,就说明这段代码已经编译成功,并且加载到显卡中了。然后咱们可以使用一个到咱们这个pycuda.driver.Function的引用,然后调用此引用,把显存中的数组a_gpu作为参数传过去,同时设定线程块(block)大小为400x1,,网格(grid)为1:
a = numpy.random.randn(400).astype(numpy.float32)
b = numpy.random.randn(400).astype(numpy.float32)
dest = numpy.zeros_like(a)
print dest-a*b
生成随机数组带入计算后,得到结果如下:
[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
至此,验证pycuda 可以正常使用,可以开始学习了。
tory01418367500203572310
2: https://blog.csdn.net/bingo_liu/article/details/103224730
3: https://zhuanlan.zhihu.com/p/32062796
4: https://blog.csdn.net/weixin_42074867/article/details/88550817