通过pycuda调用GPU

通过pycuda调用GPU

  • 环境配置
    • CUDA
    • pycuda
    • numpy和cv2
  • 代码
    • 运行结果
    • 关于pycuda

环境配置

在linux OpenSUSE 42.2系统下运行,安装CUDA Toolkit 10.0,pip中安装pycuda、opencv和numpy。

CUDA

直接从CUDA官网(https://developer.nvidia.com/cuda-90-download-archive)下载对应版本的.run文件,运行后根据提示进行安装。除了“显卡驱动”外所有选项都安装。

安装成功后,应可以通过命令行指令,查看cuda版本。

nvcc --version

pycuda

从pycuda官网(https://mathema.tician.de/software/pycuda/)给出的方法下载,按照帮助文档(https://wiki.tiker.net/PyCuda/Installation/Linux)逐步安装。

安装完成后,可以运行pycuda提供的简单gpu运算代码。

numpy和cv2

正常通过pip安装就可以。

sudo python -m pip install numpy
sudo python -m pip install opencv-python

代码

主要写了三个调用GPU的函数,基本上与C中调用cuda的方法一致。关于调用GPU后运算的的效果,我没有去定量计算,只能说比直接通过CPU运算快了很多。

# 这些引用,有一部分是配置pycuda的运行环境的
from __future__ import print_function
from __future__ import absolute_import
import pycuda.driver as drv
import pycuda.tools
import pycuda.autoinit

import numpy
from pycuda.compiler import SourceModule
import cv2 

# 相当于直接生成一个C语言的kernel,注意输入的数据类型是unsigned char
mod = SourceModule('''
// 渐变色
__global__ void drawGardient(unsigned char *img){
    const int i = (blockIdx.x + blockIdx.y * gridDim.x) * blockDim.x * blockDim.y + threadIdx.y * blockDim.x + threadIdx.x;

    img[3 * i + 0] = (char) 255 - 255 * (i / 800) / 800;
    img[3 * i + 1] = (char) 255 - 255 * (i % 800) / 800;
    img[3 * i + 2] = (char) 128 - 128 * (i / 800) / 800;
}
// 棋盘格
__global__ void drawChess(unsigned char *img){
    const int i = (blockIdx.x + blockIdx.y * gridDim.x) * blockDim.x * blockDim.y + threadIdx.y * blockDim.x + threadIdx.x;

    const int flag = (i / 80) + (i / 800 / 80);
    if (flag % 2){
        img[3 * i + 0] = 255;
        img[3 * i + 1] = 255;
        img[3 * i + 2] = 255;
    }
    else {
        img[3 * i + 0] = 0;
        img[3 * i + 1] = 0;
        img[3 * i + 2] = 0;
    }
}
// 两张图片融合
__global__ void merge(unsigned char *img1, unsigned char *img2, unsigned char *img3){
    const int i = (blockIdx.x + blockIdx.y * gridDim.x) * blockDim.x * blockDim.y + threadIdx.y * blockDim.x + threadIdx.x;

    img3[3 * i + 0] = img1[3 * i + 0] * 3 / 4 + img2[3 * i + 0] / 4;
    img3[3 * i + 1] = img1[3 * i + 1] * 3 / 4 + img2[3 * i + 1] / 4;
    img3[3 * i + 2] = img1[3 * i + 2] * 3 / 4 + img2[3 * i + 2] / 4;
}
''')
drawGardient = mod.get_function('drawGardient')
drawChess = mod.get_function('drawChess')
merge = mod.get_function('merge')

if __name__ == '__main__':
    # 创建3张800*800像素的图片
    img1 = numpy.ndarray((800, 800, 3), dtype = numpy.uint8)
    img2 = numpy.ndarray((800, 800, 3), dtype = numpy.uint8)
    img3 = numpy.zeros_like(img1)

    # 通过cuda来调用gpu模块
    drawGardient(drv.Out(img1), block = (50, 20, 1), grid = (80, 8))
    drawChess(drv.Out(img2), block = (50, 20, 1), grid = (80, 8))
    # 根据自己的GPU性能选择合适的block、grid,如果超出会报错
    merge(drv.In(img1), drv.In(img2), drv.Out(img3), block = (50, 20, 1), grid = (80, 8))

    cv2.namedWindow('image')
    cv2.imwrite('img1.jpg', img1)
    cv2.imshow('image', img1)
    cv2.waitKey(2000)
    cv2.imwrite('img2.jpg', img2)
    cv2.imshow('image', img2)
    cv2.waitKey(2000)
    cv2.imwrite('img3.jpg', img3)
    cv2.imshow('image', img3)
    # ESC退出
    while True:
        if cv2.waitKey(100) == 27:
            break
    cv2.destroyAllWindows()

运行结果

运行之后,会依次出现三张图片。
通过pycuda调用GPU_第1张图片
通过pycuda调用GPU_第2张图片
通过pycuda调用GPU_第3张图片

关于pycuda

在pycuda中输入一个m×n像素的图像(相当于一个三维数组),会被转换为(m×n×3)×1的一维数组去进行运算。

例如一个2×3×3的数组:

[[1, 2, 3], [2, 3, 4], [3, 4, 5],
[2, 3, 4], [3, 4, 5], [4, 5, 6]]

在pycuda中会被转换为18×1的数组:

[1, 2, 3, 2, 3, 4, 3, 4, 5, 2, 3, 4, 3, 4, 5, 4, 5, 6]

在进行图像处理的时候,可以通过类似的原理,找到对应的行列。当然,通过合理的分配block,也会有更简单的运算方法。

你可能感兴趣的:(通过pycuda调用GPU)