Julia GPU 计算入门

作为专门为科学计算设计的编程语言,Julia 在分布式、GPU 甚至 TPU 计算方面提供了许多丰富易用的特性。我们首先来尝试一下在 Julia 中如何进行 GPU 并行计算。

安装一些 Julia 的 CUDA GPU 计算包

using Pkg
Pkg.add("CuArrays")
Pkg.add("CUDAdrv")
Pkg.add("CUDAnative")
Pkg.add("GPUArrays")
Pkg.test("CUDAnative")
[ Info: Testing using device GeForce GTX 960M
Test Summary: | Pass  Total
CUDAnative    |  253    253
   Testing CUDAnative tests passed

首先电脑上必须安装了 CUDA 驱动。
GPUArrays 是为 Julia GPU 计算提供基础,它实现了一个专门用于高度并行硬件的抽象数组。它包含了设置 GPU、启动 Julia GPU 函数、提供一些基本数组算法等所有必要功能。
抽象意味着它需要以 CuArrays 和 CLArrays 的形式实现。在 nvidia gpu 环境下使用 CuArrays。CuArrays 是基于 CUDAdrv 和 CUDAnative 的,它是 GPUArrays 的具体实现,相比 CUDAnative 有助于减少代码重复,因为它允许编写独立于硬件的 GPU 内核,这些内核可以通过 CuArrays 或 CLArrays 编译到本地的 GPU 代码。

比较 GPU 计算与 CPU 计算的速度

using CUDAdrv
using CuArrays: CuArray

println(CUDAdrv.name(CuDevice(0)))

for Typ in (CuArray, Array)
    x = Typ(ones(Float32, 5000000))
    y = Typ(zeros(Float32, 5000000))
    t = @elapsed begin
        for i in 0:100
            for j in 0:100
                y .= x .* 3.2
                GPUArrays.synchronize(y)
            end
        end
    end
    if y isa CuArray
        println("GPU time: ", t)
    else
        println("CPU time: ", t)
    end
end

代码分别在 GPU 和 CPU 上遍历数组进行计算,注意这里的 GPUArrays.synchronize(y),类似这样的代码在并行计算中很常见,目的是等待所有 GPU 核完成计算达到同步的效果,最终结果为:
GeForce GTX 960M
GPU time: 10.947028445
CPU time: 33.612801334
可以看到 GPU 的运算速度明显比 CPU 快,并且这种优势在数据量更大是更加明显,可以稳定地将速度提高 60-80 倍。

我第一次是在安装 CuArrays 之前安装的 CUDAdrv 和 CUDAnative,这样会报错:Unsatisfiable requirements detected for package
解决方案是卸载 CUDAdrv 和 CUDAnative,先安装 CuArrays 再安装 CUDAdrv 和 CUDAnative。参考 github issue:https://github.com/JuliaGPU/CuArrays.jl/issues/232

参考资料:
https://nextjournal.com/sdanisch/julia-gpu-programming
https://julialang.org/blog/2017/03/cudanative

你可能感兴趣的:(Julia GPU 计算入门)