在C#中的GPU加速——AleaGPU学习笔记(一)

最近一直在想,C++中有CUDA,但是写代码有时候会觉得过于麻烦,再加上笔者经常在一个三维设计软件Rhinoceros上做网格算法开发,C#相较于C++显得更为友好。因此笔者就在寻找支持C#的GPU加速库,结果最终找到了AleaGPU,这个库看上去已经做的非常完善了,基于.Net,安装配置十分方便,并且也支持CUDA编程。因此我就打算写本系列笔记记录自己的学习过程。

Alea GPU简介

这里直接Google翻译简介部分了:
使用Alea GPU,您可以利用这种处理能力在Windows,Linux和Mac OS X上以简单有效的方式来加速.NET和Mono应用程序。您可以使用.NET语言和已知工具来开发GPU代码。Alea GPU运行时系统可有效处理GPU上的执行以及所有内存管理。

简单来说Alea GPU的关键字是: 高效、易学、快速、跨平台
具体来说:

  • 跨平台:无论是Windows, Linux和Mac OS X上都能用。
  • 具有自动化内存管理的功能:这对于GPU编程初学者较友好
  • 支持CUDA生态:也就是说那些cuBlas,cuRand和cuDNN在Alea GPU里都能用
  • 安装简单:不必多说了,NuGet软件包一键安装
  • 统一了CPU和GPU类型:.NET数组和许多.NET类型可以直接在GPU代码中使用,包括诸如数组长度之类的属性
  • 高性能:速度与CUDA C/C++一样快
  • 文档和示例丰富(不过就笔者目前来看,这一点必须吐槽,因为官网上的文档资料并不多,其他论坛上几乎没有资料,stack overflow上也只有寥寥几个相关问题)

想看更多深入了解Alea GPU可以直接访问Alea GPU。

两种编程模型

Parallel-For and Parallel Aggregation

Alea GPU Parallel-For可以对集合中的每个元素或有序区间的每个索引并行地执行lambda表达式、委托或在GPU上执行的函数。Alea GPU Parallel Aggregation是用于借助二进制函数,委托或lambda表达式将多个输入聚合为最终值。结合Alea GPU自动化内存管理,开发人员可以编写并行GPU代码,就像编写串行循环一样。
说白了,这是为没有接触过GPU编程的用户设计的,用户可以像使用CPU上的并行Parallel.For()一样来使用Gpu.For()来实现GPU并行,需要注意的是,GPU上的并行传入传出只能为数组和指针。

CUDA

为了获得最大的灵活性,Alea GPU还提供了CUDA编程模型。它旨在通过大量线程执行数据并行工作负载。CUDA 向程序员提出了诸如线程(Threads),线程块(Thread Blocks)或网格(Grid)之类的并行概念,以便用灵活而抽象的方式将并行计算映射到GPU线程。CUDA还向程序员给出了GPU内存层次结构。他可以利用不同的内存类型来优化内存访问和IO带宽。
通过笔者近期一个月的使用体验来看,一部分的CUDA功能已经被移植到Alea GPU,但是仍有一小部分功能没有,比如仅在设备端拷贝一个数组中的某一个元素,这在Alea GPU中没有提供对应的方法,它只能一次拷贝出所有的数据,由于对于GPU编程而言,当数据量足够大时,计算所花费的时间要小于Device与Host之间的传输速度,因此这一点会非常影响程序的效率。

注意事项:

  • 在CUDA中我们称GPU为Device,称CPU为Host,以此来强调一个事实,即 GPU 是一个物理上独立的设备,是主机的一个协同处理器。
  • Alea GPU不支持CUDA 9.0以上版本

关于CUDA GPU编程的相关知识可以看我之前的笔记:CUDA笔记

安装Alea

Alea的安装配置非常方便,只需要右键单击引用->管理NuGet程序包,在浏览里搜索Alea,点击安装即可。


在C#中的GPU加速——AleaGPU学习笔记(一)_第1张图片
Alea安装

不过需要注意的是,由于AleaGPU是F#写的,因此还需要安装一个FSharp.Core,同样在NuGet包管理那里搜索FSharp.Core安装即可。


在C#中的GPU加速——AleaGPU学习笔记(一)_第2张图片
记得安装FSharp.Core

第一个案例文件

从官网上下载下来了第一个案例文件,这段代码是用来反馈gpu设备信息的

using System;
using System.Linq;
using Alea;

namespace DeviceQuery
{
    class Program
    {
        static void Main()
        {
            var devices = Device.Devices;
            var numGpus = devices.Length;
            foreach (var device in devices)
            {
                device.Print();

                // note that device ids for all GPU devices in a system does not need to be continuous
                var id = device.Id;
                var arch = device.Arch;
                var numMultiProc = device.Attributes.MultiprocessorCount;
            }

            // all device ids
            var deviceIds = devices.Select(device => device.Id);

            Console.ReadKey();
        }
    }
}
在C#中的GPU加速——AleaGPU学习笔记(一)_第3张图片
案例程序一的输出结果

你可能感兴趣的:(在C#中的GPU加速——AleaGPU学习笔记(一))