如何理解GPU中的SIMT(单指令流多线程模型)

随着设备尺寸逐渐变小,使得时钟频率很难有大的提升,人们开始寻找更有效的架构。为了提高能源效率,需要引入支持向量运算的硬件和减少数据的移动。

当下的架构通常是CPU+GPU的,CPU在未来一段时间不会完全被GPU所取代,因为我们需要用CPU来进行I/O,而GPU主要来进行基础运算。当然也有很多的开发者在开发使GPU直接访问I/O的接口,但目前来看我们更倾向于二者结合的方式。

二者有两种结合的方式,如下图所示。左边是离散式架构,CPU和GPU拥有独立的内存单元,二者通过总线进行连接。右边是集成式架构,二者共享一个内存单元和缓存单元。但实际上二者的DRAM所要达成的目标是不同的,CPU中的DRAM为低延迟而优化,GPU中的DRAM为高吞吐量而优化。
如何理解GPU中的SIMT(单指令流多线程模型)_第1张图片

在离散式架构中,刚开始需要考虑数据从CPU向GPU流动的问题,后来就借助虚拟内存的方式实现了。在集成式架构中,二者共享内存,所以不用考虑数据迁移问题,但需要考虑高速缓存一致性的问题。

在很多时候,CPU承担着初始化GPU的任务,并通过驱动指明GPU需要完成的任务。CPU会指明需要运行的内核程序、需要有多少线程和从哪里获得需要的数据等等。也就是我们说的CPU更多的是控制功能。

现代的GPU架构如下图所示。每个GPU会包含很多的core,英伟达称之为流多处理器(streaming multiprocessors, SM)。每个核都在执行单指令多线程的程序(single-instruction multiple-thread, SIMT)。在单个核上执行的线程可以通过暂存内存(有点像阻塞操作,保存现场)进行通信,并使用快速barrier操作进行同步。
如何理解GPU中的SIMT(单指令流多线程模型)_第2张图片

每个核通常还包含一级指令和数据缓存。这些充当带宽过滤器,以减少发送到内存系统较低级别的通信量。内核上运行的大量线程用于隐藏在第一级缓存中找不到数据时访问内存的延迟。即每个控制单元总有任务分发,每个处理单元总有任务要做,被阻塞时总有任务进行切换。以此来实现了高吞吐率。
未来能量效率会是计算机架构的主要研究方向。在目前来看,访问大型的内存结构花的能量可能比计算还要多。

以下摘自:
http://planckscale.info/tag/%E5%8D%95%E6%8C%87%E4%BB%A4%E6%B5%81%E5%A4%9A%E7%BA%BF%E7%A8%8B/

CUDA是个以性能为第一目标的语言,这也决定了CUDA开发者所要面对的复杂性远远要多于CUDA语言所抽象出来的编程模型本身。这大概会是软件抽象所要面对的永恒话题,我们可以去抽象出一组逻辑上漂亮完备的功能基元,却不能保证从性能的观点看它们同样也是小开销的基本操作。具体在CUDA里,最典型的例子是内存<->显存数据交换,一个简单的拷贝操作在性能上却是让人难以接受的,这背后是PCIE总线;对性能影响稍小些的例子比如Global Memory的读写需要考虑对齐,这是由于硬件层面warp和cache机制的体现;再者如过度臃肿的kernel或block过大导致寄存器耗尽,局域变量被吐到Local Memory导致的性能损失。

所有这些,都要求我们透过CUDA简洁干净的编程模型,看到软件抽象的美丽幻影背后那个不同的世界,它存在于抽象之下我们不熟悉的另一个层次,却透过性能这一个几乎是唯一的方式来影响着我们的软件。这颇类似万有引力与我们世界的关系:引力是唯一能透入额外维度的基本相互作用,如果世界有我们所不知道的维度存在,如何才能感受到那个世界对我们的影响?答案就是用引力。看过《星际穿越》的同学们想必对此有些印象。

在深入GPU的硬件架构之前,我们不妨先探讨一下这个问题:为什么GPU具有这么高的计算能力?我们试着归纳两条最主要的原因。

目前典型的计算模式有两种,CPU式的高速低延迟串行计算,和GPU式的高延迟高吞吐大规模并行计算。CPU是人们熟知的,它具有高速的内部寄存器和Cache,现代CPU又加入了多级流水线,猜测、乱序执行,超线程等技术加速其指令吞吐能力,具有快速的响应能力,但是对于大量数据的处理却相对不够用。这一点3D游戏应用就是典型的例子,当然,这就是GPU崛起的契机。

GPU天生为数据的批量处理而生,它擅长的是在大量数据上同时做同样或几乎一致(这点很重要)的计算。为什么要求一样的计算?这一点可以从很多个角度来回答。

最重要的一个回答是,多个线程同步执行一致的运算,使得我们可以用单路指令流对多个执行单元进行控制,大幅度减少了控制器的个数和系统的复杂度(设想成千上万的线程各自做不同的事情,如果再有线程间通讯/同步,将会是怎样的梦魇)。

另一方面,现实世界中应用在大规模数据上的计算,通常都涵盖在这一计算模式之中,因而考虑更复杂的模式本质上是不必要的。比如计算大气的流动,每一点的风速仅仅取决于该点邻域上的密度和压强分布;再如计算图像的卷积,每一个输出像素都仅是对应源点邻域和一个卷积核的内积。从这些例子中我们可以看到,除了各个数据单元上进行的计算是一样的,计算中数据之间的相互影响也具有某种“局域性”,一个数据单元上的计算最多需要它某个邻域上的数据。这一点意味着线程之间是弱耦合的,邻近线程之间会有一些共享数据(或者是计算结果),远距离的线程间则独立无关。

这个性质反映在CUDA里,就是Block划分的两重天地:Block内部具有Shared Memory,线程间可以共享数据、通讯和同步,Block外部则完全独立,Block间没有通讯机制,相互执行顺序不影响计算结果。这一划分使得我们既可以利用线程间通讯做一些复杂的应用和算法加速,又可以在Block的粒度上自由调度计算任务,在不同计算能力的硬件平台上自适应的调整任务安排。

现在我们把注意力放在“几乎一致”这里。最简单的并行计算方案是多路数据上同时进行完全一致的计算,即SIMD(单指令流多数据流)。这种方案是非常受限的。事实上我们可以看出,“完全一致”是不必要的。只要这些计算在大多数时候完全一致,就可以对它们做SIMD加速,而在计算分叉,各个线程不一致的特殊情况下,只需要分支内并行,分支间串行执行即可,毕竟这些只是很少出现的情况。这样,把“完全一致”这个限制稍微放松,就可以得到更广阔的应用范围和不输于SIMD的计算性能,即SIMT(单指令流多线程)的一个重要环节,这是GPU强大处理能力的第一个原因。

一个或许让每个初学者都惊讶的事实是这样一组数据:Global Memory访存延迟可以达到数百个时钟周期,即便是最快的Shared Memory和寄存器在有写后读依赖时也需要数十个时钟周期。这似乎和CUDA强大的处理能力完全相悖——如果连寄存器都这么慢,怎么会有高性能呢?难道这不会成为最大的瓶颈吗?

答案恰恰就出乎意料:不,这不是瓶颈,这个高延迟的开销被掩盖了,掩盖在大量线程之下。更清楚的说,当一组线程(同步执行,类似于SIMD的一个线程组,在CUDA里叫做warp)因为访存或其他原因出现等待时,就将其挂起,转而执行另一组线程,GPU的硬件体系允许同时有大量线程存活于GPU的SM(流多处理器)之中,控制单元在多组线程之间快速切换,从而保证资源的最大利用率——控制单元始终有指令可以发放,执行单元始终有任务可以执行,仍然可以保持最高的指令吞吐,每个单元基本都能保持充分的忙碌。

这就是GPU硬件设计中非常有特色的基本思想:用多线程掩盖延迟。这一设计区别于CPU的特点是,**大量高延迟寄存器取代了少量低延迟寄存器,寄存器的数量保证了可以有大量线程同时存活,且可以在各组线程间快速切换。尽管每个线程是慢的,但庞大的线程数成就了GPU的数据吞吐能力。**此为高性能的第二个原因。

你可能感兴趣的:(gpgpu,gpgpu)