基本概念:
GPU: Graphic Processing Unit;图形处理单元;
GPGPU: General Purpose computations on GPU;通用计算图形处理单元;
CPU与GPU的相同点:
(1)都是计算机体系结构中的重要组成部分;
(2)都是超大规模集成电路元件;
(3)都能够完成浮点运能功能;
CPU与GPU的不同之处:
(1)GPU的设计目的与CPU不同;CPU的微架构是按照兼顾“指令并行执行”和“数据并行运算”的思路而设计,其大部分晶体管主要用于构建控制电路和Cache,并且其内部有大约%5是ALU,控制电路则更为复杂;二GPU的控制电路则相对简单的对,而且对Cache的需求较小,所以可以把大部分的晶体管都用于计算单元。GPU的40%都是ALU;
(2)延迟不同,CPU的内存延迟是GPU的1/10;
(3)内存带宽不同;GPGPU的内存带宽是CPU的10倍;
(4)GPGPU具有更大的执行单元;
(5)线程轻重程度不同;CPU线程是软件管理的粗粒度重线程,当 CPU 线程被中断或者由于等待资源就绪状态就变为等待状态,操作系统就需要保存当前线程的上下文,并装载另外一个线程的上下文。这种机制使得CPU切换线程的代价十分高昂,通常需要数百个时钟周期。而GPU线程是硬件管理的细粒度轻线程,可以实现零开销的线程切换。当一个线程因为访问片外存储器或者同步指令开始等待以后,可以立即切换到另外一个处于就绪状态的线程,用计算来隐藏延迟,并且线程数目越多,隐藏延迟的效果越好。
(6)CPU属于“多核”,而GPU则属于“众核”;CPU 的每个核心具有取指和调度单元构成的完整前端,因而其核心是多指令流多数据流(Multiple Instruction Multiple Data,MIMD)的,每个 CPU 核心可以在同一时刻执行自己的指令,与其他的核心完全没有关系。但这种设计增加了芯片的面积,限制了单块芯片集成的核心数量。GPU的每个流多处理器才能被看作类似于 CPU 的单个核心,每个流多处理器以单指令流多线程方式工作,只能执行相同的程序。尽管 GPU 运行频率低于CPU,但由于其流处理器数目远远多于 CPU 的核心数,我们称之为“众核”,其单精度浮点处理能力达到了同期 CPU 的十倍之多。
(7)内存与寄存器之间的不同;目前的 CPU 内存控制器一般基于双通道或者三通道技术,每个通道位宽64bit;而GPU则有数个存储器控制单元,这些控制单元具备同时存取数据的能力,从而使得总的存储器位宽达到了 512bit。这个差异导致了GPU全局存储器带宽大约是同期CPU最高内存带宽的5倍;
(8)缓存机制不同;CPU 拥有多级容量较大的缓存来尽量减小访存延迟和节约带宽,但缓存在多线程环境下容易产生失效反应,每次线程切换都需要重建缓存上下文,一次缓存失效的代价是几十到上百个时钟周期。同时,为了实现缓存与内存中数据的一致性,还需要复杂的逻辑控制,CPU 缓存机制导致核心数过多会引起系统性能下降。在GPU 中则没有复杂的缓存体系与一致性机制,GPU 缓存的主要目的是随机访问优化和减轻全局存储器的带宽压力。
综上,GPU 是以大量线程实现面向吞吐量的数据并行计算,适合于处理计算密度高、逻辑分支简单的大规模数据并行负载;而 CPU 则有复杂的控制逻辑和大容量的缓存减小延迟,擅长复杂逻辑运算。
GPU的一些缺点:
1. 显示芯片的运算单元数量很多,因此对于不能高度并行化的工作,所能带来的帮助就不大。
2. 显示芯片目前通常只支持 32 bits 浮点数,且多半不能完全支持 IEEE 754 规格, 有些运算的精确度可能较低。目前许多显示芯片并没有分开的整数运算单元,因此整数运算的效率较差。
3. 显示芯片通常不具有分支预测等复杂的流程控制单元,因此对于具有高度分支的程序,效率会比较差。
4. 目前 GPGPU 的程序模型仍不成熟,也还没有公认的标准。例如 NVIDIA 和 AMD/ATI 就有各自不同的程序模型。
最后,需要提醒的是,GPU最近几年的发展势头很凶猛,以至于OpenCV2.4已经开始考虑利用GPU来加速程序的运算了;而大名鼎鼎的NVIDIA公司前段时间也宣布开始和OpenCV进行合作推进计算机视觉算法的GPU加速。
转自点击打开链接