GPU高性能并行计算解决方案探析

 NVIDIA公司在月初终于发布了基于代号为Fermi的下一代CUDA架构的TeslaS2050系列处理器,其供应商们也纷纷推出了 Tesla20系列的最新GPU计算解决方案,并声称拥有多个“必备的”的高性能计算功能。业内人士千呼万唤的Tesla20系列计算解决方案到底有什么 独特之处?它与CPU解决方案相比,以及与上一代GPU解决方案相比,到底有什么非凡的性能呢?

为了一探究竟,小编先是翻阅了大量的相关资料,又远程试用了AMAX苏州公司的Tesla超级计算机,终于对GPU高性能计算解决方案有了些基本的了解,现整理如下,供大家参考和讨论。

GPU,即图形处理器,其计算模型在一个异构计算模型中同时使用了CPU和GPU,应用程序的顺序部分在CPU上运行,计算密集型部分在 GPU上运行,从而极大地提升了运算性能。以AMAX最新推出的Tesla20系列计算解决方案为例,与最新的四核CPU解决方案相比,能够以十分之一的 成本和二十分之一的功耗实现同等超级计算性能。

这些最新的Tesla20系列计算平台,一般包括:



- 超级图形工作站:单一桌边型工作站,CUDA计算内核多达1,792个,可提供4.12Teraflops的单精度和2.06Teraflops的双精度浮点运算性能(峰值)。



- 1U机架优化GPU服务器:1U系统平台,配有6个热插拔2.5SATA硬盘位,CUDA计算内核多达896个,可提供2.06Teraflops的单精度浮点运算性能和1.03Teraflops的双精度浮点运算性能(峰值)。



- S2050/S20701UGPU超级计算系统:提供世界上最高的计算密度,可用于部署企业部门的计算集群和数据中心。1U系统中,配有1,792个 CUDA计算内核,可提供4.12Teraflops的单精度和2.06Teraflops的双精度浮点运算性能(峰值)。

- 并行GPU高性能计算集群:每个集群可提供高达86.52Teraflops的单精度和43.26Teraflops的双精度运算性能。主机系统配有高达504GB的专用GPU内存,84个12核AMD或6核英特尔处理器和252TB的热交换共享存储。

而业界所说的拥有多个“必备的”高性能计算功能,则是指:

- ECC内存确保计算结果的准确性和可靠性

- L1/L2缓存改善带宽和数据共享

- 双精度性能是上一代产品的7倍

- CUDA程序环境,支持多种编程语言和API,包括C、C++、OpenCL、DirectCompute或Fortran

- NVIDIA并行数据缓存(DataCache)技术,能够对无法预知数据地址的算法进行加速,例如物理解算器、光线追踪、以及稀疏矩阵乘法等等

- NVIDIA GigaThread引擎通过更快的上下文切换、同时内核执行以及改善的线程块调度功能,最大限度提升了吞吐量

田纳西大学创新计算实验室主任,JackDongarra教授说GPU已经发展到了颇为成熟的阶段,可轻松执行实际应用程序并且其运行速度已 远远超过了使用多核系统时的速度,未来的计算架构将是并行核心GPU与多核CPU串联运行的混合型系统。AMAX集团主席JeanShih也说其 Tesla20系列解决方案代表了高性能计算行业最重要的产品创新之一,可以满足客户最苛刻的高性能计算应用和I/O要求。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/23213823/viewspace-660399/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/23213823/viewspace-660399/

你可能感兴趣的:(GPU高性能并行计算解决方案探析)