cuda调优

cuda调优工具:

nsight, nvvp, nvprof, 前两个为可视化工具,可以远程监控性能参数, nvprof为命令行监控工具,其实nsight和nvvp的远程监控实现是借助于nvprof来收集性能数据的。

其中nsight和nvvp均可进行远程的工具分析,但是cuda在安装的时候,linux和window下有nvvp工具,但是并没有nsight

在正常的远程测试行能的时候,nsight是正确的,但是nsight却出现了一些错位的情况。

因此对于这种情况可以执行以下操作:

1.nvprof --kernels "kernel_name" --analysis-metrics -o analysis.nvprof app app_params

2.打开nvvp然后执行import->nvprof->sinlge process->analysis.nvprof(拷贝到本地或者远程均可),即可打开

3.对于一些性能还没打开的选项,点击analyze all即可


nsight 文档详细介绍:http://docs.nvidia.com/gameworks/index.html#developertools/desktop/nsight/analysis/report/cudaexperiments/kernellevel/memorystatisticsglobal.htm

这里包含了nsight中的术语的介绍,这会有助于我们理解这些统计数据的意思。


cuda优化方案:

1.检测是否有local memory使用:这个一般是由于local valiable的数组,由于无法在编译确定数组大小或者迭代数组无法展开,这样都会导致数组是存放在local memory的,

而local memory的的访问速度基本和global memory的访问速度一致,因此这应该是需要避免的。解决方案是将数组定义成可以在编译期就可以确定大小,并且迭代访问的数组可以进行展开,这样的话该数组能够在寄存器够用的情况下使用寄存器存储和使用。


2.float浮点数的存取已经达到带宽限制了,那么可以考虑将float浮点数压缩成16位浮点数,这样在相同带宽的情况下,可以加载更多的数据量,以此减少加载数据所需要消耗的时间。

你可能感兴趣的:(并行计算_cuda)