NVIDIA CUDA初级教程视频--(十)

**

第十章CUDA程序基本优化

**
NVIDIA CUDA初级教程视频--(十)_第1张图片
1.有效的数据并行算法+针对GPU架构特性的优化=最优性能
2.并行规约parallel reduction:把不相关的计算放到不同的线程
3.warp分割:块内线程如何划分warp,通晓warp分割有助于:减少 分支发散,让warp尽早完工。NVIDIA CUDA初级教程视频--(十)_第2张图片
存储优化
4.CPU-GPU数据传输最小化
NVIDIA CUDA初级教程视频--(十)_第3张图片
NVIDIA CUDA初级教程视频--(十)_第4张图片
NVIDIA CUDA初级教程视频--(十)_第5张图片NVIDIA CUDA初级教程视频--(十)_第6张图片
按照步长访问内存的场合,通常发生在多维问题里面,按步长访问global memory访问可以用shared memory来代替
NVIDIA CUDA初级教程视频--(十)_第7张图片
NVIDIA CUDA初级教程视频--(十)_第8张图片
NVIDIA CUDA初级教程视频--(十)_第9张图片
4.Texture是用于读入数据的一个对象NVIDIA CUDA初级教程视频--(十)_第10张图片
NVIDIA CUDA初级教程视频--(十)_第11张图片
NVIDIA CUDA初级教程视频--(十)_第12张图片
5.SM资源分割NVIDIA CUDA初级教程视频--(十)_第13张图片
performance cliff:增加资源用量后导致并行性急剧下降
6.Kernel启动参数配置NVIDIA CUDA初级教程视频--(十)_第14张图片
NVIDIA CUDA初级教程视频--(十)_第15张图片
7.隐藏延时NVIDIA CUDA初级教程视频--(十)_第16张图片
8.占用率
在这里插入图片描述
NVIDIA CUDA初级教程视频--(十)_第17张图片
NVIDIA CUDA初级教程视频--(十)_第18张图片
NVIDIA CUDA初级教程视频--(十)_第19张图片
NVIDIA CUDA初级教程视频--(十)_第20张图片

你可能感兴趣的:(CUDA开发)