GPU编程与CUDA

CUDA编程并行计算整体流程

GPU编程与CUDA_第1张图片

  1. 从主机端申请内存,把内存部分的内容拷贝到设备端
  2. 在设备端的核函数计算
  3. 从设备端拷贝到主机端,并且释放内存显存
    主机端:cpu
    设备端:gpu
    核函数:在gpu上运行的函数

CUDA 内存模型

CUDA中的内存模型分为以下几个层次(硬件):
• 每个线程处理器(SP)都用自己的registers(寄存器)
• 每个SP都有自己的local memory(局部内存),register和local memory只能被线程自己访问
• 每个多核处理器(SM)内都有自己的shared memory(共享内存),shared memory 可以被线程块内所有线程访问
• 一个GP

你可能感兴趣的:(Cuda与TensorRT,c++)