cuda系列详细教程-花絮

提示:本文是我cuda教程部分代码和内容构成,严禁侵权!

文章目录

  • 前言
  • 一、核函数index寻找
    • 1、3d grid与1d block索引
    • 2、1d grid, 2d block索引
  • 二、kernel函数实例
  • 三、性能优化(内存)
  • 四、原子操作
  • 五、流stream
  • 六、cuda处理nms编码
  • 七、cuda处理yolo算法输出编码
  • 八、cuda处理yolo算法整个过程
  • 九、yolo的tensorrt部署(前后处理的cpu版与gpu版)
  • 总结


前言

随着人工智能的发展与人才的内卷,很多企业已将深度学习算法的C++部署能力作为基本技能之一。面对诸多arm相关且资源有限的设备,往往想更好的提速,满足更高时效性,必将更多类似矩阵相关运算交给CUDA处理。同时&#x

你可能感兴趣的:(CUDA,YOLO,人工智能,边缘计算,深度学习)