【BBuf的CUDA笔记】四,介绍三个高效实用的CUDA算法实现(OneFlow ElementWise模板,FastAtomicAdd模板,OneFlow UpsampleNearest2d模板)
0x0.前言如题所述,本篇文章推荐和讲解一下OneFlowElementWise模板,FastAtomicAdd,OneFlowUpsampleNearest2d模板的用法以及原理。但OneFlowElementWise模板的用法和原理在【BBuf的CUDA笔记】一,解析OneFlowElement-Wise算子实现已经讲过了,所以这篇文章里不再赘述,主要讲解后面2个。我将上述三个算法的实现都分别