cuda小白
原始API链接 NPP
GPU架构近些年也有不少的变化,具体的可以参考别的博主的介绍,都比较详细。还有一些cuda中的专有名词的含义,可以参考《详解CUDA的Context、Stream、Warp、SM、SP、Kernel、Block、Grid》
常见的NppStatus,可以看这里。
主要分为两个大类,一个是数据类型的扩大(8u/s ->16u/s/f -> 32u/s/f),一个是缩小(32u/s -> 16u/s -> 8u/s)。
// Alpha 表示4维图像在变换的过程中是否影响Aplha通道
// Increase Bit Depth
// _Ctx for nppStreamCtx
// R 和 Rs的区别应该是 s涉及到有符号转换为无符号的时候需要添加,conversion with saturarion(饱和度)
// 例如:
// nppiCOnvert_8u16u_C1R 就是将uint8_t的单通道图像转换为uint16_t的单通道图像
// nppiCOnvert_32s32u_C1Rs 就是将int32_t的单通道图像转换为uint32_t的单通道图像
NppStatus nppiConvert_[TYPE1][TYPE2]_[Alpha]C[CHANNEL]R(const TYPE1 *pSrc,
int nSrcStep,
TYPE2 *pDst,
int nDstStep,
NppiSize oSizeROI,
...);
// Decreased Bit Depth
// 大致用法与上面的一致
// 可以指定四舍五入的模式以及尺度,如果需要指定一般R的后面会跟上Sfs
// 例如:
// nppiConvert_32u8u_C1RSfs(..., NppRoundMode , int nScaleFactor);
NppStatus nppiConvert_[TYPE1][TYPE2]_[Alpha]C[CHANNEL]R(const TYPE1 *pSrc,
int nSrcStep,
TYPE2 *pDst,
int nDstStep,
NppiSize oSizeROI,
...);
需要注意的是,所有16f数据类型的数据 在至少是16字节对齐的时候可以达到最优的性能
对于每个像素值进行scale的操作,同样也分为升和降两种。
// dstPixelValue = dstMinRangeValue + scaleFactor * (srcPixelValue - srcMinRangeValue)
// _Ctx for nppStreamCtx
// Alpha 表示4维图像在变换的过程中是否影响Aplha通道
// ============== Scale To Higher Bit Depth =================
// 1. 8u -> 16u/s || 32 s
NppStatus nppiScale_[TYPE1][TYPE2]_[Alpha]C[CHANNEL]R(const TYPE1 *pSrc,
int nSrcStep,
TYPE2 *pDst,
int nDstStep,
NppiSize oSizeROI,
...);
// 2. 8u -> 32f 限定最小值和最大值
NppStatus nppiScale_8u32f_[Alpha]C[CHANNEL]R(const Npp8u *pSrc,
int nSrcStep,
Npp32f *pDst,
int nDstStep,
NppiSize oSizeROI,
Npp32f nMin,
Npp32f nMax,
...);
// ============== Scale To Lower Bit Depth =================
// 1. 16u/s -> 8u || 32s -> 8u
NppStatus nppiScale_[TYPE1][TYPE2]_[Alpha]C[CHANNEL]R(const TYPE1 *pSrc,
int nSrcStep,
TYPE2 *pDst,
int nDstStep,
NppiSize oSizeROI,
NppHintAlgorithm hint,
...);
// 2. 32f -> 8u 限定最小值和最大值
NppStatus nppiScale_8u32f_[Alpha]C[CHANNEL]R(const Npp8u *pSrc,
int nSrcStep,
Npp32f *pDst,
int nDstStep,
NppiSize oSizeROI,
Npp32f nMin,
Npp32f nMax,
...);
主要是将单个通道的图像重复维多通道图像。
// 以uint8_t的单通道变为三通道
NppStatus nppiDup_8u_C1C3R(const Npp8u *pSrc,
int nSrcStep,
Npp8u *pDst,
int nDstStep,
NppiSize oDstSizeROI);
以一个图像转为灰度图,然后调用接口变为三个通道的图像结果,代码比较简单,这里就不贴了,直接上结果。
transpose的功能与matrix的transpose比较类型,沿着图像主对角线完成的图像镜像。
NppStatus nppiTranspose_8u_C3R(const Npp8u *pSrc,
int nSrcStep,
Npp8u *pDst,
int nDstStep,
NppiSize oSrcROI);
由于代码也比较简单,这里就直接贴出最终的test结果了。
注意:
当前模块的比较常用的就是RGB和BGR的变换
// 以为uint8_t为例,主要的接口有两个,第一个是输入与输出地址不同,第二个是同一个地址
NppStatus nppiSwapChannels_8u_C3R(const Npp8u *pSrc,
int nSrcStep,
Npp8u *pDst,
int nDstStep,
NppiSize oSizeROI,
const int aDstOrder[3]);
NppStatus nppiSwapChannels_8u_C3IR(Npp8u *pDst,
int nDstStep,
NppiSize oSizeROI,
const int aDstOrder[3]);