博主在CUDA库之NPP:NVIDIA 2D Image and Signal Processing Performance Primitives中已经详细介绍了NPP是啥,以及如何编译NPP。
这里就以 YUV转BGR为例,来完成NPP中的第一个例子(PS:也是博主的第一个Demo)


  • 本文中的例子,仅适合于 512 ∗ 512 512*512 512512
    这个说法,博主计划另写一篇文章 博主在CUDA库之NPP(四):内存开辟和字节对齐中简单探讨了一下字节对齐,本文不再单独研究(PS:补上这里的坑,已时隔一年,是我懒惰了)。
  • 因为只是一个很简单的Demo,所以本文不检测CUDA、NPP函数的返回码
  • 本文利用Opencv读取BGR图像,并转换成YUV的数据格式,然后将数据从主机(Host)拷贝到设备端(Device)
  • 调用nppiYUVToBGR_8u_C3R函数,将内存从设备端拷贝到主机端,再利用Opencv将图像保存出来



cv::Mat matBrgImg = cv::imread("./data/Fig0638(a)(lenna_RGB).jpg");
int nWidth = matBrgImg.cols; 
int nHeight = matBrgImg.rows;
int nStep = matBrgImg.step; // 每一行的步长,这里 = nWidth * 3
cv::Mat matYuvImg;
cv::cvtColor(matBrgImg, matYuvImg, CV_BGR2YUV);

第二步,将YUV数据从 host拷贝到 dev端

Npp8u *pu8YUV_dev = NULL;
cudaMalloc((void **)& pu8YUV_dev, nWidth * nHeight * 3 * sizeof(Npp8u));
cudaMemcpy(pu8YUV_dev, (Npp8u *), nWidth * nHeight * 3 * sizeof(Npp8u), cudaMemcpyHostToDevice);

这里的 Npp8u在 nppdefs.h里,就是一个 unsigned char

这里推荐使用Npp8u * nppiMalloc_8u_C3(int nWidthPixels, int nHeightPixels, int * pStepBytes);
当然 cudamalloc函数也可以在Device上开辟内存空间。
npp这个函数,可以看到一个参数是 pStepBytes, 这个返回每一行占用字节数,由于本文采用的 512 ∗ 512 512*512 512512 的图像,所以这个值返回为 512 ∗ 3 512 * 3 5123

NppStatus nppRet = NPP_NO_ERROR;
NppiSize nppSize{nWidth, nHeight};
int nLineStep_npp = 0;
Npp8u *pu8BGR_dev = nppiMalloc_8u_C3(nWidth, nHeight, &nLineStep_npp);
printf("nLineStep_npp = %d \n", nLineStep_npp); 


nppRet = nppiYUVToBGR_8u_C3R(pu8YUV_dev, nStep, pu8BGR_dev, nStep, nppSize);
 printf("nppRet = %d \n", nppRet);


unsigned char *pu8Bgr_host = NULL;
pu8Bgr_host = (unsigned char *)malloc(  nWidth * nHeight * 3);
memset(pu8Bgr_host, 0, nWidth * nHeight * 3);
cudaMemcpy(pu8Bgr_host, pu8BGR_dev, nWidth * nHeight * 3, cudaMemcpyDeviceToHost);

cv::Mat newimage(nHeight, nWidth, CV_8UC3);
memcpy(, pu8Bgr_host, nWidth * nHeight * 3);

cv::imwrite("./yuv2BGR.jpg",newimage );


if (NULL != pu8BGR_dev)
    pu8BGR_dev = NULL;

if (NULL != pu8YUV_dev)
    pu8YUV_dev = NULL;

if (NULL != pu8Bgr_host)
    pu8Bgr_host = NULL;



具体定义可在 nppdefs.h里查下,以下仅摘录关于数据类型定义的一部分。

/** \defgroup npp_basic_types Basic NPP Data Types
 * @{
typedef unsigned char       Npp8u;     /**<  8-bit unsigned chars */
typedef signed char         Npp8s;     /**<  8-bit signed chars */
typedef unsigned short      Npp16u;    /**<  16-bit unsigned integers */
typedef short               Npp16s;    /**<  16-bit signed integers */
typedef unsigned int        Npp32u;    /**<  32-bit unsigned integers */
typedef int                 Npp32s;    /**<  32-bit signed integers */
typedef unsigned long long  Npp64u;    /**<  64-bit unsigned integers */
typedef long long           Npp64s;    /**<  64-bit signed integers */
typedef float               Npp32f;    /**<  32-bit (IEEE) floating-point numbers */
typedef double              Npp64f;    /**<  64-bit floating-point numbers */


Npp8u  * 
nppiMalloc_8u_C3(int nWidthPixels, int nHeightPixels, int * pStepBytes);
  • 返回一个Npp8u *地址
  • 输入有图像的宽、高
  • int * pStepBytes返回每行占用字节数,由于本文采用的 512 ∗ 512 512*512 512512 的图像,所以这个值返回为 512 ∗ 3 512 * 3 5123

比如,输入图像的宽为400, pStepBytes = 1536;
比如,输入图像的宽为513, pStepBytes = 2048;

#include "npp.h"
#include "npps_support_functions.h"

int main()
    int nWidth = 513;
    int nHeight = 400;
    int nLineStep_npp = 0;
    Npp8u *pu8BGR_dev = nppiMalloc_8u_C3(nWidth, nHeight, &nLineStep_npp);
    printf("nLineStep_npp = %d \n", nLineStep_npp);
    printf("hello world \n");
    return 0;

4、NppStatus nppiYUVToBGR_8u_C3R(const Npp8u * pSrc, int nSrcStep, Npp8u * pDst, int nDstStep, NppiSize oSizeROI);函数将YUV转换成BGR

  • *pSrc 源数据地址
  • *nSrcStep 源数据的Step,即每行占用字节数
  • *pDst 目的数据
  • *nDstStep 目的数据的Step.
  • oSizeROI 感兴趣区域
  • return 错误码
