元气少女缘结神

cv::cuda与CUDA的NPP库、距离变换和分水岭并行版本尝试

因为不想什么函数都自己写设备核函数，看到opencv有对应的cuda版本的函数比如滤波，然而CUDA的NPP库也提供了对应的滤波函数，我不知道哪个性能更高（当然肯定要比纯CPU版本快，但我没测试过）

一、cv::cuda

#include 
#include 
#include 
#include 
#include 
#include 
#include 


#define SIZE 25

int main()
{
    cv::Mat ImageHost = cv::imread("E:\\CUDA\\imgs\\cv_cuda_testimg.png", cv::IMREAD_GRAYSCALE);



	cv::Mat ImageHostArr[SIZE];

	cv::cuda::GpuMat ImageDev;
	cv::cuda::GpuMat ImageDevArr[SIZE];

	ImageDev.upload(ImageHost);


	for (int n = 1; n < SIZE; n++)
		cv::resize(ImageHost, ImageHostArr[n], cv::Size(), 0.5*n, 0.5*n, cv::INTER_LINEAR);


	for (int n = 1; n < SIZE; n++)
		cv::cuda::resize(ImageDev, ImageDevArr[n], cv::Size(), 0.5*n, 0.5*n, cv::INTER_LINEAR);

	cv::Mat Detected_EdgesHost[SIZE];
	cv::cuda::GpuMat Detected_EdgesDev[SIZE];

	std::ofstream File1, File2;

	File1.open("E:\\CUDA\\imgs\\canny_cpu.txt");
	File2.open("E:\\CUDA\\imgs\\canny_gpu.txt");


	std::cout << "Process started... \n" << std::endl;
	for (int n = 1; n < SIZE; n++) {
		auto start = std::chrono::high_resolution_clock::now();
		cv::Canny(ImageHostArr[n], Detected_EdgesHost[n], 2.0, 100.0, 3, false);
		auto finish = std::chrono::high_resolution_clock::now();
		std::chrono::duration elapsed_time = finish - start;
		File1 << "Image Size: " << ImageHostArr[n].rows* ImageHostArr[n].cols << "  " << "Elapsed Time: " << elapsed_time.count() * 1000 << " msecs" << "\n" << std::endl;
	}


	cv::Ptr canny_edg = cv::cuda::createCannyEdgeDetector(2.0, 100.0, 3, false);   



	for (int n = 1; n < SIZE; n++) {
		auto start = std::chrono::high_resolution_clock::now();
		canny_edg->detect(ImageDevArr[n], Detected_EdgesDev[n]);
		auto finish = std::chrono::high_resolution_clock::now();
		std::chrono::duration elapsed_time = finish - start;
		File2 << "Image Size: " << ImageDevArr[n].rows* ImageDevArr[n].cols << "  " << "Elapsed Time: " << elapsed_time.count() * 1000 << " msecs" << "\n" << std::endl;
	}
	std::cout << "Process ended... \n" << std::endl;



    return 0;
}

我的电脑测出来：

Image Size: 49476  CPU Elapsed Time: 13.9905 msecs

Image Size: 198170  CPU Elapsed Time: 38.4235 msecs

Image Size: 446082  CPU Elapsed Time: 71.059 msecs

Image Size: 792680  CPU Elapsed Time: 103.162 msecs

Image Size: 1238230  CPU Elapsed Time: 141.263 msecs

Image Size: 1783530  CPU Elapsed Time: 165.636 msecs

Image Size: 2428048  CPU Elapsed Time: 195.356 msecs

Image Size: 3170720  CPU Elapsed Time: 246.407 msecs

Image Size: 4012344  CPU Elapsed Time: 300.643 msecs

Image Size: 4954250  CPU Elapsed Time: 334.725 msecs

Image Size: 5995374  CPU Elapsed Time: 367.368 msecs

Image Size: 7134120  CPU Elapsed Time: 422.822 msecs

Image Size: 8371818  CPU Elapsed Time: 468.351 msecs

Image Size: 9710330  CPU Elapsed Time: 546.653 msecs

Image Size: 11148060  CPU Elapsed Time: 589.476 msecs

Image Size: 12682880  CPU Elapsed Time: 617.778 msecs

Image Size: 14316652  CPU Elapsed Time: 682.61 msecs

Image Size: 16051770  CPU Elapsed Time: 784.524 msecs

Image Size: 17886106  CPU Elapsed Time: 802.988 msecs

Image Size: 19817000  CPU Elapsed Time: 829.102 msecs

Image Size: 21846846  CPU Elapsed Time: 912.721 msecs

Image Size: 23978570  CPU Elapsed Time: 954.053 msecs

Image Size: 26209512  CPU Elapsed Time: 978.438 msecs

Image Size: 28536480  CPU Elapsed Time: 1045.46 msecs

Image Size: 49476  GPU Elapsed Time: 1.8581 msecs

Image Size: 198170  GPU Elapsed Time: 2.1446 msecs

Image Size: 446082  GPU Elapsed Time: 3.8053 msecs

Image Size: 792680  GPU Elapsed Time: 4.8882 msecs

Image Size: 1238230  GPU Elapsed Time: 5.9607 msecs

Image Size: 1783530  GPU Elapsed Time: 6.7705 msecs

Image Size: 2428048  GPU Elapsed Time: 7.3428 msecs

Image Size: 3170720  GPU Elapsed Time: 8.3768 msecs

Image Size: 4012344  GPU Elapsed Time: 9.8166 msecs

Image Size: 4954250  GPU Elapsed Time: 12.5099 msecs

Image Size: 5995374  GPU Elapsed Time: 14.9313 msecs

Image Size: 7134120  GPU Elapsed Time: 17.6367 msecs

Image Size: 8371818  GPU Elapsed Time: 20.3713 msecs

Image Size: 9710330  GPU Elapsed Time: 23.8835 msecs

Image Size: 11148060  GPU Elapsed Time: 25.3751 msecs

Image Size: 12682880  GPU Elapsed Time: 28.7937 msecs

Image Size: 14316652  GPU Elapsed Time: 31.7389 msecs

Image Size: 16051770  GPU Elapsed Time: 35.7431 msecs

Image Size: 17886106  GPU Elapsed Time: 38.3026 msecs

Image Size: 19817000  GPU Elapsed Time: 39.8344 msecs

Image Size: 21846846  GPU Elapsed Time: 43.0583 msecs

Image Size: 23978570  GPU Elapsed Time: 45.6539 msecs

Image Size: 26209512  GPU Elapsed Time: 54.4576 msecs

Image Size: 28536480  GPU Elapsed Time: 49.9312 msecs

cv::cuda比cv::竟然快这么多？！把两个函数放一起：

std::cout << "Process started... \n" << std::endl;
	for (int n = 1; n < SIZE; n++) {
		auto start = std::chrono::high_resolution_clock::now();
		cv::resize(ImageHost, ImageHostArr[n], cv::Size(), 0.5*n, 0.5*n, cv::INTER_LINEAR);
		cv::Canny(ImageHostArr[n], Detected_EdgesHost[n], 2.0, 100.0, 3, false);
		auto finish = std::chrono::high_resolution_clock::now();
		std::chrono::duration elapsed_time = finish - start;
		File1 << "Image Size: " << ImageHostArr[n].rows* ImageHostArr[n].cols << "  " << "CPU Elapsed Time: " << elapsed_time.count() * 1000 << " msecs" << "\n" << std::endl;
	}


	cv::Ptr canny_edg = cv::cuda::createCannyEdgeDetector(2.0, 100.0, 3, false);

	for (int n = 1; n < SIZE; n++) {
		auto start = std::chrono::high_resolution_clock::now();
		cv::cuda::resize(ImageDev, ImageDevArr[n], cv::Size(), 0.5*n, 0.5*n, cv::INTER_LINEAR);
		canny_edg->detect(ImageDevArr[n], Detected_EdgesDev[n]);
		auto finish = std::chrono::high_resolution_clock::now();
		std::chrono::duration elapsed_time = finish - start;
		File2 << "Image Size: " << ImageDevArr[n].rows* ImageDevArr[n].cols << "  " << "GPU Elapsed Time: " << elapsed_time.count() * 1000 << " msecs" << "\n" << std::endl;
	}
	std::cout << "Process ended... \n" << std::endl;

Image Size: 49476  GPU Elapsed Time: 1.5971 msecs

Image Size: 198170  GPU Elapsed Time: 2.1869 msecs

Image Size: 446082  GPU Elapsed Time: 3.9316 msecs

Image Size: 792680  GPU Elapsed Time: 5.8947 msecs

Image Size: 1238230  GPU Elapsed Time: 6.8415 msecs

Image Size: 1783530  GPU Elapsed Time: 7.8679 msecs

Image Size: 2428048  GPU Elapsed Time: 8.4011 msecs

Image Size: 3170720  GPU Elapsed Time: 9.5377 msecs

Image Size: 4012344  GPU Elapsed Time: 11.3635 msecs

Image Size: 4954250  GPU Elapsed Time: 13.3181 msecs

Image Size: 5995374  GPU Elapsed Time: 16.5964 msecs

Image Size: 7134120  GPU Elapsed Time: 19.9122 msecs

Image Size: 8371818  GPU Elapsed Time: 22.7916 msecs

Image Size: 9710330  GPU Elapsed Time: 25.1661 msecs

Image Size: 11148060  GPU Elapsed Time: 28.3689 msecs

Image Size: 12682880  GPU Elapsed Time: 31.6261 msecs

Image Size: 14316652  GPU Elapsed Time: 34.7694 msecs

Image Size: 16051770  GPU Elapsed Time: 37.7313 msecs

Image Size: 17886106  GPU Elapsed Time: 39.5111 msecs

Image Size: 19817000  GPU Elapsed Time: 43.407 msecs

Image Size: 21846846  GPU Elapsed Time: 46.8648 msecs

Image Size: 23978570  GPU Elapsed Time: 47.9306 msecs

Image Size: 26209512  GPU Elapsed Time: 50.2719 msecs

Image Size: 28536480  GPU Elapsed Time: 53.922 msecs

Image Size: 49476  CPU Elapsed Time: 16.4558 msecs

Image Size: 198170  CPU Elapsed Time: 40.3942 msecs

Image Size: 446082  CPU Elapsed Time: 77.8448 msecs

Image Size: 792680  CPU Elapsed Time: 110.313 msecs

Image Size: 1238230  CPU Elapsed Time: 143.571 msecs

Image Size: 1783530  CPU Elapsed Time: 183.128 msecs

Image Size: 2428048  CPU Elapsed Time: 218.107 msecs

Image Size: 3170720  CPU Elapsed Time: 256.128 msecs

Image Size: 4012344  CPU Elapsed Time: 305.7 msecs

Image Size: 4954250  CPU Elapsed Time: 370.511 msecs

Image Size: 5995374  CPU Elapsed Time: 410.728 msecs

Image Size: 7134120  CPU Elapsed Time: 458.635 msecs

Image Size: 8371818  CPU Elapsed Time: 511.283 msecs

Image Size: 9710330  CPU Elapsed Time: 619.209 msecs

Image Size: 11148060  CPU Elapsed Time: 652.386 msecs

Image Size: 12682880  CPU Elapsed Time: 691.799 msecs

Image Size: 14316652  CPU Elapsed Time: 768.322 msecs

Image Size: 16051770  CPU Elapsed Time: 880.751 msecs

Image Size: 17886106  CPU Elapsed Time: 900.914 msecs

Image Size: 19817000  CPU Elapsed Time: 980.022 msecs

Image Size: 21846846  CPU Elapsed Time: 1037.32 msecs

Image Size: 23978570  CPU Elapsed Time: 1115.81 msecs

Image Size: 26209512  CPU Elapsed Time: 1123.15 msecs

Image Size: 28536480  CPU Elapsed Time: 1226.08 msecs

依旧是快很多的。但是不好意思发现算上cv::Mat与cv::cuda::gpuMat之间的上传下载，如果只处理几张图片，cv::cuda总体是慢的：

int main()
{
	cv::Mat ImageHost = cv::imread("E:\\CUDA\\imgs\\cv_cuda_testimg.png", cv::IMREAD_GRAYSCALE);

	cv::Mat ImageHostArr[SIZE];

	cv::Mat Detected_EdgesHost[SIZE];
	

	std::ofstream File1, File2;

	File1.open("E:\\CUDA\\imgs\\canny_cpu.txt");
	File2.open("E:\\CUDA\\imgs\\canny_gpu.txt");


	std::cout << "Process started... \n" << std::endl;
	for (int n = 1; n  elapsed_time = finish - start;
		File1 << "Image Size: " << ImageHostArr[n].rows* ImageHostArr[n].cols << "  " << "CPU Elapsed Time: " << elapsed_time.count() * 1000 << " msecs" << "\n" << std::endl;
	}

	
	auto start2 = std::chrono::high_resolution_clock::now();

	cv::cuda::GpuMat ImageDev;
	cv::cuda::GpuMat ImageDevArr[SIZE];

	ImageDev.upload(ImageHost);
	cv::cuda::GpuMat Detected_EdgesDev[SIZE];
	cv::Mat gpuresult[SIZE];

	auto finish2 = std::chrono::high_resolution_clock::now();
	std::chrono::duration elapsed_time2 = finish2 - start2;
	File2 << "GPU Elapsed Time: " << elapsed_time2.count() * 1000 << " msecs" << "\n" << std::endl;

	cv::Ptr canny_edg = cv::cuda::createCannyEdgeDetector(2.0, 100.0, 3, false);

	for (int n = 1; n detect(ImageDevArr[n], Detected_EdgesDev[n]);

		(Detected_EdgesDev[n]).download(gpuresult[n]);
		auto finish = std::chrono::high_resolution_clock::now();
		std::chrono::duration elapsed_time = finish - start;
		File2 << "Image Size: " << ImageDevArr[n].rows* ImageDevArr[n].cols << "  " << "GPU Elapsed Time: " << elapsed_time.count() * 1000 << " msecs" << "\n" << std::endl;
		
	}

	std::cout << "Process ended... \n" << std::endl;
	return 0;
}

看结果上传花了很多时间：

CPU Elapsed Time: 16.2129 msecs

GPU Elapsed Time: 827.039 msecs

Image Size: 49476  GPU Elapsed Time: 1.3695 msecs

所以如果后续只处理一两张图，那就得不偿失了。所以网上有人建议要使用cv::cuda，最好cv::Mat与cv::cuda::gpuMat之间只转换一次，而不要频繁的转来转去，否则cv::cuda函数节约下来的时间赶不上转换消耗的时间，那总体就慢了。

Image Size: 49476  CPU Elapsed Time: 16.5117 msecs

Image Size: 198170  CPU Elapsed Time: 40.3025 msecs

Image Size: 446082  CPU Elapsed Time: 81.2121 msecs

Image Size: 792680  CPU Elapsed Time: 110.101 msecs

Image Size: 1238230  CPU Elapsed Time: 148.415 msecs

Image Size: 1783530  CPU Elapsed Time: 186.113 msecs

Image Size: 2428048  CPU Elapsed Time: 228.306 msecs

Image Size: 3170720  CPU Elapsed Time: 261.014 msecs

Image Size: 4012344  CPU Elapsed Time: 316.615 msecs

Image Size: 4954250  CPU Elapsed Time: 363.326 msecs

Image Size: 5995374  CPU Elapsed Time: 410.894 msecs

Image Size: 7134120  CPU Elapsed Time: 479.375 msecs

Image Size: 8371818  CPU Elapsed Time: 509.868 msecs

Image Size: 9710330  CPU Elapsed Time: 596.871 msecs

GPU Elapsed Time: 811.702 msecs

Image Size: 49476  GPU Elapsed Time: 1.5237 msecs

Image Size: 198170  GPU Elapsed Time: 2.2596 msecs

Image Size: 446082  GPU Elapsed Time: 3.7014 msecs

Image Size: 792680  GPU Elapsed Time: 5.3606 msecs

Image Size: 1238230  GPU Elapsed Time: 6.7137 msecs

Image Size: 1783530  GPU Elapsed Time: 7.9725 msecs

Image Size: 2428048  GPU Elapsed Time: 9.5008 msecs

Image Size: 3170720  GPU Elapsed Time: 11.3495 msecs

Image Size: 4012344  GPU Elapsed Time: 13.556 msecs

Image Size: 4954250  GPU Elapsed Time: 16.0509 msecs

Image Size: 5995374  GPU Elapsed Time: 19.5233 msecs

Image Size: 7134120  GPU Elapsed Time: 22.7719 msecs

Image Size: 8371818  GPU Elapsed Time: 26.4892 msecs

Image Size: 9710330  GPU Elapsed Time: 28.1691 msecs

我觉得cv::cuda真的只适合一次上传下载，然后很多很多函数处理或者是很多张图片的很多操作，这种情况。

的确是这样。

二、cuda提供的NPP库

暂时放弃

三、距离变换distanceTransform的CUDA版本

1、先直接用2020外文中提供的最优的JFA的距离变换方法，话说jump flood algorithmn这个算法为什么在中国网站里没介绍，搜都搜不到原理，因为看外文的还有点小地方不怎么理解，就是我没注释的第一个函数中。

#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include "helper_math.h"
#include "book.h"
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 


struct ipoint { int x, y; };
struct fpoint { float x, y; };
struct uipoint { unsigned int x, y; };
struct stack { unsigned int top, bot; };


/*这个部分涉及到jump flood算法原理(JFA)，没懂
input:g---当前邻域点位置的水平、垂直方向的梯度幅值
或邻域点与中心点的横坐标、纵坐标位置差
a---原图在当前邻域点位置><=0.0的判断
*/
__device__ float edgedf(fpoint g, float a)
{
	float df, glength, temp, al;
	if ((g.x == 0) || (g.y == 0))
	{
		//此邻域点是背景点
		//此邻域点在中心点的正上、正下、正左、正右位置
		df = 0.5 - a;
	}
	else
	{
		//此邻域点是目标点
		//此邻域点在中心点的斜对角位置
		glength = sqrtf(g.x*g.x + g.y*g.y);
		if (glength > 0)
		{
			g.x = g.x / glength;
			g.y = g.y / glength;
		}
		g.x = fabs(g.x);
		g.y = fabs(g.y);
		if (g.x < g.y)
		{
			temp = g.x;
			g.x = g.y;
			g.y = temp;
		}
		al = 0.5f*g.y / g.x;
		if (a < al)
		{
			df = 0.5f*(g.x + g.y) - sqrt(2.0f*g.x*g.y*a);
		}
		else if (a < (1.0f - al))
		{
			df = (0.5f - a)*g.x;
		}
		else
		{
			df = -0.5f*(g.x + g.y) + sqrt(2.0f*g.x*g.y*(1.0f - a));
		}
	}
	return df;
}


/*
input:from-----当前中心像素点位置
to-------当前邻域点位置
grad-----当前邻域点位置的梯度幅值
img------设备原图
imgSize--设备原图尺寸
return :计算当前邻域点到中心点的XX距离（位置距离+另一种距离（涉及JFA原理））
*/
__device__ float dist(ipoint from, ipoint to, fpoint grad, uchar* img, uipoint imgSize)
{
	//再次判断当前邻域点位置是否为背景点
	if (to.x < 0 || to.y < 0)
		return imgSize.x*3.0f;

	/*计算原图在此邻域点位置的像素值
	*/
	int id = to.y*imgSize.x + to.x;
	float a = img[id];
	if (a > 1) a = 1.0f;//若是目标点，其实按道理此时只可能是这种
	if (a < 0) a = 0.0f;//原图不可能有小于0的像素值？？
	if (a == 0) return imgSize.x*3.0f;//原图在邻域点是背景

										 //计算邻域点与当前中心点的距离
	float dx = to.x - from.x;
	float dy = to.y - from.y;
	float di = sqrtf(dx*dx + dy*dy);

	float df;
	if (di == 0.0f)
	{
		//当前邻域点就是中心点
		df = fmaxf(edgedf(grad, a), 0.0f);
	}
	else
	{
		//另8个邻域点
		df = edgedf({ dx,dy }, a);
	}

	return di + df;

}


/*计算梯度图像grad和标记背景位置图closest
input:img---------需要计算的图像
imgSize-----图像尺寸
output:closest----把背景区域置-1
grad-------梯度图像，背景区域的梯度为0，目标区域梯度幅值计算并归一化
*/
__global__ void setup(ipoint *closest, fpoint *grad, uchar *img, uipoint imgSize)
{
	int idx = blockIdx.x*blockDim.x + threadIdx.x;
	int idy = blockIdx.y*blockDim.y + threadIdx.y;

	int id = idy*imgSize.x + idx;

#define SQRT2 1.4142136f

	if (img[id] > 0.0f)
	{
		closest[id].x = idx;
		closest[id].y = idy;
		if (idx > 0 && idx < imgSize.x - 1 && idy>0 && idy < imgSize.y - 1)
		{
			grad[id].x = -img[id - imgSize.x - 1] - SQRT2*img[id - 1] - img[id + imgSize.x - 1] + img[id - imgSize.x + 1]
				+ SQRT2*img[id + 1] + img[id + imgSize.x + 1];

			grad[id].y = -img[id - imgSize.x - 1] - SQRT2*img[id - imgSize.x] - img[id - imgSize.x + 1] + img[id + imgSize.x - 1]
				+ SQRT2*img[id + imgSize.x] + img[id + imgSize.x + 1];
			float g = grad[id].x*grad[id].x + grad[id].y*grad[id].y;
			if (g > 0.0f)
			{
				g = sqrtf(g);
				grad[id].x /= g;
				grad[id].y /= g;
			}
		}
		else
		{
			grad[id].x = 0;
			grad[id].y = 0;
		}
	}
	else
	{
		closest[id].x = -1;
		closest[id].y = -1;
		grad[id].x = 0;
		grad[id].y = 0;
	}
}


/*
input:closest----背景区域位置标记图
grad-------梯度幅值图
img--------设备原图
imgSize----设备原图尺寸
stepSize---设备原图列位置
output:voronoi---XX距离图像对应的位置图像
out-------XX距离图像
*/
__global__ void propagateSites(ipoint *closest, ipoint *voronoi, fpoint *grad, uchar *img,
	float *out, uipoint imgSize, int stepSize)
{
	int idx = blockIdx.x*blockDim.x + threadIdx.x;
	int idy = blockIdx.y*blockDim.y + threadIdx.y;
	int id = idy*imgSize.x + idx;

	//以当前点位置为中心，上下左右斜对角stepSize距离的点位置,共9个邻域点
	ipoint neighbors[9] = { { idx - stepSize,idy + stepSize },{ idx,idy + stepSize },
	{ idx + stepSize,idy + stepSize },{ idx - stepSize,idy },{ idx,idy },{ idx + stepSize,idy },
	{ idx - stepSize,idy - stepSize },{ idx,idy - stepSize },{ idx + stepSize,idy - stepSize }
	};

	//因为在图像内，所以不可能有距离值大于3倍图像尺寸
	float bestDist = imgSize.x*3.0f;
	ipoint bestSite = { -1,-1 };

	//针对当前中心点，计算9个邻域点中XX距离最小的为此中心点最终的XX距离
	//并把此中心点XX距离最小的邻域点的位置标记下来
	for (int i = 0; i < 9; ++i)
	{
		ipoint n = neighbors[i];

		//如果邻域点位置无效，则忽略，即超出了图像实际像素点的位置范围
		if (n.x >= imgSize.x || n.x < 0 || n.y >= imgSize.y || n.y < 0) continue;

		//查看这个邻域点位置是背景点还是目标点，-1代表背景
		ipoint nSite = closest[n.x + n.y*imgSize.x];
		/*如果这个点是背景点，那么就赋值为一个不可能达到的非常大的距离值imgSize.x*3.0f
		如果这个点是目标点，就计算此邻域点与中心点的XX距离
		*/
		float newDist = (nSite.x < 0) ? imgSize.x*3.0f : dist({ idx,idy },
			nSite, grad[nSite.x + nSite.y*imgSize.x], img, imgSize);

		if (newDist < bestDist)
		{
			bestDist = newDist;
			bestSite = nSite;
		}
	}
	////针对当前中心点，计算9个邻域点中XX距离最小的为此中心点最终的XX距离
	voronoi[id] = bestSite;
	out[id] = bestDist;
}


/*
input:img----输入图像
size---输入图像的长宽
output:edt---距离变换后的图像
*/
void JFA(float *edt, uchar *img, uipoint size)
{
	uchar *dev_img = 0;
	fpoint *dev_grad = 0;
	float *dev_edt = 0;
	ipoint *dev_closest = 0;
	ipoint *dev_voronoi = 0;

	cudaEvent_t     start, stop;
	HANDLE_ERROR(cudaEventCreate(&start));
	HANDLE_ERROR(cudaEventCreate(&stop));
	HANDLE_ERROR(cudaEventRecord(start, 0));

	cudaSetDevice(0);

	cudaMalloc((void**)&dev_grad, size.x*size.y * sizeof(fpoint));
	cudaMalloc((void**)&dev_edt, size.x*size.y * sizeof(float));
	cudaMalloc((void**)&dev_closest, size.x*size.y * sizeof(ipoint));
	cudaMalloc((void**)&dev_voronoi, size.x*size.y * sizeof(ipoint));

	//为原图在device上分配空间，将数据拷贝到设备全局 1~2ms
	cudaMalloc((void**)&dev_img, size.x*size.y * sizeof(uchar));
	
	cudaMemcpy(dev_img, img, size.x*size.y * sizeof(uchar), cudaMemcpyHostToDevice);

	dim3 block = { 8,8 };
	dim3 grid = { size.x / 8,size.y / 8 };

	
	//计算得到归一化的梯度幅值图像dev_grad和标记背景位置图dev_closest
	setup << > >(dev_closest, dev_grad, dev_img, size);

	cudaDeviceSynchronize();

	for (int i = size.x / 2; i > 0; i /= 2)
	{
		//计算以i为间隔，每个像素点的XX距离图以及最新的位置标记图
		propagateSites << > >(dev_closest, dev_voronoi, dev_grad, dev_img,
			dev_edt, size, i);

		/*将上次的背景区域位置标记图dev_closest与刚刚核函数得到的
		XX距离图像对应的位置图像dev_voronoi交换，即更新背景区域位置标记图
		*/
		ipoint *tmp = dev_closest;
		dev_closest = dev_voronoi;
		dev_voronoi = tmp;
		cudaDeviceSynchronize();
	}

	cudaMemcpy(edt, dev_edt, size.x*size.y * sizeof(float), cudaMemcpyDeviceToHost);

	HANDLE_ERROR(cudaEventRecord(stop, 0));
	HANDLE_ERROR(cudaEventSynchronize(stop));
	float   elapsedTime;
	HANDLE_ERROR(cudaEventElapsedTime(&elapsedTime, start, stop));
	printf("Time on GPU:  %3.1f ms\n", elapsedTime);
	HANDLE_ERROR(cudaEventDestroy(start));
	HANDLE_ERROR(cudaEventDestroy(stop));

	cudaFree(dev_closest);
	cudaFree(dev_grad);
	cudaFree(dev_img);
	cudaFree(dev_edt);
	cudaFree(dev_voronoi);

	return;
}


int main()
{
	char srclowfolder[400] = { 0 };

	for (int index = 0; index <= 56; index++)
	{

		sprintf(srclowfolder, "E:\\CUDA\\imgs\\jinxinginput\\101\\%d_lowbw.jpg", index);
		cv::Mat low_binary_A = cv::imread(srclowfolder, cv::IMREAD_UNCHANGED);

		/*
		auto cpustart = std::chrono::high_resolution_clock::now();
		cv::Mat dist_image;
		distanceTransform(low_binary_A, dist_image, cv::DIST_L2, 3);
		auto cpufinish = std::chrono::high_resolution_clock::now();
		std::chrono::duration elapsed_time = cpufinish - cpustart;
		std::cout << "CPU distanceTransform Elapsed Time: " << elapsed_time.count() * 1000 << " ms" << "\n" << std::endl;
		*/

		
		float *dist_image_gpu=0;
		uipoint imgrealsize;
		imgrealsize.x = low_binary_A.cols;
		imgrealsize.y = low_binary_A.rows;
		JFA(dist_image_gpu, low_binary_A.data, imgrealsize);
		
	}

	return 0;
}

我对比了一下，纯CPU版本的distanceTransform耗时是2~3ms，而CUDA版本竟然要100+ms！！！我看了下，主要是for里面对整幅图每次以像素点stepsize附近9个邻域点求距离最小值，stepsize越来越小，所有点的计算量越来越大

。很好理解，以图像中央像素点为例，第一次时是由这9个邻域点计算出最小距离，并相当于将最小距离赋值给中央像素点；第二次时又计算新的9个邻域点的最小距离....可以看到当stepsize很大时，有的点也许实际只用算2、3、4...个点，并不用算满9个点。所以for后面的时间会比前一次for更长。

我以为论文上的就是最优的，可是比cv::distanceTransform长太多了。我其实很想查到cv::distanceTransform详细的原理，然后自己写核函数。

2、按照https://www.cnblogs.com/yrm1160029237/p/11937744.html 中介绍的原理自己实现

找了几个理论：https://blog.csdn.net/weixin_44128918/article/details/103754674?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase 其实就是第一遍是走正Z字形，从左上角扫描到右下角，比较每个像素左、上点中的最小值点，加上自身像素值；第二遍走倒Z字形，从右下角扫描到左上，比较每个像素右、下点中的最小值，加上自身像素值；比较这两次扫描的最小值作为最终的distanceTranceform的结果（此种不是float）

开始时我想这样设计，分析发现依赖很严重。后来想换一种依赖不这么严重的方式：这种方式与上一种严格按原理来的那种方式结果一致。但是我测试了一下，这个版本距离变换CUDA总时间基本是3.3ms，也就是比CPU版本还是慢了近1ms。然后我测试了只计算核函数的时间是2.5ms，比CPU版本快。因为这是我设计的第一版，然后图像是500x1216，图像大一些按这个思路应该会比CPU快得更明显，而且我还没有使用纹理内存以及CUDA调度方式边复制变执行kernel，我觉得优化一下更快。刚刚又尝试了下这个优化方向，但是我之前配置时以为不用opengl相关的，就没编译，所以使用不了纹理内存...........

因为还有一个膨胀函数也要放到GPU上，我测试了一下，CPU版本distanceTransform+dilate耗时是：

然后GPU版本distanceTransform+dilate的耗时是如下

这么看这个未优化版本已经开始呈现优势了。

不好意思，上面的距离变换的原理有误，所以出来数据不对。然后我又重新按照这个C++版本：

float Distance(int x1, int y1, int x2, int y2)
{
	return sqrt(float((x2 - x1)*(x2 - x1) + (y2 - y1)*(y2 - y1)));
}


void cpu_dt(cv::Mat input, cv::Mat &output)
{
	cv::Mat BinaryImage = input;    
	uchar *pRowOne;    
	uchar *pRowNext;    
	float distance;    
	float Mindis;    
	for (int i = 1; i <= BinaryImage.rows - 2; i++) 
	{
		pRowOne = BinaryImage.ptr(i);        
		for (int j = 1; j <= BinaryImage.cols-1; j++) 
		{
			pRowNext = BinaryImage.ptr(i - 1);             
			distance = Distance(i, j, i - 1, j - 1);//q1            
			Mindis = min((float)pRowOne[j], distance + pRowNext[j -1]);   
			
			distance = Distance(i, j, i -1, j);//q2            
			Mindis = min(Mindis, distance + pRowNext[j]);  
			
			pRowNext =  BinaryImage.ptr(i);            
			distance = Distance(i, j, i, j -1);//q3            
			Mindis = min(Mindis, distance + pRowNext[j]);   
			
			pRowNext = BinaryImage.ptr(i + 1);//q4            
			distance = Distance(i, j, i + 1, j - 1);            
			Mindis = min(Mindis, distance + pRowNext[j - 1]);      
			pRowOne[j] = (uchar)round(Mindis);        
		}    
	}    
	for(int i = BinaryImage.rows -2; i > 0; i--)    
	{        
		pRowOne = BinaryImage.ptr(i);        
		for(int j = BinaryImage.cols -2; j > 0;j--)        
		{            
			pRowNext = BinaryImage.ptr( i + 1);            
			distance = Distance(i, j, i + 1, j);//q1            
			Mindis = min((float)pRowOne[j], distance + pRowNext[j]);             
			distance = Distance(i, j, i + 1, j + 1 );//q2            
			Mindis = min(Mindis, distance + pRowNext[j + 1]);             
			pRowNext = BinaryImage.ptr(i);//q3            
			distance = Distance(i, j, i, j + 1);            
			Mindis = min(Mindis, distance + pRowNext[j + 1]);             
			pRowNext = BinaryImage.ptr(i - 1);//q4            
			distance = Distance(i, j, i -1, j + 1);            
			Mindis = min(Mindis, distance + pRowNext[j + 1]);            
			pRowOne[j] = (uchar)round(Mindis);         
		}     
	}    
	output = BinaryImage;  
}
//：https ://blog.csdn.net/qinzihangxj/article/details/105601108

实际这个版本也不完全对，因为与opencv的distanceTransform还是有差别然后我又按另一个原理写了一个CPU版本：

可以看到原理哪怕稍微一点点差别，结果出来也不一样。但是我现在只要求基本和opencv结果一样。

我用了第二个模板写对应CUDA版本，但是说实话这个算法原理步骤依赖性太强，所以并行性很小。

写了对应的一个CUDA版本：

#define GEN2 1.41421356

/*
500x1216的图像，实际线程1214个:1个block，每个block里607x2个线程
*/
__global__ void distanceTransform(uchar *bwinput, uisize sizes, uchar *dtimg)
{
	__shared__ uchar tmpmin[500][1216];

	int idx = threadIdx.y*blockDim.x + threadIdx.x;

	//首尾两行、首尾两列 不用处理 直接填0
	int tid = idx;
	int r = tid / sizes.cols;
	int c = tid % sizes.cols;
	while (r < sizes.rows && c upleftvalue)
		{
			minvalue = upleftvalue;
		}
		uchar upvalue = 1 + bwinput[upid];
		if (minvalue > upvalue)
		{
			minvalue = upvalue;
		}
		uchar uprightvalue = GEN2 + bwinput[uprightid];
		if (minvalue > uprightvalue)
		{
			minvalue = uprightvalue;
		}
		tmpmin[r][idx+1] = minvalue;//bwinput[centerid]=minvalue;

		__syncthreads();

		if (idx == 0)
		{
			for (int c = 1; c != sizes.cols - 1; c++)
			{
				int globalid = r*sizes.cols + c;
				uchar leftvalue = 1 + bwinput[globalid - 1];
				if (tmpmin[r][c] > leftvalue)
				{
					tmpmin[r][c] = leftvalue;
				}
			}
		}
		__syncthreads();
	}


	//除了首尾两行、首尾两列的都要处理，反向扫描
	for (int r = sizes.rows - 2; r != 0; r--)
	{
		uchar minvalue = tmpmin[r][idx + 1];
		uchar upleftvalue = GEN2 + tmpmin[r+1][idx];
		if (minvalue > upleftvalue)
		{
			minvalue = upleftvalue;
		}
		uchar upvalue = 1 + tmpmin[r + 1][idx+1];
		if (minvalue > upvalue)
		{
			minvalue = upvalue;
		}
		uchar uprightvalue = GEN2 + tmpmin[r + 1][idx + 2];
		if (minvalue > uprightvalue)
		{
			minvalue = uprightvalue;
		}
		tmpmin[r][idx + 1] = minvalue;//bwinput[centerid]=minvalue;

		__syncthreads();

		if (idx == 0)
		{
			for (int c = sizes.cols - 2; c != 0; c--)
			{
				float leftvalue = 1 + tmpmin[r][c+1];
				float tmpminvalue = tmpmin[r][c];
				if (tmpminvalue > leftvalue)
				{
					tmpmin[r][c] = leftvalue;
				}
			}
		}
		__syncthreads();
	}


	//所有线程合作将共享变量的值填充到全局变量
	tid = idx;
	r = tid / sizes.cols;
	c = tid % sizes.cols;
	while (r < sizes.rows && c

 
  CUDACOMPILE : ptxas error : Entry function '_Z17distanceTransformPh6uisizeS_' uses too much shared data (0x94700 bytes, 0xc000 max) 
  但是我的硬件资源限制了，跑不起来，共享内存超出了限制。然后我又重写了一个， 
  #define GEN2 1.41421356

float Distance(int x1, int y1, int x2, int y2)
{
	return sqrt(float((x2 - x1)*(x2 - x1) + (y2 - y1)*(y2 - y1)));
}

void cpu_dt_mine(cv::Mat input, cv::Mat &output)
{
	for (int i = 1; i < input.rows - 1; i++)
	{
		for (int j = 1; j < input.cols - 1; j++)
		{
			float tmpmin = input.ptr(i)[j];
			float left = 1 + input.ptr(i)[j - 1];
			if (tmpmin > left)
			{
				tmpmin = left;
			}
			float up = 1 + input.ptr(i - 1)[j];
			if (tmpmin > up)
			{
				tmpmin = up;
			}
			float upleft = GEN2 + input.ptr(i - 1)[j - 1];
			if (tmpmin > upleft)
			{
				tmpmin = upleft;
			}
			float upright = GEN2 + input.ptr(i - 1)[j + 1];
			if (tmpmin > upright)
			{
				tmpmin = upright;
			}
			output.ptr(i)[j] = tmpmin;
			input.ptr(i)[j] = int(tmpmin);
		}
	}

	
	for (int i = input.rows - 2; i >0; i--)
	{
		for (int j = input.cols - 2; j >0; j--)
		{
			float tmpmin = output.ptr(i)[j];
			float left = 1 + output.ptr(i)[j + 1];
			if (tmpmin > left)
			{
				tmpmin = left;
			}
			float up = 1 + output.ptr(i + 1)[j];
			if (tmpmin > up)
			{
				tmpmin = up;
			}
			float upleft = GEN2 + output.ptr(i + 1)[j - 1];
			if (tmpmin > upleft)
			{
				tmpmin = upleft;
			}
			float upright = GEN2 + output.ptr(i + 1)[j + 1];
			if (tmpmin > upright)
			{
				tmpmin = upright;
			}
			output.ptr(i)[j] = tmpmin;
		}
	}
	
}


void cpu_dt(cv::Mat input, cv::Mat &output)
{
	cv::Mat BinaryImage = input;
	uchar *pRowOne;
	uchar *pRowNext;
	float distance;
	float Mindis;
	for (int i = 1; i <= BinaryImage.rows - 2; i++)
	{
		pRowOne = BinaryImage.ptr(i);
		for (int j = 1; j <= BinaryImage.cols - 1; j++)
		{
			pRowNext = BinaryImage.ptr(i - 1);
			distance = Distance(i, j, i - 1, j - 1);//q1            
			Mindis = min((float)pRowOne[j], distance + pRowNext[j - 1]);

			distance = Distance(i, j, i - 1, j);//q2            
			Mindis = min(Mindis, distance + pRowNext[j]);

			pRowNext = BinaryImage.ptr(i);
			distance = Distance(i, j, i, j - 1);//q3            
			Mindis = min(Mindis, distance + pRowNext[j]);

			pRowNext = BinaryImage.ptr(i + 1);//q4            
			distance = Distance(i, j, i + 1, j - 1);
			Mindis = min(Mindis, distance + pRowNext[j - 1]);
			pRowOne[j] = (uchar)round(Mindis);
		}
	}
	for (int i = BinaryImage.rows - 2; i > 0; i--)
	{
		pRowOne = BinaryImage.ptr(i);
		for (int j = BinaryImage.cols - 2; j > 0; j--)
		{
			pRowNext = BinaryImage.ptr(i + 1);
			distance = Distance(i, j, i + 1, j);//q1            
			Mindis = min((float)pRowOne[j], distance + pRowNext[j]);
			distance = Distance(i, j, i + 1, j + 1);//q2            
			Mindis = min(Mindis, distance + pRowNext[j + 1]);
			pRowNext = BinaryImage.ptr(i);//q3            
			distance = Distance(i, j, i, j + 1);
			Mindis = min(Mindis, distance + pRowNext[j + 1]);
			pRowNext = BinaryImage.ptr(i - 1);//q4            
			distance = Distance(i, j, i - 1, j + 1);
			Mindis = min(Mindis, distance + pRowNext[j + 1]);
			pRowOne[j] = (uchar)round(Mindis);
		}
	}
	output = BinaryImage;
}
//：https ://blog.csdn.net/qinzihangxj/article/details/105601108



////////////////////////////////////////////////////////////////////



/*硬件限制，共享内存不够
dim3 threads(2, 607);
distanceTransform << <1, threads >> >(dev_img, imgsizes, dev_closest);
500x1216的图像，实际线程1214个:1个block，每个block里607x2个线程
*/
/*
__global__ void distanceTransform(uchar *bwinput, uisize sizes, uchar *dtimg)
{
	__shared__ float tmpmin[500][1216];

	int idx = threadIdx.y*blockDim.x + threadIdx.x;

	//首尾两行、首尾两列 不用处理 直接填0
	int tid = idx;
	int r = tid / sizes.cols;
	int c = tid % sizes.cols;
	while (r < sizes.rows && c upleftvalue)
		{
			minvalue = upleftvalue;
		}
		float upvalue = 1 + bwinput[upid];
		if (minvalue > upvalue)
		{
			minvalue = upvalue;
		}
		float uprightvalue = GEN2 + bwinput[uprightid];
		if (minvalue > uprightvalue)
		{
			minvalue = uprightvalue;
		}
		tmpmin[r][idx+1] = minvalue;//bwinput[centerid]=minvalue;

		__syncthreads();

		if (idx == 0)
		{
			for (int c = 1; c != sizes.cols - 1; c++)
			{
				int globalid = r*sizes.cols + c;
				float leftvalue = 1 + bwinput[globalid - 1];
				if (tmpmin[r][c] > leftvalue)
				{
					tmpmin[r][c] = leftvalue;
				}
			}
		}
		__syncthreads();
	}


	//除了首尾两行、首尾两列的都要处理，反向扫描
	for (int r = sizes.rows - 2; r != 0; r--)
	{
		float minvalue = tmpmin[r][idx + 1];
		float upleftvalue = GEN2 + tmpmin[r+1][idx];
		if (minvalue > upleftvalue)
		{
			minvalue = upleftvalue;
		}
		float upvalue = 1 + tmpmin[r + 1][idx+1];
		if (minvalue > upvalue)
		{
			minvalue = upvalue;
		}
		float uprightvalue = GEN2 + tmpmin[r + 1][idx + 2];
		if (minvalue > uprightvalue)
		{
			minvalue = uprightvalue;
		}
		tmpmin[r][idx + 1] = minvalue;//bwinput[centerid]=minvalue;

		__syncthreads();

		if (idx == 0)
		{
			for (int c = sizes.cols - 2; c != 0; c--)
			{
				float leftvalue = 1 + tmpmin[r][c+1];
				float tmpminvalue = tmpmin[r][c];
				if (tmpminvalue > leftvalue)
				{
					tmpmin[r][c] = leftvalue;
				}
			}
		}
		__syncthreads();
	}


	//所有线程合作将共享变量的值填充到全局变量
	tid = idx;
	r = tid / sizes.cols;
	c = tid % sizes.cols;
	while (r < sizes.rows && c= sizes.rows) && (tid < 2 * sizes.rows))
	{
		dtimg[(tid - sizes.rows + 2)*sizes.cols - 1] = sidevalue;
	}

	
	
	////////////////////////////////////先前向扫描
	for (int r = 1; r != sizes.rows - 1; r++)
	{
		int therow = r*sizes.cols;
		int threadid = idx;
		while (threadid < sizes.cols)
		{
			int centerid = therow + 1 + threadid;//得到中心点的位置，每个thread
			int lastrow = therow - sizes.cols;
			int upleftid = lastrow + threadid;
			int upid = lastrow + threadid + 1;
			int uprightid = lastrow + threadid + 2;

			float minvalue = bwinput[centerid];
			float upleftvalue = GEN2 + bwinput[upleftid];
			if (minvalue > upleftvalue)
			{
				minvalue = upleftvalue;
			}
			float upvalue = 1 + bwinput[upid];
			if (minvalue > upvalue)
			{
				minvalue = upvalue;
			}
			float uprightvalue = GEN2 + bwinput[uprightid];
			if (minvalue > uprightvalue)
			{
				minvalue = uprightvalue;
			}
			tmpmin[threadid] = minvalue;

			threadid += (blockDim.x);
		}
		__syncthreads();

		if (idx == 0)
		{
			for (int c = 1; c != sizes.cols - 1; c++)
			{
				int globalid = r*sizes.cols + c;
				float leftvalue = 1 + dtimg[globalid - 1];
				if (tmpmin[c-1] > leftvalue)
				{
					dtimg[globalid] = leftvalue;
				}
				else
				{
					dtimg[globalid] = tmpmin[c - 1];
				}
			}
		}
		__syncthreads();
	}

	
	///////////////////////////////////////////反向扫描
	for (int r = sizes.rows - 2; r != 0; r--)
	{
		int therow = r*sizes.cols;
		int threadid = idx;
		while (threadid < sizes.cols)
		{
			int centerid = therow + 1 + threadid;//得到中心点的位置，每个thread
			int lastrow = therow + sizes.cols;
			int upleftid = lastrow + threadid;
			int upid = lastrow + threadid + 1;
			int uprightid = lastrow + threadid + 2;

			float minvalue = dtimg[centerid];
			float upleftvalue = GEN2 + dtimg[upleftid];
			if (minvalue > upleftvalue)
			{
				minvalue = upleftvalue;
			}
			float upvalue = 1 + dtimg[upid];
			if (minvalue > upvalue)
			{
				minvalue = upvalue;
			}
			float uprightvalue = GEN2 + dtimg[uprightid];
			if (minvalue > uprightvalue)
			{
				minvalue = uprightvalue;
			}
			tmpmin[threadid] = minvalue;
			threadid += (blockDim.x);
		}
		__syncthreads();

		if (idx == 0)
		{
			for (int c = sizes.cols - 2; c != 0; c--)
			{
				int globalid = r*sizes.cols + c;
				float leftvalue = 1 + dtimg[globalid + 1];
				float tmpminvalue = tmpmin[c-1];
				if (tmpminvalue > leftvalue)
				{
					dtimg[globalid] = leftvalue;
				}
				else
				{
					dtimg[globalid] = tmpminvalue;
				}
			}
		}
		__syncthreads();
	}
	//////////////////////////////////////////////////////
	
}




int main()
{
	char srclowfolder[400] = { 0 };

	cv::Mat element_cross55 = cv::getStructuringElement(cv::MORPH_CROSS, cv::Size(5, 5));

	for (int index = 3; index <= 3; index++)
	{

		sprintf(srclowfolder, "E:\\CUDA\\imgs\\jinxinginput\\101\\%d_lowbw.jpg", index);
		cv::Mat low_binary_A = cv::imread(srclowfolder, cv::IMREAD_UNCHANGED);
		for (int r = 0; r != low_binary_A.rows; r++)
		{
			for (int c = 0; c != low_binary_A.cols; c++)
			{
				if (low_binary_A.ptr(r)[c] > 200)
				{
					low_binary_A.ptr(r)[c] = 255;
				}
				else
				{
					low_binary_A.ptr(r)[c] = 0;
				}
			}
		}


		/*
		cv::Mat realimg(low_binary_A.rows, low_binary_A.cols, CV_8UC1, cv::Scalar(0));
		for (int r = 0; r != low_binary_A.rows; r++)
		{
			for (int c = 0; c != low_binary_A.cols; c++)
			{
				if (low_binary_A.ptr(r)[c] > 0)
				{
					realimg.ptr(r)[c] = 1;
				}
			}
		}

		std::cout << "原图" << std::endl;
		for (int r = 152; r != 180; r++)
		{
			for (int c = 430; c != 458; c++)
			{
				std::cout << int(realimg.ptr(r)[c]) << " ";
			}
			std::cout << std::endl;
		}
		std::cout << std::endl << std::endl;

		std::cout << "cv...." << std::endl;
		cv::Mat dist_image;
		distanceTransform(low_binary_A, dist_image, cv::DIST_L2, 3);
		for (int r = 152; r != 180; r++)
		{
			for (int c = 430; c != 458; c++)
			{
				std::cout << int(dist_image.ptr(r)[c]) << " ";
			}
			std::cout << std::endl;
		}
		std::cout << std::endl << std::endl;

		
		cv::Mat dtcpu(low_binary_A.rows, low_binary_A.cols, CV_8UC1, cv::Scalar(0));
		cpu_dt(low_binary_A, dtcpu);
		std::cout << "cpu1...." << std::endl;
		for (int r = 152; r != 180; r++)
		{
			for (int c = 430; c != 458; c++)
			{
				std::cout << int(dtcpu.ptr(r)[c]) << " ";
			}
			std::cout << std::endl;
		}
		std::cout << std::endl << std::endl;
		dtcpu.release();

		cv::Mat dt2cpu(low_binary_A.rows, low_binary_A.cols, CV_32FC1, cv::Scalar(0));
		cpu_dt_mine(low_binary_A, dt2cpu);
		std::cout << "cpu2...." << std::endl;
		for (int r = 152; r != 180; r++)
		{
			for (int c = 430; c != 458; c++)
			{
				std::cout << int(dt2cpu.ptr(r)[c]) << " ";
			}
			std::cout << std::endl;
		}
		std::cout << std::endl << std::endl;
		*/


		uisize imgsizes;
		imgsizes.rows = low_binary_A.rows;
		imgsizes.cols = low_binary_A.cols;

		uchar *dev_img = 0;
		float *dev_closest = 0;


		cudaEvent_t     start, stop;
		HANDLE_ERROR(cudaEventCreate(&start));
		HANDLE_ERROR(cudaEventCreate(&stop));
		HANDLE_ERROR(cudaEventRecord(start, 0));

		cudaSetDevice(0);

		cudaMalloc((void**)&dev_img, imgsizes.rows*imgsizes.cols * sizeof(uchar));
		cudaMalloc((void**)&dev_closest, imgsizes.rows*imgsizes.cols * sizeof(float));

		cudaMemcpy(dev_img, low_binary_A.data, imgsizes.rows*imgsizes.cols * sizeof(uchar), cudaMemcpyHostToDevice);

		distanceTransformgpu << <1, 1024 >> >(dev_img, imgsizes, dev_closest);

		cv::Mat deviceDTresult(low_binary_A.rows, low_binary_A.cols, CV_32FC1);
		cudaMemcpy(deviceDTresult.data, dev_closest, imgsizes.rows*imgsizes.cols * sizeof(float), cudaMemcpyDeviceToHost);
		
		cudaDeviceSynchronize();

		std::cout << "gpu result...." << std::endl;
		for (int r = 152; r != 180; r++)
		{
			for (int c = 430; c != 458; c++)
			{
				std::cout << int(deviceDTresult.ptr(r)[c]) << " ";
			}
			std::cout << std::endl;
		}

		uchar *dev_dilate = 0;
		cudaMalloc((void**)&dev_dilate, imgsizes.rows*imgsizes.cols * sizeof(uchar));

		dim3 grids(2, 500);
		dilatecross5 << > >(dev_img, dev_dilate);

		cudaDeviceSynchronize();

		HANDLE_ERROR(cudaEventRecord(stop, 0));
		HANDLE_ERROR(cudaEventSynchronize(stop));
		float   elapsedTime;
		HANDLE_ERROR(cudaEventElapsedTime(&elapsedTime, start, stop));
		//printf("Time on GPU:  %3.1f ms\n", elapsedTime);
		HANDLE_ERROR(cudaEventDestroy(start));
		HANDLE_ERROR(cudaEventDestroy(stop));

		cudaFree(dev_img);
		cudaFree(dev_closest);
		cudaFree(dev_dilate);
	}

	return 0;
} 
  结果如下： 
   
  基本和cpu版本差不多（和第二个cpu原理出来的结果不完全一样，先懒得追究）。但是如果我把注释的部分放开，打印出的结果就不对，是VS的打印流之间会干扰是吗？有大神遇到过这个奇怪现象吗？ 
   
  看这个打印结果怎么变成这样，和注释掉时的结果不一样。明明注释掉的地方应该不影响CUDA的结果啊？？ 
  然后我测试了一下时间，opencv版本的距离变换只要3~4ms，按两种原理自己手写的cpu版本的距离变换时间是100ms左右，但是gpu版本的竟然要1500ms！！！太不科学了，我以为应该要比100ms少的?!!!!!!!真的想知道opencv版的距离变换的源码内部怎么处理的这么快！！！！！！ 
  我刚刚查到，原来opencv中的距离变换用的原理是<>中的类似min-convolution，并不是中文网上说的这些，也就是我上面找的那样其实并不是。这才是cv::distanceTransform的来源。这是2012年的论文，我现在还找到另一个作者说已经实现并行的论文2019年出来的，但有的地方还看不怎么懂，据说实现了全并行，应该比cv版本快很多，但我还没完全懂。 
   
  我准备先把cv原理改成CUDA版本，测试性能，如果不够再继续研究2019这篇并行度很高的原理。 
  今天终于写完了cv原理的CUDA版本，与对应的CPU版本一致，但耗时很多： 
  /*对输入的二值图做准备工作，
然后对所有列完成一次扫描
500x1216的图像，那么实际使用500x1216个线程就够了,每个block内608x1
每个grid里有 2x500个blocks
*/
__global__ void preparefordt(uchar *bwimg, float *gpudtimg)
{
	int rows = 500;
	int cols = 1216;
	int idx = blockIdx.x*blockDim.x + threadIdx.x;
	int idy = blockIdx.y*blockDim.y + threadIdx.y;
	int imgid = idy*cols + idx;
	if (bwimg[imgid] == 0)
	{
		gpudtimg[imgid] = 0;
	}
	else
	{
		gpudtimg[imgid] = INF;
	}
}


/*
f----输入的一维数据
d----一维数据f对应的距离变换结果
*/
__device__ void dt1dimgpu(float *f, float *d)
{
	const int n = 500;
	//float d[n];
	int v[n];
	float z[n + 1];
	int k = 0;
	v[0] = 0;
	z[0] = -INF;
	z[1] = +INF;
	for (int q = 1; q <= n - 1; q++) 
	{
		float s = ((f[q] + q*q) - (f[v[k]] + (v[k])*(v[k]))) / (2 * q - 2 * v[k]);
		while (s <= z[k]) 
		{
			k--;
			s = ((f[q] + q*q) - (f[v[k]] + (v[k])*(v[k]))) / (2 * q - 2 * v[k]);
		}
		k++;
		v[k] = q;
		z[k] = s;
		z[k + 1] = +INF;
	}

	k = 0;
	for (int q = 0; q <= n - 1; q++) 
	{
		while (z[k + 1] < q)
		{
			k++;
		}
		d[q] = (q - v[k])*(q - v[k]) + f[v[k]];
	}
}

/*
f----输入的一维数据
d----一维数据f对应的距离变换结果
*/
__device__ void dt1dimrowgpu(float *f, float *d)
{
	const int n = 1216;
	int v[n];
	float z[n + 1];
	int k = 0;
	v[0] = 0;
	z[0] = -INF;
	z[1] = +INF;
	for (int q = 1; q <= n - 1; q++)
	{
		float s = ((f[q] + q*q) - (f[v[k]] + (v[k])*(v[k]))) / (2 * q - 2 * v[k]);
		while (s <= z[k])
		{
			k--;
			s = ((f[q] + q*q) - (f[v[k]] + (v[k])*(v[k]))) / (2 * q - 2 * v[k]);
		}
		k++;
		v[k] = q;
		z[k] = s;
		z[k + 1] = +INF;
	}

	k = 0;
	for (int q = 0; q <= n - 1; q++)
	{
		while (z[k + 1] < q)
		{
			k++;
		}
		d[q] = (q - v[k])*(q - v[k]) + f[v[k]];
	}
}


/*
然后对gpudtimg所有列完成一次扫描
500x1216的图像，那么实际使用1216个线程就够了,每个block内1x500个线程
每个grid里有 2x608个blocks
*/
__global__ void dtcolpass(float *gpudtimg, float *colpassimg)
{
	const int rows = 500;
	const int cols = 1216;
	int id = blockIdx.y*gridDim.x + blockIdx.x;
	int rowid = threadIdx.x;
	int globalid = id + cols*rowid;

	//block内所有线程合作，完成一列从全局搬运到共享内存
	__shared__ float coldata[rows];
	coldata[rowid] = gpudtimg[globalid];//globalid 有问题 越界了？？
	__syncthreads();

	
	//一个线程 对共享内存的数据进行一维距离变换
	__shared__ float coldataresult[rows];
	if (rowid == 0)
	{
		dt1dimgpu(coldata, coldataresult);
	}
	__syncthreads();

	//block内所有线程合作，将共享内存的距离变换结果搬到全局某列
	colpassimg[globalid]= coldataresult[rowid];
}


/*
然后对colpassimg所有行完成一次扫描
500x1216的图像，那么实际使用500个线程就够了,每个block内1024个线程
每个grid里有 500个blocks
*/
__global__ void dtrowpass(float *colpassimg, float *rowpassimg)
{
	const int rows = 500;
	const int cols = 1216;
	
	//block内所有线程合作，完成一行从全局搬运到共享内存
	__shared__ float rowdata[cols];
	int tid = threadIdx.x;
	while (tid < cols)
	{
		int thid = tid + cols*blockIdx.y;
		rowdata[tid] = colpassimg[thid];
		tid += blockDim.x;
	}
	__syncthreads();

	tid = threadIdx.x;
	//一个线程 对共享内存的数据进行一维距离变换
	__shared__ float rowdataresult[cols];
	if (tid == 0)
	{
		dt1dimrowgpu(rowdata, rowdataresult);
	}
	__syncthreads();

	//block内所有线程合作，将共享内存的距离变换结果搬到全局某行
	while (tid < cols)
	{
		int thid = tid + cols*blockIdx.y;
		rowpassimg[thid]= rowdataresult[tid];
		tid += blockDim.x;
	}
}


/*
最后对图像结果每个数据开根号，得到最终结果
500x1216的图像，那么实际使用500x1216个线程就够了,每个block内608x1
每个grid里有 2x500个blocks
*/
__global__ void dtsqrt(float *rowpassimg, float *dtresult)
{
	int rows = 500;
	int cols = 1216;
	int idx = blockIdx.x*blockDim.x + threadIdx.x;
	int idy = blockIdx.y*blockDim.y + threadIdx.y;
	int imgid = idy*cols + idx;
	
	float tmpsquare = rowpassimg[imgid];
	dtresult[imgid] = sqrt(tmpsquare);
} 
  cudaMalloc((void**)&dev_preparedt, imgsizes.rows*imgsizes.cols * sizeof(float));
		dim3 preparegrids(2, 500);
		preparefordt << > >(dev_img, dev_preparedt);
		cudaDeviceSynchronize();
		
		float *dev_colpassimg = 0;
		cudaMalloc((void**)&dev_colpassimg, imgsizes.rows*imgsizes.cols * sizeof(float));
		dim3 colgrids(2, 608);
		dtcolpass << > > (dev_preparedt, dev_colpassimg);
		cudaDeviceSynchronize();
		cudaFree(dev_preparedt);
		
		float *dev_rowpassimg = 0;
		cudaMalloc((void**)&dev_rowpassimg, imgsizes.rows*imgsizes.cols * sizeof(float));
		dim3 rowgrids(1, 500);
		dtrowpass << > > (dev_colpassimg, dev_rowpassimg);
		cudaDeviceSynchronize();
		cudaFree(dev_colpassimg);

		float *dev_dtresult = 0;
		cudaMalloc((void**)&dev_dtresult, imgsizes.rows*imgsizes.cols * sizeof(float));
		dtsqrt << > > (dev_rowpassimg, dev_dtresult);
		cudaDeviceSynchronize();
		cudaFree(dev_rowpassimg); 
  这个耗时太长，然后我又改写了一个版本： 
  //up to down, down to up
__device__ void likedt1dimvec(uchar *dim1data, uchar *dim1result)
{
	int length = 500;
	for (int i = 1; i != length; i++)
	{
		if (dim1data[i] > 0)
		{
			dim1result[i] = dim1data[i] + dim1result[i - 1];
		}
	}
}

//left to right , right to left
__device__ void likedt1dimhor(uchar *dim1data, uchar *dim1result)
{
	int length = 1216;
	for (int i = 1; i != length; i++)
	{
		if (dim1data[i] > 0)
		{
			dim1result[i] = dim1data[i] + dim1result[i - 1];
		}
	}
}


/*
然后对colpassimg所有行完成一次从左到右扫描
500x1216的图像，那么实际使用500个线程就够了,每个block内1024个线程
每个grid里有 500个blocks
*/
__global__ void likedtleftrightpass0(uchar *colpassimg, uchar *leftright)
{
	const int rows = 500;
	const int cols = 1216;

	//block内所有线程合作，完成一行从全局搬运到共享内存
	__shared__ uchar rowdata[cols];
	int tid = threadIdx.x;
	while (tid < cols)
	{
		int thid = tid + cols*blockIdx.y;
		rowdata[tid] = colpassimg[thid];
		tid += blockDim.x;
	}
	__syncthreads();

	tid = threadIdx.x;
	//一个线程 对共享内存的数据进行一维距离变换
	__shared__ uchar rowdataresult[cols];
	if (tid == 0)
	{
		likedt1dimhor(rowdata, rowdataresult);
	}
	__syncthreads();

	//block内所有线程合作，将共享内存的距离变换结果搬到全局某行
	while (tid < cols)
	{
		int thid = tid + cols*blockIdx.y;
		leftright[thid] = rowdataresult[tid];
		tid += blockDim.x;
	}
}



/*
然后对colpassimg所有行完成一次从右到左扫描
500x1216的图像，那么实际使用500个线程就够了,每个block内1024个线程
每个grid里有 500个blocks
*/
__global__ void likedtrightleftpass0(uchar *colpassimg, uchar *rightleft)
{
	const int rows = 500;
	const int cols = 1216;

	//block内所有线程合作，完成一行从全局搬运到共享内存
	__shared__ uchar rowdata[cols];
	int tid = threadIdx.x;
	while (tid < cols)
	{
		int thid = tid + cols*blockIdx.y;
		rowdata[cols-1-tid] = colpassimg[thid];
		tid += blockDim.x;
	}
	__syncthreads();

	tid = threadIdx.x;
	//一个线程 对共享内存的数据进行一维距离变换
	__shared__ uchar rowdataresult[cols];
	if (tid == 0)
	{
		likedt1dimhor(rowdata, rowdataresult);
	}
	__syncthreads();

	//block内所有线程合作，将共享内存的距离变换结果搬到全局某行
	while (tid < cols)
	{
		int thid = tid + cols*blockIdx.y;
		rightleft[thid] = rowdataresult[cols-1-tid];
		tid += blockDim.x;
	}
}



/*
然后对gpudtimg所有列完成一次从上到下扫描
500x1216的图像，那么实际使用1216个线程就够了,每个block内1x500个线程
每个grid里有 2x608个blocks
*/
__global__ void likedtupdownscan0(uchar *gpudtimg, uchar *updownpassimg)
{
	const int rows = 500;
	const int cols = 1216;
	int id = blockIdx.y*gridDim.x + blockIdx.x;
	int rowid = threadIdx.x;
	int globalid = id + cols*rowid;

	//block内所有线程合作，完成一列从全局搬运到共享内存
	__shared__ uchar coldata[rows];
	coldata[rowid] = gpudtimg[globalid];
	__syncthreads();


	//一个线程 对共享内存的数据进行一维距离变换
	__shared__ uchar coldataresult[rows];
	if (rowid == 0)
	{
		likedt1dimvec(coldata, coldataresult);
	}
	__syncthreads();

	//block内所有线程合作，将共享内存的距离变换结果搬到全局某列
	updownpassimg[globalid] = coldataresult[rowid];
}




/*
然后对gpudtimg所有列完成一次从下到上扫描
500x1216的图像，那么实际使用1216个线程就够了,每个block内1x500个线程
每个grid里有 2x608个blocks
*/
__global__ void likedtdownupscan0(uchar *gpudtimg, uchar *downuppassimg)
{
	const int rows = 500;
	const int cols = 1216;
	int id = blockIdx.y*gridDim.x + blockIdx.x;
	int rowid = threadIdx.x;
	int globalid = id + cols*rowid;

	//block内所有线程合作，完成一列从全局搬运到共享内存
	__shared__ uchar coldata[rows];
	coldata[rows-1-rowid] = gpudtimg[globalid];
	__syncthreads();


	//一个线程 对共享内存的数据进行一维距离变换
	__shared__ uchar coldataresult[rows];
	if (rowid == 0)
	{
		likedt1dimvec(coldata, coldataresult);
	}
	__syncthreads();

	//block内所有线程合作，将共享内存的距离变换结果搬到全局某列
	downuppassimg[globalid] = coldataresult[rows-1-rowid];
}

/*
最后对图像结果每个数据开根号，得到最终结果
500x1216的图像，那么实际使用500x1216个线程就够了,每个block内608x1
每个grid里有 2x500个blocks
*/
__global__ void likedtresult(uchar *updown, uchar *downup, uchar *leftright, uchar *rightleft, uchar *dtresult)
{
	int rows = 500;
	int cols = 1216;
	int idx = blockIdx.x*blockDim.x + threadIdx.x;
	int idy = blockIdx.y*blockDim.y + threadIdx.y;
	int imgid = idy*cols + idx;

	uchar udvalue = updown[imgid];
	uchar minvalue = udvalue;
	uchar duvalue = downup[imgid];
	if (minvalue > duvalue)
	{
		minvalue = duvalue;
	}
	uchar lrvalue = leftright[imgid];
	if (minvalue > lrvalue)
	{
		minvalue = lrvalue;
	}
	uchar rlvalue = rightleft[imgid];
	if (minvalue > rlvalue)
	{
		minvalue = rlvalue;
	}

	dtresult[imgid] = minvalue;
} 
  但是这个版本的时间还是无法接受要34ms左右。最后我又在此基础上将本来一个线程处理共享内存中的数据，变成多个线程去处理，现在时间已比CPU版本（10~11）快。 
  这是现在这个版本的时间。 
  另一个核函数即图像膨胀，我测试了一下CUDA版本和我想的一样提速很多很多，而且测试结果与opencv版本图像膨胀结果一致。 
  三、分水岭 
  我要使用基于距离变换标记的分水岭，看了下opencv的这个版本的源码，终于看懂了。依赖性很强而且使用了链表动态取出--存放--取出，不是那么好并行啊。 
  我刚刚找到Nvidia NPP提供的watershedSegment的API，它是基于CA分水岭实现的https://docs.nvidia.com/cuda/npp/group__image__filter__watershed__segmentation.html，https://github.com/NVIDIA/CUDALibrarySamples/tree/master/NPP/watershedSegmentation Nvidia官方上个月才更新。每次查这些资料的时候，总会对我们自己失望，在技术方面与国际接轨还是太慢了，知识的更新落后了很多。问一堆CUDA或图像相关的群里，或查国内一些网站，都有这个感觉。 
  NPP中关于分水岭与连通域标记都是需要CUDA11.0支持的，而我的电脑不是，所以我真的很想看明白那篇论文自己实现，再看看吧。
   
  四、《CUDA C编程权威指南》 
  买的书终于到了，看前三章，我终于知道为什么之前代码一样，设置不同的grid block性能差别很大了，因为我没有遵循其设置规则，比如block内线程不能太少.... 
   
  另外看到交错规约的设计改进，再一次发现设计思路真的很重要。右边的设计只需一个block，而且第一次时block内的所有线程都活跃，第二次时活跃线程也比左边这种多一倍。

双一流软件工程大二听闻 Java 前景堪忧，是否该转C++或人工智能或者读研？程序员yt java c++人工智能
今天给大家分享的是一位粉丝的提问，双一流软件工程大二听闻Java前景堪忧，是否该转C++或人工智能或者读研？接下来把粉丝的具体提问和我的回复分享给大家，希望也能给一些类似情况的小伙伴一些启发和帮助。同学提问：yt老师好，我是双一流软件工程的大二学生，一直在学习java方向，目前掌握了数据库，spring框架等内容，大一暑假在老家一个小公司找了段实习，有蓝桥杯java组b组国一，专业排名前2（保研名
Effective Modern C++ 条款6：auto推导若非己愿，使用显式类型初始化惯用法举个栗子2 Effective Modern C++c++
更多C++学习笔记，关注wx公众号：cpp读书笔记Item6:Usetheexplicitlytypedinitializeridiomwhenautodeducesundesiredtypes在Item5中解释了比起显式指定类型使用auto声明变量有若干技术优势，但是有时当你想向左转auto却向右转。举个例子，假如我有一个函数，参数为Widget，返回一个std::vector，这里的bool表
Python, C ++开发家庭开支 Geeker-2025 python c++
开发一款**家庭开支数字化记录与结算App**是一个非常有意义的项目，旨在帮助家庭用户高效管理开支、记录消费、分析财务状况，并提供结算和预算管理功能。以下是基于**Python**和**C++**的开发方案，结合两者在数据处理、实时通信和系统开发中的优势。---##1.**项目需求分析**家庭开支数字化记录与结算App的核心功能包括：1.**用户管理**：-用户注册、登录，支持家庭成员管理。2.*
MongoDB z小天才b MongoDB mongodb 数据库
一、MongoDB简介1.1什么是MongoDB？MongoDB是一个基于分布式文件存储的开源NoSQL数据库系统，由C++语言编写，旨在为Web应用提供可扩展的高性能数据存储解决方案。MongoDB将数据存储为一个文档，数据结构由键值对组成，类似于JSON对象，字段值可以包含其他文档、数组及文档数组。1.2MongoDB的核心特性文档型数据库：数据以BSON（BinaryJSON）格式存储灵活的
C++从入门到实战（六）类和对象（第二部分）C++成员对象及其实例化，对象大小与this详解珹洺 C++学习之旅 c++java 开发语言数据结构 sql 汇编算法
C++从入门到实战（六）类和对象（第二部分）C++成员对象及其实例化，对象大小与this详解前言一、类和对象里面成员变量，成员函数是什么1.1成员变量1.2成员函数1.3成员变量、成员函数与局部变量的对比二、类的实例化2.1什么是实例化，实例化的概念2.2类的实例化过程1.类的定义2.实例化对象3.初始化对象4.访问对象的成员函数三、对象大小类对象大小计算示例四、this指针4.1this的原理4
C++有哪些高级特性值得学习？ c++
C++是一种功能丰富且复杂的编程语言，其中许多高级特性可以帮助开发者编写更高效、更安全、更灵活的代码。以下是一些值得深入学习的C++高级特性：模板编程（Templates）模板是C++中实现泛型编程的核心机制，允许开发者编写与数据类型无关的代码。模板函数cpp复制templateTmax(Ta,Tb){return(a>b)?a:b;}优点：模板函数可以处理多种数据类型，避免了代码重复。应用场景：
流浪地球 - 华为OD机试真题(E卷、C++) 什码情况华为od c++算法数据结构面试机试
针对刷题难，效率慢，我们提供一对一算法辅导，针对个人情况定制化的提高计划（全称1V1效率更高）。有兴趣的同学可以扫码添加我们的微信（code5bug）了解，免费试课一下。题目描述流浪地球计划在赤道上均匀部署了N个转向发动机，按位置顺序编号为0~N。1).初始状态下所有的发动机都是未启动状态;2).发动机启动的方式分为”手动启动”和”关联启动”两种方式;3).如果在时刻1一个发动机被启动，下一个时刻
CLR中的类型转换 qzy0621 C#C++笔记 c++c#
CLR中的类型转换字符串类型转换容器类型转换自定义类型相互转换项目设置CLR（CommonLanguageRuntime，公共语言运行时）是微软.NET框架的核心组件，是微软对CLI标准的具体实现，负责管理和执行托管代码，提供跨语言互操作性、内存管理、安全性等关键服务CLR的类型转换机制是.NET框架中实现类型安全与多语言互操作的核心功能之一若调试不能命中，可参考C#通过CLR调用C++代码无法命
【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解
c++ 红黑树 gezhengxu2024 教程 c++开发语言 c++
红黑树（Red-BlackTree）是一种自平衡的二叉查找树，它是由节点的颜色和结构性质来维持平衡的。红黑树的形成可以追溯到1972年，由RudolfBayer提出，并由Guibas和Sedgewick进一步完善。红黑树的作用主要在于提供高效的插入、删除和查找操作。它通过保持以下五个性质来实现平衡：每个节点是红色或黑色。根节点是黑色。每个叶子节点（NIL节点）是黑色。如果一个节点是红色，那么它的两
GPU计算的历史与CUDA编程入门己见明 GPU计算 CUDA C 数据并行性 CUDA程序结构向量加法内核
GPU计算的历史与CUDA编程入门背景简介GPU计算的历史可以追溯到早期的并行计算研究，如今已发展成为计算机科学中的一个重要分支。本文将探讨GPU计算的发展史，重点分析《ComputerGraphics:PrinciplesandPractice》等关键文献，以及CUDAC编程模型的引入及其对现代软件开发的影响。历史回顾回顾历史，GPU计算的发展始于1986年Hillis与Steele在《Comm
GTC 2025 中文在线解读扫地的小何尚人工智能 NVIDIA GPU 深度学习机器学习
GTC2025中文在线解读｜CUDA最新特性与未来[WP72383]NVIDIAGTC大会火热进行中，一波波重磅科技演讲让人应接不暇，3月24日，NVIDIA企业开发者社区邀请KenHe、YipengLi两位技术专家，面向开发者，以中文深度拆解GTC2025四场重磅开发技术相关会议，直击AI行业应用痛点，破解前沿技术难题!作为GPU计算领域的基石，CUDA通过其编程语言、编译器、运行时环境及核心库
『 C++ 』线程与原子操作：高效并发编程的利器锐策 C++多线程 c++开发语言
文章目录为什么使用C++线程一、`C++11`std::thread`类的简单介绍1.1函数名与功能1.2`std::thread`类的简单介绍1.3线程函数参数二、线程同步与锁2.1线程同步与锁2.2死锁演示三、原子操作3.1原子操作与线程安全3.2原子操作的优势3.3CAS操作与自旋锁3.4原子操作与普通操作的汇编对比四、共享资源的线程安全问题4.1`std::shared_ptr`的线程安全
c++ Templates Guide Benny.LIU c++template
c++TemplatesGuide前言FunctionTemplatesClassTemplatesNontypeTemplateParametersTrickyBasicsUsingTemplatesinPracticeBasicTemplateTerminology前言Typeparametersareintroducedwitheitherthekeywordtypenameorthekey
C++ 各种map对比越甲八千【道阻且长C++】c++哈希算法开发语言
文章目录特点比较1.`std::map`2.`std::unordered_map`3.`std::multimap`4.`std::unordered_multimap`5.`hash_map`（SGISTL扩展）C++示例代码代码解释特点比较1.std::map底层实现：基于红黑树（一种自平衡的二叉搜索树）。元素顺序：元素按照键（key）的升序排列。键的唯一性：每个键只能出现一次，插入重复键的
英伟达消费级RTX显卡配置表真相很简单识别算法网络 rtx nvidia 英伟达游戏显卡
显卡型号显存大小显存频率显存位宽显存带宽CUDA核心数TDP（功耗）上市年份RTX409024GB21Gbps384-bit1,008GB/s16,384450W2022RTX4080(16GB)16GB22.4Gbps256-bit716.8GB/s9,728320W2022RTX4080(12GB)12GB21Gbps192-bit504GB/s7,680285W2023RTX4070Ti12
单调栈详解【C/C++】ん贤算法单调栈算法 c++数据结构贪心算法
前言：了解过单调队列后，你会发现单调栈的思想其实挺简单...当然前提是要了解一下什么是栈(stack)。看待一个问题，从不同角度，也许能有不同的收获。在数学家眼中，单调栈本质上是一个严格或非严格维护的单调递增或单调递减的数学结构。其核心在于动态的维护动态递增或递减的有序关系。而对于算法工程师，他们首先关注单调栈的核心优势：O(n)的时间复杂度。在需要遍历序列，并纪录极值的情况下（如接雨水、每日温度
Windows配置opencv详细教程吃旺旺雪饼的小男孩环境配置 windows opencv 人工智能计算机视觉
Windows配置opencv1.安装CMakeCMake安装步骤：2.安装VisualStudioVisualStudio安装步骤：3.下载OpenCV源码下载步骤：4.配置OpenCV使用CMake4.1.配置CMakeGUI4.2.配置选项5.使用VisualStudio编译OpenCV5.1.打开VisualStudio项目5.2.编译OpenCV6.配置开发环境（VisualStudio
【C++】C++类梵刹古音 C++学习笔记 c++开发语言
文章目录面向对象程序设计思想类概述类的声明与定义类的实现对象的声明面向对象程序设计思想面向对象是一种符合人类思维习惯的程序设计思想。现实生活中存在各种形态不同的事物，这些事物之间存在着各种各样的联系。在程序中使用对象映射现实中的事物，利用对象之间的关系描述事物之间的联系，这种思想就是面向对象。面向过程是分析出解决问题所需要的步骤，然后用函数把这些步骤一一实现，使用的时候依次调用就可以了。面向对象不
C++回顾 day2 星夜982 C++回顾算法数据结构 c++
可以对指针进行引用，但是不存在引用的引用inta;int*p=&a;int*&rp=p;//此时rp是一个地址，要改变p的值要么*rp=XXX;//要么rp=&XXX;int&ra=a;int&&rra=ra;//这是不对的int&rra=ra;//也不能叫作引用的引用，因为rra也是a的引用可以对指针再取指针，但是不能对引用取指针inta;int&ra=a;int*p=&a;int**xp=&p
C++避坑指南-数组越界飞天赤狐 C++避坑指南 c++
问题场景在访问数组时没有判断数组size,导致访问的索引号超过了数组size产生访问越界，程序出现异常行为示例代码实际情况比较多,我们来展开说明下原生数组访问越界#includeusingnamespacestd;voidArrayOut(){inta[]={23,33,1,32,5,9,10};for(inti=0;ia({23,33,1,32,5,9,10});for(inti=0;iempt
【绝对有用】C++ 数组越界和并查集 fighting的码农(zg)-GPT C++c++算法开发语言数据结构
遇到了一个地址越界错误（heap-buffer-overflow），通常这是因为程序试图读取或写入超过分配给缓冲区的内存空间。根据AddressSanitizer的错误报告，问题出现在您的Solution::longestConsecutive函数中，位于solution.cpp文件的第17行。下面是一些调试和解决这个问题的步骤：识别问题代码：错误报告显示问题发生在Solution::longes
动态数组索引越界问题 Caroline0071 C++基础知识动态数组索引越界 vector
1、在C++中，可以采用几种不同的方法创建一个某种类型T的对象的数组。3种常用的方法如下：#defineN10//数组的长度N在编译时已知Tstatic_array[10];intn=20;//数组的长度n是在运行时计算的T*dynamic_array=newT[n];std::vectorvector_array;//数组的长度可以在运行时进行修改当然，我们仍然可以使用calloc()和mall
c++类和对象(中篇)上朽棘不雕 c++学习 c++开发语言
在上一篇博客中学习了一些类和对象的基础,下面让我们一起来看看这部分比较难以理解的重点部分吧.在中篇我主要学习了默认成员函数以及其中包含的运算符重载.在这篇中主要分享下默认成员函数的前三个.赋值函数以及其中包含的运算符重载的知识见下.类和对象的默认成员函数默认成员函数就是指在一个类中,就算用户没有显示实现,编译器也会自动生成的成员函数.在一个类中,编译器会默认生成6个成员函数.分别是构造函数,析构函
MDK（Keil μVision 5）的编译过程及文件类型全解 froxy 工具 arm stm32
MDK（KeilμVision5）的编译过程及文件类型全解一、编译过程MDK的编译过程主要分为预处理、编译、汇编、链接、生成可执行文件、格式转换六个阶段。以下是详细流程：预处理（Preprocessing）工具:armcc（ARMC/C++编译器）输入文件:.c（C源文件）、.h（头文件）输出文件:.i（预处理后的临时文件，默认不保存）作用:展开宏、处理条件编译指令（如#ifdef）、合并头文件到
【C++】——精细化哈希表架构：理论与实践的综合分析 m0_74825238 面试学习路线阿里巴巴 c++散列表架构 java
先找出你的能力在哪里，然后再决定你是谁。——塔拉·韦斯特弗《你当像鸟飞往你的山》目录1.C++与哈希表：核心概念与引入2.哈希表的底层机制：原理与挑战2.1核心功能解析：效率与灵活性的平衡2.2哈希冲突的本质：问题与应对策略2.3开散列与闭散列：两大解决方案的比较3.闭散列的精确实现：从设计到优化3.1整体框架设计：面向扩展的架构3.2仿函数的灵活性：高效哈希的关键3.3插入操作：冲突检测与位置分
Microsoft Visual C++ Redistributable 各版本安装包合集 Eric Woo X C++Windows microsoft c++开发语言
MicrosoftVisualC++Redistributable2019x86:https://aka.ms/vs/16/release/VC_redist.x86.exex64:https://aka.ms/vs/16/release/VC_redist.x64.exeMicrosoftVisualC++Redistributable2017x86:https://go.microsoft.c
C++多线程苜柠 C++c++
线程：async和thread锁：C++11中的std::atomic和std::mutex推荐文章：C++11多线程（std::thread）详解_c++11线程使用-CSDN博客c++标准库多线程-云山漫卷-博客园std::lock_guard是一个RAII风格的简单的锁管理器，它在构造时自动加锁，在析构时自动解锁。#include#include#include#includestd::mu
Qt for WebAssembly程序中文乱码问题处理过程 muren Qt c++qt wasm 开发语言
一、环境操作系统DeepinV23Qt版本6.8.2编程语言C++二、问题现象QtforWebAssembly应用在浏览器页面上英文字母显示正常，中文显示为乱码。经测试分析原因为默认字体不能正常显示汉字。三、处理过程1.准备中文字体文件从Windows下复制宋体简体字体文件。C:\Windows\Fonts\simsun.ttc2.添加资源文件resources.qrcsimsun.ttc3.Qt
C++中函数模板与类模板的简单使用 CoderIsArt C++11 c++函数模板类模板
在C++中，模板是实现泛型编程的核心机制，允许开发者编写与类型无关的代码。以下是函数模板和类模板的详细介绍及实际示例。一、函数模板定义函数模板通过参数化类型实现泛型操作，只需编写一次代码即可处理多种数据类型，避免重复。语法template返回类型函数名(参数列表){...}typenameT表示类型占位符，编译时根据实参类型自动实例化。真实示例‌交换两个值（swap）templatevoidswa
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin

cv::cuda与CUDA的NPP库、距离变换和分水岭并行版本尝试

你可能感兴趣的:(C++,CUDA,opencv)