DU_YULIN

CUDA C编程10:核函数可达到的带宽

系列文章目录

文章目录

系列文章目录
前言
一、理论知识
二、案例分享
- 2.1 朴素转置
- 2.2 展开转置
- 2.3 对角转置
- 2.4 通过瘦块方法来增加并行性
- 2.5 完整代码：
总结
参考资料

前言

忙里偷闲，继续学习CUDA C编程，今天开始学习核函数的带宽的相关知识点，提高性能。

一、理论知识

分析核函数性能时，要注意以下两点：
（1）内存延迟：完成一次内存请求的时间；
（2）内存带宽：SM访问设备内存的速度，以每单位时间内的字节数来度量。

之前了解的改进核函数性能的方法有两种：
（1）通过最大化并行线程束执行数来隐藏内存延迟，这主要是通过维持更多正在执行的内存访问来达到更好的总线利用率。
（2）通过适当的对齐和合并内存访问来最大化内存带宽效率。

在一个原本不好的访问模式下，如何设计核函数来实现良好的性能就是本节要介绍的内容。

大多数核函数都有内存带宽的限制，因此在调整核函数时要格外注意内存带宽的指标。

影响带宽的因素有两个：
（1）全局内存中数据的安排方式
（2）线程束访问数据的方式

带宽的类型有两种：
（1）理论带宽：当前硬件的绝对最大带宽。
（2）有效带宽：核函数实际可达到的带宽
$有效带宽（GB/s）=\frac{（读字节数+写字节数）\times 10^{-9})}{运行时间}$

二、案例分享

这里以矩阵转置为例介绍测量和调整核函数的有效带宽。

矩阵转置就是将矩阵的行与列交换。

主机上实现矩阵转置函数实现代码片段如下：

void transposeHost(float* out, float* in, const int nx,
	const int ny)
{
	for (int iy = 0; iy < ny; iy++)
	{
		for (int ix = 0; ix < nx; ix++)
		{
			out[ix*ny + iy] = in[iy*nx + ix];
		}
	}
}

用一维数组保存二维矩阵，
（1）读：通过原矩阵的行进行访问，结果为合并访问；
（2）写：通过转置矩阵的列进行访问，结果为交叉访问；

交叉访问是GPU性能最差的内存访问模式，但在矩阵转置中不可避免。这里介绍两种转置核函数提高带宽利用率：
（1）按行读取，按列存储；
（2）按列读取，按行存储；

如果禁用一级缓存加载，上述两种实现性能相同；如果启用一级缓存，那么方法（2）性能会更好。

为什么启动一级缓存，方法（2）性能更好呢？
按列读取操作是不合并的（因此带宽会浪费在未被请求的字节上），将这些额外的字节存入一级缓存意味着下一个读操作可能会在缓存上执行而不在全局内存上执行。因为写操作不在一级缓存中缓存，所以对按列执行写操作而言，任何缓存都没有意义。个人理解，按列读取，可以利用一级缓存提高交叉访问的性能，按行存储，可以利用合并访问提高存储的效率。

利用两个拷贝核函数可以粗略计算所有转置核函数性能的上下限：
（1）通过加载（读）和存储（写）行来实现拷贝矩阵的上限（最高效率），只能使用合并访问；

//the highest efficiency about transpose matrix
__global__ void copyRow(float* out, float* in, const int nx,
	const int ny)
{
	unsigned int ix = threadIdx.x + blockIdx.x * blockDim.x;
	unsigned int iy = threadIdx.y + blockIdx.y * blockDim.y;

	if (ix < nx && iy < ny)
	{
		out[iy*nx + ix] = in[iy*nx + ix];
	}
}

（2）通过加载（读）和存储（写）列来实现拷贝矩阵的下限（最低效率），只能使用交叉访问；

//the lowest efficiency about transpose matrix
__global__ void copyCol(float* out, float* in, const int nx,
	const int ny)
{
	unsigned int ix = threadIdx.x + blockIdx.x * blockDim.x;
	unsigned int iy = threadIdx.y + blockIdx.y * blockDim.y;

	if (ix < nx && iy < ny)
	{
		out[ix*ny + iy] = in[ix*ny + iy];
	}
}

2.1 朴素转置

朴素转置就是将CPU上执行的按行与按列转置函数转换为设备函数：

__global__ void transposeNaiveRow(float* out, float* in, const int nx, const int ny)
{
	unsigned int ix = threadIdx.x + blockDim.x * blockIdx.x;
	unsigned int iy = threadIdx.y + blockDim.y * blockIdx.y;
	if (ix < nx && iy < ny)
	{
		out[ix * ny + iy] = in[iy * nx + ix];
	}
}

__global__ void transposeNaiveCol(float* out, float* in, const int nx, const int ny)
{
	unsigned int ix = threadIdx.x + blockDim.x * blockIdx.x;
	unsigned int iy = threadIdx.y + blockDim.y * blockIdx.y;
	if (ix < nx && iy < ny)
	{
		out[iy * nx + ix] = in[ix * ny + iy];
	}
}

2.2 展开转置

利用展开技术来提高转置内存带宽利用率，展开的目的是为每个线程分配更独立的任务，从而最大化当前内存请求。

// unroll transpose
__global__ void transposeUnroll4Row(float* out, float* in,
	const int nx, const int ny)
{
	unsigned int ix = threadIdx.x + blockDim.x * blockIdx.x * 4;
	unsigned int iy = threadIdx.y + blockDim.y * blockIdx.y;

	unsigned int ti = iy * nx + ix;
	unsigned int to = ix * ny + iy;

	if (ix + 3 * blockDim.x < nx && iy < ny)
	{
		out[to] = in[ti];
		out[to + ny * blockDim.x] = in[ti + blockDim.x];
		out[to + 2 * ny*blockDim.x] = in[ti + 2 * blockDim.x];
		out[to + 3 * ny*blockDim.x] = in[ti + 3 * blockDim.x];
	}
}

__global__ void transposeUnroll4Col(float* out, float* in,
	const int nx, const int ny)
{
	unsigned int ix = threadIdx.x + blockDim.x * blockIdx.x * 4;
	unsigned int iy = threadIdx.y + blockDim.y * blockIdx.y;

	unsigned int ti = iy * nx + ix;
	unsigned int to = ix * ny + iy;

	if (ix + 3 * blockDim.x < nx && iy < ny)
	{
		out[ti] = in[to];
		out[ti + blockDim.x] = in[to + blockDim.x*ny];
		out[ti + 2 * blockDim.x] = in[to + 2 * blockDim.x * ny];
		out[ti + 3 * blockDim.x] = in[to + 3 * blockDim.x*ny];
	}
}

2.3 对角转置

当启用一个线程块网格时，线程块被分配给SM。每个线程块都有其唯一标识符 $b i d$ ，可用网格中线程块按行优先顺序计算：
$b i d = b l o c k I d x . y * g r i d D i m . x + b l o c k I d x . x$
当启用一个核函数时，线程块被分配给SM的顺序由 $b i d$ 决定。由于线程块完成的速度和顺序是不确定的，随着内核进程的执行，起初通过 $b i d$ 相连的活跃线程块会变得不连续。

上图对角坐标需要映射到笛卡尔坐标中，以便访问到正确的数据块，映射公式如下：
$block\_x = (blockIdx.x+blockIdx.y)%gridDim.x$
$block\_y = blockIdx.x$
上式中 $b l o c k I d x . x, b l o c k I d x . y$ 表示对角坐标。

通过使用对角坐标系修改线程块的执行顺序，使得基于行的核函数性能得到提升。这种提升与DRAM并行访问有关，发送给全局内存的请求由DRAM分区完成。设备内存中连续的256字节区域被分配到连续分区。当使用笛卡尔坐标将线程块映射到数据块时，全局内存访问可能无法均匀地被分配到整个DRAM分区中，这时可能发生“分区冲突”。发生分区冲突是，内存请求在某些分区排队等候，另一些分区则一直未被调用。因为对角坐标映射造成线程块到待处理数据块的非线程映射，所以交叉访问不太可能落入到一个独立的分区中，会带来性能提升。

对最佳性能来说，被所有活跃的线程束并发访问的全局内存应该在分区中被均匀地划分。
下图笛卡尔坐标出现分区冲突，假设通过两个分区访问全局内存，每个分区256字节，如果每个数据块为128字节，则需要两个分区为第0,1,2,3个线程块加载数据。但现在只能使用一个分区为第0,1,2,3,个线程块存储数据，造成了分区冲突。

下图采用对角坐标，使用两个分区为第0,1,2，3个线程块加载和存储数据，加载和存储请求在两个分区间被均匀分配。


//Diagonal transpose
__global__ void transposeDiagonalRow(float* out, float* in,
	const int nx, const int ny)
{
	unsigned int blk_y = blockIdx.x;
	unsigned int blk_x = (blockIdx.x + blockIdx.y) % gridDim.x;

	unsigned int ix = blockDim.x * blk_x + threadIdx.x;
	unsigned int iy = blockDim.y * blk_y + threadIdx.y;

	if (ix < nx && iy < ny)
	{
		out[ix * ny + iy] = in[iy * nx + ix];
	}
}

__global__ void transposeDiagonalCol(float* out, float* in,
	const int nx, const int ny)
{
	unsigned int blk_y = blockIdx.x;
	unsigned int blk_x = (blockIdx.x + blockIdx.y) % gridDim.x;

	unsigned int ix = blockDim.x * blk_x + threadIdx.x;
	unsigned int iy = blockDim.y * blk_y + threadIdx.y;

	if (ix < nx && iy < ny)
	{
		out[iy * nx + ix] = in[ix * ny + iy];
	}
}

2.4 通过瘦块方法来增加并行性

增加并行性最简单的方法就是调整块的大小，通过尝试不同块的大小来总结出最优的块大小。

2.5 完整代码：

#include 
#include 
#include 
#include 
#include 
#include 
#include "CudaUtils.h"

void transposeHost(float* out, float* in, const int nx,
	const int ny)
{
	for (int iy = 0; iy < ny; iy++)
	{
		for (int ix = 0; ix < nx; ix++)
		{
			out[ix*ny + iy] = in[iy*nx + ix];
		}
	}
}

//the highest efficiency about transpose matrix
__global__ void copyRow(float* out, float* in, const int nx,
	const int ny)
{
	unsigned int ix = threadIdx.x + blockIdx.x * blockDim.x;
	unsigned int iy = threadIdx.y + blockIdx.y * blockDim.y;

	if (ix < nx && iy < ny)
	{
		out[iy*nx + ix] = in[iy*nx + ix];
	}
}

//the lowest efficiency about transpose matrix
__global__ void copyCol(float* out, float* in, const int nx,
	const int ny)
{
	unsigned int ix = threadIdx.x + blockIdx.x * blockDim.x;
	unsigned int iy = threadIdx.y + blockIdx.y * blockDim.y;

	if (ix < nx && iy < ny)
	{
		out[ix*ny + iy] = in[ix*ny + iy];
	}
}

__global__ void warmup(float* d_C, float* d_A, const int nx,
	const int ny)
{

}

void checkResult(float* host, float* gpu, int size)
{
	for (int i = 0; i < size; i++)
	{
		if (abs(host[i] - gpu[i]) > 1e-5)
		{
			printf("Host and Gpu 's result is different!\n");
			return;
		}
	}

	printf("Host and Gpu 's result is same!\n");
}

//naive transpose
__global__ void transposeNaiveRow(float* out, float* in, const int nx, const int ny)
{
	unsigned int ix = threadIdx.x + blockDim.x * blockIdx.x;
	unsigned int iy = threadIdx.y + blockDim.y * blockIdx.y;
	if (ix < nx && iy < ny)
	{
		out[ix * ny + iy] = in[iy * nx + ix];
	}
}

__global__ void transposeNaiveCol(float* out, float* in, const int nx, const int ny)
{
	unsigned int ix = threadIdx.x + blockDim.x * blockIdx.x;
	unsigned int iy = threadIdx.y + blockDim.y * blockIdx.y;
	if (ix < nx && iy < ny)
	{
		out[iy * nx + ix] = in[ix * ny + iy];
	}
}

// unroll transpose
__global__ void transposeUnroll4Row(float* out, float* in,
	const int nx, const int ny)
{
	unsigned int ix = threadIdx.x + blockDim.x * blockIdx.x * 4;
	unsigned int iy = threadIdx.y + blockDim.y * blockIdx.y;

	unsigned int ti = iy * nx + ix;
	unsigned int to = ix * ny + iy;

	if (ix + 3 * blockDim.x < nx && iy < ny)
	{
		out[to] = in[ti];
		out[to + ny * blockDim.x] = in[ti + blockDim.x];
		out[to + 2 * ny*blockDim.x] = in[ti + 2 * blockDim.x];
		out[to + 3 * ny*blockDim.x] = in[ti + 3 * blockDim.x];
	}
}

__global__ void transposeUnroll4Col(float* out, float* in,
	const int nx, const int ny)
{
	unsigned int ix = threadIdx.x + blockDim.x * blockIdx.x * 4;
	unsigned int iy = threadIdx.y + blockDim.y * blockIdx.y;

	unsigned int ti = iy * nx + ix;
	unsigned int to = ix * ny + iy;

	if (ix + 3 * blockDim.x < nx && iy < ny)
	{
		out[ti] = in[to];
		out[ti + blockDim.x] = in[to + blockDim.x*ny];
		out[ti + 2 * blockDim.x] = in[to + 2 * blockDim.x * ny];
		out[ti + 3 * blockDim.x] = in[to + 3 * blockDim.x*ny];
	}
}

//Diagonal transpose
__global__ void transposeDiagonalRow(float* out, float* in,
	const int nx, const int ny)
{
	unsigned int blk_y = blockIdx.x;
	unsigned int blk_x = (blockIdx.x + blockIdx.y) % gridDim.x;

	unsigned int ix = blockDim.x * blk_x + threadIdx.x;
	unsigned int iy = blockDim.y * blk_y + threadIdx.y;

	if (ix < nx && iy < ny)
	{
		out[ix * ny + iy] = in[iy * nx + ix];
	}
}

__global__ void transposeDiagonalCol(float* out, float* in,
	const int nx, const int ny)
{
	unsigned int blk_y = blockIdx.x;
	unsigned int blk_x = (blockIdx.x + blockIdx.y) % gridDim.x;

	unsigned int ix = blockDim.x * blk_x + threadIdx.x;
	unsigned int iy = blockDim.y * blk_y + threadIdx.y;

	if (ix < nx && iy < ny)
	{
		out[iy * nx + ix] = in[ix * ny + iy];
	}
}




int main(int argc, char** argv)
{
	int dev = 0;
	cudaDeviceProp deviceProp;
	cudaGetDeviceProperties(&deviceProp, dev);
	printf("%s starting transpose at ", argv[0]);
	printf("device %d: %s ", dev, deviceProp.name);
	cudaSetDevice(dev);

	// set up array size 2048
	int nx = 1 << 11;
	int ny = 1 << 11;

	// select a kernel and block size
	int iKernel = 0;
	int blockx = 16;
	int blocky = 16;
	if (argc > 1)
		iKernel = atoi(argv[1]);
	if (argc > 2)
		blockx = atoi(argv[2]);

	if (argc > 3)
		blocky = atoi(argv[3]);
	if (argc > 4)
		nx = atoi(argv[4]);
	if (argc > 5)
		ny = atoi(argv[5]);

	printf(" with matrix nx %d ny %d with kernel %d\n",
		nx, ny, iKernel);

	size_t nBytes = nx * ny * sizeof(float);

	//execute configuratioin
	dim3 block(blockx, blocky);
	dim3 grid((nx + block.x - 1) / block.x, (ny + block.y - 1) / block.y);

	//allocate host memory
	float* h_A = (float*)malloc(nBytes);
	float* hostRef = (float*)malloc(nBytes);
	float* gpuRef = (float*)malloc(nBytes);

	// initialize host array
	CudaUtils::Init::InitData(h_A, nx*ny);

	// transpose matrix at host side
	transposeHost(hostRef, h_A, nx, ny);

	//allocate device memory
	float* d_A, *d_C;
	cudaMalloc(&d_A, nBytes);
	cudaMalloc(&d_C, nBytes);

	//copy data from host to device
	cudaMemcpy(d_A, h_A, nBytes, cudaMemcpyHostToDevice);

	//warmup to avoid startup overhead
	CudaUtils::Time::Start();
	warmup << <grid, block >> > (d_C, d_A, nx, ny);
	cudaDeviceSynchronize();
	CudaUtils::Time::End();
	double iElaps = CudaUtils::Time::Duration<CudaUtils::Time::TIME_UNIT::MS>();
	printf("warmup\t\t elapsed %f sec\n", iElaps);

	void(*kernel)(float*, float*, const int, const int);
	char* kernelName;

	switch (iKernel)
	{
	case 0:
		kernel = &copyRow;
		kernelName = "copyRow";
		break;
	case 1:
		kernel = &copyCol;
		kernelName = "copyCol";
		break;

	case 2:
		kernel = &transposeNaiveRow;
		kernelName = "NaiveRow\t";
		break;
	case 3:
		kernel = &transposeNaiveCol;
		kernelName = "NaiveCol\t";
		break;

	case 4:
		kernel = &transposeUnroll4Row;
		kernelName = "Unroll4Row\t";
		break;
	case 5:
		kernel = &transposeUnroll4Col;
		kernelName = "Unroll4Col\t";
		break;

	case 6:
		kernel = &transposeDiagonalRow;
		kernelName = "DiagonalRow\t";
		break;
	case 7:
		kernel = &transposeDiagonalCol;
		kernelName = "DiagonalCol\t";
		break;
	}

	// run kernel
	CudaUtils::Time::Start();
	kernel << <grid, block >> > (d_C, d_A, nx, ny);
	cudaDeviceSynchronize();
	CudaUtils::Time::End();
	iElaps = CudaUtils::Time::Duration<CudaUtils::Time::TIME_UNIT::MS>();
	
	// calculate effective bandwidth
	float ibnd = 2 * nx*ny * sizeof(float) / 1e9 / iElaps;
	printf("%s elapsed %f sec <<>> "
		"effective bandwidth %f GB\n", kernelName, iElaps, grid.x,
		grid.y, block.x, block.y, ibnd);

	// check kernel results
	if (iKernel > 1)
	{
		cudaMemcpy(gpuRef, d_C, nBytes, cudaMemcpyDeviceToHost);
		checkResult(hostRef, gpuRef, nx*ny);
	}

	//free host and device memory
	cudaFree(d_A);
	cudaFree(d_C);

	free(h_A);
	free(hostRef);
	free(gpuRef);

	//reset device
	cudaDeviceReset();

	system("pause");
	return 0;
}

总结

这部分的内容信息量很大，有些部分的内容还是不太理解，比如对角转置提升性能方面，而且个人PC进行实验，结果也与预期不符，可能是数据量太小的关系，后面还需要继续深入理解。

参考资料

《CUDA C编程权威指南》

CUDA 编程入门（2）：CUDA 调度模型知识搬运工人 CUDA GPU CUDA
参考：CUDA编程入门（2）：CUDA编程模型-知乎(zhihu.com)CUDA调度模型Block调度Block对应的物理硬件概念是SM，也就是说SM负责block中线程的执行，SM会为每个block分配需求的资源，比如寄存器，共享内存等，由于SM自身资源有限，因此它被分配到的block数量也是有限的，这取决于block中线程的资源需求。当所有的SM都饱和之后，剩下的blocks将会被暂时挂起，
【CUDA编程笔记】如何使用CUDA统一内存来优化多进程多线程程序的性能？ qq2108462953 CUDA编程笔记笔记人工智能
如何使用CUDA统一内存来优化多进程多线程程序的性能？要使用CUDA统一内存优化多进程多线程程序的性能，可以采取以下步骤。理解统一内存统一内存是CUDA编程模型的一个组件，它定义了一个所有处理器都可访问的单一连贯内存映像，允许数据在CPU和GPU之间透明迁移，无需显式复制。使用cudaMallocManaged分配内存通过cudaMallocManaged分配的内存可以被CPU和GPU共同访问，从
ChatGPT引领的AI面试攻略系列：cuda和tensorRT 梦想的理由深度学习 c++chatgpt 人工智能面试
系列文章目录cuda和tensorRT（本文）AI全栈工程师文章目录系列文章目录一、前言二、面试题1.CUDA编程基础2.CUDA编程进阶3.性能优化4.TensorRT基础5.TensorRT进阶6.实际应用与案例分析7.编程与代码实践8.高级话题与趋势一、前言随着人工智能技术的飞速发展，该领域的就业机会也随之增多。无论是刚刚踏入这一领域的新手，还是经验丰富的专业人士，都可能面临着各种面试挑战。
[CUDA手搓]从零开始用C++ CUDA搭建一个卷积神经网络(LeNet)，了解神经网络各个层背后算法原理 Bartender_Jill Graphics图形学笔记神经网络 c++cnn 性能优化 vscode
文章目录前言一、所需环境二、实现思路2.1.定义了LeNet网络模型结构，并训练了20次2.2以txt格式导出训练结果(模型的各个层权重偏置等参数)2.3(可选)以pth格式导出训练结果，以方便后期调试2.4C++CUDA要做的事三、C++CUDA具体实现3.1新建.cu文件并填好框架3.2C++实现各网络层3.0CUDA编程核心思路3.1卷积层Conv13.2激活函数ReLu13.2池化层Max
CUDA编程学习笔记（三） HHHANG___ 学习笔记
本篇记录学习cuda的执行模式，主要有几个方面的内容：理解jetsonnano上的gpu架构；理解线程束执行的本质；分支化与避免分支化；展开循环；其他；一、理解jetsonnano的gpu架构这块内容在上一篇笔记中有学习到一些，本篇就进行一个补充和复习。jetsonnano上的gpu是Maxwell架构的，整个gpu上面只有一个SM（流多处理器）。该SM上包含128个处理核心，这128个计算核心被
Cuda编程注意小事项混元太极马保国 CUDA cuda c++
1、函数执行空间标识符用__global__修饰的函数称为核函数，般由主机调用,在设备中执行。如果使用动态并行，则也可以在核函数中调用自己或其他核函数。用__device__修饰的函数称为设备函数，只能被核函数或其他设备函数调用，在设备中执行。用__host__修饰的函数就是主机端的普通C++函数，在主机中被调用，在主机中执行。对于主机端的函数，该修饰符可省略。之所以提供这样一个修饰符，是因为有时
【GPU】GPU CUDA 编程的基本原理是什么? Hcoco_me GPU GPU CUDA
【GPU】GPUCUDA编程的基本原理是什么?作者：董鑫想学好CUDA编程,第一步就是要理解GPU的硬件结构,说到底,CUDA的作用就是最大程度压榨出NVIDIAGPU的计算资源.想要从零理解起来,还有有些难度.这里希望能够用最简单的方式把一些最基本的内容讲清楚.所以,本文以易懂性为主,牺牲了一些完全准确性.GPU结构这是GPU的基本结构.CUDA编程主打一个多线程thread.多个thread成
【cuda编程】CUDA的运行方式以及grid、block结构关系非晚非晚 GPU&CUDA c++c语言 CUDA GPU CPU
文章目录1.CUDA基础知识1.1程序基本运行顺序1.2grid与block1.3dim类型定义2.CUDA的第一个程序3.CUDA线程的组织结构——grid与block关系1.CUDA基础知识1.1程序基本运行顺序一般来说，一个cpu+gpu的程序运行如下所示：1.2grid与block从GPU至线程的关系依次为：显卡（GPU）->网格（grid）->线程块（block）->线程（thread）
CUDA编程- - GPU线程的理解 thread,block,grid - 再次学习 Nice_cool. Cuda与TensorRT 学习算法人工智能
GPU线程的理解thread,block,grid一、从cpu多线程角度理解gpu多线程1、cpu多线程并行加速2、gpu多线程并行加速2.1、cpu线程与gpu线程的理解（核函数）2.1.1、第一步：编写核函数2.1.2、第二步：调用核函数（使用内核函数）2.1.3、第三步：编写CMakeLists&编译代码二、重要概念&与线程索引的直观理解2.1、重要概念2.2、dim3与启动内核2.3、如何
CUDA笔记3 tensor.shape CUDA 笔记算法
CUDA编程-入门、加法、乘法例子1：入门#include__global__voidhello_from_gpu(){constintbid=blockIdx.x;constinttid=threadIdx.x;printf("Helloworldfromblock%dandthread%d!\n",bid,tid);}intmain(void){hello_from_gpu>>();cudaD
【CUDA】零基础入门教程合集 prinTao cuda c++
本系列用于cuda编程的基础入门，详细介绍各种相关技术。这是系列连载的入口，还可以关注我的专栏CUDA编程。基础知识篇一、基础知识threadgrid二、基础知识：内存管理同步三、矩阵相乘与coalescingwrites（合并写操作）四、基础概念：CacheTiled缓存分块技术五、基础概念：Coalescing合并用于内存优化性能分析与进阶使用vs分析性能：https://blog.csdn.
CUDA动态并行 m0_46521579 linux 运维服务器
一、简介1.综述动态并行是CUDA编程模型的扩展，使CUDA内核能够直接在GPU上创建新工作并与其同步。在程序中任何需要的地方动态创建并行性都提供了令人兴奋的功能。直接从GPU创建工作的能力可以减少在主机和设备之间传输执行控制和数据的需要，因为现在可以由在设备上执行的线程在运行时做出启动配置决策。此外，可以在运行时在内核内内联生成依赖于数据的并行工作，动态利用GPU的硬件调度程序和负载平衡器，并根
2.5 KERNEL FUNCTIONS AND THREADING 王莽v2 并行计算 CUDA
我们现在准备讨论更多关于CUDA内核功能以及启动这些内核功能的效果。在CUDA中，内核函数指定所有线程在并行阶段执行的代码。由于所有这些线程执行相同的代码，CUDA编程是众所周知的单程序多数据（SPMD）[Ata1998]并行编程风格的实例，这是一种大规模并行计算系统的流行编程风格。请注意，SPMD与SIMD（单指令多数据）不同[Flynn1972]。在SPMD系统中，并行处理单元在数据的多个部分
undefined reference to `cuInit‘ 鲤鱼不懂 tensorrt c++
最近在入门学习cuda编程，刚开始编译cuda就报错，在此记录一下错误信息与解决方案。源码#include#include#includeintmain(){//尝试初始化，是否成功CUresultcode=cuInit(0);std::cout<<"CUresultcode:"<
CUDA编程兔子牙丫丫 cuda编程深度学习人工智能 c语言
第一个程序：用GPU输出HelloWorld写一个CUDAC程序步骤用专用扩展名.cu来创建一个源文件使用CUDAnvcc编译器来编译程序从命令行运行可执行文件，这个文件有可在GPU上运行的内核代码hello.cu#include"../common/common.h"#include/**AsimpleintroductiontoprogramminginCUDA.Thisprogramprin
CUDA线程模型兔子牙丫丫 cuda编程深度学习神经网络人工智能
CUDA线程模型当核函数在主机端启动时，它的执行会移动到设备上，此时设备中会产生大量的线程并且每个线程都执行由核函数指定的语句。了解如何组织线程是CUDA编程的一个关键部分。CUDA明确了线程层次抽象的概念以便于你组织线程。这是一个两层的线程层次结构，由线程块和线程块网格构成，如图2-5所示。CUDA可以组织三维的网格和块。图2-5展示了一个线程层次结构的示例，其结构是一个包含二维块的二维网格。网
CUDA编程第五章: 共享内存&常量内存 Janus_V CUDA
前言:本章内容：了解数据在共享内存中是如何被安排的掌握从二维共享内存到线性全局内存的索引转换解决不同访问模式中存储体中的冲突在共享内存中缓存数据以减少对全局内存的访问使用共享内存避免非合并全局内存的访问理解常量缓存和只读缓存之间的差异使用线程束洗牌指令编程在前面的章节中,已经介绍了几种全局内存的访问模式.通过安排全局内存访问模式,我们学会了如何实现良好的性能并且避免了浪费事务.未对齐的内存访问是没
matlab 使用gpu绘图,使用MATLAB轻松享受GPU的强大功能 stellagugu matlab 使用gpu绘图
近年来，使用GPU(通用图形处理器)进行科学计算已变得十分普遍。GPU最初设计用于图像密集型视频游戏产业中的图形渲染绘制，但近年来GPU不断发展，现可用于更广泛的用途。研究人员可对其进行程序设计以执行计算，用于数据分析、数据可视化，以及金融和生物建模等应用。MATLAB的GPU支持为活跃于许多学科的大量研究人员(不一定是CUDA编程专家)提供了一种加速科学计算的新方法。考虑到MATLAB主要是用于
基于矩阵乘的CUDA编程优化过程 Briwisdom 性能测试 CUDA编程 matmul 矩阵乘
背景：网上很多关于矩阵乘的编程优化思路，本着看理论分析万遍，不如实际代码写一遍的想法，大概过一下优化思路。矩阵乘的定义如下，约定矩阵的形状及存储方式为:A[M,K],B[K,N],C[M,N]。CPU篇朴素实现方法按照常规的思路，实现矩阵乘时如下的3层for循环。#defineOFFSET(row,col,ld)((row)*(ld)+(col))voidcpuSgemm(float*a,floa
Win11+Docker搭建CUDA开发环境 transformer_WSZ LLM docker 容器运维
最近入门了CUDA编程，先记录下搭建环境过程。由于在windows和wsl上折腾了好久，装cuda、cudnn、cmake、gcc等软件，还经常遇到依赖、版本许多问题，最终污染了系统环境。在朋友的安利下，采用docker容器开发方案，试一下真香。本人软硬件条件OS:win11GPU:RTX3060DriverVersion:537.42CUDAVersion:12.2Docker:DokcerDe
cuda编程（示例，topk问题，代码解读与cuda基础概念） grace 1314 c语言 c++
文章声明：本文代码来自于扫地的小和尚，CUDA编程模型系列九(topK问题/规约/2_Pass核函数)_cudatopk-CSDN博客这篇文章，以及b站的视频CUDA编程模型系列九(topK问题/规约/2_Pass核函数)_哔哩哔哩_bilibili可以自行观看，阅读原作，最近在学习如何使用cuda写程序，应用之前所学习的cuda基础知识，如何设计代码，如何编程，怎样去写一段代码是本文以及本人想要
CUDA编程（十三） CUDA标准库与Thrust库 grace 1314 人工智能深度学习
CUDA标准库简介Thrust库Thrust是一个实现了众多基本并行算法的C++模板库，类似于C++的标准模板库（standardtemplatelibrary，STL）。该库自动包含在CUDA工具箱中。这是一个模板库，仅仅由一些头文件组成。在使用该库的某个功能时，包含需要的头文件即可。该库中的所有类型与函数都在名字空间（namespace）thrust中定义，所以都以thrust::开头。用名字
CUDA编程示例：CPU预处理-＞GPU处理-＞CPU后处理独行侠影算法人工智能 linux 编程
CUDA编程示例：CPU预处理->GPU处理->CPU后处理在GPU编程中，一种常见的模式是将工作负载分为CPU预处理、GPU处理和CPU后处理阶段。这种模式可以有效地利用GPU的并行计算能力，加速处理过程。本文将为您介绍一个具体的示例，展示了如何使用CUDA编程来实现这种形式的工作负载。示例场景：假设我们有一个包含大量元素的数组，并且我们想要对每个元素进行某种数学运算。我们可以使用CUDA来将这
【高性能计算】Cpp + Eigen + Intel MKL + 函数写成传引用 dataloading 线性代数矩阵 c++
CUDA加速原理：CUDA编程学习：自定义Pytorch+cpp/cudaextension高质量C++进阶[2]：如何让线性代数加速1000倍？【gcc,cmake,eigen,opencv,ubuntu】三.eigen和mkl安装和使用Linux下MKL库的安装部署与使用，并利用cmake编译器调用MKL库去提升eigen库的计算速度Eigen库下使用MKL加速MKL的坑与教训g++main1
如何通过Clion配置cuda编程梦想的理由 python linux 开发语言
方法ubutu中用clion创建的cuda项目，在终端编译一般没有什么问题，但是用Clion本身在配置cmake确经常报些找不到cuda等类似的错。解决方法有以下步骤：在.bashrc文件追加exportPATH=/usr/local/cuda/bin:$PATH在CMakeLists.txt中追加set(CMAKE_CUDA_ARCHITECTURESxx),xx为显卡的CUDA架构，一般可以用
记录 | CUDA编程中使用#ifdef指令控制生成CPU和GPU代码极智视界踩坑记录 CUDA CUDA编程 #ifdef CPU GPU
CUDA编程中使用#ifdef指令控制生成CPU和GPU代码比如：#include#include__host____device__voidsay_hello(){#ifdef__CUDA_ARCH__printf("Hello,worldfromGPU!\n");#elseprintf("Hello,worldfromCPU!\n");#endif}__global__voidkernel()
记录 | CUDA编程中用constexpr替代__host__&__device__ 极智视界踩坑记录 CUDA CUDA编程 constexpr host device
比如用__host__&__device__的情况如下：#include#include__host____device__voidsay_hello(){printf("Hello,world!\n");}__global__voidkernel(){say_hello();}intmain(){kernel>>();cudaDeviceSynchronize();say_hello();ret
记录 | CUDA编程中声明内联函数的方法极智视界踩坑记录 CUDA 内联内联函数 C++
下面将say_hello()声明为内联函数：#include#include__device____inline__voidsay_hello(){printf("Hello,world!\n");}__global__voidkernel(){say_hello();}intmain(){kernel>>();cudaDeviceSynchronize();return0;}需要注意的点：●in
记录 | CUDA编程中的 __host__ & __device__ 双重修饰极智视界踩坑记录 CUDA C++host device CUDA编程
通过__host__和__device__双重修饰符，可以把函数同时定义在CPU和GPU上，这样CPU和GPU都可以调用比如：#include#include__host____device__voidsay_hello(){printf("Hello,world!\n");}__global__voidkernel(){say_hello();}intmain(){kernel>>();cuda
记录 | CUDA编程中 __host__ 标识符可以省略的情况极智视界踩坑记录 CUDA CUDA编程 __host__标识符 CPU
CUDA完全兼容C++，因此任何函数如果没有指明修饰符，则默认就是__host__，而如果是CPU上的函数，由于本身就是host的，所以__host__是可以省略的。比如：#include#include__device__voidsay_hello(){printf("Hello,worldfromGPU!\n");}__host__voidsay_hello_host(){printf("He
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，