Janus_V

CUDA编程第二章: CUDA编程模型

CUDA编程模型概述:

以程序员的角度可以从以下几个不同的层面来看待并行计算。

领域层
逻辑层
硬件层

在编程与算法设计的过程中，你最关心的应是在领域层如何解析数据和函数，以便在并行运行环境中能正确、高效地解决问题。
当进入编程阶段，你的关注点应转向如何组织并发线程。在这个阶段，你需要从逻辑层面来思考，以确保你的线程和计算能正确地解决问题。

在C语言并行编程中，需要使用pthreads或OpenMP技术来显式地管理线程。CUDA提出了一个线程层次结构抽象的概念，以允许控制线程行为。在阅读本书中的示例时，你会发现这个抽象为并行编程提供了良好的可扩展性。在硬件层，通过理解线程是如何映射到核心可以帮助提高其性能。

CUDA编程结构:

一个典型的CUDA程序实现流程遵循以下模式。

1.把数据从CPU内存拷贝到GPU内存。

2.调用核函数对存储在GPU内存中的数据进行操作。

3.将数据从GPU内存传送回到CPU内存。

内存管理:

C中有一套对主机内存操作的函数, 相对应的, CUDA提供了一套对设备内存操作的函数:

内存申请:

用于向设备申请一定的线性内存

cudaError_t cudaMalloc<T>(T **devPtr, size_t size);
cudaError_t cudaMalloc(void **devPtr, size_t size);

注意这里申请是以字节为单位

注意:

其与C的malloc有一个地方不同, malloc通过返回void* 指针来确定申请内存的位置
而cudaMalloc返回的是error类型, 所以申请内存的位置就储存在第一个参数中, 这也是为啥第一个参数是void**, 其生成一个指向申请内存的指针, 并吧这个指针赋给void**

内存复制:

用于主机与设备之间的数据传输

cudaError_t cudaMemcpy(void *dst, const void *src, size_t count, enum cudaMemcpyKind kind);

前三个参数基本与C的memcpy相同, 注意这里copy是以字节为单位

第四个参数决定了copy的方向:

注意:

此函数以同步的方式执行, 在操作完成&函数返回前, 主机的应用程序处于阻塞态, 除了内核启动之外的CUDA调用都会返回一个错误的枚举类型cuda Error_t

如果GPU内存分配成功，函数返回：cudaSuccess , 否则返回cudaErrorMemoryAllocation

对于枚举类型cuda Error_t, 可以使用此将其转化为可读的错误信息:

内存层次结构:

例程:

一个简单的程序: 计算两个数组的各项和, 并储存在第三个数组中

主机中的内存块以h_开头, 设备中的内存块以d_开头

#include 
#include 
#include 
#include 
#include 


__global__ void sumArrayOnDevice(float *data1, float *data2, float *ans, const int N) {
	for (int i = 0; i < N; ++i) {
		ans[i] = data1[i] + data2[i];
	}
	return;
}

void sumArrayOnHost(float *data1, float *data2, float *ans, const int N) {
	for (int i = 0; i < N; ++i) {
		ans[i] = data1[i] + data2[i];
	}
	return;
}

void initData(float *data, int size) {
	for (int i = 0; i < size; ++i) {
		data[i] = (float)(rand() & 0xff) / 10.0f;
	}

	return;
}

void output(float *data, int size) {
	for (int i = 0; i < size; ++i) {
		printf("%.3f ", data[i]);
	}

}

int main() {
	//初始化随机数, 用于初始化数据
	srand(time(0));
	const int DATA_NUM = 1e8;
	
	//申请主机内存
	float* h_data1 = (float*)calloc(DATA_NUM, sizeof(float));
	float* h_data2 = (float*)calloc(DATA_NUM, sizeof(float));
	float* h_ans = (float*)calloc(DATA_NUM, sizeof(float));

	//初始化主机数据
	int startTime = clock();
	initData(h_data1, DATA_NUM);
	initData(h_data2, DATA_NUM);
	printf("数据初始化完成, 耗时: %d\n\n", clock() - startTime);

	//申请设备内存
	float *d_data1 = NULL;
	float *d_data2 = NULL;
	float *d_ans = NULL;
	cudaMalloc(&d_data1, DATA_NUM*sizeof(float));
	cudaMalloc(&d_data2, DATA_NUM*sizeof(float));
	cudaMalloc(&d_ans, DATA_NUM*sizeof(float));

	
	startTime = clock();
	sumArrayOnHost(h_data1, h_data2, h_ans, DATA_NUM);
	printf("CPU计算完成, 耗时%d\n", clock()-startTime);
	output(h_ans, 1);


	//将主机内存copy至设备内存
	cudaMemcpy(d_data1, h_data1, DATA_NUM*sizeof(float), cudaMemcpyHostToDevice);
	cudaMemcpy(d_data2, h_data2, DATA_NUM*sizeof(float), cudaMemcpyHostToDevice);
	//执行加法
	startTime = clock();
	sumArrayOnDevice << <1, 1 >> > (d_data1, d_data2, d_ans, DATA_NUM);
	//将设备内存copy至主机内存:
	cudaMemcpy(h_ans, d_ans, DATA_NUM, cudaMemcpyDeviceToHost);
	printf("\n\nGPU计算完成, 耗时%d\n", clock() - startTime);
	output(h_ans, 1);

	return 0;
}

线程管理:

CUDA的线程层次抽象是一个两层的线程层次结构，由线程块和线程块网格构成

图中展示的是二维二层结构, CUDA可以组织三维的结构

由一个内核启动所产生的所有线程统称为一个网格。同一网格中的所有线程共享相同的全局内存空间。一个网格由多个线程块构成，一个线程块包含一组线程，同一线程块内的线程协作可以通过以下方式来实现。

同步
共享内存

不同块内的线程不能协作

线程依靠以下两个坐标变量来区分彼此:

blockIdx（线程块在线程格内的索引）
threadIdx (块内线程索引)

这两个坐标变量使用的是有 3个 uint构成的CUDA内置向量, 可以在核函数中直接访问, 并能通过通过x,y,z三个字段来获取:

在执行一个核函数时, CUDA_Runtime会为每个线程分配这俩坐标
基于这俩坐标, 能实现将不同数据分配给不同线程

CUDA中, 网格 & 块的维度可以使用内置变量指定:

blockDim（线程块的维度，用每个线程块中的线程数来表示）
gridDim（线程格的维度，用每个线程格中的线程数来表示）

其为dim3类型变量, dim3是CUDA的内置类型, 用于指定维度, 同样由3个 uint 组成, 也可以通过xyz访问三个分量:

网格和线程块的维度:

通常，一个线程格会被组织成线程块的二维数组形式，一个线程块会被组织成线程的三维数组形式, 未使用的字段会自动被初始化为1且忽略不计

通常, 在启动核函数前, 在主机端定义dim3变量来确定要开的grid & block , 而后以此传入核函数调用的<<<>>>中, CUDA_Runtime将自动生成能够被所有线程访问的unit3 变量 gridDim & blockDim

例程:

#include 
#include 
#include 
#include 
#include 

__global__ void checkIndex()
{

    printf("threadIndex:(%d %d %d)\n"
           "blockIndex:(%d %d %d)\n"
           "blockDim:(%d %d %d)\n"
           "gridDim:(%d %d %d)\n",
           threadIdx.x, threadIdx.y, threadIdx.z,
           blockIdx.x, blockIdx.y, blockIdx.z,
           blockDim.x, blockDim.y, blockDim.z,
           gridDim.x, gridDim.y, gridDim.z);

        return;
}

int main()
{
    int nElem =6;
    dim3 block(3);
    dim3 grid( (nElem + block.x-1)/block.x);	//这个后头会涉及为啥要这么整

    printf( "grid:(%d %d %d)\n"
            "block:(%d %d %d)\n",
            grid.x, grid.y, grid.z,
            block.x, block.y, block.z);

    checkIndex<<<grid, block>>>();

    cudaDeviceReset();

    return 0;
}

输出:

grid:(2 1 1)			# 这里可以看到,为指定的字段被自动初始化为1
block:(3 1 1)
threadIndex:(0 0 0)
blockIndex:(1 0 0)
blockDim:(3 1 1)		# blockDim & gridDim在每个设备线程中相同
gridDim:(2 1 1)
threadIndex:(1 0 0)
blockIndex:(1 0 0)
blockDim:(3 1 1)
gridDim:(2 1 1)
threadIndex:(2 0 0)
blockIndex:(1 0 0)
blockDim:(3 1 1)
gridDim:(2 1 1)
threadIndex:(0 0 0)
blockIndex:(0 0 0)
blockDim:(3 1 1)
gridDim:(2 1 1)
threadIndex:(1 0 0)
blockIndex:(0 0 0)
blockDim:(3 1 1)
gridDim:(2 1 1)
threadIndex:(2 0 0)
blockIndex:(0 0 0)
blockDim:(3 1 1)
gridDim:(2 1 1)

从主机端 & 设备端访问网格/块变量:

对于一个给定的数据大小，确定网格和块尺寸的一般步骤为：

确定块的大小
在已知数据大小和块大小的基础上计算网格维度

要确定块尺寸，通常需要考虑：

内核的性能特性
GPU资源的限制

由于一个内核启动的网格和块的维数会影响性能，这一结构为程序员优化程序提供了一个额外的途径。

网格和块的维度存在几个限制因素，对于块大小的一个主要限制因素就是可利用的计算资源，如寄存器，共享内存等

后头的几个章节会对上头的内容进行详细介绍

例程:

在数据量不变的情况下, 改变block大小同时修正grid大小:

启动一个CUDA核函数:

之前的例程中, 基本展示了启动CUDA核函数的过程, 其中<<>>控制线程在GPU上调度运行的模式

由此可以控制:

内核中线程的数目
内核中使用的线程布局

同一个快中的线程可以相互合作, 不同块内的线程不能协作, 根据此规则可以更好的配置线程的分布以适应要处理的数据

异步:

主机调用核函数后, 控制权立即返回(相当于函数立即返回), 主机 & 设备异步执行 , 所有的核函数都是异步的
这里需要注意, __global__核函数的返回值必须是void

如果需要同步, 则可以使用cudaDeviceSynchronize();代替之前的cudaDeviceReset();

某些API与主机是隐式同步的, 如之前的cudaMemcpy()

编写核函数:

三种核函数修饰符:

__device__和__host_限定符可以一齐使用，这样函数可以同时在主机和设备端进行编译

以下特性适用于所有核函数:

以下限制适用于所有核函数：

只能访问设备内存
返回类型必须为void
不支持可变数量的参数
不支持静态变量
异步执行

验证核函数:

基本使用两个策略:

使用高端的调试工具
没有调试工具的情况下, 可以使用<<<1,1>>> 或由CPU执行的串行/并行代码来验证核函数结果的正确性

处理错误:

由于CUDA调用是异步的, 有时很难确定问题出在哪

所以可以定义一个宏去调用所有CUDA API, 这是一个较好的办法:

#define CHECK(call) { \
    const cudaError_t error = call;\
    if (error != cudaSuccess)\
    {\
        printf("Error: %s:%d\n", __FILE__, __LINE__);\
        printf("code: %d, reason: %s\n", error, cudaGetErrorString(error));\
        exit(1);\
    }\
}

宏函数可以在编译期间直接替换代码, 对程序性能几乎没有影响

注意: 这里使用define定义宏函数时, 换行处要使用\标记, 否则编译器不识别

使用CHECK后可以很好的判断出现了啥问题, 如下头的代码中, 由于矩阵过大导致内存溢出, 之前是没有提示的, 仅仅是CPU计算失败, 而现在可以看到如下输出:

Start calculating.....
Matrix size = 16384 * 32768
Error: cuda_test.cu:146
code: 2, reason: out of memory

从而可以判断出了啥问题

编译 & 执行:

这里主要实现一个GPU的向量加法:

#include 
#include 
#include 
#include 
#include 

void checkResult(float *cpuRes, float *gpuRes, const int N)
{
	double eps = 1e-8; //定义一个无穷小, 用于浮点数计算
	bool matchFlag = true;
	for (int i = 0; i < N; ++i)
	{
		if (fabs(cpuRes[i] - gpuRes[i]) > eps)
		{
			matchFlag = false;
			printf("Result Error ! \n");
			printf("cpuRes[%d] = %.4f\n"
				"gpuRes[%d] = %.4f\n",
				i, cpuRes[i], i, gpuRes[i]);
			break;
		}
	}
	return;
}

void initData(float *data, int size)
{

	for (int i = 0; i < size; ++i)
	{
		data[i] = (float)(rand() & 0xFF) / 100.0f;
	}

	return;
}

void sumArrayOnCPU(float *a, float *b, float *c, const int N)
{
	for (int i = 0; i < N; ++i)
	{
		c[i] = a[i] + b[i];
	}
	return;
}

//这里默认grid(1,1,1), block(x,1,1) 只在同一个block中进行计算
//
__global__ void sumArrayOnGPU(float *a, float *b, float *c, const int N)
{
	// int i= threadIdx.x;
	for (int i = threadIdx.x; i < N; i += blockDim.x)
	{
		c[i] = a[i] + b[i];
	}
	return;
}

__global__ void printData(float *c, const int N) {
	for (int i = 0; i < N; ++i) {
		printf("%.4f ", c[i]);
	}
	printf("\n");
	return;
}

int main()
{

	srand(time(0));

	printf("Start calculating.....\n");

	int elemNum = 640*10000; 
	printf("vector size = %d\n", elemNum);

	float *h_a = NULL;
	float *h_b = NULL;
	float *h_c = NULL;
	float *h_deviceC = NULL;
	h_a = (float *)calloc(elemNum, sizeof(float));
	h_b = (float *)calloc(elemNum, sizeof(float));
	h_c = (float *)calloc(elemNum, sizeof(float));
	h_deviceC = (float *)calloc(elemNum, sizeof(float));

	float *d_a = NULL, *d_b = NULL, *d_c = NULL;
	cudaMalloc((float **)&d_a, elemNum*sizeof(float));
	cudaMalloc((float **)&d_b, elemNum * sizeof(float));
	cudaMalloc((float **)&d_c, elemNum * sizeof(float));

	initData(h_a, elemNum);
	initData(h_b, elemNum);
	cudaMemcpy(d_a, h_a, elemNum * sizeof(float), cudaMemcpyHostToDevice);
	cudaMemcpy(d_b, h_b, elemNum * sizeof(float), cudaMemcpyHostToDevice);

	int blockNum = 640;	//与CUDA数相同
	int gridNum = 1;
	dim3 block(blockNum, 1, 1);
	dim3 grid(gridNum, 1, 1);

	int startTime = clock();
	sumArrayOnGPU << <grid, block >> > (d_a, d_b, d_c, elemNum);
	cudaDeviceSynchronize();
	printf("GPU计算完成, 耗时%d ms \n", clock() - startTime);

	startTime = clock();
	sumArrayOnCPU(h_a, h_b, h_c, elemNum);
	printf("CPU计算完成, 耗时%d ms \n", clock() - startTime);

	cudaMemcpy(h_deviceC, d_c, elemNum * sizeof(float), cudaMemcpyDeviceToHost);

	checkResult(h_c, h_deviceC, elemNum);

	cudaFree(d_a);
	cudaFree(d_b);
	cudaFree(d_c);

	free(h_a);
	free(h_b);
	free(h_c);
	free(h_deviceC);

	return 0;
}

给核函数计时:

用CPU计时器即时:

书里用的是timeval , 这里还是直接使用clock() 较为方便

这里如果需要统计设备的计算时间, 主机需要使用cudaDeviceSynchronize() 来等待GPU计算完成, 相对而言较为耗时

用nvprof工具计时

这里在本地环境中遇到dll缺失的问题, 参考这个博客解决:

https://www.cnblogs.com/aixiaodi/p/13766461.html

老黄的一个CUDA官方分析工具, 还挺好用的, 显示的信息更全面, 并且比CPU计时更加准确, 推荐使用

直接使用CMD或vscode自带的命令行:

nvprof .\cuda_test.exe

输出:

可以看到大量的时间花费在了数据传输上, 设备真正计算的时间其实并不多, 可以根据此特点进行专项优化

实际性能最大化:

组织并行进程:

本部分主要探究不同的线程组织形式对于给定数据集的影响

使用块和线程建立矩阵索引:

线程坐标与实际坐标的关系:

使用二维网络&二维块对矩阵求和:

这里基本按照一维线程的策略对二维线程进行映射

将二维线程当做一维线程进行操作, 分别映射到给定的二维数据集上

#include 
#include 
#include 
#include 
#include 

#define CHECK(call) { \
    const cudaError_t error = call;\
    if (error != cudaSuccess)\
    {\
        printf("Error: %s:%d\n", __FILE__, __LINE__);\
        printf("code: %d, reason: %s\n", error, cudaGetErrorString(error));\
        exit(1);\
    }\
} 

// void checkResult(float *cpuRes, float *gpuRes, const int N)
// {
//     double eps = 1e-8; //定义一个无穷小, 用于浮点数计算
//     bool matchFlag = true;
//     for (int i = 0; i < N; ++i)
//     {
//         if (fabs(cpuRes[i] - gpuRes[i]) > eps)
//         {
//             matchFlag = false;
//             printf("Result Error ! \n");
//             printf("cpuRes[%d] = %.4f\n"
//                    "gpuRes[%d] = %.4f\n",
//                    i, cpuRes[i], i, gpuRes[i]);
//             break;
//         }
//     }
//     return;
// }

void checkResult(float *cpuAns, float *gpuAns, const int nx, const int ny)
{
    unsigned long size = nx * ny;
    for (unsigned long i = 0; i < size; ++i)
    {
        if (cpuAns[i] != gpuAns[i])
        {
            unsigned long tempI = size / nx;
            unsigned long tempJ = i - (i * nx);
            printf(
                "Error!\n"
                "On i=%u , j=%u \n"
                "CPU_ans = %.4lf\n"
                "GPU_ans = %.4lf\n",
                tempI, tempJ, cpuAns[i], gpuAns[i]);
            break ;
        }
    }
}

void sumArrayOnCPU(float *A, float *B, float *C, const int nx, const int ny)
{
    unsigned long size = nx * ny;
    for (unsigned long i = 0; i < size; ++i)
    {
        C[i] = A[i] + B[i];
    }
    // float* a=A;
    // float* b=B;
    // float* c=C;
    // for (int i = 0; i < ny; ++i)
    // {
    //     for (int j = 0; j < nx; ++j)
    //     {
    //         a[j] = b[j] + c[j];
    //     }
    //     a+=nx;
    //     b+=nx;
    //     c+=nx;
    // }
    return;
}

void initData(float *data, unsigned long size)
{

    for (unsigned long i = 0; i < size; ++i)
    {
        data[i] = (float)(rand() & 0xFF) / 100.0f;
    }

    return;
}

//这里默认使用二维grid, 二维block
//需要将整个grid映射到数组中
__global__ void sumArrayOnGPU(float *a, float *b, float *c, const int nx, const int ny)
{
    unsigned long size = nx * ny; //数据集总数
    //这里将二维的线程组转化为一维线程组进行计算
    unsigned long threadNum = gridDim.x * gridDim.y * blockDim.x * blockDim.y; //线程组总数
    unsigned long ix = threadIdx.x + blockIdx.x * blockDim.x;                  //线程在线程组中的(x,y)编号
    unsigned long iy = threadIdx.y + blockIdx.y * blockDim.y;
    unsigned long tid = iy * blockDim.x * gridDim.x + ix; //线程在线程组中的顺序编号

    //执行计算
    for (unsigned long i = tid; i < size; i += threadNum)
    {
        c[i] = a[i] + b[i];
    }
    // // int i= threadIdx.x;
    // for (int i = threadIdx.x * (blockIdx.x + 1); i < N; i += blockDim.x)
    // {
    //     c[i] = a[i] + b[i];
    // }
    return;
}

// __global__ void printData(float *c, const int N)
// {
//     for (int i = 0; i < N; ++i)
//     {
//         printf("%.4f ", c[i]);
//     }
//     printf("\n");
//     return;
// }

int main()
{

    srand(time(0));

    printf("Start calculating.....\n");

    // int elemNum = 640 * 10000;
    const int nx = 1 << 15, ny = 1 << 14;
    const unsigned long elemNum = nx * ny;
    printf("Matrix size = %d * %d\n", ny, nx);

    float *h_a = NULL;
    float *h_b = NULL;
    float *h_c = NULL;
    float *h_deviceC = NULL;
    h_a = (float *)calloc(elemNum, sizeof(float));
    h_b = (float *)calloc(elemNum, sizeof(float));
    h_c = (float *)calloc(elemNum, sizeof(float));
    h_deviceC = (float *)calloc(elemNum, sizeof(float));

    float *d_a = NULL, *d_b = NULL, *d_c = NULL;
    CHECK(cudaMalloc((float **)&d_a, elemNum * sizeof(float)));
    CHECK(cudaMalloc((float **)&d_b, elemNum * sizeof(float)));
    CHECK(cudaMalloc((float **)&d_c, elemNum * sizeof(float)));

    //初始化数据
    initData(h_a, elemNum);
    initData(h_b, elemNum);
    cudaMemcpy(d_a, h_a, elemNum * sizeof(float), cudaMemcpyHostToDevice);
    cudaMemcpy(d_b, h_b, elemNum * sizeof(float), cudaMemcpyHostToDevice);

    int threadNum = 1280; //CUDA_num=640, 这里开到2倍
    //block & grid 均分threadNum
    //1280质因数分解: 2*2*2*2*2*2*2*2*5
    dim3 block(256, 1, 1);
    dim3 grid(5, 1, 1);

    int startTime = clock();
    sumArrayOnGPU<<<grid, block>>>(d_a, d_b, d_c, nx, ny);
    cudaDeviceSynchronize();
    printf("GPU计算完成, 耗时%d ms \n", clock() - startTime);

    startTime = clock();
    sumArrayOnCPU(h_a, h_b, h_c, nx, ny);
    printf("CPU计算完成, 耗时%d ms \n", clock() - startTime);

    cudaMemcpy(h_deviceC, d_c, elemNum * sizeof(float), cudaMemcpyDeviceToHost);

    checkResult(h_c, h_deviceC, nx, ny);
    /*printData << <1, 1 >> > (d_c, elemNum);
	cudaDeviceSynchronize();
	for (int i = 0; i < elemNum; ++i) {
		printf("%.4f ", h_a[i]);
	}
	putchar('\n');
	for (int i = 0; i < elemNum; ++i) {
		printf("%.4f ", h_b[i]);
	}
	putchar('\n');
	for (int i = 0; i < elemNum; ++i) {
		printf("%.4f ", h_c[i]);
	}
	putchar('\n');
	for (int i = 0; i < elemNum; ++i) {
		printf("%.4f ", h_deviceC[i]);
	}
	putchar('\n');*/

    cudaFree(d_a);
    cudaFree(d_b);
    cudaFree(d_c);

    free(h_a);
    free(h_b);
    free(h_c);
    free(h_deviceC);

    return 0;
}

输出:

Start calculating.....
Matrix size = 8192 * 16384
GPU计算完成, 耗时54 ms
CPU计算完成, 耗时447 ms

这里不同的线程配置会改变计算速度, 具体到第三章中才会涉及, 现在先知道个大概:

当线程数与CUDA数相同时:

Start calculating.....
Matrix size = 8192 * 16384
GPU计算完成, 耗时75 ms
CPU计算完成, 耗时435 ms

当减小grid扩大block时:

int threadNum = 1280; //CUDA_num=640, 这里开到2倍
//block & grid 均分threadNum
//1280质因数分解: 2*2*2*2*2*2*2*2*5
dim3 block(20, 8, 1);
dim3 grid(4, 2, 1);

Start calculating.....
Matrix size = 8192 * 16384
GPU计算完成, 耗时45 ms
CPU计算完成, 耗时438 ms

并且这里使用vscode 与 VS2017的计算结果上, CPU计算时间也有差异

这里是nvprof的结果:

可以看到同样也是大量的时间花费在了memcpy上

使用一维网络&一维快对矩阵求和:

道理基本上和第一个相同, 只不过变更一下线程索引

==其实线程索引都不需要变更, 直接使用2Dgrid + 2Dblock的线程索引即可

最终的性能与2Dgrid & 2Dblock 基本相同

使用二维网络和一维块对矩阵求和:

同样也是变更一下线程索引:

nvprof结果:

设备管理:

本部分介绍两种查看&管理设备的方式:

CUDA运行时API函数
NVIDIA系统管理界面（nvidia-smi）命令行实用程序

适用于没有图形界面的服务器&超算 (个人电脑可以使用任务管理器查看)

使用Runtime_API 查询GPU信息:

cudaError_t CUDARTAPI cudaGetDeviceProperties(struct cudaDeviceProp *prop, int device);

使用这个内置函数

获取到的设备信息将存储在cudaDeviceProp结构体中, 这个结构体有一堆的信息, 其中CUDA给的example中的用于测试CUDA是否成功安装的deviceQuery用的就是这个:

详细的信息可以参照官网:

https://docs.nvidia.com/cuda/cuda-runtime-api/structcudaDeviceProp.html#structcudaDeviceProp

其余的信息, 基本就是分析deviceQuery了

驱动 & Runtime 版本:

int driverVersion = 0, runtimeVersion = 0;
cudaDriverGetVersion(&driverVersion);
cudaRuntimeGetVersion(&runtimeVersion);
printf("%d\n%d", driverVersion, runtimeVersion);

输出:

11020
11020

可以看到他这里并没有小数点, 是用一个整数代替的版本

本机使用的驱动版本为11.2, 所以可知其转化方法:

printf("CUDA Driver Version / Runtime Version                %d.%d / %d.%d",
       driverVersion/1000, (driverVersion%100)/10,
       runtimeVersion/1000, (runtimeVersion%100)/10 );

CUDA Driver Version / Runtime Version 11.2 / 11.2

CUDA计算能力:

CUDA设备支持的计算架构版本，即计算能力，该值越大越好

这个通过上头的prop获得:
```
printf("CUDA Capability Major/Minor version number:          %d.%d\n",
       prop.major, prop.minor);
```
CUDA Capability Major/Minor version number: 6.1

显存:

printf("GPU Clock rate:                                      %.0f MHz (%0.2f GHz)\n",
       prop.clockRate * 1e-3, prop.clockRate * 1e-6);

GPU频率 & 内存频率:

printf("GPU Clock rate:                                      %.0f MHz (%0.2f GHz)\n",
       prop.clockRate * 1e-3, prop.clockRate * 1e-6);

printf("Memory Clock rate:                                   %.0f MHz\n",
       prop.memoryClockRate * 1e-3f);

#include 
#include 
#include 
#include 
#include 

int main()
{
    printf("Starting......\n");
    int deviceCount = 0;
    cudaError_t error_id = cudaGetDeviceCount(&deviceCount);
    if (error_id != cudaSuccess)
    {
        printf("获取CUDA Device 信息失败\n");
        printf("Error code = %d \n %s \n", (int)error_id, cudaGetErrorString(error_id));
        exit(1);
    }

    if (!deviceCount)
    {
        printf("没有CUDA设备\n");
        exit(0);
    }

    int devId = 0;
    cudaSetDevice(devId);

    cudaDeviceProp prop;
    cudaGetDeviceProperties(&prop, devId);

    printf("Device %d : %s \n", devId, prop.name);

    int driverVersion = 0, runtimeVersion = 0;
    cudaDriverGetVersion(&driverVersion);
    cudaRuntimeGetVersion(&runtimeVersion);
    // printf("%d\n%d\n", driverVersion, runtimeVersion);
    printf("CUDA Driver Version / Runtime Version                %d.%d / %d.%d\n",
           driverVersion / 1000, (driverVersion % 100) / 10,
           runtimeVersion / 1000, (runtimeVersion % 100) / 10);

    printf("CUDA Capability Major/Minor version number:          %d.%d\n",
           prop.major, prop.minor);

    // printf("%d\n", prop.totalGlobalMem);
    printf("Total amount of global memory:                       %.2f MBytes (%llu bytes)\n",
           (float)prop.totalGlobalMem / (1 << 20), prop.totalGlobalMem);

    printf("GPU Clock rate:                                      %.0f MHz (%0.2f GHz)\n",
           prop.clockRate * 1e-3, prop.clockRate * 1e-6);

    printf("Memory Clock rate:                                   %.0f MHz\n",
           prop.memoryClockRate * 1e-3f);

    printf("Memory Bus Width:                                    %d-bit\n",
        prop.memoryBusWidth);
    
    if(prop.l2CacheSize){
        printf("L2 Cache Size:                                      %d bytes\n",
        prop.l2CacheSize);
    }

    printf("Max Texture Dimension Size (x,y,z):                  1D=(%d), 2D=(%d, %d), 3D=(%d, %d, %d)",
           prop.maxTexture1D, prop.maxTexture2D[0], prop.maxTexture2D[1], prop.maxTexture3D[0], prop.maxTexture3D[1], prop.maxTexture3D[3]);

    printf("Max Layered Texture Size (dim) x layers              1D=(%d) x %d, 2D=(%d,%d) x %d\n"
    , prop.maxTexture1DLayered[0], prop.maxTexture1DLayered[1]
    , prop.maxTexture2DLayered[0], prop.maxTexture2DLayered[1], prop.maxTexture2DLayered[2]);

    printf("Total amount of constant memory:                     %lu bytes\n"
    , prop.totalConstMem);

    printf("Total amount of shared memory per block:             %lu bytes\n"
    , prop.sharedMemPerBlock);

    printf("Total number of registers availables per block:      %d\n"
    , prop.regsPerBlock);

    printf("Warp size:                                           %d\n"
    , prop.warpSize);

    printf("Maximum number of threads per multiprocessor:        %d\n"
    , prop.maxThreadsPerMultiProcessor);

    printf("Maximum number of threads per block:                 %d\n"
    , prop.maxThreadsPerBlock);

    printf("Maximum sizes of each dimension of a block:          %d x %d x %d\n"
    , prop.maxThreadsDim[0], prop.maxThreadsDim[1], prop.maxThreadsDim[2]);

    printf("Maximum sizes of each dimension of a grid:           %d x %d x %d\n"
    , prop.maxGridSize[0], prop.maxGridSize[1], prop.maxGridSize[2]);

    printf("Maximum memory pitch:                                %lu bytes\n"
    , prop.memPitch);
        
    return 0;
}

输出:

Starting......
Device 0 : GeForce GTX 1050
CUDA Driver Version / Runtime Version                11.2 / 11.2
CUDA Capability Major/Minor version number:          6.1
Total amount of global memory:                       4096.00 MBytes (4294967296 bytes)
GPU Clock rate:                                      1493 MHz (1.49 GHz)
Memory Clock rate:                                   3504 MHz
Memory Bus Width:                                    128-bit
L2 Cache Size:                                      524288 bytes
Max Texture Dimension Size (x,y,z):                  1D=(131072), 2D=(131072, 65536), 3D=(16384, 16384, 8192)Max Layered Texture Size (dim) x layers              1D=(32768) x 2048, 2D=(32768,32768) x 2048
Total amount of constant memory:                     65536 bytes
Total amount of shared memory per block:             49152 bytes
Total number of registers availables per block:      65536
Warp size:                                           32
Maximum number of threads per multiprocessor:        2048
Maximum number of threads per block:                 1024
Maximum sizes of each dimension of a block:          1024 x 1024 x 64
Maximum sizes of each dimension of a grid:           2147483647 x 65535 x 65535
Maximum memory pitch:                                2147483647 bytes

其余的直接分析deviceQuery:

序号	名称	值	解释
1	Detected 1 CUDA Capable device(s)	1	检测到1个可用的NVIDIA显卡设备
2	Device 0: “GeForce 930M”	GeForce 930M	当前显卡型号为" GeForce 930M "
3	CUDA Driver Version / Runtime Version	7.5/7.5	CUDA驱动版本
4	CUDA Capability Major/Minor version number	5.0	CUDA设备支持的计算架构版本，即计算能力，该值越大越好
5	Total amount of global memory	4096Mbytes	Global memory全局存储器的大小。使用CUDA RUNTIME API调用函数cudaMalloc后，会消耗GPU设备上的存储空间，合理分配和释放空间避免程序出现crash
6	(3) Multiprocessors, (128) CUDA Cores/MP	384 CUDA Cores	3个流多处理器（即SM），每个多处理器中包含128个流处理器，共384个CUDA核
7	GPU Max Clock rate	941 MHz	GPU最大频率
8	Memory Clock rate	900 MHz	显存的频率
9	Memory Bus Width	64-bit	总线带宽
10	L2 Cache Size	1048576 bytes	二级缓存大小
11	Maximum Texture Dimension Size (x, y, z)	1D=(65535)2D=(65535, 65535)3D=(4096,4096,4096)
12	Maximum Layered 1D Texture Size, (num) layers	1D=(16384),2048 layers
13	Maximum Layered 2D Texture Size, (num) layers	2D=(16384,16384), 2048 layers
14	Total amount of constant memory	65535 bytes	常量存储器的大小
15	Total amount of shared memory per block	49152 bytes	共享存储器的大小，共享存储器速度比全局存储器快；多处理器上的所有线程块可以同时共享这些存储器
16	Total number of registers available per block	65535
17	Warp Size	32	Warp，线程束，是SM运行的最基本单位，一个线程束含有32个线程
18	Maximum number of threads per multiprocessor	2048	一个SM中最多有2048个线程，即一个SM中可以有2048/32=64个线程束Warp
19	Maximum number of threads per block	1024	一个线程块最多可用的线程数目
20	Max dimension size of a thread block (x, y, z)	(1024,1024,64)	ThreadIdx.x<=1024,ThreadIdx.y<=1024,ThreadIdx.z<=64Block内三维中各维度的最大值
21	Max dimension size of a grid size (x, y, z)	(2147483647,65535,65535)	Grid内三维中各维度的最大值
22	Maximum memory Pitch	2147483647 bytes	显存访问时对齐时的pitch的最大值
23	Texture alignment	512 bytes	纹理单元访问时对其参数的最大值
24	Concurrent copy and kernel execution	Yes with 1 copy engine(s)
25	Run time limit on kernels	Yes
26	Integrated GPU sharing Host Memory	No
27	Support host page-locked memory mapping	Yes
28	Alignment requirement for Surfaces	Yes
29	Device has ECC support	Disabled
30	其他

GPU性能的粗略比较:

直接使用上头cudaGetDeviceProperties获取到的multiProcessorCount

这个获取到的是显卡的流式多处理器的数量, 间接反映的CUDA数量, 反正就是越多越好

本地环境使用的GTX1050仅开启了5个MP核心

使用nvidia-smi 查询GPU信息:

本地环境中, nvidia-smi路径没有添加到系统path中, 所以只能使用CMD进入指定目录运行:

在运行时设置设备:

使用环境变量CUDA_VISIBLE_DEVICES 即可在运行时指定所选的GPU且无需更改应用程序

参考博客:

https://blog.csdn.net/lscelory/article/details/83579062

由于本地环境中仅有一块具有CUDA功能的显卡, 所以无法对此进行测试

临时设置:

Linux： export CUDA_VISIBLE_DEVICES=1
windows:  set CUDA_VISIBLE_DEVICES=1

永久设置:

linux:
在~/.bashrc 的最后加上export CUDA_VISIBLE_DEVICES=1，然后source ~/.bashrc
windows:
打开我的电脑环境变量设置的地方，直接添加就行了。

你可能感兴趣的:(CUDA)

vllm本地部署bge-reranker-v2-m3模型API服务实战教程雷电法王大模型部署 linux python vscode language model
文章目录一、说明二、配置环境2.1安装虚拟环境2.2安装vllm2.3对应版本的pytorch安装2.4安装flash_attn2.5下载模型三、运行代码3.1启动服务3.2调用代码验证一、说明本文主要介绍vllm本地部署BAAI/bge-reranker-v2-m3模型API服务实战教程本文是在Ubuntu24.04+CUDA12.8+Python3.12环境下复现成功的二、配置环境2.1安装虚
【医学影像】无痛安装mamba 周树皮医学影像 python
去年编辑的一个帖子。摆了一段时间后重新回归，发送一下作为状态分界线。很癫狂的体验，man，whatcanisay！issue查看我的狗急跳墙状态1.确定版本cudanvcc-Vpythonpython--versiontorchpipshowtorch2.下载对应版本wheelcausal-conv1d：https://github.com/Dao-AILab/causal-conv1d/rele
jetson agx orin 刷机、cuda、pytorch配置指南【亲测有效】
jetsonagxorin刷机指南注意事项刷机具体指南cuda环境配置指南Anconda、Pytorch配置注意事项1.使用设备自带usbtoc的传输线时，注意c口插到orin左侧的口，右侧的口不支持数据传输；2.刷机时需准备ubuntu系统，可以是虚拟机，注意安装SDKManager刷机时，JetPack版本要选对，JetPack6.0的对应ubuntu22，cuda12版本，对应pytorch
Yolov5-obb(旋转目标poly_nms_cuda.cu编译bug记录及解决方案)
关于在执行pythonsetup.pydevelop#or"pipinstall-v-e."时poly_nms_cuda.cu报错问题。前面步骤严格按照install.md环境1.pytorch版本较低时（我的是1.10）：poly_nms_cuda.cu文件添加”#defineeps1e-8“，删除“constdoubleeps=1E-8;”这句2.pytorch版本较高时（我用的是1.27）h
使用 Docker 搭建 Python（Flask/CUDA AI）开发环境——AI教你学Docker
使用Docker搭建Python（Flask/CUDAAI）开发环境及常用中间件配置详解本指南适用于用Docker快速搭建Python（FlaskWeb应用或包含CUDA的AI开发环境）开发环境，并集成常用中间件服务如MySQL、Redis、Kafka。适合个人开发、本地测试和小团队协作。一、项目目录结构建议project-root/├──app/#Python应用源码目录│├──Dockerfi
jetson orin nano安装GPU版本的pytorch过程小鲈鱼- pytorch 人工智能 python
一、安装jetpack组件和安装CUDA/cuDNN可以参考下面这个博客「解析」JetsonOrinNX安装CUDA/cuDNN_jetsoncuda-CSDN博客二、安装Pytorch和torchaudio可以直接看官方给的步骤https://pytorch.org/audio/main/build.jetson.html
NVIDIA GeForce RTX 3090显卡详细介绍山顶望月川人工智能
一、详细参数（一）核心参数芯片厂商：NVIDIA显卡芯片：GeForceRTX3090显示芯片系列：NVIDIARTX30系列制作工艺：8纳米核心代号：GA102-300核心频率：基础频率1400MHz，加速频率1700MHzCUDA核心：10496个（二）显存规格显存频率：19500MHz显存类型：GDDR6X显存容量：24GB显存位宽：384bit最大分辨率：7680×4320（三）显卡接口接
【华为昇腾|CUDA】服务器A6000显卡部署LLM实战记录刘阿宾技能备忘服务器语言模型华为 gpu算力 kylin
安装驱动https://www.nvidia.cn/drivers/lookup/搜索对应gpu的kylin版本即可先使用wget下载rpm包rpm-i安装最后使用dnfinstallnvidia-driver即可上面安装的是驱动仓库安装CUDAkylin服务器参考配置同上，先wget，后rpm-i，最后dnfinstallcuda即可安装Ollamaollama官方提供aarch64docker
英伟达终为 CUDA 添加原生 Python 支持，他有什么目的？朱卫军 AI python 开发语言
CUDA原来只支持C/C++/Fortran，在2025的CES上宣布支持原生Python其实是不得已而为之，一方面现在Python的AI开发者数量过于庞大，达到数千万级别，而CUDA仅几百万，CUDA想扩大自己的用户圈子，只能拉Python入伙。另一方面，Python生态的计算库实在太强大，比如numpy，几乎垄断了数组计算，还有像scipy、keras等，已经成为机器学习的主流工具，CUDA必
Jetson Orin NX Super安装TensorRT-LLM u013250861 #LLM/部署&推理 elasticsearch 大数据搜索引擎
根据图片中显示的JetsonOrinNXSuper系统环境（JetPack6.2+CUDA12.6+TensorRT10.7），以下是针对该平台的TensorRT-LLM安装优化方案：一、环境适配调整基于你的实际配置：JetPack6.2（含CUDA12.6,TensorRT10.7）Python3.10.12aarch64架构需选择适配的TensorRT-LLM版本。由于官方预编译包可能未覆盖此
在 WSL2 中配置 CUDA 环境变量的两种方法（含多版本支持）新子y python 人工智能 linux
通过编辑~/.bashrc文件添加export语句来配置CUDA环境变量，然后用source~/.bashrc刷新环境。✅一：更完整的环境变量设置exportPATH=/home/yyf/.local/bin:$PATHexportCUDA_HOME=/usr/local/cuda-12.6exportPATH=$CUDA_HOME/bin:$PATHexportLD_LIBRARY_PATH=$
服务器无对应cuda版本安装pytorch-gpu[自用] 片月斜生梦泽南 pytorch
服务器无对应cuda版本安装pytorch-gpu服务器无对应cuda版本安装pytorch-gpu网址下载非root用户安装tmux查看服务器ubuntu版本conda安装tensorflow-gpu安装1.x版本服务器无对应cuda版本安装pytorch-gpu网址GPU版本的pytorch、pytorchvision的下载链接https://download.pytorch.org/whl/
OpenCV CUDA模块设备层-----高效地计算两个 uint 类型值的带权重平均值村北头的码农 OpenCV opencv 人工智能计算机视觉
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述OpenCV的CUDA模块（cudev）中的一个设备端内联函数，用于高效地计算两个uint类型值的带权重平均值。该函数返回两个无符号整数a和b的加权平均值，权重为：return(a*3+b)/4;函数原型__device____forceinline__uintc
Ubuntu下安装多版本CUDA及灵活切换全攻略芯作者 D2：ubuntu linux ubuntu
——释放深度学习潜能，告别版本依赖的烦恼！**为什么需要多版本CUDA？在深度学习、科学计算等领域，不同框架（TensorFlow、PyTorch等）对CUDA版本的要求各异。同时升级框架或维护旧项目时，版本冲突频发。多版本CUDA共存+一键切换是高效开发的刚需！本文将手把手教你实现这一能力，并分享独创的“动态软链接+环境隔离”技巧，让版本管理行云流水！环境准备硬件要求NVIDIA显卡（支持CUD
DeepSeek 部署中的常见问题及解决方案 tonngw 后端
技术文章大纲：DeepSeek部署中的常见问题及解决方案引言简要介绍DeepSeek及其应用场景，说明部署过程中可能遇到的挑战。环境配置问题硬件兼容性问题：GPU型号、驱动版本不匹配的解决方案。依赖库冲突：Python版本、CUDA/cuDNN不兼容的排查方法。虚拟环境配置：Anaconda或Docker环境的最佳实践。模型加载与初始化问题预训练模型下载失败：网络代理设置、手动下载替代方案。显存不
PyTorch安装总失败？看完这篇保姆级教程，从0到1轻松搞定！喜欢编程就关注我 pytorch 人工智能 python
引言：为什么你装不好PyTorch？“CUDA版本不匹配？pip安装超时？conda环境冲突？”新手安装PyTorch的坑比代码bug还多！这篇博客整合CSDN高赞实战技巧，手把手教你绕过10大安装陷阱，附赠代码级验证指南！一、安装前必看：环境检查清单检查项操作方法Python版本python--version（推荐3.8-3.11）CUDA驱动nvidia-smi（仅NVIDIA显卡需要）con
ubuntu22.04从新系统到tensorflow GPU支持澍龑 tensorflow 人工智能
ubuntu22.04CUDA从驱动到tensorflow安装0系统常规设置和软件安装0.1挂载第二硬盘默认Home0.2软件安装0.3安装指定版本的python0.4python虚拟环境设置1直接安装1.1配置信息1.2驱动安装1.3集显显示，独显运算（其它debug用）1.4卸载驱动(备用，未试)日常使用ssh后台运行（断联不中断）0系统常规设置和软件安装0.1挂载第二硬盘默认Homesudo
深度学习Pytorch(一) Bgemini 深度学习 pytorch 深度学习 python
深度学习Pytorch(一)前言：必须使用英伟达显卡才能使用cuda（显卡加速）！移除环境：condaremove-npytorch--all一、安装Pytorch下载Anaconda打开AnacondaPrompt创建一个Pytorch环境：condacreate-npytorchpython=3.9激活Pytorch环境：condaactivatepytorch查看当前包：piplist安装P
The current PyTorch install supports CUDA capabilities sm_37 sm_50 sm_60 sm_70. weixin_66009678 pytorch 人工智能 python
出现如下报错：NVIDIAGeForceRTX3090withCUDAcapabilitysm_86isnotcompatiblewiththecurrentPyTorchinstallation.ThecurrentPyTorchinstallsupportsCUDAcapabilitiessm_37sm_50sm_60sm_70.IfyouwanttousetheNVIDIAGeForceRT
【CMake】CMake简介及使用示例晴雨日记 CMake c++
CMake简介CMake是一个跨平台的开源构建系统生成器，用于管理软件构建过程。它不直接编译代码，而是根据CMakeLists.txt文件生成标准构建文件（如Makefile、VisualStudio项目等），再调用底层工具（如gcc、MSVC）编译。核心优势：跨平台：支持Windows、Linux、macOS可扩展：支持C/C++/CUDA/Fortran等多种语言模块化：提供find_pack
开源 vGPU 方案 HAMi: core&memory 隔离测试探索云原生 AI kubernetes 容器云原生 gpu算力人工智能开源
本文主要对开源的vGPU方案HAMi的GPUCore&Memory隔离功能进行测试。省流：HAMivGPU方案提供的Core&Memory隔离基本符合预期：Core隔离：Pod能使用的算力会围绕设定值波动，但是一段时间内平均下来和申请的gpucores基本一致Memory隔离：Pod中申请的GPU内存超过设定值时会直接提示CUDAOOM1.环境准备简单说一下测试环境GPU：A40*2K8s：v1.
llama-cpp-python使用教程 try2find llama python 开发语言
以下是llama-cpp-python的完整使用教程，涵盖安装、基础用法、高级功能（如GPU加速、多模态等）和常见问题解决。1.安装1.1基础安装（CPU版）pipinstallllama-cpp-python-ihttps://pypi.tuna.tsinghua.edu.cn/simple1.2启用GPU加速（CUDA）CMAKE_ARGS="-DGGML_CUDA=ON"pipinstall
error -- unsupported GNU version gcc later than 10 are not supported；（gcc、g++）众人（某音、某书同名）服务器 linux 运维
服务器跑dit时编译flash-atten以及pytorch的cuda版本检查出错，分别报错题目以及如下：想了下是系统找不到编译器subprocess.CalledProcessError:Command'['which','c++']'returnednon-zeroexitstatus1.备案，以后有人要用12我还得换回来方案一：更改gcc和gcc+的版本没有合适的版本的话需要root权限指定
一文详解显卡（GPU）驱动（Driver）CUDA、PyTorch 四者之间的关系、依赖性、版本兼容性，以及如何通过命令查询各自版本等方面进行系统性总结番知了 pytorch 人工智能 python
目录一、四者的依赖关系概览简单理解：二、依赖链详细解释1.显卡（GPU）2.NVIDIA显卡驱动3.CUDAToolkit4.PyTorch三、版本兼容查询PyTorch与CUDA的兼容表四、版本查询命令（Linux/Windows）五、安装建议（实用路线）一、四者的依赖关系概览组件作用与其它组件的关系GPU(显卡)提供物理硬件（如NVIDIARTX4060）驱动必须支持你的显卡型号驱动Drive
VScode 里面使用 python 去直接调用 CUDA NeRF_er python vscode pytorch
上一个帖子主要分享了如何去将C++程序打包成一个package。我们最后的目的实际上是想把CUDA的程序打包成一个Package，C++程序只是起到了桥梁的作用：首先：CUDA程序和C++的程序一样，都有一个.cu的源文件和一个.h的头文件。我们的文件包含Cpp文件组成，负责当作CUDA和Python的桥梁。还有对应的CUDA的源代码文件和头文件。将这个cpp文件命名成ext.cpp.#inclu
查看电脑显卡(NVIDIA)应该匹配什么版本的CUDA Toolkit 发光的小豆芽 CUDA 电脑
被串行计算逼到要吐时，决定重拾CUDa了，想想那光速般的处理感觉（夸张了）不要太爽，记下我的闯关记录。正好我的电脑配了NVIDIA独显，GTX1650，有菜可以炒呀，没有英伟达的要绕道了。回到正题，查看自己的显卡应该装什么版本的Cuda驱动，具体如下：（1）在桌面空白处右键选中NVIDIA控制面（2）查看系统信息适配的CUDA版本说明显卡支持的cuda版本不能超过12.2.79。或者cmd进入窗口
疏锦行Python打卡 DAY 33 MLP神经网络的训练
importtorchtorch.cudaimporttorch#检查CUDA是否可用iftorch.cuda.is_available():print("CUDA可用！")#获取可用的CUDA设备数量device_count=torch.cuda.device_count()print(f"可用的CUDA设备数量:{device_count}")#获取当前使用的CUDA设备索引current_d
【Python训练营打卡】day33 @浙大疏锦行 2301_77865880 MyPython训练营打卡 python
DAY33简单的神经网络知识点回顾：1.PyTorch和cuda的安装2.查看显卡信息的命令行命令（cmd中使用）3.cuda的检查4.简单神经网络的流程a.数据预处理（归一化、转换成张量）b.模型的定义i.继承nn.Module类ii.定义每一个层iii.定义前向传播流程c.定义损失函数和优化器d.定义训练流程e.可视化loss过程预处理补充：注意事项：1.分类任务中，若标签是整数（如0/1/2
python打卡day52@浙大疏锦行风逸hhh python打卡60天行动 python 深度学习机器学习
知识点回顾：随机种子内参的初始化神经网络调参指南参数的分类调参的顺序各部分参数的调整心得神经网络调参核心实践一、全局随机种子设置（修改src/models/train.py）defset_seed(seed=42):torch.manual_seed(seed)torch.cuda.manual_seed_all(seed)np.random.seed(seed)random.seed(seed)
OpenCV CUDA模块设备层-----在GPU 上高效地执行两个 uint 类型值的最大值比较函数vmax2() 村北头的码农 OpenCV opencv 人工智能计算机视觉
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述OpenCV的CUDA模块（cudev）中的一个设备端内联函数，用于在GPU上高效地执行两个uint类型值的最大值比较。该函数返回两个无符号整数a和b中的较大值：return(a>b)?a:b;函数原型__device____forceinline__uintcv
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl