small_lWei

CUDA_by_Examples_Chapter5

Chapter5

前面出现的问题都是每个处理器都能独立无交互地执行就可以得到最终结果，但是事实上这种问题很少，这章就是介绍processor之间的communicate 和cooperate辣。

》》》Chapter objectives

what CUDA C calls thread
how different threads communicate with each other
how to synchronize the parallel execution of different threads
thread是啥玩意儿这里就不说了……

一、Vector Sums again

还是那个vector sun，还是那个味，只是这回用thread来代替block解决之。
用thread和block现在还看不出有什么差别，但是parallel thread可以做parallel block做不到的事，这个暂且不谈。
首先看主函数中核函数的调用，用parallel block 时，调用核函数：

add <<<N, 1>>>(dev_a, dev_b, dev_c);

现在我们用parallel thread：

add <<<1, N>>>(dev_a, dev_b, dev_c);

<<<>>>中第一个参数表示一个grid中有多少block，第二个参数表示一个block中有多少thread，现在我们的意图是一个block，每个block N个thread来并行执行kernel code。

那么核函数中的int tid = blockIdx.x;也应该改成int tid = threadIdx.x;因为我们现在只有一个block，一个thread处理一个数，应该对thread做索引。
综上，只要改写两部分就可以将原来parallel block的代码改成parallel thread，下面是完整代码：

//懒得用book.h QAQ
#include <stdio.h>
#include "cuda_runtime.h"
#define N 1000
__global__ void
add(int *a, int *b, int *c){
    int tid = threadIdx.x;               //*************************
    if(tid < N) c[tid] = a[tid] + b[tid];
}
int main(void){
    int a[N], b[N], c[N];
    int *dev_a, *dev_b, *dev_c;

    //allocate memory on GPU
    cudaMalloc((void**)&dev_a, N * sizeof(int));
    cudaMalloc((void**)&dev_b, N * sizeof(int));
    cudaMalloc((void**)&dev_c, N * sizeof(int));

    //fill the array a & b on CPU
    for(int i = 0; i < N; ++i){
        a[i] = -i;
        b[i] = i * i;
    }

    //copy the arrays a & b to GPU
    cudaMemcpy(dev_a, a, N *  sizeof(int), cudaMemcpyHostToDevice);
    cudaMemcpy(dev_b, b, N *  sizeof(int), cudaMemcpyHostToDevice);
    cudaMemcpy(dev_c, c, N *  sizeof(int), cudaMemcpyHostToDevice);

    add<<<1, N>>>(dev_a, dev_b, dev_c);   //************************

    //copy array c to CPU
    cudaMemcpy(c, dev_c, N * sizeof(int), cudaMemcpyDeviceToHost);

    //display
    for(int i = 0; i < N; ++i) printf("%d + %d = %d\n", a[i], b[i], c[i]);
    cudaFree(dev_a);
    cudaFree(dev_b);
    cudaFree(dev_c);
}

然而呢，硬件限制了block的数量为65535，similarly，对threads per block也有所限制，这个第三章有讲到辣，就是cudaDeviceProp中的maxThreadsPerBlock成员，我的是1024。那么问题来了，如果我们要处理超过这个数量的vector求和，要怎么做呢？这时候就要双管齐下，block和thread一起上了！

代码的改写还是分上文中的两部分：

1.是数据的索引，看图

图中的数据就是线程的编号（grid中每个线程都有一个唯一的线程id）。故，我们改成：

int tid = threadIdx.x + blockIdx.x * blockDim.x;

blockDim.x表示每个block在x方向有几个thread，blockIdx.x表示是grid中这个block的X方向上的编号，私以为这个图还是很明确的横向就是x方向辣…threadIdx.x则是block中这个thread的编号。（【上下文无关】这里，书上提到，grid可以有二维和一维的blocks，目前不能使用三维。block则可以接受三维thread）

2.现在来看<<<>>>中的参数，假定每个block中有128个thread，则直觉地认为需要N / 128个block，然而这是不对的，当N= 127时，就一个block都没有了……所以我们的代码应该是：

add<<<(N + 127) / 128, 128>>>(dev_a, dev_b, dev_c);

这时，我们launch的线程就太多了orz…超过了下标，不过没关系，我们有

if(tid < N) c[tid] = a[tid] + b[tid];

有一个判断！这样就不会对不该读写的内存进行改动了！

接下来说任意长度的vector的求和。

grid中block的数量每一维都不能超过65535，当N > 65535 * 128的时候，这个就不对了呀，我们的策略是，把代码改成这样：

__global__ void
add(int *a, int *b, int *c){
    int tid = threadIdx.x + blockIdx.x * blockDim.x;
    while(tid < N){
        c[tid] = a[tid] + b[tid];
        tid += blockDim.x * gridDim.x;
    }
}

就是每个kernel处理多个元素，我觉得这个图画得还是很明确的，相同颜色表示在同一个thread中处理，这里简化一下，为<<<3, 3>>>.

实际程序中原来是<<<(N + 127) / 128, 128>>>，其中第一个参数可能会超过限制，所以我们需要设置一个合理的不朝鲜的数值，eg:

add<<<128,128>>>( dev_a, dev_b, dev_c );

这个数值的设定对程序性能会有影响，但是这里先不说了。（我很讨厌这种话说一半的感觉…………………………）
现在我们的程序处理数据的规模大小只受到GPU上RAM大小的限制。完整代码：

#include <stdio.h>
#include "cuda_runtime.h"
#define N 100
__global__ void
add(int *a, int *b, int *c){
    int tid = threadIdx.x + blockIdx.x * blockDim.x;
    while(tid < N){
        c[tid] = a[tid] + b[tid];
        tid += blockDim.x * gridDim.x;              //**********
    }
}
int main(void){
    int a[N], b[N], c[N];
    int *dev_a, *dev_b, *dev_c;
    cudaDeviceProp prop;
    cudaGetDeviceProperties(&prop, 0);
    printf("%d**\n", prop.maxThreadsPerBlock);
    //allocate memory on GPU
    cudaMalloc((void**)&dev_a, N * sizeof(int));
    cudaMalloc((void**)&dev_b, N * sizeof(int));
    cudaMalloc((void**)&dev_c, N * sizeof(int));

    //fill the array a & b on CPU
    for(int i = 0; i < N; ++i){
        a[i] = -i;
        b[i] = i * i;
    }

    //copy the arrays a & b to GPU
    cudaMemcpy(dev_a, a, N *  sizeof(int), cudaMemcpyHostToDevice);
    cudaMemcpy(dev_b, b, N *  sizeof(int), cudaMemcpyHostToDevice);
    cudaMemcpy(dev_c, c, N *  sizeof(int), cudaMemcpyHostToDevice);

    add<<<128, 128>>>(dev_a, dev_b, dev_c);             //***********

    //copy array c to CPU
    cudaMemcpy(c, dev_c, N * sizeof(int), cudaMemcpyDeviceToHost);

    //display
    for(int i = 0; i < N; ++i) printf("%d + %d = %d\n", a[i], b[i], c[i]);
    cudaFree(dev_a);
    cudaFree(dev_b);
    cudaFree(dev_c);
}

二、GPU ripple using threads

虽然看起来很有趣的样子，还是动画呢，然后宝宝又开始担心会出什么幺蛾子QAQ
首先是整体框架：

#include "book.h"
#include "cuda_runtime.h"
#include "cpu_anim.h"
struct DataBlock{
    unsigned char * dev_bitmap;
    CPUAnimBitmap * bitmap;
};
void cleanup(DataBlock *d){
    cudaFree(d->dev_bitmap);
}
int main(){
    DataBlock data;
    CPUAnimBitmap bitmap(DIM, DIM, &data);
    data.bitmap = &bitmap;

    HANDLE_ERROR(cudaMalloc((void**)&data.dev_bitmap, bitmap.image_size()));

    bitmap.anim_and_exit((void(*)(void*, int)) generate_frame, (void(*)(void*))cleanup);//传递函数指针
}

main()函数中显示很熟悉的，在device上分配空间，然后就交给bitmap.anim_and_exit()去办了，传递给它两个函数指针，一个是generate_frame，另一个是释放设备空间的cleanup函数。
generate_frame函数在每次要生成动画的新的一帧的时候调用，以产生一幅新的图画。接下来来看看它：

void generate_fame(DataBlock *d, int ticks){
    dim3 blocks(DIM/16,DIM/16);
    dim3 thread(16,16);
    kernel<<<blocks, thread>>>(d->dev_bitmap, ticks);
    HANDLE_ERROR(cudaMemcpy(d->bitmap->get_ptr(),
                            d->dev_bitmap,
                            d->bitmap->image_size(),
                            cudaMemcpyDeviceToHost));
}

我们在这个函数中调用kernel函数，声明了两个二维变量分别描述，下面这个图已经很明白了……

其中的kernel函数由两个参数，第二个参数ticks是时间。下面是kernel函数，x,y什么的，看上面的图，自己模拟一下就知道了，代码如下grey什么的不要太纠结了……

__global__ void kernel(unsigned char *ptr, int ticks){
    int x = threadIdx.x + blockIdx.x * blockDim.x;
    int y = threadIdx.y + blockIdx.y * blockDim.y;
    int offset = x + y * blockDim.x * gridDim.x;

    float fx = x - DIM / 2;
    float fy = y - DIM / 2;
    float d = sqrtf(fx * fx + fy * fy);
    unsigned char grey = (unsigned char)(128.0f + 127.0f * 
                                         cos(d/10.0f - ticks/7.0f)/
                                         (d/10.0f + 1.0f));
    ptr[offset * 4 + 0] = grey;
    ptr[offset * 4 + 1] = grey;
    ptr[offset * 4 + 2] = grey;
    ptr[offset * 4 + 3] = 255;
}

result：

总算是安全地度过……

三、共享内存和同步

目前为止，我们split block into threads的目的仅是为了摆脱硬件的限制，但是这个不是主要的原因，接下来我们会体会到更重要的原因。

与shared Memory相关的关键字有_ _ devie _ _ , _ _ global _ , _ shared _ 。使用 _ shared _ _声明一个变量位于Shared M上。每个block都有一个shared M，block中每个thread都共享之（进行读写），但是blockA中的thread不能访问blockB中的shared M中的内容。总之，sharedM使得一个block中的thread可以communicate，并且使用sharedM可以大大降低延迟时间，提高运行效率。
但是thread之间的交互需要有同步机制（synchronize），否则会出现问题，比如threadA需要用到threadB的数据，但是threadB在threadA要用到这个数据的时候还没有准备好这个数据，然后就会出错，在接下来的实验中我们会看到这一点。

》》》DOT Product（求向量内积）

input：两个vector output：一个数
这个类似上文的vector sum，先给出kernel函数：

__global__ void
    dot(float *a, float *b, float *c){
        __shared__ float cache[threadPerBlock];
        int tid = threadIdx.x + blockIdx.x * blockDim.x;
        int cacheIndex = threadIdx.x;
        float temp = 0;
        while(tid < N){
            temp += a[tid] * b[tid];
            tid += blockDim.x * gridDim.x;
        }
        cache[cacheIndex] = temp;
        ...//看下文
}

这个和vector sum中最终版差不多，一个thread中进行while循环，每个block分配大小与其中thread数相等的sharedM（cache），每个thread的结果写入cache中，然后将它们加起来，但是我们在把结果加起来之前需要保证所有的结果都已经写入，这是我们需要用到_ _syncthreads()，它能保证所有的线程都已经执行到这个函数后才能继续执行。
这里有一个很重要的思想——reduction（规约）
definition：the general process of taking an input array
and performing some computations that produce a smaller array of results。
就是把一个大的问题划成多个子问题并行解决之。看下图

每个上面每个方块都是cache中的元素，每个加号都可以并行进行，处理的时间和元素的数量n是logn的关系，如果是串行的化，一个一个加起来很明显需要的时间和n成线性相关，比如8个元素求和，按照正常的串行思路，要循环7次，而并行处理的化，虽然仍要计算7次，但是其中的加法可以并行进行，以此来缩短计算的时间。

来看dot函数的下文：

__syncthreads();
        int i = blockDim.x / 2;
        while(i!= 0){ if(cacheIndex < i) cache[cacheIndex] += cache[cacheIndex + i]; __syncthreads(); i /= 2; }
        if(cacheIndex == 0) 
            c[blockIdx.x] = cache[0];

最后得到的数列c中的元素求和不用GPU，因为剩下的只有128个元素，这些数量相对于GPU的运算器来说太少了，不划算，因此剩下的步骤交给Host:

int main(void){
    float *a, *b, c, *partial_c;
    float *dev_a, *dev_b, *dev_partial_c;
    a = new float[N];
    b = new float[N];
    partial_c = new float[blockPerGrid];

    //allocate memory
    cudaMalloc((void**)&dev_a, N * sizeof(float));
    cudaMalloc((void**)&dev_b, N * sizeof(float));
    cudaMalloc((void**)&dev_partial_c, blockPerGrid* sizeof(float));

    for(int i = 0; i < N; i++){
        a[i] = i;
        b[i] = i * i;
    }

    //copy
    cudaMemcpy(dev_a, a, sizeof(float) * N, cudaMemcpyHostToDevice);
    cudaMemcpy(dev_b, b, sizeof(float) * N, cudaMemcpyHostToDevice);

    dot<<<blockPerGrid, threadPerBlock>>>(dev_a, dev_b, dev_partial_c);
    ...//待续
}

下面是关于grid和block数量的设定：

#define imin(a, b) (a < b ? a : b)
const int N = 33 * 1024;
const int threadPerBlock = 256;
const int blockPerGrid = 
        imin(32, (N + threadPerBlock - 1) / threadPerBlock);

blockPerGrid应该设定为对CPU足够大，而又能使得GPU足够忙碌的数量。
如果数据不够多就取最小的能装下所有元素的block数。这里我们又看到了熟悉的(N + threadPerBlock - 1) / threadPerBlock)这是一个很常见的技巧。
然后我们要将dev_partial_c中的数据加到c上，因为这个数组在device上，所以需要调用那个函数：

cudaMemcpy(partial_c, 
           dev_partial_c, 
           blockPerGrid * sizeof(float),
           cudaMemcpyDeviceToHost);

然后是最后的代码：

#include <stdio.h>
#include "cuda_runtime.h"
#include "cuda_device_runtime_api.h"
#define imin(a, b) (a < b ? a : b)
const int N = 33 * 1024;
const int threadPerBlock = 256;
const int blockPerGrid = 
        imin(32, (N + threadPerBlock - 1) / threadPerBlock);
__global__ void dot(float *a, float *b, float *c){
        __shared__ float cache[threadPerBlock];
        int tid = threadIdx.x + blockIdx.x * blockDim.x;
        int cacheIndex = threadIdx.x;
        float temp = 0;
        while(tid < N){
            temp += a[tid] * b[tid];
            tid += blockDim.x * gridDim.x;
        }
        cache[cacheIndex] = temp;
        __syncthreads();
        int i = blockDim.x / 2;
        while(i!= 0){
            if(cacheIndex < i)
                cache[cacheIndex] += cache[cacheIndex + i];
            __syncthreads();
            i /= 2;
        }
        if(cacheIndex == 0) 
            c[blockIdx.x] = cache[0];
}
int main(void){
    float *a, *b, c, *partial_c;
    float *dev_a, *dev_b, *dev_partial_c;
    a = new float[N];
    b = new float[N];
    partial_c = new float[blockPerGrid];

    //allocate memory
    cudaMalloc((void**)&dev_a, N * sizeof(float));
    cudaMalloc((void**)&dev_b, N * sizeof(float));
    cudaMalloc((void**)&dev_partial_c, blockPerGrid* sizeof(float));

    for(int i = 0; i < N; i++){
        a[i] = i;
        b[i] = i * 2;
    }

    //copy
    cudaMemcpy(dev_a, a, sizeof(float) * N, cudaMemcpyHostToDevice);
    cudaMemcpy(dev_b, b, sizeof(float) * N, cudaMemcpyHostToDevice);

    dot<<<blockPerGrid, threadPerBlock>>>(dev_a, dev_b, dev_partial_c);

    cudaMemcpy(partial_c, 
               dev_partial_c, 
               blockPerGrid * sizeof(float), 
               cudaMemcpyDeviceToHost);
    c = 0;
    for(int i = 0; i < blockPerGrid; ++i)
        c += partial_c[i];
    #define sum_squares(x) (x*(x+1)*(2*x+1) / 6)
    printf("Does GPU value %.6g = %.6g?\n", 
            c, 2 * sum_squares((float)(N - 1)));
    cudaFree(dev_a);
    cudaFree(dev_b);
    cudaFree(dev_partial_c);
    delete []a;
    delete []b;
    delete []partial_c;
}

》》》回忆一下kernel函数中的：

while(i!= 0){
            if(cacheIndex < i)
                cache[cacheIndex] += cache[cacheIndex + i]; __syncthreads(); i /= 2; }

这里加一个__syncthreads();是因为使得下次循环时每个要用到的数据都是正确的，而一个block中每次都有一半的数据不会在下个循环中用到，就不需要同步了，那么我们可不可以改成：

while(i!= 0){ if(cacheIndex < i){ cache[cacheIndex] += cache[cacheIndex + i]; __syncthreads(); }
            i /= 2;
        }

不可以，程序会崩溃。

首先介绍一下thread divergence线程分支。所有线程执行的指令都是一样，但是它们操作的数据不同。上端代码中出现了if判断句，当一个block中所有线程有一部分满足条件而另一部分不满足的时候，满足条件的线程执行程序，而不满足的线程什么都不做，而不是执行另一分支的指令。

当程序中出现__syncthreads();时，要求：直到一个block中所有线程都执行到这句时，才能执行之后的指令。如果有部分线程不执行这个指令，则所有线程永远在等待。这真是个悲剧。

__syncthreads();很有用也很必要，但是一定要注意让所有的线程都执行到这句。

》》》shared memory bitmap

这个实验展示了正确使用__syncthreads()是多么重要啊！！！
首先是主函数，基本上和Julia Set差不多，就是<<<>>>中的内容变了下，变成了，嗯…：

int main( void ) {
    CPUBitmap bitmap( DIM, DIM );
    unsigned char *dev_bitmap;

    HANDLE_ERROR(cudaMalloc((void**)&dev_bitmap, bitmap.image_size()));
    dim3 grids(DIM/16, DIM/16);           //
    dim3 threads(16, 16);                 // 
    kernel<<<grids, threads>>>(dev_bitmap);

    HANDLE_ERROR(cudaMemcpy(bitmap.get_ptr(), dev_bitmap, bitmap.image_size(), cudaMemcpyDeviceToHost));
    bitmap.display_and_exit();
    cudaFree(dev_bitmap);
}

下面是uncorrect的kernel函数：

__global__ void kernel(unsigned char *ptr){
    //熟悉的计算……
    int x = threadIdx.x + blockIdx.x * blockDim.x;
    int y = threadIdx.y + blockIdx.y * blockDim.y;
    int offset = x + y * blockDim.x * gridDim.x;

    //因为用到shared M所以分配空间：
    __shared__ float shared[16][16];
    const float period = 128.0f;
    //计算每个点（不明觉厉）（谁看谁傻逼）：
    shared[threadIdx.x][threadIdx.y] = 
        255 * (sinf(x*2.0f*PI/ period) + 1.0f) *
              (sinf(y*2.0f*PI/ period) + 1.0f) / 4.0f;
    ptr[offset*4 + 0] = 0;
    ptr[offset*4 + 1] = shared[15-threadIdx.x][15-threadIdx.y];
    ptr[offset*4 + 2] = 0;
    ptr[offset*4 + 3] = 255;
}

然后我们得到了破碎的绿色小球：

很显然少了一句

    shared[threadIdx.x][threadIdx.y] = 
        255 * (sinf(x*2.0f*PI/ period) + 1.0f) *
              (sinf(y*2.0f*PI/ period) + 1.0f) / 4.0f;
    __syncthreads();                ///////////////////////////
    ptr[offset*4 + 0] = 0;
    ptr[offset*4 + 1] = shared[15-threadIdx.x][15-threadIdx.y];
    ptr[offset*4 + 2] = 0;
    ptr[offset*4 + 3] = 255;

这样以后的结果是：

》》》chapter review

reduction
shared merory
sychronization

这章特别长，又长又臭……但是介绍的东西很重要！

DeepSeek R1-32B医疗大模型的完整微调实战分析（全码版） Allen_LVyingbo 医疗高效编程研发健康医疗人工智能 python
DeepSeekR1-32B微调实战指南├──1.环境准备│├──1.1硬件配置││├─全参数微调：4*A10080GB││└─LoRA微调：单卡24GB│├──1.2软件依赖││├─PyTorch2.1.2+CUDA││└─Unsloth/ColossalAI│└──1.3模型加载│├─4bit量化加载│└─FlashAttention2加速├──2.数据集构建│├──2.1数据源││├─CMD
记录 | python os添加系统环境变量极智视界 python linux os 系统环境变量
python中通过os来添加系统环境变量：#设置os系统环境变量os.environ['CUDA_VISIBLE_DEVICES']='0'os.environ['p2c']='1'os.environ['p2o']='0'os.environ['io']='0'#获取os系统环境变量os.getenv('CUDA_VISIBLE_DEVICES')os.getenv('p2c')...
GPU编程实战指南01：CUDA编程极简手册 anda0109 CUDA并行编程算法
目录1.CUDA基础概念1.1线程层次结构1.2内存层次结构2.CUDA编程核心要素2.1核函数2.2内存管理2.3同步机制3.CUDA优化技巧3.1内存访问优化3.2共享内存使用3.3线程分配优化4.常见问题和解决方案5.实际案例分析1.CUDA基础概念1.1线程层次结构CUDA采用层次化的线程组织结构，从小到大依次为：线程（Thread）：最基本的执行单元每个线程执行相同的核函数代码通过thr
安装CUDA12.1和torch2.2.1下的DKG 超级无敌大好人 python
1.创建python虚拟环境setNO_PROXY=*condadeactivatecondaenvremove-nfindkgcondacreate-nfindkgpython=3.11condaactivatefindkgcondainstallpackagingsetuptoolspipuninstallnumpycondainstallnumpy=1.24.3请注意，DKG需要python
win11编译pytorch cuda128版本流程 System_sleep pytorch 人工智能 python 编译 windows cuda
Geforce50xx系显卡最低支持cuda128，torchcu128release版本目前还没有释放，所以自己基于2.6.0源码自己编译wheel包。1.前置条件1.使用visualstudioinstaller安装visualstudio2022，工作负荷选择【使用c++的桌面开发】,安装完成后将“VC\Tools\MSVC\\bin\Hostx64\x64”对应的路径加入环境变量；2.访问
【学习笔记5】Linux下cuda、cudnn、pytorch版本对应关系 longii11 linux pytorch 运维
一、cuda和cudnnNVIDIACUDAToolkit（CUDA）为创建高性能GPU加速应用程序提供了一个开发环境。借助CUDA工具包，您可以在GPU加速的嵌入式系统、桌面工作站、企业数据中心、基于云的平台和HPC超级计算机上开发、优化和部署您的应用程序。该工具包包括GPU加速库、调试和优化工具、C/C++编译器以及用于部署应用程序的运行时库。全球的深度学习研究人员和框架开发人员都依赖cuDN
yolov8训练模型、测试视频灰灰学姐深度学习神经网络 YOLO python 机器学习
yolov8先训练生成best.pt文件，用这个生成的模型进行视频的测试因为本来用的代码生成的测试视频打不开，格式应该是损坏了，或者部分帧没有正常保存吧。修改了一下代码，现状可以正常打开生成的视频了。1、训练代码train.pyimportos#os.environ["CUDA_VISIBLE_DEVICES"]="3"#同样是选择第3块GPUfromultralyticsimportYOLO#L
解决No such file or directory: ‘:/usr/local/cuda:/usr/local/cuda:...‘ 北冰洋漂流环境配置 linux 服务器运维
【报错】error:[Errno2]Nosuchfileordirectory:':/usr/local/cuda:/usr/local/cuda:/usr/local/cuda:/usr/local/cuda/bin/nvcc'【解决方法】命令行输入命令exportCUDA_HOME=/usr/local/cuda重新运行安装（如pipinstall-v-e.）
PyTorch 与 NVIDIA GPU 的适配版本及安装小赖同学啊人工智能 pytorch 人工智能 python
PyTorch与NVIDIAGPU的适配版本需要通过CUDA和cuDNN来实现。以下是详细的安装教程，包括如何选择合适的PyTorch版本以及如何配置NVIDIAGPU环境。1.检查NVIDIAGPU和驱动1.1检查GPU型号确保你的机器上有NVIDIAGPU，并知道其型号。可以通过以下命令检查：nvidia-smi输出示例：+-----------------------------------
C++使用Onnxruntime/TensorRT模型推理奇华智能 AI c++开发语言人工智能 AI 计算机视觉
onnxruntime和tensorrt是我们常用的两种推理方式，下面整理了两个推理示例，仅供参考。步骤流程模型训练，python下生成pytorch的模型.pth，并基于.pth模型进行推理python下依据模型推理实现从.pth转向.onnxpython下基于.onnx进行推理，与后续两种推理方式种的推理结果进行比较环境windows10+RTX308015GB显存cuda11.3onnxru
NCU使用指南及模型性能测试（pytorch2.5.1） Jakari cuda gpu ncu python docker 深度学习 pytorch
本项目在原项目的基础上增加了NsightCompute(ncu)测试的功能，并对相关脚本功能做了一些健硕性的增强，同时，对一些框架的代码进行了更改（主要是数据集的大小和epoch等），增加模型性能测试的效率，同时完善了模型LSTM的有关功能。OverviewNsightCompute(NCU)是NVIDIA提供的GPU内核级性能分析工具，专注于CUDA程序的优化。它提供详细的计算资源、内存带宽、指
高性能计算中如何优化内存管理？ gpu
在高性能计算（HPC）中，优化内存管理是提升计算性能的关键环节之一。以下是一些常见的优化策略和方法：内存分配与管理策略内存池技术：通过预分配一定大小的内存池，避免频繁的内存分配和释放操作，减少内存碎片化。例如，在CUDA编程中，可以使用内存池来管理GPU内存，从而提高内存访问效率。异构内存管理：在异构计算环境中（如CPU+GPU），采用统一内存管理（UnifiedMemory）或智能数据迁移策略，
图像识别技术与应用课后总结（12）一元钱面包人工智能
全局平均池化（GlobalAveragePooling）1.导入库和设备配置importtorch.nnasnnimporttorch.nn.functionalasFdevice=torch.device("cuda:0"iftorch.cuda.is_available()else"cpu")-importtorch.nnasnn：导入PyTorch的神经网络模块，用于构建神经网络层。-imp
RuntimeError: CUDA error:device.side assert triggered（tensor形状有误） Gidear cuda
报错如下：RuntimeError:CUDAerror:device.sideasserttriggeredCUDAkernelerrorsmightbeasynchronouslyreportedatsomeotherAPIcall,sothestacktracebelowmightbeincorrect.后面经过检查发现，是进行计算的时候维度弄错了，下次遇到这个问题可以试着回去检查数据形状是否
莫名奇妙的异常009：mysql row size too large＞8126 杨友山异常
表中的varchar和text(longtext)字段太多，超出mysql的默认RowSize8k的限制。一般建议拆表，一个表不要太多列，列的内容不要太长。临时解决可以这样：1.设置mysql全局变量设置命令：SETGLOBALinnodb_file_format='Barracuda';检查命令：showGLOBALVARIABLESLIKE'%file_format%';步骤一一般数据库都有这
mysql row size too large_mysql 错误 Row size too large (> 8126)解决办法譃七唯 mysql row size too large
这个错误比较诡异，有很多问题会引发这个错误，主要问题大表中varchar和text(longtext)字段太多，超出mysql的默认RowSize8k的限制。如果涉及的表没有事务和外键的约束，可以把表类型改为MyISAM也可以解决。下面的方法针对表类型为InnoDB的方法。基础设置：innodb_file_per_table=1innodb_file_format=Barracuda如果解决不了，
使用pytorch和opencv根据颜色相似性提取图像深蓝海拓机器视觉和人工智能学习 opencv学习笔记 pytorch opencv 人工智能
需求：将下图中的花朵提取出来。代码：importcv2importtorchimportnumpyasnpimporttimedefget_similar_colors(image,color_list,threshold):#将图像和颜色列表转换为torch张量device=torch.device('cuda'iftorch.cuda.is_available()else'cpu')image
分布式多卡训练(DDP)踩坑 m0_54804970 面试学习路线阿里巴巴分布式
多卡训练最近在跑yolov10版本的RT-DETR，用来进行目标检测。单卡训练语句（正常运行）：pythonmain.py多卡训练语句：需要通过torch.distributed.launch来启动，一般是单节点，其中CUDA_VISIBLE_DEVICES设置用的显卡编号，也可以不用，直接在main.py里面指定device也行，–nproc_pre_node每个节点的显卡数量。python-m
Torch安装必知 m0_52111823 人工智能
从硬件到Torch的支持链条如下Nvidia显卡Nvidia显卡驱动CudaTorchCudnncudnn对torch不是必需，部分项目会依赖cudnn。查看本机显卡版本型号，win+R，输入DxDiag，在显示或呈现栏包含显卡信息查看显卡版本与显卡驱动版本的兼容性，在https://www.nvidia.cn/geforce/drivers/，查看本机显卡支持的显卡驱动，根据搜索结果下载最新的N
win11编译pytorchvision cuda128版本流程 System_sleep pytorch python 编译 windows cuda
1.前置条件本篇续接自win11编译pytorchcuda128版本流程，阅读前请先参考上一篇配置环境。访问https://kkgithub.com/pytorch/vision/archive/refs/tags/v0.21.0.tar.gz下载源码，下载后解压。2.编译打开MiniforgePrompt，依次执行如下代码：condaactivatetorch_build_envcondains
科技快讯 | DeepSeek宣布开源DeepGEMM；多个团队开发AI论文反识别技术；OpenAI GPT 4.5现身Android测试版，即将发布最新科技快讯科技
DeepSeek宣布开源DeepGEMM财联社2月26日电，Deepseek于开源周第三天宣布开源DeepGEMM。DeepGEMM是一个专为简洁高效的FP8通用矩阵乘法（GEMM）设计的库，具有细粒度缩放功能，如DeepSeek-V3中所提出。它支持普通和混合专家（MoE）分组的GEMM。该库采用CUDA编写，在安装过程中无需编译，通过使用轻量级的即时编译（JIT）模块在运行时编译所有内核。FP
【学习】电脑上有多个GPU，命令行指定GPU进行训练。超好的小白学习人工智能深度学习
使用如下指令可以指定使用的GPU。CUDA_VISIBLE_DEVICES=1假设要使用第二个GPU进行训练。CUDA_VISIBLE_DEVICES=1pythontrain.py
window11和Ubuntu20.04安装Nvidia驱动和CUDA的正确方法 qq_29128985 linux python 深度学习
零、双系统安装Win11Ubuntu20.04双系统安装解决ubuntu+win11双系统时间不一致问题Ubuntu:系统分区一、安装Nvidia驱动参考：Ubuntu20.04安装NVIDIA显卡驱动、CUDA、CUDNN及突破NVENC并发限制、多版本CUDA切换1、准备工作1）查看显卡型号lspci|grep-invidia2）禁用nouveau并重启（安装Nvidia显卡的官方驱动和系统自
Anaconda配置tensorflow-gpu教程 rubisco214 tensorflow 人工智能 python
最近在入门tensorflow深度学习，配置环境吃了不少苦头，写个完整的教程首先得在自己主机上装cuda（我之前就是主机上没装cuda,只在虚拟环境里面装了，结果jupyter里面怎么调都识别不到GPU）打开Nvidia控制面板，左上角帮助-系统信息-组件NVCUDA64.DLL后面的NVIDIACUDA12.1就是你的显卡支持的CUDA版本，去CUDA官网CUDAToolkitArchive|N
Stable diffusion 3.5本地运行环境配置记录寸先生的牛马庄园扩散模型 stable diffusion
1.环境配置创建虚环境condacreate-nsd3.5python=3.10Pytorch(>2.0)condainstallpytorch==2.2.2torchvision==0.17.2torchaudio==2.2.2pytorch-cuda=12.1-cpytorch-cnvidiaJupyter能使用Anaconda虚环境condainstallipykernelpython-mi
解读CUDA Compiler Driver NVCC - Ch.3 AliceWanderAI NVCC NVCC
前言上一篇文章简单了介绍了nvcc预定义的宏，以及支持的编译阶段，对应的输入文件后缀和输出文件的默认名。本篇文章了解CUDA源文件编译的整个workflow。OverviewCUDA编译的工作原理如下：输入程序经过设备编译编译预处理，编译为CUDA二进制（cubin）和/或PTX中间代码，被放置在一个fatbinary。输入程序再次预处理以供主机编译，嵌入到fatbinary，并将CUDA特定C+
NVIDIA CUDA Compiler Driver NVCC Yongqiang Cheng NVIDIA GPU -CUDA -cuDNN NVIDIA CUDA Compiler NVCC
NVIDIACUDACompilerDriverNVCC4.2.8.23.`--list-gpu-code`(`-code-ls`)4.2.8.24.`--list-gpu-arch`(`-arch-ls`)Referenceshttps://docs.nvidia.com/cuda/cuda-compiler-driver-nvcc/Thedocumentationfornvcc,theCUDA
安装CUDA以及GPU版本的pytorch lskkkkkkkkkkkk Python pytorch 人工智能 python
使用pytorch进行深度学习的时候，往往想用GPU进行运算来提高速度。于是搜索便知道了CUDA。下面给出一个自检的建议：检查cuda的版本是否适配自己的GPU。打开NVDIA控制面板，点击左下角“系统信息”，然后就可以看到NVDIAGPU的详细信息，其中就包含了CUDA的版本。在官网安装合适版本的cuda-toolkit。安装了cuda，但是命令行输入nvcc-V报错显示没有nvcc这时候可能没
下载cuda11.2+cudnn8.1+tensorflow-gpu2.5 听微雨深度学习 tensorflow 人工智能
下载前请先安装显卡驱动，去显卡官网找对应的驱动，英伟达4060就去英伟达官网找4060的驱动。安装cuda11.2和cudnn8.1要注意自己的版本，目前tensorflow-gpu2.5或最高版本tensorflow-gpu2.6只支持cuda11.2和cudnn8.1。同时cuda版本要低于显卡最高支持版本，使用命令行语句查看：nvidia-smi具体安装过程看cuda11.2+cudnn8.
DL之IDE：深度学习环境安装之Tensorflow/tensorflow_gpu+Cuda+Cudnn(最清楚/最快捷)之详细攻略(图文教程) 一个处女座的程序猿精选(人工智能)-中级深度学习人工智能 tensorflow
DL之IDE：深度学习环境安装之Tensorflow/tensorflow_gpu+Cuda+Cudnn(最清楚/最快捷)之详细攻略(图文教程)导读本人在Win10下安装深度学习框架Tensorflow，安装之前各种谷歌，各种百度，各种国内外资料，做了充分准备。目录安装思路1、tensorflow_gpu+Cuda+Cudnn版本匹配官方推荐2、先解释一下cuda与cudannDL之IDE：深度学
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&

CUDA_by_Examples_Chapter5

Chapter5

你可能感兴趣的:(CUDA)