weixin_39915820

cuda矩阵相乘_2.3CUDA矩阵乘法

CPU 矩阵乘法

能相乘的两个矩阵，必须满足一个矩阵的行数和第二个矩阵的列数相同.

A(N*P) * B(P*M) = C(N*M).　其中P是行数，N是列数，　从宽高的角度来说，即 A的宽度和B的高度是相同的．C矩阵 = ha * wb.

其中C(i,j) = A矩阵中的i行和B矩阵中的j列进行点乘得到该点的值．

//C = A*B

void MatrixMulCPU(float* _C,const float *_A,const float *_B,int _wa,int _ha,int_wb)

{float sum = 0;for (int i = 0; i < _ha; ++i)

{for (int j = 0; j < _wb; ++j)

{

sum= 0;for (int k = 0; k < _wa; ++k)

{

//i*_wa得到当前对应的是A矩阵中的哪一行，+k对应当前行的哪一列．矩阵Ａ的stride是wa

//j对应当前矩阵Ｂ的哪一列，＋k*wb依次表示第０行的j列,第１行的j列...第wa-1行的j列．矩阵Ｂ的stride是wb

sum+= (float)_A[i*_wa+k]*(float)_B[k*_wb+j];

}

_C[i*_wb+j] = (float)sum;

}

简单矩阵乘法

C(i,j) = sum { A(i,k)*B(k,j) } 0<=k < _wa;耦合程度很小，所以我们可以通过划分区域的方法，让每个线程负责一个区域。

怎么划分呢？首先最初的想法是让每一个线程计算一个C(i,j)，那么估算一下，应该需要height_c*width_c，也就是ha*wb个线程。进一步，我们将矩阵按一个大方格Block划分，如果一个方格Block大小是16*16，那么矩阵80*48的可以表示为5(*16) * 3(*16)，即5*3个大格子(Grid)，所以grid的划分自然就是(height_c/16) *(width_c/16)个线程了。

好了，划分完后，内核代码如下：　这个kernel的代码只是把外层两个循环变成

计算版本0：

__global__ void matrix_kernel_0(float* _C,const float* _A,const float *_B,int _wa,int_wb)

{float sum = 0;//找出该线程所在的行列

int row = blockIdx.y*blockDim.y +threadIdx.y; // X 对应矩阵row, Y对应举证colint col = blockIdx.x*blockDim.x +threadIdx.x;//线程Thread(row,col)负责计算C(row,col)

for (int i = 0; i < _wa; ++i)

{

sum+= _A[row*_wa + i]*_B[i*_wb +col];

}

_C[row*_wb + col] =sum;

}

这个是Heterogeneous Parallel Programming　lab3:Basic Matrix Matrix Multiplication的代码：

#include

#define wbCheck(stmt) \

do{ \

cudaError_t err=stmt; \if (err !=cudaSuccess) { \

wbLog(ERROR,"Failed to run stmt", #stmt); \

wbLog(ERROR,"Got CUDA error ...", cudaGetErrorString(err)); \return -1; \

} \

}while (0)#if 0 //This is C verison matrixMUl

//C = A*B

void MatrixMulCPU(float* _C,const float *_A,const float *_B,int _wa,int _ha,int_wb)

{float sum = 0;for (int i = 0; i < _ha; ++i)

{for (int j = 0; j < _wb; ++j)

{

sum= 0;for (int k = 0; k < _wa; ++k)

{

sum+= (float)_A[i*_wa+k]*(float)_B[k*_wb+j];

}

_C[i*_wb+j] = (float)sum;

}

}#endif

//Compute C = A * B , Matrix C = hA * wB = rowA * columnB

__global__ void matrixMultiply(float *A, float *B, float *C, intnumARows,int numAColumns, int numBRows, intnumBColumns,int numCRows, intnumCColumns) {//@@ Insert code to implement matrix multiplication here

float sum = 0.0f;int row = blockIdx.y*blockDim.y +threadIdx.y;int col = blockIdx.x*blockDim.x +threadIdx.x;if(row < numCRows && col

{

sum+= A[row*numAColumns + i] * B[i*numBColumns +col];

}

C[row*numBColumns + col] =sum;

}

printf("C = %f\n",C[row*numBColumns +col]);

}int main(int argc, char **argv) {

wbArg_t args;float *hostA; //The A matrix

float *hostB; //The B matrix

float *hostC; //The output C matrix

float *deviceA;float *deviceB;float *deviceC;int numARows; //number of rows in the matrix A

int numAColumns; //number of columns in the matrix A

int numBRows; //number of rows in the matrix B

int numBColumns; //number of columns in the matrix B

int numCRows; //number of rows in the matrix C (you have to set this)

int numCColumns; //number of columns in the matrix C (you have to set this)

args=wbArg_read(argc, argv);

wbTime_start(Generic,"Importing data and creating memory on host");

hostA=(float * )wbImport(wbArg_getInputFile(args, 0), &numARows, &numAColumns);

hostB=(float * )wbImport(wbArg_getInputFile(args, 1), &numBRows, &numBColumns);//@@ Set numCRows and numCColumns

numCRows = 0;

numCColumns= 0;if(numAColumns !=numBRows){

wbLog(TRACE,"numAColumns != numBRows, Break");return 1;

}

numCRows=numARows;

numCColumns=numBColumns;

unsignedint A_size = numARows * numAColumns * sizeof(float);

unsignedint B_size = numBRows * numBColumns * sizeof(float);

unsignedint C_size = numCRows * numCColumns * sizeof(float);//@@ Allocate the hostC matrix

hostC = ( float *)malloc(C_size);

wbTime_stop(Generic,"Importing data and creating memory on host");

wbLog(TRACE,"The dimensions of A are", numARows, "x", numAColumns);

wbLog(TRACE,"The dimensions of B are", numBRows, "x", numBColumns);

wbTime_start(GPU,"Allocating GPU memory.");//@@ Allocate GPU memory here

wbCheck(cudaMalloc((void**)&deviceA, A_size));

wbCheck(cudaMalloc((void**)&deviceB, B_size));

wbCheck(cudaMalloc((void**)&deviceC, C_size));

wbTime_stop(GPU,"Allocating GPU memory.");

wbTime_start(GPU,"Copying input memory to the GPU.");//@@ Copy memory to the GPU here

wbCheck(cudaMemcpy(deviceA, hostA, A_size, cudaMemcpyHostToDevice));

wbCheck(cudaMemcpy(deviceB, hostB, B_size, cudaMemcpyHostToDevice));

wbCheck(cudaMemcpy(deviceC, hostC, C_size, cudaMemcpyHostToDevice));

wbTime_stop(GPU,"Copying input memory to the GPU.");//@@ Initialize the grid and block dimensions here

dim3 DimGrid((numCColumns-1)/16+1, (numCRows-1)/16+1, 1);

dim3 DimBlock(16, 16, 1);

wbTime_start(Compute,"Performing CUDA computation");//@@ Launch the GPU Kernel here

matrixMultiply<<< DimGrid, DimBlock >>>(deviceA, deviceB, deviceC, numARows, numAColumns, numBRows, numBColumns, numCRows, numCColumns);

cudaDeviceSynchronize();

wbTime_stop(Compute,"Performing CUDA computation");

wbTime_start(Copy,"Copying output memory to the CPU");//@@ Copy the GPU memory back to the CPU here//@@ Copy the GPU memory back to the CPU here

wbCheck(cudaMemcpy(hostC, deviceC, C_size, cudaMemcpyDeviceToHost));

wbTime_stop(Copy,"Copying output memory to the CPU");

wbTime_start(GPU,"Freeing GPU Memory");//@@ Free the GPU memory here

wbCheck(cudaFree(deviceA));

wbCheck(cudaFree(deviceB));

wbCheck(cudaFree(deviceC));

wbTime_stop(GPU,"Freeing GPU Memory");

wbSolution(args, hostC, numCRows, numCColumns);

free(hostA);

free(hostB);

free(hostC);return 0;

}

View Code

使用tile来划分矩阵乘法

另外一种思路，我们不让每一个线程完整计算一个C(i,j)，通过C(i,j) = sum { A(i,k)*B(k,j) }发现，我们还可以再细度划分：

Csub(i,j) = sum{A(i,ksub+offsetA)*B(ksub+offsetB,j)} 0<=ksub < blockSize

C(i,j) = sum{Csub(i,j)}

就是把矩阵分成n*n个大的子块，然后每一个block负责计算子块i 和子块j的子乘积，计算完毕后加起来则可。这里主要引入shared Memory来提高程序效率．

计算矩阵我们

__global__ void matrix_kernel_1(float* _C,const float* _A,const float *_B,int _wa,int_wb) //_wa是A矩阵的宽度，_wb是矩阵B的宽度

{int bx =blockIdx.x; //Block X的当前位置int by =blockIdx.y;　//Block　y的当前位置int tx =threadIdx.x;int ty =threadIdx.y;//该block要处理的A ,A的取值方向是X轴方向， B的取值方向是Y轴方向

int aBegin = _wa*(by*BLOCK_SIZE);//A(0,by) //在矩阵A上每个block的首地址

int aEnd = aBegin + _wa - 1; //int aStep = BLOCK_SIZE;//offsetA //因为A是横向取值，所以step是blocksize

int bBegin = BLOCK_SIZE*bx;//B(bx,0) //矩阵B的首地址

int bStep = BLOCK_SIZE*_wb;//offsetB //因为B是纵向取值，所以step是blocksize*_wb.

float cSub = 0;

//每一个线程计算一个像素点，分成wa/block 次来计算，每次计算一段A(sub) * B(sub)，最后累加得到C的结果．

//假设矩阵都是n*n的，那么旧的basicMatrix每个线程都需要执行2n次globalMemory的访问，这里用到sharedMemory只需要执行2n／blocksize，每个线程可以提高blocksize倍，

／／每个block里面的thread都是通过读取sharedMemory来执行计算的，速度会非常快．for (int a = aBegin,b = bBegin; a <= aEnd; a += aStep,b +=bStep)

{

__shared__floatAs[BLOCK_SIZE][BLOCK_SIZE];

__shared__floatBs[BLOCK_SIZE][BLOCK_SIZE];//每个线程负责一个元素拷贝,我们以block为单位来分析。假设blocksize=16, 一个block里面有 16*16个线程。

//每个block 可以填满需要用到的 As, 和Bs大小的矩阵。这里就是矩阵A里面的16*16的数据可以填满，保存在sharedMemory中。同样B矩阵也是。

As[ty][tx] = _A[a + _wa*ty +tx];

Bs[ty][tx]= _B[b + _wb*ty +tx];

__syncthreads();　//同步使得矩阵Ａ，和矩阵Ｂ的第一个tile*tile的数据保存在As和Bs里，供下面的计算使用．//每个线程负责计算一个子块i 和子块j的子乘积宽度是block_size,执行到wa/block_size次，累加可得到Ｃ的值

for (int k = 0; k < BLOCK_SIZE; ++k)

{

cSub+= As[ty][k]*Bs[k][tx];

}

__syncthreads();

}//全局地址，向全局寄存器写回去//一个线程负责一个元素，一个block负责一个子块

int cIndex = (by*BLOCK_SIZE + ty)*_wb + (bx*BLOCK_SIZE +tx);

_C[cIndex]=cSub;

}

二维矩阵的索引问题:

假设有一个32*48的矩阵，x的范围[0,47], y的范围是[0,31]。在代码中是以一个二维数组保存，内存是连续的。目前我们要找到point(23,23)的索引：

一维指针指向的应该是: 23*48 + 23.

但是我们同样也可以用grid 和block 来划分这个矩阵:

grid(3,2) (2是列，即X维度，2是行，Y维度), block(16,16) 。 grid X的范围是是[0,2], Y的范围是[0,1]. 同理适用于block 我们也可以用下面的方式找到point(23,23)的索引：

point(23,23) 对应grid的坐标是(1,1) 对应的block坐标是(7,7)。block的宽度是16。

point.y = (by*Block_size + ty) = 1*16+7 =23

point.x = (bx*Block_size + tx)= 1*16+7 =23

point(x,y)的索引位置是： y * width + x

这个是Heterogeneous Parallel Programming　lab4:Basic Matrix Matrix Multiplication的代码：

#include

#define wbCheck(stmt) \

do{ \

cudaError_t err=stmt; \if (err !=cudaSuccess) { \

wbLog(ERROR,"Failed to run stmt", #stmt); \

wbLog(ERROR,"Got CUDA error ...", cudaGetErrorString(err)); \return -1; \

} \

}while (0)#define TILE_WIDTH 32 //block size ,each thread to calucate each block

//Compute C = A * B

__global__ void matrixMultiplyShared(float *A, float *B, float *C, intnumARows,int numAColumns, intnumBRows,int numBColumns, intnumCRows,intnumCColumns) {//@@ Insert code to implement matrix multiplication here//@@ You have to use shared memory for this MP

__shared__floatsharedM[TILE_WIDTH][TILE_WIDTH];

__shared__floatsharedN[TILE_WIDTH][TILE_WIDTH];int bx =blockIdx.x;int by =blockIdx.y;int tx =threadIdx.x;int ty =threadIdx.y;int row = by*TILE_WIDTH +ty;int col = bx*TILE_WIDTH +tx;float v = 0.0;for (int i = 0; i < (int)(ceil((float)numAColumns/TILE_WIDTH)); i++)

{if (i*TILE_WIDTH + tx < numAColumns && row

sharedM[ty][tx]= A[row*numAColumns + i*TILE_WIDTH +tx];elsesharedM[ty][tx]= 0.0;if (i*TILE_WIDTH + ty < numBRows && col

sharedN[ty][tx]= B[(i*TILE_WIDTH + ty)*numBColumns +col];elsesharedN[ty][tx]= 0.0;

__syncthreads();for(int j = 0; j < TILE_WIDTH; j++)

v+= sharedM[ty][j] *sharedN[j][tx];

__syncthreads();

}if (row < numCRows && col

C[row*numCColumns + col] =v;

}int main(int argc, char **argv) {

wbArg_t args;float *hostA; //The A matrix

float *hostB; //The B matrix

float *hostC; //The output C matrix

float *deviceA;float *deviceB;float *deviceC;int numARows; //number of rows in the matrix A

int numAColumns; //number of columns in the matrix A

int numBRows; //number of rows in the matrix B

int numBColumns; //number of columns in the matrix B

int numCRows; //number of rows in the matrix C (you have to set this)

int numCColumns; //number of columns in the matrix C (you have to set this)

args=wbArg_read(argc, argv);

wbTime_start(Generic,"Importing data and creating memory on host");

hostA=(float * )wbImport(wbArg_getInputFile(args, 0), &numARows, &numAColumns);

hostB=(float * )wbImport(wbArg_getInputFile(args, 1), &numBRows, &numBColumns);//@@ Set numCRows and numCColumns

numCRows = 0;

numCColumns= 0;if(numAColumns !=numBRows){

wbLog(TRACE,"numAColumns != numBRows, Break");return 1;

}

numCRows=numARows;

numCColumns=numBColumns;

unsignedint A_size = numARows * numAColumns * sizeof(float);

unsignedint B_size = numBRows * numBColumns * sizeof(float);

unsignedint C_size = numCRows * numCColumns * sizeof(float);//@@ Allocate the hostC matrix

hostC = ( float *)malloc(C_size);

wbTime_stop(Generic,"Importing data and creating memory on host");

wbLog(TRACE,"The dimensions of A are", numARows, "x", numAColumns);

wbLog(TRACE,"The dimensions of B are", numBRows, "x", numBColumns);

wbTime_start(GPU,"Allocating GPU memory.");//@@ Allocate GPU memory here

wbCheck(cudaMalloc((void**)&deviceA, A_size));

wbCheck(cudaMalloc((void**)&deviceB, B_size));

wbCheck(cudaMalloc((void**)&deviceC, C_size));

wbTime_stop(GPU,"Allocating GPU memory.");

wbTime_start(GPU,"Copying input memory to the GPU.");//@@ Copy memory to the GPU here

wbCheck(cudaMemcpy(deviceA, hostA, A_size, cudaMemcpyHostToDevice));

wbCheck(cudaMemcpy(deviceB, hostB, B_size, cudaMemcpyHostToDevice));

wbCheck(cudaMemcpy(deviceC, hostC, C_size, cudaMemcpyHostToDevice));

wbTime_stop(GPU,"Copying input memory to the GPU.");//@@ Initialize the grid and block dimensions here

dim3 DimGrid(ceil(numCColumns / 32.0), ceil(numCRows / 32.0), 1);

dim3 DimBlock(TILE_WIDTH, TILE_WIDTH,1);

wbTime_start(Compute,"Performing CUDA computation");//@@ Launch the GPU Kernel here

matrixMultiplyShared<<< DimGrid, DimBlock >>>(deviceA, deviceB, deviceC, numARows, numAColumns, numBRows, numBColumns, numCRows, numCColumns);

cudaDeviceSynchronize();

wbTime_stop(Compute,"Performing CUDA computation");

wbTime_start(Copy,"Copying output memory to the CPU");//@@ Copy the GPU memory back to the CPU here//@@ Copy the GPU memory back to the CPU here

wbCheck(cudaMemcpy(hostC, deviceC, C_size, cudaMemcpyDeviceToHost));

wbTime_stop(Copy,"Copying output memory to the CPU");

wbTime_start(GPU,"Freeing GPU Memory");//@@ Free the GPU memory here

wbCheck(cudaFree(deviceA));

wbCheck(cudaFree(deviceB));

wbCheck(cudaFree(deviceC));

wbTime_stop(GPU,"Freeing GPU Memory");

wbSolution(args, hostC, numCRows, numCColumns);

free(hostA);

free(hostB);

free(hostC);return 0;

}

View Code

你可能感兴趣的:(cuda矩阵相乘)

【安装环境】配置MMTracking环境 xuanyu22 安装环境机器学习神经网络深度学习 python
版本v0.14.0安装torchnumpy的版本不能太高，否则后面安装时会发生冲突。先安装numpy，因为pytorch的安装会自动配置高版本numpy。condainstallnumpy=1.21.5mmtracking支持的torch版本有限，需要找到合适的condainstallpytorch==1.11.0torchvision==0.12.0cudatoolkit=10.2-cpytor
安装torch报错 raise ReadTimeoutError(self._pool, None, “Read timed out.“) pip._vendor.urllib3.exceptions 待磨的钝刨 pip pytorch 人工智能
文章目录1.配置cuda的torch环境时报错1.配置命令2.报错bug2.解决方法1.增加下载超时时间：2.尝试使用镜像源：3.检查网络连接：4.分次安装：5.重试安装：6.手动下载.whl文件安装1.配置cuda的torch环境时报错1.配置命令pipinstalltorch==2.0.1torchvision==0.15.2torchaudio==2.0.2--index-urlhttps:
SAM2跑通（Ubuntu20.04)内含安装多个cuda 好好607 pytorch linux
参考链接：github链接安装cuda，之前借鉴的方法安装多个cuda补充cuda安装：Asymlinkalreadyexistsat/usr/local/cuda.Updatetothisinstallation?选择no，否则会创建一个软连接覆盖之前那个/usr/local/cudasudogedit~/.bashrc如果按第二个链接安装的cuda，手动改一下版本即可SAM环境安装步骤除了本地
使用vllIm部署大语言模型添砖JAVA的小墨机器学习
使用vllm部署大语言模型一般需要以下步骤：一、准备工作1.系统要求-操作系统：常见的Linux发行版（如Ubuntu、CentOS）或Windows（通过WSL）。-GPU支持：NVIDIAGPU并安装了适当的驱动程序。-足够的内存和存储空间。2.安装依赖-Python3.8及以上版本。-CUDA工具包（根据GPU型号选择合适的版本）。二、安装vllm1.创建虚拟环境（推荐）-使用Conda：c
vllm在线推理踩坑记懂点投资的码农大语言模型 ai 语言模型 python
最近在《AI大模型全栈工程师》课程里看老师推荐使用vllm部署大模型，优点就不详细介绍了，这里摘抄一段来自于Qwen2上手指南对于它的简单介绍：它易于使用，且具有最先进的服务吞吐量、高效的注意力键值内存管理（通过PagedAttention实现）、连续批处理输入请求、优化的CUDA内核等功能。至于原理就先不看了，直接上手部署，以后再来补理论知识。一、vLLM在线推理在Qwen2的上市指南里介绍了v
多版本cuda安装及灵活切换详细教程 Fzc_PCL CUDA Linux 记录 cuda linux
一、首先介绍下我所使用的环境ubuntu18.04+1080ti二、下载安装包1.cudatoolkit下载①环境选择，想要多版本共存的，尽量选择runfile文件进行安装②有些cudatoolkit下载页面，和我上边的一样，没有对应的安装包下载按钮，BaseInstaller中只给了两行命令，如果运行第一行命令的话，下载会比较慢，我是直接复制wget后边的链接在新网页窗口中打开，会自动弹出下载窗
Cuda 程序编译报错: fatal error: cusparse.h: No such file or directory 原野寻踪实践经验 cuda
编译cuda程序时发现下列报错：/mnt/xxx/miniconda3/envs/xxx/lib/python3.8/site-packages/torch/include/ATen/cuda/CUDAContext.h:6:10:fatalerror:cusparse.h:Nosuchfileordirectory#include^~~~~~~~~~~~检查发现是选择了错误的Cuda版本。ls/
天下苦英伟达久矣！PyTorch官方免CUDA加速推理，Triton时代要来？诗者才子酒中仙物联网 /互联网 /人工智能 /其他 pytorch 人工智能 python
在做大语言模型（LLM）的训练、微调和推理时，使用英伟达的GPU和CUDA是常见的做法。在更大的机器学习编程与计算范畴，同样严重依赖CUDA，使用它加速的机器学习模型可以实现更大的性能提升。虽然CUDA在加速计算领域占据主导地位，并成为英伟达重要的护城河之一。但其他一些工作的出现正在向CUDA发起挑战，比如OpenAI推出的Triton，它在可用性、内存开销、AI编译器堆栈构建等方面具有一定的优势
GPU版pytorch安装普通攻击往后拉 python tips 神经网络基础模型关键点
由于经常重装系统，导致电脑的环境需要经常重新配置，其中尤其是cudatorch比较难以安装，因此记录一下安装GPU版本torch的过程。1）安装CUDAtoolkit这个可以看做是N卡所有cuda计算的基础，一般都会随驱动的更新自动安装，但是不全，仍然需要安装toolkit，并不需要先看已有版本是哪个，反正下载完后会自动覆盖原有的cuda。下载网站两个：国内网站：只能下载最新的toolkit，但是
人工智能-GPU版本机器学习、深度学习模型安装 bw876720687 人工智能机器学习深度学习
背景1、在有Nvidia-GPU的情况下模型使用cuda加速计算，但是很有多模型的GPU和CPU版本安装方式不同，如何安装lgb\cat\xgb.2、为了让代码有普适性，如何自适应环境当中的设备进行CPU或者GPU的调整？解决方案问题一：安装GPU版本的LightGBMLightGBM默认不会安装GPU支持版，需要手动编译以启用GPU。以下是在Linux和Windows上编译GPU版本LightG
CUDA 编程入门（2）：CUDA 调度模型知识搬运工人 CUDA GPU CUDA
参考：CUDA编程入门（2）：CUDA编程模型-知乎(zhihu.com)CUDA调度模型Block调度Block对应的物理硬件概念是SM，也就是说SM负责block中线程的执行，SM会为每个block分配需求的资源，比如寄存器，共享内存等，由于SM自身资源有限，因此它被分配到的block数量也是有限的，这取决于block中线程的资源需求。当所有的SM都饱和之后，剩下的blocks将会被暂时挂起，
Ubuntu 开机出现 recovering journal 无法进入图形界面解决流程(不通用，自用) Artintel 学习 ubuntu
远程连接进入命令行：rm-rf/etc/X11/xorg.confcp/etc/X11/xorg.conf.failsafe/etc/X11/xorg.confsudoservicelightdmstopsudoapt-getremovenvidia*cdjohn/qudong+cuda9.0\+\cudnn/sudochmoda+xnv.runsudo./nv.run-no-x-check-no
Yolo-v3利用GPU训练make时发生错误：/usr/bin/ld: cannot find -lcuda 徐小妞66666
一.利用GPU训练Yolov3时，首先要修改MakeFile文件，修改格式如下：GPU=1(原来为0)CUDNN=1(原来为0)NVCC=/usr/local/cuda/bin/nvcc(新建,注意自己本机的地址)二.此时make产生错误/usr/bin/ld:cannotfind-lcuda1.查看MakeFile文件找到该行代码：LDFLAGS+=-L/usr/local/cuda/lib64
【环境搭建：onnx模型部署】onnxruntime-gpu安装与测试（python）(1) 2401_83703835 程序员 python 深度学习 pytorch
cuda==10.2cudnn==8.0.3onnxruntime-gpu==1.5.0or1.6.0pipinstallonnxruntime-gpu==1.6.0###2.2方法二：onnxruntime-gpu不依赖于本地主机上cuda和cudnn在conda环境中安装，不依赖于本地主机上已安装的cuda和cudnn版本，灵活方便。这里，先说一下已经测试通过的组合：*python3.6,cu
pytorch计算网络参数量和Flops Mr_Lowbee PyTorch pytorch 深度学习人工智能
fromtorchsummaryimportsummarysummary(net,input_size=(3,256,256),batch_size=-1)输出的参数是除以一百万（/1000000）M，fromfvcore.nnimportFlopCountAnalysisinputs=torch.randn(1,3,256,256).cuda()flop_counter=FlopCountAna
使用TensorRT对YOLOv8模型进行加速推理 fengbingchun Deep Learning CUDA/TensorRT YOLOv8 TensorRT
这里使用GitHub上shouxieai的infer框架对YOLOv8模型进行加速推理，操作过程如下所示：1.配置环境，依赖项，包括：(1).CUDA:11.8(2).cuDNN:8.7.0(3).TensorRT:8.5.3.1(4).ONNX:1.16.0(5).OpenCV:4.10.02.cloneinfer代码：https://github.com/shouxieai/infer3.使用
ONNX Runtime、CUDA、cuDNN、TensorRT版本对应可keke ML&DL pytorch deep learning
文章目录ONNXRuntime的安装ONNXRuntime与CUDA、cuDNN的版本对应ONNXRuntime与ONNX的版本对应ONNXRuntime、TensorRT、CUDA版本对应ONNXRuntime的安装官方文档注意，到目前为止，onnxruntime-gpu在CUDA12.x和CUDA11.x下的安装命令是不同的，仔细阅读官方文档。验证安装python>>>importonnxru
ONNXRuntime与CUDA版本对应 zy_destiny 部署 YOLO onnxruntime onnX 部署 cuda python
onnxruntime-gpu版本可以说是一个非常简单易用的框架，因为通常用pytorch训练的模型，在部署时，会首先转换成onnx，而onnxruntime和onnx又是有着同一个爸爸，无疑，在op的支持上肯定是最好的。通常在安装onnxruntime时，需要将其版本与pytorch版本和CUDA版本进行对应，其中ONNXRuntime与CUDA版本对应关系表如下表所示。ONNXRuntimeC
【已解决】onnx无法找到CUDA的路径烟花节已解决人工智能深度学习 python pip
报错RuntimeError:D:\a\_work\1\s\onnxruntime\python\onnxruntime_pybind_state.cc:857onnxruntime::python::CreateExecutionProviderInstanceCUDA_PATHissetbutCUDAwasntabletobeloaded.Pleaseinstallthecorrectvers
Window 下 Vim 环境安装踩坑问题汇总及解决方法 yyywxk #Python模块有关问题 vim python mamba windows
导航Linux下Mamba及Vim安装问题参看本人之前博客：Mamba环境安装踩坑问题汇总及解决方法Linux下Vmamba安装教程参看本人之前博客：Vmamba安装教程（无需更改base环境中的cuda版本）Windows下VMamba的安装参看本人之前博客：Windows下VMamba安装教程（无需更改base环境中的cuda版本且可加速）Window下Mamba环境教程参看本人之前博客：Wi
windows11 wsl2 ubuntu20.04安装vision mamba并进行测试一剑斩蛟龙人工智能深度学习图像处理计算机视觉 python 机器学习 pytorch
windows11wsl2ubuntu20.04安装visionmamba安装流程使用cifar-100测试安装成功安装流程visionmamba安装了半天才跑通，记录一下流程在wsl上安装cudawgethttps://developer.download.nvidia.cn/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_l
[Lora][微调] Qwen-VL/Qwen-VL-chat微调问题翔迅AI python
@[Lora][微调]Qwen-VL/Qwen-VL-chat微调问题关于Qwen-VL在lora过程中出现的问题总结。模型预训练错误一“erfinv_cuda”notimplementedfor‘BFloat16’RuntimeError:"erfinv_cuda"notimplementedfor'BFloat16'参考github中issue253给出的意见，修改Qwen-VL-Chat/v
【Pytorch】cumsum的实现逻辑栏杆拍遍看吴钩 pytorch pytorch 人工智能 python
本文只记录cumsum的实现逻辑的CUDA部分，也即底层调用了CUDA的什么实现算子。voidlaunch_cumsum_cuda_kernel(constTensorBase&result,constTensorBase&self,int64_tdim){AT_DISPATCH_ALL_TYPES_AND_COMPLEX_AND2(ScalarType::Half,ScalarType::BFl
百度飞桨paddle安装包括CUDA,cuDNN,opencv的安装小甲学长 opencv 百度 paddlepaddle
conda创建新环境这部分代码均在AnacondaPrompt中写，要求已有Anaconda第一步：创建condacreate--nameyourEnvpython=3.6–name：也可以缩写为【-n】，【yourEnv】是新创建的虚拟环境的名字，创建完，可以装anaconda的目录下找到envs/yourEnv目录python=2.7：是python的版本号。也可以指定为【python=3.6
深度学习回归任务训练代码模版槐月初叁深度学习深度学习回归人工智能
深度学习回归任务训练代码模版文章目录深度学习回归任务训练代码模版参数设置功能函数数据加载自定义数据集加载类特征选择（可选）数据读取定义模型训练模型训练迭代＋验证迭代使用`tensorboard`输出模型训练过程和指标可视化(可选)结果预测参考参数设置超参设置：config包含所有训练需要的超参数（便于后续的调参），以及模型需要存储的位置device='cuda'iftorch.cuda.is_av
cpu运行gpu上的pytorch 报错:AssertionError:torch not compiled with cuda enabled——已解决霍格沃茨电气魔法师 python java python 数据库 js 深度学习
感觉今天介绍的这种方法可以解决所有这种报错出现的问题事件发生：报错：AssertionError:torchnotcompiledwithcudaenabled解决方法：后来看到这个代码parser.add_argument('--test_device',default="cuda:0",type=str,
Transiting from CUDA to HIP（三）青禾子的夏 HIP 异构计算 Rocm 开发语言
一、Workarounds1.memcpyToSymbol在HIP(Heterogeneous-computeInterfaceforPortability)中，hipMemcpyToSymbol函数用于将数据从主机内存复制到设备上的全局内存或常量内存中，这样可以在设备端的内核中访问这些数据。这个功能特别有用，因为它允许在主机端定义数据符号，并在设备端的内核中使用这些符号。#include#inc
HALCON 错误代码 #7709 聪明不喝牛奶 Halcon+CSharp 深度学习 halcon 深度学习
前言最近在研究halcon的深度学习，在环境配置上花了不少的功夫搞定，结果正要开始训练分类的第二个train文件就出现了一个错误，报7709，折腾了三天才解决。原因报7709主要的原因有如下几个原因：1、就是你选的cuda版本和cudnn的不匹配，这个原因应该大家在选择的时候注意一下版本对比的话可以避免，基本上不是这个原因造成的。2、显卡的驱动版本的过低，需要下载一个驱动精灵升级一下显卡的驱动，但
ERROR: No matching distribution found for torch-geometri satisfies the requirement torch-geometric zzzzz忠杰笔记 pytorch python 深度学习
试了网上的whl下载确保虚拟环境下nvcc和cuda版本一致，还不行遂找淘宝大佬,大佬换了pytorch版本python版本都不行最后根据报错出现的setup安装了pytest-runner，然后pipsearch。再pipinstalltorch-geometric的时候就成功了pipinstallpytest-runnerpipsearchtorch-geometricpipinstallto
解决安装依赖项时的ERROR: No matching distribution found for torch==1.10.0+cu111问题 CAI2256 python 深度学习神经网络 pytorch
这个错误通常是由于没有找到与你尝试安装的torch==1.10.0+cu111版本相匹配的Python包分发版本所致。在这种情况下，+cu111表示你正在安装针对CUDA11.1的Torch版本。因此，你需要确保你的环境中已经安装了CUDA11.1，并且你正在使用与之兼容的Torch版本。如果你使用的是Anaconda或Miniconda等Python环境管理工具，你可以尝试使用以下命令来安装CU
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文