u014568921

【CUDA并行编程之八】Cuda实现Kmeans算法

本文主要介绍如何使用CUDA并行计算框架编程实现机器学习中的Kmeans算法，Kmeans算法的详细介绍在这里，本文重点在并行实现的过程。

当然还是简单的回顾一下kmeans算法的串行过程：

伪代码：

[cpp]  view plain copy   
     
    
 创建k个点作为起始质心(经常是随机选择)  
 当任意一个点的簇分配结果发生改变时  
     对数据集中的每个数据点  
         对每个质心  
             计算质心与数据点之间的距离  
         将数据点分配到距其最近的簇  
     对每一个簇，计算簇中所有点的均值并将均值作为质心  

我们可以观察到有两个部分可以并行优化：

①line03-04：将每个数据点到多个质心的距离计算进行并行化

②line05：将数据点到某个执行的距离计算进行并行化

KMEANS类：

[cpp]  view plain copy   
     
    
 class KMEANS  
 {  
 private:  
     int numClusters;  
     int numCoords;  
     int numObjs;  
     int *membership;//[numObjs]  
     char *filename;   
     float **objects;//[numObjs][numCoords] data objects  
     float **clusters;//[numClusters][unmCoords] cluster center  
     float threshold;  
     int loop_iterations;  
   
 public:  
     KMEANS(int k);  
     void file_read(char *fn);  
     void file_write();  
     void cuda_kmeans();  
     inline int nextPowerOfTwo(int n);  
     void free_memory();  
     virtual ~KMEANS();  
 };//KMEANS  

成员变量：

numClusters：中心点的个数

numCoords：每个数据点的维度

numObjs：数据点的个数

membership：每个数据点所属类别的数组，维度为numObjs

filename：读入的文件名

objects：所有数据点，维度为[numObjs][numCoords]

clusters：中心点数据，维度为[numObjs][numCoords]

threshold：控制循环次数的一个域值

loop_iterations：循环的迭代次数

成员函数：

KMEANS(int k)：含参构造函数。初始化成员变量

file_read(char *fn)：读入文件数据并初始化object以及membership变量

file_write()：将计算结果写回到结果文件中去

cuda_kmeans()：kmeans计算的入口函数

nextPowerOfTwo(int n)：它计算大于等于输入参数n的第一个2的幂次数。

free_memory()：释放内存空间

~KMEANS()：析构函数

并行的代码主要三个函数：

find_nearest_cluster(...)

compute_delta(...)

euclid_dist_2(...)

首先看一下函数euclid_dist_2(...)：

[cpp]  view plain copy   
     
    
 __host__ __device__ inline static   
 float euclid_dist_2(int numCoords,int numObjs,int numClusters,float *objects,float *clusters,int objectId,int clusterId)  
 {  
     int i;  
     float ans = 0;  
     for( i=0;i<numCoords;i++ )  
     {  
         ans += ( objects[numObjs * i + objectId] - clusters[numClusters*i + clusterId] ) *  
                ( objects[numObjs * i + objectId] - clusters[numClusters*i + clusterId] ) ;  
     }  
     return ans;  
 }  

这段代码实际上就是并行的计算向量objects[objectId]和clusters[clusterId]之间的距离，即第objectId个数据点到第clusterId个中心点的距离。

再看一下函数compute_delta(...)：

[cpp]  view plain copy   
     
    
 /* 
 * numIntermediates:The actual number of intermediates 
 * numIntermediates2:The next power of two 
 */  
 __global__ static void compute_delta(int *deviceIntermediates,int numIntermediates, int numIntermediates2)  
 {  
     extern __shared__ unsigned int intermediates[];  
   
     intermediates[threadIdx.x] = (threadIdx.x < numIntermediates) ? deviceIntermediates[threadIdx.x] : 0 ;  
     __syncthreads();  
   
     //numIntermediates2 *must* be a power of two!  
     for(unsigned int s = numIntermediates2 /2 ; s > 0 ; s>>=1)  
     {  
         if(threadIdx.x < s)    
         {  
             intermediates[threadIdx.x] += intermediates[threadIdx.x + s];     
         }  
         __syncthreads();  
     }  
     if(threadIdx.x == 0)  
     {  
         deviceIntermediates[0] = intermediates[0];  
     }  
 }  

这段代码的意义就是将一个线程块中每个线程的对应的intermediates的数据求和最后放到deviceIntermediates[0]中去然后拷贝回主存块中去。这个问题的更好的解释在这里，实际上就是一个数组求和的问题，应用在这里求得的是有改变的membership中所有数据的和，即改变了簇的点的个数。

最后再看函数finid_nearest_cluster(...)：

[cpp]  view plain copy   
     
    
 /* 
 * objects:[numCoords][numObjs] 
 * deviceClusters:[numCoords][numClusters] 
 * membership:[numObjs] 
 */  
 __global__ static void find_nearest_cluster(int numCoords,int numObjs,int numClusters,float *objects, float *deviceClusters,int *membership ,int *intermediates)  
 {  
     extern __shared__ char sharedMemory[];  
     unsigned char *membershipChanged = (unsigned char *)sharedMemory;  
     float *clusters = deviceClusters;  
   
     membershipChanged[threadIdx.x] = 0;  
   
     int objectId = blockDim.x * blockIdx.x + threadIdx.x;  
     if( objectId < numObjs )  
     {  
         int index;  
         float dist,min_dist;  
         /*find the cluster id that has min distance to object*/  
         index = 0;  
         min_dist = euclid_dist_2(numCoords,numObjs,numClusters,objects,clusters,objectId,0);  
           
         for(int i=0;i<numClusters;i++)  
         {  
             dist = euclid_dist_2(numCoords,numObjs,numClusters,objects,clusters,objectId,i) ;  
             /* no need square root */  
             if( dist < min_dist )  
             {  
                 min_dist = dist;  
                 index = i;  
             }  
         }  
   
         if( membership[objectId]!=index )  
         {  
             membershipChanged[threadIdx.x] = 1;   
         }  
         //assign the membership to object objectId  
         membership[objectId] = index;  
   
         __syncthreads(); //for membershipChanged[]  
   
 #if 1  
         //blockDim.x *must* be a power of two!  
         for(unsigned int s = blockDim.x / 2; s > 0 ;s>>=1)  
         {  
             if(threadIdx.x < s)    
             {  
                 membershipChanged[threadIdx.x] += membershipChanged[threadIdx.x + s];//calculate all changed values and save result to membershipChanged[0]  
             }  
             __syncthreads();  
         }  
         if(threadIdx.x == 0)  
         {  
             intermediates[blockIdx.x] = membershipChanged[0];  
         }  
 #endif  
     }  
 }//find_nearest_cluster  

这个函数计算的就是第objectId个数据点到numClusters个中心点的距离，然后根据情况比较更新membership。

这三个函数将所有能够并行的地方都进行了并行，实现了整体算法的并行化~

在此呈上全部代码：

kmeans.h:

[cpp]  view plain copy   
     
    
 #ifndef _H_KMEANS  
 #define _H_KMEANS  
   
 #include <assert.h>  
   
 #define malloc2D(name, xDim, yDim, type) do {               \  
     name = (type **)malloc(xDim * sizeof(type *));          \  
     assert(name != NULL);                                   \  
     name[0] = (type *)malloc(xDim * yDim * sizeof(type));   \  
     assert(name[0] != NULL);                                \  
     for (size_t i = 1; i < xDim; i++)                       \  
         name[i] = name[i-1] + yDim;                         \  
 } while (0)  
   
   
 double  wtime(void);  
   
 #endif  

wtime.cu:

[cpp]  view plain copy   
     
    
 #include <sys/time.h>  
 #include <stdio.h>  
 #include <stdlib.h>  
   
 double wtime(void)   
 {  
     double          now_time;  
     struct timeval  etstart;  
     struct timezone tzp;  
   
     if (gettimeofday(&etstart, &tzp) == -1)  
         perror("Error: calling gettimeofday() not successful.\n");  
   
     now_time = ((double)etstart.tv_sec) +              /* in seconds */  
                ((double)etstart.tv_usec) / 1000000.0;  /* in microseconds */  
     return now_time;  
 }  

cuda_kmeans.cu：

[cpp]  view plain copy   
     
    
 #include <stdio.h>  
 #include <stdlib.h>  
 #include <string.h>  
 #include <sys/types.h>  
 #include <sys/stat.h>  
 #include <unistd.h>  
 #include <iostream>  
 #include <cassert>  
   
 #include "kmeans.h"  
   
 using namespace std;  
   
 const int MAX_CHAR_PER_LINE = 1024;  
   
 class KMEANS  
 {  
 private:  
     int numClusters;  
     int numCoords;  
     int numObjs;  
     int *membership;//[numObjs]  
     char *filename;   
     float **objects;//[numObjs][numCoords] data objects  
     float **clusters;//[numClusters][unmCoords] cluster center  
     float threshold;  
     int loop_iterations;  
   
 public:  
     KMEANS(int k);  
     void file_read(char *fn);  
     void file_write();  
     void cuda_kmeans();  
     inline int nextPowerOfTwo(int n);  
     void free_memory();  
     virtual ~KMEANS();  
 };  
   
 KMEANS::~KMEANS()  
 {  
     free(membership);  
     free(clusters[0]);  
     free(clusters);  
     free(objects[0]);  
     free(objects);  
 }  
   
 KMEANS::KMEANS(int k)  
 {  
     threshold = 0.001;  
     numObjs = 0;  
     numCoords = 0;  
     numClusters = k;  
     filename = NULL;  
     loop_iterations = 0;  
 }  
   
 void KMEANS::file_write()  
 {  
     FILE *fptr;  
     char outFileName[1024];  
   
     //output:the coordinates of the cluster centres  
     sprintf(outFileName,"%s.cluster_centres",filename);  
     printf("Writingcoordinates of K=%d cluster centers to file \"%s\"\n",numClusters,outFileName);  
     fptr = fopen(outFileName,"w");  
     for(int i=0;i<numClusters;i++)  
     {  
         fprintf(fptr,"%d ",i)   ;  
         for(int j=0;j<numCoords;j++)  
             fprintf(fptr,"%f ",clusters[i][j]);  
         fprintf(fptr,"\n");  
     }  
     fclose(fptr);  
   
     //output:the closest cluster centre to each of the data points  
     sprintf(outFileName,"%s.membership",filename);  
     printf("writing membership of N=%d data objects to file \"%s\" \n",numObjs,outFileName);  
     fptr = fopen(outFileName,"w");  
     for(int i=0;i<numObjs;i++)  
     {  
         fprintf(fptr,"%d %d\n",i,membership[i]) ;  
     }  
     fclose(fptr);  
 }  
   
 inline int KMEANS::nextPowerOfTwo(int n)  
 {  
     n--;  
     n = n >> 1 | n;  
     n = n >> 2 | n;  
     n = n >> 4 | n;  
     n = n >> 8 | n;  
     n = n >> 16 | n;  
     //n = n >> 32 | n; // for 64-bit ints  
     return ++n;  
 }  
   
 __host__ __device__ inline static   
 float euclid_dist_2(int numCoords,int numObjs,int numClusters,float *objects,float *clusters,int objectId,int clusterId)  
 {  
     int i;  
     float ans = 0;  
     for( i=0;i<numCoords;i++ )  
     {  
         ans += ( objects[numObjs * i + objectId] - clusters[numClusters*i + clusterId] ) *  
                ( objects[numObjs * i + objectId] - clusters[numClusters*i + clusterId] ) ;  
     }  
     return ans;  
 }  
   
 /* 
 * numIntermediates:The actual number of intermediates 
 * numIntermediates2:The next power of two 
 */  
 __global__ static void compute_delta(int *deviceIntermediates,int numIntermediates, int numIntermediates2)  
 {  
     extern __shared__ unsigned int intermediates[];  
   
     intermediates[threadIdx.x] = (threadIdx.x < numIntermediates) ? deviceIntermediates[threadIdx.x] : 0 ;  
     __syncthreads();  
   
     //numIntermediates2 *must* be a power of two!  
     for(unsigned int s = numIntermediates2 /2 ; s > 0 ; s>>=1)  
     {  
         if(threadIdx.x < s)    
         {  
             intermediates[threadIdx.x] += intermediates[threadIdx.x + s];     
         }  
         __syncthreads();  
     }  
     if(threadIdx.x == 0)  
     {  
         deviceIntermediates[0] = intermediates[0];  
     }  
 }  
   
 /* 
 * objects:[numCoords][numObjs] 
 * deviceClusters:[numCoords][numClusters] 
 * membership:[numObjs] 
 */  
 __global__ static void find_nearest_cluster(int numCoords,int numObjs,int numClusters,float *objects, float *deviceClusters,int *membership ,int *intermediates)  
 {  
     extern __shared__ char sharedMemory[];  
     unsigned char *membershipChanged = (unsigned char *)sharedMemory;  
     float *clusters = deviceClusters;  
   
     membershipChanged[threadIdx.x] = 0;  
   
     int objectId = blockDim.x * blockIdx.x + threadIdx.x;  
     if( objectId < numObjs )  
     {  
         int index;  
         float dist,min_dist;  
         /*find the cluster id that has min distance to object*/  
         index = 0;  
         min_dist = euclid_dist_2(numCoords,numObjs,numClusters,objects,clusters,objectId,0);  
           
         for(int i=0;i<numClusters;i++)  
         {  
             dist = euclid_dist_2(numCoords,numObjs,numClusters,objects,clusters,objectId,i) ;  
             /* no need square root */  
             if( dist < min_dist )  
             {  
                 min_dist = dist;  
                 index = i;  
             }  
         }  
   
         if( membership[objectId]!=index )  
         {  
             membershipChanged[threadIdx.x] = 1;   
         }  
         //assign the membership to object objectId  
         membership[objectId] = index;  
   
         __syncthreads(); //for membershipChanged[]  
   
 #if 1  
         //blockDim.x *must* be a power of two!  
         for(unsigned int s = blockDim.x / 2; s > 0 ;s>>=1)  
         {  
             if(threadIdx.x < s)    
             {  
                 membershipChanged[threadIdx.x] += membershipChanged[threadIdx.x + s];//calculate all changed values and save result to membershipChanged[0]  
             }  
             __syncthreads();  
         }  
         if(threadIdx.x == 0)  
         {  
             intermediates[blockIdx.x] = membershipChanged[0];  
         }  
 #endif  
     }  
 }//find_nearest_cluster  
   
 void KMEANS::cuda_kmeans()  
 {  
     int index,loop = 0;  
     int *newClusterSize;//[numClusters]:no.objects assigned in each new cluster  
     float delta; //% of objects changes their clusters  
     float **dimObjects;//[numCoords][numObjs]  
     float **dimClusters;  
     float **newClusters;//[numCoords][numClusters]  
   
     float *deviceObjects; //[numCoords][numObjs]  
     float *deviceClusters; //[numCoords][numclusters]  
     int *deviceMembership;  
     int *deviceIntermediates;  
   
     //Copy objects given in [numObjs][numCoords] layout to new [numCoords][numObjs] layout  
     malloc2D(dimObjects,numCoords,numObjs,float);  
     for(int i=0;i<numCoords;i++)  
     {  
         for(int j=0;j<numObjs;j++)  
         {  
             dimObjects[i][j] = objects[j][i];     
         }  
     }  
     //pick first numClusters elements of objects[] as initial cluster centers  
     malloc2D(dimClusters, numCoords, numClusters,float);  
     for(int i=0;i<numCoords;i++)  
     {  
         for(int j=0;j<numClusters;j++)  
         {  
             dimClusters[i][j] = dimObjects[i][j];  
         }  
     }  
     newClusterSize = new int[numClusters];  
     assert(newClusterSize!=NULL);  
     malloc2D(newClusters,numCoords,numClusters,float);  
     memset(newClusters[0],0,numCoords * numClusters * sizeof(float) );  
       
     //To support reduction,numThreadsPerClusterBlock *must* be a power of two, and it *must* be no larger than the number of bits that will fit into an unsigned char ,the type used to keep track of membership changes in the kernel.  
     const unsigned int numThreadsPerClusterBlock = 32;  
     const unsigned int numClusterBlocks = (numObjs + numThreadsPerClusterBlock -1)/numThreadsPerClusterBlock;  
     const unsigned int numReductionThreads = nextPowerOfTwo(numClusterBlocks);  
   
     const unsigned int clusterBlockSharedDataSize = numThreadsPerClusterBlock * sizeof(unsigned char);  
   
     const unsigned int reductionBlockSharedDataSize = numReductionThreads * sizeof(unsigned int);  
   
     cudaMalloc(&deviceObjects,numObjs*numCoords*sizeof(float));  
     cudaMalloc(&deviceClusters,numClusters*numCoords*sizeof(float));  
     cudaMalloc(&deviceMembership,numObjs*sizeof(int));  
     cudaMalloc(&deviceIntermediates,numReductionThreads*sizeof(unsigned int));  
   
     cudaMemcpy(deviceObjects,dimObjects[0],numObjs*numCoords*sizeof(float),cudaMemcpyHostToDevice);  
     cudaMemcpy(deviceMembership,membership,numObjs*sizeof(int),cudaMemcpyHostToDevice);  
   
     do  
     {  
         cudaMemcpy(deviceClusters,dimClusters[0],numClusters*numCoords*sizeof(float),cudaMemcpyHostToDevice);  
   
         find_nearest_cluster<<<numClusterBlocks,numThreadsPerClusterBlock,clusterBlockSharedDataSize>>>(numCoords,numObjs,numClusters,deviceObjects,deviceClusters,deviceMembership,deviceIntermediates);  
   
         cudaDeviceSynchronize();  
   
         compute_delta<<<1,numReductionThreads,reductionBlockSharedDataSize>>>(deviceIntermediates,numClusterBlocks,numReductionThreads);  
   
         cudaDeviceSynchronize();  
           
         int d;  
         cudaMemcpy(&d,deviceIntermediates,sizeof(int),cudaMemcpyDeviceToHost);  
         delta = (float)d;  
   
         cudaMemcpy(membership,deviceMembership,numObjs*sizeof(int),cudaMemcpyDeviceToHost);  
           
         for(int i=0;i<numObjs;i++)  
         {  
             //find the array index of nestest   
             index = membership[i];  
             //update new cluster centers:sum of objects located within  
             newClusterSize[index]++;  
             for(int j=0;j<numCoords;j++)  
             {  
                 newClusters[j][index] += objects[i][j];  
             }  
         }  
         //average the sum and replace old cluster centers with newClusters   
         for(int i=0;i<numClusters;i++)  
         {  
             for(int j=0;j<numCoords;j++)  
             {  
                 if(newClusterSize[i] > 0)      
                     dimClusters[j][i] = newClusters[j][i]/newClusterSize[i];  
                 newClusters[j][i] = 0.0;//set back to 0  
             }  
             newClusterSize[i] = 0 ; //set back to 0  
         }  
         delta /= numObjs;  
     }while( delta > threshold && loop++ < 500 );  
   
     loop_iterations = loop + 1;  
       
     malloc2D(clusters,numClusters,numCoords,float);  
     for(int i=0;i<numClusters;i++)  
     {  
         for(int j=0;j<numCoords;j++)  
         {  
             clusters[i][j] = dimClusters[j][i];  
         }  
     }  
   
     cudaFree(deviceObjects) ;  
     cudaFree(deviceClusters);  
     cudaFree(deviceMembership);  
     cudaFree(deviceMembership);  
   
     free(dimObjects[0]);  
     free(dimObjects);  
     free(dimClusters[0]);  
     free(dimClusters);  
     free(newClusters[0]);  
     free(newClusters);  
     free(newClusterSize);  
 }  
   
 void KMEANS::file_read(char *fn)  
 {  
   
     FILE *infile;  
     char *line = new char[MAX_CHAR_PER_LINE];  
     int lineLen = MAX_CHAR_PER_LINE;  
   
     filename = fn;  
     infile = fopen(filename,"r");  
     assert(infile!=NULL);  
     /*find the number of objects*/    
     while( fgets(line,lineLen,infile) )  
     {  
         numObjs++;    
     }  
   
     /*find the dimension of each object*/  
     rewind(infile);  
     while( fgets(line,lineLen,infile)!=NULL )  
     {  
         if( strtok(line," \t\n")!=0 )     
         {  
             while( strtok(NULL," \t\n") )     
                 numCoords++;  
             break;  
         }  
     }  
   
     /*allocate space for object[][] and read all objcet*/  
     rewind(infile);  
     objects = new float*[numObjs];  
     for(int i=0;i<numObjs;i++)  
     {  
         objects[i] = new float[numCoords];  
     }  
     int i=0;  
     /*read all object*/  
     while( fgets(line,lineLen,infile)!=NULL )  
     {  
         if( strtok(line," \t\n") ==NULL ) continue;  
         for(int j=0;j<numCoords;j++)  
         {  
             objects[i][j] = atof( strtok(NULL," ,\t\n") )   ;  
         }  
         i++;  
     }  
       
     /* membership: the cluster id for each data object */  
     membership = new int[numObjs];  
     assert(membership!=NULL);  
     for(int i=0;i<numObjs;i++)  
         membership[i] = -1;  
       
 }  
   
 int main(int argc,char *argv[])  
 {  
     KMEANS kmeans(atoi(argv[1]));  
     kmeans.file_read(argv[2]);  
     kmeans.cuda_kmeans();  
     kmeans.file_write();  
     return 0;  
 }  

makefile：

[cpp]  view plain copy   
     
    
 target:  
     nvcc cuda_kmeans.cu  
     ./a.out  4 ./Image_data/color100.txt  

所有代码和文件数据在这里：http://yunpan.cn/cKBZMPAJ8tcAs（提取码：9476）

运行代码：

kmeans的cuda实现代码相对复杂，在阅读的过程中可能会有困难，有问题请留言~

Author：忆之独秀

Email：[email protected]

注明出处：http://blog.csdn.net/lavorange/article/details/41942323

【安装环境】配置MMTracking环境 xuanyu22 安装环境机器学习神经网络深度学习 python
版本v0.14.0安装torchnumpy的版本不能太高，否则后面安装时会发生冲突。先安装numpy，因为pytorch的安装会自动配置高版本numpy。condainstallnumpy=1.21.5mmtracking支持的torch版本有限，需要找到合适的condainstallpytorch==1.11.0torchvision==0.12.0cudatoolkit=10.2-cpytor
安装torch报错 raise ReadTimeoutError(self._pool, None, “Read timed out.“) pip._vendor.urllib3.exceptions 待磨的钝刨 pip pytorch 人工智能
文章目录1.配置cuda的torch环境时报错1.配置命令2.报错bug2.解决方法1.增加下载超时时间：2.尝试使用镜像源：3.检查网络连接：4.分次安装：5.重试安装：6.手动下载.whl文件安装1.配置cuda的torch环境时报错1.配置命令pipinstalltorch==2.0.1torchvision==0.15.2torchaudio==2.0.2--index-urlhttps:
SAM2跑通（Ubuntu20.04)内含安装多个cuda 好好607 pytorch linux
参考链接：github链接安装cuda，之前借鉴的方法安装多个cuda补充cuda安装：Asymlinkalreadyexistsat/usr/local/cuda.Updatetothisinstallation?选择no，否则会创建一个软连接覆盖之前那个/usr/local/cudasudogedit~/.bashrc如果按第二个链接安装的cuda，手动改一下版本即可SAM环境安装步骤除了本地
使用vllIm部署大语言模型添砖JAVA的小墨机器学习
使用vllm部署大语言模型一般需要以下步骤：一、准备工作1.系统要求-操作系统：常见的Linux发行版（如Ubuntu、CentOS）或Windows（通过WSL）。-GPU支持：NVIDIAGPU并安装了适当的驱动程序。-足够的内存和存储空间。2.安装依赖-Python3.8及以上版本。-CUDA工具包（根据GPU型号选择合适的版本）。二、安装vllm1.创建虚拟环境（推荐）-使用Conda：c
vllm在线推理踩坑记懂点投资的码农大语言模型 ai 语言模型 python
最近在《AI大模型全栈工程师》课程里看老师推荐使用vllm部署大模型，优点就不详细介绍了，这里摘抄一段来自于Qwen2上手指南对于它的简单介绍：它易于使用，且具有最先进的服务吞吐量、高效的注意力键值内存管理（通过PagedAttention实现）、连续批处理输入请求、优化的CUDA内核等功能。至于原理就先不看了，直接上手部署，以后再来补理论知识。一、vLLM在线推理在Qwen2的上市指南里介绍了v
多版本cuda安装及灵活切换详细教程 Fzc_PCL CUDA Linux 记录 cuda linux
一、首先介绍下我所使用的环境ubuntu18.04+1080ti二、下载安装包1.cudatoolkit下载①环境选择，想要多版本共存的，尽量选择runfile文件进行安装②有些cudatoolkit下载页面，和我上边的一样，没有对应的安装包下载按钮，BaseInstaller中只给了两行命令，如果运行第一行命令的话，下载会比较慢，我是直接复制wget后边的链接在新网页窗口中打开，会自动弹出下载窗
Cuda 程序编译报错: fatal error: cusparse.h: No such file or directory 原野寻踪实践经验 cuda
编译cuda程序时发现下列报错：/mnt/xxx/miniconda3/envs/xxx/lib/python3.8/site-packages/torch/include/ATen/cuda/CUDAContext.h:6:10:fatalerror:cusparse.h:Nosuchfileordirectory#include^~~~~~~~~~~~检查发现是选择了错误的Cuda版本。ls/
天下苦英伟达久矣！PyTorch官方免CUDA加速推理，Triton时代要来？诗者才子酒中仙物联网 /互联网 /人工智能 /其他 pytorch 人工智能 python
在做大语言模型（LLM）的训练、微调和推理时，使用英伟达的GPU和CUDA是常见的做法。在更大的机器学习编程与计算范畴，同样严重依赖CUDA，使用它加速的机器学习模型可以实现更大的性能提升。虽然CUDA在加速计算领域占据主导地位，并成为英伟达重要的护城河之一。但其他一些工作的出现正在向CUDA发起挑战，比如OpenAI推出的Triton，它在可用性、内存开销、AI编译器堆栈构建等方面具有一定的优势
GPU版pytorch安装普通攻击往后拉 python tips 神经网络基础模型关键点
由于经常重装系统，导致电脑的环境需要经常重新配置，其中尤其是cudatorch比较难以安装，因此记录一下安装GPU版本torch的过程。1）安装CUDAtoolkit这个可以看做是N卡所有cuda计算的基础，一般都会随驱动的更新自动安装，但是不全，仍然需要安装toolkit，并不需要先看已有版本是哪个，反正下载完后会自动覆盖原有的cuda。下载网站两个：国内网站：只能下载最新的toolkit，但是
人工智能-GPU版本机器学习、深度学习模型安装 bw876720687 人工智能机器学习深度学习
背景1、在有Nvidia-GPU的情况下模型使用cuda加速计算，但是很有多模型的GPU和CPU版本安装方式不同，如何安装lgb\cat\xgb.2、为了让代码有普适性，如何自适应环境当中的设备进行CPU或者GPU的调整？解决方案问题一：安装GPU版本的LightGBMLightGBM默认不会安装GPU支持版，需要手动编译以启用GPU。以下是在Linux和Windows上编译GPU版本LightG
CUDA 编程入门（2）：CUDA 调度模型知识搬运工人 CUDA GPU CUDA
参考：CUDA编程入门（2）：CUDA编程模型-知乎(zhihu.com)CUDA调度模型Block调度Block对应的物理硬件概念是SM，也就是说SM负责block中线程的执行，SM会为每个block分配需求的资源，比如寄存器，共享内存等，由于SM自身资源有限，因此它被分配到的block数量也是有限的，这取决于block中线程的资源需求。当所有的SM都饱和之后，剩下的blocks将会被暂时挂起，
Ubuntu 开机出现 recovering journal 无法进入图形界面解决流程(不通用，自用) Artintel 学习 ubuntu
远程连接进入命令行：rm-rf/etc/X11/xorg.confcp/etc/X11/xorg.conf.failsafe/etc/X11/xorg.confsudoservicelightdmstopsudoapt-getremovenvidia*cdjohn/qudong+cuda9.0\+\cudnn/sudochmoda+xnv.runsudo./nv.run-no-x-check-no
Yolo-v3利用GPU训练make时发生错误：/usr/bin/ld: cannot find -lcuda 徐小妞66666
一.利用GPU训练Yolov3时，首先要修改MakeFile文件，修改格式如下：GPU=1(原来为0)CUDNN=1(原来为0)NVCC=/usr/local/cuda/bin/nvcc(新建,注意自己本机的地址)二.此时make产生错误/usr/bin/ld:cannotfind-lcuda1.查看MakeFile文件找到该行代码：LDFLAGS+=-L/usr/local/cuda/lib64
【环境搭建：onnx模型部署】onnxruntime-gpu安装与测试（python）(1) 2401_83703835 程序员 python 深度学习 pytorch
cuda==10.2cudnn==8.0.3onnxruntime-gpu==1.5.0or1.6.0pipinstallonnxruntime-gpu==1.6.0###2.2方法二：onnxruntime-gpu不依赖于本地主机上cuda和cudnn在conda环境中安装，不依赖于本地主机上已安装的cuda和cudnn版本，灵活方便。这里，先说一下已经测试通过的组合：*python3.6,cu
pytorch计算网络参数量和Flops Mr_Lowbee PyTorch pytorch 深度学习人工智能
fromtorchsummaryimportsummarysummary(net,input_size=(3,256,256),batch_size=-1)输出的参数是除以一百万（/1000000）M，fromfvcore.nnimportFlopCountAnalysisinputs=torch.randn(1,3,256,256).cuda()flop_counter=FlopCountAna
使用TensorRT对YOLOv8模型进行加速推理 fengbingchun Deep Learning CUDA/TensorRT YOLOv8 TensorRT
这里使用GitHub上shouxieai的infer框架对YOLOv8模型进行加速推理，操作过程如下所示：1.配置环境，依赖项，包括：(1).CUDA:11.8(2).cuDNN:8.7.0(3).TensorRT:8.5.3.1(4).ONNX:1.16.0(5).OpenCV:4.10.02.cloneinfer代码：https://github.com/shouxieai/infer3.使用
ONNX Runtime、CUDA、cuDNN、TensorRT版本对应可keke ML&DL pytorch deep learning
文章目录ONNXRuntime的安装ONNXRuntime与CUDA、cuDNN的版本对应ONNXRuntime与ONNX的版本对应ONNXRuntime、TensorRT、CUDA版本对应ONNXRuntime的安装官方文档注意，到目前为止，onnxruntime-gpu在CUDA12.x和CUDA11.x下的安装命令是不同的，仔细阅读官方文档。验证安装python>>>importonnxru
ONNXRuntime与CUDA版本对应 zy_destiny 部署 YOLO onnxruntime onnX 部署 cuda python
onnxruntime-gpu版本可以说是一个非常简单易用的框架，因为通常用pytorch训练的模型，在部署时，会首先转换成onnx，而onnxruntime和onnx又是有着同一个爸爸，无疑，在op的支持上肯定是最好的。通常在安装onnxruntime时，需要将其版本与pytorch版本和CUDA版本进行对应，其中ONNXRuntime与CUDA版本对应关系表如下表所示。ONNXRuntimeC
【已解决】onnx无法找到CUDA的路径烟花节已解决人工智能深度学习 python pip
报错RuntimeError:D:\a\_work\1\s\onnxruntime\python\onnxruntime_pybind_state.cc:857onnxruntime::python::CreateExecutionProviderInstanceCUDA_PATHissetbutCUDAwasntabletobeloaded.Pleaseinstallthecorrectvers
Window 下 Vim 环境安装踩坑问题汇总及解决方法 yyywxk #Python模块有关问题 vim python mamba windows
导航Linux下Mamba及Vim安装问题参看本人之前博客：Mamba环境安装踩坑问题汇总及解决方法Linux下Vmamba安装教程参看本人之前博客：Vmamba安装教程（无需更改base环境中的cuda版本）Windows下VMamba的安装参看本人之前博客：Windows下VMamba安装教程（无需更改base环境中的cuda版本且可加速）Window下Mamba环境教程参看本人之前博客：Wi
windows11 wsl2 ubuntu20.04安装vision mamba并进行测试一剑斩蛟龙人工智能深度学习图像处理计算机视觉 python 机器学习 pytorch
windows11wsl2ubuntu20.04安装visionmamba安装流程使用cifar-100测试安装成功安装流程visionmamba安装了半天才跑通，记录一下流程在wsl上安装cudawgethttps://developer.download.nvidia.cn/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_l
[Lora][微调] Qwen-VL/Qwen-VL-chat微调问题翔迅AI python
@[Lora][微调]Qwen-VL/Qwen-VL-chat微调问题关于Qwen-VL在lora过程中出现的问题总结。模型预训练错误一“erfinv_cuda”notimplementedfor‘BFloat16’RuntimeError:"erfinv_cuda"notimplementedfor'BFloat16'参考github中issue253给出的意见，修改Qwen-VL-Chat/v
【Pytorch】cumsum的实现逻辑栏杆拍遍看吴钩 pytorch pytorch 人工智能 python
本文只记录cumsum的实现逻辑的CUDA部分，也即底层调用了CUDA的什么实现算子。voidlaunch_cumsum_cuda_kernel(constTensorBase&result,constTensorBase&self,int64_tdim){AT_DISPATCH_ALL_TYPES_AND_COMPLEX_AND2(ScalarType::Half,ScalarType::BFl
百度飞桨paddle安装包括CUDA,cuDNN,opencv的安装小甲学长 opencv 百度 paddlepaddle
conda创建新环境这部分代码均在AnacondaPrompt中写，要求已有Anaconda第一步：创建condacreate--nameyourEnvpython=3.6–name：也可以缩写为【-n】，【yourEnv】是新创建的虚拟环境的名字，创建完，可以装anaconda的目录下找到envs/yourEnv目录python=2.7：是python的版本号。也可以指定为【python=3.6
深度学习回归任务训练代码模版槐月初叁深度学习深度学习回归人工智能
深度学习回归任务训练代码模版文章目录深度学习回归任务训练代码模版参数设置功能函数数据加载自定义数据集加载类特征选择（可选）数据读取定义模型训练模型训练迭代＋验证迭代使用`tensorboard`输出模型训练过程和指标可视化(可选)结果预测参考参数设置超参设置：config包含所有训练需要的超参数（便于后续的调参），以及模型需要存储的位置device='cuda'iftorch.cuda.is_av
cpu运行gpu上的pytorch 报错:AssertionError:torch not compiled with cuda enabled——已解决霍格沃茨电气魔法师 python java python 数据库 js 深度学习
感觉今天介绍的这种方法可以解决所有这种报错出现的问题事件发生：报错：AssertionError:torchnotcompiledwithcudaenabled解决方法：后来看到这个代码parser.add_argument('--test_device',default="cuda:0",type=str,
Transiting from CUDA to HIP（三）青禾子的夏 HIP 异构计算 Rocm 开发语言
一、Workarounds1.memcpyToSymbol在HIP(Heterogeneous-computeInterfaceforPortability)中，hipMemcpyToSymbol函数用于将数据从主机内存复制到设备上的全局内存或常量内存中，这样可以在设备端的内核中访问这些数据。这个功能特别有用，因为它允许在主机端定义数据符号，并在设备端的内核中使用这些符号。#include#inc
HALCON 错误代码 #7709 聪明不喝牛奶 Halcon+CSharp 深度学习 halcon 深度学习
前言最近在研究halcon的深度学习，在环境配置上花了不少的功夫搞定，结果正要开始训练分类的第二个train文件就出现了一个错误，报7709，折腾了三天才解决。原因报7709主要的原因有如下几个原因：1、就是你选的cuda版本和cudnn的不匹配，这个原因应该大家在选择的时候注意一下版本对比的话可以避免，基本上不是这个原因造成的。2、显卡的驱动版本的过低，需要下载一个驱动精灵升级一下显卡的驱动，但
ERROR: No matching distribution found for torch-geometri satisfies the requirement torch-geometric zzzzz忠杰笔记 pytorch python 深度学习
试了网上的whl下载确保虚拟环境下nvcc和cuda版本一致，还不行遂找淘宝大佬,大佬换了pytorch版本python版本都不行最后根据报错出现的setup安装了pytest-runner，然后pipsearch。再pipinstalltorch-geometric的时候就成功了pipinstallpytest-runnerpipsearchtorch-geometricpipinstallto
解决安装依赖项时的ERROR: No matching distribution found for torch==1.10.0+cu111问题 CAI2256 python 深度学习神经网络 pytorch
这个错误通常是由于没有找到与你尝试安装的torch==1.10.0+cu111版本相匹配的Python包分发版本所致。在这种情况下，+cu111表示你正在安装针对CUDA11.1的Torch版本。因此，你需要确保你的环境中已经安装了CUDA11.1，并且你正在使用与之兼容的Torch版本。如果你使用的是Anaconda或Miniconda等Python环境管理工具，你可以尝试使用以下命令来安装CU
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方

【CUDA并行编程之八】Cuda实现Kmeans算法

你可能感兴趣的:(CUDA,kmeans)