Hipercomer

CUDA: 简单入门

1. 准备makefile

为了避免每次都要键入nvcc的命令，要准备一个makefile。makefile如下：

CUFLAG = -g  -Xcompiler -v \
        -gencode=arch=compute_20,code=sm_20\
        -gencode=arch=compute_20,code=compute_20\
        -O2
IFLAGS = -I$(CUDA_DIR)/include -I$(CUDA_SDK_DIR)/C/common/inc -I../include
LFLAGS = -L$(CUDA_DIR)/lib64 -L$(CUDA_SDK_DIR)/C/lib
PRG = cuda_test
$(PRG) : main.cu
	nvcc main.cu -o $(PRG) $(CUFLAG) $(IFLAGS) $(LFLAGS)

2 异构计算(Heterogeneous Computing)

以下为几个技术名词的简单介绍：

主机(host)：CPU及其内存(host memory)。
设备(device)：GPU及其内存(device memory)。
主机代码(host code)：运行在CPU上的（一般来说「串行执行」的）代码。
设备代码(device code)：运行在GPU上的并行执行的代码。
异构计算：由主机代码(host code)和设备代码(device code)协同执行完成的计算。

宏观上看，GPU执行代码的流程如下：

将输入数据通过PCI总线从CPU内存拷贝到GPU的DRAM中。
从内存中加载需要执行的代码到GPU后。
数据和指令都就绪后，就可以执行了。注意，在执行的过程中，GPU会在片上缓存数据以提升性能。
计算完毕后，将结果从GPU的DRAM中拷回CPU的Memory中。

例1: Hello World

#include<stdio.h>
#include<stdlib.h>
#include<cuda.h>
#include<cutil.h>

__global__ void mykernel(void) {
}

int main(void) {
	mykernel<<<1,1>>>();
	printf("Hello World!\n");
	return 0;
}

上述代码编译后运行生成可执行文件cuda_test，运行cuda_test后将输出：

Hello World!

注意：

调用kernel时需要三个尖括号
包含必要的头文件

CUDA C/C++中引入的新关键字__global__所修饰的函数有以下两方面含义：

此函数代码由设备执行
此函数由主机代码调用

nvcc将源代码分为设备函数和主机函数两大类：

设备函数由NVIDA编译器编译
主机函数由主机上配置的编译器编译

三个尖括号标志着一个从主机代码调用设备代码的函数，称为“启动内核”(kernel launch)

例2: 整数相加

#include<stdio.h>
#include<stdlib.h>
#include<cuda.h>
#include<cutil.h>

__global__ void integer_add(int * a, int * b, int * c) {
	*c = *a + *b;
}

int main(void) {
	int a,b,c;
	int * d_a, * d_b, * d_c;
	int size = sizeof(int);
	cudaMalloc((void**)&d_a,size);
	cudaMalloc((void**)&d_b,size);
	cudaMalloc((void**)&d_c,size);
	printf("Enter two integers with a space to separate them:\n");
	scanf("%d %d",&a,&b);
	cudaMemcpy(d_a,&a,size,cudaMemcpyHostToDevice);
	cudaMemcpy(d_b,&b,size,cudaMemcpyHostToDevice);
	integer_add<<<1,1>>>(d_a,d_b,d_c);
	cudaMemcpy(&c,d_c,size,cudaMemcpyDeviceToHost);
	cudaFree(d_a);
	cudaFree(d_b);
	cudaFree(d_c);
	printf("Sum is %d\n",c);
	return 0;
}

__global__修饰的integer_add函数说明：

integer_add函数将在设备上执行
integer_add函数将被主机调用

由于integer_add函数在设备上执行，所以指针a，b，c应该指向设备内存。这说明需要在设备内存中为变量开辟内存。

设备内存和主机内存在物理上是完全分开的不同电子部件：

设备指针指向GPU内存的某个位置。设备指针可以从主机端传给设备端或者从设备端传给主机端，但是设备指针不能在主机端解引用。
主机指针指向CPU内存的某个位置。主机指针可以从设备端传给主机端或者从主机端传给设备端，但是主机指针不能在设备端解引用。

CUDA API提供的用于处理设备内存的函数有cudaMalloc, cudaFree, cudaMemcpy。语义上分别对应于C语言的malloc, free, memcpy函数。这几个函数的具体使用方法如例2所示。

3 块(Blocks)

GPU是用来实现大规模并行的，如何实现呢？将上述例子扩展一下，如果我们要实现两个向量相加：

add<<<1,1>>>() ---> add<<<N,1>>>

N表示同时调用N次add函数，这样就可以实现并行的向量相加了。

每个被并行调用的add函数称之为一个块(block)。

块的集合称之为网格(grid).
每个块可以使用索引值blockIdx.x

通过使用blockIdx.x作为索引，每个块可以处理数组元素中的一部分。

有了这些基础后，就可以实现并行版本的向量相加了。

例3:向量相加

#include<stdio.h>
#include<stdlib.h>
#include<cuda.h>
#include<cutil.h>
#include<time.h>


#define N 512


__global__ void vec_block_add(int * a, int * b, int * c) {
	c[blockIdx.x] = a[blockIdx.x] + b[blockIdx.x];
}


void rand_ints(int * arr, int count) {
	srand(time(NULL));
	for(int i=0;i<count;i++) {
		arr[i] = rand() % 100;
	}
}


int main(void) {
	int * a,* b,* c;
	int * d_a, * d_b, * d_c;
	int size = N * sizeof(int);
	cudaMalloc((void**)&d_a,size);
	cudaMalloc((void**)&d_b,size);
	cudaMalloc((void**)&d_c,size);
	
	a = (int *) malloc(size);
	rand_ints(a,N);
	b = (int *) malloc(size);
	rand_ints(b,N);
	c = (int *) malloc(size);
	
	cudaMemcpy(d_a,a,size,cudaMemcpyHostToDevice);
	cudaMemcpy(d_b,b,size,cudaMemcpyHostToDevice);
	vec_block_add<<<N,1>>>(d_a,d_b,d_c);
	cudaMemcpy(c,d_c,size,cudaMemcpyDeviceToHost);
	
#if 1
	for(int i=0;i<N;i++) {
		printf("%-5d: a:%-5d b:%-5d c:%-5d\n",i,a[i],b[i],c[i]);
	}
#endif
	
	cudaFree(d_a);
	cudaFree(d_b);
	cudaFree(d_c);
	
	free(a);
	free(b);
	free(c);
	return 0;
}

例3中最关键的代码为如下几行：

__global__ void vec_block_add(int * a, int * b, int * c) {
	c[blockIdx.x] = a[blockIdx.x] + b[blockIdx.x];
}

由于函数是并行执行的，和传统的串行程序在integer_add函数中使用循环来完成加法相比，相当于由GPU这个加速器使用硬件的方式进行了 循环展开，展开后便可以并行执行了。所以在编写这段代码时，需要使用blockIdx.x来定位当前执行的是循环的哪个部分。

从硬件的角度看，相当于同时有多个块在并行执行：

块0: c[0]=a[0]+b[0]

块1: c[1]=a[1]+b[1]

块2: c[2]=a[2]+b[2]

块3: c[3]=a[3]+b[3]

....

4 线程(Threads)

简单的说就是一个 块(Block)可以分割成多个 线程(Threads).

所以可以将上述的多块单线程版本改成单块多线程版本。

例4: 向量相加

#include<stdio.h>
#include<stdlib.h>
#include<cuda.h>
#include<cutil.h>
#include<time.h>

#define N 512

__global__ void vec_thread_add(int * a, int * b, int * c) {
	c[threadIdx.x] = a[threadIdx.x] + b[threadIdx.x];
}

void rand_ints(int * arr, int count) {
	srand(time(NULL));
	for(int i=0;i<count;i++) {
		arr[i] = rand() % 100;
	}
}

int main(void) {
	int * a,* b,* c;
	int * d_a, * d_b, * d_c;
	int size = N * sizeof(int);
	cudaMalloc((void**)&d_a,size);
	cudaMalloc((void**)&d_b,size);
	cudaMalloc((void**)&d_c,size);
	
	a = (int *) malloc(size);
	rand_ints(a,N);
	b = (int *) malloc(size);
	rand_ints(b,N);
	c = (int *) malloc(size);
	
	cudaMemcpy(d_a,a,size,cudaMemcpyHostToDevice);
	cudaMemcpy(d_b,b,size,cudaMemcpyHostToDevice);
	vec_thread_add<<<1,N>>>(d_a,d_b,d_c);
	cudaMemcpy(c,d_c,size,cudaMemcpyDeviceToHost);
	
#if 1
	for(int i=0;i<N;i++) {
		printf("%-5d: a:%-5d b:%-5d c:%-5d\n",i,a[i],b[i],c[i]);
	}
#endif
	
	cudaFree(d_a);
	cudaFree(d_b);
	cudaFree(d_c);
	
	free(a);
	free(b);
	free(c);
	return 0;
}

上述代码vec_thread_add<<<1,N>>>指定向量相加操作仅有1个块完成，但是这个块可以分割成512个线程来完成这个计算。和块类似的，由于函数vec_thread_add是被多个线程并行展开循环的，所以需要根据线程编号来确定当前循环应该完成的计算部分。每个线程使用threadIdx.x来标识当前线程。

5 索引(Indexing)

有了以上基础，接下来我们就可以实现多块多线程的大规模并行程序了。实现多块多线程并行程序的核心是利用进行准确的索引计算，即准确的利用索引将某个线程和该线程要完成计算的数据对应起来。

对于多块多线程的情况，我们假设要处理的向量包含128个元素，可以设计16个块，每个块中再包含8个线程来完成计算（因为16*8=128）。对于任何一个元素，我们都应该能准确的计算出来由哪个线程来完成这个相加计算。比如对于编号为71的元素：

块号为：71/8=8

线程号为：71%8=7

所以71号元素应该由：

71 = threadIdx.x + blockIdx.x * 8 = 7 + 8 * 8

在CUDA中可以使用blockDim.x来表示每个块中的线程数量，所以以上的计算可以修改为

元素编号 = threadIdx.x + blockIdx.x * blockDim.x

接下来我们就可以编写多块多线程的向量相加程序了.

例5: 向量相加

#include<stdio.h>
#include<stdlib.h>
#include<cuda.h>
#include<cutil.h>
#include<time.h>

#define N (16*16)
#define THREAD_PER_BLOCK 32

__global__ void vec_block_thread_add(int * a, int * b, int * c) {
	int index = threadIdx.x + blockIdx.x * blockDim.x;
	c[index] = a[index] + b[index];
}

void rand_ints(int * arr, int count) {
	srand(time(NULL));
	for(int i=0;i<count;i++) {
		arr[i] = rand() % 100;
	}
}

int main(void) {
	int * a,* b,* c;
	int * d_a, * d_b, * d_c;
	int size = N * sizeof(int);
	cudaMalloc((void**)&d_a,size);
	cudaMalloc((void**)&d_b,size);
	cudaMalloc((void**)&d_c,size);
	
	a = (int *) malloc(size);
	rand_ints(a,N);
	b = (int *) malloc(size);
	rand_ints(b,N);
	c = (int *) malloc(size);
	
	cudaMemcpy(d_a,a,size,cudaMemcpyHostToDevice);
	cudaMemcpy(d_b,b,size,cudaMemcpyHostToDevice);
	vec_block_thread_add<<<N/THREAD_PER_BLOCK,THREAD_PER_BLOCK>>>(d_a,d_b,d_c);
	cudaMemcpy(c,d_c,size,cudaMemcpyDeviceToHost);
	
#if 1
	for(int i=0;i<N;i++) {
		printf("%-5d: a:%-5d b:%-5d c:%-5d\n",i,a[i],b[i],c[i]);
	}
#endif
	
	cudaFree(d_a);
	cudaFree(d_b);
	cudaFree(d_c);
	
	free(a);
	free(b);
	free(c);
	return 0;
}

以上代码的缺陷是需要元素的数量能够整除每块中线程数量，稍作修改便可以实现任意元素数量的向量相加了。

#include<stdio.h>
#include<stdlib.h>
#include<cuda.h>
#include<cutil.h>
#include<time.h>

#define N 100
#define M 32

__global__ void vec_block_thread_add(int * a, int * b, int * c, int n ) 
{
	int index = threadIdx.x + blockIdx.x * blockDim.x;
	if(index < n) {
		c[index] = a[index] + b[index];
	}
}

void rand_ints(int * arr, int count) {
	srand(time(NULL));
	for(int i=0;i<count;i++) {
		arr[i] = rand() % 100;
	}
}

int main(void) {
	int * a,* b,* c;
	int * d_a, * d_b, * d_c;
	int size = N * sizeof(int);
	cudaMalloc((void**)&d_a,size);
	cudaMalloc((void**)&d_b,size);
	cudaMalloc((void**)&d_c,size);
	
	a = (int *) malloc(size);
	rand_ints(a,N);
	b = (int *) malloc(size);
	rand_ints(b,N);
	c = (int *) malloc(size);
	
	cudaMemcpy(d_a,a,size,cudaMemcpyHostToDevice);
	cudaMemcpy(d_b,b,size,cudaMemcpyHostToDevice);
	vec_block_thread_add<<<(N+M-1)/M,M>>>(d_a,d_b,d_c,N);
	cudaMemcpy(c,d_c,size,cudaMemcpyDeviceToHost);
	
#if 1
	for(int i=0;i<N;i++) {
		printf("%-5d: a:%-5d b:%-5d c:%-5d\n",i,a[i],b[i],c[i]);
	}
#endif
	
	cudaFree(d_a);
	cudaFree(d_b);
	cudaFree(d_c);
	
	free(a);
	free(b);
	free(c);
	return 0;
}

可能有一个很显然的问题就是既然使用块能够达到并行的函数调用为什么还需要用线程机制呢？

引入线程机制的必要性有：

线程间可以实现高效的通信
线程间可以实现高效的同步

6 共享内存(Shared Memory)

现在我们考虑实现另外一个例子，称之为“模板转换”。

具体的问题描述如下：提供两个数组，输入数组in和输出数组out. 一共有n个元素，将in中的值映射到out，映射的规则是：

对于任意的i，out[i] = out[ i - radius ] + out[ i - radius + 1] + out[i-radius+2] + ... + out[i+radius].

这里我们会发现同一块内的线程比如，2号线程和3号线程访问的数据将会有大量的数据重复。如果能有cache机制，将有效的降低从GPU的DRAM中加载数据所消耗的时间。

共享内存(shared memory)就是用来实现这个功能的：

在同一个块内线程通过共享内存实现数据共享或者说在同一个块内，线程通过共享内存实现线程间的通信
硬件上看，共享内存是速度极高的片上内存。而设备内存，又称之为全局内存(global memory)的速度较慢
可以将共享内存看做是用户管理的cache
使用关键字__shared__定义的存储空间将在共享内存上为每个块开辟空间
一个块内的共享内存数据对另外一个块的线程来说是不可见的

现在我们考虑使用Shared Memory来实现这个例子，核心就是我们在一个块内合并线程对共享数据的访问。

对每一个块来说:

需要读入2 * radius + blockDim.x 个元素的数据。
输出blockDim.x个元素数据到全局内存中.

#include<stdio.h>
#include<stdlib.h>
#include<cuda.h>
#include<cutil.h>
#include<time.h>

#define N 256
#define RADIUS 2
#define BLOCK_SIZE 32

__global__ void stencil_1d(int * in, int *out) 
{
	__shared__ int temp[BLOCK_SIZE + 2 * RADIUS];
	int g_index = threadIdx.x + blockIdx.x * blockDim.x + RADIUS;
	int s_index = threadIdx.x + RADIUS;
	temp[s_index] = in[g_index];
	if(threadIdx.x < RADIUS) {
		temp[s_index - RADIUS] = in[g_index - RADIUS];
		temp[s_index + BLOCK_SIZE] = in[g_index + BLOCK_SIZE];
	}
	int result = 0;
	for(int offset = -RADIUS; offset <= RADIUS; offset++) {
		result = result + temp[s_index+offset]; 
	}
	out[g_index-RADIUS] = result;
}

void rand_ints(int * arr, int count) {
	srand(time(NULL));
	for(int i=0;i<count;i++) {
		arr[i] = rand() % 100;
	}
}

int main(void) {
	int * in, * out;
	
	int size_in = sizeof(int) * ( N + 2 * RADIUS );
	in = (int *) malloc(size_in);
	rand_ints(in+RADIUS,N);
	
	int size_out = sizeof(int) * N;
	out = (int *) malloc(size_out);
	
	int * d_in, * d_out;
	cudaMalloc((void**)&d_in,size_in);
	cudaMalloc((void**)&d_out,size_out);
	cudaMemcpy(d_in,in,size_in,cudaMemcpyHostToDevice);
	stencil_1d<<<(N+BLOCK_SIZE-1)/BLOCK_SIZE,BLOCK_SIZE>>>(d_in,d_out);
	cudaMemcpy(out,d_out,size_out,cudaMemcpyDeviceToHost);
	
#if 1
	for(int i=0;i<N+2*RADIUS;i++) {
		printf("%-5d	",in[i]);
	}
	printf("\n");
	for(int i=0;i<N;i++) {
		printf("%-5d	",out[i]);
	}
	printf("\n");
#endif
	
	cudaFree(d_in);
	cudaFree(d_out);
	
	free(in);
	free(out);
	
	return 0;
}

7 线程同步函数(_syncthreads())

上述代码因为没有考虑数据竞争可能产生错误的结果。比如第2个块中的第三个线程进入for循环开始进行相加计算了，但是它需要读的数据还没有被4号线程写入到存储空间就会产生数据竞争问题。

CUDA提供了__syncthreads函数来进行数据同步，这样就可以保证所有的数据都就绪后再开始进行计算。

使用__syncthreads修改后的代码如下：

#include<stdio.h>
#include<stdlib.h>
#include<cuda.h>
#include<cutil.h>
#include<time.h>

#define N 256

#define RADIUS 2
#define BLOCK_SIZE 32

__global__ void stencil_1d(int * in, int *out) 
{
	__shared__ int temp[BLOCK_SIZE + 2 * RADIUS];
	int g_index = threadIdx.x + blockIdx.x * blockDim.x + RADIUS;
	int s_index = threadIdx.x + RADIUS;
	temp[s_index] = in[g_index];
	if(threadIdx.x < RADIUS) {
		temp[s_index - RADIUS] = in[g_index - RADIUS];
		temp[s_index + BLOCK_SIZE] = in[g_index + BLOCK_SIZE];
	}
	__syncthreads();
	int result = 0;
	for(int offset = -RADIUS; offset <= RADIUS; offset++) {
		result = result + temp[s_index+offset]; 
	}
	out[g_index-RADIUS] = result;
}

void rand_ints(int * arr, int count) {
	srand(time(NULL));
	for(int i=0;i<count;i++) {
		arr[i] = rand() % 100;
	}
}

int main(void) {
	int * in, * out;
	
	int size_in = sizeof(int) * ( N + 2 * RADIUS );
	in = (int *) malloc(size_in);
	rand_ints(in+RADIUS,N);
	
	int size_out = sizeof(int) * N;
	out = (int *) malloc(size_out);
	
	int * d_in, * d_out;
	cudaMalloc((void**)&d_in,size_in);
	cudaMalloc((void**)&d_out,size_out);
	cudaMemcpy(d_in,in,size_in,cudaMemcpyHostToDevice);
	stencil_1d<<<(N+BLOCK_SIZE-1)/BLOCK_SIZE,BLOCK_SIZE>>>(d_in,d_out);
	cudaMemcpy(out,d_out,size_out,cudaMemcpyDeviceToHost);
	
#if 1
	for(int i=0;i<N+2*RADIUS;i++) {
		printf("%-5d	",in[i]);
	}
	printf("\n");
	for(int i=0;i<N;i++) {
		printf("%-5d	",out[i]);
	}
	printf("\n");
#endif
	
	cudaFree(d_in);
	cudaFree(d_out);
	
	free(in);
	free(out);
	
	return 0;
}

8 异步操作(asynchronous operations)

CUDA kernel函数可以异步启动，普通的kernel函数需要等到执行完毕后才能将控制流返回到CPU端。异步启动方式指的是，kernel启动之后控制流立即返回到CPU端。

CUDA 的cudaMemcpy函数是等待数据拷贝完毕后才返回到CPU端。CUDA提供cudaMemcpyAsync来支持异步的数据拷贝。

CUDA提供的接口函数cudaDeviceSynchronize函数将阻塞CPU直到所有的CUDA函数调用都执行完毕。

9 故障处理(handle errors)

所有的CUDA函数都会返回一个错误码，其类型为cudaError_t。错误可能是当前函数调用产生的也可能是之前发起的异步函数执行后产生的。

得到最后一个错误的函数是： cudaError_t cudaGetLastError(void);

将错误码转换为字符串描述信息的函数是： char * cudaGetErrorString(cudaError_t);

10 设备管理(managing devices)

应用程序可以查询GPU的数量或者是选择GPU.

查询设备数量的接口： cudaGetDeviceCount(int * count);
选择设备的接口： cudaSetDevice(int device);
获取设备的接口：cudaGetDevice(int * device);
获取设备属性的接口： cudaGetDeviceProperties(cudaDeviceProp * prop, int device);

多个主机线程可以共享一个设备。

单个主机线程可以管理多个GPU设备。

11. 引用

1. CUDA C/C++ Basics Supercomputing 2011 Tutorial, http://www.nvidia.com/docs/IO/116711/sc11-cuda-c-basics.pdf

2023计算机组成原理考研知识点：哈佛结构计算机考研考研资料计算机网络哈佛结构数据结构
2023年计算机考研初试科目一般分四门，基本都考政治、英语一、数学一和计算机基础(计算机综合)，报考院校不同专业课考试内容一般不同，建议考生下正式备考2023年研考时先确认报考院校计算机研招科目内容，避免无效备考。计算机组成原理：哈佛结构将指令和数据放在两个独立的存储器，允许在一个机器周期内同时获得指令和操作数，提高了执行速度。2023年计算机组成原理复习题示例(来源于网络，如有侵权，请联系删除)
【含文档+PPT+源码】基于微信小程序农家乐美食餐厅预约推广系统编程毕设微信小程序美食小程序
项目介绍本课程演示的是一款基于微信小程序农家乐美食餐厅预约推广系统，主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的Java学习者。1.包含：项目源码、项目文档、数据库脚本、软件工具等所有资料2.带你从零开始部署运行本套系统3.该项目附带的源码资料可作为毕设使用该系统功能架构图如下：技术栈说明技术栈：后端：SpringBoot+Vue+ElementUI（后端是前后端分离的）前端：Un
嵌入式知识笔记1——C++面试复习（3） Yuanyingbian 嵌入式学习资料笔记 c++算法
四、关键字库函数4.1sizeof和strlen的区别strlen是头文件中的函数，sizeof是C++中的运算符。strlen测量的是字符串的实际长度（其源代码如下），以\0结束。而sizeof测量的是字符数组的分配大小。strlen本身是库函数，因此在程序运行过程中，计算长度；而sizeof在编译时，计算长度；sizeof的参数可以是类型，也可以是变量；strlen的参数必须是char*类型的
Apache Storm：实时数据处理的闪电战 Aaron_945 Java apache storm 大数据
文章目录ApacheStorm原理拓扑结构数据流处理容错机制官网链接基础使用安装与配置编写拓扑提交与运行高级使用状态管理窗口操作多语言支持优点高吞吐量低延迟可扩展性容错性总结ApacheStorm是一个开源的分布式实时计算系统，它允许你以极高的吞吐量处理无界数据流。Storm被广泛用于实时分析、在线机器学习、连续计算等多种场景。本文将深入探讨ApacheStorm的原理、基础使用、高级特性及其优点
计算机毕业设计之基于Hadoop的热点新闻分析系统的设计与实现微信bishe69 课程设计 python django mysql
近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，热点新闻分析系统利用计算机网络实现信息化管理，使整个热点新闻分析的发展和服务水平有显著提升。本文拟采用PyCharm开发工具，django框架、Python语言、Hadoop大数据处理技术进行开发，后台使用MySQL数据库进行信息管理，设计开发的热点新闻分析系统。通过调研和分析，系统拥有管理员和用户两个模块
计算机网络-扩展夏旭泽计算机网络
物联网实现物物相连的互联网络，其包涵两个方面：物联网的核心和基础仍然是互联网，是在互联网基础上延申和扩展的网络其用户端延申和扩展到了任何物体与物体之间，使其进行信息交换和通信感知层：识别物体、采集信息。eg：二维码、RFID、摄像头、传感器网络层：传递信息和处理信息。通信网与互联网的融合网络、网络管理中心、信息中心和只能处理中心等应用层：解决信息处理和人机交互问题关键技术：射频识别技术（Radio
Python常用的库讲解（易懂版）不辉放弃 python 开发语言
NumPy：用于科学计算的基础库，提供多维数组对象、各种派生对象和对数组执行操作的工具。importnumpyasnp#创建一个numpy数组arr=np.array([1,2,3,4,5])print(arr)Pandas：数据处理库，提供数据结构和数据分析工具，特别适合处理结构化数据。importpandasaspd#创建一个Pandas数据帧df=pd.DataFrame({'A':[1,2
计算机技术：哈佛架构 InnoLink_1024 操作系统嵌入式架构
1.哈佛架构简介哈佛架构（HarvardArchitecture）是一种计算机设计模型，与冯诺伊曼架构不同，其核心特征是将程序指令和数据分开存储和传输。这一架构最早起源于哈佛大学的MarkI计算机，因此得名。2.核心特点独立的存储器哈佛架构中，指令存储器和数据存储器是分开的。这意味着：指令和数据各自拥有独立的存储空间。它们通过不同的总线进行传输，不共享带宽。独立的总线哈佛架构采用两套总线系统：一条
计算机网络丸子猪的dady 计算机网络计算机网络发展史 OSI参考模型 TCP/IP通用协议计算机网络分类计算机网络节点计算机网络的定义组成及其功能
计算机网络计算机网络发展史有4个阶段在第3阶段：OSI开放式系统互联架构，确立了TCP/IP作为通用协议。OSI参考模型应用层表示层会话层传输层网络层数据链路层物理层TCP/IP通用协议组成：参考了OSI的七层模型，但简化为四层：应用层、传输层、网络层和链路层应用层：直接为应用进程提供服务，常见协议有HTTP、FTP、SMTP等。传输层：提供端到端的通信服务，主要协议有TCP和UDP。TCP是面向
计算机毕业设计PHP保利和院物业服务管理系统小程序（源码+程序+uni+lw+部署）计算机专业毕设程序课程设计 php 小程序
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
【含文档+PPT+源码】基于SpringBoot+vue的疫苗接种系统的设计与实现小咕聊编程 spring boot 后端 java
项目介绍本课程演示的是一款基于SpringBoot+vue的疫苗接种系统的设计与实现，主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的Java学习者。1.包含：项目源码、项目文档、数据库脚本、软件工具等所有资料2.带你从零开始部署运行本套系统3.该项目附带的源码资料可作为毕设使用疫苗接种系统包括管理员登录、用户管理、疫苗信息管理、疫苗接种管理、接种管理、疫苗百科知识管理、消息通知管理、
Seaborn 数据可视化指南：核心功能与实战技巧奋斗者1号信息可视化
Seaborn数据可视化指南：核心功能与实战技巧一、Seaborn核心功能1.高级统计图表接口自动统计计算：内置聚合、分布拟合、误差线计算等功能，无需手动处理数据。importseabornassnssns.histplot(data=df,x="age",hue="gender",kde=True)#自动分箱并拟合分布2.美观的默认主题提供darkgrid、whitegrid、dark、whit
人工智能的未来：从基础到前沿的探索与展望小二爱编程· 人工智能 ai AI编程 AI写作 AI作画
1.人工智能简介内容概述：人工智能（AI）是指模拟和执行人类智能任务的技术。随着计算能力和数据量的增加，AI在各个领域取得了显著进展，从自动化的基本任务到解决复杂的实际问题，人工智能正渗透到我们生活的各个方面。2.人工智能的种类与发展内容概述：AI的种类可以按智能的复杂度分为三大类：弱人工智能（NarrowAI）：目前大多数应用都属于弱AI，如语音助手、自动驾驶等。它们专注于特定任务，并且无法扩展
Spring Boot项目如何使用MyBatis实现分页查询 m0_74825003 面试学习路线阿里巴巴 spring boot mybatis 数据库
写在前面：大家好！我是。如果博客中有不足或者的错误的地方欢迎在评论区或者私信我指正，感谢大家的不吝赐教。我的唯一博客更新地址是：https://ac-fun.blog.csdn.net/。非常感谢大家的支持。一起加油，冲鸭！用知识改变命运，用知识成就未来！加油(???o??)?(???o??)?文章目录为什么需要分页查询减少数据库压力减少网络传输数据量提高系统的稳定性提升用户体验原始的实现方式计算
KV 缓存简介 dev.null AI 缓存
以下是关于KV缓存（Key-ValueCache）的简介，涵盖其定义、原理、作用及优化意义：1.什么是KV缓存？KV缓存是Transformer架构（如GPT、LLaMA等大模型）在自回归生成任务（如文本生成）中，用于加速推理过程的核心技术。其本质是：在生成序列时，缓存历史token的Key和Value矩阵，避免重复计算，从而显著减少计算量。2.为什么需要KV缓存？传统自注意力计算的问题在生成第t
【论文精读】PatchTST-基于分块及通道独立机制的Transformer模型打酱油的葫芦娃时序预测算法时序预测 PatchTST Transformer 预训练微调表征学习
《ATIMESERIESISWORTH64WORDS:LONG-TERMFORECASTINGWITHTRANSFORMERS》的作者团队来自PrincetonUniversity和IBMResearch，发表在ICLR2023会议上。动机Transformer模型因其自注意力机制在处理序列数据方面的优势，在自然语言处理（NLP）、计算机视觉（CV）、语音等多个领域取得了巨大成功。这种机制使得模型
Transformer精选问答 EmbodiedTech 大模型人工智能 transformer 深度学习人工智能
Transformer精选问答1Transformer各自模块作用Encoder模块经典的Transformer架构中的Encoder模块包含6个EncoderBlock.每个EncoderBlock包含两个子模块,分别是多头自注意力层,和前馈全连接层.多头自注意力层采用的是一种ScaledDot-ProductAttention的计算方式,实验结果表明,Multi-head可以在更细致的层面上提
C++ 树状数组 LIUJH1233 c++开发语言
一.树状数组是什么?二.树状数组的特性？可以解决大部分区间上面的修改以及查询的问题，例如1.单点修改，单点查询，2.区间修改，单点查询，3.区间查询，区间修改等问题；三.树状数组讲解lowbit的使用如何计算一个非负整数n在二进制下的最低为1及其后面的0构成的数？答案就是lowbit(x)。那么lowbit运算时怎么实现的呢？44的二进制=(101100)，我们对44的二进制数取反+1，也即~44
Socket（套接字）是什么，有什么作用？给我个面子中不 java
Socket（套接字）是计算机网络编程中的一个重要概念，它是应用程序和网络协议之间的接口，用于实现不同主机或不同进程之间的通信。通过Socket，程序能够在网络中发送和接收数据，实现网络应用的功能。Socket的基本概念Socket是一种抽象的概念，提供了一种编程接口（API），使得应用程序可以通过它与网络通信。它通常在操作系统的网络协议栈和应用程序之间提供一个桥梁。具体来说，Socket是由操作
hashmap为什么每次扩容都是2倍？给我个面子中不哈希算法散列表 java
HashMap扩容为什么是2倍，且可以用移位操作代替与运算？在HashMap中，哈希桶（数组）的大小总是2的幂，扩容时也是原大小的2倍。这样做的主要目的是优化哈希计算，使得索引计算可以用位运算（&）替代取模（%），提高性能。1.HashMap扩容规则HashMap的数组容量始终是2的幂（16,32,64...）。扩容时，容量翻倍。索引计算采用(n-1)&hash，而不是hash%n。2.为什么扩容
第十天-字符串：编程世界的文本基石大橙子房 ai python java
在编程的广阔领域中，字符串是极为重要的数据类型，它就像一座桥梁，连接着人类的自然语言和计算机能够理解与处理的数字信息。下面，让我们深入探索字符串的世界。一、字符串简介字符串是由零个或多个字符组成的有序序列，它在程序中用于表示文本信息。在Python语言环境下，创建字符串简洁直观，例如：str="HelloWorld"。这里，str作为字符串变量名，就如同给一个装着文本内容的盒子贴上了标签；Hell
使用LoRA微调LLaMA3 想胖的壮壮深度学习人工智能
使用LoRA微调LLaMA3的案例案例概述在这个案例中，我们将使用LoRA微调LLaMA3模型，进行一个文本分类任务。我们将使用HuggingFace的Transformers库来完成这个过程。步骤一：环境搭建安装必要的Python包pipinstalltransformersdatasetstorch配置GPU环境确保你的环境中配置了CUDA和cuDNN，并验证GPU是否可用。importtor
python orm框架sqlalchemy_Python的ORM框架SQLAlchemy入门教程 weixin_39758041 python orm框架sqlalchemy
SQLAlchemy的核心理念是，SQL数据库查询的数量级和特性关键于目标结合；而目标结合的抽象性又关键于表和行。一安裝SQLAlchemy编码以下:pipinstallsqlalchemy导进要是没有出错则安裝取得成功编码以下:importsqlalchemysqlalchemy.__version__‘0.9.1’二应用sqlalchemy对数据库操作1.界定元信息内容，关联到模块编码以下:(
Python 中的特殊注释及字符存储机制 svtvtvt python 开发语言 pycharm 数据结构
目录一、Python特殊注释及其作用1.'#!/usr/bin/python'（Shebang2.'#-*-coding:utf-8-*-'（字符编码声明）3.其他特殊注释二、Python中字符的存储机制1.计算机的最小存储单元2.常见字符编码方案3.Python中字符的存储三、中文乱码的原因及解决方法1.源文件的编码与Python的编码不一致2.编码与解码不一致3.终端或控制台编码问题4.操作系
Python的ORM框架SQLAlchemy入门教程 searchwang
SQLAlchemy是python操作数据库的一个库。能够进行orm映射，SQLAlchemy“采用简单的Python语言，为高效和高性能的数据库访问设计，实现了完整的企业级持久模型”SQLAlchemy的理念是，SQL数据库的量级和性能重要于对象集合；而对象集合的抽象又重要于表和行。一安装SQLAlchemy复制代码代码如下:pipinstallsqlalchemy导入如果没有报错则安装成功复制
nvidia_uvm 被占用，nvidia-smi 卡死 guganly 数据中心运维实战 chrome 前端服务器运维 linux
系统可以识别到多块NVIDIAGPU，且驱动模块已加载，但nvidia_uvm被占用，nvidia-smi卡死，通常是由于以下原因导致：可能原因GPU资源被占用某些进程正在使用NVIDIA驱动，导致模块无法卸载。驱动损坏或加载异常NVIDIA内核模块部分加载，但驱动未能正确工作。GPU挖矿或AI任务未释放某些后台程序未正常退出，导致GPU资源无法被释放。PCIe通道异常多卡环境可能由于PCIe配置
华为OD2023(A卷)基础题21【日志采集系统】大司码算法华为od
日志采集系统题目日志采集是运维系统的的核心组件。日志是按行生成，每行记做一条，由采集系统分批上报。如果上报太频繁，会对服务端造成压力；如果上报太晚，会降低用户的体验；如果一次上报的条数太多，会导致超时失败。为此，项目组设计了如下的上报策略：每成功上报一条日志，奖励1分每条日志每延迟上报1秒，扣1分积累日志达到100条，必须立即上报给出日志序列，根据该规则，计算首次上报能获得的最多积分数。输入按时序
用户行为路径分析（Google Analytics数据挖掘）闲人编程 Python数据分析实战精要数据挖掘人工智能用户行为路径分析 Analytics 数据分析用户习惯
目录用户行为路径分析（GoogleAnalytics数据挖掘）1.引言2.项目背景与意义2.1用户行为路径的重要性2.2GoogleAnalytics数据概述2.3数据规模与挑战3.数据集生成与介绍4.数据预处理与GPU加速5.用户行为路径分析方法5.1用户行为路径构建5.2行为路径挖掘与模式分析5.3常用指标计算6.数据可视化与指标展示7.PyQtGUI设计与实现8.GPU加速与性能优化9.系统
COBOL语言的信号量俞嫦曦包罗万象 golang 开发语言后端
COBOL语言中的信号量机制引言在现代计算机科学中，信号量作为一种同步机制，广泛应用于多线程和并发编程中。尽管COBOL（CommonBusinessOrientedLanguage）是一种相对较老的编程语言，但它依然被一些企业应用于业务系统中。本文将深入探讨COBOL语言中的信号量机制，包括其基本概念、实现方法，以及在实际应用中的示例。信号量的基本概念信号量是一种用于管理访问共享资源的同步工具。
SparkSQL编程-RDD、DataFrame、DataSet 早拾碗吧 Spark spark hadoop 大数据 sparksql
三者之间的关系在SparkSQL中Spark为我们提供了两个新的抽象，分别是DataFrame和DataSet。他们和RDD有什么区别呢？首先从版本的产生上来看：RDD(Spark1.0)—>Dataframe(Spark1.3)—>Dataset(Spark1.6)如果同样的数据都给到这三个数据结构，他们分别计算之后，都会给出相同的结果。不同是的他们的执行效率和执行方式。在后期的Spark版本中
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方