papaofdoudou

CUDA编程初探

CUDA的全称是Compute Unified Device Architecture,是显卡厂商NVIDIA推出的运算平台，开发者可以使用C语言来编写CUDA代码，使用NVCC编译器可以在支持CUDA的GPU处理器上以高速运行。虽然AMD也做显卡，但是CUDA是老黄自家提出的标准，没带AMD一起玩儿，所以，提到基于CUDA的高性能计算，使用的都是Nvidia的显卡。

首先安装CUDA环境，具体方式参考博客：

FairMOT Cuda环境搭建并进行推理_tugouxp的专栏-CSDN博客环境准备1.PC Host Ubuntu 18.04.6,Linux Kernel 5.4，内核版本关系不大，记录下来备查。2.安装基础工具,比如GCC，CMAKE，VIM，GIT等等，工具尽量完备, 如果做不到，遇到问题临时下载也可。3.安装python3发行版，我用的是anaconda发行版，具体版本是 Anaconda3-2020.11-Linux-x86_64.sh下载地址在如下链接，选择对应的版本即可。https://repo.anaco...https://blog.csdn.net/tugouxp/article/details/121248457环境安装后，可以用如下方法验证环境：

nvidia-smi命令枚举了系统中的所有显卡支持信息

nvcc工具是CUDA编译器，用nvcc -V 验证编译器是否可以工作:

cuda编程

编辑helloworld.cu文件，编码内容:

#include 
#include 

int main(void)
{
	printf("hellow world!\n");
	return 0;
}

之后执行 nvcc helloworld.cu -o helloworld,并运行

可以看到，运行程序后打印除了helloworld.

但是，这个程序用到显卡了吗？很遗憾，没有。如果非要用显卡做点什么的化，可以改成这个样子：

#include 
#include 

__global__ void kernel(void)
{

}

int main(void)
{
	kernel<<<1,1>>>();

	printf("hellow world!\n");
	return 0;
}

我们定义了一个空函数送给GPU跑，函数是空函数，什么也没做，白嫖一下GPU就退出，编译并运行：

生成的helloworld文件是ELF格式的目标文件，与GCC产生的无异，可以通过objdump反编译一把：

来看一下main函数的片段：

粗略一看，首先给人的印象是NVCC不是一个人在战斗，毕竟我们的代码才短短几行，反编译后却有这么多条指令，而且貌似有些指令是没有出现在源码层面调用的。还能看出一点的就是源码是按照C++编译的，因为看到了明显的名字改编。

那就是编译器做的手脚咯,幸好我们有办法确认这一点，方式就是在nvcc编译的时候加上--verbose选项:

#$ _NVVM_BRANCH_=nvvm
#$ _SPACE_= 
#$ _CUDART_=cudart
#$ _HERE_=/usr/local/cuda-11.5/bin
#$ _THERE_=/usr/local/cuda-11.5/bin
#$ _TARGET_SIZE_=
#$ _TARGET_DIR_=
#$ _TARGET_DIR_=targets/x86_64-linux
#$ TOP=/usr/local/cuda-11.5/bin/..
#$ NVVMIR_LIBRARY_DIR=/usr/local/cuda-11.5/bin/../nvvm/libdevice
#$ LD_LIBRARY_PATH=/usr/local/cuda-11.5/bin/../lib::/usr/local/cuda-11.5/lib64
#$ PATH=/usr/local/cuda-11.5/bin/../nvvm/bin:/usr/local/cuda-11.5/bin:/home/caozilong/anaconda3/bin:/home/caozilong/anaconda3/condabin:/home/caozilong/.local/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:/snap/bin:/usr/local/cuda-11.5/bin
#$ INCLUDES="-I/usr/local/cuda-11.5/bin/../targets/x86_64-linux/include"  
#$ LIBRARIES=  "-L/usr/local/cuda-11.5/bin/../targets/x86_64-linux/lib/stubs" "-L/usr/local/cuda-11.5/bin/../targets/x86_64-linux/lib"
#$ CUDAFE_FLAGS=
#$ PTXAS_FLAGS=
#$ gcc -D__CUDA_ARCH__=520 -D__CUDA_ARCH_LIST__=520 -E -x c++  -DCUDA_DOUBLE_MATH_FUNCTIONS -D__CUDACC__ -D__NVCC__  "-I/usr/local/cuda-11.5/bin/../targets/x86_64-linux/include"    -D__CUDACC_VER_MAJOR__=11 -D__CUDACC_VER_MINOR__=5 -D__CUDACC_VER_BUILD__=50 -D__CUDA_API_VER_MAJOR__=11 -D__CUDA_API_VER_MINOR__=5 -D__NVCC_DIAG_PRAGMA_SUPPORT__=1 -include "cuda_runtime.h" -m64 "helloworld.cu" -o "/tmp/tmpxft_0000596f_00000000-9_helloworld.cpp1.ii" 
#$ cicc --c++14 --gnu_version=70500 --display_error_number --orig_src_file_name "helloworld.cu" --orig_src_path_name "/home/caozilong/cuda/helloworld.cu" --allow_managed   -arch compute_52 -m64 --no-version-ident -ftz=0 -prec_div=1 -prec_sqrt=1 -fmad=1 --include_file_name "tmpxft_0000596f_00000000-3_helloworld.fatbin.c" -tused --gen_module_id_file --module_id_file_name "/tmp/tmpxft_0000596f_00000000-4_helloworld.module_id" --gen_c_file_name "/tmp/tmpxft_0000596f_00000000-6_helloworld.cudafe1.c" --stub_file_name "/tmp/tmpxft_0000596f_00000000-6_helloworld.cudafe1.stub.c" --gen_device_file_name "/tmp/tmpxft_0000596f_00000000-6_helloworld.cudafe1.gpu"  "/tmp/tmpxft_0000596f_00000000-9_helloworld.cpp1.ii" -o "/tmp/tmpxft_0000596f_00000000-6_helloworld.ptx"
#$ ptxas -arch=sm_52 -m64  "/tmp/tmpxft_0000596f_00000000-6_helloworld.ptx"  -o "/tmp/tmpxft_0000596f_00000000-10_helloworld.sm_52.cubin" 
#$ fatbinary -64 --cicc-cmdline="-ftz=0 -prec_div=1 -prec_sqrt=1 -fmad=1 " "--image3=kind=elf,sm=52,file=/tmp/tmpxft_0000596f_00000000-10_helloworld.sm_52.cubin" "--image3=kind=ptx,sm=52,file=/tmp/tmpxft_0000596f_00000000-6_helloworld.ptx" --embedded-fatbin="/tmp/tmpxft_0000596f_00000000-3_helloworld.fatbin.c" 
#$ rm /tmp/tmpxft_0000596f_00000000-3_helloworld.fatbin
#$ gcc -D__CUDA_ARCH_LIST__=520 -E -x c++ -D__CUDACC__ -D__NVCC__  "-I/usr/local/cuda-11.5/bin/../targets/x86_64-linux/include"    -D__CUDACC_VER_MAJOR__=11 -D__CUDACC_VER_MINOR__=5 -D__CUDACC_VER_BUILD__=50 -D__CUDA_API_VER_MAJOR__=11 -D__CUDA_API_VER_MINOR__=5 -D__NVCC_DIAG_PRAGMA_SUPPORT__=1 -include "cuda_runtime.h" -m64 "helloworld.cu" -o "/tmp/tmpxft_0000596f_00000000-5_helloworld.cpp4.ii" 
#$ cudafe++ --c++14 --gnu_version=70500 --display_error_number --orig_src_file_name "helloworld.cu" --orig_src_path_name "/home/caozilong/cuda/helloworld.cu" --allow_managed  --m64 --parse_templates --gen_c_file_name "/tmp/tmpxft_0000596f_00000000-6_helloworld.cudafe1.cpp" --stub_file_name "tmpxft_0000596f_00000000-6_helloworld.cudafe1.stub.c" --module_id_file_name "/tmp/tmpxft_0000596f_00000000-4_helloworld.module_id" "/tmp/tmpxft_0000596f_00000000-5_helloworld.cpp4.ii" 
#$ gcc -D__CUDA_ARCH__=520 -D__CUDA_ARCH_LIST__=520 -c -x c++  -DCUDA_DOUBLE_MATH_FUNCTIONS "-I/usr/local/cuda-11.5/bin/../targets/x86_64-linux/include"   -m64 "/tmp/tmpxft_0000596f_00000000-6_helloworld.cudafe1.cpp" -o "/tmp/tmpxft_0000596f_00000000-11_helloworld.o" 
#$ nvlink -m64 --arch=sm_52 --register-link-binaries="/tmp/tmpxft_0000596f_00000000-7_helloworld_dlink.reg.c"    "-L/usr/local/cuda-11.5/bin/../targets/x86_64-linux/lib/stubs" "-L/usr/local/cuda-11.5/bin/../targets/x86_64-linux/lib" -cpu-arch=X86_64 "/tmp/tmpxft_0000596f_00000000-11_helloworld.o"  -lcudadevrt  -o "/tmp/tmpxft_0000596f_00000000-12_helloworld_dlink.sm_52.cubin"
#$ fatbinary -64 --cicc-cmdline="-ftz=0 -prec_div=1 -prec_sqrt=1 -fmad=1 " -link "--image3=kind=elf,sm=52,file=/tmp/tmpxft_0000596f_00000000-12_helloworld_dlink.sm_52.cubin" --embedded-fatbin="/tmp/tmpxft_0000596f_00000000-8_helloworld_dlink.fatbin.c" 
#$ rm /tmp/tmpxft_0000596f_00000000-8_helloworld_dlink.fatbin
#$ gcc -D__CUDA_ARCH_LIST__=520 -c -x c++ -DFATBINFILE="\"/tmp/tmpxft_0000596f_00000000-8_helloworld_dlink.fatbin.c\"" -DREGISTERLINKBINARYFILE="\"/tmp/tmpxft_0000596f_00000000-7_helloworld_dlink.reg.c\"" -I. -D__NV_EXTRA_INITIALIZATION= -D__NV_EXTRA_FINALIZATION= -D__CUDA_INCLUDE_COMPILER_INTERNAL_HEADERS__  "-I/usr/local/cuda-11.5/bin/../targets/x86_64-linux/include"    -D__CUDACC_VER_MAJOR__=11 -D__CUDACC_VER_MINOR__=5 -D__CUDACC_VER_BUILD__=50 -D__CUDA_API_VER_MAJOR__=11 -D__CUDA_API_VER_MINOR__=5 -D__NVCC_DIAG_PRAGMA_SUPPORT__=1 -m64 "/usr/local/cuda-11.5/bin/crt/link.stub" -o "/tmp/tmpxft_0000596f_00000000-13_helloworld_dlink.o" 
#$ g++ -D__CUDA_ARCH_LIST__=520 -m64 -Wl,--start-group "/tmp/tmpxft_0000596f_00000000-13_helloworld_dlink.o" "/tmp/tmpxft_0000596f_00000000-11_helloworld.o"   "-L/usr/local/cuda-11.5/bin/../targets/x86_64-linux/lib/stubs" "-L/usr/local/cuda-11.5/bin/../targets/x86_64-linux/lib"  -lcudadevrt  -lcudart_static  -lrt -lpthread  -ldl  -Wl,--end-group -o "helloworld"

现在总结一下CUDA编程的规则：

核函数，在GPU上执行的函数通常成为核函数，如上面程序中的kernel函数。
核函数一般通过标识符__global__修饰，通过<<<参数1，参数2>>>调用，用于说明内核函数中的线程数量，以及线程是如何组织的。
以线程格(Grid)的形式组织，每个线程格有若干个线程块(block)组成，而每个线程块又由若干个线程(thread)组成。
以Block为单位执行
能在主机端代码中调用
调用时必须声明内核函数的执行参数
在编程时，必须先为kernel函数中用到的数组或者变量分配好足够的空间，再调用kernel函数，否则在GPU计算时会发生错误，例如越界或者报错，甚至导致蓝屏和死机。

CUDA的变成模型如下图所示：

上面例子中,kernel函数恰好叫kernel是一种巧合，实际上你可以改成任何有意义的名字，只要按照CUDA要求的方式调用即可

#include 
#include 

__global__ void dummy(void)
{

}

int main(void)
{
	dummy<<<1,1>>>();

	printf("hellow world!\n");
	return 0;
}

对于上如上的例子，我们探究一下它的控制流是如何进行的,首先我们看到反编译文件中，首先main函数调用了_Z5dummyv

不难看出这个函数名是经过C++名字改编的，我们用c++filt工具将其还原：

可以看到它就是dummy,我们继续追踪

可以看到dummy调用了_Z23__device_stub__Z5dummyvv函数,继续追踪，发现执行流最终调用了_Z16cudaLaunchKernelIcE9cudaErrorPKT_4dim3S4_PPvmP11CUstream_st，而经过反命名后，发现它是名为cudaLaunchKernel的cuda函数，这个函数并非代码中显示调用的，而是NVCC工具链生成的，所以，顾名思义，很可能就是这句调用发起了对GPU控制流的交接。

global和device

__global__和__device__是函数修饰符，__global__表明被修饰的函数在设备上执行，但是在主机上调用，__device__，表示被修饰的函数在设备上执行，但是只能在其他__device__或者__global__函数中调用，说白了它只能在GPU中执行，并且被GPU中执行的函数调用。

新的例子

计算3+6等于几的例子

#include 
#include 

__global__ void add(int a, int b, int *c)
{
	*c = a + b;
}

int main(void)
{
	int c;
	int *gpu_c;

	cudaMalloc((void **)&gpu_c, sizeof(int));

	add<<<1,1>>>(3,6,gpu_c);

	cudaMemcpy(&c, gpu_c, sizeof(int), cudaMemcpyDeviceToHost);

	cudaFree(gpu_c);

	printf("3 + 9 eques %d.\n", c);

	return 0;
}

我们得到了正确的计算结果。

我们稍微改一下程序，将计算过程改为循环计算，然后用nvidia-smi工具监视一下GPU的资源使用情况:

#include 
#include 

__global__ void add(int a, int b, int *c)
{
	*c = a + b;
}

int main(void)
{
	int c;
	int *gpu_c;

	while(1)
	{
		cudaMalloc((void **)&gpu_c, sizeof(int));

		add<<<1,1>>>(3,6,gpu_c);

		cudaMemcpy(&c, gpu_c, sizeof(int), cudaMemcpyDeviceToHost);

		cudaFree(gpu_c);

		printf("3 + 9 eques %d.\n", c);
	}

	return 0;
}

编译并运行：

运行过程中，使用watch -n 1 nvidia-smi命令监控GPU的资源变化情况,可以看到内存占用和GPU负载在不断的发生变化：

复杂一些的例子：

下面的例子对两个列向量求算术平方和，循环进行M次，分别用CPU和GPU计算，最后对统计到的计算速度进行对比：

#include 
#include 
#include 
#include 

#define N                 (1024 * 1024)
#define M                 (10000)
#define THREADS_PER_BLOCK (1024)

void cpu_vector_add(double *a, double *b, double *c, int n , int m)
{
	int index, j;

	for(index = 0; index < n; index ++)
	{
		for(j = 0; j < m; j ++)
		{
			c[index] = a[index] * a[index] + b[index] * b[index];
		}
	}

	return;
}

__global__ void gpu_vector_add(double *a, double *b, double *c)
{
	int j;
	int index = blockIdx.x * blockDim.x + threadIdx.x;

	for(j = 0; j < M; j ++)
	{
		c[index] = a[index] * a[index] + b[index] * b[index];
	}
}

int main(void)
{
	clock_t start, end;
	double *a, *b, *c;

	int size = N * sizeof(double);

	a = (double *)malloc(size);
	b = (double *)malloc(size);
	c = (double *)malloc(size);

	if(!a || !b || !c)
	{
		printf("%s line %d, fatal error,malloc buffer failure.\n", __func__, __LINE__);
		return -1;
	}
	
	int j;
	for(j = 0; j < N; j ++)
	{
		a[j] = b[j] = j;
		c[j] = 0;
	}

	start = clock();
	cpu_vector_add(a, b, c, N, M);

	printf("[%d]=%f\n", 0, c[0]);
	printf("[%d]=%f\n", N-1, c[N-1]);

	end = clock();

	float time_cpu_cost = ((float)(end-start))/CLOCKS_PER_SEC;
	printf("CPU cost %f sectonds.\n", time_cpu_cost);

	start = clock();

	double *gpu_a, *gpu_b, *gpu_c;

	cudaMalloc((void**)&gpu_a, size);
	cudaMalloc((void**)&gpu_b, size);
	cudaMalloc((void**)&gpu_c, size);

	cudaMemcpy(gpu_a, a, size, cudaMemcpyHostToDevice);
	cudaMemcpy(gpu_b, b, size, cudaMemcpyHostToDevice);

	gpu_vector_add<<< (N + (THREADS_PER_BLOCK-1)) / THREADS_PER_BLOCK, THREADS_PER_BLOCK >>>(gpu_a, gpu_b, gpu_c);

	cudaMemcpy(c, gpu_c, size, cudaMemcpyDeviceToHost);

	printf("[%d]=%f\n", 0, c[0]);
	printf("[%d]=%f\n", N-1, c[N-1]);

	end = clock();

	float time_gpu_cost = ((float)(end-start))/CLOCKS_PER_SEC;
	printf("GPU cost %f sectonds.\n", time_gpu_cost);

	float faster_than = time_cpu_cost/time_gpu_cost;
	printf("GPU cost faster than CPU %f times.\n", faster_than);

    //printf("a = %p, b = %p, c = %p, gpu_a = %p, gpu_b = %p, gpu_c = %p.\n", a, b, c, gpu_a, gpu_b, gpu_c);

	free(a);
	free(b);
	free(c);
	cudaFree(gpu_a);
	cudaFree(gpu_b);
	cudaFree(gpu_c);

	return 0;
}

编译运行，查看计算结果：

经过实际测试,同样的计算量，我的红米本使用的MX250入门级显卡要比Intel(R) Core(TM) i7-8565U CPU @ 1.80GHz处理器快大约30倍，更别提那些用于数学计算的专业N卡了，这个数据让我对显卡的恐怖计算能力有了进一步的认识。

问题：

程序中存在两类指针，malloc分配的主存指针和cudaMalloc分配的显存指针，添加打印，打印出a,b,c,gpu_a,gpu_b,gpu_c的指针数值，根据打印来看，这些指针没有明显差别，难道cudaMalloc分配的并非是显存上的地址？或者显存和主存之间存在某种映射?不过可以确定的是，虽然指针的地址范围相思，但是不可以在主机代码中使用cudaMalloc()分配的指针进行主机内存读写操作（即不能进行解引用）。

结束！

【人工智能基础2】Tramsformer架构、自然语言处理基础、计算机视觉总结 roman_日积跬步-终至千里人工智能习题人工智能自然语言处理计算机视觉
文章目录七、Transformer架构1.替代LSTM的原因2.Transformer架构：编码器-解码器架构3.Transformer架构原理八、自然语言处理基础1.语言模型基本概念2.向量语义3.预训练语言模型的基本原理与方法4.DeepSeek基本原理九、计算机视觉七、Transformer架构1.替代LSTM的原因处理极长序列时，效率下降：虽然LSTM设计的初衷是解决长期依赖问题，即让模型
怎么做一个AI产品经理？ AI筑梦师 AI产品经理人工智能产品经理
AI产品经理全面进化：在人工智能迅猛发展的时代，产品经理的角色正经历前所未有的转型。从传统的需求捕捉者到技术与商业紧密结合的创新推动者，AI产品经理肩负着将前沿AI技术转化为解决用户痛点的产品的重要任务。随着大数据、云计算和大模型技术的不断成熟，产品经理不仅需要具备敏锐的市场洞察，还必须深刻理解AI技术本质，跨界整合技术、数据与业务优势，从而推动产品的持续创新与落地。本文将全面解析AI产品经理的角
MV-EB435i立体相机对垃圾分类开哥kg pytorch 深度学习卷积神经网络分类人工智能
最近在v社区发了一篇文章，懒得转移过来了链接：V社区-机器视觉技术交流社区-MV-EB435i立体相机对垃圾分类我觉得这篇文章对于刚入门深度学习想看点项目学点代码的刚刚好，因为我也是新手，嘻嘻嘻！希望这篇文章对大家有所帮助，如有错误请大家指正。
LORA 微调大模型：从入门到入土大模型. 人工智能开发语言 gpt agi 架构大模型
在当今人工智能领域，预训练的大模型已经成为推动技术发展的核心力量。然而，在实际项目中，我们往往会发现这些预训练模型虽然强大，但直接就去应用于一些特定的任务时，往往无法完全满足需求。这时，微调就成为了必不可少的一步。而在众多微调方法中，LORA全名(Low-RankAdaptation)以高效性和实用性，逐渐成为了许多开发者训练模型的首选项。作为一名小有经验的咸鱼开发者，我深知在实际项目中高效的进行
AI人工智能中的概率论与统计学原理与Python实战：Python实现概率模型 AI天才研究院 AI实战 AI大模型企业级应用开发实战大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的不断发展，概率论与统计学在人工智能领域的应用越来越广泛。概率论与统计学是人工智能中的基础知识之一，它们在机器学习、深度学习、自然语言处理等领域都有着重要的作用。本文将介绍概率论与统计学的核心概念、算法原理、具体操作步骤以及Python实现方法，并通过具体代码实例进行详细解释。2.核心概念与联系2.1概率论与统计学的区别概率论是一门数学学科，它研究随机事件发生的可能性。
如何使用 Python 实现生成对抗网络 NoABug python 生成对抗网络 tensorflow
如何使用Python实现生成对抗网络生成对抗网络（GenerativeAdversarialNetwork，GAN）是一种能够生成高质量、逼真图像的深度学习模型。GAN模型由两个神经网络组成：一个生成器和一个判别器。生成器的任务是以噪声为输入，生成看似真实的图像；而判别器则需要根据输入的图像，判断该图像是真实的还是由生成器生成的。下面我们将通过Python代码来实现一个简单的GAN模型。首先，我们
GAN模型的Python应用——生成对抗网络代码编织匠人 python 生成对抗网络开发语言
GAN模型的Python应用——生成对抗网络生成对抗网络（GenerativeAdversarialNetwork，GAN）是深度学习中的一种重要模型，已经被广泛应用于图像、文本生成等领域。GAN模型由两个神经网络组成：生成器（Generator）和判别器（Discriminator）。生成器用于生成假样本，判别器用于评估真实性。两个神经网络相互博弈，通过一次次迭代训练，最终生成器可以生成足以骗过
嵌入式c语言进阶（三）状态机State Machine niuTaylor c语言开发语言
状态机（StateMachine）是一种描述系统在不同状态之间转换行为的数学模型或设计模式，广泛应用于嵌入式系统、业务流程、游戏开发等领域。以下从核心概念、实现方式、应用实战三方面进行详细解析：一、状态机核心概念四大要素现态（CurrentState）：系统当前所处的状态。事件（Event）：触发状态转移的条件，如用户操作、时间到期等。动作（Action）：状态转移时执行的操作，例如发送通知、更新
二值逻辑、三值逻辑到多值逻辑的变迁（含示例）搏博人工智能原理算法人工智能机器学习线性代数图像处理数据分析
二值逻辑、三值逻辑到多值逻辑的变迁是一个逻辑体系不断拓展和深化的过程，反映了人们对复杂现象和不确定性问题认识的逐步深入。前文，我们已经探讨过命题逻辑与谓词逻辑，了解了如何用符号语言从浅入深地刻画现实世界。具体可以看我的CSDN文章：人工智能的数学基础之命题逻辑与谓词逻辑（含示例）-CSDN博客人工智能中用到的逻辑可概括地划分为两大类。第一类是经典命题逻辑和一阶谓词逻辑，第二类是泛指除经典逻辑之外的
ollama下载的DeepSeek的模型(Model)文件在哪里？(C盘下) 神秘泣男子常见AI大模型部署与应用 Ollama部署LLM 人工智能 ollama llama 自然语言处理机器学习
目录一、下载大模型（DeepSeek）2.安装Ollama3.检查安装是否成功二、拉取大模型（DeepSeek）1.打开命令行2.下载模型3.测试下载4.等待下载完成三.模型存放路径这个位置！！在人工智能快速发展的今天，大语言模型已经成为许多人探索和使用的热门技术。而Ollama作为一款轻量级的本地大模型运行工具，让我们能够在个人电脑上体验各种强大的AI模型，如DeepSeek系列。不少用户在安装
如何使用Python实现生成对抗网络（GAN）「已注销」互联网前沿技术韩进的创作空间全栈开发知识库 python 生成对抗网络 tensorflow 深度学习数据分析
生成对抗网络（GAN）是一种深度学习模型，由两个部分组成：生成器和判别器。生成器负责生成与训练数据相似的新数据，而判别器负责判断输入数据是真实的还是由生成器生成的。这两个部分不断相互博弈，直到生成器能够生成非常逼真的数据，使判别器难以区分生成数据和真实数据。下面是一个简单的Python实现，使用TensorFlow和Keras库。在开始之前，请确保已经安装了TensorFlow和Keras。imp
【数学基础】线性代数#1向量和矩阵初步 -一杯为品- 数学线性代数矩阵
本系列内容介绍：主要参考资料：《深度学习》[美]伊恩·古德菲洛等著《机器人数学基础》吴福朝张铃著文章为自学笔记，仅供参考。目录标量、向量、矩阵和张量矩阵运算单位矩阵和逆矩阵线性相关和生成子空间范数特殊类型的矩阵和向量特征分解奇异值分解Moore-Penrose伪逆迹运算行列式标量、向量、矩阵和张量标量标量是一个单独的数。向量向量是一列有序排列的数：x=[x1x2⋮xn]\boldsymbolx=\
AIGC从入门到实战：可能消失的职业和新出现的机会 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AIGC从入门到实战：可能消失的职业和新出现的机会作者：禅与计算机程序设计艺术1.背景介绍人工智能生成内容（AIGC）正在迅速改变我们的世界。从文本、代码到图像和音乐，AIGC正在各个领域展示其强大的能力，并开始挑战传统的创意产业。本篇文章将深入探讨AIGC的概念、技术原理、应用场景以及其对未来职业的影响，并为读者提供入门AIGC的实用指南。1.1AIGC的兴起AIGC的兴起得益于近年来人工智能技
内容创作者必备！Deepseek赋能，让创作更高效小焱创作 AI改变未来人工智能人工智能写作 ai写作深度学习神经网络 ai chatgpt
内容创作者必备！DeepSeek赋能，让创作更高效在当今信息爆炸的时代，内容创作已成为自媒体博主们展现才华、吸引粉丝的重要途径。然而，面对日益增长的竞争压力和不断变化的用户需求，如何高效、高质量地产出内容成为了摆在我们面前的一大挑战。幸运的是，随着人工智能技术的飞速发展，一款名为DeepSeek的智能工具应运而生，为内容创作者提供了强大的赋能。本文将深入探讨DeepSeek的基本概念、深层次解读、
ChatGPT智能聊天机器人实现云端源想 chatgpt 机器人
以下是一个从零实现类ChatGPT智能聊天机器人的完整开发指南，包含技术选型、核心代码逻辑和推荐学习资源：—云端平台整理一、技术架构与工具核心模型基座模型：HuggingFaceTransformers库（如GPT-2/GPT-3.5TurboAPI/LLaMA2）轻量化方案：微软DeepSpeed或MetaFairScale（降低显存占用）训练框架PyTorchLightning+Acceler
解决 Flutter Device Daemon 启动失败问题的实践记录又吹风_Bassy flutter Flutter Daemon file handles Daemon Crash AndroidStudio
解决FlutterDeviceDaemon启动失败问题的实践记录最近在使用Flutter开发时踩了一个坑。看似是个小问题，但折腾了好久，最终通过日志分析和查阅资料才找到了解决办法。这里记录一下整个问题的排查过程，希望能帮助到遇到类似问题的小伙伴。问题背景事情是这样的，我在启动AndroidStudio时突然弹出了一个错误窗口：提示Flutterdaemon启动失败，过了一会儿之后，又弹出下面的弹窗
【step by step】Easyi3C Host I3C/I2C adapter (8) Scott.W 嵌入式硬件 python 功能测试
Easyi3C是一家领先的嵌入式系统工具供应商，可简化各种通信协议的开发和调试。公司提供一系列产品，旨在帮助工程师和开发人员更高效地使用I3C/I2C、USB和MIPI、JEDEC、MCTP等协议。Easyi3C提供PythonAPI。用户可以使用Python脚本对Easyi3C进行编程和控制，通过I2C或I3C协议访问从设备。API的使用，适合用户搭建更加复杂的测试环境，对提高自动化测试程度会有
开源模型应用落地-Qwen2-VL-7B-Instruct-vLLM-OpenAI API Client调用开源技术探险家开源大语言模型-新手试炼深度学习 AI编程 AIGC
一、前言学习Qwen2-VL，为我们打开了一扇通往先进人工智能技术的大门。让我们能够深入了解当今最前沿的视觉语言模型的工作原理和强大能力。这不仅拓宽了我们的知识视野，更让我们站在科技发展的潮头，紧跟时代的步伐。Qwen2-VL具有卓越的图像和视频理解能力，以及多语言支持等特性。学习它可以提升我们处理复杂视觉信息的能力，无论是在学术研究中分析图像数据、解读视频内容，还是在实际工作中进行文档处理、解决
ChatGPT、DeepSeek、Grok 三者对比：AI 语言模型的博弈与未来一ge科研小菜菜人工智能人工智能
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着人工智能技术的飞速发展，AI语言模型已经成为人机交互、内容创作、代码生成、智能问答等领域的重要工具。其中，ChatGPT（OpenAI）、DeepSeek（中国团队研发）和Grok（xAI，ElonMusk旗下公司）是当前三大具有代表性的AI语言模型。它们在技术架构、应用场景、用户体验、生态开放性等多个维度各具特色，并针对不同的用户需
【go从入门到精通】探秘struct结构体转json为什么需要首字母大写？前网易架构师-高司机 golang从入门到精通 golang json go 结构体首字母大写 golang从入门到精通 go从入门到精通
目录作者简介：问题抛出分析结论作者简介：高科，先后在IBMPlatformComputing从事网格计算，淘米网，网易从事游戏服务器开发，拥有丰富的C++，go等语言开发经验，mysql，mongo，redis等数据库，设计模式和网络库开发经验，对战棋类，回合制，moba类页游，手游有丰富的架构设计和开发经验。并且深耕深度学习和数据集训练，提供商业化的视觉人工智能检测和预警系统（煤矿，工厂，制造业
【动手学深度学习】#1PyTorch基础操作 -一杯为品- 机器学习深度学习人工智能
主要参考学习资料：《动手学深度学习》阿斯顿·张等著【动手学深度学习PyTorch版】哔哩哔哩@跟李牧学AI目录1.1数据操作1.1.1入门1.1.2运算符1.1.3广播机制1.1.4索引和切片1.1.5节省内存1.1.6转换为其他Python对象1.2数据预处理1.2.1读取数据集1.2.2处理缺失值1.2.3转换为张量格式1.3线性代数1.3.1标量1.3.2向量1.3.3矩阵1.3.4张量1.
为什么转行大模型行业？深度解析职业变革与技术红利大模型入门教程大模型学习语言模型人工智能 AI 大模型程序员大模型入门
引言2023年ChatGPT的爆发式发展，标志着AI大模型技术正式进入大众视野。这一技术不仅重塑了人工智能的边界，更催生了全新的职业赛道。从传统算法工程师到互联网从业者，越来越多的人开始将目光投向大模型领域。本文将深入探讨这一现象背后的核心动因，并结合行业现状、技术趋势与职业发展路径，为从业者提供系统性分析。一、行业变革：传统岗位萎缩与大模型崛起传统技术岗位的困境以推荐算法为例，随着移动互联网流量
DeepSeek 与云原生后端：AI 赋能现代应用架构一ge科研小菜菜后端人工智能后端
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言在当今快速发展的互联网时代，云原生（CloudNative）架构已成为后端开发的主流趋势。云原生后端的核心目标是利用云计算的弹性、可扩展性和高可用性，为现代应用提供稳定可靠的后端支持。而人工智能（AI）技术的发展，使得智能化成为云原生后端的新趋势。DeepSeek作为新一代AI技术，在云原生后端的自动化运维、智能资源调度、安全增强和高效数
CMake 保姆级教程爱吃巧克力的程序媛 CMake c++
CMake是一个跨平台的构建工具，用于生成适合不同平台和编译器的构建系统文件（如Makefile或VisualStudio项目文件）。在Windows下使用CMake构建项目时，CMake会根据CMakeLists.txt文件生成适合Windows的构建系统文件（如VisualStudio项目文件）。以下是Windows下使用CMake的基本规则和步骤：https://subingwen.cn/c
【C++游戏开发】零基础手写完整飞机大战游戏（基于EasyX图形库/详细注释/源码分享）小乌龟登顶记 stm32 单片机嵌入式硬件
一、开发环境与资源准备1.1环境要求VisualStudio2019+（推荐2022）EasyX图形库（官网下载适配VS版本）WindowsSDK（安装VS时勾选）1.2资源文件在项目目录创建res文件夹，存放以下素材（素材自备）：plane.png玩家飞机（50x50）enemy.png敌机（50x50）bullet.png子弹（10x20）bg.jpg滚动背景（600x700）boom.wav
AI 大模型应用数据中心建设：高性能计算与存储架构 AI智能涌现深度研究 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
AI大模型、数据中心、高性能计算、存储架构、分布式训练、GPU加速、数据管理1.背景介绍近年来，人工智能（AI）技术取得了飞速发展，特别是深度学习模型的突破性进展，催生了一系列基于大规模数据训练的强大AI模型，例如GPT-3、BERT、DALL-E等。这些AI大模型在自然语言处理、计算机视觉、语音识别等领域展现出强大的应用潜力，但也对计算资源和数据存储提出了极高的要求。传统的计算架构难以满足AI大
人工智能直通车系列24【机器学习基础】（机器学习模型评估指标（回归））浪九天人工智能直通车开发语言 python 机器学习深度学习神经网络人工智能
目录机器学习模型评估指标（回归）1.均方误差（MeanSquaredError,MSE）2.均方根误差（RootMeanSquaredError,RMSE）3.平均绝对误差（MeanAbsoluteError,MAE）4.决定系数（CoefficientofDetermination,R2）机器学习模型评估指标（回归）1.均方误差（MeanSquaredError,MSE）详细解释均方误差是回归问
国央企AI落地：以智能客服系统为突破口的详细实施方案探讨数商云网络 B2B系统数字化电商平台人工智能大数据架构 java 微服务 spring
一、引言随着人工智能（AI）技术的飞速发展和广泛应用，国央企作为国民经济的重要支柱，正积极探索AI技术在企业管理、业务运营等方面的应用。智能客服系统作为AI技术的一个重要应用领域，具有提升服务效率、增强用户体验、降低运营成本等显著优势，成为国央企AI落地的重要突破口。本文将详细探讨国央企如何以智能客服系统为突破口，实施AI技术的落地应用，并结合数商云在智能客服系统领域的实践经验，为国央企提供一套切
从零开始学机器学习——构建一个推荐web应用努力的小雨机器学习机器学习前端人工智能
首先给大家介绍一个很好用的学习地址：https://cloudstudio.net/columns今天，我们终于将分类器这一章节学习完活了，和回归一样，最后一章节用来构建web应用程序，我们会回顾之前所学的知识点，并新增一个web应用用来让模型和用户交互。所以今天的主题是美食推荐。美食推荐Web应用程序首先，请不要担心，本章节并不会涉及过多的前端知识点。我们此次的学习重点在于机器学习本身，因此我们
CSDN社区，到底该不该用DeepSeek AI生成文章？ Small踢倒coffee_氕氘氚 python 经验分享
##引言在当今数字化时代，人工智能（AI）技术正以惊人的速度发展，逐渐渗透到各个行业和领域。作为AI技术的一个重要分支，自然语言处理（NLP）在内容创作、文本生成等方面展现出了巨大的潜力。DeepSeekAI作为一款先进的AI写作工具，能够自动生成高质量的文章，极大地提高了内容创作的效率。然而，随着AI生成内容的普及，CSDN社区中的开发者、技术爱好者和内容创作者们开始思考一个问题：我们到底该不该
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，

CUDA编程初探

cuda编程

__global__和__device__

新的例子

复杂一些的例子：

问题：

结束！

你可能感兴趣的:(人工智能,多媒体,嵌入式系统,visual,studio,深度学习,pytorch)

global和device