在追梦的路上xxxxx

CUDA（Ⅵ）：常量内存（Constant Memory）

1.背景提出：

内存带宽对性能瓶颈的影响？

2.解决方案：

3.案例分析：光线追踪（Ray Tracing）实例

简介：

构造：

功能：

代码复现--非常量内存GPU版本：

代码复现--常量内存GPU版本：

修改一：__constant__

修改二：cudaMemcpyToSymbol()

4.Constant Memory带来的性能分析提升

从Constant Memory读取相同的数据可以节约内存带宽的源因：

线程束（Warp）：

节约内存带宽的机制：

在光线追踪器程序中的分析：

双刃剑：

1.背景提出：

内存带宽对性能瓶颈的影响？

性能瓶颈通常并不在于芯片的数学计算吞吐量，而是在于芯片的内存带宽。由于GPU上包含非常多的ALU，因此有时输入数据的速率甚至无法维持如此高的计算速率。因此有必要研究一些手段来减少计算问题时的内存通信量。

2.解决方案：

除了Global Memory、Shared Memory外，CUDA C程序还支持另一种类型的内存，Constant Memory。Contant Memory用于保存在Kernel执行期间不会发生变化的数据。NVIDIA硬件提供64KB的Constan Memory。在某些情况，用Constant Memory替换Global Memory能有效的减少内存带宽。

3.案例分析：光线追踪（Ray Tracing）实例

简介：

从三维场景中生成一张二维图像的一种方式。原理：在场景中选择一个位置放上一台假想的相机。这台数字相机包含一个光传感器来生成图像，因此需要判断哪些光将接触到这个传感器。图像中的每个像素与命中传感器的光线有着相同的颜色和强度。

由于传感器中的命中的光线可能来自场景中的任意位置。因此事实也证明了采用逆向计算或许是更容易实现的。也就是说，不是找出哪些光线将命中某个像素，而是想象从该像素发出一道射线进入场景中，按照这种思路，每个像素的行为都像一只“观察”场景的眼镜，即每个像素投射光纤进入到场景的过程。

我们追踪从像素中投射出的光纤穿过场景，直到光纤命中某个物体，然后计算这个像素的颜色。我们说像素都将“看到”这个物体，并根据它所看到物体的颜色来设置它的颜色。光纤追踪中的大部分计算都是光线与场景中物体的相交运算。

构造：

只支持一组包含球状物体的场景，并且相机被固定在Z轴，面向圆原点。此外，我们将不支持场景中的任何照明，从而避免二次光线带来的复杂性。也不支持计算照明的效果，而只是为每个球面分配一个颜色值，然后如果他们是可见的，则通过某个预先计算的值对其着色。

功能：

从每个像素发射一道光线，并且跟踪这些光线会命中那些球面。此外，它还将跟踪每道命中光线的深度。当一道光线穿过多个球面时，只有最接近相机的球面才会被看到，我们的“光线跟踪器”会把相机看不到的球面隐藏起来。

代码复现--非常量内存GPU版本：

其实我也不懂图像，作者把有关图像的内容封装成了包，在参考代码直接调用就好了。

#include "cuda.h"
#include "../common/book.h"
#include "../common/cpu_bitmap.h"

#define DIM 1024

#define rnd( x ) (x * rand() / RAND_MAX)
#define INF     2e10f

//通过一个数据结构对球面建模
struct Sphere {
	float   r, b, g; //颜色值
	float   radius;  //半径
	float   x, y, z; //球面的中心坐标
/*
该方法对来自（ox,oy）处像素的光线，这个方法将计算光线是否与这个球面相交。如果光线与球面相交，
那么这个方法将计算从相机到光线命中球面处的距离。
需要这个函数的原因：当光线命中多个球面时，只有最接近相机的球面才会被看见。
*/
	__device__ float hit(float ox, float oy, float *n) {
		float dx = ox - x;
		float dy = oy - y;
		if (dx*dx + dy*dy < radius*radius) {
			float dz = sqrtf(radius*radius - dx*dx - dy*dy);
			*n = dz / sqrtf(radius * radius);
			return dz + z;
		}
		return -INF;
	}
};
#define SPHERES 20

/*
执行光线追踪计算并且从输入的一组球面中为每个像素计算颜色数据。
最后，我们将把输出图像从GPU中复制回来，并显示它
*/
/*
每个线程都会为输出影响中的一个像素计算颜色值，计算每个线程对应的x坐标和y坐标，
并且根据这两个坐标来计算输出缓冲区中的偏移，此外，我们还将把图像坐标（x，y）偏移DIM/2
这样Z轴将穿过图像的中心
*/
__global__ void kernel(Sphere *s, unsigned char *ptr) {
	//将threadIdx/BlockIdx映射到像素位置
	int x = threadIdx.x + blockIdx.x * blockDim.x;
	int y = threadIdx.y + blockIdx.y * blockDim.y;
	int offset = x + y * blockDim.x * gridDim.x;
	float   ox = (x - DIM / 2);
	float   oy = (y - DIM / 2);
	//每条光线都需要判断与球面相交的情况，因此我们对球面数组进行迭代，并判断每个球面的命中情况
	float   r = 0, g = 0, b = 0;
	float   maxz = -INF;
	for (int i = 0; i maxz) {
			float fscale = n;
			r = s[i].r * fscale;
			g = s[i].g * fscale;
			b = s[i].b * fscale;
			maxz = t;
		}
	}

	ptr[offset * 4 + 0] = (int)(r * 255);
	ptr[offset * 4 + 1] = (int)(g * 255);
	ptr[offset * 4 + 2] = (int)(b * 255);
	ptr[offset * 4 + 3] = 255;
}


// globals needed by the update routine
struct DataBlock {
	unsigned char   *dev_bitmap;
	Sphere          *s;
};

int main(void) {
	DataBlock   data;
	//记录（capture） 起始时间
	cudaEvent_t     start, stop;
	HANDLE_ERROR(cudaEventCreate(&start));
	HANDLE_ERROR(cudaEventCreate(&stop));
	HANDLE_ERROR(cudaEventRecord(start, 0));

	CPUBitmap bitmap(DIM, DIM, &data);
	unsigned char   *dev_bitmap;
	Sphere          *s;


	//在GPU上分配内存以计算输出位图（output bitmap）
	HANDLE_ERROR(cudaMalloc((void**)&dev_bitmap,bitmap.image_size()));
	//为Sphere数据集分配内存
	HANDLE_ERROR(cudaMalloc((void**)&s,sizeof(Sphere) * SPHERES));

/*为输入数据分配内存，这些数据是一个构成场景的Sphere数组。Sphere数组在CPU上生成并在GPU上使用，
因此我们调用cudaMalloc()和malloc()在GPU和CPU上分配内存。此外，我们还需要一张位图图像，
当在GPU上计算光线跟踪球面时，使用计算得到的像素值来填充这种图像，*/

	//分配临时内存，对其初始化，并复制到GPU上的内存，然后释放临时内存
	Sphere *temp_s = (Sphere*)malloc(sizeof(Sphere) * SPHERES);
	//程序将生成一个包含20个球面的随机数组，通过#define宏指定的
	for (int i = 0; i> >(s, dev_bitmap);

	//将位图从GPU复制回到CPU以显示
	HANDLE_ERROR(cudaMemcpy(bitmap.get_ptr(), dev_bitmap, bitmap.image_size(),cudaMemcpyDeviceToHost));

	//停止计时，并显示事件结果
	HANDLE_ERROR(cudaEventRecord(stop, 0));
	HANDLE_ERROR(cudaEventSynchronize(stop));
	float   elapsedTime;
	HANDLE_ERROR(cudaEventElapsedTime(&elapsedTime,start, stop));
	printf("Time to generate:  %3.1f ms\n", elapsedTime);

	HANDLE_ERROR(cudaEventDestroy(start));
	HANDLE_ERROR(cudaEventDestroy(stop));

	HANDLE_ERROR(cudaFree(dev_bitmap));
	HANDLE_ERROR(cudaFree(s));

	// display
	bitmap.display_and_exit();
}

wlsh@wlsh-ThinkStation:~/Desktop/GPU高性能编程CUDA实战—示例代码/chapter06$ nvcc -o ra_noconst ray_noconst.cu -lglut -lGL -lGLU
../common/cpu_bitmap.h(49): warning: conversion from a string literal to "char *" is deprecated

../common/cpu_bitmap.h(49): warning: conversion from a string literal to "char *" is deprecated

wlsh@wlsh-ThinkStation:~/Desktop/GPU高性能编程CUDA实战—示例代码/chapter06$ ./ra_noconst
Time to generate:  3.9 ms

代码复现--常量内存GPU版本：

Constant Memory是不可以修改的，因此显然无法用来保存输出图像的数据。因为只有一个输入数组，即球面数组，因此应该把这个数据保存到常量内存中。

修改一：constant

先前版本，声明指针，然后通过cudaMalloc（）来为指针分配GPU内存。当我们将其修改为常量内存时，同样要将这个声明修改为在常量内存中静态地分配空间，在编译时为数组提交一个固定大小。

/*
    Sphere *s;
    HANDLE_ERROR( cudaMalloc( (void**)&s,sizeof(Sphere) * SPHERES ) );
*/
__constant__ Sphere s[SPHERES];

修改二：cudaMemcpyToSymbol()

当需要从Host内存复制到GPU上的Constant Memory时，需要使用特殊版本的cudaMemcpy()。cudaMemcpyToSymbol()会复制到constant Memory，而cudaMemcpy()会复制到Global Memory.

 HANDLE_ERROR( cudaMemcpyToSymbol( s, temp_s, sizeof(Sphere) * SPHERES) );

#include "cuda.h"
#include "../common/book.h"
#include "../common/cpu_bitmap.h"

#define DIM 1024

#define rnd( x ) (x * rand() / RAND_MAX)
#define INF     2e10f

struct Sphere {
    float   r,b,g;
    float   radius;
    float   x,y,z;
    __device__ float hit( float ox, float oy, float *n ) {
        float dx = ox - x;
        float dy = oy - y;
        if (dx*dx + dy*dy < radius*radius) {
            float dz = sqrtf( radius*radius - dx*dx - dy*dy );
            *n = dz / sqrtf( radius * radius );
            return dz + z;
        }
        return -INF;
    }
};
#define SPHERES 20

/*
    Sphere *s;
    HANDLE_ERROR( cudaMalloc( (void**)&s,sizeof(Sphere) * SPHERES ) );
*/
__constant__ Sphere s[SPHERES];

__global__ void kernel( unsigned char *ptr ) {
    // map from threadIdx/BlockIdx to pixel position
    int x = threadIdx.x + blockIdx.x * blockDim.x;
    int y = threadIdx.y + blockIdx.y * blockDim.y;
    int offset = x + y * blockDim.x * gridDim.x;
    float   ox = (x - DIM/2);
    float   oy = (y - DIM/2);

    float   r=0, g=0, b=0;
    float   maxz = -INF;
    for(int i=0; i maxz) {
            float fscale = n;
            r = s[i].r * fscale;
            g = s[i].g * fscale;
            b = s[i].b * fscale;
            maxz = t;
        }
    } 

    ptr[offset*4 + 0] = (int)(r * 255);
    ptr[offset*4 + 1] = (int)(g * 255);
    ptr[offset*4 + 2] = (int)(b * 255);
    ptr[offset*4 + 3] = 255;
}

// globals needed by the update routine
struct DataBlock {
    unsigned char   *dev_bitmap;
};

int main( void ) {
    DataBlock   data;
    // capture the start time
    cudaEvent_t     start, stop;
    HANDLE_ERROR( cudaEventCreate( &start ) );
    HANDLE_ERROR( cudaEventCreate( &stop ) );
    HANDLE_ERROR( cudaEventRecord( start, 0 ) );

    CPUBitmap bitmap( DIM, DIM, &data );
    unsigned char   *dev_bitmap;

    // allocate memory on the GPU for the output bitmap
    HANDLE_ERROR( cudaMalloc( (void**)&dev_bitmap,
                              bitmap.image_size() ) );

    // allocate temp memory, initialize it, copy to constant
    // memory on the GPU, then free our temp memory
    Sphere *temp_s = (Sphere*)malloc( sizeof(Sphere) * SPHERES );
    for (int i=0; i>>( dev_bitmap );

    // copy our bitmap back from the GPU for display
    HANDLE_ERROR( cudaMemcpy( bitmap.get_ptr(), dev_bitmap,
                              bitmap.image_size(),
                              cudaMemcpyDeviceToHost ) );

    // get stop time, and display the timing results
    HANDLE_ERROR( cudaEventRecord( stop, 0 ) );
    HANDLE_ERROR( cudaEventSynchronize( stop ) );
    float   elapsedTime;
    HANDLE_ERROR( cudaEventElapsedTime( &elapsedTime,
                                        start, stop ) );
    printf( "Time to generate:  %3.1f ms\n", elapsedTime );

    HANDLE_ERROR( cudaEventDestroy( start ) );
    HANDLE_ERROR( cudaEventDestroy( stop ) );

    HANDLE_ERROR( cudaFree( dev_bitmap ) );

    // display
    bitmap.display_and_exit();
}

wlsh@wlsh-ThinkStation:~/Desktop/GPU高性能编程CUDA实战—示例代码/chapter06$ nvcc -o ray ray.cu -lglut -lGL -lGLU
../common/cpu_bitmap.h(49): warning: conversion from a string literal to "char *" is deprecated

../common/cpu_bitmap.h(49): warning: conversion from a string literal to "char *" is deprecated

wlsh@wlsh-ThinkStation:~/Desktop/GPU高性能编程CUDA实战—示例代码/chapter06$ ./ray
Time to generate:  1.0 ms

4.Constant Memory带来的性能分析提升

从Constant Memory读取相同的数据可以节约内存带宽的源因：

__constant__ 关键字把变量的访问限制为只读。

（1）对Constant Memory的单次读操作可以广播到其他的“邻近（Nearby）”线程，这将节约15次读取操作。

（2）Constant Memory的数据将缓存起来，因此对相同地址的连续读操作不会产生额外的内存通信量。

线程束（Warp）：

在CUDA架构中，Warp是一个包含32个Thread的集合，这个Thread集合被“编织在一起”并且以“步调一致（Lockstep）”的形式执行。在程序的每一行，Warp中的每个Thread都将在不同的数据上执行相同的指令。

节约内存带宽的机制：

当处理Constant Memory时，NVIDIA硬件把单次内存读取操作广播到每个半线程束（Half-Warp），即16个Thread。如果在Half-Warp中的每个Thread都从Constant Memory的相同地址上读取数据，那么GPU只会产生一次读取请求并在随后将数据广播到每个Thread。如果从Constant中读取大量的数据，那么这种方式产生的内存流量只是使用Global Memory的1/16（6%）。

在读取Constant Memory时，所节约的不仅限于减少了94%的带宽，由于这块内存的内容是不会发生变化的，因此硬件将主动把这个常量数据缓存在GPU上。在第一次从常量内存的某个地址上读取后，当其他Half-Warp请求同一个地址时，那么将命中缓存，这同样也减少了额外的内存流量。

在光线追踪器程序中的分析：

每个Thread都要读取球面的相应数据从而计算它与光线的相交情况。在把应用程序修改为将球面数据保存在Constant Memory后，硬件只需要请求这个数据一次。在缓存数据后，其他每个Thread将不会产生内存流量，原因有两个：

（1）Thread将在Half-Warp的广播中收到这个数据

（2）从Constatn Memory缓存中收到数据。

双刃剑：

Half-Warp功能实际上是一把双刃剑。虽然当所有16个Thread都读取相同地址时，这个功能可以极大的提升性能。但当所有16个Thread分别读取不同的地址时，它实际上会降低性能。

故，只有当16个Thread每次都只需要相同的读取请求时，才值得讲这个读取操作广播到16个Thread。然而，如果Half-Warp中的所有16个Thread需要访问Constant Memory中不同的数据，那么这个16次不同的读取操作会被串行化，从而需要16倍的时间来发出请求。但如果从Global Memory中读取，那么这些请求会同时发出。在这种情况下，从Constant Memory读取就慢于Global Memory中读取。

从 0 到 1 搞定nvidia 独显推流：硬件视频编码环境安装完整学习笔记 lxmyzzs 图像算法之音视频编解码音视频学习笔记
笔记用于安装和配置一套完整的媒体处理工具链，包括NVIDIA编码头文件、带CUDA加速的FFmpeg以及ZLMediaKit流媒体服务框架，适用于需要进行视频编解码、流媒体推流/拉流等场景的开发与部署。标题核心组件及版本说明nv-codec-headers来源：Gitee仓库jario-jin/nv-codec-headers版本：n11.1.5.0（对应NVIDIAVideoCodecSDK接口
PHP continue与break区别苏康申
Modelwhile($foo){<--------------------┐continue;---goesbackhere--┘break;-----jumpshere----┐}|<--------------------┘Example$i=10;while(--$i){if($i==8){continue;}if($i==5){break;}echo$i."\n";}输出976
【Flink图计算源码解析】开篇：Flink图计算总览 hxcaifly Flink Flink原理和应用
文章目录1.图计算的作用2.本专题的写作目的3.FlinkGelly引擎总览3.1.Gelly的源码结构1.Graph的存储数据结构2.图的类别3.图的验证以及指标4.图的生成器5.Library6.图的迭代计算7.examples案例4.后记1.图计算的作用哲学上说事物之间普遍存在联系的，通常来说可以将事物看作图的顶点，事物间的联系看作图的边，典型的场景：对应于学术界的文献来说，每篇论文可以看作
ubuntu 如何连接gitlab ZPC8210 code 部署 ubuntu gitlab linux
在Ubuntu上连接GitLab主要有以下几种方式，具体取决于你的需求和环境：1.通过SSH连接GitLab如果你需要通过SSH方式连接GitLab，可以按照以下步骤操作：生成SSH密钥在终端中运行以下命令生成SSH密钥：bash复制ssh-keygen-trsa-C"[email protected]"按照提示操作，完成后会在~/.ssh目录下生成id_rsa和id_rsa.pub两个
【Python 语法】Python 神经网络项目常用语法一杯水果茶！人生苦短我用 Python python
基础1.导入模块和包2.修改系统路径(sys.path.append)3.命令行参数解析(argparse模块)4.assert确保正确性5.main()脚本入口点6.辅助函数生成器函数`cycle(dl)`一、常用函数1.`.cuda()`/`.cpu()`和`torch.device`2.`torch.zeros`、`torch.randn`、`torch.arrange`、`torch.po
git上传远程仓库github，SSH创建密钥发呆的嘟嘟 git git github ssh
1、在git上创建一个密钥，一定要是ed25519，因为GitHub不再支持使用SHA-1签名的RSA密钥，后面会无法上传，而且GitHub推荐使用Ed25519或ECDSA密钥，因为它们更安全且性能更好。ssh-keygen-ted25519-C"[email protected]"ssh-keygen-tecdsa-b521-C"[email protected]"2、回车
python JSON Lines (JSONL)的保存和读取；jsonl的数据保存和读取，大模型prompt文件保存常用格式医学小达人常用算法 NLP prompt JSON Lines JSONL jsonl jsonl文件保存读取
1.JSONLines(JSONL)文件保存将一个包含多个字典的列表保存为JSONLines(JSONL)格式的文件，每个字典对应一个JSONL文件中的一行。以下是如何实现这一操作的Python代码importjson#定义包含字典的列表data=[{"id":1,"name":"Alice","age":30,"email":"[email protected]"},{"id":2,"name"
深度学习-常用环境配置瑶山 AI linux 人工智能 windows CUDA PyTorch
目录Miniconda安装安装NVIDIA显卡驱动安装CUDA和cnDNNCUDAcuDNNPyTorch安装手动下载测试Miniconda安装最新版Miniconda搭建Python环境_miniconda创建python虚拟环境-CSDN博客安装NVIDIA显卡驱动直接进NVIDIA官网：NVIDIAGeForce驱动程序-N卡驱动|NVIDIA在这里有GeForce驱动程序，立即下载，这是下
数字图像处理与Python语言实现-Box模糊CUDA实现视觉与物联智能数字图像处理与Python实现 python 深度学习计算机视觉图像处理 CUDA
Box模糊CUDA实现文章目录Box模糊CUDA实现1、Box模糊的基本原理2、算法优化：滑动窗口技术3、参数对模糊效果的影响4、Box模糊的优缺点5、与高斯模糊的对比6、实际应用场景7、算法实现7.1PyCUDA实现7.2CuPy实现7.3C++与CUDA实现8、总结在图像处理领域，**Box模糊（方框模糊或均值模糊）**是一种基础且高效的模糊算法，其核心思想是通过对像素邻域内的颜色值取平均值来
2018 MacBook Pro 安装cuda+cuDNN+pytorch
2018MacBookPro安装cuda+cuDNN+pytorch根据CSDN上的两篇文章和知乎上的一篇文章，前前后后折腾了好几天，在一个小姐姐的帮助下终于装上了。我的环境系统版本：macOS10.13.6(17G10021)GPUDriverVersion:387.10.10.10.40.133CUDADriverVersion:410.130CUDA：cuda_10.0.130cuDNN：c
mac的m芯片上跑cuda程序 xinxuann macos
config里parser.add_argument('--device',type=str,default='mps')main里device=torch.device(cfg['device'])train里x_batch=x_batch.astype('float32')y_batch=y_batch.astype('float32')aux_batch=aux_batch.astype('
CUDA在不受支持的macOS系统上使用（BigSur） ilovefifa2020 macos github 经验分享大数据功能测试 python c++
CUDA与WebDriver在macOS系统上不是同一个东西，CUDA是一个图形库，用于使用GPU在某些软件中进行计算或渲染，只安装CUDA不能使Maxwell和Pascal核心显卡工作，必须同时安装WebDriver，其他核心（如Fermi、kepler)等可以在不安装WebDriver的情况下让CUDA工作。果粉众所周知，CUDA与WebDriver只能在支持的macOS系统HighSierr
解读一个大学专业——信号与图像处理
专业定义与核心内容维度内容定义研究如何采集、处理、分析和理解一维信号（语音、雷达、脑电）和二维/三维图像（医学、遥感、工业视觉）。关键词数字信号处理（DSP）、图像处理、计算机视觉、模式识别、压缩感知、深度学习、GPU加速、嵌入式系统。技术栈MATLAB/Python+OpenCV/PyTorch+DSP/FPGA+GPU（CUDA）第五届先进算法与信号、图像处理国际学术会议（AASIP2025）
小程序常用api xkxnq 小程序
1.wx.request-发起网络请求用于向服务器发送HTTP请求，获取数据或提交表单。//示例：GET请求获取数据wx.request({url:'https://api.example.com/data',//替换为实际API地址method:'GET',success:(res)=>{console.log('请求成功',res.data);},fail:(err)=>{console.er
网络数据分层封装与解封过程的详细说明两圆相切网络规划设计师网络
网络数据分层封装全流程数据封装流程（发送端）-CSDN优化版OSI层次封装动作数据单元关键头部信息示例应用层添加应用层协议头部报文(Message)GET/index.htmlHTTP/1.1Host:www.example.com表示层数据加密/压缩PPDUTLSv1.3RecordLayerContentType:ApplicationData会话层添加会话控制标识SPDUSIPCall-ID
autodl云计算平台使用ollama 部署lightrag 加入streamlit界面 42fourtytoo 云计算深度学习 pytorch 学习
1到autodl的算力市场里开一台机器镜像选择：PyTorch2.3.0、Python3.12(ubuntu22.04)、Cuda12.1我本来选择的Cuda12.4，但版本过高疑似会使ollama不使用GPU而只用CPU，后来换个镜像就好了2下载lightrag从lightrag的GitHub界面下载zip开机，上传zip，解压到autodl-tmp/lightrag下安装依赖，在文件夹下：pi
英伟达：要取代我？其实CUDA也支持RISC-V EEPW电子产品世界 risc-v
第五届RISC-V中国峰会于2025年7月16至19日在上海张江科学会堂隆重举办，在峰会的圆桌讨论中，主持人曾经提出这样一个问题：你认为RISC-V未来会取代GPU吗？在现场观众投票中，支持会取代的现场观众占据将近半数。不过在随后的主题演讲中，英伟达副总裁FransSijstermanns特别提到了英伟达在自家的计算平台实现了RISC-V应用处理器部署。在做这次演讲准备的时候，FransSijst
python画地图柱状图,小白学Python（16）——pyecharts 绘制地理图表 Geo 都灵Turin python画地图柱状图
Geo-基本示例1fromexample.commonsimportFaker2frompyechartsimportoptionsasopts3frompyecharts.chartsimportGeo4frompyecharts.globalsimportChartType,SymbolType56geo=(7Geo()8.add_schema(maptype="china")9.add("g
python3.9安装tensorflow-gpu 2.6.0和torch-gpu版本各依赖包的版本对应关系
首先使用的cuDNN（8.1）、CUDA（11.2）、tensorflow-gpu（2.6.0）、python（3.9）之间对应版本Window环境下安装pytorch下载地址tensorflow官网CUDA下载官网cuDNN下载官网注意：cuDNN需要注册absl-py0.15.0astunparse1.6.3cachetools5.3.2certifi2023.7.22charset-norm
深度学习方法生成抓取位姿与6D姿态估计的完整实现 ZPC8210 ROS 深度学习人工智能
如何将GraspNet等深度学习模型与6D姿态估计集成到ROS2和MoveIt中，实现高精度的机器人抓取系统。1.系统架构text[RGB-D传感器]→[物体检测与6D姿态估计]→[GraspNet抓取位姿生成]→[MoveIt运动规划]→[执行抓取]2.环境配置2.1安装依赖bash#安装PyTorch(根据CUDA版本选择)pip3installtorchtorchvisiontorchaud
MJExtension AlanGe
MJExtension：https://github.com/CoderMJLee/MJExtensionExamples【示例】AddMJKeyValueprotocoltoyourmodelifneeded【如果有需要,请在模型中加入MJKeyValue协议】ThemostsimpleJSON->Model【最简单的字典转模型】typedefenum{SexMale,SexFemale}Sex
pytorch的学习笔记 wyn20001128 算法
一cuda 2006年，NVIDIA公司发布了CUDA(ComputeUnifiedDeviceArchitecture)，是一种新的操作GPU计算的硬件和软件架构，是建立在NVIDIA的GPUs上的一个通用并行计算平台和编程模型，它提供了GPU编程的简易接口，基于CUDA编程可以构建基于GPU计算的应用程序。 CPU是用于负责逻辑性比较强的计算，GPU专注于执行高度线程化的并行处理任务。所以
Python文件与流处理：高效读写数据的艺术不爱说话的分院帽 python快速入门 python 数据库开发语言
引言作为一名程序员，我们每天都需要与文件打交道——无论是读取配置文件、处理日志文件，还是存储程序生成的数据。Python提供了强大而灵活的文件处理能力，让这些操作变得简单高效。本文将深入探讨Python中的文件与流处理，帮助你掌握这一核心技能。、一、文件操作基础1.打开文件Python使用内置的open()函数来打开文件：#基本语法file=open('example.txt','r')#打开文件
Python 代码生成 LaTeX 数学公式：latexify 示例 examples
文中内容仅限技术学习与代码实践参考，市场存在不确定性，技术分析需谨慎验证，不构成任何投资建议。latexify示例本notebook提供了多个使用latexify的示例。更多细节请参阅官方文档。如有任何疑问，请在issuetracker中提出。安装latexify#运行下方示例前请先重启运行时。%pipinstalllatexify-pyCollectinglatexify-pyDownloadi
bash方式启动模型训练 BILLY BILLY 深度学习基础开发必备工具自动驾驶
export\PATHPYTHONPATH=/workspace/mmlab/mmdetection/:/workspace/mmlab/mmsegmentation/:/workspace/mmlab/mmdeploy/:${env:PYTHONPATH}\CUDA_VISIBLE_DEVICES=0\DATA_ROOT_1=/mnt/data/…/\DATA_ROOT_2=/mnt/data/
QuACK：用纯 Python 把 H100 推到“光速” 吴脑的键客人工智能 python 开发语言 gpu算力
FlashAttention的共同作者TriDao与普林斯顿大学的两位博士生最近联合推出了一个名为QuACK的新内核库。这一创新的内核库引起了广泛关注，尤其是在高性能计算领域。QuACK的开发背景QuACK的开发完全基于Python和CuTe-DSL，令人瞩目的是，它不涉及任何CUDAC++代码。这一设计理念打破了传统的编程框架，使得开发者能够在更友好的环境中进行高效的GPU编程。性能优势在强大的
COLMAP 编译全流程问题与解决方案汇总【含Ceres/absl/CUDA/GCC/CMake 报错详解】逐云者123 三维重建算法工程与架构 colmap 三维重建编译
CeresSolver&COLMAP编译全流程问题与解决方案汇总【含absl/CUDA/GCC/CMake报错详解】适配环境：Ubuntu24.04+GCC12/13+CUDA12.6+Conda+RTX4090本文总结了从源码编译CeresSolver+COLMAP（无GUI）全流程中遇到的所有实际问题、报错信息、成因分析与解决办法，适用于从事3DGS/SfM/三维视觉方向的开发者。包含对abs
C#实现基于ffmpeg加虹软的人脸识别
关于人脸识别目前的人脸识别已经相对成熟，有各种收费免费的商业方案和开源方案，其中OpenCV很早就支持了人脸识别，在我选择人脸识别开发库时，也横向对比了三种库，包括在线识别的百度、开源的OpenCV和商业库虹软（中小型规模免费）。百度的人脸识别，才上线不久，文档不太完善，之前联系百度，官方也给了我基于Android的Example，但是不太符合我的需求，一是照片需要上传至百度服务器（这个是最大的问
152 Maximum Product Subarray 烟雨醉尘缘
Givenanintegerarraynums,findthecontiguoussubarraywithinanarray(containingatleastonenumber)whichhasthelargestproduct.Example：Input:[2,3,-2,4]Output:6Explanation:[2,3]hasthelargestproduct6.解释下题目：求出一个整数数
Android 异构计算与 OpenCL/CUDA/OpenVX 的协同方式实战解析观熵国产 NPU ×Android 推理优化 android 人工智能
Android异构计算与OpenCL/CUDA/OpenVX的协同方式实战解析关键词Android异构计算、OpenCL、CUDA、OpenVX、GPU加速、NPU调度、HSA架构、神经网络推理、计算图编排、SoC协同处理、AI芯片编程摘要随着国产SoC平台持续迭代，Android系统中异构计算模式已从传统CPU+GPU并行计算，扩展到集成NPU、DSP、ISP等多核单元的复杂协同体系。在AI推理
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后

CUDA（Ⅵ）：常量内存（Constant Memory）

1.背景提出：

内存带宽对性能瓶颈的影响？

2.解决方案：

3.案例分析：光线追踪（Ray Tracing）实例

简介：

构造：

功能：

代码复现--非常量内存GPU版本：

代码复现--常量内存GPU版本：

修改一：__constant__

修改二：cudaMemcpyToSymbol()

4.Constant Memory带来的性能分析提升

从Constant Memory读取相同的数据可以节约内存带宽的源因：

线程束（Warp）：

节约内存带宽的机制：

在光线追踪器程序中的分析：

双刃剑：

你可能感兴趣的:(CUDA,By,Example)

修改一：constant