xholes

CUDA C编程手册: 编程接口（七）

运行时

图形交互

OpenGL 交互
Direct3D交互
SLI 交互

版本与兼容性
计算模式

运行时

图形交互

一些来自其他软件的资源，如OpenGL, Direct3D 可以映射至CUDA的地址空间。这样CUDA 就可读取由其他程序所写的数据，同时也能产出可以供它们使用的数据。

在将资源映射至CUDA的地址空间之前，它必须使用一些API中的函数来先进行注册。这些函数会返回一个指向CUDA图形资源struct cudaGraphicsResource的指针。注册资源会有很高的overhead，因此每个资源最好只注册一次。CUDA图形资源也可以使用cudaGraphicsUnregistrerResource()来使之变成未注册。每个CUDA context试图使用的资源都必须对它进行单独注册。

被注册至CUDA的资源，在必要的时候它可以通过APIcudaGraphicsMapResource()和cudaGraphicsUnmapResource()映射或者取消映射多次。cudaGraphicsResourceSetMapFlags()可以用来指定一些标志（只读、只写），这样有利于CUDA 驱动来有优化资源的管理。核函数可以对被映射的资源进行读写，它需要借助cudaGraphicsResourcdeGetMappedPointer()获取的buffer的指针； cudaGraphicsSubResourcdeGetMappedArray()获取CUDA数组。

OpenGL 交互

OpenGL的资源可以映射至CUDA地址空间的资源有：buffer、texture_和_renderbuffer 对象。buffer__对象可以使用cudaGraphicsGLRegisterBuffer()来进行注册。在CUDA中，它表现的和一个设备指针一样，因此可以通过cudaMemcpy()来进行读写。texture 和_renderbuffer 对象需要使用cudaGraphicsGLRegisterImage()来进行注册。在CUDA中，它表现的像CUDA 数组。核函数可以对绑定至纹理引用或者表面引用的“数组”进行读取，也可以通过表面函数对在注册时使用了cudaGraohicwRegistrerFlagsSurfaceLoadStore标志的资源进行写操作。这些数组也可以通过cudaMemcpy2D来进行读写操作。cudaGraphicsGLRegisterImage()支持所有的纹理格式（1, 2，4分量或者内置类型，归一化整数，非归一化整数）。

共享资源的OpenGL上下文必须是进行任何OpenGL互操作API调用的主机线程的最新上下文。需要注意的是，当一个OpenGL的纹理被设置成不可绑定时，它就不能被CUDA注册。

下示代码是利用一个核函数来动态的修改一个存储于顶点buffer的2D网格对象：

GLuint positionsVBO;
struct cudaGraphicsResource* positionsVBO_CUDA;
int main()
{
	// Initialize OpenGL and GLUT for device 0
	// and make the OpenGL context current
	...
	glutDisplayFunc(display);
	// Explicitly set device 0
	cudaSetDevice(0);
	// Create buffer object and register it with CUDA
	glGenBuffers(1, &positionsVBO);
	glBindBuffer(GL_ARRAY_BUFFER, positionsVBO);
	unsigned int size = width * height * 4 * sizeof(float);
	glBufferData(GL_ARRAY_BUFFER, size, 0, GL_DYNAMIC_DRAW);
	glBindBuffer(GL_ARRAY_BUFFER, 0);
	cudaGraphicsGLRegisterBuffer(&positionsVBO_CUDA,
	positionsVBO,
	cudaGraphicsMapFlagsWriteDiscard);
	// Launch rendering loop
	glutMainLoop();
	...
}

void display()
{
	// Map buffer object for writing from CUDA
	float4* positions;
	cudaGraphicsMapResources(1, &positionsVBO_CUDA, 0);
	size_t num_bytes;
	cudaGraphicsResourceGetMappedPointer((void**)&positions,
	&num_bytes,
	positionsVBO_CUDA));
	// Execute kernel
	dim3 dimBlock(16, 16, 1);
	dim3 dimGrid(width / dimBlock.x, height / dimBlock.y, 1);
	createVertices<<>>(positions, time,
	width, height);
	// Unmap buffer object
	cudaGraphicsUnmapResources(1, &positionsVBO_CUDA, 0);
	// Render from buffer object
	glClear(GL_COLOR_BUFFER_BIT | GL_DEPTH_BUFFER_BIT);
	glBindBuffer(GL_ARRAY_BUFFER, positionsVBO);
	glVertexPointer(4, GL_FLOAT, 0, 0);
	glEnableClientState(GL_VERTEX_ARRAY);
	glDrawArrays(GL_POINTS, 0, width * height);
	glDisableClientState(GL_VERTEX_ARRAY);
	// Swap buffers
	glutSwapBuffers();
	glutPostRedisplay();
}

void deleteVBO()
{
	cudaGraphicsUnregisterResource(positionsVBO_CUDA);
	glDeleteBuffers(1, &positionsVBO);
}
__global__ void createVertices(float4* positions, float time,
unsigned int width, unsigned int height)
{
	unsigned int x = blockIdx.x * blockDim.x + threadIdx.x;
	unsigned int y = blockIdx.y * blockDim.y + threadIdx.y;
	// Calculate uv coordinates
	float u = x / (float)width;
	float v = y / (float)height;
	u = u * 2.0f - 1.0f;
	v = v * 2.0f - 1.0f;
	// calculate simple sine wave pattern
	float freq = 4.0f;
	float w = sinf(u * freq + time)
	* cosf(v * freq + time) * 0.5f;
	// Write positions
	positions[y * width + x] = make_float4(u, w, v, 1.0f);
}

Direct3D交互

Direct3D 交互支持 Direct3D 9Ex, Direct3D 10 以及Direct3D 11。CUDA 上下文可以交互的Direct3D 设备必须有一些设置： Direct3D 9Ex 设备必须在创建时将DeivceType设置为D3DDEVTYPE_HAL, BehaviorFlags设置为D3DCREATE_HARDWARE_VERTESPROCESSING; Direct3D 10 和 Direct3D 11 的设备在创建时需将DeivceType设置为D3D_DRIVER_TYPE_HARDWARE。

Direct3D 可以映射至CUDA空间的资源包括： Direct3D buffer、textures, surface。这些资源可以通过cudaGraphicsD3D9RegisterResource()、cudaGraphicsD3D10RegisterResource()、cudaGraphicsD3D11RegisterResource()。

下示代码是利用一个核函数来动态的修改一个存储于顶点buffer的2D网格对象：

// Direct3D 9 Version
IDirect3D9* D3D;
IDirect3DDevice9* device;
struct CUSTOMVERTEX {
	FLOAT x, y, z;
	DWORD color;
};
IDirect3DVertexBuffer9* positionsVB;
struct cudaGraphicsResource* positionsVB_CUDA;
int main()
{
	int dev;
	// Initialize Direct3D
	D3D = Direct3DCreate9Ex(D3D_SDK_VERSION);
	// Get a CUDA-enabled adapter
	unsigned int adapter = 0;
	for (; adapter < g_pD3D->GetAdapterCount(); adapter++) {
	D3DADAPTER_IDENTIFIER9 adapterId;
	g_pD3D->GetAdapterIdentifier(adapter, 0, &adapterId);
	if (cudaD3D9GetDevice(&dev, adapterId.DeviceName)
	== cudaSuccess)
	break;
}
// Create device
...
D3D->CreateDeviceEx(adapter, D3DDEVTYPE_HAL, hWnd,
D3DCREATE_HARDWARE_VERTEXPROCESSING,
¶ms, NULL, &device);
// Use the same device
cudaSetDevice(dev);
// Create vertex buffer and register it with CUDA
unsigned int size = width * height * sizeof(CUSTOMVERTEX);
device->CreateVertexBuffer(size, 0, D3DFVF_CUSTOMVERTEX,
D3DPOOL_DEFAULT, &positionsVB, 0);
cudaGraphicsD3D9RegisterResource(&positionsVB_CUDA,
positionsVB,
cudaGraphicsRegisterFlagsNone);
cudaGraphicsResourceSetMapFlags(positionsVB_CUDA,
cudaGraphicsMapFlagsWriteDiscard);
// Launch rendering loop
while (...) {
	...
	Render();
	...
}
...
}

void Render()
{
	// Map vertex buffer for writing from CUDA
	float4* positions;
	cudaGraphicsMapResources(1, &positionsVB_CUDA, 0);
	size_t num_bytes;
	cudaGraphicsResourceGetMappedPointer((void**)&positions,
	&num_bytes,
	positionsVB_CUDA));
	// Execute kernel
	dim3 dimBlock(16, 16, 1);
	dim3 dimGrid(width / dimBlock.x, height / dimBlock.y, 1);
	createVertices<<>>(positions, time,
	width, height);
	// Unmap vertex buffer
	cudaGraphicsUnmapResources(1, &positionsVB_CUDA, 0);
	// Draw and present
	...
}
void releaseVB()
{
	cudaGraphicsUnregisterResource(positionsVB_CUDA);
	positionsVB->Release();
}
__global__ void createVertices(float4* positions, float time,
unsigned int width, unsigned int height)
{
	unsigned int x = blockIdx.x * blockDim.x + threadIdx.x;
	unsigned int y = blockIdx.y * blockDim.y + threadIdx.y;
	// Calculate uv coordinates
	float u = x / (float)width;
	float v = y / (float)height;
	u = u * 2.0f - 1.0f;
	v = v * 2.0f - 1.0f;
	// Calculate simple sine wave pattern
	float freq = 4.0f;
	float w = sinf(u * freq + time)
	* cosf(v * freq + time) * 0.5f;
	// Write positions
	positions[y * width + x] =
	make_float4(u, w, v, __int_as_float(0xff00ff00));
}

SLI 交互

在一个多GPU的系统中，所有的可以使用CUDA的GPU都可以通过CUDA 驱动进行访问。但是当系统在SLI模式下，有一些特殊问题需要考虑。

第一：在一个GPU上进行内存的分配时会在其他的GPU上也会消耗内存，会被消耗内存的GPU是通过Direct3D 或者 OpenGL设备进行SLI 配置过的。因此，有时候内存的分配会失败。

第二：应用程序需要创建多个CUDA 上下文，每个SLI配置中的GOU都需要有一个。尽管这并不是非常必须的需求，但是它能避免在设备间发生不必要的数据迁移。应用程序可以对于Direct3D使用cudaD3D[9|10|11]GetDevice()和OpenGL使用cudaGLGetDevices() 来识别正在执行渲染的CUDA设备的句柄。应用程序会使用这些给定的信息来选择合适的设备来映射Direct3D 或 OpenGL 资源至CUDA 设备空间。

版本与兼容性

在开发CUDA应用程序的时候，需要关注两个版本数字：计算力版本和CUDA 驱动API 版本。前者描述了计算设备的通用说明和特性；后者描述了驱动API 和运行时所支持的特性。

驱动API的版本CUDA_VERSION定义在驱动的头文件中。它允许开发者去对其进行核对。驱动API是向后兼容的，这意味着应用程序、插件、库在之前的驱动上进行编译后仍旧可以在最新的驱动下进行使用。但是驱动API并不会进行前向兼容。

值得注意的是，一些混合匹配的版本是得到支持的：

因为在一个系统中只能安装一份CUDA 驱动，因此安装的驱动版本必须不低于系统中任何应用程序所需的最低驱动版本。
-应用程序所使用的所有的插件或者库必须使用相同版本的CUDA 运行时，除非它们静态的连接运行时，此时就会有多个版本的运行时同时存在同一个程序空间中。如果使用NVCC来链接应用程序，默认会使用静态版本的CUDA 运行时，且所有的CUDA Toolkit 库都会静态的链接CUDA 运行时。
应用程序所使用的所有的插件或者库所使用的其他库必须使用相同版本的CUDA 运行时，除非进行静态链接。

计算模式

关于运行在Windows Server 2008及其之后的系统或linux下的Tesla 解决方案，用户可以通过NVIDIA 的系统管理接口nvidia-smi设置系统的任意设备计算模式。计算模式主要分为三种：

-_default_计算模式。主机端的多线程可以同时使用同一设备。
-Exclusive-process 计算模式。只会创建一个CUDA 上下文，设备上的所有进程共享一个上下文。上下文可以是创建该上下文的进程中所需的任意多个线程的当前上下文。
-Prohibited 计算模式。不会在设备上创建CUDA context。

也就是说，当设备0倍设置成_Prohibited_模式或者_exclusive_process_时，主机端线程在调用运行时API时不显式的调用cudaSetDevice()可能会关联到一个其他的设备上。cudaSetValidDevices()可以用来设定设备的优先级。

位宽512bit显卡_6144 CUDA/512bit位宽 Maxwell架构曝光李涛PS 位宽512bit显卡
【IT168资讯】NVIDIA目前一代的显卡有GK104和GK110两大分支，它们的侧重点不同，但都是基于Kepler(开普勒，天文学家)架构的，下一代架构名为Maxwell(麦克斯韦尔，物理学家)，根据之前的传闻Maxwell最快将在明年Q1季度问世，制程有可能继续使用TSMC的28nm工艺。现在网上又流传开Maxwell的架构设计了，旗舰GM100将有6144个CUDA核心，512bit位宽显
CUDA 学习(3)——CUDA 初步实践哦豁灬 CUDA 学习笔记学习 CUDA
1定位threadCUDA中提供了blockIdx,threadIdx,blockDim,GridDim来定位发起thread，下面发起1个grid，里面有2个block，每个block里有5个threads。程序让每个thread输出自己的id号:#include__global__voidprint_id(){intid=blockDim.x*blockIdx.x+threadIdx.x;pr
pytorch v1.4.0安装问题大柠丶 pytorch 人工智能 python
直接使用conda安装报错：(CenterNet)C:\Users\16323>condainstallpytorch==1.4.0torchvision==0.5.0cudatoolkit=10.1-cpytorch-cconda-forgeChannels:-pytorch-conda-forge-defaultsPlatform:win-64Collectingpackagemetadata
Windows和Linux系统上的Mamba_ssm环境配置清纯世纪笔记 python 深度学习人工智能
目录一、Linux系统安装二、Win系统安装1）、安装causal_conv1d1、第一种方法2、第二种方法（感觉可靠）3、第三种方法：直接下载大神编译好的文件进行安装2）、安装mamba-ssm1、第一种方法2、第二种方法：直接下载大神编译好的文件进行安装一、Linux系统安装如果自己的系统不是cuda11.8，那么需要先创建一个新环境来安装对应的cuda版本：condacreate-nyour
Ubuntu和Windows系统之Mamba_ssm安装 Netceor Python ubuntu windows linux
Mamba的论文：https://arxiv.org/abs/2312.00752Mamba的github：https://github.com/state-spaces/mamba一、Ubuntu安装直接新建一个环境是最好的，不然很容易产生各种冲突#创建环境和相关包condacreate-nmambapython=3.10.13condaactivatemambacondainstallcuda
不用再当“技术宅“！这个AI神器让我5分钟变身人工智能达人阳光永恒736 AI工具人工智能 deepseek 一键包本地部署 AI资源
最近我在朋友圈刷到好多朋友都在玩AI画图、AI写诗，看得我心痒痒。可每次想自己试试，打开教程就被满屏的代码吓退——"Python环境配置"、"CUDA驱动安装"这些词比数学作业还让人头疼。直到我发现了一个叫DeepSeek本地部署一键包的神器，我的AI探索之旅终于变得像搭乐高一样简单！夸克网盘分享一、原来AI离我们这么近上周三放学路上，我看见隔壁班的小美用AI给自己照片生成古风造型，这让我突然意识
GPU计算的历史与CUDA编程入门己见明 GPU计算 CUDA C 数据并行性 CUDA程序结构向量加法内核
GPU计算的历史与CUDA编程入门背景简介GPU计算的历史可以追溯到早期的并行计算研究，如今已发展成为计算机科学中的一个重要分支。本文将探讨GPU计算的发展史，重点分析《ComputerGraphics:PrinciplesandPractice》等关键文献，以及CUDAC编程模型的引入及其对现代软件开发的影响。历史回顾回顾历史，GPU计算的发展始于1986年Hillis与Steele在《Comm
GTC 2025 中文在线解读扫地的小何尚人工智能 NVIDIA GPU 深度学习机器学习
GTC2025中文在线解读｜CUDA最新特性与未来[WP72383]NVIDIAGTC大会火热进行中，一波波重磅科技演讲让人应接不暇，3月24日，NVIDIA企业开发者社区邀请KenHe、YipengLi两位技术专家，面向开发者，以中文深度拆解GTC2025四场重磅开发技术相关会议，直击AI行业应用痛点，破解前沿技术难题!作为GPU计算领域的基石，CUDA通过其编程语言、编译器、运行时环境及核心库
英伟达消费级RTX显卡配置表真相很简单识别算法网络 rtx nvidia 英伟达游戏显卡
显卡型号显存大小显存频率显存位宽显存带宽CUDA核心数TDP（功耗）上市年份RTX409024GB21Gbps384-bit1,008GB/s16,384450W2022RTX4080(16GB)16GB22.4Gbps256-bit716.8GB/s9,728320W2022RTX4080(12GB)12GB21Gbps192-bit504GB/s7,680285W2023RTX4070Ti12
3090显卡Ktransformer本地部署deepseek R1:70B SIATdog ai
这里写自定义目录标题效果完成视频：配置参考依赖安装安装cuda配置环境下载deepseekR170B下载ktransoformer开始安装运行Web启动常见问题runtimeerrordon'tmatch更新cudaERROR:Failedtobuildinstallablewheelsforsomepyproject.tomlbasedprojects(ktransformers)效果完成视频：
【ai】mocap：conda 安装python3.8+ cuda+ pytorch+torchaudio、torchvision 等风来不如迎风去 AI入门与实战人工智能 ubuntu conda
MotionCapubuntu18.04不知道为啥会依赖于ffmpeg、xorg渲染？安装pytorch就是会带上cudacudnn啥的pytorch【ai】tx2nx：安装torch、torchvisionforyolov5这里就发现pytorch和torchvision有依赖关系的，还涉及到rapidjson所以python的环境隔离很重要。核心库-cudatoolkit=11.3-pytor
查看 CUDA cudnn 版本查看Navicat GPU版本 FergusJ 备份 python 开发语言
查看显卡型号：lspci|grepVGA（lspci是linux查看硬件信息的命令），屏幕会打印出主机的集显几独显信息python中查看显卡型号fromtensorflow.python.clientimportdevice_libdevice_lib.list_local_devices()
查看 Linux 系统中安装的 CUDA 版本烟锁池塘柳0 Linux CUDA linux ubuntu
查看Linux系统中安装的CUDA版本的常见方法：文章目录1查看/usr/local/cuda目录2使用nvcc命令3检查libcublas版本注意：nvidia-smi1查看/usr/local/cuda目录通常，CUDA被安装在/usr/local/cuda目录下，所以可以使用ls命令来查看这个目录是否存在，以及查看其中的内容。ls/usr/local/cuda如果这个目录存在，通常它会是一个
已解决：python多线程使用TensorRT输出为零？附tensorrt推理代码李卓璐算法实战 python 开发语言
我是多个不同类型的模型多线程调用报错。设备：cuda12.1,cudnn8.9.2,tensorrt8.6.11.问题tensorrt的推理没输出？？？有输入：想要的输出：原因：多进程时,每进程应单独调用importpycuda.driverascuda和cuda.init()，完成初始化CUDA驱动，并需要使用self.cfx.push()和self.cfx.pop()管理CUDA上下文，以保证
CUDA编程基础清澜算法面试人工智能 c++算法 nvidia cuda编程
一、快速理解CUDA编程1.1CUDA简介CUDA（ComputeUnifiedDeviceArchitecture）是由NVIDIA推出的并行计算平台和应用程序接口模型。它允许开发者利用NVIDIAGPU的强大计算能力来加速通用计算任务，而不仅仅是图形渲染。通过CUDA，开发者可以编写C、C++或Fortran代码，并将其扩展以在GPU上运行，从而显著提高性能，特别是在处理大规模数据集和复杂算法
2025年开发者工具全景图：IDE与AI协同的效能革命 He.Tech ide 人工智能
2025年开发者工具全景图：IDE与AI协同的效能革命（基于CSDN、腾讯云等平台技术文档与行业趋势分析）一、核心工具链的务实演进与配置指南主流开发工具的升级聚焦于工程化适配与智能化增强，以下是2025年开发者必须掌握的配置技巧：1.VSCode：性能优化与远程协作标杆核心特性：CUDA核心利用率分析：通过NVIDIANsight插件优化GPU计算任务，需在settings.json中添加："ns
bitsandbytes 报错 HuggingMe pytorch
把bitsandbytes更新到最新版本。用nvidia-smi查看CUDA版本，我的是12.2。在~/.bashrc中添加了以下几行：exportPATH="/usr/local/cuda-12.2/bin:$PATH"exportBNB_CUDA_VERSION=122exportLD_LIBRARY_PATH="/usr/local/cuda-12.2/lib64:$LD_LIBRARY_P
centos7输入python -m bitsandbytes报错CUDA Setup failed despite GPU being available. Please run the follo 小太阳，乐向上 python 开发语言
在centos7.9系统中安装gpu驱动及cuda，跑大模型会报错，提示让输入python-mbitsandbytes依然报错：CUDASETUP:Loadingbinary/usr/local/python3/lib/python3.9/site-packages/bitsandbytes/libbitsandbytes_cuda117.so.../lib64/libstdc++.so.6:ve
关于bitsandbytes安装报错跃跃欲试88 语言模型人工智能 transformer
RunTimeError:CUDASetupfaileddespiteGPUbeingavailable.InspecttheCUDASETUPoutputsabovetofixyourenvironment!ubuntu@VM-0-8-ubuntu:~$python-mbitsandbytesFalse===================================BUGREPORT===
python -m bitsandbytes 报错解释与解决 MityKif python 开发语言
RuntimeError:CUDASetupfaileddespiteGPUbeingavailable.Pleaserunthefollowingcommandtogetmoreinformation:python-mbitsandbytesInspecttheoutputofthecommandandseeifyoucanlocateCUDAlibraries.Youmightneedtoad
c++高性能多进程 cuda编程: safe_softmax实现 + cub::BlockReduce自定义归约操作 FakeOccupational 深度学习 c++开发语言
目录cub::BlockReduce自定义归约操作(`cub::BlockReduce::Reduce`)1.语法safe_softmax实现cub::BlockReducecub::BlockReduce是CUB库（CUDAUnBound）提供的一种用于GPU线程块内数据归约(一般完成所有数据规约需要两次规约)的高效工具。它允许线程块内的多个线程并行地对数据执行归约操作，cub::BlockRe
使用LoRA微调LLaMA3 想胖的壮壮深度学习人工智能
使用LoRA微调LLaMA3的案例案例概述在这个案例中，我们将使用LoRA微调LLaMA3模型，进行一个文本分类任务。我们将使用HuggingFace的Transformers库来完成这个过程。步骤一：环境搭建安装必要的Python包pipinstalltransformersdatasetstorch配置GPU环境确保你的环境中配置了CUDA和cuDNN，并验证GPU是否可用。importtor
融合AMD与NVIDIA GPU集群的MLOps：异构计算环境中的分布式训练架构实践
在深度学习的背景下，NVIDIA的CUDA与AMD的ROCm框架缺乏有效的互操作性，导致基础设施资源利用率显著降低。随着模型规模不断扩大而预算约束日益严格，2-3年更换一次GPU的传统方式已不具可持续性。但是Pytorch的最近几次的更新可以有效利用异构计算集群，实现对所有可用GPU资源的充分调度，不受制于供应商限制。本文将深入探讨如何混合AMD/NVIDIAGPU集群以支持PyTorch分布式训
NVIDIA-B200 OFED安装失败解决步骤，实际生产环境故障一例清风 001 AI大模型底层建设 linux 运维服务器
环境信息系统ubuntu22.04硬件nvidiaB200nvidia-driverubuntu2204-570.124.06cudacuda-toolkit-12-8报错信息./MLNX_OFED_LINUX-24.10-2.1.8.0-ubuntu22.04-x86_64/DEBS/libibumad-dev_2410mlnx54-1.2410068_amd64.deb./MLNX_OFED_
Ubuntu20.04 RTX4060 AI环境搭建 stxinu 人工智能人工智能
下面记录在Ubuntu20.04环境下，使用ASUSATS-RTX4060-O8G-V2显卡，搭建NvidiaTensorRT开发环境。1.安装步骤0）准备工作使用如下命令创建我们的工作目录：mkdir~/nvidia再使用如下命令进入到上面的目录（接下来的步骤，如无特殊说明，均在该目录下进行）：cd~/nvidia1）安装CUDA下载并安装NVIDIACUDAToolkit：wgethttps:
【pytorch(cuda)】基于DQN算法的无人机三维城市空间航线规划（Python代码实现） wlz249 python pytorch 算法
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️赠与读者1概述一、研究背景与意义二、DQN算法概述三、基于DQN的无人机三维航线规划方法1.环境建模2.状态与动作定义3.奖励函数设计4.深度神经网络训练5.航线规划四、研究挑战与展望2运行结果3参考文献4Python代码实现⛳️赠与读者‍做科研，涉及到一个深在的
【保姆级视频教程（一）】YOLOv12环境配置：从零到一，手把手保姆级教程！| 小白也能轻松玩转目标检测！一只云卷云舒 YOLOv12保姆级通关教程 YOLO YOLOv12 flash attention GPU 计算能力算力
【2025全站首发】YOLOv12环境配置：从零到一，手把手保姆级教程！|小白也能轻松玩转目标检测！文章目录1.FlashAttentionWindows端WHL包下载1.1简介1.2下载链接1.3国内镜像站1.4安装方法2.NVIDIAGPU计算能力概述2.1简介2.2计算能力版本与GPU型号对照表2.2.1CUDA-EnabledDatacenterProducts2.2.2CUDA-Enab
LLaMA-Factory 微调训练 zsh_abc llama docker 深度学习人工智能 python linux
LLaMA-Factory微调训练该框架功能，标注-微调-导出-合并-部署，一整条流程都有，而且训练时消耗的gpu算力也会小一些一，安装（推荐在linux中训练，win可以用wsl+docker）gitclonehttps://github.com/hiyouga/LLaMA-Factory.gitcdLLaMA-Factory#根据cuda版本选择安装pytoch版本pip3installtor
llama-factory微调 AI Echoes 深度学习人工智能机器学习 deepseek
大模型微调实操--llama-factoryllama-factory环境安装前置准备英伟达显卡驱动更新地址下载NVIDIA官方驱动|NVIDIAcuda下载安装地址CUDAToolkit12.2Downloads|NVIDIADeveloperpytorch下载安装地址PreviousPyTorchVersions|PyTorchllama-factory项目和文档地址https://githu
PyTorch 生态概览：为什么选择动态计算图框架？小诸葛IT课堂 pytorch 人工智能 python
一、PyTorch的核心价值PyTorch作为深度学习框架的后起之秀，通过动态计算图技术革新了传统的静态图模式。其核心优势体现在：动态灵活性：代码即模型，支持即时调试Python原生支持：无缝衔接Python生态高效的GPU加速：通过CUDA实现透明的硬件加速活跃的社区生态：GitHub贡献者超1.8万人，日均更新100+次二、动态计算图VS静态计算图对比#动态计算图示例（PyTorch）impo
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f

CUDA C编程手册: 编程接口（七）