Axiiiz

CUDA C++ Programming Guide(Version 10.0) —— 3. Programming Interface

CUDA编程 - Programming Interface

- Compilation with NVCC（用NVCC编译）
- - Compilation Workflow（编译工作流）
  - Binary Compatibility（二进制兼容性）
  - PTX Compatibility（PTX兼容性）
  - Application Compatibility（应用程序兼容性）
  - C++ Compatibility（C ++兼容性）
  - 64-Bit Compatibility（64位兼容性）
- CUDA Runtime
- - Initialization（初始化）
  - Device Memory（设备内存）
  - Shared Memory（共享内存）
  - Page-Locked Host Memory（Page-Locked 主机内存）
  - Asynchronous Concurrent Execution（异步并发执行）
  - Multi-Device System（多设备系统）
  - Unified Virtual Address Space（统一虚拟地址空间）
  - Interprocess Communication（进程间通信）
  - Error Checking（错误检查）
  - Call Stack（调用堆栈）
  - Texture and Surface Memory
  - Graphics Interoperability（图形互操作性）
- External Resource Interoperability（外部资源互操作性）
- - Vulcan Interoperability（Vulcan互操作性）
  - OpenGL Interoperability（OpenGL互操作性）
  - Direct3D 12 Interoperability（Direct3D 12互操作性）
  - Direct3D 11 Interoperability（Direct3D 11互操作性）
  - NVIDIA Software Communication Interface Interoperability (NVSCI)（NVIDIA软件通信接口互操作性（NVSCI））
- Versioning and Compatibility（版本与兼容性）
- Compute Modes（计算模式）
- Mode Switches（模式开关）
- Tesla Compute Cluster Mode for Windows（Windows的Tesla计算群集模式）

It consists of a minimal set of extensions to the C++ language and a runtime library.

将 kernel 定义成 C++ 函数 C++ Language Extensions
每次调用函数时，可以指定 grid 和 block 的大小和维度
必须使用 nvcc 编译 Compilation with NVCC
CUDA Runtime，提供C和C++函数，可以在host主机上分配和取消分配设备内存，在主机内存和设备内存之间传输数据，管理多设备系统 CUDA Runtime
runtime基于 lower-level C API（CUDA 驱动程序API）构建，应用程序可以访问该 API.
- CUDA 驱动程序API 通过 lower-level concepts 来实现 additional level of control Driver API
  - CUDA 上下文，CUDA contexts
  - 设备的主机进程的模拟，the analogue of host processes for the device
  - CUDA 模块，CUDA modules
  - 设备的动态加载库的模拟，the analogue of dynamically loaded libraries for the device
- CUDA 上下文和模块管理是隐式的

Compilation with NVCC（用NVCC编译）

使用PTX CUDA指令集来编写kernel，kernel通过 nvcc 编译成二进制代码在设备上执行。

nvcc是一个编译器驱动程序，可简化 C ++ 或 PTX 代码的编译过程：它提供简单且熟悉的命令行选项，并通过调用实现不同编译阶段的工具集合来执行它们。本节概述了 nvcc 工作流和命令选项。

Compilation Workflow（编译工作流）

Offline Compilation（离线编译）

nvcc编译的源文件包括：主机代码host code（主机上执行）和设备代码device code（设备上执行），nvcc的基本流程是将设备代码和主机代码分开；
- 将设备代码编译成汇编形式（PTX代码）或者二进制形式（cubin对象）
- 通过CUDA runtime 函数调用<<<...>>>修改主机代码，从 PTX代码或者 cubin对象加载和启动每个编译的kernel
修改后的主机代码可以以C ++代码输出，以便使用其他工具进行编译，也可以通过在最后一个编译阶段让nvcc调用主机编译器直接作为目标代码输出。

应用程序可以：
- 链接到已编译的主机代码（这是最常见的情况），
- 忽略修改后的主机代码（如果有），并使用 CUDA驱动程序API 加载并执行 PTX代码或 cubin对象。
Just-in-Time Compilation（即时编译）
应用程序在 runtime 时加载的任何 PTX代码，都会由设备驱动程序进一步编译为二进制代码binary code（存入缓存中，避免重复编译），但会消耗一定的加载时间。

CUDA 环境变量可用于即时编译。

NVRTC 可以作为使用nvcc编译 CUDA C ++ 设备代码的替代方法，NVRTC可用于在 runtime 时将 CUDA C ++ 设备代码编译为 PTX。

Binary Compatibility（二进制兼容性）

次要版本具有向后兼容性，计算能力X.y生成的 cubin 对象将仅在计算能力X.z的设备上执行，其中z≥y。

PTX Compatibility（PTX兼容性）

某些PTX指令仅在具有更高计算能力的设备上受支持。

-arch编译器选项指定将C++编译为PTX代码时假定的计算能力。因此，例如，包含warp shuffle的代码必须使用-arch = compute_30（或更高版本）进行编译。

为某些特定的计算能力生成的 PTX代码始终可以编译为具有更大或相等计算能力的二进制代码。但由于较早的 PTX版本编译的二进制文件可能未使用某些硬件功能，最终二进制文件的性能可能比使用最新版本的 PTX 生成二进制文件时的性能差。

Application Compatibility（应用程序兼容性）

要在具有特定计算功能的设备上执行代码，应用程序必须加载与二进制计算和PTX兼容性中所述的，与此计算功能兼容的及时编译的二进制或PTX代码。

-arch 和 -code 编译器选项或 -gencode 编译器选项，控制哪个PTX 和二进制代码嵌入 CUDA C ++应用程序中。

nvcc x.cu
		// 嵌入与计算能力3.5和5.0兼容的二进制代码
        -gencode arch=compute_35,code=sm_35
        -gencode arch=compute_50,code=sm_50
        
        // 嵌入与计算能力6.0兼容的PTX和二进制代码
        -gencode arch=compute_60,code=\'compute_60,sm_60\'

生成主机代码，以在运行时自动选择最合适的代码来加载和执行，在上面的示例中，该代码将是：

具有计算能力3.5和3.7的设备的3.5二进制代码
具有计算能力5.0和5.2的设备的5.0二进制代码
具有计算能力6.0和6.1的设备的6.0二进制代码，
PTX代码可在运行时编译为具有7.0或更高版本的计算能力的设备的二进制代码。

x.cu可以具有一个优化的代码路径，例如，它使用warp shuffle操作，只有计算能力为3.0或更高的设备才支持。
__CUDA_ARCH__宏可用于根据计算能力来区分各种设备代码路径。例如，当使用-arch = compute_35进行编译时，__ CUDA_ARCH__ = 350。

使用驱动程序API的应用程序编译代码，必须分离文件，并在运行时显式加载和执行最合适的文件。

nvcc用户手册列出了-arch，-code和-gencode编译器选项的各种简写形式。例如，-arch = sm_35是-arch = compute_35-code = compute_35，sm_35的简写，与-gencodearch = compute_35，code = \'compute_35，sm_35 \'相同。

C++ Compatibility（C ++兼容性）

编译器的前端根据 C++语法规则处理 CUDA源文件。

主机代码支持完全C++，设备代码仅完全支持 C++的子集。

64-Bit Compatibility（64位兼容性）

nvcc的64位版本以64位模式编译设备代码（即，指针为64位），只有以64位模式编译的主机代码才支持以64位模式编译的设备代码。
nvcc的32位版本以32位模式编译设备代码，只有以32位模式编译的主机代码才支持以32位模式编译的设备代码。
nvcc的32位版本也可以使用-m64编译器选项以64位模式编译设备代码。
nvcc的64位版本也可以使用-m32编译器选项以32位模式编译设备代码。

CUDA Runtime

在与应用程序链接的 cudart库 中实现了 runtime，可以通过 cudart.lib 或 libcudart.a 静态实现，也可以通过 cudart.dll 或 libcudart.so 动态实现。

需要 cudart.dll 和/或 cudart.so 进行动态链接的应用程序，通常会将它们作为应用程序安装包的一部分包含在内。只有在链接到 CUDA runtime 的同一实例的组件之间传递 CUDA runtime symbols 的地址才是安全的。

如异构编程中提到的那样，CUDA 编程模型假定一个由主机host 和设备device 组成的系统，每个主机和设备都有各自独立的内存。设备内存Device Memory 概述了用于管理设备内存的runtime 函数。

共享内存 Shared Memory ：说明了线程层次结构中引入的共享内存的使用，以最大限度地提高性能。
页面锁定主机内存 Page-Locked Host Memory：引入了页面锁定主机内存，这是将 kernel 执行与主机和设备内存之间的数据传输重叠所必需的。
异步并发执行 Asynchronous Concurrent Execution：描述了用于在系统中的各个级别启用异步并发执行的概念和API。
多设备系统 Multi-Device System：展示了编程模型如何扩展到将多个设备连接到同一主机的系统。
错误检查 Error Checking：介绍了如何正确检查 runtime 生成的错误。
调用堆栈 Call Stack：提到用于管理 CUDA C++ 调用堆栈的 runtime 函数。
纹理和表面内存 Texture and Surface Memory：提供了纹理和表面内存空间，它们提供了另一种访问设备内存的方式。它们还公开了一部分GPU纹理化硬件。
图形互操作性 Texture and Surface Memory：介绍了 runtime 提供的与两种主要图形API（OpenGL和Direct3D）互操作的功能。

Initialization（初始化）

Device Memory（设备内存）

Shared Memory（共享内存）

Page-Locked Host Memory（Page-Locked 主机内存）

Portable Memory（便携式内存）
Write-Combining Memory
Mapped Memory（映射内存）

Asynchronous Concurrent Execution（异步并发执行）

Concurrent Execution between Host and Device（主机与设备之间的并发执行）
Concurrent Kernel Execution（内核执行并发）
Overlap of Data Transfer and Kernel Execution（数据传输和内核执行的重叠）
Concurrent Data Transfers（数据传输并发）
Streams
- Creation and Destruction
- Default Stream
- Explicit Synchronization（显式同步）
- Implicit Synchronization（隐式同步）
- Overlapping Behavior（重叠行为）
- Host Functions (Callbacks)（回调）
- Stream Priorities（流优先级）
Graphs
- Graph Structure
  - Node Types（节点类型）
- Creating a Graph Using Graph APIs（使用图APIs构建图）
- Creating a Graph Using Stream Capture（使用流捕获构建图）
  - Cross-stream Dependencies and Events
  - Prohibited and Unhandled Operations
  - Invalidation
  - Using Graph APIs
- Events
  - Creation and Destruction（创建和销毁）
  - Elapsed Time（经过的时间）
- Synchronous Calls（同步通信）

Multi-Device System（多设备系统）

Device Enumeration（设备枚举）
Device Selection（设备选择）
Stream and Event Behavior（流与事件行为）
Peer-to-Peer Memory Access（点对点内存访问）
- IOMMU on Linux（Linux上的IOMMU）
Peer-to-Peer Memory Copy（点对点内存复制）

Unified Virtual Address Space（统一虚拟地址空间）

Interprocess Communication（进程间通信）

Error Checking（错误检查）

Call Stack（调用堆栈）

Texture and Surface Memory

Texture Memory
- Texture Object API
- Texture Reference API
- 16-Bit Floating-Point Textures
- Layered Textures
- Cubemap Textures
- Cubemap Layered Textures
- Texture Gather
Surface Memory
- Surface Object API
- Surface Reference API
- Cubemap Surfaces
- Cubemap Layered Surfaces
CUDA Arrays（CUDA Arrays）
Read/Write Coherency（读/写一致性）

Graphics Interoperability（图形互操作性）

OpenGL Interoperability
Direct3D Interoperability
- Direct3D 9 Version
- Direct3D 10 Version
- Direct3D 11 Version
SLI Interoperability

External Resource Interoperability（外部资源互操作性）

Vulcan Interoperability（Vulcan互操作性）

Matching device UUIDs（匹配设备的UUID）
Importing memory objects（导入内存对象）
Mapping buffers onto imported memory objects（将缓冲区映射到导入的内存对象）
Mapping mipmapped arrays onto imported memory objects（将mipmapped数组映射到导入的内存对象）
Importing synchronization objects（导入同步对象）
Signaling/waiting on imported synchronization objects（Signaling/waiting 导入的同步对象）

OpenGL Interoperability（OpenGL互操作性）

Direct3D 12 Interoperability（Direct3D 12互操作性）

Matching device LUIDs（匹配设备的LUID）
Importing memory objects（导入内存对象）
Mapping buffers onto imported memory objects（将缓冲区映射到导入的内存对象）
Mapping mipmapped arrays onto imported memory objects（将mipmapped数组映射到导入的内存对象）
Importing synchronization objects（导入同步对象）
Signaling/waiting on imported synchronization objects（Signaling/waiting 导入的同步对象）

Direct3D 11 Interoperability（Direct3D 11互操作性）

Matching device LUIDs（匹配设备的LUID）
Importing memory objects（导入内存对象）
Mapping buffers onto imported memory objects（将缓冲区映射到导入的内存对象）
Mapping mipmapped arrays onto imported memory objects（将mipmapped数组映射到导入的内存对象）
Importing synchronization objects（导入同步对象）
Signaling/waiting on imported synchronization objects（Signaling/waiting 导入的同步对象）

NVIDIA Software Communication Interface Interoperability (NVSCI)（NVIDIA软件通信接口互操作性（NVSCI））

Importing memory objects（导入内存对象）
Mapping buffers onto imported memory objects（将缓冲区映射到导入的内存对象）
Mapping mipmapped arrays onto imported memory objects（将mipmapped数组映射到导入的内存对象）
Importing synchronization objects（导入同步对象）
Signaling/waiting on imported synchronization objects（Signaling/waiting 导入的同步对象）

Versioning and Compatibility（版本与兼容性）

Compute Modes（计算模式）

Mode Switches（模式开关）

Tesla Compute Cluster Mode for Windows（Windows的Tesla计算群集模式）

【AI大模型】搭建本地大模型GPT-NeoX：详细步骤及常见问题处理 qzw1210 gpt 人工智能深度学习
搭建本地大模型GPT-NeoX：详细步骤及常见问题处理GPT-NeoX是一个开源的大型语言模型框架，由EleutherAI开发，可用于训练和部署类似GPT-3的大型语言模型。本指南将详细介绍如何在本地环境中搭建GPT-NeoX，并解决过程中可能遇到的常见问题。1.系统要求1.1硬件要求1.2软件要求操作系统:Linux(推荐Ubuntu20.04或更高版本)CUDA:11.2或更高版本Python
vggt 3d重建相机位姿，新视角生成 AI算法网奇 3D视觉人工智能深度学习
vggt动态追踪实时重建https://github.com/facebookresearch/vggtimporttorchfromvggt.models.vggtimportVGGTfromvggt.utils.load_fnimportload_and_preprocess_imagesdevice="cuda"iftorch.cuda.is_available()else"cpu"dtyp
SenseVoice 部署记录安静六角开源软件
最近试用了SenseVoice（阿里团队开源的语音转文字）效果可以，可以本地部署，有webui界面，测试了万字以上的转换效果可以。首先部署好conda环境和cuda，这个可以查看他人的文章。步骤1.创建虚拟环境：condacreate-nmainenvpython=3.102.然后安装依赖condaactivatemainenvpipinstall-rC:\Users\xx\Documents\P
【最新】TensorFlow、cuDNN、CUDA三者之间的最新版本对应及下载地址江上_酒开发环境及工具配置 TensorFlow CUDA cuDNN
TensorFlow、cuDNN、CUDA对应关系官网查询地址CUDA下载地址cuDNN下载地址VersionPythonversionCompilerBuildtoolscuDNNCUDAtensorflow_gpu-2.9.03.7-3.10MSVC2019Bazel5.0.08.111.2tensorflow_gpu-2.8.03.7-3.10MSVC2019Bazel4.2.18.111.
PyTorch核心基础知识点 niuTaylor 编程区 pytorch 人工智能 python
PyTorch核心基础知识点，结合最新特性与工业级实践，按优先级和逻辑关系分层解析：▍核心基石：张量编程（TensorProgramming）1.张量创建（8种生产级初始化）#设备自动选择（2024最佳实践）device="cuda"iftorch.cuda.is_available()else"mps"iftorch.backends.mps.is_available()else"cpu"#关键
os.environ[‘CUDA_VISIBLE_DEVICES‘] = 的用法 @锦瑟五十弦深度学习人工智能
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录os.environ['CUDA_VISIBLE_DEVICES']=单值作用os.environ['CUDA_VISIBLE_DEVICES']=多值的作用os.environ[‘CUDA_VISIBLE_DEVICES’]=单值作用一定要在importtorch之前定义这句话importosos.environ['CUDA
位宽512bit显卡_6144 CUDA/512bit位宽 Maxwell架构曝光李涛PS 位宽512bit显卡
【IT168资讯】NVIDIA目前一代的显卡有GK104和GK110两大分支，它们的侧重点不同，但都是基于Kepler(开普勒，天文学家)架构的，下一代架构名为Maxwell(麦克斯韦尔，物理学家)，根据之前的传闻Maxwell最快将在明年Q1季度问世，制程有可能继续使用TSMC的28nm工艺。现在网上又流传开Maxwell的架构设计了，旗舰GM100将有6144个CUDA核心，512bit位宽显
CUDA 学习(3)——CUDA 初步实践哦豁灬 CUDA 学习笔记学习 CUDA
1定位threadCUDA中提供了blockIdx,threadIdx,blockDim,GridDim来定位发起thread，下面发起1个grid，里面有2个block，每个block里有5个threads。程序让每个thread输出自己的id号:#include__global__voidprint_id(){intid=blockDim.x*blockIdx.x+threadIdx.x;pr
pytorch v1.4.0安装问题大柠丶 pytorch 人工智能 python
直接使用conda安装报错：(CenterNet)C:\Users\16323>condainstallpytorch==1.4.0torchvision==0.5.0cudatoolkit=10.1-cpytorch-cconda-forgeChannels:-pytorch-conda-forge-defaultsPlatform:win-64Collectingpackagemetadata
Windows和Linux系统上的Mamba_ssm环境配置清纯世纪笔记 python 深度学习人工智能
目录一、Linux系统安装二、Win系统安装1）、安装causal_conv1d1、第一种方法2、第二种方法（感觉可靠）3、第三种方法：直接下载大神编译好的文件进行安装2）、安装mamba-ssm1、第一种方法2、第二种方法：直接下载大神编译好的文件进行安装一、Linux系统安装如果自己的系统不是cuda11.8，那么需要先创建一个新环境来安装对应的cuda版本：condacreate-nyour
Ubuntu和Windows系统之Mamba_ssm安装 Netceor Python ubuntu windows linux
Mamba的论文：https://arxiv.org/abs/2312.00752Mamba的github：https://github.com/state-spaces/mamba一、Ubuntu安装直接新建一个环境是最好的，不然很容易产生各种冲突#创建环境和相关包condacreate-nmambapython=3.10.13condaactivatemambacondainstallcuda
不用再当“技术宅“！这个AI神器让我5分钟变身人工智能达人阳光永恒736 AI工具人工智能 deepseek 一键包本地部署 AI资源
最近我在朋友圈刷到好多朋友都在玩AI画图、AI写诗，看得我心痒痒。可每次想自己试试，打开教程就被满屏的代码吓退——"Python环境配置"、"CUDA驱动安装"这些词比数学作业还让人头疼。直到我发现了一个叫DeepSeek本地部署一键包的神器，我的AI探索之旅终于变得像搭乐高一样简单！夸克网盘分享一、原来AI离我们这么近上周三放学路上，我看见隔壁班的小美用AI给自己照片生成古风造型，这让我突然意识
GPU计算的历史与CUDA编程入门己见明 GPU计算 CUDA C 数据并行性 CUDA程序结构向量加法内核
GPU计算的历史与CUDA编程入门背景简介GPU计算的历史可以追溯到早期的并行计算研究，如今已发展成为计算机科学中的一个重要分支。本文将探讨GPU计算的发展史，重点分析《ComputerGraphics:PrinciplesandPractice》等关键文献，以及CUDAC编程模型的引入及其对现代软件开发的影响。历史回顾回顾历史，GPU计算的发展始于1986年Hillis与Steele在《Comm
GTC 2025 中文在线解读扫地的小何尚人工智能 NVIDIA GPU 深度学习机器学习
GTC2025中文在线解读｜CUDA最新特性与未来[WP72383]NVIDIAGTC大会火热进行中，一波波重磅科技演讲让人应接不暇，3月24日，NVIDIA企业开发者社区邀请KenHe、YipengLi两位技术专家，面向开发者，以中文深度拆解GTC2025四场重磅开发技术相关会议，直击AI行业应用痛点，破解前沿技术难题!作为GPU计算领域的基石，CUDA通过其编程语言、编译器、运行时环境及核心库
英伟达消费级RTX显卡配置表真相很简单识别算法网络 rtx nvidia 英伟达游戏显卡
显卡型号显存大小显存频率显存位宽显存带宽CUDA核心数TDP（功耗）上市年份RTX409024GB21Gbps384-bit1,008GB/s16,384450W2022RTX4080(16GB)16GB22.4Gbps256-bit716.8GB/s9,728320W2022RTX4080(12GB)12GB21Gbps192-bit504GB/s7,680285W2023RTX4070Ti12
3090显卡Ktransformer本地部署deepseek R1:70B SIATdog ai
这里写自定义目录标题效果完成视频：配置参考依赖安装安装cuda配置环境下载deepseekR170B下载ktransoformer开始安装运行Web启动常见问题runtimeerrordon'tmatch更新cudaERROR:Failedtobuildinstallablewheelsforsomepyproject.tomlbasedprojects(ktransformers)效果完成视频：
【ai】mocap：conda 安装python3.8+ cuda+ pytorch+torchaudio、torchvision 等风来不如迎风去 AI入门与实战人工智能 ubuntu conda
MotionCapubuntu18.04不知道为啥会依赖于ffmpeg、xorg渲染？安装pytorch就是会带上cudacudnn啥的pytorch【ai】tx2nx：安装torch、torchvisionforyolov5这里就发现pytorch和torchvision有依赖关系的，还涉及到rapidjson所以python的环境隔离很重要。核心库-cudatoolkit=11.3-pytor
查看 CUDA cudnn 版本查看Navicat GPU版本 FergusJ 备份 python 开发语言
查看显卡型号：lspci|grepVGA（lspci是linux查看硬件信息的命令），屏幕会打印出主机的集显几独显信息python中查看显卡型号fromtensorflow.python.clientimportdevice_libdevice_lib.list_local_devices()
查看 Linux 系统中安装的 CUDA 版本烟锁池塘柳0 Linux CUDA linux ubuntu
查看Linux系统中安装的CUDA版本的常见方法：文章目录1查看/usr/local/cuda目录2使用nvcc命令3检查libcublas版本注意：nvidia-smi1查看/usr/local/cuda目录通常，CUDA被安装在/usr/local/cuda目录下，所以可以使用ls命令来查看这个目录是否存在，以及查看其中的内容。ls/usr/local/cuda如果这个目录存在，通常它会是一个
已解决：python多线程使用TensorRT输出为零？附tensorrt推理代码李卓璐算法实战 python 开发语言
我是多个不同类型的模型多线程调用报错。设备：cuda12.1,cudnn8.9.2,tensorrt8.6.11.问题tensorrt的推理没输出？？？有输入：想要的输出：原因：多进程时,每进程应单独调用importpycuda.driverascuda和cuda.init()，完成初始化CUDA驱动，并需要使用self.cfx.push()和self.cfx.pop()管理CUDA上下文，以保证
CUDA编程基础清澜算法面试人工智能 c++算法 nvidia cuda编程
一、快速理解CUDA编程1.1CUDA简介CUDA（ComputeUnifiedDeviceArchitecture）是由NVIDIA推出的并行计算平台和应用程序接口模型。它允许开发者利用NVIDIAGPU的强大计算能力来加速通用计算任务，而不仅仅是图形渲染。通过CUDA，开发者可以编写C、C++或Fortran代码，并将其扩展以在GPU上运行，从而显著提高性能，特别是在处理大规模数据集和复杂算法
2025年开发者工具全景图：IDE与AI协同的效能革命 He.Tech ide 人工智能
2025年开发者工具全景图：IDE与AI协同的效能革命（基于CSDN、腾讯云等平台技术文档与行业趋势分析）一、核心工具链的务实演进与配置指南主流开发工具的升级聚焦于工程化适配与智能化增强，以下是2025年开发者必须掌握的配置技巧：1.VSCode：性能优化与远程协作标杆核心特性：CUDA核心利用率分析：通过NVIDIANsight插件优化GPU计算任务，需在settings.json中添加："ns
bitsandbytes 报错 HuggingMe pytorch
把bitsandbytes更新到最新版本。用nvidia-smi查看CUDA版本，我的是12.2。在~/.bashrc中添加了以下几行：exportPATH="/usr/local/cuda-12.2/bin:$PATH"exportBNB_CUDA_VERSION=122exportLD_LIBRARY_PATH="/usr/local/cuda-12.2/lib64:$LD_LIBRARY_P
centos7输入python -m bitsandbytes报错CUDA Setup failed despite GPU being available. Please run the follo 小太阳，乐向上 python 开发语言
在centos7.9系统中安装gpu驱动及cuda，跑大模型会报错，提示让输入python-mbitsandbytes依然报错：CUDASETUP:Loadingbinary/usr/local/python3/lib/python3.9/site-packages/bitsandbytes/libbitsandbytes_cuda117.so.../lib64/libstdc++.so.6:ve
关于bitsandbytes安装报错跃跃欲试88 语言模型人工智能 transformer
RunTimeError:CUDASetupfaileddespiteGPUbeingavailable.InspecttheCUDASETUPoutputsabovetofixyourenvironment!ubuntu@VM-0-8-ubuntu:~$python-mbitsandbytesFalse===================================BUGREPORT===
python -m bitsandbytes 报错解释与解决 MityKif python 开发语言
RuntimeError:CUDASetupfaileddespiteGPUbeingavailable.Pleaserunthefollowingcommandtogetmoreinformation:python-mbitsandbytesInspecttheoutputofthecommandandseeifyoucanlocateCUDAlibraries.Youmightneedtoad
c++高性能多进程 cuda编程: safe_softmax实现 + cub::BlockReduce自定义归约操作 FakeOccupational 深度学习 c++开发语言
目录cub::BlockReduce自定义归约操作(`cub::BlockReduce::Reduce`)1.语法safe_softmax实现cub::BlockReducecub::BlockReduce是CUB库（CUDAUnBound）提供的一种用于GPU线程块内数据归约(一般完成所有数据规约需要两次规约)的高效工具。它允许线程块内的多个线程并行地对数据执行归约操作，cub::BlockRe
使用LoRA微调LLaMA3 想胖的壮壮深度学习人工智能
使用LoRA微调LLaMA3的案例案例概述在这个案例中，我们将使用LoRA微调LLaMA3模型，进行一个文本分类任务。我们将使用HuggingFace的Transformers库来完成这个过程。步骤一：环境搭建安装必要的Python包pipinstalltransformersdatasetstorch配置GPU环境确保你的环境中配置了CUDA和cuDNN，并验证GPU是否可用。importtor
融合AMD与NVIDIA GPU集群的MLOps：异构计算环境中的分布式训练架构实践
在深度学习的背景下，NVIDIA的CUDA与AMD的ROCm框架缺乏有效的互操作性，导致基础设施资源利用率显著降低。随着模型规模不断扩大而预算约束日益严格，2-3年更换一次GPU的传统方式已不具可持续性。但是Pytorch的最近几次的更新可以有效利用异构计算集群，实现对所有可用GPU资源的充分调度，不受制于供应商限制。本文将深入探讨如何混合AMD/NVIDIAGPU集群以支持PyTorch分布式训
NVIDIA-B200 OFED安装失败解决步骤，实际生产环境故障一例清风 001 AI大模型底层建设 linux 运维服务器
环境信息系统ubuntu22.04硬件nvidiaB200nvidia-driverubuntu2204-570.124.06cudacuda-toolkit-12-8报错信息./MLNX_OFED_LINUX-24.10-2.1.8.0-ubuntu22.04-x86_64/DEBS/libibumad-dev_2410mlnx54-1.2410068_amd64.deb./MLNX_OFED_
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key