actually_ture

CUDA编程学习笔记-already_true

主要参考CUDA编程入门极简教程 , CUDA从入门到精通，CUDA——从入门到放弃，CUDA编程入门

推荐书籍：《GPU高性能编程CUDA实战》（可操作性强）、《GPGPU编程技术》（全面客观详细介绍通用GPU编程的策略）、《OpenGL编程指南》（图形交互）、《GPU高性能运算之CUDA》（快速查询关键技术和概念）、各种工具使用手册

Prerequisite

根据费林分类法（Flynn’s Taxonomy），可以将资讯流（information stream）分成指令（Instruction）和数据（Data）两种，据此又可分成四种计算机类型：

单一指令流单一数据流计算机（SISD）：单核CPU
单一指令流多数据流计算机（SIMD）：GPU的计算模型
多指令流单一数据流计算机（MISD）：流水线模型
多指令流多数据流计算机（MIMD）：多核CPU

中央处理器（CPU, Central Processing Unit）

计算机的运算核心（Core）和控制核心（Control Unit），主要包括运算器（ALU, Arithmetic Logic Unit），控制单元（CU, Control Unit），寄存器（Register），高速缓冲存储器（Cache）以及实现二者联系的数据（Data）、控制及状态的总线（Bus）。
CPU与内部存储器（Memory）以及输入输出（I/O）设备合称为电子计算机的三大核心部件。

CPU遵循的是冯诺依曼架构，其核心就是：存储程序，顺序执行。

显卡（Video card, Graphic card）

显示接口卡、显示适配器，是计算机进行数模信号转换的设备，承担输出显示图形的任务。同时具有图像处理能力，协助CPU工作，提高整体运行速度。

GPU（Graphic Processing Unit）是显卡上的一块芯片，最初仅用于图像渲染。后提出GPGPU（General Purpose GPU）的概念。GPU无法单独工作，必须由CPU进行控制调用才能工作。

CUDA (Compute Unified Devices Architecture)是NVIDIA公司开发的GPU编程模型，提供了GPU编程的简易接口。它将GPU视作一个数据并行计算设备，基于CUDA编程可以构建基于GPU计算的应用程序。CUDA提供了对多种编程语言的支持，如C/C++，Python等。

CUDA编程模型基础

在异构计算架构中，GPU与CPU通过PCIe总线连接在一起来协同工作，CPU所在位置称为为主机端（host），而GPU所在位置称为设备端（device）。GPU包含更多的运算核心，特别适合进行数据并行的计算密集型任务，CPU可以实现复杂的逻辑运算，适合控制密集型任务。

在CUDA程序架构中，主程序由CPU执行，数据并行处理部分被编译成GPU能执行的程序传送到GPU中。以上被编译的程序在CUDA中被称为kernel，CUDA允许程序员定义C语言kernel函数。

在调用kernel函数时，它由 $N$ 个不同的CUDA线程并行执行 $N$ 次；执行kernel的每个线程都会被分配一个独特的线程ID——通过内置threadIdx变量访问。

显卡利用率查看方式

> nvidia-smi

线程层次结构

SP (Streaming Processor)：也称为CUDA core，是最基本的处理单元。具体的指令和任务都是在SP上处理的。GPU进行并行计算，也就是很多个SP同时做处理。
SM (Streaming Multiprocessor)：多个SP加上其他的一些资源，如warp scheduler, register, shared memory等。从软件上看，SM像一个独立的CPU core。

线程（Thread）：一般通过GPU的一个核进行处理。
线程块（Block）：软件概念，一个block只会由一个SM调度。多个threads组成，各个block并行执行但无法通信。
线程格（Grid）：多个blocks组成。
线程束（Warp）：一个包含32个thread的集合，该集合被编织在一起且以步调一致的形式执行。warp是调度和运行的基本单元。在程序中的每一行，线程束中的每个线程都将在不同数据上执行相同的命令——SIMT (Single Instruction Multiple Threads)。

在GPU中要执行的线程，根据最有效的数据共享来创建块(Block)。
在同一个block内的线程可以彼此协作，通过一些共享存储器共享数据，并通过同步执行来协调存储器访问。
一个block中的所有线程必须位于同一个处理器核心中，即一个处理器核心的有限存储器资源限制了每个block的线程数量。

一个内核可由多个大小相同的线程块同时执行。
$线程总数=线程per\_block\times \#blocks$ 。

一个SM可以同时拥有多个blocks，但是需要序列执行。

大部分threads只是逻辑上并行，并不是所有的thread可以在物理上同时执行。同一个warp中的thread可以以任意顺序执行，active warps被sm资源限制。当一个warp空闲时，SM就可以调度驻留在该SM中另一个可用warp。

存储器层次结构

CUDA设备拥有多个独立的存储空间。

主机（Host）：CPU及系统内存。
设备（Device）：GPU及GPU本身的显示内存。
DRAM (Dynamic Random Access Memory)：最常见的系统内存。

CUDA线程可在执行过程中访问多个存储器空间的数据：

每个thread都有一个private 本地存储器
每个block都有一个共享存储器，对块内的所有线程可见，且与block具有相同的生命周期
所有thread可访问相同的全局存储器
两个read-only存储器，可由所有线程访问。

并行计算

并行性

block可以按任意顺序执行。grid中的block可以被分配到任意一个由空闲部分的SM上。

局部性

缓存一致性

对于“缓存一致”的系统，一个内存的写操作需要通知所有核的各个级别的缓存。因此，无论何时，所有的处理器核看到的内存视图是完全一样的。非“缓存一致”系统不会自动地更新其他核的缓存。它需要由程序员写清楚每个处理器核输出的各自不同的目标区域。
通常，CPU遵循“缓存一致性”原则，而GPU则不是。故GPU能够扩展到一个芯片内具有大数量的核心。

CUDA编程

NVIDIA官方教程, Programming Guide :: CUDA Toolkit Documentation

CUDA编程模型是一个异构模型，需要CPU和GPU协同工作。典型的CUDA程序执行流程：

分配host内存，进行数据初始化
分配device内存，从host将数据拷贝到device上
调用CUDA的kernel函数在device上完成指定运算
将device上的运算结果拷贝到host上
释放device和host上分配的内存

CUDA C

对C/C++语言进行拓展后形成的变种，兼容C/C++语法，文件类型为.cu文件，编译器为nvcc，相比传统的C/C++，主要添加了以下几个方面：

函数类型限定符
执行配置运算符
内置变量（五个）
变量类型限定符
各种函数等

变量类型限定符

确定某个变量在设备上的内存位置.

__device__表示位于全局内存空间，默认类型
__share__表示位于共享内存空间
__constant__表示位于常量内存空间
__texture__表示其绑定的变量可以被纹理缓存加速访问
__managed__表示

函数类型限定符

在使用 CUDA 之后，我们获得了 GPU 的控制权，现在在编写代码时需要指明是 CPU 还是 GPU 进行数据运算。我们可以简单的将数据运算（即函数的调用方式）分为三种：

global 在CPU上调用函数，函数在GPU上执行（异步）
device 在GPU上调用函数，函数在GPU上执行
host 在CPU上调用函数，函数在CPU上执行（同步）

__global__ void global_func(float func_input){
	// Something
}
__host__ void MyFunc(int func_input){
	// Something
}
__device__ void MyFunc(byte func_input){
	//Something
}

kernel是在device上的线程中并行执行的函数，采用__global__符号声明，调用时采用<<>>指定kernel需要执行的线程数量。

Get the computation running (in parallel) on the many cores of a GPU.
First, turn target function into a function that the GPU can run, called a kernel in CUDA – add the specifier __global__ to the function which tells the CUDA C++ compiler that this is a function that runs on the GPU and can be called from CPU code.

// CUDA Kernel function
__global__
void add(int n, float *x, float *y){
	for(int i=0; i<n; i++)
		y[i] = x[i] + y[i];
}

内存分配

Unified Memory in CUDA provides a single memory space accessible by all GPUs and CPUs in your system.
To allocate data in unified memory, call cudaMallocManaged(), which returns a pointer that you can access from host (CPU) code or device (GPU) code. To free the data, just pass the pointer to cudaFree().

// Allocate Unified Memory
float *x, *y;
cudaMallocManaged(&x, N*sizeof(float));
cudaMallocManaged(&y, N*sizeof(float));

// Free memory
cudaFree(x);
cudaFree(y);

执行配置运算符

执行配置运算符<<<>>>用来传递kernel函数的执行参数，格式如下：
kernel<<>>(param1, param2,...);
memSize表示动态分配的共享存储器大小，默认为0；stream表示执行流，默认为0。

内置变量

用于用来在运行时获得Grid和Block的尺寸及线程索引等信息。

gridDim：包含三个元素x, y, z的结构体，表示Grid在三个方向上的尺寸
blockDim：包含上元素x, y, z的结构体，表示Block在三个方向上的尺寸
blockIdx：包含三个元素x, y, z的结构体，分别表示当前线程所在块在网格中x, y, z方向上的索引
threadIdx：包含三个元素x, y, z的结构体，分别表示当前线程在其所在块中x, y, z方向上的索引
warpSize：表示warp的尺寸。

Launch the add() kernel. CUDA kernel launches are specified using the triple angle bracket syntax <<< >>>

add<<<1, 1>>>(N, x, y); // this launches one GPU thread to run this instruction

You need the CPU to wait until the kernel is done before it accesses the results (because CUDA kernel launches don’t block the calling CPU thread). To do this, call cudaDeviceSynchronize() before doing the final error checking on the CPU.

The complete code:

// "add.cu" compile it with nvcc.
#include 
#include 
//Kernel function 
__global__
void add(int n, float *x, float *y){
	for(int i=0; i<n; i++)
		y[i] = x[i] + y[i];
}

int main(void){
	int N = 1 << 20;
	float *x, *y;

	// Allocate Unified Memory
	cudaMallocManaged(&x, N*sizeof(float));
	cudaMallocManaged(&y, N*sizeof(float));
	
	// Initialize x and y arrays on the host
	for(int i=0; i<N; i++){
		x[i] = 1.0f;
		y[i] = 2.0f;
	}
	// Run kernel on 1M elements on the GPU
	add<<<1, 1>>>(N, x, y);
	// Wait for GPU to finish
	cudaDeviceSynchronize();
	// Check for errors
	float maxError = 0.0f;
	for(int i=0; i<N; i++)
		maxError = fmax(maxError, fabs(y[i] - 3.0f));
	std::cout << "Max error: " << maxError << std::endl;
	// Free memory
	cudaFree(x);
	cudaFree(y);
	return 0;
}

Picking up the Threads

The execution configuration: <<<#Blocks, #threadsInABlock>>>, it tells the CUDA runtime how many parallel threads to use for the launch on the GPU.

CUDA C++ provides keywords that let kernels get the indices of the running threads. Specifically, threadIdx.x contains the index of the current thread within its block, and blockDim.x contains the number of threads in the block.

// add_block.cu
__global void add(int n, float *x, float *y){
	int index = threadIdx.x;
	int stride = blockDim.x;
	for (int i=index; i<n; i+=stride)
		y[i] = x[i] + y[i];
}

Out of the Blocks

CUDA GPUs have many parallel processors grouped into Streaming Multiprocessors, or SMs. Each SM can run multiple concurrent thread blocks. To take full advantage of all these threads, you should launch the kernel with multiple thread blocks.

CUDA provides gridDim.x, which contains the number of blocks in the grid, and blockIdx.x, which contains the index of the current thread block in the grid.

// add_grid.cu
int blockSize = 256; // the number of threads in a single block
int numBlocks = (N + blockSize - 1) / blockSize; // round-up number of blocks needed
add<<<numBlocks, blockSize>>>(N, x, y);

__global__ void add(int n, float *x, float *y){
	int index = blockIdx.x * blockDim.x + threadIdx.x;
	int stride = blockDim.x * gridDim.x; // the total number of threads in the grid
	// a grid-stride loop
	for(int i=0; i<n; i+=stride)
		y[i] = x[i] + y[i];
}

CUDA库

CUDA math：常用数学运算
cuBLAS：矩阵运算

2025年开发者工具全景图：IDE与AI协同的效能革命 He.Tech ide 人工智能
2025年开发者工具全景图：IDE与AI协同的效能革命（基于CSDN、腾讯云等平台技术文档与行业趋势分析）一、核心工具链的务实演进与配置指南主流开发工具的升级聚焦于工程化适配与智能化增强，以下是2025年开发者必须掌握的配置技巧：1.VSCode：性能优化与远程协作标杆核心特性：CUDA核心利用率分析：通过NVIDIANsight插件优化GPU计算任务，需在settings.json中添加："ns
bitsandbytes 报错 HuggingMe pytorch
把bitsandbytes更新到最新版本。用nvidia-smi查看CUDA版本，我的是12.2。在~/.bashrc中添加了以下几行：exportPATH="/usr/local/cuda-12.2/bin:$PATH"exportBNB_CUDA_VERSION=122exportLD_LIBRARY_PATH="/usr/local/cuda-12.2/lib64:$LD_LIBRARY_P
centos7输入python -m bitsandbytes报错CUDA Setup failed despite GPU being available. Please run the follo 小太阳，乐向上 python 开发语言
在centos7.9系统中安装gpu驱动及cuda，跑大模型会报错，提示让输入python-mbitsandbytes依然报错：CUDASETUP:Loadingbinary/usr/local/python3/lib/python3.9/site-packages/bitsandbytes/libbitsandbytes_cuda117.so.../lib64/libstdc++.so.6:ve
关于bitsandbytes安装报错跃跃欲试88 语言模型人工智能 transformer
RunTimeError:CUDASetupfaileddespiteGPUbeingavailable.InspecttheCUDASETUPoutputsabovetofixyourenvironment!ubuntu@VM-0-8-ubuntu:~$python-mbitsandbytesFalse===================================BUGREPORT===
python -m bitsandbytes 报错解释与解决 MityKif python 开发语言
RuntimeError:CUDASetupfaileddespiteGPUbeingavailable.Pleaserunthefollowingcommandtogetmoreinformation:python-mbitsandbytesInspecttheoutputofthecommandandseeifyoucanlocateCUDAlibraries.Youmightneedtoad
c++高性能多进程 cuda编程: safe_softmax实现 + cub::BlockReduce自定义归约操作 FakeOccupational 深度学习 c++开发语言
目录cub::BlockReduce自定义归约操作(`cub::BlockReduce::Reduce`)1.语法safe_softmax实现cub::BlockReducecub::BlockReduce是CUB库（CUDAUnBound）提供的一种用于GPU线程块内数据归约(一般完成所有数据规约需要两次规约)的高效工具。它允许线程块内的多个线程并行地对数据执行归约操作，cub::BlockRe
使用LoRA微调LLaMA3 想胖的壮壮深度学习人工智能
使用LoRA微调LLaMA3的案例案例概述在这个案例中，我们将使用LoRA微调LLaMA3模型，进行一个文本分类任务。我们将使用HuggingFace的Transformers库来完成这个过程。步骤一：环境搭建安装必要的Python包pipinstalltransformersdatasetstorch配置GPU环境确保你的环境中配置了CUDA和cuDNN，并验证GPU是否可用。importtor
融合AMD与NVIDIA GPU集群的MLOps：异构计算环境中的分布式训练架构实践
在深度学习的背景下，NVIDIA的CUDA与AMD的ROCm框架缺乏有效的互操作性，导致基础设施资源利用率显著降低。随着模型规模不断扩大而预算约束日益严格，2-3年更换一次GPU的传统方式已不具可持续性。但是Pytorch的最近几次的更新可以有效利用异构计算集群，实现对所有可用GPU资源的充分调度，不受制于供应商限制。本文将深入探讨如何混合AMD/NVIDIAGPU集群以支持PyTorch分布式训
NVIDIA-B200 OFED安装失败解决步骤，实际生产环境故障一例清风 001 AI大模型底层建设 linux 运维服务器
环境信息系统ubuntu22.04硬件nvidiaB200nvidia-driverubuntu2204-570.124.06cudacuda-toolkit-12-8报错信息./MLNX_OFED_LINUX-24.10-2.1.8.0-ubuntu22.04-x86_64/DEBS/libibumad-dev_2410mlnx54-1.2410068_amd64.deb./MLNX_OFED_
Ubuntu20.04 RTX4060 AI环境搭建 stxinu 人工智能人工智能
下面记录在Ubuntu20.04环境下，使用ASUSATS-RTX4060-O8G-V2显卡，搭建NvidiaTensorRT开发环境。1.安装步骤0）准备工作使用如下命令创建我们的工作目录：mkdir~/nvidia再使用如下命令进入到上面的目录（接下来的步骤，如无特殊说明，均在该目录下进行）：cd~/nvidia1）安装CUDA下载并安装NVIDIACUDAToolkit：wgethttps:
【pytorch(cuda)】基于DQN算法的无人机三维城市空间航线规划（Python代码实现） wlz249 python pytorch 算法
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️赠与读者1概述一、研究背景与意义二、DQN算法概述三、基于DQN的无人机三维航线规划方法1.环境建模2.状态与动作定义3.奖励函数设计4.深度神经网络训练5.航线规划四、研究挑战与展望2运行结果3参考文献4Python代码实现⛳️赠与读者‍做科研，涉及到一个深在的
【保姆级视频教程（一）】YOLOv12环境配置：从零到一，手把手保姆级教程！| 小白也能轻松玩转目标检测！一只云卷云舒 YOLOv12保姆级通关教程 YOLO YOLOv12 flash attention GPU 计算能力算力
【2025全站首发】YOLOv12环境配置：从零到一，手把手保姆级教程！|小白也能轻松玩转目标检测！文章目录1.FlashAttentionWindows端WHL包下载1.1简介1.2下载链接1.3国内镜像站1.4安装方法2.NVIDIAGPU计算能力概述2.1简介2.2计算能力版本与GPU型号对照表2.2.1CUDA-EnabledDatacenterProducts2.2.2CUDA-Enab
LLaMA-Factory 微调训练 zsh_abc llama docker 深度学习人工智能 python linux
LLaMA-Factory微调训练该框架功能，标注-微调-导出-合并-部署，一整条流程都有，而且训练时消耗的gpu算力也会小一些一，安装（推荐在linux中训练，win可以用wsl+docker）gitclonehttps://github.com/hiyouga/LLaMA-Factory.gitcdLLaMA-Factory#根据cuda版本选择安装pytoch版本pip3installtor
llama-factory微调 AI Echoes 深度学习人工智能机器学习 deepseek
大模型微调实操--llama-factoryllama-factory环境安装前置准备英伟达显卡驱动更新地址下载NVIDIA官方驱动|NVIDIAcuda下载安装地址CUDAToolkit12.2Downloads|NVIDIADeveloperpytorch下载安装地址PreviousPyTorchVersions|PyTorchllama-factory项目和文档地址https://githu
PyTorch 生态概览：为什么选择动态计算图框架？小诸葛IT课堂 pytorch 人工智能 python
一、PyTorch的核心价值PyTorch作为深度学习框架的后起之秀，通过动态计算图技术革新了传统的静态图模式。其核心优势体现在：动态灵活性：代码即模型，支持即时调试Python原生支持：无缝衔接Python生态高效的GPU加速：通过CUDA实现透明的硬件加速活跃的社区生态：GitHub贡献者超1.8万人，日均更新100+次二、动态计算图VS静态计算图对比#动态计算图示例（PyTorch）impo
unitree Matrixart ubuntu
Unitreeubuntu18.04首先要安装好ubuntu18.04系统，然后开始安装显卡驱动和cuda以及cudnn，这里要注意版本对应，我是3090的显卡，安装的显卡版本是520，然后cuda的版本是11.7，cudnn的版本是8.5.0（要对应cuda版本）。具体流程可以按照1里面的走，最后记得在环境中写一下#写入环境sudogedit~/.bashrcexportPATH=/usr/lo
LVI-SAM、VINS-Mono、LIO-SAM算法的阅读参考和m2dgr数据集上的复现（留作学习使用）再坚持一下！！！学习
ROS一键安装参考：ROS的最简单安装——鱼香一键安装_鱼香ros一键安装-CSDN博客opencv官网下载4.2.0参考：https://opencv.org/releases/page/3/nvidia驱动安装:ubuntu18.04安装显卡驱动-开始战斗-博客园cuda搭配使用1+2cuda安装1：Ubuntu18.04下安装CUDA_ubuntu18.04安装cuda-CSDN博客cuda
如何使用MATLAB进行高效的GPU加速深度学习模型训练？百态老人 matlab 深度学习开发语言
要使用MATLAB进行高效的GPU加速深度学习模型训练，可以遵循以下步骤和策略：选择合适的GPU硬件：首先，确保您的计算机配备有支持CUDA的NVIDIAGPU，并且其计算能力至少为3.0或以上。可以通过gpuDevice命令检查GPU是否具备加速功能。安装必要的工具箱：确保安装了MATLAB的DeepLearningToolbox和ParallelComputingToolbox，这些工具箱提供
Matlab GPU加速技术算法工程师y matlab 开发语言
1.GPU加速简介（1）为什么使用GPU加速？CPU擅长处理逻辑复杂的串行任务，而GPU拥有数千个流处理器，专为并行计算设计。对于大规模矩阵运算、深度学习训练或科学计算等任务，GPU加速可将计算速度提升数十至数百倍。（2）Matlab的GPU支持功能依赖：需安装ParallelComputingToolbox（并行计算工具箱）。硬件要求：支持CUDA的NVIDIAGPU（如Tesla、GeForc
pytorch 天花板级别的知识点你可以不会用但是不能不知道小赖同学啊人工智能 pytorch 人工智能 python
PyTorch的高级知识涵盖了从模型优化到分布式训练的广泛内容，适合已经掌握基础知识的开发者进一步提升技能。以下是PyTorch的高级知识点，详细且全面：1.模型优化与加速1.1混合精度训练定义：使用半精度（FP16）和单精度（FP32）混合训练，减少内存占用并加速计算。实现：使用torch.cuda.amp模块。示例：fromtorch.cuda.ampimportautocast,GradSc
vllm部署说明和注意事项 ai一小生 python 人工智能持续部署
1、vllm所在docker镜像可去vllm官网提供的镜像地址拉取地址：UsingDocker—vLLMVllm镜像运行需要不同的cuda版本依赖，如上vllm/vllm-openai:v0.7.2需要cuda12.1方可运行。DeepSeek-R1-Distill-Qwen-32B可去modelscope下载：整体大小约为60GB部署DeepSeek-R1-Distill-Qwen-32B模型，
CUDA内核调优工具ncu的详细使用教程东北豆子哥 CUDA 数值计算/数值优化 linux 高性能计算
NVIDIANsightCompute（ncu）是一款用于CUDA内核性能分析的工具，帮助开发者优化CUDA程序。以下是详细的使用教程和示例说明。1.安装NVIDIANsightCompute确保已安装CUDAToolkit和NVIDIA驱动，然后从NVIDIA官网下载并安装NsightCompute。2.基本使用2.1启动ncu通过命令行启动ncu，基本语法如下：ncu[options][app
麒麟银河桌面版，成功安装cuda12.6，mysql hitsz_syl mysql 银河麒麟 cuda
一、要卸载并禁用nouveau驱动程序，可以按照以下步骤进行：1.确认nouveau驱动的当前状态：首先，你可以使用以下命令查看nouveau驱动是否正在运行：lsmod|grepnouveau如果有输出，说明nouveau驱动正在加载。2.临时禁用nouveau驱动：可以使用modprobe命令来临时禁用nouveau驱动（重启后会恢复加载）：sudomodprobe-rnouveau3.永久禁
mysql创建新表，同步数据 hitsz_syl mysql 数据库
importosimportargparseimportglobimportcv2importnumpyasnpimportonnxruntimeimporttqdmimportpymysqlimporttimeimportjsonfromdatetimeimportdatetimeos.environ[“CUDA_VISIBLE_DEVICES”]=“0”#使用GPU0defget_connec
如何测试模型的推理速度想要躺平的一枚 AI图像算法计算机视觉
前言模型的推理速度测试有两种方式：一种是使用python的时间戳time函数来记录，另一种是使用Pytorch里的Event。同时，在进行GPU测试时，为减少冷启动的状态影响，可以先进行预热。代码如下（示例）：if__name__=="__main__":model=BiSeNet(backbone='STDCNet813',n_classes=2,export=True)model.cuda()
NVIDIA下载老版本驱动/CUDA/Video Codec SDK的链接，以及一些解码参数说明 landihao linux
NVIDIA下载老版本驱动/CUDA/VideoCodecSDK的链接从别的网站抄过来的CUDA：https://developer.nvidia.com/cuda-toolkit-archive老驱动：https://www.nvidia.cn/geforce/drivers/VideoCodecSDKhttps://developer.nvidia.com/video-codec-sdk-ar
PyTorch 环境搭建全攻略：CUDA/cuDNN 配置与多版本管理技巧小诸葛IT课堂 pytorch 人工智能 python
一、环境搭建前的准备工作1.硬件兼容性检测#检查NVIDIAGPU型号nvidia-smi#验证CUDA支持的ComputeCapabilitylspci|grep-invidia#查看CUDA版本兼容性矩阵https://developer.nvidia.com/cuda-gpus2.系统环境要求组件推荐配置最低要求操作系统Ubuntu20.04LTSWindows10/11显卡驱动NVIDIA
CMake Error at myplugins_generated_yololayer.cu.o.Debug，tensorrtx编译失败解决雪可问春风 BUG 人工智能
system:ubuntu1804gpu:3060cuda:cuda11.4tensorrt:8.4使用项目tensorrtx进行yolov5的engine生成，之前在编译成功的配置为system:ubuntu1804gpu:2060cuda:cuda10.2tensorrt:7.2.3.4换到3060后，make失败，报错错误：/home/yfzx/work/vs-work/tensorrt-y
大模型的webui Zain Lau 人工智能 python 昇腾 Ascend 天数
exportXXX_LLM_C=~/xcore-llm/build/ReleaseexportCUDA_VISIBLE_DEVICES=2,3exportCUDACXX=/usr/local/cuda-12.3/bin/nvccnohup/usr/bin/python3/home/src/api_server/api_server.py--modelLLama2:7b-chat-hf_A800--
linux（ubuntu）中Conda、CUDA安装Xinference报错ERROR: Failed to build (llama-cpp-python) 小胡说技书杂谈/设计模式/报错 Data/Python/大模型 linux ubuntu conda 大模型 python Xinference
文章目录一、常规办法二、继续三、继续四、缺少libgomp库（最终解决）在Conda环境中安装libgomp如果符合标题情况执行的：pipinstall"xinference[all]"大概率是最终解决的情况。一、常规办法llama-cpp-python依赖CMake、Make和g++来编译，所以可能是缺少依赖或者环境配置不对。按照以下步骤排查问题并解决：1.确保Python版本符合要求llama
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb