- vLLM:高性能大语言模型推理框架源码解析与最佳实践
gfengwong
AI语言模型人工智能自然语言处理
vLLM:高性能大语言模型推理框架源码解析与最佳实践目录引言快速上手2.1.安装配置2.2.基本用法核心调用流程分析3.1.总体调用链路概述3.2.核心组件与类层次结构3.3.初始化阶段详细流程3.4.推理阶段详细流程3.5.完整调用链路示例3.6.关键调用路径总结vLLM关键工作机制4.1.PagedAttention机制4.2.连续批处理技术4.3.CUDA图捕获与加速4.4.KV缓存管理4.
- CUDA专题3:为什么GPU能改变计算?深度剖析架构、CUDA®与可扩展编程
AI专题精讲
CUDAC++编程系列专题gpu算力
1.简介1.1.使用GPU的优势图形处理器(GPU)在相近的成本和功耗范围内,能够提供比中央处理器(CPU)更高的指令吞吐量和内存带宽。许多应用程序利用这些优势,在GPU上的运行速度远超CPU(参见《GPU应用》)。其他计算设备(如FPGA)虽然能效也很高,但其编程灵活性远不及GPU。GPU与CPU的能力差异源于它们的设计目标不同。CPU旨在以最快速度执行单个线程(即一系列操作),并可并行执行数十
- Ubuntu LLaMA-Factory实战
张3蜂
llama
一、UbuntuLLaMA-Factory实战安装:CUDA安装CUDA是由NVIDIA创建的一个并行计算平台和编程模型,它让开发者可以使用NVIDIA的GPU进行高性能的并行计算。首先,在https://developer.nvidia.com/cuda-gpus查看您的GPU是否支持CUDA保证当前Linux版本支持CUDA.在命令行中输入uname-m&&cat/etc/*release,应
- 服务器上Cuda+Pytorch兼容性的那些问题
入世浮尘
服务器CUDAPytorch服务器pytorch运维
服务器上如何搭建匹配版本的cuda+pytorch:1.查询nvidia中驱动版本与cuda最高兼容版本命令行输入:nvidia-smi2.选择对应的pythonDriverVersion与NVIDIA-SMI决定当前服务器上能兼容最高cuda和Pytorch版本查询匹配方式:1.官网查询2.问AI(可能存在不准确情况)CUDA版本与显卡驱动版本对照表(更新至2022.10.26-CUDA11.8
- 开源深度学习框架PyTorch
深海水
人工智能行业发展IT应用探讨深度学习开源pytorch人工智能python机器训练
一、PyTorch介绍PyTorch是一个开源的深度学习框架,由Facebook的人工智能研究团队(FAIR)开发。它以动态图计算(DynamicComputationGraph)为核心,提供灵活的深度学习建模能力,广泛评估计算机视觉、自然语言处理、强化学习等领域。PyTorch的主要特点1.动态图计算(动态计算图)计算图在运行时构建,支持动态调整,适用于复杂任务。2.强大的GPU加速使用CUDA
- OpenCV正确安装及环境变量配置
饺子大魔王12138
node.jsopencv人工智能计算机视觉
安装OpenCV(v4.6.0)安装Python(3.10.6)安装VS2022的C++桌面开发,手动勾选Windows10SDK和MSVC安装CMake(3.31.6)在.npmrc配置pnpmconfigsetauto-approve-buildstrue运行pnpminstall接下来是开启GPU加速,非必须安装CUDAToolkit(https://developer.nvidia.com
- 配置Windows Docker、Hyper-V虚拟机和WSL的一些踩坑解决备忘(随时更新)
VRJerry
ubuntuwindowsdocker
前言:目前下面的仅留作备忘。使用Hyper-V虚拟机与显卡很难建立通讯,目前没有能成功走通。Docker的设置上主要是cuda等配置会有问题,不知道是不是版本的事儿.尝试WSL中,看上去显卡环境没问题,cuda可以配置,开源代码尝试中。。。目录一、Docker相关1、启动Docker后,发现报没有显卡驱动,使用--gpusall创建文件包括,解决参考:2、关于如何给容器内添加文件3、Docker环
- 基于EasyOCR实现的中文、英文图像文本识别
听风吹等浪起
深度学习之应用篇深度学习人工智能
1.EasyOCREasyOCR是一个基于Python的OCR(光学字符识别)库,用于从图像中提取文本。它简单易用,支持多种语言,并且能够处理各种复杂背景下的文本识别。pipinstalleasyocr主要特点:多语言支持:支持80+种语言的识别,包括中文、英文、日文、韩文等简单易用:几行代码即可实现OCR功能预训练模型:提供开箱即用的预训练模型GPU加速:支持CUDA加速,提高识别速度免费开源:
- DeepSeek 本地部署详细教程
文or野
deepseek算法数据库deepseek
一、环境准备1.1硬件要求GPU:推荐NVIDIA显卡(RTX3090/4090或更高)显存:至少16GB(根据模型版本调整)内存:32GB及以上存储:50GB可用空间1.2软件依赖操作系统:Linux/WindowsWSL2(推荐Ubuntu20.04+)Python3.8+CUDA11.7+&cuDNNPyTorch2.0+bash复制代码#示例:安装CUDA工具包sudoapt-getins
- RTX4070Ti架构解析与效能实测
智能计算研究中心
其他
内容概要本文以NVIDIAGeForceRTX4070Ti显卡为核心研究对象,系统性地拆解其基于AdaLovelace架构的技术革新与性能表现。通过整合理论分析与实测数据,文章将从核心规格、显存配置、基准测试、游戏帧率及能效管理五大维度展开论证。具体而言,7680个CUDA核心的并行计算效率、12GBGDDR6X显存的带宽利用率,以及DLSS3与光线追踪技术的协同优化,将成为重点探讨方向。为直观呈
- CUDA 学习(4)——CUDA 编程模型
哦豁灬
CUDA学习笔记学习CUDAGPU
CPU和GPU由于结构的不同,具有不同的特点:CPU:擅长流程控制和逻辑处理,不规则数据结构,不可预测存储结构,单线程程序,分支密集型算法GPU:擅长数据并行计算,规则数据结构,可预测存储模式在现在的计算机体系架构中,要完成CUDA并行计算,单靠GPU一人之力是不能完成计算任务的,必须借助CPU来协同配合完成一次高性能的并行计算任务。一般而言,并行部分在GPU上运行,串行部分在CPU运行,这就是异
- 【nvidia-B200 生产环境】NVIDIA 570.124.06+Cuda12.8 Ubuntu22.04 nccl-test 一键部署脚本(免修改复制即用)
清风 001
AI大模型底层建设ubuntu数据库postgresql
目录1.初始化与日志记录2.安装基础工具与配置更新3.NVIDIA驱动安装570.124.064.安装MellanoxOFED24.10-2.1.8.05.安装CUDA12.86.安装NCCL和测试7.配置rc.local和其他优化8.B200单独步骤9.最终测试与重启10.完整生产脚本,复制即可直接使用总结1.初始化与日志记录LOG_DIR="/opt/packages"mkdir-p$LOG_
- V100架构深度优化指南
智能计算研究中心
其他
内容概要作为NVIDIAVolta架构的旗舰产品,TeslaV100通过创新硬件设计与软件生态的协同优化,为深度学习与高性能计算场景提供了突破性的加速能力。本指南聚焦架构层面的核心优化要素,系统梳理从TensorCore矩阵运算加速原理到NVLink多卡通信协议的底层工作机制,同时深入探讨CUDA任务调度模型与显存子系统的协同优化路径。通过解析混合精度训练中动态缩放因子配置、显存访问模式重构等关键
- NVIDIA GTC 开发者社区Watch Party资料汇总
扫地的小何尚
NVIDIAGPUlinuxAI算法
NVIDIAGTC开发者社区WatchParty资料汇总以下是所有涉及到的工具中文解读汇总,希望可以帮到各位:1.CUDA编程模型开发者指南和最新功能解析专栏2.NVIDIAWarp:高性能GPU模拟与图形计算的Python框架3.NVIDIAcuDF:GPU加速的数据处理库详解4.NVIDIAcuML:GPU加速的机器学习库详解5.NVIDIAcuFFT详解:从入门到高级应用6.NVIDIAcu
- 在GpuGeek上创建实例如何自定义环境?
gpu云平台人工智能
Step1:创建实例如果平台的镜像中没有您需要的Python、Cuda、框架版本,则可以选择Miniconda,然后按照自己需求进行环境安装。Step2:安装Python登录实例终端,根据需要的Python版本创建虚拟环境:condacreate-ngpugeekpython==3.8.10condaactivategpugeekpython3--versionPython3.8.10Step3:
- cuda10.1降级(卸载+安装)
Silber666
1.卸载:实测有用贴:https://blog.csdn.net/qq_34877350/article/details/81185447https://blog.csdn.net/m0_37951243/article/details/90051494https://blog.csdn.net/u012074597/article/details/803172752.安装9.0
- 怎么在linux服务器选择GPU进行训练模型?
LRJ-jonas
python深度学习开发语言
首先查看当前节点有那些可用的GPU:使用nvidia-smi命令来查询Linux服务器上可用的GPUnvidia-smi命令会输出一些关于服务器上NVIDIAGPU的信息,包括每个GPU的型号、驱动版本、总内存、使用内存、温度、功率和运行在其上的进程等。然后选择第0个和第1个GPU进行使用:CUDA_VISIBLE_DEVICES=0,1pythontrain.py设置CUDA_VISIBLE_D
- 【CUDA】了解GPU架构
GG_Bond21
GPUgpu算力
目录一、初步认识二、Fermi架构三、Kepler架构3.1动态并行3.2Hyper-Q一、初步认识SM(StreamingMultiprocessors)是GPU架构中非常重要的部分,GPU硬件的并行性就是由SM决定的。以Fermi架构为例,其包含以下主要组成部分:CUDAcoresSharedMemory/L1CacheRegisterFileLoad/StoreUnitsSpecialFun
- 保姆级大模型学习路线!清华博士耗时半年整理的14个核心阶段,文科生也能跟着冲!(附论文笔记+项目源码+训练技巧)
大模型入门教程
学习人工智能AI大模型大模型学习大模型教程大模型入门
摘要:从被嘲“调参侠”到GitHub万星大佬,我花了487天吃透大模型技术栈。用14张思维导图+32个实战项目,拆解出普通人可复制的进阶路径,文末送《大模型学习大礼包》(含2TB预训练数据+行业白皮书)。一、为什么你的大模型学习总是卡壳?2023行业调查报告显示:92%学习者停滞在微调阶段,核心痛点集中在:论文看不懂:Transformer源码像天书环境配不好:CUDA版本冲突天天报错算力不够用:
- 【AI大模型】搭建本地大模型GPT-NeoX:详细步骤及常见问题处理
qzw1210
gpt人工智能深度学习
搭建本地大模型GPT-NeoX:详细步骤及常见问题处理GPT-NeoX是一个开源的大型语言模型框架,由EleutherAI开发,可用于训练和部署类似GPT-3的大型语言模型。本指南将详细介绍如何在本地环境中搭建GPT-NeoX,并解决过程中可能遇到的常见问题。1.系统要求1.1硬件要求1.2软件要求操作系统:Linux(推荐Ubuntu20.04或更高版本)CUDA:11.2或更高版本Python
- vggt 3d重建 相机位姿,新视角生成
AI算法网奇
3D视觉人工智能深度学习
vggt动态追踪实时重建https://github.com/facebookresearch/vggtimporttorchfromvggt.models.vggtimportVGGTfromvggt.utils.load_fnimportload_and_preprocess_imagesdevice="cuda"iftorch.cuda.is_available()else"cpu"dtyp
- SenseVoice 部署记录
安静六角
开源软件
最近试用了SenseVoice(阿里团队开源的语音转文字)效果可以,可以本地部署,有webui界面,测试了万字以上的转换效果可以。首先部署好conda环境和cuda,这个可以查看他人的文章。步骤1.创建虚拟环境:condacreate-nmainenvpython=3.102.然后安装依赖condaactivatemainenvpipinstall-rC:\Users\xx\Documents\P
- 【最新】TensorFlow、cuDNN、CUDA三者之间的最新版本对应及下载地址
江上_酒
开发环境及工具配置TensorFlowCUDAcuDNN
TensorFlow、cuDNN、CUDA对应关系官网查询地址CUDA下载地址cuDNN下载地址VersionPythonversionCompilerBuildtoolscuDNNCUDAtensorflow_gpu-2.9.03.7-3.10MSVC2019Bazel5.0.08.111.2tensorflow_gpu-2.8.03.7-3.10MSVC2019Bazel4.2.18.111.
- PyTorch核心基础知识点
niuTaylor
编程区pytorch人工智能python
PyTorch核心基础知识点,结合最新特性与工业级实践,按优先级和逻辑关系分层解析:▍核心基石:张量编程(TensorProgramming)1.张量创建(8种生产级初始化)#设备自动选择(2024最佳实践)device="cuda"iftorch.cuda.is_available()else"mps"iftorch.backends.mps.is_available()else"cpu"#关键
- os.environ[‘CUDA_VISIBLE_DEVICES‘] = 的用法
@锦瑟五十弦
深度学习人工智能
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录os.environ['CUDA_VISIBLE_DEVICES']=单值作用os.environ['CUDA_VISIBLE_DEVICES']=多值的作用os.environ[‘CUDA_VISIBLE_DEVICES’]=单值作用一定要在importtorch之前定义这句话importosos.environ['CUDA
- 位宽512bit显卡_6144 CUDA/512bit位宽 Maxwell架构曝光
李涛PS
位宽512bit显卡
【IT168资讯】NVIDIA目前一代的显卡有GK104和GK110两大分支,它们的侧重点不同,但都是基于Kepler(开普勒,天文学家)架构的,下一代架构名为Maxwell(麦克斯韦尔,物理学家),根据之前的传闻Maxwell最快将在明年Q1季度问世,制程有可能继续使用TSMC的28nm工艺。现在网上又流传开Maxwell的架构设计了,旗舰GM100将有6144个CUDA核心,512bit位宽显
- CUDA 学习(3)——CUDA 初步实践
哦豁灬
CUDA学习笔记学习CUDA
1定位threadCUDA中提供了blockIdx,threadIdx,blockDim,GridDim来定位发起thread,下面发起1个grid,里面有2个block,每个block里有5个threads。程序让每个thread输出自己的id号:#include__global__voidprint_id(){intid=blockDim.x*blockIdx.x+threadIdx.x;pr
- pytorch v1.4.0安装问题
大柠丶
pytorch人工智能python
直接使用conda安装报错:(CenterNet)C:\Users\16323>condainstallpytorch==1.4.0torchvision==0.5.0cudatoolkit=10.1-cpytorch-cconda-forgeChannels:-pytorch-conda-forge-defaultsPlatform:win-64Collectingpackagemetadata
- Windows和Linux系统上的Mamba_ssm环境配置
清纯世纪
笔记python深度学习人工智能
目录一、Linux系统安装二、Win系统安装1)、安装causal_conv1d1、第一种方法2、第二种方法(感觉可靠)3、第三种方法:直接下载大神编译好的文件进行安装2)、安装mamba-ssm1、第一种方法2、第二种方法:直接下载大神编译好的文件进行安装一、Linux系统安装如果自己的系统不是cuda11.8,那么需要先创建一个新环境来安装对应的cuda版本:condacreate-nyour
- Ubuntu和Windows系统之Mamba_ssm安装
Netceor
Pythonubuntuwindowslinux
Mamba的论文:https://arxiv.org/abs/2312.00752Mamba的github:https://github.com/state-spaces/mamba一、Ubuntu安装直接新建一个环境是最好的,不然很容易产生各种冲突#创建环境和相关包condacreate-nmambapython=3.10.13condaactivatemambacondainstallcuda
- [黑洞与暗粒子]没有光的世界
comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算
但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界....
那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的
&nbs
- jQuery Lazy Load 图片延迟加载
aijuans
jquery
基于 jQuery 的图片延迟加载插件,在用户滚动页面到图片之后才进行加载。
对于有较多的图片的网页,使用图片延迟加载,能有效的提高页面加载速度。
版本:
jQuery v1.4.4+
jQuery Lazy Load v1.7.2
注意事项:
需要真正实现图片延迟加载,必须将真实图片地址写在 data-original 属性中。若 src
- 使用Jodd的优点
Kai_Ge
jodd
1. 简化和统一 controller ,抛弃 extends SimpleFormController ,统一使用 implements Controller 的方式。
2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。
3. 对 bean 没有任何要求,可以使用任意的 bean 做为 formBean。
使用方法简介
- jpa Query转hibernate Query
120153216
Hibernate
public List<Map> getMapList(String hql,
Map map) {
org.hibernate.Query jpaQuery = entityManager.createQuery(hql);
if (null != map) {
for (String parameter : map.keySet()) {
jp
- Django_Python3添加MySQL/MariaDB支持
2002wmj
mariaDB
现状
首先,Django@Python2.x 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话,会发现 django.db.backends.mysql 依赖 MySQLdb[5] ,而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案
首先据MySQL文档[3]说,自从MySQL
- 在SQLSERVER中查找消耗IO最多的SQL
357029540
SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。
select top 50
(total_logical_reads/execution_count) as avg_logical_reads,
(total_logical_writes/execution_count) as avg_logical_writes,
(tot
- spring UnChecked 异常 官方定义!
7454103
spring
如果你接触过spring的 事物管理!那么你必须明白 spring的 非捕获异常! 即 unchecked 异常! 因为 spring 默认这类异常事物自动回滚!!
public static boolean isCheckedException(Throwable ex)
{
return !(ex instanceof RuntimeExcep
- mongoDB 入门指南、示例
adminjun
javamongodb操作
一、准备工作
1、 下载mongoDB
下载地址:http://www.mongodb.org/downloads
选择合适你的版本
相关文档:http://www.mongodb.org/display/DOCS/Tutorial
2、 安装mongoDB
A、 不解压模式:
将下载下来的mongoDB-xxx.zip打开,找到bin目录,运行mongod.exe就可以启动服务,默