E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
24G显存
Deepseek的本地化部署软件工具包
选择模型版本参数规模硬件要求(最低)适用场景1.5B/7B8GB内存,无专用GPU文本处理、简单问答14B16GB内存+12GB
显存
代码生成、逻辑推理32B/70B24GB
显存
+32GB内存企业级复杂任务执行命令
哈拉少12
·
2025-03-19 20:14
人工智能
RTX4070Ti性能实测与优化解析
此外,文章将提供经过验证的超频参数配置方案,涵盖电压调节、核心频率偏移及
显存
时序优化,
智能计算研究中心
·
2025-03-19 11:36
其他
ChatGPT智能聊天机器人实现
技术架构与工具核心模型基座模型:HuggingFaceTransformers库(如GPT-2/GPT-3.5TurboAPI/LLaMA2)轻量化方案:微软DeepSpeed或MetaFairScale(降低
显存
占用
云端源想
·
2025-03-17 14:57
chatgpt
机器人
当大模型训练遇上“双向飙车”:DeepSeek开源周 DualPipe解析指南
结合
显存
优化技术,其
显存
占用仅为传统方法的1/8,GPU利用率提升至92%,单epoch训练时
来自于狂人
·
2025-03-17 13:51
人工智能
gpu算力
算法
系统架构
AI技术学习笔记系列001:FastLanguageModel.get_peft_model 函数各参数的详细解释
影响:r越大:适配器表达能力更强,能捕捉更复杂的任务特征,但可能导致过拟合(尤其数据量少时),训练时间和
显存
占用增加。r越小:参数量少,训练更快,
显存
占用低
新说一二
·
2025-03-17 00:43
人工智能
学习
笔记
RTX4090性能释放与优化全攻略
内容概要作为NVIDIAAdaLovelace架构的巅峰之作,RTX4090凭借24GBGDDR6X
显存
与16384个CUDA核心,重新定义了4K光追游戏的性能边界。
智能计算研究中心
·
2025-03-14 22:13
其他
H100解锁生成式AI算力新纪元
其创新性设计聚焦三大技术支柱:第三代TensorCore通过稀疏计算与混合精度支持,显著提升矩阵运算效率;
显存
带宽优化技术结合HBM3高带宽内存,将数据吞吐量提升至3.35TB/s,有效缓解大规模模型训练中的
显存
墙问题
智能计算研究中心
·
2025-03-14 22:43
其他
Stable Diffusion/DALL-E 3图像生成优化策略
云端源想1.硬件与部署优化(进阶)
显存
压缩技术使用--medvram或--lowvram启动参数(StableDiffusionWebUI),通过分层加载模型降低
显存
占用(适合6GB以下显卡)。
云端源想
·
2025-03-14 12:16
stable
diffusion
保姆级教学——本地免费部署DeepSeek-R1模型并通过Python调用
DeepSeek-R1模型并通过Python调用的详细指南:一、环境准备(Windows/Linux/Mac通用)1.硬件要求最低配置:16GB内存+20GB可用磁盘空间推荐配置:NVIDIAGPU(
显存
shuaige_shiwoa
·
2025-03-14 09:54
python+AI
python
开发语言
AI编程
ai
开发ai模型最佳的系统是Ubuntu还是linux?
提供针对NVIDIAGPU的官方驱动支持,简化CUDA和cuDNN的配置流程(如nvidia-smi直接监控
显存
)。2.社区生态与长期维护(LTS)UbuntuLTS版本(如24
俺足
·
2025-03-12 22:18
人工智能
ubuntu
vLLM框架:使用大模型推理框架
1.环境安装与配置1.1硬件要求GPU:支持CUDA11.8及以上(推荐NVIDIAA100/H100,RTX4090等消费级卡需注意
显存
限制)
显存
:至少20GB(运行7B模型),推荐40GB+(运行13B
CITY_OF_MO_GY
·
2025-03-12 17:12
人工智能
保姆级教程:阿里QwQ-32B模型本地部署与企业级应用实战(附万字指南+工具链)
从环境配置到模型运行六大企业级应用场景深度解析实战案例:数学推理/代码生成/Agent能力测试常见问题与性能优化指南2025年技术展望与行业影响核心优势1.1模型技术突破维度QwQ-32B特性传统大模型对比参数规模320亿参数(仅需16GB
显存
emmm形成中
·
2025-03-12 15:59
AI科技前沿
python
java
ai
人工智能
8.3 GPTQ量化技术:4倍压缩大模型
显存
,精度零损失!
GPTQ量化技术:4倍压缩大模型
显存
,精度零损失!8.2GPTQ:专为GPT设计的模型量化算法一、模型量化技术背景在讨论GPTQ之前,我们需要先理解大模型部署面临的
显存
困境。
少林码僧
·
2025-03-12 01:16
掌握先机!从
0
起步实战
AI
大模型微调
打造核心竞争力
语言模型
人工智能
gpt
H100架构解析与性能优化策略
内容概要NVIDIAH100GPU作为面向高性能计算与人工智能领域的旗舰级产品,其架构设计与优化策略在计算效率、
显存
带宽及并行任务处理等方面实现了显著突破。
智能计算研究中心
·
2025-03-11 21:36
其他
深度学习训练中GPU内存管理
文章目录概述常见问题1、设备选择和数据迁移2、
显存
监控函数3、
显存
释放函数4、自适应batchsize调节5、梯度累积概述在深度学习模型训练中,主流GPU
显存
通常为8GB~80GB,内存不足会导致训练中断或
@Mr_LiuYang
·
2025-03-11 19:24
遇到过的问题
内存管理
内存溢出
out
of
memory
GPU内存
python 程序一次启动有两个进程的问题(flask)
此外,这个程序占用了GPU资源,我发现有两个python进程,分别占用了完全相同的GPU
显存
1.原因问题出在flask的启动方式上,我启动的时候,是这样启动的app.run(debug=True,host
小郎碎碎念
·
2025-03-10 08:25
我恨BUG
python
flask
开发语言
“Facebook OPT模型4-bit量化实战:
显存
狂降85%教程
FacebookOPT模型4-bit量化实战:
显存
狂降85%教程实战FacebookOPT模型量化模型量化原理与技术选型在模型量化实战前,我们需要理解OPT模型的
显存
占用特点。
少林码僧
·
2025-03-09 12:44
掌握先机!从
0
起步实战
AI
大模型微调
打造核心竞争力
语言模型
人工智能
gpt
PyTorch
显存
分配不均匀
在使用PyTorch进行深度学习训练时,可能会遇到GPU0的
显存
占用明显高于其他GPU的情况。这可能导致
显存
不足,影响训练效率。
LutingWang
·
2025-03-09 11:36
debug
pytorch
人工智能
python
Stable Diffusion模型采样方法与参数配置详解(含步数及画风适配表)
StableDiffusion模型采样方法与参数配置详解(含步数及画风适配表)以下为当前主流采样方法的性能对比及参数配置建议,结合
显存
占用、生成速度、适用场景等维度分类总结:一、采样方法对比表采样方法推荐步数
显存
占用生成速度适用画风
Liudef06
·
2025-03-07 04:20
Stable
Diffusion
人工智能
stable
diffusion
AI作画
chatglm3如何进行微调
一、需要的环境内存:因为在loadmodel时,是先放在内存里面,所以内存不能小,最好在30GB左右
显存
:如果用half()精度来loadmodel的话(int4是不支持微调的),
显存
在16GB就可以,
learner_ctr
·
2025-03-06 23:24
人工智能
chatglm3
llm
《基于WebGPU的下一代科学可视化——告别WebGL性能桎梏》
WebGPU作为下一代Web图形标准,通过
显存
直存、多线程渲染和计算着色器三大革新,将科学可视化性能提升至10倍以上。本文将深入解析如何利用WebGPU突破大规模数据渲染的极限。
Eqwaak00
·
2025-03-06 20:31
matplotlib
webgl
微服务
架构
云原生
分布式
英伟达常见产品使用场景对比说明
产品型号
显存
容量
显存
带宽价格(人民币)适用场景模型性能对比数据中心与AI计算H100(SXM)80GBHBM33TB/s未公开(企业级)超大规模AI训练(千亿参数)、HPC比A100性能提升3-6倍(BERT
放羊郎
·
2025-03-06 14:37
人工智能技术
项目方案
人工智能
人工智能
深度学习
机器学习
英伟达
训练芯片
大模型
显存
暴降4倍的量化实战指南
大模型
显存
暴降4倍的量化实战指南8.1模型
显存
占用与量化技术简介8.1.1大模型
显存
占用分析在部署和训练大语言模型(LLM)时,
显存
占用是开发者面临的核心挑战。
少林码僧
·
2025-03-06 11:42
掌握先机!从
0
起步实战
AI
大模型微调
打造核心竞争力
语言模型
人工智能
gpt
C++使用Onnxruntime/TensorRT模型推理
并基于.pth模型进行推理python下依据模型推理实现从.pth转向.onnxpython下基于.onnx进行推理,与后续两种推理方式种的推理结果进行比较环境windows10+RTX308015GB
显存
奇华智能
·
2025-03-05 16:30
AI
c++
开发语言
人工智能
AI
计算机视觉
大模型训练内存预估计算方法
方法论大模型在训练过程中,需要预估需要多少
显存
进行参数的存储,需要进行预估.来方便GPU的购买.举例以DeepSeek-V3模型为例,总共有671B个参数.B=Billion(十亿),因此,671B模型指拥有
junjunzai123
·
2025-03-05 13:29
人工智能
深度学习
机器学习
基于Ubuntu+vLLM+NVIDIA T4高效部署DeepSeek大模型实战指南
原始的DeepSeek-R1-32B模型虽然强大,但在T4显卡上遭遇了
显存
溢出的问题,这限制了其在实际应用中的潜力。
来自于狂人
·
2025-03-05 02:01
python
人工智能
pytorch
语言模型
Deepseek的底层架构思维构成
通过低秩联合压缩技术,将键(Key)和值(Value)矩阵压缩到潜在空间,显著减少推理时的
显存
占用。例如,MLA可将
显存
需求降至传统多头注意力(MHA)的个位数百分比。
堕落年代
·
2025-03-04 19:09
AI
架构
人工智能
如何本地部署大模型及性能优化指南(附避坑要点)
一、环境准备:硬件与软件的黄金搭档硬件配置
显存
与内存:7B模型需至少10GB
显存
(如RTX3060),16B以上推荐专业级显卡(如V100/A100)。若
显存
不足,可通过CPU
挣扎与觉醒中的技术人
·
2025-03-03 17:20
性能优化
算法
人工智能
opencv
YOLO
AudioLM
本地部署大语言模型-DeepSeek
DeepSeek-R1-32B配置配置项规格要求CPU16核以上(如AMDRyzen9950)内存96GB硬盘960GB显卡24GB+
显存
(如RTX40
NightReader
·
2025-03-03 15:36
语言模型
人工智能
自然语言处理
【硬核教程】DeepSeek 70B模型微调实战:打造工业级AI开发专家(附完整代码+案例)
——基于LoRA+GRPO算法,
显存
直降10倍,手把手教你训练行业大模型为什么这篇内容值得收藏?
爱吃青菜的大力水手
·
2025-03-03 11:06
人工智能
自动化
半导体
Stable Diffusion在中国的生态分析报告
SD3系列模型(参数规模800M-8B)在中文场景下优化了文本渲染能力,支持1024x1024分辨率图像生成,
显存
占用显著降低。
Liudef06
·
2025-03-01 12:00
stable
diffusion
单卡挑战千亿模型!深度求索MoE架构实战指南:从理论到开源工具全解析
传统密集架构(DenseModel)在单卡训练中面临
显存
不足、计算效率低等问题。**混合专家模型(MixtureofExperts,MoE)**通过稀疏激活机制,成为突破单卡训练瓶颈的关键技术。
小诸葛IT课堂
·
2025-03-01 11:27
架构
DeepSeek技术全景解析:架构创新与行业差异化竞争力
一、DeepSeek技术体系的核心突破架构设计:效率与性能的双重革新Multi-headLatentAttention(MLA):通过将注意力头维度与隐藏层解耦,实现
显存
占用降低30%的同时支持4096
二进制coder
·
2025-03-01 01:40
人工智能
架构
AGI
AI
DeepSeek入门:安装与配置
DeepSeek-R1-1.5B:CPU:最低4核(推荐Intel/AMD多核处理器)内存:8GB+硬盘:3GB+存储空间(模型文件约1.5-2GB)显卡:非必需(纯CPU推理),若GPU加速可选4GB+
显存
梦落青云
·
2025-03-01 01:08
deepseek
2.8 通过微调提升模型的准确度与效率-大模型ACP模拟题-真题
A.显著提升模型精度B.减少
显存
占用和响应时间✅C.完全保留原始模型能力D.支持多模态任务扩展解析:量化通过降低参数精度减少资源消耗,但对精度影响较小(<2%)以下关于LoRA技术的描述错误的是?
admin皮卡
·
2025-02-28 17:12
阿里云大模型ACP-考试回忆
人工智能
java
ai
Llama.cpp 服务器安装指南(使用 Docker,GPU 专用)
内存:16GB+系统内存,GPU需12GB+
显存
(RTX4090有24GB)。存储:15GB+可用空间(用于源码、镜像和模型文件)。网络:需要互联网连接以下载源码和依赖。
田猿笔记
·
2025-02-28 09:37
AI
高级应用
llama
服务器
docker
llama.cpp
H100生成式AI效能跃升指南
本文将从芯片架构创新出发,首先解析第四代TensorCore如何通过FP8精度支持与动态指令调度机制,实现矩阵运算效率的指数级提升;继而探讨
显存
子系统在带宽扩容与智能缓存分配上的突破,揭示其突破生成式AI
智能计算研究中心
·
2025-02-28 02:14
其他
DeepSeek本地部署必要性分析及云端替代方案推荐
一、本地部署适用场景分析硬件要求完整版模型需≥32GB
显存
(推荐NVIDIAA100/A800)基础版也需RTX3090级别显卡(约150W功耗)适用人群建议✔️企业用户:需私有化部署处理敏感数据✔️研究人员
Asher_Yao
·
2025-02-28 01:08
人工智能
A100 解析:为何它成为 AI 大模型时代的首选?
A100提供40GB和80GB
显存
两种版本,A10080GB将GPU
显存
增加了
PPIO派欧云
·
2025-02-27 18:37
算力
gpu算力
算法
ai
LCD屏幕的画点函数
假设一个像素点4B且
显存
首地址为0x89000000设lLCD的对齐方式为从左到右、从上到下所以任意一个(x,y)其对应的地址为:(lcd横向宽度*y坐标+x坐标)*像素点大小+首地址首地址0x89000000
¡Venceremo
·
2025-02-27 09:28
笔记
linux
理解CPU与GPU频繁数据传输
我们知道CPU可以访问内存,而GPU也有自己的
显存
。
_DCG_
·
2025-02-26 22:58
计算机视觉
深度学习
神经网络
CPU
GPU
数据传输
技术硬核:突出FP8、3倍速度、90%成本暴降等技术参数,强化可信度
FlashMLA:大模型推理效率革命技术特点:首个开源项目FlashMLA是针对英伟达Hopper架构GPU(如H800)优化的高效多头潜在注意力(MLA)解码内核,支持可变长度序列的动态处理,显著降低
显存
占用并提升推理速度
guzhoumingyue
·
2025-02-26 20:45
AI
python
在PyTorch中使用插值法来优化卷积神经网络(CNN)所需硬件资源
适用场景:在卷积神经网络(CNN)中的应用场景中,经常遇到计算资源有限,比如
显存
不够或者处理速度慢,需要用插值来降低计算量。
mosquito_lover1
·
2025-02-26 03:45
pytorch
cnn
人工智能
梯度累加(结合DDP)梯度检查点
总结:
显存
限制:GPU/TPU
显存
有限,无法一次性加载大批量数据。训练稳定性:大批量训练通常
糖葫芦君
·
2025-02-25 23:16
LLM
算法
人工智能
大模型
深度学习
RTX 3090图形处理巅峰性能解析
本文将以Ampere架构的技术演进为切入点,系统性解构该显卡在
显存
配置、运算单元协作及图像处理技术方面的创新设计。
智能计算研究中心
·
2025-02-25 03:26
其他
DeepSeek混合精度训练核心技术解析与实践指南
1.主题背景1.1Why混合精度训练(价值)混合精度训练通过结合FP16和FP32数据格式,在保证模型精度的前提下实现:40-60%
显存
占用降低(ResNet50案例:从7.8GB降至4.2GB)1.5
燃灯工作室
·
2025-02-24 15:33
Deepseek
数据挖掘
语音识别
计算机视觉
目标检测
机器学习
人工智能
Transformer模型量化Quantization 笔记
模型参数与
显存
占用计算基础为了详细说明模型的参数数量和每个参数在
显存
中占用的空间大小,我们以facebookOPT-6.7B模型为例。
Foolbird123
·
2025-02-24 13:14
transformer
人工智能
深度学习
LLaMA-Factory|微调大语言模型初探索(3),qlora微调deepseek记录
前言 上篇文章记录了使用lora微调llama-1b,微调成功,但是微调llama-8b
显存
爆炸,这次尝试使用qlora来尝试微调参数体量更大的大语言模型,看看64G
显存
的极限在哪里。
闻道且行之
·
2025-02-24 01:49
自然语言处理
语言模型
人工智能
qlora微调
llama
deepseek
DeepSeek模型量化
技术背景大语言模型(LargeLanguageModel,LLM),可以通过量化(Quantization)操作来节约内存/
显存
的使用,并且降低了通讯开销,进而达到加速模型推理的效果。
快乐非自愿
·
2025-02-23 22:29
deepseek
NVIDIA A100 SXM4与NVIDIA A100 PCIe版本区别深度对比:架构、性能与场景解析
NVIDIAA100SXM4与PCIe版本深度对比:架构、性能与场景解析作为NVIDIAAmpere架构的旗舰级数据中心GPU,A100系列凭借强大的计算能力和
显存
带宽,已成为人工智能训练、高性能计算(
ASI人工智能
·
2025-02-23 09:55
人工智能
架构
机器人
AIGC
gpt
文心一言
palm
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他