GPU训练第7页

PyTorch安装与环境配置终极指南：从零搭建高效深度学习开发环境（一）

一、环境搭建的核心意义与准备工作1.1深度学习环境的核心挑战深度学习开发环境涉及复杂的软件栈依赖关系：硬件兼容性：GPU型号（NVIDIA系列）与CUDA版本的匹配软件依赖链：Python版本→PyTorch

WHCIS·2025-03-13 12:02

【Agent实战】RAG方式+结构化prompt（CoT）+API工具结合ChatGPT4o能力Agent项目实践（货物上架位置推荐助手）

本文原创作者：姚瑞南AI-agent大模型运营专家，先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗；多年人工智能行业智能产品运营及大模型落地经验，拥有AI外呼方向国家专利与PMP项目管理证书。

姚瑞南·2025-03-13 12:56

YOLO系列模型从v1到v10的演进

文章目录引言YOLOv1:开创单阶段目标检测先河发布时间与背景核心创新模型架构训练策略与优化YOLOv2:提升精度与速度的平衡发布时间与背景核心创新模型架构训练策略与优化YOLOv3:多尺度检测与残差连接发布时间与背景核心创新模型架构训练策略与优化

剑走偏锋o.O·2025-03-13 11:25

sparkML入门，通俗解释机器学习的框架和算法

Tometor·2025-03-13 11:53

英伟达的最新AI算力芯片——Blackwell芯片性能及应用场景

以下是对其详细性能及应用场景的归纳：性能特点晶体管数量：Blackwell架构的GPU拥有2080亿个晶体管。

算力资源比较多·2025-03-13 11:20

神经网络机器学习中说的过拟合是什么意思

在神经网络和机器学习中，过拟合（Overfitting）是指模型在训练数据上表现非常好，但在未见过的测试数据上表现较差的现象。

yuanpan·2025-03-13 10:46

分布式并行策略概述

数据并行（DataParallelism）内容：数据并行通过将训练数据分割成多个小批次，并在多个处理单元（如GPU）上同时训练模型的副本来工作。

灵海之森·2025-03-13 10:11

突破：海量倾斜高斯OPGS Cesium高效渲染！

在重建大师7.0新品发布会上，我们首次推出了倾斜摄影测量高斯飞溅（OPGS）从训练到实时渲染的软件工具解决方案，使得用户能够在常用的重建农场计算节点下，就能够实现城市级地理场景3DOPGS成果的高质量、

大势智慧·2025-03-13 09:34

RISC_V GPU skybox 系列 core 模块之VX_dispatch_unit.sv

CDerL·2025-03-13 08:54

LLM填坑：训练自己的分词器-Tokenizer

说明：文本搬运以下文章，略微调整，有需求可参考原文。paper:https://zhuanlan.zhihu.com/p/625715830code:Chatterbox/example/TrainTokenizersExample/train_tokenizers.pyatmain·enze5088/Chatterbox·GitHubHuaggingface教程：

微风❤水墨·2025-03-13 08:53

LLM填坑：训练自己的分词器-Tokenizer 2

merges.txtmerges文件存放的是训练tokenizer阶段所得到的合并词表结果，就是tokenizer.json中，model.merges下的内容。

微风❤水墨·2025-03-13 08:53

整理：开启新征程！四篇文章助力 AI，告别 “3D理解困难户”

目前的MLLM主要是用2D图片训练出来的，也就是说，它们更擅长识别平面的信息，比如照片中的人和物体。但是，现实世界是三维的（3D），仅靠2D图片训练的模型很难准确理解物体的立体关系。

mslion·2025-03-13 07:17

RISC_V GPU skybox 系列 core 模块之VX_issue.sv

CDerL·2025-03-13 06:44

深入解析CSS动画：从基础到实战的完整指南

相比传统的JavaScript动画实现方式，CSS动画具有以下显著优势：硬件加速优化：浏览器可自动使用GPU加速，实现更流畅的动画效果声明式语法：通过简洁的代码描述复杂动画序列性能优势：浏览器原生支持，

斯~内克·2025-03-13 06:10

训练大模型LLM选择哪种开发语言最好

训练大型语言模型（LLM）时，选择合适的编程语言主要取决于效率、生态支持、开发便利性以及特定需求（如性能优化或硬件适配）。

大0马浓·2025-03-13 05:09

动手深度学习笔记（二十九）5.5. 读写文件

.深度学习计算5.5.读写文件5.5.1.加载和保存张量5.5.2.加载和保存模型参数5.5.3.小结5.5.4.练习5.深度学习计算5.5.读写文件到目前为止，我们讨论了如何处理数据，以及如何构建、训练和测试深度学习模型

落花逐流水·2025-03-13 04:29

大语言模型（LLM）的微调与应用

一、微调与应用的核心区别目标差异微调（Fine-tuning）：针对预训练模型进行参数调整，使其适应特定任务或领域（如医疗问答、法律文本分析）。

AI Echoes·2025-03-13 03:50

PyTorch分布式训练

本文结构：分布式训练概述环境设置数据并行（DDP）模型并行启动训练性能优化建议示例代码参考资料和相关问题以下是为您整理的PyTorch分布式训练教程指南：一、PyTorch分布式训练核心概念数据并行：通过分割数据集实现多

阳光明媚大男孩·2025-03-13 02:16

29.代码随想录算法训练营第二十九天|134. 加油站，135. 分发糖果，860. 柠檬水找零，406. 根据身高重建队列

29.代码随想录算法训练营第二十九天|134.加油站，135.分发糖果，860.柠檬水找零，406.根据身高重建队列134.加油站-力扣（LeetCode）在一条环路上有n个加油站，其中第i个加油站有汽油

白鹭鸣鸣！·2025-03-13 02:12

书生大模型全链路开源体系，学习

优点书生·浦语开源大模型，是一个开源的大模型，大家可以一起学习还有配套的教学视频，很快就能上手，而且还奖励算力，可以直接训练，讨论学习，非常nice。

小方abc·2025-03-13 01:37

论文阅读笔记：Graph Matching Networks for Learning the Similarity of Graph Structured Objects

论文做的是用于图匹配的神经网络研究，作者做出了两点贡献:证明GNN可以经过训练，产生嵌入graph-leve的向量可以用于相似性计算。

游离态GLZ不可能是金融技术宅·2025-03-13 01:07

论文阅读 EEG-TCNet

AnAccurateTemporalConvolutionalNetworkforEmbeddedMotor-ImageryBrain–MachineInterfaces1.Intrduction本文提出了一种新颖的时间卷积网络（TCN），在需要很少的可训练参数的情况下实现了出色的精度

Plan-C-·2025-03-13 01:36

FLOW MATCHING FOR GENERATIVE MODELING 阅读笔记

FlowMatching(FM)是一种训练连续标准化流ContinuousNormalizingFlow(CNF)的方法。FM是一种通用的方法。FM可以用于训练扩散路径，用FM训练扩散路径更稳定。

冰冰冰泠泠泠·2025-03-13 01:35

论文阅读笔记——π0: A Vision-Language-Action Flow Model for General Robot Control

π0论文π0π_0π0是基于预训练的VLM模型增加了actionexpert，并结合了flowmatching方法训练的自回归模型，能够直接输出模型的actionchunk（50）。

寻丶幽风·2025-03-13 01:33

【论文阅读】Learning Transferable Visual Models From Natural Language Supervision（2021）

State-of-the-art（最先进的）computervisionsystems（计算机视觉系统）aretrainedtopredictafixedsetofpredeterminedobjectcategories（被训练来预测一组固定的预定对象类别

Bosenya12·2025-03-13 01:02

Stable Diffusion游戏底模推荐

一、基础通用型底模SDXLbase官方原版底模，支持1024x1024高清出图，适用于各类游戏场景和角色的基础生成，建议作为微调训练的基准模型。

Liudef06·2025-03-12 23:52

InternVL：论文阅读 -- 多模态大模型(视觉语言模型)

3）训练策略（1）第一阶段：视觉-语言对比训练（2）第二阶段：视觉语言生成训练（3）第三阶段：监督微调（SFT）3.InternVL应用1）对于视觉感知任务2）对于对比任务3）对于生成任务4）对于

XiaoJ1234567·2025-03-12 23:20

开发ai模型最佳的系统是Ubuntu还是linux？

提供针对NVIDIAGPU的官方驱动支持，简化CUDA和cuDNN的配置流程（如nvidia-smi直接监控显存）。2.社区生态与长期维护（LTS）UbuntuLTS版本（如24

俺足·2025-03-12 22:18

LLM大模型技术实战6：一文总结大模型微调方法

作为像水、电一样的基础设施，预训练大模型这样的艰巨任务，只会有少数技术实力强、财力雄厚的公司去做。绝大多数人，是水、电的应用者。对这部分人来说，掌握如何用好大模型的技术，更加重要。

AIG暴躁猫叔·2025-03-12 22:16

Adapter-Tuning：高效适配预训练模型的新任务

1.引言近年来，预训练语言模型（PLM）如BERT、GPT和T5在自然语言处理（NLP）任务中取得了巨大成功。

花千树-010·2025-03-12 22:15

vLLM 部署大语言模型的系统选择策略

核心选型原则指标权重说明CUDA支持⭐⭐⭐⭐⭐直接影响GPU加速性能，需确保系统与NVIDIA驱动和CUDA工具链的兼容性软件源时效性⭐⭐⭐⭐系统需提供较新的Python、PyTorch等AI框架版本，

由数入道·2025-03-12 22:15

# 显卡算力参数对比

显卡算力参数对比文章目录显卡算力参数对比A显卡参数查询B显卡性能对比：综合看：T4最具性价比A显卡参数查询查询网址：https://www.techpowerup.com/gpu-specs/，以下列出部分

猪猪侠|ZZXia·2025-03-12 21:39

CUDA基础介绍

CUDA基础介绍2月前阅读(6)原文一、GPU简介1985年8月20日ATi公司成立，同年10月ATi使用ASIC技术开发出了第一款图形芯片和图形卡，1992年4月ATi发布了Mach32图形卡集成了图形加速功能

Hansen Feng·2025-03-12 21:38

android渲染是skia与egl,opengl和skia哪个快游戏电脑问题解决分享！

从Honeycomb[3.x]版本起，Andorid便支持GPU加速，但目前Android并没有使用SkiaGPU进行Webkit渲染。

赵阿萌·2025-03-12 21:36

基于hf的trl框架的deepseek-r1-zero实现与训练

导入模块和promt格式"""Reference:"""importreimporttorchfromdatasetsimportload_dataset,DatasetfromtransformersimportAutoTokenizer,AutoModelForCausalLMfromtrlimportGRPOConfig,GRPOTrainer#LoadandprepdatasetSYSTE

喂喂喂喂位·2025-03-12 20:00

【AI论文】SEAP: 无训练稀疏专家激活修剪，解锁大型语言模型的潜力

本文介绍了稀疏专家激活修剪（SEAP）方法，这是一种无需训练的修剪方法，通过选择性地保留与任务相关的参数来降低推理开销。

东临碣石82·2025-03-12 19:53

在本地部署DeepSeek等大模型时，需警惕的潜在安全风险

在本地部署DeepSeek等大模型时，尽管数据存储在本地环境（而非云端），但仍需警惕以下潜在安全风险：1.模型与数据存储风险未加密的存储介质：若训练数据、模型权重或日志以明文形式存储，可能被物理窃取（如硬盘丢失

安当加密·2025-03-12 18:19

51-52 CVPR 2024 | Generalized Predictive Model for Autonomous Driving，自动驾驶通用预测模型

作者提出了通用的大规模自动驾驶视频预测模型GenAD，在实现过程中，进一步提出了迄今为止最大的自动驾驶场景训练数据集OpenDV-2K。

深圳季连AIgraphX·2025-03-12 18:18

vLLM框架：使用大模型推理框架

1.环境安装与配置1.1硬件要求GPU:支持CUDA11.8及以上（推荐NVIDIAA100/H100，RTX4090等消费级卡需注意显存限制）显存:至少20GB（运行7B模型），推荐40GB+（运行13B

CITY_OF_MO_GY·2025-03-12 17:12

算力服务器主要是指什么？

算力服务器对于人工智能领域来说，在深度学习模型的训练和推理过程中扮演着非常重要的角色，算力服务器可以执行大规模的矩阵计算，加速神经网络的训练和推理过程，帮助企业使得模型训练的时间大幅度缩短。

wanhengidc·2025-03-12 16:38

Sglang部署大模型常用参数详解

部署大模型常用参数详解常用启动命令HTTP服务器配置API配置并行处理张量并行数据并行专家并行内存和调度其他运行时选项日志记录多节点分布式服务LoRA内核后端约束解码推测解码双稀疏性调试选项优化选项参数概览常用启动命令要启用多GPU

小树苗m·2025-03-12 16:36

【模型调优的深入分析与Python实践】

其核心目标是在以下两者间找到平衡：泛化能力∝1过拟合风险\text{泛化能力}\propto\frac{1}{\text{过拟合风险}}泛化能力∝过拟合风险1二、调优注意事项1.数据层面确保训练集/验证集

蝉叫醒了夏天·2025-03-12 15:30

DeepSeek开源周：面向大模型训练的三个工具包

在2025年的开源周中，DeepSeek推出了一系列旨在优化大规模模型训练效率的工具。

花生糖@·2025-03-12 15:28

GPU(图形处理器) ARCHITECTURE的变迁史

上面我们已经了解了CPU和GPU之间的中转是由graphicsdriversoftware来承担的，接下来我们来了解一下GPU硬件本身的构造。

qq_39812022·2025-03-12 15:56

神经网络探秘：原理、架构与实战案例

本文旨在深入剖析神经网络的原理、常见架构，并通过一个实际的代码案例，带领读者亲手实践神经网络的构建与训练过程。无论你是机器学习初学者，还

二川bro·2025-03-12 14:56

DeepSeek开源第一弹！突破H800性能上限，FlashMLA重磅开源

FlashMLA是一个针对HopperGPU优化的高效MLA（Multi-HeadLatentAttention）解码内核，支持变长序列处理，现在已经投入生产使用。

开源项目精选·2025-03-12 14:54

Windows 图形显示驱动开发-WDDM 3.2-脏位跟踪

支持GPU并行化设备上的实时迁移的驱动程序还必须支持脏位跟踪。介绍随着云方案中的GPU越来越受欢迎，越来越需要确保将虚拟机从一个物理主机迁移到另一个物理主机保持合理的性能。

程序员王马·2025-03-12 13:15

为什么VAE效果不好，但VAE+diffusion效果就好了？

它结合了自编码器（Autoencoder）的结构和变分推断（VariationalInference）的思想，能够从数据中学习有意义的潜在表示，并生成与训练数据相似的新样本。

AndrewHZ·2025-03-12 12:43

基础算法训练2

基础算法1链接目录最长公共前缀两数之和删除字符串中所有相邻重复项n叉树的层序遍历最后一块石头的重量第N个泰波那契数图像渲染迷宫中离入口最近的出口矩阵课程表最长公共前缀14.最长公共前缀-力扣（LeetCode）在解决这道题时，巧妙运用String类的两个方法，能让解题过程变得十分轻松。首先，我们需要确定一个查找公共前缀的标准。这里，我们选择数组中的第一个字符串作为标准。不过，在此之前，必须对边界情

祁小白2024·2025-03-12 12:42

Phi-4-multimodal：图、文、音频统一的多模态大模型架构、训练方法、数据细节

训练过程包括多阶段优化，确保在不同模式和任务上的性能，数据来源多样，覆盖高质量网络和合成数据。

余俊晖·2025-03-12 12:40

推荐频道

GPU训练