GPU训练第24页

docker容器内运行依赖GPU的程序

我的开发环境centos7docker版本为2.10.22080ti显卡，物理机已安装cuda10和对应显卡驱动运行带GPU的docker给linux安装nvidia-container-toolkitdistribution

LensonYuan·2025-06-18 13:20

训练成本降低2000倍: 直接将推理能力注入LLM

https://arxiv.org/pdf/2506.09967代码地址https://github.com/shangshang-wang/Resa作者背景南加州大学动机激发大模型的推理能力通常需要繁重的后训练工作

大模型最新论文·2025-06-18 13:20

AI大模型从0到1记录学习大模型技术之机器学习 day27-day60

通过输入海量训练数据对模型进行训练，使模型掌握数据所蕴含的潜在规律，进而对新输入的数据进行准确的分类或预测。机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸优化、算法复杂度理论等多门学科。

Gsen2819·2025-06-18 13:19

DeepSeek 大型 MoE 模型大规模部署压测学习

-large-scale-ep/以上是对文章《DeployingDeepSeekwithPDDisaggregationandLarge-ScaleExpertParallelismon96 H100GPUs

andyguo·2025-06-18 12:14

Follow My Instruction and Spill the Beans: Scalable Data Extraction from Retrieval-Augmented Generat

iclr20255688检索增强生成（Retrieval-AugmentedGeneration,RAG）通过在测试阶段引入外部知识，提升了预训练模型的能力，实现了定制化适应。

UQI-LIUWJ·2025-06-18 11:10

【CUDA编程】OptionalCUDAGuard详解

OptionalCUDAGuard是PyTorch的CUDA工具库（c10/cuda）中用于安全管理GPU设备上下文的RAII（ResourceAcquisitionIsInitialization）类

量化投资和人工智能·2025-06-18 11:34

CUDA开发工具整理

·2025-06-18 11:34

JAX革命性优势解剖：GPU/TPU自动并行计算实战

近年来，大模型训练与科学计算对算力的需求呈现指数级增长。传统框架面临硬件绑定深、并行编码复杂、跨平台迁移成本高三大痛点。

AI咸鱼保护协会·2025-06-18 10:58

CUDA核函数优化进阶：利用Shared Memory实现矩阵计算10倍加速

在NVIDIAA100上优化1024×1024矩阵乘法时，共享内存策略将计算速度从3.2TFLOPS提升至31.5TFLOPS——本文将揭示如何通过内存访问优化突破GPU计算瓶颈。

AI咸鱼保护协会·2025-06-18 10:57

绿色AI实践指南：通过算力优化降低千亿模型训练碳排放——动态电压频率调整（DVFS）+ 余热回收系统设计

一、AI算力的碳排危机与绿色突围当前千亿参数大模型训练的单次碳排放已超284吨CO₂（相当于5辆燃油车终身排放量），且随着模型规模指数级增长，2030年AI产业碳排放占比或达全球总量的3.5%。

AI咸鱼保护协会·2025-06-18 10:57

代码随想录算法训练营第四十四天|LeetCode1143 最长公共子序列、LeetCode1035 不相交的线、LeetCode53 最大子序和、LeetCode392 判断子序列

LeetCode1143最长公共子序列代码随想录题目链接/文章讲解/视频讲解：代码随想录代码随想录PDF，代码随想录网站，代码随想录百度网盘，代码随想录知识星球，代码随想录八股文PDF，代码随想录刷题路线，代码随想录知识星球八股文https://programmercarl.com/1143.%E6%9C%80%E9%95%BF%E5%85%AC%E5%85%B1%E5%AD%90%E5%BA%8

weixin_67709152·2025-06-18 08:48

代码随想录算法训练营第五十七天| LeetCode 392 判断子序列、LeetCode 115 不同的子序列

1LeetCode392判断子序列题目链接：LeetCode392判断子序列文章讲解：代码随想录(programmercarl.com)视频讲解：动态规划，用相似思路解决复杂问题|LeetCode：392.判断子序列2LeetCode115不同的子序列题目链接：LeetCode115不同的子序列文章讲解：代码随想录(programmercarl.com)视频讲解：动态规划之子序列，为了编辑距离做铺

望仁啊·2025-06-18 08:45

代码训练LeetCode(35)验证回文串

代码训练(35)验证回文串Author:OnceDayDate:2025年6月17日漫漫长路，才刚刚开始…全系列文章可参考专栏:十年代码训练_Once-Day的博客-CSDN博客参考文章:125.验证回文串

Once-Day·2025-06-18 08:44

代码随想录算法训练营第 44 天 |LeetCode1143.最长公共子序列 LeetCode 1035.不相交的线 LeetCode 53. 最大子序和 LeetCode392.判断子序列

代码随想录算法训练营Day44代码随想录算法训练营第44天|LeetCode1143.最长公共子序列LeetCode1035.不相交的线LeetCode53.最大子序和LeetCode392.判断子序列目录代码随想录算法训练营前言

HIT最菜电控·2025-06-18 08:43

LLM大模型实战：从零到精通——大模型应用开发极简入门

朋友们如果有需要《大模型应用开发极简入门》，扫码获取~本书主要讲解了以下几个方面的大模型技术：GPT-4和ChatGPT的工作原理：书中详细介绍了这两个先进的语言模型的基本原理，包括它们是如何训练的、它们的架构以及它们在处理自然语言方面的能力

大模型入门学习·2025-06-18 07:10

AI智能体Coze知识库：从使用到实战详解

1.Coze智能体简介Coze是由字节跳动推出的AI智能体开发平台，旨在帮助用户快速构建、训练和部署AI智能体。

非著名架构师·2025-06-18 06:32

Python 训练营打卡 Day 20-奇异值SVD分解

一.奇异值分解（SVD）的输入和输出输入：一个任意的矩阵A，尺寸为m×n（其中m是行数，n是列数，可以是矩形矩阵，不必是方阵）奇异值分解（SVD）得到的三个矩阵U、Σ和V^T各有其特定的意义和用途，下面我简要说明它们的作用：U（奇异值向量矩阵）：是一个m×m的正交矩阵，列向量是矩阵AA^T的特征向量作用：表示原始矩阵A在行空间（样本空间）中的主方向或基向量。简单来说，U$的列向量描述了数据在行维度

帮关下月亮·2025-06-18 04:54

python编程游戏-Python游戏趣味编程

通过游戏案例逐步引入新的语法知识；2.为初学者量身打造：案例从易到难，所有程序的代码均不超过100行；3.趣味性强：12个案例，涵盖了多种游戏类型，寓教于乐；4.可拓展性强：提供练习题和参考答案，巩固知识，训练逻辑思维

weixin_37988176·2025-06-18 04:53

Python打卡训练营day20-奇异值SVD分解

知识点回顾：线性代数概念回顾（可不掌握）奇异值推导（可不掌握）奇异值的应用特征降维：对高维数据减小计算量、可视化数据重构：比如重构信号、重构图像（可以实现有损压缩，k越小压缩率越高，但图像质量损失越大）降噪：通常噪声对应较小的奇异值。通过丢弃这些小奇异值并重构矩阵，可以达到一定程度的降噪效果。推荐系统：在协同过滤算法中，用户-物品评分矩阵通常是稀疏且高维的。SVD(或其变种如FunkSVD,SVD

sak77·2025-06-18 04:22

Qwen2.5：模型训练和推理核心参数介绍

二、TrainingArguments核心参数2.1基础训练设置参数介绍output_dir(

艾墨舟启航·2025-06-18 04:51

剖析前沿技术领域的预训练模型架构

剖析前沿技术领域的预训练模型架构关键词：预训练模型架构、前沿技术、深度学习、自然语言处理、计算机视觉摘要：本文聚焦于前沿技术领域的预训练模型架构，旨在深入剖析其核心概念、算法原理、数学模型以及实际应用。

AI天才研究院·2025-06-18 04:50

【论文解读】s3: 仅 2.4K 数据即可 RL 训练Search Agent

tNeedThatMuchDatatoTrainaSearchAgentviaRLcode:pat-jj/s3:s3-EfficientYetEffectiveSearchAgentTrainingviaRLforRAG5.总结(结果先行)s3框架以其“解耦搜索与生成、仅训练搜索代理

·2025-06-18 04:50

AI大模型的概念验证与落地

AI大模型,深度学习,Transformer,自然语言处理,计算机视觉,概念验证,落地应用,模型训练,模型部署1.背景介绍近年来，人工智能（AI）技术取得了飞速发展，其中，大模型作为AI领域的重要组成部分

AI智能应用·2025-06-18 04:19

深度学习 backbone，neck，head网络关键组成

neck（颈部），head（头部）是网络的关键组成部分，各自承担了不同的功能：1，总署：Backbone,译作骨干网络，主要指用于特征提取的，已在大型数据集(例如ImageNet|COCO等)上完成预训练

SLAM必须dunk·2025-06-18 02:12

深度强化学习应用：基于Double DQN算法的移动机器人路径跟踪技术解析

尤其是在路径跟踪问题中，传统的控制算法往往依赖于模型和假设，而深度强化学习则能够通过大量的训练数据让机器人自主学习如何优化其行为策略，从而实现高效的路径跟踪。

威哥说编程·2025-06-18 02:40

李宏毅机器学习——类神经网络训练不起来怎么办？

https://www.bilibili.com/video/BV1Wv411h7kN?spm_id_from=333.788.videopod.episodes&vd_source=779fe6f5ae2ab98c0dc9480ff4ae61a3&p=201.局部最小值（localminima）与鞍点（saddlepoint）criticalpoint：hessian矩阵：1.1判断点类型：1.

JustNow_Man·2025-06-18 02:39

AWS EC2 终极指南：如何选择预装 GPU 驱动和特定功能的最佳 AMI

选择一个合适的AMI，尤其是需要预装GPU驱动或特定软件栈时，能让你跳过繁琐的配置，直接进入核心工作。本文将深入解析AMI分类，并手把手教你找到最适合你需求的镜像。一、为什么AMI选择如此重要？

ivwdcwso·2025-06-18 02:38

DeepSeek 源码解构：从 MoE 架构到 MLA 的工程化实现

而MLA作为一种多层次结构，在更大规模的数据集上展现出了出色的性能，尤其在模型训练和推理效率方面表

威哥说编程·2025-06-18 02:08

使用开源NVIDIA cuOpt加速决策优化

使用开源NVIDIAcuOpt加速决策优化文章目录使用开源NVIDIAcuOpt加速决策优化决策优化的现实挑战供应链优化的复杂性实时决策的挑战计算复杂性的挑战NVIDIAcuOpt：GPU加速的决策优化解决方案

扫地的小何尚·2025-06-18 02:05

生成对抗网络(GAN)与深度生成模型实战

1.生成模型基础与GAN原理1.1生成模型概览生成模型是深度学习中的重要分支，主要分为以下几类：变分自编码器(VAE)：基于概率图模型的生成方法生成对抗网络(GAN)：通过对抗训练学习数据分布自回归模型

软考和人工智能学堂·2025-06-17 23:21

深度学习框架与联邦学习：探究未来的AI发展趋势=======================摘要：本文将深入探讨深度学习框架与联邦学习的融合，分析其在现代AI领域的应用和发展趋势。我们将介绍深度学习框

一、深度学习框架：AI的基石深度学习框架是构建和训练深度学习模型的重要工具。它为开发者提供了便捷的工具和库，使得构建复杂的神经网络模型变得更加简单高效

·2025-06-17 23:46

开源新王诞生！MiniMax-M1正式发布，超强上下文能力剑指DeepSeek！

一百万token上下文窗口，八倍于DeepSeekR1的处理长度，训练成本仅53万美元——沉寂已久的AI六小虎之一MiniMax用开源新模型重新定义了性价比。6月17日，中国AI领域再掀巨浪。

算家计算·2025-06-17 23:15

入选 ICML 2025，清华/人大提出统一生物分子动力学模拟器 UniSim

该方法在大量3D分子结构数据上通过去噪+力场混合预训练获得统一的全原子表示模型，基于随机差值（stochasticinterpolant）生成式框架学习分子在长时间步长下的转移向量场（vectorfield

·2025-06-17 20:51

✨零基础手把手｜Docker+vLLM极速部署OpenAI风格API：5分钟4卡GPU推理+避坑指南+完整镜像配置

一、Docker基础命令查看容器状态dockerps#查看运行中的容器dockerps-a#查看所有容器（包括已停止的）查看镜像列表dockerimages#列出本地所有镜像二、镜像与容器操作镜像打包为.tar文件dockersave-o#将镜像导出为.tar文件#示例：dockersave-omy_image.tarvllm/vllm-openai:v0.8.4打包多个镜像到一个文件docker

·2025-06-17 18:16

如何用PyTorch构建第一个神经网络？——从环境搭建到实战部署的零基础指南

这几年带学员入门深度学习时，发现90%的新手都会卡在「第一个神经网络构建」上：有人装环境时被CUDA版本搞晕，有人写模型时分不清nn.Module和nn.Sequential，还有人训练时遇到梯度不更新的问题

唐宇迪（学习规划+技术答疑）·2025-06-17 18:42

「大模型学习」(10)LLM的量化（GPTQ、LLM.int8()、AWQ）不信你学不会！

1.权重和输入经过归一化，数值范围较小➤通常神经网络训练后会对输入和权重做标准

木楚子·2025-06-17 16:32

torch.load

它支持从文件路径或文件对象加载数据，并可以指定设备（CPU或GPU）。

土豆羊626·2025-06-17 16:32

SnapViewer：解决PyTorch官方内存工具卡死问题，实现高效可视化

在深度学习模型训练过程中，GPU内存不足（OutofMemory,OOM）错误是开发者频繁遇到的技术挑战。

·2025-06-17 16:48

【FineDance】训练：accelerate config 的作用

accelerate主要是配置分布式训练和硬件加速的设置。accelerateconfig的作用Accelerate是HuggingFace开发的库，用于简化多GPU、多机器的分布式训练。

等风来不如迎风去·2025-06-17 13:38

Moonlight-16B-A3B: 变革性的高效大语言模型，凭借Muon优化器打破训练效率极限

这款全新的Mixture-of-Experts(MoE)架构的大型语言模型，凭借其创新的训练优化技术，特别是Muon优化器的使用，成功突破了训练效率的极限，展现出强大的性能表现。

OpenCSG·2025-06-17 13:07

【TVM 教程】如何使用 TVM Pass Instrument

ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。

·2025-06-17 12:15

【Triton 教程】triton_language.arange

它旨在提供一个基于Python的编程环境，以高效编写自定义DNN计算内核，并能够在现代GPU硬件上以最大吞吐量运行。

·2025-06-17 12:44

配置VSCode+Anaconda的PyTorch GPU环境笔记

真就是翻遍了整个互联网才终于让PyTorch在我的电脑上支持CUDA了。叠个甲，我是纯菜鸟，说的不对你也别喷，喷了就是你对。网上的教程都太有年代感了，跟着配置就是到处报错，最后配置出来的也是老版本，用着十分膈应（我个人不喜欢老版本的东西），所以想着记录一下我踩过的坑，让大家以后少走点弯路下面直接进入正题：在此之前，你需要自行完成：安装VSCode以及相关插件（汉化，CodeRunner，Pytho

FurryMonster·2025-06-17 12:02

【TVM 教程】如何使用 TVM Pass Infra

ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。

HyperAI超神经·2025-06-17 11:57

【TVM 教程】如何使用 TVM Pass Instrument

ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。

HyperAI超神经·2025-06-17 11:56

深度学习笔记

文章目录聚类导入模块生成模拟数据建立并训练K-Means聚类模型创建图形绘制散点图（聚类结果）获取聚类中心可视化聚类中心设置图形标题和标签输出效果数据降维一、常见的数据降维方法二、Python降维示例（

疯狂成瘾者·2025-06-17 10:54

（什么是）大模型的“越狱”（Model Jailbreaking）

核心概念安全机制的局限性：大模型在训练时会过滤掉大量有害数据，并通过“对齐训练”（如RLHF）学习人类价值观，拒绝

音程·2025-06-17 09:48

基于AgentUniverse在金融场景中的多智能体应用探索【极客传媒】

先从语言模型说起，一个经过足够语料充分预训练的基模型（basem

汀、人工智能·2025-06-17 09:41

【Python打卡Day12】启发式算法 @浙大疏锦行

下面介绍这几种常见的优化算法遗传算法粒子群优化模拟退火##1.数据处理+划分训练和测试importpandasaspdimportpandasaspd#用于数据处理和分析，可处理表格数据。

可能是猫猫人·2025-06-17 09:40

大模型微调(Fine-tuning)概览

大模型微调（Fine-Tuning）是将预训练大模型（如GPT、LLaMA）适配到特定任务或领域的核心技术，其效率与效果直接影响大模型的落地价值。

MzKyle·2025-06-17 08:39

推荐频道

GPU训练

docker容器内运行依赖GPU的程序

训练成本降低2000倍: 直接将推理能力注入LLM

AI大模型从0到1记录学习 大模型技术之机器学习 day27-day60

DeepSeek 大型 MoE 模型大规模部署压测学习

Follow My Instruction and Spill the Beans: Scalable Data Extraction from Retrieval-Augmented Generat

【CUDA编程】OptionalCUDAGuard详解

CUDA开发工具整理

JAX革命性优势解剖：GPU/TPU自动并行计算实战

CUDA核函数优化进阶：利用Shared Memory实现矩阵计算10倍加速

绿色AI实践指南：通过算力优化降低千亿模型训练碳排放——动态电压频率调整（DVFS）+ 余热回收系统设计

代码随想录算法训练营第四十四天|LeetCode1143 最长公共子序列、LeetCode1035 不相交的线、LeetCode53 最大子序和、LeetCode392 判断子序列

代码随想录算法训练营第五十七天| LeetCode 392 判断子序列、LeetCode 115 不同的子序列

代码训练LeetCode(35)验证回文串

代码随想录算法训练营第 44 天 |LeetCode1143.最长公共子序列 LeetCode 1035.不相交的线 LeetCode 53. 最大子序和 LeetCode392.判断子序列

LLM大模型实战：从零到精通——大模型应用开发极简入门

AI智能体Coze知识库：从使用到实战详解

Python 训练营打卡 Day 20-奇异值SVD分解

python编程游戏-Python游戏趣味编程

Python打卡训练营day20-奇异值SVD分解

Qwen2.5：模型训练和推理核心参数介绍

剖析前沿技术领域的预训练模型架构

【论文解读】s3: 仅 2.4K 数据即可 RL 训练Search Agent

AI大模型的概念验证与落地

深度学习 backbone，neck，head网络关键组成

深度强化学习应用：基于Double DQN算法的移动机器人路径跟踪技术解析

李宏毅机器学习——类神经网络训练不起来怎么办？

AWS EC2 终极指南：如何选择预装 GPU 驱动和特定功能的最佳 AMI

DeepSeek 源码解构：从 MoE 架构到 MLA 的工程化实现

使用开源NVIDIA cuOpt加速决策优化

生成对抗网络(GAN)与深度生成模型实战

深度学习框架与联邦学习：探究未来的AI发展趋势=======================摘要：本文将深入探讨深度学习框架与联邦学习的融合，分析其在现代AI领域的应用和发展趋势。我们将介绍深度学习框

开源新王诞生！MiniMax-M1正式发布，超强上下文能力剑指DeepSeek！

入选 ICML 2025，清华/人大提出统一生物分子动力学模拟器 UniSim

✨零基础手把手｜Docker+vLLM极速部署OpenAI风格API：5分钟4卡GPU推理+避坑指南+完整镜像配置

如何用PyTorch构建第一个神经网络？——从环境搭建到实战部署的零基础指南

「大模型学习」(10)LLM的量化（GPTQ、LLM.int8()、AWQ）不信你学不会！

torch.load

SnapViewer：解决PyTorch官方内存工具卡死问题，实现高效可视化

【FineDance】训练：accelerate config 的作用

Moonlight-16B-A3B: 变革性的高效大语言模型，凭借Muon优化器打破训练效率极限

【TVM 教程】如何使用 TVM Pass Instrument

【Triton 教程】triton_language.arange

配置VSCode+Anaconda的PyTorch GPU环境笔记

【TVM 教程】如何使用 TVM Pass Infra

【TVM 教程】如何使用 TVM Pass Instrument

深度学习笔记

（什么是）大模型的“越狱”（Model Jailbreaking）

基于AgentUniverse在金融场景中的多智能体应用探索【极客传媒】

【Python打卡Day12】启发式算法 @浙大疏锦行

大模型微调(Fine-tuning)概览

AI大模型从0到1记录学习大模型技术之机器学习 day27-day60