GPU训练第26页

从 PPO、DPO 到 GRPO：大语言模型策略优化算法解析

从PPO、DPO到GRPO：大语言模型策略优化算法解析背景与简介大语言模型（LLM）的训练通常分为预训练和后训练两个阶段。

Gowi_fly·2025-06-16 03:26

基于YOLOv8的导弹发射检测系统：定制卫星图像数据集、模型训练与交互式UI实现

1.研究背景与意义导弹发射检测作为战略情报监控领域的重要任务，对国家安全和防御体系具有重要意义。传统依赖人工分析卫星图像，不仅耗时耗力，且准确性难以保障。利用深度学习技术，特别是先进目标检测算法YOLOv8，实现自动、快速、准确的导弹发射目标检测，极大提升监控效率和响应速度。2.导弹发射检测的挑战高分辨率卫星图像处理难度大：图像尺寸巨大，细节复杂。导弹发射目标体积小且易受遮挡：目标尺寸小，相邻背景

YOLO实战营·2025-06-16 02:16

YOLOv4 训练与推理流程详解

✅YOLOv4训练与推理流程详解一、前言YOLOv4是目标检测领域的一次重要升级，由AlexeyBochkovskiy等人在论文《YOLOv4:OptimalSpeedandAccuracyofObjectDetection

要努力啊啊啊·2025-06-16 02:45

【GITHub开源项目实战】Labelbox Python SDK 实战指南：高效管理数据标注任务的工程集成与自动化优化策略解析

高效管理数据标注任务的工程集成与自动化优化策略解析关键词Labelbox、数据标注平台、PythonSDK、标注任务自动化、数据管道集成、异步上传、Webhooks、项目管理、模型辅助标注、审核流程自动化、数据质量控制、训练数据治理

·2025-06-16 01:08

构建 AI 智能体的自动协作组织

本文提出了一种系统性方法，涵盖目标设定、技术选型、架构设计、通信机制开发、训练与优化，以及测试与

由数入道·2025-06-16 00:37

【速写】policy与reward分词器冲突问题（附XAI阅读推荐）

之前已经提过，PPOTrainer要求训练数据（train_dataset参数）必须包含input_ids字段，这个跟SFTTrainer，DPOTrainer，GRPOTrainer都不同，查了一下源码

囚生CY·2025-06-16 00:37

【慢摹】TRL训练器细节详解（SFT/PPO/DPO/GRPO）

序言本文总结一下目前TRL典型的训练器的实现细节（SFT，PPO，DPO，GRPO），也是对上一文【速写】PPOTrainer样例与错误思考（少量DAPO）的补充目前DeepSeek关于各个训练器细节的掌握

·2025-06-16 00:36

逻辑回归中的损失函数：交叉熵损失详解与推导

通过Python代码实现损失函数计算与梯度推导，辅以实战案例演示完整训练流程。同时对比均方误差等其他损失函数，阐释交叉熵在分类问题中的独

AI天才研究院·2025-06-16 00:34

YOLOv4 改进点详解

与YOLOv3相比，YOLOv4引入了多个结构优化和训练策略改进，在保持实时性的同时进一步提升了模型的精度和鲁棒性。本文将严格按照以下来源进行说明：✅论文原文：YOLOv4:

要努力啊啊啊·2025-06-16 00:33

鸿蒙开发实战之Function Flow Runtime Kit优化美颜相机AI流水线

一、架构设计突破针对美颜相机复杂的AI处理流程，FunctionFlowRuntimeKit实现三大创新：异构计算流水线CPU+GPU+NPU三端任务自动分配人脸识别→皮肤检测→背景分割→滤镜渲染四阶段并行智能调度策略二

·2025-06-15 23:08

caffe之利用mnist数据集训练好的lenet_iter_10000.caffemodel模型测试一张自己的手写体数字

一、前沿写这篇博文，是因为一开始在做《21天学习caffe》第6天6.4练习题1的时候看着自己搜索的博文，在不理解其根本的情况下做的，结果显然是错的。在接下来阅读完源代码之后，在第10天学习完caffemodelzoo之后，明白了其中原理，反过来再去做那个习题，一开始在网上搜索并没有完完整整解释整个过程的一篇博文，而是写的不知所云，本着我们初学者互相共享的精神，也方便自己查阅，特详细写一下，将自己

xunan003·2025-06-15 22:49

代码随想录算法训练营Day4（LeetCode24 两两交换链表中的节点；LeetCode19 删除链表的倒数第N个节点；面试题02.07 链表相交；LeetCode142 环形链表II）

代码随想录算法训练营Day4（LeetCode24两两交换链表中的节点；LeetCode19删除链表的倒数第N个节点；面试题02.07链表相交；LeetCode142环形链表II）LeetCode24两两交换链表中的节点做题情况

White__Bz·2025-06-15 21:15

为什么在自动微分操作中要设置梯度清零

在自动微分（如PyTorch的Autograd机制）中，梯度清零（通常通过optimizer.zero_grad()实现）是训练神经网络的关键步骤，主要原因如下：⚙️1.防止梯度累加导致的参数更新错误梯度累加机制

AI扶我青云志·2025-06-15 20:38

从代码学习深度学习 - 词的相似性和类比任务 PyTorch版

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言加载预训练词向量TokenEmbedding类详解预训练词向量简介(GloVe)具体含义总结建议应用预训练词向量词相似度knn

飞雪白鹿€·2025-06-15 17:49

预训练、指令微调与RLHF如何塑造LLM

大型语言模型（LLM）那令人惊叹的语言理解、生成和在特定引导下的推理能力，并非魔法的产物，而是源于一个极其复杂、耗资巨大且经过精心设计的多阶段训练过程。

由数入道·2025-06-15 16:15

NLP学习路线图（四十五）：偏见与公平性

一、偏见：算法中的“隐形歧视者”NLP模型本身并无立场，其偏见主要源于训练数据及算法设计：数据根源：人类偏见的镜像历史与社会刻板印象：大量文本数据记录着人类社会固有的偏见。

摸鱼许可证·2025-06-15 16:42

S4-Driver: Scalable Self-Supervised Driving Multimodal Large Language Model with Spatio-Temporal

核心方法包括：稀疏体表示（SparseVolumeRepresentation）：将多视图、多帧图像的视觉信息聚合到3D空间，通过轻量级投影和门控机制动态选择关键区域，增强模型的3D时空推理能力，且无需微调预训练的视觉

UnknownBody·2025-06-15 15:37

AI人工智能领域的体育竞技智能分析

AI人工智能领域的体育竞技智能分析关键词：体育竞技分析、计算机视觉、动作识别、数据挖掘、运动表现预测、智能训练系统、实时决策支持摘要：本文将深入探讨AI在体育竞技领域的创新应用，从基础概念到核心技术，再到实际应用案例

AIGC应用创新大全·2025-06-15 14:59

基于LatentSync的音频对口型数字人

LatentSync作为字节跳动开源的口型同步模型，基于扩散式生成与多阶段训练，集成了强大的音视频对齐能力，为实现高质量唇形驱动提供了完整解决方案。

Mr数据杨·2025-06-15 12:17

【PyTorch】torchrun：分布式训练的启动和管理命令行工具

torchrun是PyTorch提供的一个命令行工具，用于简化分布式训练的启动和管理。

彬彬侠·2025-06-15 12:41

基于深度学习的智能图像分类系统：从零开始构建

本文将详细介绍如何从零开始构建一个基于深度学习的智能图像分类系统，包括数据准备、模型选择、训练与评估，以及实际应用案例。一、图像分类的基本概念

Blossom.118·2025-06-15 12:11

Llama 4 群：原生多模态 AI 创新新时代的开始

Llama4Scout拥有170亿个活跃参数，包含16位专家模型，是同类产品中全球最佳的多模态模型，其性能比所有前代Llama模型都更强大，并且仅需单块NVIDIAH100GPU即可运行。

爱分享的小明·2025-06-15 11:04

论文略读：Does Refusal Training in LLMs Generalize to the Past Tense?

ICLR20251688拒绝训练被广泛用于防止大型语言模型（LLMs）生成有害、不良或非法的内容。

UQI-LIUWJ·2025-06-15 10:31

深度学习——基于卷积神经网络的MNIST手写数字识别详解

文章目录引言1.环境准备和数据加载1.1下载MNIST数据集1.2数据可视化2.数据预处理3.设备配置4.构建卷积神经网络模型5.训练和测试函数5.1训练函数5.2测试函数6.模型训练和评估6.1初始化损失函数和优化器

E-An居士·2025-06-15 09:28

【知识图谱构建系列3】zero-shot的理念介绍

项目地址：https://github.com/ChristopheCruz/LLM4KGC/zero-shot“Zero-shot”的标准中文翻译是零样本或零次学习，指机器学习模型在未经特定任务数据训练的情况下直接处理该任务的能力

几道之旅·2025-06-15 01:00

Real-ESRGAN-ncnn-vulkan 使用教程

Real-ESRGAN通过纯合成数据训练

陶名战Blanche·2025-06-14 23:46

Python----神经网络发（神经网络发展历程）

池化操作手写数字识别先驱，奠定CNN基础MNISTDemosonYannLeCun'swebsite2012AlexNet首次大规模使用深度卷积神经网络进行图像识别；引入ReLU、Dropout、重叠池化、GPU

蹦蹦跳跳真可爱589·2025-06-14 23:43

一文彻底搞懂大型语言模型（LLM）：核心机制、训练流程、关键技术与未来展望（LLM领域必读）

自ChatGPT等应用的惊艳亮相以来，“大型语言模型”（LargeLanguageModel,LLM）这个词汇便如一股旋风，迅速席卷了科技圈乃至公众视野。它们不仅能与人流畅对话、写作，甚至在编程、逻辑推理等领域也展现出令人惊叹的能力。那么，这些“语言巨匠”究竟是什么？它们如何工作？又将如何重塑我们的世界？本文将给你娓娓道来。一、什么是大型语言模型（LLM）？——定义、特性与核心机制从本质上讲，大型

浠寒AI·2025-06-14 22:11

基于GRNN+SHAP可解释性分析的回归预测 Matlab代码

其核心特点包括：结构简单：仅需设置光滑因子（Spread）σ，无需迭代训练。

前程算法屋·2025-06-14 20:53

《AI算力成本暴跌背后：硬件、算法与能源的深度变革！》

1.AI模型算力成本的下降趋势及驱动因素算力成本持续下降：近年来训练和运行AI模型的单位算力成本呈明显下降趋势。

嘉图明·2025-06-14 19:49

Vulkan学习笔记【一】创建窗口与实例

随着移动浪潮到来，人们对移动GPU的要求也越来越高，但以往的图形API不能够进

w还是晒太阳吧·2025-06-14 19:15

程序员转行大模型：五大热门岗位揭秘，抓住IT行业最后的风口！就在大模型！

此外，工程师还需要关注模型训练过程中的性能优化，确保模型在有限的计算资源下达到最佳效果。

大模型入门学习·2025-06-14 18:12

成都鼎讯通信信号模拟器，解锁电磁训练新高度

成都鼎讯凭借在通信与雷达技术领域的深厚积累和持续创新，重磅推出便携式雷达信号模拟器，以强大的功能、精准的性能和灵活的应用，为部队训练、科研试验提供了可靠的技术支撑，成为电磁对抗领域的革新之作。

a1235k·2025-06-14 17:01

成都鼎讯通信信号模拟设备：构建全域电磁战场新生态

一、全维度功能，打造沉浸式电磁训练场景成都鼎讯通信信号模拟设

a1235k·2025-06-14 17:01

成都鼎讯短波通信信号模拟设备：短波通信训练的智慧引擎

为满足日益复杂的训练和科研需求，成都鼎讯凭借深厚的技术沉淀与创新研发能力，推出了一款功能强大、性能卓越的短波通信信号模拟设备，成为短波通信领域当之无愧的“智慧引擎”。

a1235k·2025-06-14 17:01

成都鼎讯--通信干扰设备功能全解析

本文将深入解析一款先进的通信干扰设备，其凭借多频段覆盖、多通道并行、多样化调制方式及灵活供电等特性，成为部队、科研院所等机构在电磁对抗训练与研究中的得力工具。

a1235k·2025-06-14 17:00

成都鼎讯--通信信号模拟设备

成都鼎讯以技术创新为驱动，凭借深厚的研发实力，重磅推出通信信号模拟设备，以前所未有的强大功能与卓越性能，成为部队训练、科研测试、企业应用的不二之选，强势定义行业新标杆。

a1235k·2025-06-14 17:30

程序员转战大模型：热门岗位全解析，如何明智选择你的下一站？非常详细收藏我这一篇就好了！

此外，工程师还需要关注模型训练过程中的性能优化，确保模型在有限的计算资源下达到最佳效果。

·2025-06-14 16:29

成都鼎讯短波通信信号模拟设备：短波频段的电磁模拟王者

成都鼎讯深耕通信技术领域，凭借深厚的技术积淀与创新研发实力，推出短波通信信号模拟设备，以强大的功能、卓越的性能和便携的设计，成为短波频段电磁模拟的标杆之作，为部队训练、科研试验等提供坚实的技术支撑。

a1235k·2025-06-14 16:29

使用大模型预测短暂性脑缺血发作（TIA）的全流程系统技术方案大纲

目录一、系统概述1.1方案背景1.2方案目标1.3方案范围二、术前预测方案2.1数据收集与整合2.2模型构建与训练2.3手术方案生成三、术中决策方案3.1实时数据监测3.2大模型实时风险预警3.3麻醉方案动态调整四

LCG元·2025-06-14 16:57

基于大模型预测单纯性孔源性视网膜脱离的技术方案

目录一、算法实现伪代码1.数据预处理模块2.大模型训练模块3.预测与决策模块二、模块流程图（Mermaid格式）数据采集与预处理系统模型训练与部署系统术中决策支持系统三、系统集成方案及流程图系统集成流程图系统部署拓扑图四

·2025-06-14 16:57

大模型在输尿管上段积脓预测与治疗方案制定中的应用研究

目录一、引言1.1研究背景与意义1.2研究目的与创新点1.3研究方法与技术路线二、大模型预测原理及相关技术2.1大模型概述2.2数据收集与预处理2.3模型训练与优化三、术前预测与评估3.1病情预测指标3.2

LCG元·2025-06-14 16:57

基于大模型的结节性甲状腺肿预测与综合管理技术方案大纲

目录一、技术方案大纲（一）研究背景与目的（二）数据采集与预处理（三）大模型构建与训练（四）术前预测与评估（五）术中辅助决策（六）术后管理与预测（七）并发症风险预测与预防策略（八）根据预测制定手术方案（九

LCG元·2025-06-14 16:27

基于大模型预测的视神经脊髓炎技术方案大纲

目录一、引言（一）研究背景（二）研究目的与意义（三）大模型在医疗领域的应用现状二、术前评估与预测（一）数据采集与预处理（二）大模型构建与训练（三）术前风险评估与预测三、术中监测与决策支持（一）实时数据采集与传输

LCG元·2025-06-14 16:26

基于大模型的脑出血全流程预测系统技术方案大纲

目录一、引言二、系统概述三、系统架构（一）数据采集与预处理层（二）模型训练与优化层（三）预测与决策支持层（四）数据管理与分析层（五）用户交互与应用层四、术前预测（一）数据采集（二）数据预处理（三）脑出血风险预测模型

LCG元·2025-06-14 16:26

Python打卡第50天

@浙大疏锦行知识点回顾：resnet结构解析CBAM放置位置的思考针对预训练模型的训练策略差异化学习率三阶段微调数据预处理+定义cbamimporttorchimporttorch.nnasnnimporttorch.optimasoptimfromtorchvisionimportdatasets

猛犸MAMMOTH·2025-06-14 16:25

本地离线部署文生视频cogVideo

先看部署成功后，简单训练的结果cogvideo训练31.下载项目到本地gitclonehttps://github.com/THUDM/CogVideo.gitcdCogVideo建立虚拟环境python-mvenvcogvenvsourcecogvenv

·2025-06-14 15:15

基于OpenCV和深度学习实现图像风格迁移

今天我们将介绍如何使用OpenCV的dnn模块加载预训练的深度学习模型，快速实现图像风格迁移效果。一、准备工作首先确保你已经安装了OpenCV库：p

E-An居士·2025-06-14 15:14

speculative decoding: SpecInfer

speculativedecoding学习笔记：speculativedecodinglookhead机制一、SpecInfer提出前的一些问题串行依赖：传统自回归解码必须逐token生成，GPU利用率不足

Jay Kay·2025-06-14 12:29

基于Matlab+cnn的水果识别系统

文章目录1.准备工作2.加载和预处理数据3.定义CNN架构4.训练网络5.测试与评估以下文字及示例代码仅供参考基于MATLAB和卷积神经网络（CNN）的水果识别系统是一个很好的实践项目，它展示了如何使用深度学习技术来分类不同种类的水果

Matlab算法工程师985计算机硕·2025-06-14 12:54

推荐频道

GPU训练

从 PPO、DPO 到 GRPO：大语言模型策略优化算法解析

基于YOLOv8的导弹发射检测系统：定制卫星图像数据集、模型训练与交互式UI实现

YOLOv4 训练与推理流程详解

【GITHub开源项目实战】Labelbox Python SDK 实战指南：高效管理数据标注任务的工程集成与自动化优化策略解析

构建 AI 智能体的自动协作组织

【速写】policy与reward分词器冲突问题（附XAI阅读推荐）

【慢摹】TRL训练器细节详解（SFT/PPO/DPO/GRPO）

逻辑回归中的损失函数：交叉熵损失详解与推导

YOLOv4 改进点详解

鸿蒙开发实战之Function Flow Runtime Kit优化美颜相机AI流水线

caffe之利用mnist数据集训练好的lenet_iter_10000.caffemodel模型测试一张自己的手写体数字

代码随想录算法训练营Day4（LeetCode24 两两交换链表中的节点；LeetCode19 删除链表的倒数第N个节点；面试题02.07 链表相交；LeetCode142 环形链表II）

为什么在自动微分操作中要设置梯度清零

从代码学习深度学习 - 词的相似性和类比任务 PyTorch版

预训练、指令微调与RLHF如何塑造LLM

NLP学习路线图（四十五）：偏见与公平性

S4-Driver: Scalable Self-Supervised Driving Multimodal Large Language Model with Spatio-Temporal

AI人工智能领域的体育竞技智能分析

基于LatentSync的音频对口型数字人

【PyTorch】torchrun：分布式训练的启动和管理命令行工具

基于深度学习的智能图像分类系统：从零开始构建

Llama 4 群：原生多模态 AI 创新新时代的开始

论文略读：Does Refusal Training in LLMs Generalize to the Past Tense?

深度学习——基于卷积神经网络的MNIST手写数字识别详解

【知识图谱构建系列3】zero-shot的理念介绍

Real-ESRGAN-ncnn-vulkan 使用教程

Python----神经网络发（神经网络发展历程）

一文彻底搞懂大型语言模型（LLM）：核心机制、训练流程、关键技术与未来展望（LLM领域必读）

基于GRNN+SHAP可解释性分析的回归预测 Matlab代码

《AI算力成本暴跌背后：硬件、算法与能源的深度变革！》

Vulkan学习笔记【一】 创建窗口与实例

程序员转行大模型：五大热门岗位揭秘，抓住IT行业最后的风口！就在大模型！

成都鼎讯通信信号模拟器，解锁电磁训练新高度

成都鼎讯通信信号模拟设备：构建全域电磁战场新生态

成都鼎讯短波通信信号模拟设备：短波通信训练的智慧引擎

成都鼎讯--通信干扰设备功能全解析

成都鼎讯--通信信号模拟设备

程序员转战大模型：热门岗位全解析，如何明智选择你的下一站？非常详细收藏我这一篇就好了！

成都鼎讯短波通信信号模拟设备：短波频段的电磁模拟王者

使用大模型预测短暂性脑缺血发作（TIA）的全流程系统技术方案大纲

基于大模型预测单纯性孔源性视网膜脱离的技术方案

大模型在输尿管上段积脓预测与治疗方案制定中的应用研究

基于大模型的结节性甲状腺肿预测与综合管理技术方案大纲

基于大模型预测的视神经脊髓炎技术方案大纲

基于大模型的脑出血全流程预测系统技术方案大纲

Python打卡第50天

本地离线部署文生视频cogVideo

基于OpenCV和深度学习实现图像风格迁移

speculative decoding: SpecInfer

基于Matlab+cnn的水果识别系统

Vulkan学习笔记【一】创建窗口与实例