训练方法

SPARKLE：深度剖析强化学习如何提升语言模型推理能力

尽管基于RL的训练方法（例如GRPO）已经展示了显著的经验性收益，但对其优势的细致理解仍然不足。为了填补这一空白，我们引入了一个细粒度的分析框架，以剖析RL对推理的影响。

·2025-07-20 08:45

SBERT、CoSENT和BETR以及transformers的区别和联系

它们的联系主要在于基于Transformer架构，并针对特定任务做了优化；区别则在于目标任务、优化策略、训练方法和适用场景等方面。1.联系基于Transformer架构：它们的核心编码

panshengnan·2025-07-20 05:30

人工智能开源的大模型训练微调框架LLaMA-Factory

LLaMA-Factory是一个开源的大模型训练微调框架，具有模块化设计和多种高效的训练方法，能够满足不同用户的需求。用户可以通过命令行或Web界面进行操作，实现个性化的语言模型微调。

·2025-07-10 04:37

深度学习前置知识全面解析：从机器学习到深度学习的进阶之路

本教案将从机器学习的基础知识出发，系统性地介绍深度学习的核心概念、数学基础、网络架构和训练方法，为读者构建完整的知识体系框架。无论你是刚

·2025-07-05 23:53

循环神经网络（RNN）：序列数据处理的强大工具

本文将深入探讨RNN的工作原理、架构特点、训练方法、常见类型以及其

LNL13·2025-07-05 00:45

如何训练一个 Reward Model：RLHF 的核心组件详解

本文将系统介绍如何从零开始训练一个rewardmodel，包括数据准备、模型结构、损失函数、训练方法与注意事项。什么是RewardModel？

茫茫人海一粒沙·2025-07-04 00:04

讯飞星火深度推理模型X1，为教育医疗带来革新

它通过大规模多阶段强化学习训练方法，在复杂推理、数学、代码、语言理解等场景全面

·2025-07-03 21:42

15.OCR训练

.**3.训练方法*1.助手训练*1.打开OCR助手*2.选择图片*3.选择训练区域*4.分割*5.字体*6.训练文件*7.新*8.学习*9.加入训练样本*10.保

Echo``·2025-06-28 22:47

100个AI大模型基础概念（收藏版）

本文将从基础概念、核心技术、数据处理、训练方法、评估体系、应用场景、伦理安全等多个维度，系统阐述100个AI大模型的关键基础知识，帮助读者全面理解这一前沿技术领域。

程序员鑫港·2025-06-26 20:29

好用的小而美的AI Agent

Agent：提升开发效率三.小而美Agent分类1.通用Agent2.垂直Agent3.计算机使用智能体CUA4.可交互的Agent四.构建AIAgent的平台量身定制AIAgent步骤五.技术细节：训练方法一

晋丑丑·2025-06-24 14:38

AI人工智能领域DALL·E 2的技术优化方向

我们将从模型架构、训练方法、计算效率、图像质量提升等多个维度进行分析，提出具体的优化策略和技术路线。文章不仅涵盖了理论基础，还提供了实际的代码实现和数学推导，帮助读者全面理解如何提升文

AI大模型应用工坊·2025-06-19 15:50

论文略读：Does Refusal Training in LLMs Generalize to the Past Tense?

我们揭示了当前拒绝训练方法中的一个奇特的泛化缺口：仅仅将一个有害请求改写为过去时（例如，将“HowtomakeaMolotovcocktail?”

UQI-LIUWJ·2025-06-15 10:31

Information Fusion期刊发表：Touch100k用语言解锁触觉感知新维度

北京交通大学计算机学院联合北京邮电大学人工智能学院方斌教授团队、腾讯微信AI团队发布了首个大规模触觉、多粒度语言、视觉三模态数据集Touch100k，并提出TLV-Link预训练方法，为材料属性识别和抓取预测任务提供了高效的触觉表示能力

xwz小王子·2025-06-12 04:59

【AI 人工智能】大型语言模型的实现技术原理与应用

文章目录大型语言模型的实现技术原理与应用大模型发展历史1.大模型的起源2.代表性大模型3.大模型背后的关键技术4.大模型的影响5.展望未来技术原理及概念一、概述二、大型预训练语言模型的概念三、大型预训练语言模型的实现方式四、大型预训练语言模型的训练方法五

七七Seven～·2025-06-10 21:23

揭秘AI原生应用领域AI代理的模型训练方法

揭秘AI原生应用领域AI代理的模型训练方法关键词：AI原生应用、AI代理、模型训练方法、机器学习、深度学习摘要：本文聚焦于AI原生应用领域中AI代理的模型训练方法。

AI智能应用·2025-06-07 05:14

tesseract-ocr训练方法

2019独角兽企业重金招聘Python工程师标准>>>tesseract-ocr有2和3两个版本，不同版本训练方法稍有不同。

weixin_34122604·2025-06-06 17:17

HALCON 深度学习训练 3D 图像的几种方式优缺点

每种方式都有其独特的设计思路和应用场景，了解它们的优缺点有助于根据具体需求选择最合适的训练方法。基于体素化的训练方式优点数据结构规整：体素化将3D图像转换为类似3D网格的数据结构，这种规整的数据形式能

LeonDL168·2025-06-06 15:31

(LLaMa Factory)大模型训练方法--准备模型（Qwen2-0.5B）

1、准备训练框架LLaMAFactory是一款开源低代码大模型微调框架，集成了业界最广泛使用的微调技术，支持通过WebUI界面零代码微调大模型，目前已经成为开源社区内最受欢迎的微调框架。2、运行环境要求硬件：GPU：推荐使用24GB显存的显卡或者更高配置软件：python：3.10pytorch：2.1.2+cuda12.1操作系统：Ubuntu22.043、准备训练模型在开展大模型训练之前，由于

风起晨曦·2025-06-04 23:21

【仿生系统】qwen的仿生机器人解决方案

收到完整需求后，我将从系统架构设计、算法实现路径、训练方法三个维度为您构建完整的仿生机器人解决方案。

DFminer·2025-06-03 04:39

大语言模型（LLM）本身是无状态的,怎么固化记忆

大语言模型（LLM）本身是无状态的，无法直接“记住”历史对话或用户特定信息大语言模型（LLM）本身是无状态的，无法直接“记住”历史对话或用户特定信息，但可以通过架构改进、外部记忆整合、训练方法优化等方案实现上下文记忆能力

ZhangJiQun&MXP·2025-05-21 17:28

使用 PyTorch 实现 CBOW 词向量模型

今天，我们将深入探讨并实现CBOW(ContinuousBag-of-Words)模型，这是一种经典的词向量训练方法。什么是CBOW模型？

进来有惊喜·2025-05-19 14:27

图像分割——U-Net论文介绍+代码（PyTorch）

一、论文内容总结摘要：人们普遍认为，深度网络成功需要数千样本，在本文中，提出一种网络和训练方法，它使用大量数据增强来有效使用现存的样本，我们的体系结构由一个捕获上下文的收缩路径和能够实现精确定位的对称扩展路径组成

yidaqiqi·2025-05-19 09:28

【AI论文】对抗性后期训练快速文本到音频生成

虽然过去的对抗性后训练方法难以与昂贵的蒸馏方法进行比较，但ARC后训练是一个简单的程序，它(1)将最近的相对论对抗性公式扩展到扩散/流后训练，(2)将其与一种新的对比鉴别器目标相结合，以鼓励更好的提示依

东临碣石82·2025-05-16 16:49

人工智能模型DeepSeek-V3和DeepSeek-R1的区别

DeepSeek-V3和DeepSeek-R1是深度求索（DeepSeek）人工智能基础研究有限公司推出的两款人工智能模型，尽管它们都基于先进的深度学习技术、强化学习技术，但在设计目标、架构、训练方法、

菩提树下的凡夫·2025-05-16 11:14

DeepSeek-V3与DeepSeek-R1的对比

尽管DeepSeek-R1和DeepSeek-V3基于相似的技术框架（混合专家架构MoE），但在设计目标、训练方法、性能表现和应用场景上存在显著差异。

guanking·2025-05-16 11:41

探索大语言模型（LLM）：查漏补缺，你真的完全了解大语言模型的术语吗？

本文将系统解析大语言模型的核心术语，涵盖模型规模、训练方法、优化技术、部署实践及前沿研究方向，为从业者构建完整的知识结构。

艾醒(AiXing-w)·2025-05-12 14:13

拆书帮第14期训练营——作业三：如何实践刻意练习

在实践中，这往往归结为带有几个额外步骤的有目的的练习：首先辨别杰出人物，然后推测是什么使他们变得如此杰出，接着再提出训练方法，这些方法

LynnHarold·2025-05-07 16:26

DeepSeek语言模型训练方法详解

DeepSeek语言模型训练方法详解DeepSeek的模型是基于Transformer架构的大语言模型，类似GPT的结构。训练这样的模型通常需要大量的数据、分布式训练、强大的计算资源。

暗涧幽火·2025-05-06 12:38

机器学习实操第一部分机器学习基础第5章支持向量机（SVM）

本章详细讲解了SVM的核心概念、训练方法以及在不同任务中的应用。通过理论和实践相结合的方式，读者将掌握如何使用SVM解决实际问题。主要内容线性SVM分类硬间隔分类：在数据线性可分的情

odoo中国·2025-05-05 11:26

小米开源Xiaomi-MiMo-7B 详情

为充分挖掘语言模型的推理潜力，既要关注后训练策略，也要优化预训练方法。MiM

Panesle·2025-05-02 23:49

卷积神经网络（CNN）详细教程

本文将详细介绍CNN的基本原理、架构设计、训练方法以及实际应用案例。二、卷积神经网络的基本原理（一）卷积层（Convol

AI糊涂是福·2025-04-23 12:33

【pytorch】BatchNorm2d官方文档解读

传统的训练方法对初始化和学习率非常敏

loinleeai·2025-04-19 02:56

微调模型的性能优化策略

2.性能优化的目标提高准确性：通过优化模型结构和训练方法，提升模型在特定任务上的预测准确性。降低延迟：减少模型推理时间，提高响应速度，适合实时应用。减少资源消耗：降低模型对计算资源和存储的

CarlowZJ·2025-04-15 00:47

自回归概率模型（Autoregressive Probabilistic Models）

本文将从基础概念、数学原理、模型结构、训练方法、优缺点以及实际应用等多个方面，详细、深入地讲解自回归概率模型。一.自回归概率模型的基本概念自回归模型是一种

爱看烟花的码农·2025-04-14 17:27

【微调大模型】轻松微调百余种大模型：LLaMA-Factory

github:https://github.com/hiyouga/LLaMA-Factory目录项目特色性能指标模型训练方法数据集软硬件依赖使用安装LLaMAFactory数据准备快速开始LLaMABoard

Jackilina_Stone·2025-04-13 07:52

大模型架构与训练方向

学习多模态融合架构（如CLIP、Flamingo），关注跨模态数据对齐与联合训练方法‌34。熟悉参数高效微调技术（如LoRA、Adapter），用于降低训练成本‌4。‌分布式训练技术‌掌握数据并行、

凌云C·2025-04-04 15:44

使用unsloth进行grpo训练报错及解决方法

说明前段时间用unsloth尝试了grpo训练，简单复现了deepseek用到的强化学习训练方法。期间遇到了很多问题，简单记录下解决办法。

yuanlulu·2025-04-01 06:32

【深度综述】大规模视觉-语言模型的对齐与失齐：从可解释性视角剖析！

我们首先考察了对齐的基本原理，探讨其表示层面、行为层面、训练方法和理论基础。接着，我们分析了在三个语义层面上的失齐现象：对象失齐、属性失齐和关系

程序员辣条·2025-04-01 00:50

NLP高频面试题（二十一）——deepseek V1-V3 分别有哪些改进，这些改进是如何对模型产生影响的

DeepSeek从V1到V3不断迭代升级，在模型架构、训练方法和推理能力等方面取得了显著进步。

Chaos_Wang_·2025-03-30 21:42

AI大模型训练方法论：10种必须掌握的核心技术

AI大模型学习在当前技术环境下，AI大模型学习不仅要求研究者具备深厚的数学基础和编程能力，还需要对特定领域的业务场景有深入的了解。通过不断优化模型结构和算法，AI大模型学习能够不断提升模型的准确性和效率，为人类生活和工作带来更多便利。前排提示，文末有大模型AGI-CSDN独家资料包哦！系统化理论知识建构：对于AI大模型的学习，首要任务是对基础理论进行全面而深入的理解。这意味着需要投入大量的时间去研

AI产品经理·2025-03-29 23:42

【人工智能】从 Llama 到 DeepSeek：开源大模型的演进与技术对比

本文从Meta的Llama系列开始，追溯开源大模型的演进历程，重点剖析其技术架构、训练方法和性能表现，并深入对比DeepSeek系列模型的创新之处。Llama奠定了

蒙娜丽宁·2025-03-29 19:19

人工智能笔记

知识表示明确、逻辑推理强缺点：知识获取困难、难以处理非结构化数据与模糊性问题、处理不确定性能力有限2.大模型的分类2.1按应用层级通用大模型行业大模型垂直大模型3.Deepseek的创新与影响3.1模型架构与训练方法创新混合专家系统

许小禾上学记·2025-03-28 14:47

ChatGPT、DeepSeek、Grok：AI 语言模型的技术演进与未来趋势

从AI模型的技术架构、训练方法、核心能力及未来发展趋势等方面分析，可以更深入地理解这些模型的技术演进路径及其对AI生态的影响。

慌ZHANG·2025-03-26 09:52

AI 大模型的技术架构与应用解析

本文将详细解析AI大模型的核心技术架构、训练方法、数据处理流程，并探讨其