SFT

如何从零开始训练一个大模型，文案解析。

✅大模型微调常见流程图（逻辑顺序）预训练（Pretraining）↓指令微调SFT（SupervisedFine-tuning）↓偏好数据准备（人类偏好标注或对比）↓┌─────────────┬───

要努力啊啊啊·2025-04-13 13:31

理解大模型论文中的名词部分

模型技术报告中的名词部分进行介绍1.预训练•目标：从海量无标注文本中学语言能力（通常一次性训练大模型）•特点：训练耗时、成本高，但是基础中的基础•是否自己做：一般使用开源预训练模型，无需重复训练2.指令监督微调（SFT

要努力啊啊啊·2025-04-13 13:30

领域专用对话大模型深度适配方案

1.1架构创新点特性LLaMA-1LLaMA-2-13B上下文窗口2048tokens4096tokens训练数据量1.4Ttokens2.0Ttokens(含40%新数据)安全对齐机制基础RLHF迭代式SFT

Sirius Wu·2025-04-12 18:28

引领对话智能新纪元：Gemma-SFT深度学习模型详解与应用探索

引领对话智能新纪元：Gemma-SFT深度学习模型详解与应用探索gemma-sft项目地址:https://gitcode.com/gh_mirrors/ge/gemma-sft在这个对话式AI迅速崛起的时代

史姿若Muriel·2025-04-11 13:44

python的ssh模块_Python学习—paramiko模块实现简单的ssh与sftp

paramiko模块paramiko模块提供了ssh及sft进行远程登录服务器执行命令和上传下载文件的功能。这是一个第三方的软件包，使用之前需要安装。

weixin_39928102·2025-04-10 03:04

B站实战项目

search-card.all.click&vd_source=d303d97016e5723b9ae487b59d8329db一、简介本期视频主要分为以下五部分：1.需求和技术企业对于大模型的不同类型个性化需求SFT

Mia@·2025-04-08 22:57

AI安全算法工程师的算法笔记

AI安全这点事·2025-04-06 09:25

解码 Llama 3 SFT：Templates、Special Tokens 及其在微调中的作用

写在前面在进行SFT，尤其是对话微调时，有两个核心概念是绕不开的：对话模板(ChatTemplates)和特殊标记(SpecialTokens)。

kakaZhui·2025-04-02 19:54

NLP高频面试题（二十七）——SFT有哪几种参数微调方法？有什么优缺点？

本文将梳理SFT中常用的几种参数微调方法及各自的优缺点。一、SFT中的参数微调方法常见的参数微调方法主要分为两类：全参微调和PEFT方法。

Chaos_Wang_·2025-04-02 05:22

RLHF微调大模型---PPO原理和代码实战

中文含义是：基于人类反馈的强化学习，用奖励模型RewardModel来训练SFT模型；生成模型使用奖励或惩罚来更新其策略，以

韭菜盖饭·2025-03-31 06:13

10篇R1相关的研究全面汇总，万字思考！

•Base+SFT•R1冷启动•LIMO(817DataSelection)•s1(1000)•Bas

·2025-03-30 08:19

大模型智能体(Agent)优化技术全景解读：从理论到实践

目录Agent优化技术分类框架两大优化范式对比技术演进路线图参数驱动优化方法详解监督微调(SFT)技术体系高质量轨迹数据构建微调策略创新强化学习优化路径奖励函数设计原则偏好对齐技术对比参数无关优化技术剖析

鸿蒙布道师·2025-03-28 12:07

deepseek(1)——deepseek 整体架构

通用模型，用于常见日常问题推理模型deepseek-r1,671B，推理模型，擅长处理复杂、需要多步思考的问题，适合做深度研究、解决代码/数学问题DeepSeek-R1是首个验证了仅通过RL（强化学习）无需SFT

哦豁灬·2025-03-27 20:14

LLM实践（二）——基于llama-factory的模型微调

目录SFT的lora微调1、环境部署2、准备数据与配置3、创建微调配置文件：yaml配置文件4、Lora微调：基于lora微调的yaml配置文件启动lora微调5、启动模型：基于llama-factory

lucky_chaichai·2025-03-27 09:44

SFT和RLHF是什么意思？

环境：SFTRLHF问题描述：SFT和RLHF是什么意思解决方案：SFT（SupervisedFine-Tuning，监督微调）和RLHF（ReinforcementLearningfromHumanFeedback

玩人工智能的辣条哥·2025-03-25 00:15

当细致剪裁遇上大语言模型：从数据匹配到卓越性能的奇幻之旅

步子哥·2025-03-24 18:24

MiniMind：完全从 0 训练自己的大模型

是B站UP主近在远方的远开源的一个微型语言模型，改进自DeepSeek-V2、Llama3结构，项目包含整个数据处理、pretrain、sft、dpo的全部阶段，包含混合专家(MoE)模型。

三花AI·2025-03-22 15:49

MiniMind

SFT数据：SFT（SupervisedFine-Tuning）数据集，用于监督式微调，可以提高模型在特定任务上的性能。DPO数据1和DPO数据2：这两个数

亚伯拉罕·黄肯·2025-03-22 14:46

DeepSpeed-Chat：Reward Model【奖励模型】

第二阶段：奖励模型微调奖励模型(RM)微调类似于第一阶段有监督微调(SFT)。

u013250861·2025-03-22 13:31

Deepseek-R1-Distill-Llama-8B + Unsloth 中文医疗数据微调实战

=2.5.1unsloth==2025.2.15trl==0.15.2transformers==4.49.0datasets=3.3.1wandb==0.19.62.数据准备-medical_o1_sft_Chinese

LuckyAnJo·2025-03-22 08:47

【大模型系列】SFT（Supervised Fine-Tuning，监督微调）

欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,

Kwan的解忧杂货铺@新空间代码工作室·2025-03-22 02:20

10篇R1相关的研究全面汇总，万字思考！

•Base+SFT•R1冷启动•LIMO(817DataSelection)•s1(1000)•Bas

·2025-03-21 07:28

【面试经验】华为 AI软开计算产品线（面经+时间线）

09.27，三面09.29（本来是09.19线下二三面，但由于本人有事推迟）三.一面（50min）自我介绍简单介绍一下传统知识图谱建设和大模型对于知识的构建的差异和整体的趋势聊聊实习经历中的提示工程和sft

litterfinger·2025-03-17 14:56

LLaMA-Factory 训练数据默认使用 instruction、input、output 三个 key

在LLaMA-Factory进行SFT（Directivesupervisionfine-tuning指令监督微调）时，训练数据的格式非常重要，因为大模型依赖标准化的数据结构来学习指令-响应模式。

背太阳的牧羊人·2025-03-16 08:43

大语言模型（LLM）的微调与应用

需通过有监督微调（SFT）或低秩适配（LoRA）等技术优化模型权重。

AI Echoes·2025-03-13 03:50

InternVL：论文阅读 -- 多模态大模型(视觉语言模型)

3）训练策略（1）第一阶段：视觉-语言对比训练（2）第二阶段：视觉语言生成训练（3）第三阶段：监督微调（SFT）3.InternVL应用1）对于视觉感知任务2）对于对比任务3）对于生成任务4）对于

XiaoJ1234567·2025-03-12 23:20

大模型RAG入门到实战基础教程（非常详细），大模型RAG入门到精通，收藏这一篇就够了！

相对于成本昂贵的“PostTrain”或“SFT”，基于RAG的技术方案往成为一种更优选择。本文从RAG架构入手，详细介绍相关技术细节，并附上一份实践案例。

AI程序猿人·2025-03-08 18:56

GRPO为什么促使MLLM在部分垂域比SFT更好的表现

SolveVisualUnderstandingwithReinforcedVLMs最近做毕设，看到VLM-R1项目，一个有趣的现象：在Grounding任务中，GRPO训练的模型不仅展现出更稳定的训练曲线，其域外泛化能力更是远超传统SFT

朱韬韬·2025-03-08 16:40

llama-factory生成Meta-Llama-3-8B-Instruct模型api服务

需要开启其api服务进行调用，参考官方https://github.com/hiyouga/LLaMA-Factory/blob/main/examples/inference/llama3_lora_sft.yaml

码不动了鸭·2025-03-08 00:19

Win11安装VMware和Ubuntu并使用ssh访问部署模型

/vmw-desktop/wsUbuntu：Ubuntu22.04.5LTS(JammyJellyfish)ssh&sftp：DownloadPuTTY:latestrelease(0.83)ssh&sft

music&movie·2025-03-06 12:20

SFT与RLHF的关系

在大模型训练中，SFT（监督微调）和RLHF（基于人类反馈的强化学习）是相互关联但目标不同的两个阶段，通常需要结合使用以优化模型性能，而非互相替代。

一只积极向上的小咸鱼·2025-03-04 11:12

DeepSeek-R1：通过强化学习激励大型语言模型的推理能力

DeepSeek-R1-Zero是一个通过大规模强化学习（RL）训练而成的模型，无需监督微调（SFT）作为初步步骤，展示了卓越的推理能力。

AI专题精讲·2025-03-03 22:05

基于DeepSeek 的图生文最新算法 VLM-R1

具体来说，对于引用表达式理解（REC）的任务，我们使用R1和SFT方法训练了Qwen2.5-VL。结果表明，在域内测试数据

AI算法网奇·2025-03-03 18:02

模型优化之强化学习（RL）与监督微调（SFT）的区别和联系

强化学习（RL）与监督微调（SFT）是机器学习中两种重要的模型优化方法，它们在目标、数据依赖、应用场景及实现方式上既有联系又有区别。

搏博·2025-03-02 10:08

深入解析 DeepSeek R1：强化学习如何驱动大模型推理能力的进化

引言在AI竞赛日益激烈的时代，DeepSeek-AI推出了DeepSeekR1，试图以强化学习（RL）直接训练推理能力，而非仅依赖传统的监督微调（SFT）。

海棠AI实验室·2025-02-26 23:07

DeepSeek 和 Qwen 模型快速部署指南

DeepSeek-V3DeepSeek-R1模型大小总参数量6710亿(671B),MoE架构,每个token激活370亿参数总参数量与V3相当,基于DeepSeek-V3-Base,采用类似的MoE架构训练方法包含预训练、监督微调(SFT

moton2017·2025-02-24 18:47

大语言模型训练数据集格式

1.SFT（有监督微调）的数据集格式对于大语言模型的训练中，SFT（SupervisedFine-Tuning）的数据集格式可以采用以下方式：输入数据：输入数据是一个文本序列，通常是一个句子或者一个段落

香菜烤面包·2025-02-23 16:13

大模型训练 && 微调数据格式

1.SFT（有监督微调）的数据集格式？

comli_cn·2025-02-23 16:43

deepseek和ChatGPT 4o比较

后训练+RL/RLHFDeepSeekR1等推理模型是在通用模型的基础上进行“特训”（后训练+SFT/RL/RLHF），使其不仅知道得多还用得好

调皮的芋头·2025-02-19 02:46

SFT（监督微调）和RLHF（基于人类反馈的强化学习）的区别

SFT（监督微调）和RLHF（基于人类反馈的强化学习）的区别STF（SupervisedFine-Tuning）和RLHF（ReinforcementLearningfromHumanFeedback）

钟小宇·2025-02-18 18:11

大语言模型常用微调与基于SFT微调DeepSeek R1指南

在大型语言模型（LLM）的微调中，有几种常见的方法，包括SFT（监督微调）、LoRA（低秩适应）、P-tuningv2和**Fre

知来者逆·2025-02-16 16:08

【必看】凭啥？DeepSeek如何用1/179的训练成本干到GPT-4o 98%性能

其核心策略包括减少监督微调（SFT）步骤，仅依赖强化学习（RL）技术。DeepSeek-R1-Zero版本完全跳过SFT，仅通过RL进行训练。

大F的智能小课·2025-02-13 21:51

【NLP算法面经】NLP算法面经 -- 腾讯 VS 美团（附面题）

目录【NLP百面百过】大模型算法高频面题（全面整理ʘ‿ʘ）一、大模型（LLMs）基础面大模型（LLMs）架构篇注意力机制（Attention）篇Transformer理论篇二、大模型微调面有监督微调（SFT

青松ᵃⁱ·2025-02-11 13:37

RLHF代码解读

参考资料参考资料代码RLHF训练流程SFT 将人类打好标签的数据输入到一个预训练的模型，进行languagemodeling。

木木木马马·2025-02-11 00:25

基于 llama-Factory 动手实践 Llama 全参数 SFT 和 LoRA SFT

一、llama-Factory：你的Llama模型SFT工厂llama-Factory是一个开源的、用户友好的工具，专门用于对Llama系列模型进行微调。

kakaZhui·2025-02-09 12:36

DeepSeek模型与OpenAI模型原理和技术架构的异同分析

DeepSeek模型与OpenAI模型原理和技术架构的异同分析一、模型原理（一）DeepSeekR1DeepSeekR1的核心原理是基于强化学习（RL）的训练方式，其创新之处在于不依赖任何监督微调（SFT

程序猿000001号·2025-02-08 04:10

基于 DeepSeek-R1 模型微调（SFT）技术详解

大模型时代与微调的重要性1.2本文目的与结构概述DeepSeek-R1模型基础2.1模型简介2.1.1模型架构2.1.2预训练数据与目标2.2模型特点与优势2.2.1语言理解与生成能力2.2.2计算效率与扩展性微调（SFT

zhangjiaofa·2025-02-07 10:43

[论文笔记] Deepseek技术报告

1.总体概述背景与目标报告聚焦于利用强化学习（RL）提升大型语言模型（LLMs）的推理能力，旨在探索在不依赖大规模监督微调（SFT）的情况下，模型如何自我进化并形成强大的推理能力。

心心喵·2025-02-06 22:53

【大模型LLM面试合集】训练数据_数据格式

数据格式1.SFT（有监督微调）的数据集格式？

X.AI666·2025-02-06 18:28

AI大模型学习的七个阶段，学完你就是大模型大师！

预训练、SFT、RLHF。第三阶段：编程基础与工具使用目标：掌握大

AGI大模型老王·2025-02-04 19:48

推荐频道

SFT

如何从零开始训练一个大模型，文案解析。

理解大模型论文中的名词部分

领域专用对话大模型深度适配方案

引领对话智能新纪元：Gemma-SFT深度学习模型详解与应用探索

python的ssh模块_Python学习—paramiko模块实现简单的ssh与sftp

B站实战项目

AI安全算法工程师的算法笔记

解码 Llama 3 SFT：Templates、Special Tokens 及其在微调中的作用

NLP高频面试题（二十七）——SFT有哪几种参数微调方法？有什么优缺点？

RLHF微调大模型---PPO原理和代码实战

10篇R1相关的研究全面汇总，万字思考！

大模型智能体(Agent)优化技术全景解读：从理论到实践

deepseek(1)——deepseek 整体架构

LLM实践（二）——基于llama-factory的模型微调

SFT和RLHF是什么意思？

当细致剪裁遇上大语言模型：从数据匹配到卓越性能的奇幻之旅

MiniMind：完全从 0 训练自己的大模型

MiniMind

DeepSpeed-Chat：Reward Model【奖励模型】

Deepseek-R1-Distill-Llama-8B + Unsloth 中文医疗数据微调实战

【大模型系列】SFT（Supervised Fine-Tuning，监督微调）

10篇R1相关的研究全面汇总，万字思考！

【面试经验】华为 AI软开 计算产品线（面经+时间线）

LLaMA-Factory 训练数据默认使用 instruction、input、output 三个 key

大语言模型（LLM）的微调与应用

InternVL：论文阅读 -- 多模态大模型(视觉语言模型)

大模型RAG入门到实战基础教程（非常详细），大模型RAG入门到精通，收藏这一篇就够了！

GRPO为什么促使MLLM在部分垂域比SFT更好的表现

llama-factory生成Meta-Llama-3-8B-Instruct模型api服务

Win11安装VMware和Ubuntu并使用ssh访问部署模型

SFT与RLHF的关系

DeepSeek-R1：通过强化学习激励大型语言模型的推理能力

基于DeepSeek 的图生文最新算法 VLM-R1

模型优化之强化学习（RL）与监督微调（SFT）的区别和联系

深入解析 DeepSeek R1：强化学习如何驱动大模型推理能力的进化

DeepSeek 和 Qwen 模型快速部署指南

大语言模型训练数据集格式

大模型训练 && 微调数据格式

deepseek和ChatGPT 4o比较

SFT（监督微调）和RLHF（基于人类反馈的强化学习）的区别

大语言模型常用微调与基于SFT微调DeepSeek R1指南

【必看】凭啥？DeepSeek如何用1/179的训练成本干到GPT-4o 98%性能

【NLP算法面经】NLP算法面经 -- 腾讯 VS 美团（附面题）

RLHF代码解读

基于 llama-Factory 动手实践 Llama 全参数 SFT 和 LoRA SFT

DeepSeek模型与OpenAI模型原理和技术架构的异同分析

基于 DeepSeek-R1 模型微调（SFT）技术详解

[论文笔记] Deepseek技术报告

【大模型LLM面试合集】训练数据_数据格式

AI大模型学习的七个阶段，学完你就是大模型大师！

【面试经验】华为 AI软开计算产品线（面经+时间线）