sft

LLM模型的一些思考

对通用LLM模型进行Fine-tuning操作（SFT，supervisedfinetuning），带来的影响往往是有害的？

巴基海贼王·2025-06-27 01:08

【LLM】两篇多模态LLM综述MultiModal Large Language Models

)现有的MM-LLM的趋势：(1)从专门强调MM理解对特定模态的生成的进展，并进一步演变为任何到任何模态的转换(例如，MiniGPT-4→MiniGPT-5→NExT-GPT)；(2)从MMPT提升到SFT

心上之秋·2025-06-24 07:49

训练成本降低2000倍: 直接将推理能力注入LLM

/pdf/2506.09967代码地址https://github.com/shangshang-wang/Resa作者背景南加州大学动机激发大模型的推理能力通常需要繁重的后训练工作（带CoT的RL或SFT

大模型最新论文·2025-06-18 13:20

【慢摹】TRL训练器细节详解（SFT/PPO/DPO/GRPO）

序言本文总结一下目前TRL典型的训练器的实现细节（SFT，PPO，DPO，GRPO），也是对上一文【速写】PPOTrainer样例与错误思考（少量DAPO）的补充目前DeepSeek关于各个训练器细节的掌握

·2025-06-16 00:36

用 LoRA 对 Qwen2.5-VL 模型进行SFT - qwen2_5vl_lora_sft.yaml

用LoRA对Qwen2.5-VL模型进行SFT-qwen2_5vl_lora_sft.yamlflyfishFORCE_TORCHRUN=1llamafactory-clitrainexamples/train_lora

二分掌柜的·2025-06-15 02:37

SFT + LoRA 结合使用原理及最佳实践

SFT+LoRA结合使用原理及最佳实践一、核心原理1.技术定位SFT（监督微调）与LoRA（低秩适应）的结合，实现了全参数微调效果与高效参数更新的平衡：SFT：通过标注数据调整模型整体行为LoRA：仅训练注入的低秩矩阵

·2025-06-12 23:17

人工智能-SFT（Supervised Fine-Tuning）、RLHF 和 GRPO

以下是SFT（SupervisedFine-Tuning）、RLHF（ReinforcementLearningfromHumanFeedback）和GRPO群体相对策略优化(GRPO，GroupRelativePolicyOptimization

高效匠人·2025-06-10 21:54

【大模型】【DeepSeek】DeepSeek-R1：Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-R1-Zero是一个通过大规模强化学习（RL）训练而成的模型，没有经过监督微调（SFT）作为初步步骤，展现了卓越的推理能力。

量子-Alex·2025-06-08 18:51

【大模型实践解惑】如何在 Supervised Fine‑Tuning (SFT) 之后进行 Direct Preference Optimization (DPO) 微调？

关于在SFT之后进行DPO微调的技术解析与应用指南，结合国内外最新研究及实践案例，包含代码实现与未来优化方向：文章目录DPO的核心原理与SFT的局限性1.1SFT的瓶颈与偏好学习的必要性1.2DPO的数学基础与优化目标

云博士的AI课堂·2025-06-08 10:28

对 `llamafactory-cli api -h` 输出的详细解读

llamafactory-cli是LlamaFactory项目提供的命令行接口工具，它允许用户通过命令行参数来配置和运行大型语言模型的各种任务，如预训练（PT）、有监督微调（SFT）、奖励模型训练（RM

路人与大师·2025-06-07 13:36

SFT实战微调Gemma

1.运行环境搭建：虚拟环境实验要求：python3.10及以上版本pytorch1.12及以上版本，推荐2.0及以上版本建议使用CUDA11.4及以上transformers>=4.38.0请务必采用上面的环境，否则代码无法运行。如果python环境低于3.10则需要额外安装pipinstallbitsandbytesGemma模型链接和下载：支持直接下载模型的repo（以7b-it为例，服务器性

原味奶茶_三分甜·2025-06-06 22:53

强化学习-深度学习和强化学习领域

在深度学习和强化学习领域，SFT（SupervisedFine-Tuning）和GRPO（可能指Gradient-basedPolicyOptimization或ReinforcementLearningwithPolicyOptimization

高效匠人·2025-06-03 04:38

CAMEL的特色功能——数据合成

前言在大模型时代，高质量数据正在成为越来越重要的一部分，然而通过人工的标注的方式获取数据的成本太高，并且真实世界的数据正迅速耗尽，于是就有了使用AI来合成数据的方法，下面我们来介绍如何使用CAMEL帮助我们合成SFT

兔兔爱学习兔兔爱学习·2025-05-24 02:16

Trl框架 SFT/GRPO训练+模板预测

confiself·2025-05-22 14:21

强化学习：第三方库【TRL - Transformer Reinforcement Learning】

OverviewTRLisacutting-edgelibrarydesignedforpost-trainingfoundationmodelsusingadvancedtechniqueslikeSupervisedFine-Tuning(SFT

u013250861·2025-05-22 14:21

英伟达推理模型论文速读：OpenCodeReasoning-Nemotron-32B

为解决这一问题，研究者构建了一个优越的监督微调（SFT）数据集，实

Open-source-AI·2025-05-18 19:47

0基础也能听懂：从预训练到SFT，对话模型技术栈深度拆解！

简单来说，从基座模型到对话模型的转变需要经过四个步骤：预训练基础模型、任务适应微调（SFT）、人类反馈强化学习（RLHF），以及部署和持续优化。下面，我们就一步步拆解这个过程，看看它是怎么实现的。

AGI大模型资料分享员·2025-05-16 11:42

2025最详细的学习路线，零基础入门大模型教程，让你少走99%弯路！【值得收藏】

预训练、SFT、RLHF。第三阶段：编程基础与工具使用目标：掌握大

AGI大模型学习·2025-05-10 14:03

AI 学习笔记：在 Macbook M1上对 DeepSeek进行无 GPU 环境下的 SFT微调，Transformers+LoRA，已跑通并出结果。

一、背景通用模型除了挂载知识库，去回答垂类问题以外，还有就是做SFT的微调，而大多数人其实是没有英伟达显卡的，但又挡不住学习的渴望，还想在老旧的电脑上去尝试微调，而我翻看了很多教程，都没有一个完整能够完全跑通的完整案例

极极光·2025-05-07 23:42

外网爆火大模型入门教程：llm-action：让天下没有难学的大模型

LLM预训练/SFT/RLHF…参数教程代码Alpacafullfine-turning7B从

LLM.·2025-05-06 11:29

Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models

背景：长思维链推理模型与过度思考现象2.1思维链（CoT）推理2.2长CoT推理模型中的过度思考问题3基于模型的高效推理3.1基于长度奖励设计的强化学习（RL）3.2使用可变长度CoT数据的监督微调（SFT

绒绒毛毛雨·2025-05-04 18:00

一文读懂大模型RAG：检索、增强与生成的技术详解，收藏这一篇就够了！！

相对于成本昂贵的“Post-Training”或“SupervisedFine-Tuning”（监督微调，SFT），基于RAG的技术方案成为了一种更优选择。

AI大模型优化师·2025-05-04 06:14

PPO算法实践：手把手教会你PPO算法的工程应用

PPO模型的训练我们需要的模型实现流程伪代码代码中的公式解释代码解释数据准备阶段训练阶段实现代码PPO模型的训练我们需要的模型基准模型：一般是SFT后的模型作为基准，新训练的模型不能和这个模型的概率分布相差太大

KangkangLoveNLP·2025-05-01 11:54

【大模型解惑】大模型如何在 Supervised Fine‑Tuning (SFT) 之后进行 PPO 强化学习微调？

近年来主流的大模型对齐流程已趋于“三段式”：预训练→SFT（监督微调）→RLHF（强化学习阶段，常用PPO）。

云博士的AI课堂·2025-04-30 08:27

transformers之SFT和VLLM部署Llama3-8b模型

目录1.环境安装2.accelerator准备3.加载llama3和数据4.训练参数配置5.微调6.vllm部署7.Llama-3-8b-instruct的使用参考1.环境安装pipinstall-q-Ubitsandbytespipinstall-q-Ugit+https://github.com/huggingface/transformers.gitpipinstall-q-Ugit+htt

AIVoyager·2025-04-28 10:06

大模型RAG入门到实战基础教程（非常详细），保姆级教程！

相对于成本昂贵的“PostTrain”或“SFT”，基于RAG的技术方案往成为一种更优选择。本文从RAG架构入手，详细介绍相关技术细节，并附上一份实践案例。

程序员二飞·2025-04-25 17:28

Llama模型家族之使用 Supervised Fine-Tuning（SFT）微调预训练Llama 3 语言模型（六）Llama 3 已训练的大模型合并LoRA权重参数

LlaMA3系列博客基于LlaMA3+LangGraph在windows本地部署大模型（一）基于LlaMA3+LangGraph在windows本地部署大模型（二）基于LlaMA3+LangGraph在windows本地部署大模型（三）基于LlaMA3+LangGraph在windows本地部署大模型（四）

段智华·2025-04-22 13:06

LLMs基础学习（七）DeepSeek专题（4）

训练过程的四个阶段具体流程小结“规则化奖励”具体原因小结“自我认知”（self-cognition）数据基本概念小结RL训练中过度拟合避免方式小结DeepSeek中的蒸馏蒸馏基本流程性能表现小结为何在蒸馏过程中仅使用SFT

汤姆和佩琦·2025-04-18 23:13

如何从零开始训练一个大模型，文案解析。

✅大模型微调常见流程图（逻辑顺序）预训练（Pretraining）↓指令微调SFT（SupervisedFine-tuning）↓偏好数据准备（人类偏好标注或对比）↓┌─────────────┬───

要努力啊啊啊·2025-04-13 13:31

理解大模型论文中的名词部分

模型技术报告中的名词部分进行介绍1.预训练•目标：从海量无标注文本中学语言能力（通常一次性训练大模型）•特点：训练耗时、成本高，但是基础中的基础•是否自己做：一般使用开源预训练模型，无需重复训练2.指令监督微调（SFT

要努力啊啊啊·2025-04-13 13:30

领域专用对话大模型深度适配方案

1.1架构创新点特性LLaMA-1LLaMA-2-13B上下文窗口2048tokens4096tokens训练数据量1.4Ttokens2.0Ttokens(含40%新数据)安全对齐机制基础RLHF迭代式SFT

Sirius Wu·2025-04-12 18:28

引领对话智能新纪元：Gemma-SFT深度学习模型详解与应用探索

引领对话智能新纪元：Gemma-SFT深度学习模型详解与应用探索gemma-sft项目地址:https://gitcode.com/gh_mirrors/ge/gemma-sft在这个对话式AI迅速崛起的时代

史姿若Muriel·2025-04-11 13:44

python的ssh模块_Python学习—paramiko模块实现简单的ssh与sftp

paramiko模块paramiko模块提供了ssh及sft进行远程登录服务器执行命令和上传下载文件的功能。这是一个第三方的软件包，使用之前需要安装。

weixin_39928102·2025-04-10 03:04

B站实战项目

search-card.all.click&vd_source=d303d97016e5723b9ae487b59d8329db一、简介本期视频主要分为以下五部分：1.需求和技术企业对于大模型的不同类型个性化需求SFT

Mia@·2025-04-08 22:57

AI安全算法工程师的算法笔记

AI安全这点事·2025-04-06 09:25

解码 Llama 3 SFT：Templates、Special Tokens 及其在微调中的作用

写在前面在进行SFT，尤其是对话微调时，有两个核心概念是绕不开的：对话模板(ChatTemplates)和特殊标记(SpecialTokens)。

kakaZhui·2025-04-02 19:54

NLP高频面试题（二十七）——SFT有哪几种参数微调方法？有什么优缺点？

本文将梳理SFT中常用的几种参数微调方法及各自的优缺点。一、SFT中的参数微调方法常见的参数微调方法主要分为两类：全参微调和PEFT方法。

Chaos_Wang_·2025-04-02 05:22

RLHF微调大模型---PPO原理和代码实战

中文含义是：基于人类反馈的强化学习，用奖励模型RewardModel来训练SFT模型；生成模型使用奖励或惩罚来更新其策略，以

韭菜盖饭·2025-03-31 06:13

10篇R1相关的研究全面汇总，万字思考！

•Base+SFT•R1冷启动•LIMO(817DataSelection)•s1(1000)•Bas

·2025-03-30 08:19

大模型智能体(Agent)优化技术全景解读：从理论到实践

目录Agent优化技术分类框架两大优化范式对比技术演进路线图参数驱动优化方法详解监督微调(SFT)技术体系高质量轨迹数据构建微调策略创新强化学习优化路径奖励函数设计原则偏好对齐技术对比参数无关优化技术剖析

鸿蒙布道师·2025-03-28 12:07

deepseek(1)——deepseek 整体架构

通用模型，用于常见日常问题推理模型deepseek-r1,671B，推理模型，擅长处理复杂、需要多步思考的问题，适合做深度研究、解决代码/数学问题DeepSeek-R1是首个验证了仅通过RL（强化学习）无需SFT

哦豁灬·2025-03-27 20:14

LLM实践（二）——基于llama-factory的模型微调

目录SFT的lora微调1、环境部署2、准备数据与配置3、创建微调配置文件：yaml配置文件4、Lora微调：基于lora微调的yaml配置文件启动lora微调5、启动模型：基于llama-factory

lucky_chaichai·2025-03-27 09:44

SFT和RLHF是什么意思？

环境：SFTRLHF问题描述：SFT和RLHF是什么意思解决方案：SFT（SupervisedFine-Tuning，监督微调）和RLHF（ReinforcementLearningfromHumanFeedback

玩人工智能的辣条哥·2025-03-25 00:15

当细致剪裁遇上大语言模型：从数据匹配到卓越性能的奇幻之旅

步子哥·2025-03-24 18:24

MiniMind：完全从 0 训练自己的大模型

是B站UP主近在远方的远开源的一个微型语言模型，改进自DeepSeek-V2、Llama3结构，项目包含整个数据处理、pretrain、sft、dpo的全部阶段，包含混合专家(MoE)模型。

三花AI·2025-03-22 15:49

MiniMind

SFT数据：SFT（SupervisedFine-Tuning）数据集，用于监督式微调，可以提高模型在特定任务上的性能。DPO数据1和DPO数据2：这两个数

亚伯拉罕·黄肯·2025-03-22 14:46

DeepSpeed-Chat：Reward Model【奖励模型】

第二阶段：奖励模型微调奖励模型(RM)微调类似于第一阶段有监督微调(SFT)。

u013250861·2025-03-22 13:31

Deepseek-R1-Distill-Llama-8B + Unsloth 中文医疗数据微调实战

=2.5.1unsloth==2025.2.15trl==0.15.2transformers==4.49.0datasets=3.3.1wandb==0.19.62.数据准备-medical_o1_sft_Chinese

LuckyAnJo·2025-03-22 08:47

【大模型系列】SFT（Supervised Fine-Tuning，监督微调）

欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,

Kwan的解忧杂货铺@新空间代码工作室·2025-03-22 02:20

10篇R1相关的研究全面汇总，万字思考！

•Base+SFT•R1冷启动•LIMO(817DataSelection)•s1(1000)•Bas

·2025-03-21 07:28

推荐频道

sft

LLM模型的一些思考

【LLM】两篇多模态LLM综述MultiModal Large Language Models

训练成本降低2000倍: 直接将推理能力注入LLM

【慢摹】TRL训练器细节详解（SFT/PPO/DPO/GRPO）

用 LoRA 对 Qwen2.5-VL 模型进行SFT - qwen2_5vl_lora_sft.yaml

SFT + LoRA 结合使用原理及最佳实践

人工智能-SFT（Supervised Fine-Tuning）、RLHF 和 GRPO

【大模型】【DeepSeek】DeepSeek-R1：Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

【大模型实践解惑】 如何在 Supervised Fine‑Tuning (SFT) 之后进行 Direct Preference Optimization (DPO) 微调？

对 `llamafactory-cli api -h` 输出的详细解读

SFT实战微调Gemma

强化学习-深度学习和强化学习领域

CAMEL的特色功能——数据合成

Trl框架 SFT/GRPO训练+模板预测

强化学习：第三方库【TRL - Transformer Reinforcement Learning】

英伟达推理模型论文速读：OpenCodeReasoning-Nemotron-32B

0基础也能听懂：从预训练到SFT，对话模型技术栈深度拆解！

2025最详细的学习路线，零基础入门大模型教程，让你少走99%弯路！【值得收藏】

AI 学习笔记：在 Macbook M1上对 DeepSeek进行无 GPU 环境下的 SFT微调，Transformers+LoRA，已跑通并出结果。

外网爆火大模型入门教程：llm-action：让天下没有难学的大模型

Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models

一文读懂大模型RAG：检索、增强与生成的技术详解，收藏这一篇就够了！！

PPO算法实践：手把手教会你PPO算法的工程应用

【大模型解惑】大模型如何在 Supervised Fine‑Tuning (SFT) 之后进行 PPO 强化学习微调？

transformers之SFT和VLLM部署Llama3-8b模型

大模型RAG入门到实战基础教程（非常详细），保姆级教程！

Llama模型家族之使用 Supervised Fine-Tuning（SFT）微调预训练Llama 3 语言模型（六）Llama 3 已训练的大模型合并LoRA权重参数

LLMs基础学习（七）DeepSeek专题（4）

如何从零开始训练一个大模型，文案解析。

理解大模型论文中的名词部分

领域专用对话大模型深度适配方案

引领对话智能新纪元：Gemma-SFT深度学习模型详解与应用探索

python的ssh模块_Python学习—paramiko模块实现简单的ssh与sftp

B站实战项目

AI安全算法工程师的算法笔记

解码 Llama 3 SFT：Templates、Special Tokens 及其在微调中的作用

NLP高频面试题（二十七）——SFT有哪几种参数微调方法？有什么优缺点？

RLHF微调大模型---PPO原理和代码实战

10篇R1相关的研究全面汇总，万字思考！

大模型智能体(Agent)优化技术全景解读：从理论到实践

deepseek(1)——deepseek 整体架构

LLM实践（二）——基于llama-factory的模型微调

SFT和RLHF是什么意思？

当细致剪裁遇上大语言模型：从数据匹配到卓越性能的奇幻之旅

MiniMind：完全从 0 训练自己的大模型

MiniMind

DeepSpeed-Chat：Reward Model【奖励模型】

Deepseek-R1-Distill-Llama-8B + Unsloth 中文医疗数据微调实战

【大模型系列】SFT（Supervised Fine-Tuning，监督微调）

10篇R1相关的研究全面汇总，万字思考！

【大模型实践解惑】如何在 Supervised Fine‑Tuning (SFT) 之后进行 Direct Preference Optimization (DPO) 微调？