SFT 第2页

DeepSeek V3 模型微调（SFT）技术详解

DeepSeekV3模型微调（SFT）技术详解目录引言背景知识2.1深度学习与预训练模型2.2微调（Fine-tuning）的概念2.3监督微调（SupervisedFine-tuning,SFT）DeepSeekV3

zhangjiaofa·2025-01-30 00:28

LLM架构与优化：从理论到实践的关键技术

重点分析了预训练、后训练、监督微调（SFT）和偏好对齐（PreferenceAlignment）在提升模型性能中的作用，并对比了直接偏好优化（DPO）

XianxinMao·2025-01-28 20:14

LLaMA-Factory 基于 LoRA 的 SFT 指令微调及相关功能梳理

1.数据准备微调数据的格式为Alpaca或ShareGPT格式，需进行以下步骤：自定义数据集转换：将原始数据集转换成指定格式（JSON格式）。示例数据：{"instruction":"写一个商品文案","input":"类型#裤*版型#宽松","output":"宽松的阔腿裤吸引了大量明星的喜爱，设计感十足。"}数据注册：修改data/dataset_info.json文件，将数据集注册到系统中。

Ambition_LAO·2025-01-21 07:42

浅谈大模型 SFT 的实践落地：十问十答

今天给大家带来一篇大模型SFT的实践落地经验总结SFT现在往往被称为“低端”工作，但它与业务紧密相连。相较于难以实施且多数公司没资源训

大模型与自然语言处理·2024-09-15 06:54

RAFT：Adapting Language Model to Domain Specific RAG

论文链接简单来说，就是你SFT微调的时候得考虑RAG的场景。RAG什么场景？

蒸土豆的技术细节·2024-09-07 21:17

LLM大模型落地-从理论到实践

学习目标熟悉主流LLM（Llama,ChatGLM,Qwen）的技术架构和技术细节；有实际应用RAG、PEFT和SFT的项目经验较强的NLP基础，熟悉BERT、T5、Transformer和GPT的实现和差异

hhaiming_·2024-09-04 01:12

大模型训练和推理

文章目录一、NLP基础1.Tokenizer2.positionencoding3.注意力机制与transformer架构二、大模型训练1.SFT训练2.RLHF训练3.分布式并行训练技术（1）模型并行

李明朔·2024-08-30 01:27

2025秋招大语言模型落地实践面试题

数据资源3.1如何标注一个监督微调（SFT）数据集？3.2在众包

微凉的衣柜·2024-08-30 01:26

大模型19：微调大模型方法

有监督微调（SFT）、奖励模型（RM）训练，以及基于人类反馈的强化学习（RLHF）训练1.有监督微调（SFT-SupervisedFine-Tuning）数据处理数据收集：首先，需要收集大量的对话数据。

bluewelkin·2024-08-27 01:38

大模型应用中什么是SFT（监督微调）？

大模型应用中什么是SFT（监督微调）？一、SFT的基本概念监督微调（SupervisedFine-Tuning,SFT）是对已经预训练的模型进行特定任务的训练，以提高其在该任务上的表现。

Chauvin912·2024-08-22 04:47

MiniCPM：揭示端侧大语言模型的无限潜力

Github地址：https://github.com/OpenBMB/MiniCPM➤HuggingFace地址：https://huggingface.co/openbmb/MiniCPM-2B-sft-bf161

智慧医疗探索者·2024-02-05 13:58

用通俗易懂的方式讲解：一文详解大模型 RAG 模块

索引模块块优化滑动窗口从小到大元数据附加结构化组织层次化索引知识图谱文档组织预检索模块查询扩展多查询子查询CoVe查询转换重写HyDE查询路由元数据路由器/过滤器语义路由器查询构建检索模块检索模型选择稀疏检索器密集检索器检索器微调SFT

Python算法实战·2024-02-03 01:43

CentOS7搭建SFTP文件服务器

创建上传的服务器指定文件夹并授权给mysftpmkdir-p/opt/sftp/mysftpusermod-d/opt/sftp/mysftpmysftpchownroot:sftpgroup/opt/sft

大猫和小黄·2024-01-27 01:30

【LLM问答】两阶段的对话式问答模型ChatQA思路和兼看两阶段的RAG知识问答引擎QAnything

一、ChatQA1.1微调如下图，ChatQA微调包含两个阶段，SupervisedFine-tuning和Context-EnhancedInstructionTuning1.1.1阶段一：SFT（SupervisedFine-tuning

余俊晖·2024-01-26 06:48

python paramiko长连接_python使用paramiko实现ssh的功能详解

paramiko模块提供了ssh及sft进行远程登录服务器执行命令和上传下载文件的功

weixin_39638305·2024-01-26 04:47

【书生·浦语】大模型实战营—— OpenCompass 大模型评测

一般来说大模型可以分为只经过预训练的基座模型以及经过了SFT或者RHF的对话模型。针对基座模型评测时，需要在prompt中加上

不想动脑筋的亮亮·2024-01-23 12:15

【LLM-agent】function call功能、AgentTuning微调

所以为了提高模型准确识别和调用函数的能力，如agenttuning就是利用多个agent任务交互轨迹，对LLM进行sft微调，文章目录note一、functioncall1.functio

山顶夕景·2024-01-22 08:16

An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models

A:这篇论文试图解决的问题是如何在有限的标注数据下提高大型语言模型（LLMs）的监督微调（SupervisedFinetuning,SFT）效率。

Takoony·2024-01-20 07:08

大模型入门0: 基础知识

大模型0基础知识:transformer基础与NLP1参数量预估与scalinglaw2sft3RAG与langchain4prompt5rlhf6agent7分布式训练8推理优化9传统任务本文结构transformer

YueTann·2024-01-19 05:07

LLM大模型工程入门级知识初探

CodeInterpreter四、函数支持FunctionCall五、外部集成LangChain六、Embedding与向量数据库VectorDBEmbeddingSearch向量数据库VectorDB八、SFT

无一郎的技术圈·2024-01-17 02:06

一文搞懂大模型RAG应用（附实践案例）

相对于成本昂贵的“PostTrain”或“SFT”，基于RAG的技术方案往往成为一种更优选择。本文从RAG架构入手，详细介绍相关技术细节，并附上一份实践案例。什么是RAG?

AIPHIL·2024-01-16 06:27

实战案例：chatglm3 基础模型多轮对话微调

chatglm3发布了，这次还发了base版本的模型，意味着我们可以基于这个base模型去自由地做SFT了。本项目实现了基于base模型的SFT。

机器学习社区·2024-01-13 02:46

SFT会改善LLM性能，RLHF可能会损害性能

SFT（StructuredFine-Tuning）是一种模型优化技术，它通过在预训练的语言模型上进行有针对性的微调，以适应特定任务或领域。

小草cys·2024-01-11 19:26

LLaMA Efficient Tuning

文章目录LLaMAEfficientTuning安装数据准备浏览器一体化界面单GPU训练train_bash1、预训练pt2、指令监督微调sft3、奖励模型训练rm4、PPO训练ppo5、DPO训练dpo

小田_·2024-01-10 07:22

前置判断-Detection

后介绍一种模型直接拒绝回答的方案，和RLHF里面的事实性原则类似，这里是基于SFT的模型自我拒绝方案，不过个人对

人工智能小豪·2024-01-09 02:28

GPT实战系列-简单聊聊LangChain

本地化部署实战方案GPT实战系列-大话LLM大模型训练GPT实战系列-探究GPT等大模型的文本生成GPT实战系列-Baichuan2等大模型的计算精度与量化GPT实战系列-GPT训练的Pretraining，SFT

Alex_StarSky·2024-01-08 11:55

【LLM+RS】LLM在推荐系统的实践应用（华为诺亚）

山顶夕景·2024-01-02 04:44

just recode for myself 统计大模型SFT的结果与version2中text的结果bad case

问题描述：利用Qwen大模型进行SFT(lora)。

薰珞婷紫小亭子·2024-01-01 21:58

大模型训练过程概述

从该图可知大模型训练主要有4步：Pretraining—预训练阶段SupervisedFinetuning（SFT）—监督微调，也叫指令微调阶段RewardModeling—奖励模型训练阶段ReinforcementLearning

机器学习社区·2024-01-01 00:19

基于人类反馈的强化学习（RLHF）

1.监督微调（SFT）：为了训练语言模型（LM）掌握基本的任务执行技能，首先需要构建一个监督数据集。这个数据集包含了指令性的输入提示和期望的输出结果，通过这些数据对LM进行精细调整。

samoyan·2023-12-30 19:20

李明然读书打卡759天 2021/4/26《建构解决之道》②

学习sft需要经过三个层次的阶段整合：第一层次的整合，是将sfbt的技巧整合入既存的治疗取向；第二层次的整合，为开始采用sfbt的技巧与核心信念作为治疗的基础；第三层次的整合，则是将sfbt的核

然子_50bd·2023-12-28 08:47

ERC-3525 开发入门指南

ERC-3525标准是以太坊社区批准通过的半匀质化通证（SemifungibleToken,亦称为半同质化通证，简称SFT）标准，由SolvProtocol提出。

myan·2023-12-27 13:32

百川2大模型微调问题解决

微调百川2就没那么顺利了，所以简单做个记录1.数据准备，我的数据是单轮对话，之前微调llama2已经按照sft格式做好txt文件，翻看https://github.com/baichuan-inc/Baichuan2

xiexiecn·2023-12-25 00:13

认识“DRESS”：通过自然语言反馈与人类协调和互动的大视觉语言模型 (LVLM)

然而，LVLM只需要手工制作或LLM生成的数据集即可通过监督微调(SFT)进行对齐。尽管将LVLM从标题生成器更改为服从指令的模型效果很好，但LVLM仍然会生成有害的、恶意的或无用的回复。

Mars_prime·2023-12-23 18:03

面向 NLP 任务的大模型 Prompt 设计

很久之前，我们介绍到，prompt是影响下游任务的关键所在，当我们在应用chatgpt进行nlp任务落地时，如何选择合适的prompt，对于SFT以及推理环节尤为重要。

机器学习社区·2023-12-21 14:22

HuatuoGPT模型介绍

文章目录HuatuoGPT模型介绍LLM4Med（医疗大模型）的作用ChatGPT存在的问题HuatuoGPT的特点ChatGPT与真实医生的区别解决方案用于SFT阶段的混合数据基于AI反馈的RL评估单轮问答多轮问答人工评估

dzysunshine·2023-12-20 07:25

国产ToolLLM的课代表---OpenBMB机构（清华NLP）旗下ToolBench的安装部署与运行（附各种填坑说明）

ToolBench的简介该项目旨在构建开源、大规模、高质量的指令调整SFT数据，以促进构建具有通用工具使用能力的强大LLMs。其目标是赋

碧海饮冰·2023-12-19 17:01

LLM Agent发展演进历史（观看metagpt视频笔记）

技术路径演进大致是：SSL(Self-SupervisedLearning)->SFT(SupervisedFineTune)==IT(InstructionTuning)->RLHF。

峰峰jack·2023-12-19 10:46

GPT实战系列-大话LLM大模型训练

GPT实战系列-大话LLM大模型训练GPT实战系列-探究GPT等大模型的文本生成GPT实战系列-Baichuan2等大模型的计算精度与量化GPT实战系列-GPT训练的Pretraining，SFT，RewardModeling

Alex_StarSky·2023-12-18 18:11

GPT实战系列-探究GPT等大模型的文本生成

GPT实战系列-探究GPT等LLM文本生成GPT专栏文章：GPT实战系列-Baichuan2等大模型的计算精度与量化-CSDN博客GPT实战系列-GPT训练的Pretraining，SFT，RewardModeling

Alex_StarSky·2023-12-18 18:09

详解各种LLM系列｜（2）LLaMA 2模型架构、预训练、SFT内容详解 (PART-1)

为了更深入地理解Llama2的技术特点，特地在此整理了Llama2模型架构、预训练、SFT的内容详解，对于后续的RLHF和安全性分析，由于篇幅原因，笔者将写另一篇来介绍。话不多说，直接上干货啦一、LL

Sunny_AI_addict·2023-12-18 03:36

字节“开盒”OpenAI所有大模型，揭秘GPT-3到GPT-4进化路径！把李沐都炸出来了

比如：SFT是早期GPT进化的推动者帮助GPT提升编码能力的最大功臣是SFT和RLHF在预训练中加入代码数据则提升了后续GPT版本的各方面能力，尤其是推理……创业后忙得不可开交的AI大牛李沐看完，也久违地

QbitAl·2023-12-18 02:04

通用大模型训练过程必须经历的四个阶段！

从该图可知大模型训练主要有4步：Pretraining—预训练阶段SupervisedFinetuning（SFT）—监督微调，也叫指令微调阶段RewardModeling—奖励模型训练阶段ReinforcementLearning

Python算法实战·2023-12-16 11:03

LLaMA-Factory微调ChatGLM3报错： Segmentation fault (core dumped)

SFT训练模型的命令CUDA_VISIBLE_DEVICES=0pythonsrc/train_bash.py\--stagesft\--model_name_or_pathmodels/chatglm3

ybdesire·2023-12-15 13:19

不用再找，这是大模型 LLM 微调经验最全总结

PS：在对Chat类模型进行SFT时，一定要遵循模型原始的系统指令，否则会出现严重的遗忘或微调效果不明显现象。https://github.com/Hello-MLClub/ChatGLM-Finet

Python算法实战·2023-12-15 02:32

一文搞懂 chatGPT 原理

训练过程总览理清演化路径预训练(pretrain)GPT-3概述GPT3模型的理念GPT-3如何学习数据集指令微调(InstructionFine-Tuning，IFT)有监督微调(SupervisedFine-tuning,SFT

Python算法实战·2023-12-05 11:34

GPT实战系列-GPT训练的Pretraining，SFT，Reward Modeling，RLHF

GPT实战系列-GPT训练的Pretraining，SFT，RewardModeling，RLHF文章目录GPT实战系列-GPT训练的Pretraining，SFT，RewardModeling，RLHFPretraining

Alex_StarSky·2023-11-27 11:09

2020.11.7原焦点团队网初21张景云坚持分享第242天

在咨询师与当事人开始互动和逐步理解困境的过程中，因为sft的技巧介入，常会开始出现一些扭转当事人想法的因子。

燕子归来_2fae·2023-11-25 08:11

LLM-2022：InstructGPT【GPT3-（问题和答案拼成一段对话，使用这些对话微调GPT3）-＞SFT（监督微调）-（SFT的答案排序后的数据集上再训练）-＞RM-＞RL（强化学习）】

一、前言GPT系列是OpenAI的一系列预训练文章，GPT的全称是GenerativePre-TrainedTransformer，顾名思义，GPT的目的就是通过Transformer为基础模型，使用预训练技术得到通用的文本模型。目前已经公布论文的有文本预训练GPT-1，GPT-2，GPT-3，以及图像预训练iGPT。据传还未发布的GPT-4是一个多模态模型。最近非常火的ChatGPT和今年年初公

u013250861·2023-11-22 22:34

大语言模型（LLM）预训练数据集调研分析

PaperWeekly·2023-11-22 22:30

推荐频道

SFT