rlhf

SFT与RLHF的关系

在大模型训练中，SFT（监督微调）和RLHF（基于人类反馈的强化学习）是相互关联但目标不同的两个阶段，通常需要结合使用以优化模型性能，而非互相替代。

一只积极向上的小咸鱼·2025-03-04 11:12

全网国内外总结Prompt&LLM论文，开源数据&模型，AIGC应用（持续更新，收藏查看）

全网国内外总结Prompt&LLM论文，开源数据&模型，AIGC应用（持续更新，收藏查看）目录顺序如下国内外，垂直领域大模型Agent和指令微调等训练框架开源指令，预训练，rlhf，对话，agent训练数据梳理

代码讲故事·2025-03-01 07:54

微调 LLM （RLHF + DPO）

微调LLM（RLHF+DPO）使用强化学习（RL）根据人类反馈微调大语言模型（即RLHF）的方法，以及一种更有效的改进方法（即DPO）。

·2025-02-27 21:56

解读 DeepSeek 关键 RL 算法 GRPO

DeepSeekGRPO：面向超大规模RLHF的梯度正则化策略优化算法引言在当下人工智能蓬勃发展的浪潮里，DeepSeek无疑是一颗耀眼的明星，频繁出现在各类科技前沿讨论中，热度持续攀升。

进一步有进一步的欢喜·2025-02-26 08:16

deepseek和ChatGPT 4o比较

后训练+RL/RLHFDeepSeekR1等推理模型是在通用模型的基础上进行“特训”（后训练+SFT/RL/RLHF），使其不仅知道得多还用得好

调皮的芋头·2025-02-19 02:46

SFT（监督微调）和RLHF（基于人类反馈的强化学习）的区别

SFT（监督微调）和RLHF（基于人类反馈的强化学习）的区别STF（SupervisedFine-Tuning）和RLHF（ReinforcementLearningfromHumanFeedback）

钟小宇·2025-02-18 18:11

开源大模型性能追平闭源模型技术路径分析

（预测实现时间：2025Q2）开源模型进化路径MoE架构稀疏训练分布式RLHF2024突破2023现状2025超越性能反超一、现状对比与瓶颈分析（2024Q3）1.核心差距量化指标能力维度闭源模型均值开源模型均值差距比例复杂推理

Mr' 郑·2025-02-15 20:05

【Python】科研代码学习：十七模型参数合并，safetensors / bin

知识点：save_pretrained还会新增的文件知识点：在保存模型参数时，大小发生了成倍的变化前言众所周知，LLM的模型参数一般保存在.safetensors或者.bin结尾的大文件但是通过一个RLHF

溢流眼泪·2025-02-12 10:08

【NLP算法面经】NLP算法面经 -- 腾讯 VS 美团（附面题）

全面整理ʘ‿ʘ）一、大模型（LLMs）基础面大模型（LLMs）架构篇注意力机制（Attention）篇Transformer理论篇二、大模型微调面有监督微调（SFT）篇高效微调篇提示学习篇人类对齐训练（RLHF

青松ᵃⁱ·2025-02-11 13:37

RLHF代码解读

参考资料参考资料代码RLHF训练流程SFT 将人类打好标签的数据输入到一个预训练的模型，进行languagemodeling。

木木木马马·2025-02-11 00:25

大模型入门（六）—— RLHF微调大模型

一、RLHF微调三阶段参考：https://huggingface.co/blog/rlhf1）使用监督数据微调语言模型，和fine-tuning一致。

LLM.·2025-02-10 23:17

大模型学习笔记 - LLM 对齐优化算法 DPO

训练的目标是语言模型损失，任务是nexttokenprediction，生成的token不可控，为了让大模型能生成符合人类偏好的答案(无毒无害等）一般都会进行微调和人类对齐，通常采用的方法是基于人类反馈的强化学习方法RLHF.RLHF

JL_Jessie·2025-02-10 03:54

AI大模型学习的七个阶段，学完你就是大模型大师！

预训练、SFT、RLHF。第三阶段：编程基础与工具使用目标：掌握大

AGI大模型老王·2025-02-04 19:48

VSCode：deepspeed调试【.vscode/launch.json配置】

在控制台利用whichdeepspeed找到deepspeed路径：/home/wyr/anaconda3/envs/rlhf/bin/deepspeed{//使用IntelliSense了解相关属性。

u013250861·2025-01-31 10:05

【llm对话系统】RL强化学习的技术演进与RLHF

一、强化学习基础知识强化学习(ReinforcementLearning,RL)是一种机器学习方法，它通过智能体(Agent)与环境(Environment)的交互来学习如何行动以最大化累积奖励(Reward)。1.核心概念:智能体(Agent):做出决策并采取行动的学习者。环境(Environment):智能体所处的外部世界，对智能体的行动做出反应。状态(State,S):对环境当前情况的描述。

kakaZhui·2025-01-28 00:47

Direct Preference Optimization (DPO): 一种无需强化学习的语言模型偏好优化方法

现有的方法通常通过**强化学习从人类反馈（RLHF）**来引导模型行为，但RLHF存在以下问题：复杂性高：RLHF需要先训练一个奖励模型来反映人类偏好，然后使用强化学习来微调语言模型，使其在最大化奖励的

Yuleave·2025-01-26 09:12

RLHF技术演进：从理论突破到工程实践

标题：RLHF技术演进：从理论突破到工程实践文章信息摘要：RLHF技术作为大语言模型发展的关键突破点，在ChatGPT的成功实践中得到验证。

XianxinMao·2025-01-25 00:26

RLHF技术应用探析：从安全任务到高阶能力提升

标题：RLHF技术应用探析：从安全任务到高阶能力提升文章信息摘要：该分析探讨了RLHF技术在三个主要应用方向的发展现状和潜力。

XianxinMao·2025-01-24 19:48

大模型的实践应用29-大语言模型的RLHF(人类反馈强化学习)的具体应用与原理介绍

大家好，我是微学AI，今天给大家介绍一下大模型的实践应用29-大语言模型的RLHF(人类反馈强化学习)的具体应用与原理介绍。

微学AI·2024-09-11 19:47

大模型LLM面试常见算法题-包括Attention和Transformer常见面试题

RLHF完整训练过程是什么？为什么RLHF的效果这么好?RLHF使用的训练数据是什么样的?RAG和微调的区别是什么？有了解过什么是稀疏微调

剑圣土豆·2024-09-10 15:57

LLM系列(3)：探索大模型RLHF优化之道：DeepSpeed-Chat超快速入门，对齐训练精度提升一步到位

LLM系列(3)：探索大模型RLHF优化之道：DeepSpeed-Chat超快速入门，对齐训练精度提升一步到位随着ChatGPT的惊艳表现，各类大模型产品如雨后春笋丛出不穷。

汀、人工智能·2024-09-07 04:18

大模型对齐方法笔记一：DPO及其变种IPO、KTO、CPO

月的斯坦福大学研究院的论文《DirectPreferenceOptimization:YourLanguageModelisSecretlyaRewardModel》，大概是2023-2024年最广为人知的RLHF

chencjiajy·2024-09-01 15:36

大模型训练和推理

文章目录一、NLP基础1.Tokenizer2.positionencoding3.注意力机制与transformer架构二、大模型训练1.SFT训练2.RLHF训练3.分布式并行训练技术（1）模型并行

李明朔·2024-08-30 01:27

ETH：通过文本反馈提高LLM对齐能力

重点思路相关工作对齐：此前的研究已成功利用RLHF来增强LL

大模型任我行·2024-08-28 15:02

大模型19：微调大模型方法

有监督微调（SFT）、奖励模型（RM）训练，以及基于人类反馈的强化学习（RLHF）训练1.有监督微调（SFT-SupervisedFine-Tuning）数据处理数据收集：首先，需要收集大量的对话数据。

bluewelkin·2024-08-27 01:38

强化学习入门到不想放弃-1

本来想写到深度学习里的，但是线下和别人聊RLHF，和PPO,DPO的时候，我发现大家一脑袋问号，其实也正常，深度学习里面数学的东西没那么多，入门容易一点，强化学习（现在也都谈强化深度学习，或者深度强化学习了

周博洋K·2024-02-20 06:29

NLP_ChatGPT的RLHF实战

文章目录介绍小结介绍ChatGPT之所以成为ChatGPT，基于人类反馈的强化学习是其中重要的一环。而ChatGPT的训练工程称得上是复杂而又神秘的，迄今为止，OpenAl也没有开源它的训练及调优的细节。从OpenAl已经公开的一部分信息推知，ChatGPT的训练主要由三个步骤组成，如下图所示。原文：译文：第1步，先使用大量数据(从Prompt数据库中抽样)通过监督学习在预训练的GPT-3.5基础

you_are_my_sunshine*·2024-02-15 09:41

使用 LoRA 在 viggo 数据集上微调 Microsoft phi-2 小语言模型

Phi-2是一个27亿个参数的预训练Transformer，不使用RLHF或指示微调。它进行下一个标记预测，并可用于问答、聊天格式和代码生成中的文本生成。

无水先生·2024-02-05 18:54

一文打通RLHF的来龙去脉

文章目录1.RLHF的发展历程2.强化学习2.1强化学习基本概念2.2强化学习分类2.3PolicyGradient2.3.1addabaseline2.3.2assignsuitablecredit2.4TRPO

orangerfun·2024-02-04 02:55

谷歌发布West-of-N，利用合成数据，显著提升LLM奖励模型质量 | 今日Arxiv最热大模型论文

这为改善人类反馈强化学习（RLHF）在语言模型对齐上提供了新的研究方向。引言：人类反馈对语言模型的影响在人工智能领域，语言模型的发展已经达到了令人瞩目的水平，它们能够生成流畅、连贯且在很多

夕小瑶·2024-01-29 12:51

RLHF代码

https://github.com/CarperAI/trlx/blob/main/examples/summarize_rlhf/reward_model/reward_model.pyhttps:

银晗·2024-01-25 08:21

基于Ray和vLLM构建70B+模型的开源RLHF全量训练框架

背景ChatGPT已经问世一年+了，在训练ChatGPT中必不可少的一环是RLHF训练，目前开源社区已经有了不少RLHF训练框架比如，TRL,DeepSpeedChat或者最近热门的LLaMAFactory

AI知识图谱大本营·2024-01-22 06:28

大模型关键技术：上下文学习、思维链、RLHF、参数微调、并行训练、旋转位置编码、模型加速、大模型注意力机制优化、永久记忆、LangChain、知识图谱、多模态

大模型关键技术大模型综述上下文学习思维链CoT奖励建模参数微调并行训练模型加速永久记忆：大模型遗忘LangChain知识图谱多模态大模型系统优化AI绘图幻觉问题从GPT1-GPT4拆解GPTs对比主流大模型技术点旋转位置编码层归一化激活函数注意力机制优化大模型综述你知道嘛，那个叫大规模语言模型，简单说就像是个超级大的脑袋，里头装的东西比咱们想的还要多，参数得有几百亿那么多。这玩意儿就像是自学成才的

Debroon·2024-01-19 14:14

大模型入门0: 基础知识

大模型0基础知识:transformer基础与NLP1参数量预估与scalinglaw2sft3RAG与langchain4prompt5rlhf6agent7分布式训练8推理优化9传统任务本文结构transformer

YueTann·2024-01-19 05:07

AI 反馈强化学习的工作原理

人类反馈强化学习（RLHF）作为提高LLM安全性

无水先生·2024-01-18 03:29

LLM大模型工程入门级知识初探

CodeInterpreter四、函数支持FunctionCall五、外部集成LangChain六、Embedding与向量数据库VectorDBEmbeddingSearch向量数据库VectorDB八、SFT、RLHF

无一郎的技术圈·2024-01-17 02:06

ChatGPT提示词工程进阶

两种大型语言模型基础大模型(BaseLLM)基于训练数据预测下文指令调优大模型(InstructionTunedLLM)尝试听从指令基于基础大模型，进一步使用指令内容输入+遵循指令内容输出来训练和微调模型RLHF

lichunericli·2024-01-15 09:11

原创 | 一文读懂ChatGPT中的强化学习

在OpenAI的2022年论文《通过人类反馈训练语言模型以遵循指令》中对来自人类反馈的强化学习（RLHF）进行了深入描述。创建者将监督学习和强化学习相结合来微调ChatGPT，强化学

javastart·2024-01-12 12:07

RLHF与LLM训练的碰撞：寻找最佳实践之路！

wwlsm_zql·2024-01-12 09:50

使用 RLHF 训练 LLaMA 的实践指南：StackLLaMA

由于LLaMA没有使用RLHF，后来有一个初创公司NebulyAI使用LangChainagent生成的数据集对LLaMA模型使用了RLHF进行学习，得到了ChatLLaMA模型，详情请参考：Meta开源的

wshzd·2024-01-12 05:05

SFT会改善LLM性能，RLHF可能会损害性能

SFT（StructuredFine-Tuning）是一种模型优化技术，它通过在预训练的语言模型上进行有针对性的微调，以适应特定任务或领域。SFT可以提高性能的原因有几个：领域自适应：预训练的语言模型通常在大规模通用语料库上进行训练，而SFT可以通过在特定领域的数据上微调模型，使其更好地适应该领域的特定模式、术语和上下文。这种领域自适应可以提高模型在特定任务或领域中的性能。数据增强：SFT通常会使

小草cys·2024-01-11 19:26

#Paper Reading# Training language models to follow instructions with human feedback

arxiv.org/abs/2203.02155论文发表于:arXiv2022论文所属单位:OpenAI论文大体内容本文主要提出了GPT-3.5（InstructGPT）模型，通过使用人类反馈的数据集进行监督学习（RLHF

John159151·2024-01-11 06:48

了解一下InternLM1

在此基础上，通过高质量的人类标注对话数据结合RLHF等技术，使得InternLM可以在与人类对话时响应复杂指令，并且表现出符合人类道德与价值观的回复。书生·浦

羞儿·2024-01-09 23:24

前置判断-Detection

后介绍一种模型直接拒绝回答的方案，和RLHF里面的事实性原则类似，这里是基于SFT的模型自我拒绝方案，不过个人对

人工智能小豪·2024-01-09 02:28

ChatGPT 原来是这样工作的（下）

所使用的具体技术是RLHF。那么ChatGPT是如何利用人类反馈来解决一致性问题的呢？今天我们就接着来讲一讲。

城北楠哥·2024-01-06 15:45

【LMM 004】LLaVA-RLHF：用事实增强的 RLHF 对齐大型多模态模型

论文标题：AligningLargeMultimodalModelswithFactuallyAugmentedRLHF论文作者：ZhiqingSun,ShengShen,ShengcaoCao,HaotianLiu,ChunyuanLi,YikangShen,ChuangGan,Liang-YanGui,Yu-XiongWang,YimingYang,KurtKeutzer,TrevorDarr

datamonday·2024-01-02 13:58

Text-to-SQL小白入门（十）RLHF在Text2SQL领域的探索实践

本文内容主要基于以下开源项目探索实践，Awesome-Text2SQL:GitHub-eosphoros-ai/Awesome-Text2SQL:CuratedtutorialsandresourcesforLargeLanguageModels,Text2SQL,Text2DSL、Text2API、Text2Visandmore.DB-GPT-Hub：GitHub-eosphoros-ai/DB

junewgl·2023-12-31 13:07

偏好对齐RLHF-OpenAI·DeepMind·Anthropic对比分析

OpenAIpaper:InstructGPT,Traininglanguagemodelstofollowinstructionswithhumanfeedbackpaper:LearningtosummarizefromhumanfeedbackIntroducingChatGPT解密Prompt系列4介绍了InstructGPT指令微调的部分，这里只看偏好对齐的部分样本构建RL的数据来源有两

人工智能小豪·2023-12-30 21:08

基于人类反馈的强化学习（RLHF）

1.监督微调（SFT）：为了训练语言模型（LM）掌握基本的任务执行技能，首先需要构建一个监督数据集。这个数据集包含了指令性的输入提示和期望的输出结果，通过这些数据对LM进行精细调整。为了保证任务种类的广泛性，这些输入提示和输出结果需由专业标注人员针对特定任务量身定制。例如，InstructGPT项目中，标注人员会创造性地编写输入提示（比如，“给出五个重燃职业激情的建议”）和对应的输出，覆盖了开放式

samoyan·2023-12-30 19:20

准备迎接超级人工智能系统，OpenAI宣布RLHF即将终结！超级对齐技术将接任RLHF，保证超级人工智能系统遵循人类的意志

本文原文来自DataLearnerAI：准备迎接超级人工智能系统，OpenAI宣布RLHF即将终结！

数据学习（Datalearner）·2023-12-25 07:47

推荐频道