RLHF

大模型RLHF强化学习笔记（一）：强化学习基础梳理Part1

【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.1Intro定义：强化学习是一种机器学习方法，需要智能体通过与环境交互学习最优策略基本要素：状态（State）：智能体在决策过程中需要考虑的所有相关信息（环境描述）动作（Action）：在环境中可以采取的行为策略（Policy）：定义了在给定状态下智能体应该选择哪个动作，目标是最大化智能体的长期累积奖

Gravity!·2025-06-28 18:10

【LLM】两篇多模态LLM综述MultiModal Large Language Models

MM-LLM的趋势：(1)从专门强调MM理解对特定模态的生成的进展，并进一步演变为任何到任何模态的转换(例如，MiniGPT-4→MiniGPT-5→NExT-GPT)；(2)从MMPT提升到SFT，然后到RLHF

心上之秋·2025-06-24 07:49

（什么是）大模型的“越狱”（Model Jailbreaking）

核心概念安全机制的局限性：大模型在训练时会过滤掉大量有害数据，并通过“对齐训练”（如RLHF）学习人类价值观，拒绝

音程·2025-06-17 09:48

从 PPO、DPO 到 GRPO：大语言模型策略优化算法解析

这常通过人类反馈强化学习（RLHF）来实现。RLHF的典型流程是：先让人类对模型的不同回答进行比较，得到偏好数据，然后训练一个奖励模型来评估回答质

Gowi_fly·2025-06-16 03:26

预训练、指令微调与RLHF如何塑造LLM

大型语言模型（LLM）那令人惊叹的语言理解、生成和在特定引导下的推理能力，并非魔法的产物，而是源于一个极其复杂、耗资巨大且经过精心设计的多阶段训练过程。理解这个训练过程的核心环节——大规模无监督预训练（Pre-training）、指令微调（InstructionFine-Tuning,IFT）以及从人类反馈中强化学习（ReinforcementLearningfromHumanFeedback,R

由数入道·2025-06-15 16:15

人工智能-SFT（Supervised Fine-Tuning）、RLHF 和 GRPO

以下是SFT（SupervisedFine-Tuning）、RLHF（ReinforcementLearningfromHumanFeedback）和GRPO群体相对策略优化(GRPO，GroupRelativePolicyOptimization

高效匠人·2025-06-10 21:54

【自然语言处理与大模型】大模型（LLM）基础知识⑤

从训练数据净化、RLHF对齐、实时过滤三层技术防线入手，同时建立人工审核-用户反馈-版本回滚的流程闭环，最后通过法规映射和日志审计满足制度合规。

小oo呆·2025-05-31 01:42

DPO（Direct Preference Optimization）详解

应用背景：替代PPO实现RLHF微调流程不需要训练Reward

要努力啊啊啊·2025-05-30 10:18

英伟达：LLM多任务和语言的偏好数据集

OpenHuman-AnnotatedPreferenceDataacrossDiverseTasksandLanguages来源：arXiv,2505.11475摘要偏好数据集对于使用人类反馈强化学习（RLHF

大模型任我行·2025-05-30 08:06

秒懂基于人类反馈的强化学习（RLHF）

一、RLHF：AI界的"职场新人培训手册"想象一下，你刚入职一家公司，老板甩给你一堆文件说：“看懂了就能上岗”。这就是传统语言模型的日常——靠海量文本自学成才。结果呢？

来自于狂人·2025-05-25 09:18

模型微调DPO入门

一、定义定义数据集格式llamafactory训练案例入门文档阅读二、实现定义DPO通过直接优化语言模型来实现对其行为的精确控制，而无需使用复杂的强化学习，也可以有效学习到人类偏好，DPO相较于RLHF

贾亚飞·2025-05-23 07:08

技术上如何实现内容安全控制（如RLHF、红队测试）？

技术上如何实现内容安全控制（如RLHF、红队测试）？题目重现面试官:从伦理角度，大模型可能存在哪些潜在风险？技术上如何实现内容安全控制（如RLHF、红队测试）？

是麟渊·2025-05-23 06:55

基于 Python 的自然语言处理系列（87）：RRHF 原理与实战

✨本文介绍一种新型的人类反馈微调策略——RRHF（RankResponseswithHumanFeedback），它比传统的RLHF更简单、更稳定，在开源社区如AlpacaFarm、UltraFeedback

会飞的Anthony·2025-05-19 18:18

多模态大模型综述《A Survey on Multimodal Large Language Models》

预训练、指令微调、对齐微调（RLHF）。预训练是通用能力。使得图像对齐到llm表征空间，数据来源于互联网上的图像对。指令微调是专业能力，提升在下游任务上的性能

yang_daxia·2025-05-18 06:44

0基础也能听懂：从预训练到SFT，对话模型技术栈深度拆解！

简单来说，从基座模型到对话模型的转变需要经过四个步骤：预训练基础模型、任务适应微调（SFT）、人类反馈强化学习（RLHF），以及部署和持续优化。下面，我们就一步步拆解这个过程，看看它是怎么实现的。

AGI大模型资料分享员·2025-05-16 11:42

51-61 CVPR 2024 最佳论文 | Rich Human Feedback for Text-to-Image Generation

作者受大模型中RLHF技术的启发，用人类反馈来改进StableDiffusion等文生图模型，提出了先进的RichHF-18K数据集和多模态RAHF模型。

深圳季连AIgraphX·2025-05-14 06:39

大模型微调指南：如何获得卓越效果

目录数据质量：成功的基石微调技术选择训练过程优化评估与迭代高级技术：RLHF实战案例分析常见问题与解决方案

柳思木·2025-05-11 09:36

探索智能对话的未来：ChatGLM-LoRA-RLHF-PyTorch

探索智能对话的未来：ChatGLM-LoRA-RLHF-PyTorchChatGLM-LoRA-RLHF-PyTorch项目地址:https://gitcode.com/gh_mirrors/ch/ChatGLM-LoRA-RLHF-PyTorch

乌昱有Melanie·2025-05-10 14:04

2025最详细的学习路线，零基础入门大模型教程，让你少走99%弯路！【值得收藏】

预训练、SFT、RLHF。第三阶段：编程基础与工具使用目标：掌握大

AGI大模型学习·2025-05-10 14:03

外网爆火大模型入门教程：llm-action：让天下没有难学的大模型

从6B到65B，从全量微调到高效微调（LoRA，QLoRA，P-Tuningv2），再到RLHF（基于人工反馈的强化学习）。

LLM.·2025-05-06 11:29

DPO（Direct Preference Optimization，直接偏好优化）

它通过直接利用人类对模型输出的偏好数据（例如，“输出A比输出B更好”）来优化模型，而无需依赖传统的强化学习（RL）框架，尤其是基于人类反馈的强化学习（RLHF）中的复杂奖励模型。

爱看烟花的码农·2025-05-06 02:33

浙大：指导机制优化LLM偏好对齐

ImprovingDataUtilizationinDirectPreferenceOptimizationUsingaGuidingReferenceModel来源：arXiv,2504.15843摘要直接偏好优化（DPO）通过在没有明确奖励模型的情况下直接优化人类偏好，简化了大型语言模型（LLM）从人类反馈（RLHF

大模型任我行·2025-05-02 13:42

【大模型解惑】大模型如何在 Supervised Fine‑Tuning (SFT) 之后进行 PPO 强化学习微调？

近年来主流的大模型对齐流程已趋于“三段式”：预训练→SFT（监督微调）→RLHF（强化学习阶段，常用PPO）。

云博士的AI课堂·2025-04-30 08:27

大模型面经 | 春招、秋招算法面试常考八股文附答案（二）

目录1.大模型幻觉问题2.介绍一下常见的位置编码3.介绍一下LoRA4.AdaLoRA和QLoRA5.RLHF中，PPO需要哪几个模型，分别是什么作用?

皮先生!·2025-04-25 03:51

AI日报 - 2024年04月22日

今日概览(60秒速览)▎模型进展|Google发布Gemini2.5Flash，强调低延迟与成本效益；KlingAI2.0展示多轴运动视频生成；研究揭示SLM在知识图谱上优于LLM，RLHF在推理提升上存局限

訾博ZiBo·2025-04-24 22:15

论文阅读：2023 ICLR Safe RLHF: Safe Reinforcement Learning from Human Feedback

blog.csdn.net/WhiffeYF/article/details/142132328SafeRLHF:SafeReinforcementLearningfromHumanFeedback安全RLHF

CSPhD-winston-杨帆·2025-04-22 15:51

论文阅读：2023 arxiv A Survey of Reinforcement Learning from Human Feedback

ASurveyofReinforcementLearningfromHumanFeedbackhttps://arxiv.org/pdf/2312.14925https://www.doubao.com/chat/3506943124865538速览这篇论文是关于“从人类反馈中进行强化学习（RLHF

CSPhD-winston-杨帆·2025-04-21 12:42

从指令到聊天：LLM社区的重要发展

RLHF（ReinforcementLearningfromHumanFeedback）是一种通过人类反馈进行强化学习的技术，它在提高模型的有用性、诚实性和无害性方面起到了关键作用。

元楼·2025-04-18 06:47

领域专用对话大模型深度适配方案

核心特性解析1.1架构创新点特性LLaMA-1LLaMA-2-13B上下文窗口2048tokens4096tokens训练数据量1.4Ttokens2.0Ttokens(含40%新数据)安全对齐机制基础RLHF

Sirius Wu·2025-04-12 18:28

百度大模型岗面试，还是比较有压力的

一面自我介绍和项目介绍介绍一下了解的大模型有哪些，这些模型在结构上有什么差异说一下大模型常用的位置编码有哪些，各有什么优缺点介绍一下大模型的预训练后训练以及推理是怎么做的，并且详细问了RLHF

大模型.·2025-04-09 10:12

DeepSeek与ChatGPT：AI语言模型的全面技术解析与对比（万字深度版）

其技术路径以Transformer架构为基础，通过堆叠参数规模（如GPT-4参数量达万亿级）与强化学习对齐人类反馈（RLHF），逐

猫猫姐·2025-04-09 07:50

B站实战项目

search-card.all.click&vd_source=d303d97016e5723b9ae487b59d8329db一、简介本期视频主要分为以下五部分：1.需求和技术企业对于大模型的不同类型个性化需求SFT（有监督微调）、RLHF

Mia@·2025-04-08 22:57

AI安全算法工程师的算法笔记

AI安全这点事·2025-04-06 09:25

RLHF微调大模型---PPO原理和代码实战

目录一、前言二、RLHF原理2.1、利用RewardModel2.2、利用ActorModel2.3、优势函数2.4、训练ActorModel2.5、训练CriticModel三、代码四、参考一、前言RLHF

韭菜盖饭·2025-03-31 06:13

SFT和RLHF是什么意思？

环境：SFTRLHF问题描述：SFT和RLHF是什么意思解决方案：SFT（SupervisedFine-Tuning，监督微调）和RLHF（ReinforcementLearningfromHumanFeedback

玩人工智能的辣条哥·2025-03-25 00:15

【Dive Into Stable Diffusion v3.5】1：开源项目正式发布——深入探索SDv3.5模型全参/LoRA/RLHF训练

目录1引言2项目简介3快速上手3.1下载代码3.2环境配置3.3项目结构3.4下载模型与数据集3.5运行指令3.6核心参数说明3.6.1通用参数3.6.2优化器/学习率3.6.3数据相关4结语1引言在人工智能和机器学习领域，生成模型的应用越来越广泛。StableDiffusion作为其中的佼佼者，因其强大的图像生成能力而备受关注。今天，我的开源项目DiveIntoStableDiffusionv3

Donvink·2025-03-20 19:24

知识蒸馏 vs RLHF：目标函数与收敛分析

1.知识蒸馏（KnowledgeDistillation）知识蒸馏是一种模型压缩技术，旨在将大型复杂模型（教师模型）的知识迁移到较小的模型（学生模型）中，以提高学生模型的性能。目标函数知识蒸馏的目标函数通常由两部分组成：分类损失（StudentLoss）：学生模型的输出与真实标签之间的交叉熵损失，表示为：[Lclassification=CrossEntropy(y,q(1))=−∑i=1Nyil

从零开始学习人工智能·2025-03-18 01:48

SFT与RLHF的关系

在大模型训练中，SFT（监督微调）和RLHF（基于人类反馈的强化学习）是相互关联但目标不同的两个阶段，通常需要结合使用以优化模型性能，而非互相替代。

一只积极向上的小咸鱼·2025-03-04 11:12

全网国内外总结Prompt&LLM论文，开源数据&模型，AIGC应用（持续更新，收藏查看）

全网国内外总结Prompt&LLM论文，开源数据&模型，AIGC应用（持续更新，收藏查看）目录顺序如下国内外，垂直领域大模型Agent和指令微调等训练框架开源指令，预训练，rlhf，对话，agent训练数据梳理

代码讲故事·2025-03-01 07:54

微调 LLM （RLHF + DPO）

微调LLM（RLHF+DPO）使用强化学习（RL）根据人类反馈微调大语言模型（即RLHF）的方法，以及一种更有效的改进方法（即DPO）。

·2025-02-27 21:56

解读 DeepSeek 关键 RL 算法 GRPO

DeepSeekGRPO：面向超大规模RLHF的梯度正则化策略优化算法引言在当下人工智能蓬勃发展的浪潮里，DeepSeek无疑是一颗耀眼的明星，频繁出现在各类科技前沿讨论中，热度持续攀升。

进一步有进一步的欢喜·2025-02-26 08:16

deepseek和ChatGPT 4o比较

后训练+RL/RLHFDeepSeekR1等推理模型是在通用模型的基础上进行“特训”（后训练+SFT/RL/RLHF），使其不仅知道得多还用得好

调皮的芋头·2025-02-19 02:46

SFT（监督微调）和RLHF（基于人类反馈的强化学习）的区别

SFT（监督微调）和RLHF（基于人类反馈的强化学习）的区别STF（SupervisedFine-Tuning）和RLHF（ReinforcementLearningfromHumanFeedback）

钟小宇·2025-02-18 18:11

开源大模型性能追平闭源模型技术路径分析

（预测实现时间：2025Q2）开源模型进化路径MoE架构稀疏训练分布式RLHF2024突破2023现状2025超越性能反超一、现状对比与瓶颈分析（2024Q3）1.核心差距量化指标能力维度闭源模型均值开源模型均值差距比例复杂推理

Mr' 郑·2025-02-15 20:05

【Python】科研代码学习：十七模型参数合并，safetensors / bin

知识点：save_pretrained还会新增的文件知识点：在保存模型参数时，大小发生了成倍的变化前言众所周知，LLM的模型参数一般保存在.safetensors或者.bin结尾的大文件但是通过一个RLHF

溢流眼泪·2025-02-12 10:08

【NLP算法面经】NLP算法面经 -- 腾讯 VS 美团（附面题）

全面整理ʘ‿ʘ）一、大模型（LLMs）基础面大模型（LLMs）架构篇注意力机制（Attention）篇Transformer理论篇二、大模型微调面有监督微调（SFT）篇高效微调篇提示学习篇人类对齐训练（RLHF

青松ᵃⁱ·2025-02-11 13:37

RLHF代码解读

参考资料参考资料代码RLHF训练流程SFT 将人类打好标签的数据输入到一个预训练的模型，进行languagemodeling。

木木木马马·2025-02-11 00:25

大模型入门（六）—— RLHF微调大模型

一、RLHF微调三阶段参考：https://huggingface.co/blog/rlhf1）使用监督数据微调语言模型，和fine-tuning一致。

LLM.·2025-02-10 23:17

大模型学习笔记 - LLM 对齐优化算法 DPO

训练的目标是语言模型损失，任务是nexttokenprediction，生成的token不可控，为了让大模型能生成符合人类偏好的答案(无毒无害等）一般都会进行微调和人类对齐，通常采用的方法是基于人类反馈的强化学习方法RLHF.RLHF

JL_Jessie·2025-02-10 03:54

AI大模型学习的七个阶段，学完你就是大模型大师！