community_301

ChatGPT 中的人类反馈强化学习 (RLHF) 实战

1 前言

在当今数字化的时代，ChatGPT 的火热程度不断升级。ChatGPT 可以处理复杂的语言任务，从而解放人力资源，提高工作效率，减少成本。ChatGPT 的先进技术和广泛应用，使得它成为了当今最炙手可热的人工智能技术之一。无论是企业、学术机构，还是科技爱好者，都对 ChatGPT 的应用前景充满期待。

在这样的背景之下，CSDN AI 团队也想对 ChatGPT 进行简单的复现。根据ChatGPT官方博客可知，ChatGPT的训练方法与 InstructGPT 的训练方法基本一致 (如图1所示)，只是使用的数据集不一样。故在训练方法上，我们主要参考 InstructGPT 进行复现，基础模型使用的是 RWKV，拆分后共包含以下四个阶段：

(1) 语言模型预训练 (Language Model Pre-training)；
(2) 有监督指令微调 (Supervised Fine-Tuning, SFT)；
(3) 奖励模型的训练 (Reward Modeling, RM);
(4) 使用近端策略优化算法进行强化学习 (Proximal Policy Optimization, PPO).

第 (1)、(2) 阶段的 Pre-training 和 SFT 由 @zxm2015 完成，可参考文章大语言模型浅探一。本文主要介绍第 (3)、(4) 阶段的内容，即人类反馈强化学习 (Reinforcement Learning from Human Feedback, RLHF)。

图1 InstructGPT 模型的训练过程

2 人类反馈强化学习 (RLHF)

人类反馈强化学习 (RLHF) 是 ChatGPT 中一种用于改善其回答效果的算法。它是一种基于强化学习的方法，通过结合人类反馈来优化 ChatGPT 的回答。

在 RLHF 中，ChatGPT 学习通过和人类用户的交互来提高其回答的质量。当 ChatGPT 生成一个回答时，它会将回答展示给用户并请求用户的反馈。用户可以对回答进行评分，比如“好”、“不错”、“一般”、“差”等。ChatGPT 会将用户的反馈作为奖励或惩罚信号，以此来更新自己的模型，以更好地满足用户的需求。

RLHF 可分为两个部分。第一部分是奖励模型，人类反馈主要就体现在这个地方；第二部分采用近端策略优化算法的强化学习阶段，基于奖励模型的反馈来优化模型，最终得到满足人类偏好的语言模型。下面将对这两个部分进行详细的说明。

2.1 奖励模型 (RM)

在 RLHF 之前，语言模型已经进行了 SFT (后续称该模型为 SFT Model)，而奖励模型的任务主要是对 SFT Model 的回复进行打分，打分越高表示回答效果越好。训练好奖励模型之后，就可以用于下一阶段的 PPO 进行强化学习的调优，奖励模型是 PPO 中的一个子部分，用于 PPO 训练时提供奖励信号。

(1) 模型的输入输出
模型的输入是用户提问 (Prompt) 和 SFT Model 回复 (Response) 的 pair 对，输出是一个奖励得分，如下图所示：

图2 RM 的输入和输出

(2) 数据集的构建
这个阶段主要是通过人工标注训练数据，来训练 RM，人类反馈就体现在这个地方。在 Prompts 数据集中随机抽取问题，对于每个问题，生成 K 个不同的回答。人类标注者对这些结果综合考虑（例如：相关性、富含信息性、有害信息等诸多标准）给出排名顺序。

按照上述奖励模型的输入输出描述，构建数据集时应该是人工对进行打分，但实际上对多个回答进行打分比较困难，得分是连续的，这会降低标注的速度。此外，我们其实关注的是多个选项之间哪个更好，哪个更差。所以标注的时候对多个选项进行排序就可以了，最后基于排序后的回答，构建数据集，选用合适的损失函数即可。

通常情况下，人类进行排序任务，当选项为 4-9 个 (即 K∈{4, 5, 6, 7, 8, 9}) 时速度最快且效果最准确，此处我们设定 K=4。最终一个 Prompt 我们就可以得到 C(4, 2)=6 条训练样本。

具体而言，假设我们选定了一个问题 x，接着使用 SFT Model 生成了 4 个回答 {y1, y2, y3, y4}，人类标注者进行排序后为 y4 > y3 > y1 > y2}，则得到的训练样本如下所示，左边的得分要高于右边：

(, )
(, )
(, )
(, )
(, )
(, )

(3) 损失函数
根据上面构建的数据集可知，我们没有连续的得分目标去训练奖励模型，但是有正负例样本对，所以损失函数如下所示，该损失函数需要最小化：

其中，r(x,y) 为输入到 RM 模型的得分，θ 是 RM 的参数，yw 和 yl 是输入为 x 时，SFT Model 生成的不同回答，其中人工标注时 yw > yl.

# loss function
def loss_function(prefer_reward, alter_reward):
    return -torch.mean(torch.log(torch.sigmoid(prefer_reward - alter_reward)))

(4) 核心代码
RM 的网络结构相比于 SFT Model，并不需要做太大的改动，输入后，直接取最后一个 token 的 embedding，在其后面接一个线性层计算奖励得分即可

a) 线性层：

# reward 得分计算
self.pred_reward = nn.Linear(dim, 1, bias=False)

b) forword 函数

    def forward(
        self,
        x,
        mask = None,
        prompt_mask = None,
        prompt_lengths = None
    ):

        # prompt_mask 和 prompt_lengths 只能二选一
        assert not (exists(prompt_mask) and exists(prompt_lengths))

        # derive prompt mask from prompt lengths
        if exists(prompt_lengths):
            batch, seq_len = x.shape
            arange = torch.arange(seq_len, device=x.device)
            prompt_mask = repeat(arange, 'n -> b n', b = batch) < rearrange(prompt_lengths, 'b -> b 1')

        # reward model should have an understanding of which section is prompt, and which section is response
        # 根据 prompt_mask 中 token 的 True 和 False，从 prompt_embed 或 response_embed 中取值
        # 如果为 True，则从 prompt_embed 中选，否则从 response_embed 中选
        prompt_response_mask_embed = torch.stack([
            self.prompt_embed,
            self.response_embed,
            self.padding_embed
        ]).to(prompt_mask.device)
        extra_embed = None
        if exists(prompt_mask):
            extra_embed = prompt_response_mask_embed[prompt_mask]            

        # 获得最后一个 token 的 embedding
        last_token_embeds = self.rwkv(
            x,
            extra_embed=extra_embed,
            rm_train=True
        )[:, -1, :]

        # 计算奖励
        reward = self.pred_reward(last_token_embeds)
        reward = reward.squeeze(-1)

        return reward

c) train_forward 函数

    def train_forward(self, x_p, x_a, m_p, m_a):
        # 因为前向传播的时候，需要过两次模型。所以反馈的时候需要冻结其中一次的参数
        # 不然梯度会被计算两次，在包含 deepspeed 框架下会报错
        # 报错信息：Gradient computed twice for this partition.

        with torch.enable_grad():
            prefer_reward = self.forward(x_p, prompt_mask=m_p)
        with torch.no_grad():
            alter_reward = self.forward(x_a, prompt_mask=m_a)

        return prefer_reward, alter_reward

2.2 近端策略优化算法 (PPO)

近端策略优化算法（Proximal Policy Optimization, PPO）是一种深度强化学习算法，其目标是学习一个能够最大化长期累积回报的策略。

图3 PPO 训练架构详细版本

(1) PPO算法包含以下几个主要部分：

a) 策略网络 (Policy Network)
用于学习并输出给定状态下不同行动的概率分布。它通常是一个神经网络，可以根据环境的反馈进行更新。对应图3中的 Actor，使用 SFT Model 进行初始化，在 PPO 中需要参与训练。
b) 价值网络 (Value Network)
用于预测给定状态的预期回报值。它通常也是一个神经网络，它的输出可以用来计算优势函数，从而帮助更新策略网络。对应图3中的 Critic，使用 RM 进行初始化，在 PPO 中需要参与训练。
c) 奖励模型
对应图3中的 Reward Model，是 2.1 节中训练得到的模型，在 PPO 中不参与训练，只提供奖励信号，用于 PPO 的训练。
d) SFT Model
对应图3中的 Supervised Fine-Tune Model，用于更新策略网络，以使其能够产生更好的策略。通过限制每次更新的幅度，从而确保更新后的策略与原始策略之间的差异不会太大。该部分可以参与训练，也可以不参与，当参与训练时，PPO 被称为 PPO-ptx。
e) 经验采样
用于收集与环境交互的经验数据，以供策略网络和价值网络的更新使用。在PPO算法中，经验采样通常采用基于行动价值估计的策略。对应图3中顶部的 Prompts -> Actor -> Response 流程。

图4 PPO 训练架构简化版本

(2)损失函数

a) actor loss (也称为 policy loss, 是最终要使用模型的 loss)

其中，πRL 是 actor，πSFT 是已经训练好的 SFT Model。损失函数的第1项和第2项是核心部分，第3项是可选项。该损失函数需要最大化。具体如下：
- 第一项：这一项是奖励模型 RM 奖励得分，奖励需要最大化；
- 第二项：这一项被用于惩罚 RL 策略在每个训练批次中生成大幅偏离初始模型，以确保模型输出合理连贯的文本。如果去掉这一惩罚项可能导致模型在优化中生成乱码文本来愚弄奖励模型提供高奖励值；
- 第三项：这一项是预训练梯度 (可选项)，传统的 PPO 中一般不包含该项，InstructGPT 中加入这一项是为了避免 RLHF 导致大模型在公开的 NLP 评测任务上效果下降。加入该项之后被命名为 PPO-ptx。
b) critic loss (也称为 value loss)
使用的是 clipped_value_loss。

(3)核心代码
a) training_step

    def training_step(self, batch, batch_idx, optimizer_idx):
        sequences, \
        prompt_masks, \
        masks, \
        old_action_probs, \
        old_log_probs, \
        rewards, \
        old_values = batch

        # PPO training
        action_masks = ~prompt_masks & masks

        action_logits, values = self.actor_critic(
            sequences,
            mask = action_masks
        )

        action_logits = shift(action_logits, shift=1, dim=-2) # need to shift along sequence dimension by 1, since actions start from the last prompt (state) token
        action_len = old_log_probs.shape[-1]

        action_probs = action_logits.softmax(dim = -1)
        action_log_probs = log_prob(action_probs, sequences)
        action_log_probs = action_log_probs[:, -action_len:]

        # calculate entropies, taking into account which part of the sequence is actually an action

        entropies = masked_entropy(action_probs, mask = action_masks)

        # calculate kl div between old action probs and new ones, taking into account which part of the sequence is action or not

        kl_div_loss = 0.

        if self.args.kl_div_loss_weight > 0:
            kl_div_loss = masked_kl_div(action_probs, old_action_probs, mask = action_masks) * self.args.kl_div_loss_weight

        # handle non-pooled values

        normalize_kwargs = dict()

        if old_values.ndim == 2:
            old_values, values = map(lambda t: shift(t, shift = 1, dim = -2), (old_values, values))

            old_values = old_values[:, -action_len:]
            values = values[:, -action_len:]
            rewards = rearrange(rewards, 'b -> b 1')
            normalize_kwargs = dict(dim = -1, mask = action_masks[:, -action_len:])

        if values.ndim < rewards.ndim:
            values = rearrange(values, '... -> ... 1')

        # calculate clipped surrogate objective, classic PPO loss

        ratios = (action_log_probs - old_log_probs).exp()
        advantages = masked_normalize(rewards - old_values, **normalize_kwargs)

        if advantages.ndim == 1:
            advantages = rearrange(advantages, 'b -> b 1')

        surr1 = ratios * advantages
        surr2 = ratios.clamp(1 - self.args.eps_clip, 1 + self.args.eps_clip) * advantages
        policy_loss = - torch.min(surr1, surr2) - self.args.beta_s * entropies

        # actor loss (也称为 policy loss, 是最终要使用模型的 loss)
        if optimizer_idx == 0:
            actor_loss = policy_loss.mean() + kl_div_loss
            return actor_loss

        # critic loss (也称为 value loss)
        # update value network separate from policy network
        if optimizer_idx == 1:
            critic_loss = clipped_value_loss(values, rewards, old_values, self.args.value_clip)
            critic_loss = critic_loss.mean()
            return critic_loss

80亿美元押注Agent！全球第一CRM收购Informatica
昨晚，全球第一CRM平台Salesforce在官网宣布，以80亿美元全资收购企业级AI驱动云数据管理领导者Informatica。根据收购协议条款，Informatica的A股和B-1类普通股持有者将每股获得25美元现金。本次收购将增强Salesforce的数据基础，这对部署强大且负责任的AIAgent至关重要。Informatica丰富的数据目录、数据集成、治理、质量与隐私保护、元数据管理和主数
iOS 12.2 真机测试实战指南：全面掌握16E226测试要点 Ready-Player
本文还有配套的精品资源，点击获取简介：在iOS开发中，真机测试对于确保应用在不同设备上的性能和兼容性至关重要。本文深入解析了iOS12.2版本和特定的构建号16E226，包括新功能和改进点。重点介绍了开发者在进行真机测试时应关注的方面，如兼容性、性能、新特性集成、UI适配、错误和崩溃的修复、权限请求处理、网络连接稳定性及安全性。通过本文，开发者能够学习如何使用真机测试包16E226来优化应用，确保
基于python的api扫描器系统的设计与实现
博主介绍：✌在职Java研发工程师、专注于程序设计、源码分享、技术交流、专注于Java技术领域和毕业设计✌温馨提示：文末有CSDN平台官方提供的老师Wechat/QQ名片:)Java精品实战案例《700套》2025最新毕业设计选题推荐：最热的500个选题o(￣▽￣)ｄ介绍在当今数字化社会，网络安全问题日益突出，为了有效识别和防范网络威胁，开发一款全面的Web应用渗透测试系统至关重要。本研究基于Py
语义分割模型的轻量化与准确率提升研究 pk_xz123456 仿真模型深度学习算法 transformer 深度学习人工智能算法数据结构
语义分割模型的轻量化与准确率提升研究1.引言语义分割是计算机视觉领域的核心任务之一，它要求模型为图像中的每个像素分配一个类别标签。随着深度学习的发展，语义分割模型在多个领域得到了广泛应用，如自动驾驶、医学影像分析、遥感图像解译等。然而，现有的语义分割模型往往面临两个主要挑战：模型复杂度高导致难以部署在资源受限的设备上，以及准确率仍有提升空间以满足实际应用需求。本文将从模型轻量化和准确率提升两个角度
Spring MVC 框架解析
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
Spring MVC深度解析
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
Spring Cloud服务治理精讲 Java廖志伟 Java场景面试宝典 Spring Cloud Service Governance Distributed Systems
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
领域设计关键技术解析 Java廖志伟 Java场景面试宝典
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
AIGC领域AI作画：在数字雕塑中的应用实践 AI原生应用开发 AI 原生应用开发 AIGC AI作画 ai
AIGC领域AI作画：在数字雕塑中的应用实践关键词：AIGC、AI作画、数字雕塑、生成对抗网络、3D建模、艺术创作、深度学习摘要：本文深入探讨了AIGC(人工智能生成内容)技术在数字雕塑领域的创新应用。我们将从技术原理、算法实现到实际案例，全面解析AI如何赋能传统数字雕塑创作流程。文章首先介绍AIGC在艺术创作中的背景和发展现状，然后详细讲解核心算法原理和数学模型，接着通过实际项目案例展示AI作画
iOS 性能测试工具全流程：主流工具实战对比与适用场景 2501_91600747 http udp https websocket 网络安全 tcp/ip
在iOS开发中，性能优化往往被安排到开发后期，甚至上线前才临时补救。但性能瓶颈通常是架构设计、资源加载、动画机制等多方面共同作用的结果，仅凭肉眼感知和log输出，难以精准定位。一套合适的性能测试工具组合，不仅能帮助开发者在早期识别潜在问题，还能在迭代阶段快速验证改动效果。本文从实战角度出发，汇总市面上主流的iOS性能测试工具，分析它们各自适用的场景与边界，为开发者构建适合自身项目的调试方案提供参考
iPhone 抓包工具有哪些？多工具对比分析优缺点 2501_91591841 http udp https websocket 网络安全网络协议 tcp/ip
iOS平台一向以安全性著称，这也使得对其进行网络调试和抓包变得异常困难。相比安卓，iPhone抓包难点主要在以下几点：系统限制代理设置的灵活性无法自由安装根证书抓包常涉及HTTPS解密与双向认证破解普通用户设备无root或越狱权限因此，选择一款合适的iPhone抓包工具成为开发和测试流程中至关重要的一环。本文整理了当前主流的iOS抓包工具，分别从功能范围、使用难度、兼容性和适用场景进行横向对比，希
com本质论 pdf_如何使用PDF Arranger来对PDF文件进行编排和修改 weixin_39797780 com本质论 pdf creatprocess 操作文件 delphi fedora如何隐藏顶部状态栏 linux .bash_profile文件 linux c++编程 pdf
PDFArranger是一个十分简单的GUI应用程序，能够帮助您拆分或合并PDF文档，以及旋转，裁剪和重新编排页面。所有前面提到的任务都可以通过交互式和直观的图形界面轻松完成。Pdfarranger是pdfshuffler的fork以及pikepdf的前端。PDFArranger在许多流行的GNU/Linux操作系统和MicrosoftWindows上都能良好地运行。它是使用GTK+和Python
【家政平台开发(93)】解锁家政新视界：VR/AR在家政平台的奇妙旅程奔跑吧邓邓子家政平台开发家政平台开发 VR AR 虚拟现实增强现实应用实践
本【家政平台开发】专栏聚焦家政平台从0到1的全流程打造。从前期需求分析，剖析家政行业现状、挖掘用户需求与梳理功能要点，到系统设计阶段的架构选型、数据库构建，再到开发阶段各模块逐一实现。涵盖移动与PC端设计、接口开发及性能优化，测试阶段多维度保障平台质量，部署发布阶段确保平稳上线。还深入探讨运营策略、技术创新应用及未来发展方向，为家政平台开发提供全面且实用的知识体系与实践指南。目录一、VR/AR在家
基于Matplotlib，在个人电脑上实现无代码、易于使用的绘图体验 wh3933 matplotlib 信息可视化
在科学研究、商业分析和学术出版等领域，数据可视化是沟通洞见、展示成果的关键环节。强大的Python绘图库Matplotlib为此提供了无限可能，但其陡峭的学习曲线和对编程能力的硬性要求，将大量非程序员的领域专家拒之门外。这些专家——包括科学家、分析师、学者和学生——虽然在各自领域具备深厚的知识，却常常因不熟悉编程而难以高效地创建高质量、可定制的图表。他们目前或受限于Excel等功能有限的软件，或需
阿里也出手了！十分钟接入Spring Cloud Alibaba AI 体验JAVA微服务AI人工智能，可接通义千问等模型， Java斌十分钟学会Java AI 人工智能 java 微服务
什么是SpringAISpringAI是从著名的Python项目LangChain和LlamaIndex中汲取灵感，它不是这些项目的直接移植，它的成立信念是，「下一波生成式人工智能应用程序将不仅适用于Python开发人员，而且将在许多编程语言中无处不在」。我们可以从SpringAI的官网描述中，总结出SpringAI的几个核心的关键词：提供抽象能力简化AI应用的开发模型与向量支持AI集成与自动配置
我是如何搭建了一个企业级PDF处理平台的 wh3933 pdf 架构
第一部分：执行摘要与架构愿景1.1.拟议解决方案概述本文旨在为构建一个模块化、高鲁棒性、可扩展的企业级PDF处理平台提供全面的架构设计与技术实现蓝图。该平台的核心功能集成了虚拟打印、PDF创建、光学字符识别（OCR）以及高级加密，以满足现代企业对文档工作流自动化和安全性的严苛要求。为了实现这一目标，我们提出一个清晰的、关注点分离的系统架构。该架构将整个解决方案解耦为两个核心部分：一个部署在用户工作
Docker 学习入门篇：从基础概念到实战部署
一、Docker核心概念与核心价值1.1Docker是什么？Docker是基于Go语言开发的开源容器化平台，旨在实现“一次镜像，处处运行”。它通过将应用程序及其依赖环境（代码、运行时、系统工具、系统库等）打包成一个轻量级、可移植的镜像（Image），使应用能够在不同环境中稳定运行，彻底解决了传统开发中环境不一致、部署复杂的难题。1.2Docker解决了什么问题？环境一致性难题：开发、测试、生产环境
车载以太网-TC8测试-UT(Upper Tester) 天赐好车车载以太网车载以太网 TC8 UT
目录一、技术原理：指令体系与协议适配1.**指令格式与传输机制**2.**协议栈交互逻辑**3.**规范遵循与版本演进**二、测试应用：TC8测试场景与案例1.**TCP协议栈深度验证**2.**ARP协议健壮性测试**3.**SOME/IP服务动态管理**三、实现挑战与解决方案1.**实时性要求**2.**安全性风险**3.**协议栈适配差异**四、集成流程与工具链1.**UT开发与部署**2.
Java零基础之自定义异常类！菜鸟不学编程 Java从入门到放弃 java 开发语言
你好，欢迎来到我的博客！我是【菜鸟不学编程】我是一个正在奋斗中的职场码农，步入职场多年，正在从“小码农”慢慢成长为有深度、有思考的技术人。在这条不断进阶的路上，我决定记录下自己的学习与成长过程，也希望通过博客结识更多志同道合的朋友。 ️主要方向包括Java基础、Spring全家桶、数据库优化、项目实战等，也会分享一些踩坑经历与面试复盘，希望能为还在迷茫中的你提供一些参考。我相信：写作
【后端开发】Django 大雨淅淅后端开发 sqlite 数据库后端 django
目录一、Django是什么，为何选择它？二、学习前的准备工作三、Django项目初体验四、深入Django核心概念（一）模型（Model）（二）视图（View）（三）模板（Template）（四）URL配置五、实战演练：打造一个简单博客（一）搭建博客基础框架（二）实现文章发布功能（三）展示文章列表和详情六、总结与展望一、Django是什么，为何选择它？在PythonWeb开发的广袤天地里，Djan
聊聊「测试分工和测试时间」清菡软件测试测试基础篇编程语言 java 人工智能面试项目管理
注：作为测试从业人员的一点建议与思考，虽然阅读量不是很大，但是清菡个人觉得对大家能有点价值；--清菡关于「测试分工」和「测试时间」的关系，这个分2种情况：第一种，研发技术水平高，项目业务场景相对来说比较简单。那么，这种情况下，如果管理人员安排一个人写用例，协助开发做冒烟测试，另一个人开始测试，这样做，相对来说问题不大。但，这就多了时间的成本，接手过来测试的人需要重新了解这块的需求，效率会低一些。第
【AI与数据管理】基于AI大模型的企业元数据管理方案暴躁小师兄数据学院人工智能 ai 语言模型
基于AI大模型的元数据关键解决方案元数据（metadata）是描述数据的数据，例如数据的来源、结构、类型和质量信息。它在数据管理、分析和应用中至关重要。随着人工智能（AI）大模型（如基于Transformer的模型）的发展，这些模型凭借其强大的自然语言处理、模式识别和生成能力，为元数据处理提供了高效、自动化的解决方案。下面，我将逐步解释基于AI大模型的元数据关键解决方案，帮助您理解核心方法、挑战和
前端常见HTTP状态码织_网 http 微信
1、200请求资源成功-->接口调用成功2、500(internalserverError)服务端/网络错误服务端错误或者网络状态不太好前端是没有办法解决的需要找后端解决3、404客户端错误-->接口错误;没有请求到资源前端问题有可能是没有这个接口或者接口错误-->查看url是否正确-->请求地址不对参数错误查看data是否正确使用Postman进行接口测试–VScode可以使用Postcode进
Kotlin - Flow 冷流、热流 Android-Flutter Kotlin例子 kotlin 开发语言 android
Kotlin-Flow冷流、热流‌KotlinFlow‌是Kotlin协程的一部分，旨在简化异步编程，提供了一种声明式的方式来处理数据流。Flow允许以非阻塞的方式处理一系列的值或事件，特别适合于处理大量数据或涉及IO操作的情况。Kotlin协程中使用挂起函数可以实现非阻塞地执行任务并将结果返回，但是只能返回单个计算结果。但如果希望有多个计算结果返回，则可以使用Flow。Flow的三大核心：1、生
【测开面试篇一】全网最全测试开发岗位面试真题集分享 m0_37135615 软件测试面试经面试职场和发展
前言各位测试人，大家好，最近不是在网上投简历，就是在面试的路上。也接到了不少电话面试以及F2F面试，花时间给大家整理一下互联网大厂测试开发岗位的面试知识点和一些遇到的真题，各位看官请笑纳。本人整理的面试知识点以及面试真题涵盖了互联网大厂（腾讯，字节，百度，滴滴，快手）春秋招，以及牛客网和CSDN众多面经里面的面试真题，极具含金量和真实性，里面每道题基本都是高频考察的。如果你励志想进入互联网大厂并成
Qt构建静态库后，丢失背景图片 haiyuanjie Qt开发总结开发语言 c++qt
问题现象：静态库项目UI属性设置qrc资源图片，显示成功，同一项目调用测试显示成功。主程序调用静态库，无法显示背景图片。原因及解决：UsingResourcesinaLibraryIfyouhaveresourcesinalibrary,youneedtoforceinitializationofyourresourcesbycallingQ_INIT_RESOURCE()withthebasen
【人工智能之大模型】思维链（Chain of Thought，CoT）在大模型中是如何引导模型逐步推理的？ 985小水博一枚呀人工智能 pytorch 语言模型大模型
【人工智能之大模型】思维链（ChainofThought，CoT）在大模型中是如何引导模型逐步推理的？【人工智能之大模型】思维链（ChainofThought，CoT）在大模型中是如何引导模型逐步推理的？文章目录【人工智能之大模型】思维链（ChainofThought，CoT）在大模型中是如何引导模型逐步推理的？前言思维链（CoT）在大模型中的应用示例示例任务：应用思维链提示：模型输出：分析：思维
linux系统下使用Qt静态库（Qt5.15.16) ꧁白杨树下꧂ qt
前言笔者经过测试，自己编译出的Qt静态库是可以正常工作的，但有部分小伙伴反馈，他们编译出的Qt静态库无法正常使用，经过笔者了解后，决定为大家解疑部分问题一、使用QMake构建项目对于Qt5，官方对qmake的支持还是不错的，所以只要在QtCreator正常配置kit套件，无论是widget程序还是qml程序，都可以正常运行。读者可以以此判断，编译的静态库是否符合自己需要。若是widget程序也无法
一文读懂 AI 模型训练流程 AI赋能人工智能人工智能
一文读懂AI模型训练流程在当今数字化时代，AI技术发展得如火如荼，广泛应用于各个领域，而这背后离不开AI模型的训练。AI模型训练流程就像是一场精心策划的“智慧锻造之旅”，每一步都至关重要。今天，咱们就来深入了解一下这个神秘的过程。数据准备：夯实基础数据，堪称AI模型训练的“原材料”，其质量直接决定了最终模型的性能。这就好比建造一座高楼，只有用优质的砖块、钢筋等材料，才能让大楼稳固结实。数据收集我们
数据结构——20.B树爱看烟花的码农数据结构数据结构
第一部分：核心理论精讲一、B树(B-Tree)1.为什么需要B树？当数据量非常大时，内存无法一次性装下，大部分数据需要存储在磁盘等外部存储器上。磁盘I/O（读/写）操作相比内存访问非常慢。为了减少磁盘I/O次数，我们需要一种特殊的树结构，它的每个节点可以存储大量信息，从而使得树的高度尽可能低。B树（一种多路平衡查找树）就是为此而设计的。2.B树的定义(m阶)一棵m阶B树是满足以下条件的m路查找树：
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D

ChatGPT 中的人类反馈强化学习 (RLHF) 实战

目录

1 前言

2 人类反馈强化学习 (RLHF)

2.1 奖励模型 (RM)

2.2 近端策略优化算法 (PPO)

你可能感兴趣的:(博客质量分测试,chatgpt,人工智能,深度学习)