酷酷的群

InstructGPT：语言模型的人类反馈指令对齐

论文标题：Training language models to follow instructions with human feedback
论文链接：https://arxiv.org/abs/2203.02155
论文来源：OpenAI

一、概述

大型语言模型（Large language models，LLMs）可以通过被prompted来执行一系列NLP任务，这通常以给出一些任务相关的样本的方式来完成。然而LLMs经常会展现出一些非预期的行为。这些行为包括编造事实、生成有偏见或有毒的文本，或者简单地不按照用户的指令进行操作。这是因为很多最近的LLMs使用的语言建模目标（预测来自互联网网页的下一个token）与“有帮助且安全地按照用户的指令行事”的目标是不同的。因此，我们可以说语言建模目标是未对齐的（misaligned）的。避免这些非预期行为对于那些部署并用于数百种应用的语言模型来说尤其重要。

我们通过训练这些语言模型以便它们能根据用户的意图进行行动，以此来对语言模型进行对齐。这包括显式的意图，如按照指令行事，以及隐式的意图，如保持真实，不展现偏见、有毒或者其他有害的行为。使用Askell等人（2021）的概念来说就是我们希望语言模型能够helpful（帮助用户解决他们的任务）、honest（不应该编造信息或误导用户）并且harmless（不应该对人类或环境造成物理、心理或社会伤害）。

我们主要关注对齐LLMs的微调方法。具体来说，我们使用人类反馈的强化学习（Reinforcement Learning from Human Feedback，简称RLHF）来微调GPT-3，使其遵循一大类的书面指令。这项技术使用人类的偏好作为奖励信号来微调我们的模型。我们首先聘请一支由40名承包商组成的标注者团队来对我们的数据进行标注（基于他们在筛选测试中的表现）。我们收集了一份由人编写的，用于描述在OpenAI API提交的（主要是英文）提示以及一些标注者编写的提示上期望的输出行为的演示数据集，并使用此数据集来训练我们的监督学习baseline。接下来，我们收集了一份包含了我们的模型在更大的API 提示集上的输出的，由人类标记的比较数据集（就是用模型得出每个提示的多个响应，然后由人工为这些响应的好坏程度排序）。然后，我们在这个数据集上训练一个奖励模型（Reward Model，RM），以预测我们的标注者更喜欢哪个模型输出。最后，我们将这个RM作为奖励函数，并使用PPO（proximal policy optimization）算法来微调我们的监督学习baseline以最大化这个奖励。下图说明了这整个流程。这个过程将GPT-3的行为与特定人群（主要是我们的标注者和研究员）的明确偏好对齐，而不是任何更广泛的“人类价值观”，我们将在下文进一步讨论这个问题。我们将最终得到的模型称为InstructGPT。

RLHF

我们主要通过一些保留标注者（没有参与构建训练数据）来评估模型，同时也在一些自动评估的公共NLP数据集上进行了评估。InstructGPT主要包括三种不同的size（1.3B, 6B和175B参数），所有模型都采用GPT3架构。本文的一些主要结论如下：

①与GPT-3的输出相比，标注者明显更喜欢InstructGPT的输出。

②与GPT-3相比，InstructGPT模型的真实性（truthfulness）有所提高。

③与GPT-3相比，InstructGPT在毒性方面略有改善，但在偏见方面并没有如此。

④我们可以通过修改我们的RLHF微调过程来最小化公共NLP数据集上的性能下降。

⑤在面对没有提供训练数据的保留标注者评估时，InstructGPT可以很好地泛化。

⑥公共NLP数据集不能反映我们的语言模型是如何被使用的。

⑦InstructGPT模型对RLHF微调分布之外的指令显示出有前景的泛化能力。

⑧InstructGPT仍然会犯简单的错误。

总的来说，我们的研究结果表明，使用人类偏好对大型语言模型进行微调可以显著改善它们在各种任务上的行为，尽管要提高它们的安全性和可靠性还有很多工作要做。

二、方法和实验细节

概览

InstructGPT的方法流程事先需要一个预训练语言模型、一个我们希望生成对齐输出的提示分布以及一个经过培训的人类标注者团队。接着我们采用以下三个步骤（也就是上面流程图的步骤）：

①收集演示数据并训练一个监督策略。作者的团队会为输入的提示分布提供期望行为的演示。然后，他们使用监督学习方法在这些数据上对预训练的GPT-3模型进行微调。

②收集比较数据并训练奖励模型。作者收集了一组模型输出之间的比较数据，标注者会指示他们更喜欢给定输入的哪个输出。然后，作者训练一个奖励模型（Reward Model, RM）来预测人类更喜欢的输出。

③使用PPO算法根据奖励模型优化策略。作者将奖励模型的输出作为一个标量奖励，并使用PPO算法对监督策略进行微调以最大化这个奖励。

第二步和第三步可以连续迭代；作者会在当前最佳策略上收集更多的比较数据，然后用这些数据训练一个新的奖励模型和策略。在实践中，大部分比较数据来自于监督策略，但也会有一些来自于PPO策略。

数据集

我们的提示数据集主要由提交到OpenAI API的文本提示组成，特别是使用较早版本的InstructGPT模型（通过对我们的演示数据子集进行监督学习训练）在Playground界面上使用的提示。Playground的用户被告知他们的数据可能会通过定期通知在使用InstructGPT模型时用于进一步训练其他模型。在本文中，我们没有使用来自API生产环境中的客户数据。我们通过检查具有共同长前缀的提示来启发式地去重，并将每个用户ID的提示数量限制为200个。我们还根据用户ID创建了训练、验证和测试集，以便验证集和测试集不包含训练集中的用户数据。为了避免模型学习到可能包含敏感客户详细信息的内容，我们对训练集中的所有提示进行个人可识别信息（personally identifiable information, PII）的过滤。

为了训练第一批InstructGPT模型，我们要求标注者自己编写提示。这是因为我们需要一种初始的类似指令的提示来源来启动这个过程，而这类提示通常不会被提交到API上的常规GPT-3模型。我们要求标注者编写三种类型的提示：

①普通提示：我们只是要求标注者提出任意的任务，同时确保任务具有足够的多样性。

②少样本提示：我们要求标注者提出一条指令，并为该指令提供多个查询/响应对。

③用户相关提示：我们在OpenAI API的等待列表申请中列出了一些使用案例。我们要求标注者提供与这些使用案例相对应的提示。

从这些提示中，我们生成了三个不同的数据集，用于我们的微调过程：

①SFT数据集：其中包含标注者演示用来训练SFT模型的示例数据。

②RM数据集：其中包含标注者对模型输出进行排名的数据，用于训练奖励模型（RM）。

③PPO数据集：不包含任何人工标签，仅作为RLHF微调的输入。该数据集仅来自API。

我们的SFT数据集包含约13,000个训练提示（来自API和标注者编写），RM数据集有33,000个训练提示（来自API和标注者编写），PPO数据集有31,000个训练提示（仅来自API）。下面的表6中提供了更多数据集大小的详细信息。

为了了解我们数据集的组成，下表显示了API提示的用例类别分布（特别是RM数据集）。大多数用例是生成型的，而不是分类或问答型。

提示类别

下表显示了一些说明性的提示（由研究人员编写，模仿提交给InstructGPT模型的提示类型）：

提示用例

任务

我们的训练任务来自两个来源：（1）由我们的标注者编写的提示数据集，和（2）提交到我们API上早期InstructGPT模型的提示数据集（见下表）。这些提示非常多样化，包括生成、问答、对话、摘要、抽取和其他自然语言任务（见上面表1）。我们的数据集超过96%是英文，但在实验中，我们还测试了模型对其他语言指令的响应能力以及完成编程任务的能力。

数据规模

对于每个自然语言提示，任务通常是通过自然语言指令直接指定的（例如，“写一个关于一只聪明的青蛙的故事”），但也可以通过少样本示例间接指定（例如，给出两个青蛙故事的例子，并提示模型生成一个新的故事），或通过隐含的延续（例如，提供一个关于青蛙的故事的开头）。在每种情况下，我们要求标注者尽力推断提示的用户的意图，并要求他们跳过任务非常不清楚的输入。此外，我们的标注者还考虑到隐含的意图，如响应的真实性以及可能有偏见或有害语言的输出，他们会根据我们提供的指示和他们的最佳判断进行标注。

人类数据收集

为了生成我们的演示数据和比较数据，并进行主要评估，我们在Upwork和ScaleAI上雇佣了大约40名承包商。与早期关于摘要任务收集人类偏好数据的工作相比，我们的输入涵盖了更广泛的任务范围，并且偶尔可能涉及有争议和敏感的话题。我们的目标是选择一组对不同人群的偏好敏感，并且擅长识别潜在有害输出的标注者。因此，我们进行了一项筛选测试，旨在衡量标注者在这些方面的表现。

在训练和评估过程中，我们的对齐标准可能会发生冲突：例如，当用户请求潜在有害的响应时。在训练过程中，我们优先考虑对用户的有益性（不这样做需要做出一些困难的设计决策，我们将其留给未来的工作。然而，在我们的最终评估中，我们要求标注者优先考虑真实性和无害性（因为这是我们真正关心的）。

我们在项目过程中与标注者密切合作。我们有一个入职过程，对标注者进行项目培训，为每个任务编写详细的说明，并在共享聊天室中回答标注者的问题。

作为一个初步研究，以了解我们的模型在其他标注者偏好方面的泛化能力，我们雇佣了一组独立的标注者，他们不参与任何训练数据的生成。这些标注者来自同样的供应商，但没有经过筛选测试。尽管任务是复杂的，我们发现标注者之间的一致性相当高：训练标注者之间的一致性为72.6% ± 1.5%，而对于保留标注者，这个数字为77.3% ± 1.3%。作为对比，Stiennon等人（2020年）在摘要工作中研究者之间的一致性为73% ± 4%。

模型

我们首先使用GPT-3预训练语言模型作为起点。这些模型是在广泛的互联网数据分布上进行训练的，并且适用于各种下游任务，但其行为特征尚未完全明确。从这些模型开始，我们使用三种不同的技术训练模型：

监督微调（Supervised fine-tuning, SFT）。

我们使用监督学习方法，对GPT-3模型进行我们的标注者演示数据的微调训练。我们进行了16个epoch的训练，使用余弦学习率衰减，并设置残差dropout为0.2。我们根据验证集上的RM得分进行最终的SFT模型选择。与Wu等人（2021年）类似，我们发现我们的SFT模型在经过1个epoch的验证损失后开始过拟合；然而，我们发现训练更多的epoch对RM得分和人类偏好评分都有帮助，尽管会产生过拟合现象。

奖励建模（Reward modeling, RM）。

从移除最终非embedding层的SFT模型开始，我们训练一个模型，输入是提示和响应，输出是一个标量奖励。在本文中，我们只使用了6B RM模型，因为这样可以节省计算资源，并且我们发现175B RM模型训练可能不稳定，因此不适合在RL期间用作值函数。

在Stiennon等人（2020年）的工作中，RM是在相同输入的两个模型输出之间的比较数据集上进行训练的。他们使用交叉熵损失，将比较作为标签——奖励的差异表示人类标注者更喜欢其中一个响应的对数几率。

为了加快比较数据的收集速度，我们向标注者展示到个响应供其排序。这为每个显示给标注者的提示产生了个比较。由于每个标注任务内的比较高度相关，我们发现如果我们简单地将比较混洗到一个数据集中，对数据集进行一次遍历会导致奖励模型过拟合。相反，我们将每个提示的所有个比较作为单个批次元素进行训练。这样做在计算上更加高效，因为它只需要对每个补全（也就是下面公式中的一个）进行一次RM的前向传播（而不是个补全的次前向传播），并且由于不再过拟合，它实现了更好的验证准确性和对数损失。

具体的，奖励模型的损失函数为：

❝ ❞

这里的是提示和补全在参数下的奖励模型的标量输出，是和对中更被偏好的那一个，是人类对比数据集。

最后，由于RM损失对奖励的偏移是不变的，我们使用偏差对奖励模型进行规范化，以便在进行强化学习之前标注者演示达到平均得分0。

强化学习（Reinforcement learning, RL）

同样地按照Stiennon等人（2020年）的工作，在我们的环境中使用PPO算法来微调SFT模型。我们的环境是一个老虎机环境（bandit environment），它呈现一个随机的用户提示，并期望对此进行响应。根据给出的提示和响应，环境会根据奖励模型产生一个奖励，并结束这一回合。为了减少对奖励模型的过度优化，我们在每个token处增加了一个来自SFT模型的逐token KL（Kullback-Leibler）惩罚。我们将价值函数初始化为RM。这些模型在本文中称为为“PPO”。

我们还试验了将预训练梯度混合到PPO梯度中，以修复公开NLP数据集上的性能退化问题。这些模型称为“PPO-ptx”。他们在RL训练中最大化以下组合目标函数：

❝ ❞

这里的是学习的RL策略，是有监督训练的模型，是预训练分布。和是KL奖励系数和预训练损失系数，分别控制KL惩罚项和预训练梯度。对于“PPO”模型，设置为0。除另有说明外，本文中InstructGPT指PPO-ptx型号。

Baseline

我们将我们的PPO模型的性能与我们的SFT模型和GPT-3进行比较。我们还将GPT-3与在给定少量前缀“提示”的情况下进行比较，这些前缀可以将其“引导”进入遵循指令的模式（GPT-3-prompted）。这个前缀是附加在用户指定的指令之前的。我们还将InstructGPT与在FLAN和T0数据集上微调的175B GPT-3进行比较，这两个数据集都包含各种NLP任务，每个任务都配有自然语言的指令（数据集在所包含的NLP数据集和使用的指令风格上有所不同）。我们分别在大约100万个样例上进行微调，并选择在验证集上获得最高奖励模型分数的检查点。

另外本文的实验主要在API分布和公共NLP数据集这两部分上进行评估。

三、实验

API分布

实验

实验

实验

公共NLP数据集

实验

实验

定性结果

实验

实验

AIGC领域AI作画：在数字雕塑中的应用实践 AI原生应用开发 AI 原生应用开发 AIGC AI作画 ai
AIGC领域AI作画：在数字雕塑中的应用实践关键词：AIGC、AI作画、数字雕塑、生成对抗网络、3D建模、艺术创作、深度学习摘要：本文深入探讨了AIGC(人工智能生成内容)技术在数字雕塑领域的创新应用。我们将从技术原理、算法实现到实际案例，全面解析AI如何赋能传统数字雕塑创作流程。文章首先介绍AIGC在艺术创作中的背景和发展现状，然后详细讲解核心算法原理和数学模型，接着通过实际项目案例展示AI作画
Python爬虫实战：爬取网易云音乐热评的完整教程 Python爬虫项目 python 爬虫开发语言能源 selenium
1.背景介绍：为什么爬网易云音乐热评？网易云音乐是中国最受欢迎的音乐平台之一，其用户活跃度极高。评论区往往蕴含丰富的情感表达和用户反馈，是音乐数据分析、情感分析、推荐算法等领域的宝贵数据源。爬取热评可以用于：歌曲口碑分析用户情绪挖掘热门歌曲趋势追踪机器学习训练数据准备但网易云音乐对评论接口进行了加密，直接请求很难成功。本文将帮你攻克这一难点。2.网易云音乐热评接口分析我们首先用浏览器开发者工具（C
阿里也出手了！十分钟接入Spring Cloud Alibaba AI 体验JAVA微服务AI人工智能，可接通义千问等模型， Java斌十分钟学会Java AI 人工智能 java 微服务
什么是SpringAISpringAI是从著名的Python项目LangChain和LlamaIndex中汲取灵感，它不是这些项目的直接移植，它的成立信念是，「下一波生成式人工智能应用程序将不仅适用于Python开发人员，而且将在许多编程语言中无处不在」。我们可以从SpringAI的官网描述中，总结出SpringAI的几个核心的关键词：提供抽象能力简化AI应用的开发模型与向量支持AI集成与自动配置
Gemma Chatbot 架构深度剖析：从 C++ 核心到多语言推理的工程实践雷羿 LexChien LLM 人工智能 python c++LLM RAG
GemmaChatbot架构深度剖析：从C++核心到多语言推理的工程实践随着大语言模型（LLM）本地化需求日益提升，如何设计一套高效、可扩展、易于维护的本地聊天系统。GemmaChatbot以C++为推理核心，结合Python前端与多语言支持，实现了高性能与灵活性的完美结合。本文将深入剖析其程序架构、模块划分、数据流设计与工程实践细节。一、总体架构设计GemmaChatbot采用“前后端分离”与“
【AI与数据管理】基于AI大模型的企业元数据管理方案暴躁小师兄数据学院人工智能 ai 语言模型
基于AI大模型的元数据关键解决方案元数据（metadata）是描述数据的数据，例如数据的来源、结构、类型和质量信息。它在数据管理、分析和应用中至关重要。随着人工智能（AI）大模型（如基于Transformer的模型）的发展，这些模型凭借其强大的自然语言处理、模式识别和生成能力，为元数据处理提供了高效、自动化的解决方案。下面，我将逐步解释基于AI大模型的元数据关键解决方案，帮助您理解核心方法、挑战和
【人工智能之大模型】思维链（Chain of Thought，CoT）在大模型中是如何引导模型逐步推理的？ 985小水博一枚呀人工智能 pytorch 语言模型大模型
【人工智能之大模型】思维链（ChainofThought，CoT）在大模型中是如何引导模型逐步推理的？【人工智能之大模型】思维链（ChainofThought，CoT）在大模型中是如何引导模型逐步推理的？文章目录【人工智能之大模型】思维链（ChainofThought，CoT）在大模型中是如何引导模型逐步推理的？前言思维链（CoT）在大模型中的应用示例示例任务：应用思维链提示：模型输出：分析：思维
什么是智能体（Agent）？用什么都重名大模型相关人工智能 Agent 大模型
目录前言一、大语言模型1.什么是大语言模型？2.应用领域二、什么是Agent三、Agent核心特点1.感知能力2.规划能力3.行动能力4.记忆能力总结前言目前智能体市场正处于快速发展阶段，呈现出市场规模增长迅猛、应用领域广泛、竞争格局多元化等特点。基于此，让我们一起来学习一下何为智能体。一、大语言模型1.什么是大语言模型？大语言模型是一种采用大量数据进行训练的人工智能模型，主要用于理解和生成自然语
Python深度学习实践：建立端到端的自动驾驶系统 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：建立端到端的自动驾驶系统1.背景介绍自动驾驶系统是当今科技领域最具挑战性和前景的应用之一。它融合了计算机视觉、深度学习、规划与控制等多个领域的先进技术,旨在实现车辆的自主感知、决策和操控。随着人工智能技术的不断发展,越来越多的公司和研究机构投入了大量资源来开发自动驾驶系统。Python作为一种高效、易学且开源的编程语言,在这一领域扮演着重要角色。本文将探讨如何利用Pyth
AIGC空间智能在服装设计领域的颠覆性变革 AI天才研究院 ChatGPT 实战 ChatGPT AI大模型应用入门实战与进阶 AIGC ai
AIGC空间智能在服装设计领域的颠覆性变革关键词：AIGC、空间智能、服装设计、数字孪生、生成式AI、3D人体建模、智能设计系统摘要：本文深入探讨AIGC（人工智能生成内容）与空间智能技术在服装设计领域的融合创新，揭示其如何通过三维人体建模、场景模拟、智能生成算法重构传统设计流程。从技术原理层解析空间智能的核心模块，结合生成对抗网络（GAN）、Transformer模型等前沿算法，展示从创意生成到
Python编程菜鸟教程：从入门到精通的完全指南_python菜鸟教程 2401_89285717 python 开发语言
我们将介绍Python在数据科学、机器学习、Web开发等方面的应用，并带你了解Python社区和生态系统。基础入门Python安装：在官方网站下载安装包，根据不同操作系统进行安装。Mac用户可直接使用Homebrew进行安装Windows用户需下载安装包后进行手动安装Linux用户可使用apt-get或yum进行安装基础语法：Python是一种解释型语言，支持面向对象、函数式和面向过程等多种编程范
编程效率的飞跃、创新驱动的测试与行业应用的新篇章
###引言在人工智能技术飞速发展的今天，AI工具、大模型及行业应用正在深刻改变着开发者的工作模式与各领域的发展格局。从智能编码助手到自动化测试平台，从大模型落地实践到垂直行业解决方案，AI正成为提升效率、驱动创新的核心引擎。本文将围绕“AI技术如何重塑你的工作与行业”这一主题，探讨AI工具、AI编程、AI测试以及AI行业应用和大模型落地等方面的影响。 ###一、AI工具重塑开发工作 #
中电金信：十问高质量数据集：金融大模型价值重塑有“据”可循
2025年，随着大模型在金融领域的深度应用，高质量数据集已逐渐成为决定模型性能的“基石”。面对数据要素价值释放的关键机遇期，国家政策不断深入推进：2月，国务院国资委启动“AI+”专项行动，着力攻克数据难题；5月，数字中国峰会发布了首批30项央企AI高质量数据集成果；6月，在央国企金融领域人工智能高质量数据集工作推进会上，14家企业共同签署了“央国企金融数据产业共同体倡议书”，旨在推动人工智能与数据
毕业论文 | 人工智能侵权责任法律问题研究——以无人驾驶汽车为例北斗猿毕业论文设计人工智能无人驾驶法律侵权责任法民法典
===========================================github：https://github.com/MichaelBeechanCSDN：https://blog.csdn.net/u011344545===========================================人工智能侵权责任法律问题研究——以无人驾驶汽车为例目录摘要一、绪论(一)课
人工智能发展简史——未来是属于AI人工智能的。 AI天才研究院 ChatGPT AI人工智能与大数据人工智能
目录人工智能发展简史第一章：起步期-20世纪50年代及以前1.1计算机象棋博弈（Programmingacomputerforplayingchess）1.2图灵测试（TuringTest）1.3达特茅斯学院人工智能夏季研讨会（DartmouthSummerResearchConferenceonArtificialIntelligence）1.4感知机（Perceptrons）第二章：第一次浪潮
算法化资本——智能投顾技术重构金融生态的深度解析田园Coder 人工智能科普人工智能科普
金融市场的数字化进程正经历着本质性跃迁。当传统交易大厅的开放式喊价被服务器集群的低频嗡鸣取代，当投资决策从人类直觉转向概率矩阵计算，一场由人工智能驱动的资本范式革命已悄然降临。智能投顾作为这场变革的核心载体，其技术架构不仅重塑财富管理的运作逻辑，更在认知层面挑战着金融市场的存在根基。理解这场变革的深度与广度，需要穿透技术表象，审视算法与资本结合引发的复杂生态嬗变。智能投顾系统的技术支柱建立于三重认
03 数据可视化的世界非常广阔，除了已提到的类型，还有许多更细分或前沿的可视化形式。晨曦543210 信息可视化人工智能
十五、机器学习与数据科学专用图表特征重要性图（FeatureImportancePlot）用途：展示机器学习模型中各特征对预测结果的贡献度。示例：随机森林模型中影响房价预测的关键因素。混淆矩阵热力图（ConfusionMatrixHeatmap）用途：分类模型性能评估，显示预测结果与真实标签的对比。示例：疾病诊断模型的真阳性/假阳性分布。学习曲线（LearningCurve）用途：分析模型训练过程
当争论者还在讨论AI的边界，实践者早已用这些技术解决实际问题渡难繁辰人工智能拥抱AI 人工智能 ai
——普通人参与AI革命的关键路径一、AI应用五大核心组件（通俗拆解版）1️⃣LLM：AI的「决策核心」本质：大型语言模型（如DeepSeek、通义千问），具备语言理解与生成能力能力边界：✅处理文本类任务（写作/翻译/摘要）❌无法获取实时信息（如最新股价）⚠️存在“幻觉”（虚构信息）风险案例对比：问：“鲁迅和周树人什么关系？”基础LLM：“两位都是著名作家”（错误）增强版LLM：“周树人是鲁迅本名”
Python 爬虫实战：Selenium 爬取豆瓣相册（图片分类 + 标签提取）西攻城狮北 python 爬虫 selenium
一、引言豆瓣作为国内知名的社区平台，其相册功能允许用户上传和分享各类图片，涵盖电影海报、音乐专辑、生活记录等多个领域。这些图片数据对于了解用户兴趣、进行内容推荐和市场调研具有重要价值。然而，豆瓣对直接的数据访问设定了诸多限制，因此，本文将介绍如何通过Python爬虫技术结合Selenium自动化工具，合法高效地爬取豆瓣相册图片，并运用深度学习技术实现图片分类和标签提取。二、开发环境搭建（一）编程语
AI“大航海”时代：企业人力资源的AI-HR实践与效能提升策略
在数字化浪潮的推动下，人工智能（AI）正以前所未有的速度渗透各行各业，人力资源管理（HR）领域也不例外。AI技术的引入与应用落地，不仅提升HR管理效率，更在深层次上带来人力资源运作模式的变革。什么是AI-HR所谓AI-HR，是指将人工智能技术应用于人力资源管理，并通过机器学习、自然语言处理、数据挖掘等技术，优化招聘、培训、绩效评估、员工关系等人力资源各个业务模块。近年来，随着AI技术的成熟和普及，
PagedAttention和Continuous Batching 流浪大人大模型深度学习人工智能机器学习
PagedAttention是什么PagedAttention是一种用于优化Transformer架构中注意力机制的技术，主要用于提高大语言模型在推理阶段的效率，特别是在处理长序列数据时能有效减少内存碎片和提高内存利用率。它借鉴了操作系统中虚拟内存分页机制的思想。工作原理传统注意力机制的局限性：传统的注意力机制在处理长序列时，需要为每个位置计算注意力得分并存储中间结果，这会导致内存占用随着序列长度
生成式人工智能认证（GAI认证）含金量怎么样？技能咖 GAI认证生成式人工智能认证人工智能
当生成式人工智能（GenerativeAI）的浪潮以摧枯拉朽之势重塑职业版图时，一个尖锐的问题正悬在无数人的心头：在技术迭代比眨眼更快的时代，如何证明自己具备驾驭AI的核心能力？这场认知革命的背后，一张认证证书的价值早已超越了纸面——它既是个人能力的“信用背书”，也是企业筛选人才的“技术密码”。而生成式人工智能认证（GAI认证）的诞生，恰似一把打开未来之门的密钥，其含金量究竟几何？答案藏在三个维度
【深度学习】大模型GLM-4-9B Chat ，微调与部署(3) TensorRT-LLM、TensorRT量化加速、Triton部署 XD742971636 深度学习机器学习深度学习人工智能
文章目录获取TensorRT-LLM代码：构建docker镜像并安装TensorRT-LLM：运行docker镜像：安装依赖魔改下部分package代码：量化：构建图：全局参数插件配置常用配置参数测试推理是否可以代码推理CLI推理性能测试小结验证是否严重退化使用NVIDIATriton部署在线推理服务器代码弄下来编译镜像启动容器安装依赖量化构建trtengines图Triton模板说明实操发起Tr
大白话解释深度学习中多尺度特征融合及其意义来自宇宙的曹先生深度学习人工智能
想象一下，你正在看一幅城市街道的照片。在这张照片中，你可能会看到：远处的小汽车，它们在图像中看起来很小。近处的大巴士，它们在图像中看起来很大。还有一些行人，他们可能在不同的距离上，大小各异。假设你想训练一个计算机程序来识别和分割这些不同的物体（汽车、巴士、行人）。如果这个程序只能在一个固定的尺度上“看”图像，比如说只能处理大物体，它可能会错过那些远处的小汽车，因为这些小汽车在图像中占据的像素很少。
SpringBoot多数据源动态切换方案：AbstractRoutingDataSource详解 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot多数据源动态切换
深入解读MaaS技术架构：从模型服务到智能部署的全流程分析 Cc不爱吃洋葱架构人工智能大语言模型大模型智能部署 MaaS技术架构 LLM
随着人工智能（AI）的迅速发展，MaaS（ModelasaService，模型即服务）技术架构应运而生。它通过将复杂的AI模型封装为标准化服务，降低了模型的开发和部署门槛，帮助企业快速实现业务场景的智能化升级。本文将深入解析MaaS技术架构，详细阐述其各个组成部分以及如何在实际应用中高效发挥其功能。一、使用方层：从应用接入到业务赋能MaaS技术架构的顶层是使用方层，它主要面向第三方应用，是企业与M
Spring Boot + 本地部署大模型实现：安全性与可靠性保障代码老y spring boot bootstrap 后端
在将大语言模型集成到SpringBoot应用中时，安全性和可靠性是两个关键因素。本地部署的大模型虽然提供了强大的功能，但也可能带来一些安全风险，如数据泄露、模型被恶意利用等。本文将介绍如何在SpringBoot应用中保障本地部署大模型的安全性和可靠性，确保应用的稳定运行。一、安全性保障（一）数据加密传输加密：确保模型生成的结果在传输过程中被加密，防止数据在传输过程中被窃取。可以使用HTTPS协议来
想要了解大模型，看懂这一篇就够了！大模型工作流程及核心参数介绍！ Gq.xxu qwen3 vllm transforms 大语言模型部署深度学习人工智能
若想深入探究大模型核心参数的效果与作用，就务必先弄清大模型的工作流程，明确核心参数在流程各阶段的效能与功能，知晓其具体含义。一，大模型的工作流程大模型运行时的工作原理可以概括为输入处理→特征提取→模型推理→结果生成四个核心阶段，整个过程融合了深度学习架构、自然语言处理技术以及分布式计算能力。从用户输入到大模型输出，整个工作的处理流程如下：输入文本→分词→嵌入+位置编码→Transformer多层处
深度学习-Tensor
Tensor张量：与numpy中的ndarray不同之处：tensor可以在GPU或其他专用硬件上运行，以加速计算。一、Tensor初始化1.直接从数据中创建data=[[1,2],[3,4]]x_data=torch.tensor(data)2.从numpy数组创建np_array=np.array(data)x_np=torch.from_numpy(np_array)3.从另一个Tensor
MCP客户端请求MCP服务器资源的Python SDK实现 AI天才研究院计算 AI人工智能与大数据 Python实战 python 开发语言 ai 服务器
我将为您提供一个详细的指南，说明如何使用PythonSDK让MCP客户端请求MCP服务器的资源。MCP客户端请求MCP服务器资源的PythonSDK实现核心概念ModelContextProtocol(MCP)是一个标准化协议，允许应用程序以标准化的方式为大语言模型(LLM)提供上下文，将提供上下文的关注点与实际的LLM交互分离。MCP中的资源(Resources)是一种核心原语，允许服务器暴露数
基于存算一体架构的实时深度学习推理优化瑕疵热点资讯架构深度学习人工智能
博客主页：瑕疵的CSDN主页Gitee主页：瑕疵的gitee主页⏩文章专栏：《热点资讯》基于存算一体架构的实时深度学习推理优化基于存算一体架构的实时深度学习推理优化基于存算一体架构的实时深度学习推理优化引言存算一体架构的核心优势1.能效比突破2.实时性保障架构设计与实现技术1.存储单元创新2.硬件加速器设计3.电路级优化深度学习推理优化策略1.模型压缩技术2.硬件-软件协同优化3.运行时调度典型应
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr

InstructGPT：语言模型的人类反馈指令对齐

一、概述

二、方法和实验细节

三、实验

你可能感兴趣的:(语言模型,人工智能,深度学习,机器学习,自然语言处理)