OneFlow深度学习框架

为什么ChatGPT用强化学习而非监督学习？

为什么ChatGPT非得用强化学习，而不直接用监督学习？原因不是那么显而易见。在上周发布的《John Schulman：通往TruthGPT之路》一文中，OpenAI联合创始人、ChatGPT主要负责人John Schulman分享了OpenAI在人类反馈的强化学习（RLHF）方面的进展，分析了监督学习和强化学习各自存在的挑战。

基于Schulman的演讲内容，以色列巴伊兰大学教授Yoav Goldberg对强化学习在大型语言模型应用必要性作了深度解读，进一步对比论证了监督学习与强化学习的特点，并为未来改进提供了思路。

Goldberg在2011年获得本古里安大学博士学位，他也是艾伦人工智能研究所以色列分部的研究主管，他也曾在Google（纽约）研究院担任研究科学家。他在NLP领域深耕十多年，在词汇语义学、句法分析及对基于深度学习的语言处理等领域作出了突出贡献。

（以下内容由OneFlow编译发布，转载请联系OneFlow获得授权。来源：https://gist.github.com/yoavg/6bff0fecd65950898eba1bb321cfbd81）

作者｜Yoav Goldberg

OneFlow编译

翻译｜贾川、徐佳渝、杨婷

1
为何使用强化学习？

随着ChatGPT等大型语言模型的发布，人们对“RLHF训练（即基于人类反馈的强化学习训练）”的重要性进行了诸多讨论。在训练语言模型方面，我一度困惑于为什么强化学习比从演示中学习（也称为监督学习）更好，难道从演示中学习（或根据语言模型术语中的“指令微调”，学习模仿人类写的回答）还不够？

我提出了一个有说服力的理论论据。不过我意识到还有另一个论点，它不仅支持强化学习训练，而且尤其适用于ChatGPT等模型。OpenAI的John Schulman在其演讲的前半部分进行了详细论述。本文的大部分内容都引用了John的论点，但增加了一些他没有明确表述的内容（不过我确信这些内容都是John考虑过的）。

本文提供了大量背景知识，以确保读者可以更好地理解文章内容。如果你想了解文章重点，可以直接看“核心论证”部分。

2
背景：监督学习vs强化学习

简要地解释一下这两种学习场景，以便我们能够达成共识。如果你已经了解了这些内容，可以跳过此部分。

预训练：在这两种设置中，首先我们假设语言模型在大量的文本上进行预训练，以预测下一个token。因此，对于每个词序列，我们有一个模型可对潜在的下一个词的选项分配概率。通过这种方式，模型会获得语言的某种内部表示。

经过这一过程，模型的生成文本能力会变强，且能够根据给定文本前缀，生成符合自然习惯的后续文本，但它并不擅长“交流”。例如，当提示（prompted）一个问题时，模型可能会回答该问题或者生成一系列附加问题，也可能会回答这是一个在......的上下文中提出的重要问题等等。

这些都是遵循自然语言文本问题的有效延续（continuation）。我们可以通过编写输入文本，来使模型执行我们所希望的语言行为，该延续会解决我们的问题（也被称之为“提示工程”），但是对于只想提出问题或指令就让模型进行回答的非专家用户来说，这种交互模式并不非常方便。

如果我们希望模型能够持续回答查询而不是仅仅完成当前指令，就需要对其进行引导，这个过程称之为“微调”，即继续训练预训练模型，进而使其表现出我们想要的行为（有些人称这是“对齐”模型与使用者期望行为）。

监督训练：在监督学习中（也称为从演示中学习或“指令微调”），我们会收集一组人类编写的文本，这些文本以问题或指令的形式出现，并包含了期望的输出。例如，这些文本可以是某一问题和答案，或者是像带有人类编写总结的summarize the following text {text}这样的任务。

通过在相同的“给定前缀预测下一个token”的目标上继续训练模型，但这次是在指令-输出对集合上，模型学会通过执行指令来响应。即模型接收到给定问题的正确输出的演示，并学会复制输出结果。我们希望通过这种方式将其泛化到训练中尚未出现的问题中去。

强化学习（RL）：在强化学习中，我们为模型提供指令，但并不提供人工编写的答案。模型需要自己生成答案。评分机制（例如人类）会读取生成的答案，并告诉模型这些答案的质量。模型的目标是如何回答以获得高分。

另一种机制是模型生成多个答案，评分机制告诉模型哪个答案最好。模型的目标是学习生成高分的答案，而不是低分的答案。在这两种情况下，模型通过生成答案并接收反馈来学习。（注意：许多研究人员将强化学习的范围限定在基于credit分配机制的某些技术层面。于他们而言，“我们是否需要强化学习”的问题也许归结为我们应该使用该技术还是采取其他相关技术来替代。我与他们同样好奇，但就本文目的而言，我认为任何使用外部评分函数的方法均可视为强化学习，无论其运行机制如何。）

强化学习比监督训练难得多，原因如下：首先是“credit分配”问题。语言模型生成一段token序列，且仅在序列末尾才能获得一个分数。由于信号很弱，我们不能确定答案哪些部分是良好的，哪些部分是糟糕的。许多有关强化学习的相关技术研究都在尝试解决该问题，但在本文中我们先不谈这个问题。

credit分配问题是一个活跃的研究领域，但已经存在合理的解决方案。其次，我们需要一种评分机制来对答案进行评分（或为答案评分或比较两个答案），而在基于语言的任务中，很难生成自动评分机制（尽管这可能正在改变，下文会简单论述）。

因此，我们会在强化学习的每一步留下“人类反馈”，但这种方式成本高昂且效率低下，考虑到每个人类反馈只能给出一个相当稀疏的信号，问题会更加糟糕。基于以上困难，我们为什么还要使用强化学习呢？为什么不仅仅选择监督学习呢？

3
多样性论证

对于语言生成模型来说，监督学习/指令调优最大的问题是它们只能复制演示者给出的确切答案，但实际上，人类语言可以用多种方式传递相同的信息，它们都是切实可行的。如果因模型轻微偏离人类规定的文本而受到“惩罚”，可能会使模型产生困惑。

我们当然可以继续逼迫模型去学习更难学习的遣词造句，尽管模型已经学会了生成具有同样意思、合法的替代性回答。因此，我们非常看好强化学习训练提供的多样性表达。考虑到监督学习在实践中的良好应用，以及训练强化学习模型所面临的挑战，这是一个非常直观的论点，但不够有说服力。一直以来，我并不认为这是一个足够核心的问题，现在我仍这样想。

4
理论论证

监督学习只允许正反馈（我们向模型展示一系列问题及其正确答案），而RL允许负反馈（模型被允许生成答案并得到反馈说“这答案是不正确的”），这是我提出的第一个关于LLM领域的监督学习vs强化学习的强有力论点。

从严格的学习理论的角度来看，两者之间有很大的区别：相比正反馈，负反馈要强大得多。从理论论证的角度，当模型只从演示中学习时，对抗型（或粗心的）演示者（demonstrator）可以隐瞒重要例子，从而误导学习者（learner）学习错误的假设。

演示者控制着整个学习过程，但如果学习者能够形成自己的假设，并询问老师（teacher）假设是否正确（例如强化学习设置），通过这种方式，即使是对抗性老师也无法再欺骗学习者学习错误假设，它必须如实告知这一假设是错误的，这种方式赋予了学习者主动性，让学习者更加强大。（当然，前提是对抗型或粗心的老师仍然遵守规则，始终提供真实答案。这是理论框架中的合理假设，这一假设并不影响我们的主体观点：从互动或提问中学习比从演示中学习更加强大）。

这是我们选择强化学习的部分原因，但就通过提问训练大型语言模型交流方面，还有一个更加重要的额外论点。

5
核心论证

以下是我们需要强化学习或类似技术的核心原因。前两个论点依赖于假设，例如"模型可能更难学习"或"粗心的演示者可能会混淆模型"，这些假设在实践中是否成立是未知的，

相反，下面的论点可以被证明是成立的。

语言模型（至少）有三种交互模式：（a）文本型（text-grounded）：为模型提供文本和说明（“总结此文本”，“基于此文本，以色列的人口是多少”，“本文中提到的化学名称是什么”，“将此文本翻译成西班牙语”等），让模型基于我们提供的文本生成答案；（b）求知型（knowledge-seeking）：向模型提供问题或指导，让模型根据内在知识（“流感的常见原因是什么”）提供（真实）回答。（c）创造型（creative）：为模型提供问题或说明，然后让模型进行创造性输出。（“写一个关于...的故事”）

我们的论点是基于第二种交互模式（求知型查询），希望在这种查询中得到真实（自信）的答案，我们希望模型在对答案没把握的情况下能够如实回答“我不知道”或拒绝回答这一问题。

对于这类交互模式，由于监督训练可能会让模型撒谎，所以我们必须使用RL。核心问题是：我们希望模型根据内部知识进行回答，但我们并不知道模型内部知识包含的内容。

在监督训练中，我们给模型提供问题及正确答案，并训练模型复制提供的答案。这里有两种情况：（1）模型“知道”答案。这种情况下，监督学习能够正确推动模型将答案与问题相关连，并且有望让模型执行相似的步骤，回答将来遇到的类似问题。这是所期望的行为。（2）模型不知道答案。在这种情况下，监督训练还是会促使模型给出答案。

现在，我们有两种选择。一种可能是，它会促使模型记住特定的问答对。这种做法本身并没什么坏处，但不太高效，因为我们的目的是让模型具有泛化能力，并且能回答任何问题，而不只是那些在训练数据中出现的问题。但如果我们使模型在这些情况下能做到泛化，那么实际上就是在教模型捏造答案，相当于鼓励模型“说谎”，这很不好。

由于我们无法确定模型知道哪些信息或不知道哪些信息，所以无法避免第二种情况，这对监督训练来说是一个真实且严重的问题。

我们不能仅依靠监督学习来训练模型生成可信任回答，还需要强化学习的加持。与监督学习不同，强化学习不会鼓励模型编造答案：即使模型最初确实猜对了一些答案并错误地学习了“编造”行为，但长远来看，模型会因编造答案的得分较低（很可能是不正确的）而学会依赖内部知识或选择放弃回答。

6
教导模型放弃回答

当模型不知道答案时，我们希望它能够放弃回答并给出“我不知道”或类似的答案。但由于我们不知道模型是否知道答案，所以这并不是一件容易的事，在监督环境中很难做到。我们可以引导模型规避某些类型的问题（例如“从不回答涉及人类的问题”），并回答“我不知道”。但这不是在答案未知时放弃回答的预期行为，只是一个非常薄弱的替代方法（proxy）。

然而，这对于强化学习设置也具有挑战：模型可能从一开始就不会生成“我不知道”的答案，因此我们无法鼓励它作出这种回答。解决这个问题的方法之一是，先进行一些监督训练，学习在某些情况下生成“我不知道”的答案，然后再进行强化学习训练。

但这种方法也有弊端，即在监督学习和强化学习中，模型可能会过度回答“我不知道”。这是一个开放的研究问题，可以尝试通过“定制奖励函数”来解决：将正确答案赋予非常高的分数，放弃回答的答案赋予中低分数，不正确的答案赋予强烈负分。当然，想做到这一点也并非易事。

7
模型窃取 / 蒸馏的影响

OpenAI在GPT模型的强化学习类型调优（RL-type tuning）方面投入了大量精力。原因有很多，他们的部分动机是希望通过鼓励模型在不知道答案时放弃回答来确保准确性和真实性。

最近有一种趋势，即采用其他公开可用的基础语言模型，并对它们进行训练，以期能够复制GPT模型的出色行为。

这种做法类似于监督式训练或指令调优：通过训练，模型可以准确生成GPT模型的答案。这对于教模型执行指令应该很有效，但却不适用于回答知识查询类问题（案例b）。

公开可用的基础模型和OpenAI模型可能具有不同的知识集，因此训练模型以复制GPT的答案可能会面临与监督学习同样的问题，即鼓励模型编造事实，或在它知道正确答案但GPT模型不知道的情况下放弃回答。那么，解决方案是用强化学习对这些模型进行训练，但这是否太过昂贵？

8
无人类反馈的强化学习

长期以来，使用强化学习训练生成语言任务对大多数玩家来说都不切实际：由于缺乏可靠的自动评分指标，强化学习训练需要对每个训练样本进行人工反馈。这既耗时又昂贵，特别是对于需要查看数千到数万甚至数十万个示例才能学习的模型。

然而，强化学习训练现在变得实用了：首先，出现了可以从较少示例中学习的大型预训练语言模型。更重要的是，这些模型为强化学习循环（RL loop）中去掉人类参与铺平了道路。

监督训练对于文本相关的任务非常有效，而且大型模型可以很好地学习执行一些任务。例如，让模型确定两个文本是否意思相同，或者一个文本是否包含另一个文本中没有的事实（还可以将任务分解，让模型“生成所有可从该文本回答的所有'问答对'”，然后针对每个问题询问“在其他文本中是否有该问题的答案，答案是什么”）。

根据经验来看，大型语言模型（甚至中型语言模型）可以使用监督学习可靠地学习执行这些任务，这为我们提供了可用于强化学习设置的有效自动评分机制。

我们可以使用人类提供的指令-响应对进行训练，不过，要让模型生成自己的响应，而不是直接复制人类响应，然后用在监督方式下进行训练的专用文本对比模型（text comparison model）将模型生成的响应与人类提供的响应进行比较，这样就获得了一种自动打分的办法。

其他人都在看

ChatGPT成功的秘密武器
向量嵌入：AutoGPT的幻觉解法
谷歌科学家：RLHF的演进与局限
John Schulman：通往TruthGPT之路
比快更快，开源Stable Diffusion刷新作图速度
OneEmbedding:单卡训练TB级推荐模型不是梦
GLM训练加速：性能最高提升3倍，显存节省1/3

欢迎Star、试用OneFlow:github.com/Oneflow-Inc/oneflow/http://github.com/Oneflow-Inc/oneflow/

AI人工智能领域：Bard的崛起之路 AIGC应用创新大全人工智能 bard ai
AI人工智能领域：Bard的崛起之路关键词：Bard、GoogleAI、大语言模型、对话式AI、自然语言处理、生成式AI、AI竞争摘要：本文深入探讨GoogleBard的发展历程、技术架构及其在AI领域的地位。我们将从Bard的诞生背景开始，分析其核心技术原理，比较与其他大语言模型的异同，并通过实际案例展示其应用场景。最后展望Bard的未来发展方向及面临的挑战。背景介绍目的和范围本文旨在全面解析G
周易算卦排盘源码（完整的周易四柱八字紫微斗数_七政四余大六壬等源码）大大的拥抱88 开发语言 python
简介本仓库提供了一个完整周易八字排盘源码：周易八卦，阴阳五行，干支，四柱八字排盘，紫微斗数，奇门遁甲，七政四余集大成者结合，事实上年周易研究，结合了紫薇运势，刑冲关系，神煞，奇门遁甲，七政四余排盘，大六壬等中国古老的周易占卜算法，结合计算机知识，在网页上可以时时展示出来，对真正的占师卜，周易弟子非常受益。这套完整的代码适合开发者和商业运营者学习和使用。资源文件描述文件名:周易算卦源码（完整的周易四
AI人工智能领域深度学习的跨模态检索技术 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南人工智能深度学习 ai
AI人工智能领域深度学习的跨模态检索技术关键词：跨模态检索、深度学习、多模态学习、特征提取、相似度计算、注意力机制、Transformer摘要：本文深入探讨了AI领域中基于深度学习的跨模态检索技术。我们将从基础概念出发，详细分析跨模态检索的核心算法原理、数学模型和实际应用。文章包含完整的Python实现示例，展示如何构建一个跨模态检索系统，并讨论当前的技术挑战和未来发展方向。通过本文，读者将全面理
工业缺陷检测深度学习方法综述 2301_80355452 深度学习人工智能
其被广泛地应用于无人质检、智能巡检、质量控制等各种生产与运维场景中.一.工业缺陷检测的背景与特点工业缺陷检测面临着诸多难点:缺陷样本匮乏、缺陷的可视性低、形状不规则、类型未知等,直接使用异常检测方法难以满足工业缺陷检测的任务需求.二.介绍工业缺陷检测问题的定义,分析研究难点与挑战异常：点异常、上下文异常和集群异常。点异常：又称为离群值(outliers)[9],描述数值上偏离正常样本的独立数据。与
matlab 渐进三角网(PTD)地面滤波(基础版) 点云侠 matlab点云工具箱 matlab 开发语言算法 c++计算机视觉
目录一、算法原理1、PTD算法2、实现流程二、代码实现三、结果展示1、原始点云2、滤波结果代码是按照算法原理的复现，效率极低，只适合学习和理解算法。一、算法原理1、PTD算法渐进三角网地面滤波算法（ProgressiveTINDensification,PTD）是一种广泛应用于机载LiDAR点云数据处理的滤波方法，旨在从复杂场景中精确分离地面点，以生成数字高程模型（DEM）。2、实现流程 P
muduo 2301_80355452 php 前端开发语言
好的，我们来深入剖析陈硕老师开发的著名C++网络库——muduo。它以“简单、高效、易用”著称，是学习LinuxC++高性能网络编程的绝佳范本。我会尽量详细、通俗地讲解其核心思想、关键组件、源码结构和工作原理。核心思想：Reactor模式(Non-blocking+I/OMultiplexing)muduo的灵魂是Reactor模式。理解它就理解了muduo的一半。想象一下：传统阻塞模型的问题：想
脑机新手指南（十五）speechBCI 项目新手入门指南（上）：项目概述、代码结构与环境搭建 Brduino脑机接口技术答疑脑机新手指南 python 脑机接口新手入门
一、引言在脑机接口（BCI）领域，语音相关的研究正不断取得突破。speechBCI项目为语音脑机接口的研究提供了一个优秀的开源代码库。该项目与前沿的学术研究、丰富的数据集以及具有挑战性的机器学习竞赛紧密相连。本指南将分上下两篇，详细引导新手深入了解和使用speechBCI项目。二、项目概述speechBCI项目不仅仅是一个代码集合，它背后有着深厚的学术背景和实际应用价值。它与一篇发表在[Natur
脑机新手指南（三）：新手小白入门 BCI-从认识到初体验（上）
一、引言脑机接口（Brain-ComputerInterface，简称BCI）作为一项前沿科技，正逐渐改变我们对大脑与外部设备交互方式的认知。本教程旨在为完全不了解BCI的新手提供一个全面且系统的入门指南，帮助大家开启在BCI领域的学习之旅。二、认识BCIBCI的定义BCI是一种能够实现大脑与外部设备直接通信的技术。它通过检测大脑活动产生的电信号、磁信号或其他生理信号，并将这些信号转化为计算机能够
Python程序设计第6章：函数和函数式编程若北辰 Python程序设计 python 开发语言
Python程序设计Python是全球范围内最受欢迎的编程语言之一，学好Python将对个人职业生涯产生很大的助力，Python在机器学习、深度学习、数据挖掘等领域应用极为广泛。在数据科学家/数据分析师、人工智能工程师、网络安全工程师、软件工程师/全栈工程师、自动化测试工程师等岗位，年入50万，很普遍，学好Python，高薪就业不是问题，因此推出Python程序设计系列文章：Python程序设计第
半监督学习+迁移学习：低成本构建高精度AI模型 AI智能探索者 AI Agent 智能体开发实战人工智能学习迁移学习 ai
半监督学习+迁移学习：低成本构建高精度AI模型关键词：半监督学习、迁移学习、低成本、高精度AI模型、数据利用摘要：本文主要探讨了如何通过半监督学习和迁移学习相结合的方式来低成本构建高精度的AI模型。首先介绍了半监督学习和迁移学习的背景知识，然后详细解释了这两个核心概念及其相互关系，接着阐述了相关算法原理、数学模型，还给出了项目实战案例，分析了实际应用场景，推荐了相关工具和资源，最后探讨了未来发展趋
什么是神经网络和机器学习？【云驻共创】一键难忘人工智能机器学习深度学习神经网络网络
什么是神经网络和机器学习？一.背景在当今数字化浪潮中，神经网络和机器学习已成为科技领域的中流砥柱。它们作为人工智能的支柱，推动了自动化、智能化和数据驱动决策的进步。然而，对于初学者和专业人士来说，理解神经网络和机器学习的本质是至关重要的。在本文中，我们将深入探讨这两个概念的内涵、工作原理以及彼此之间的联系。二.神经网络和机器学习简介神经网络和机器学习都是人工智能领域中的重要概念，它们通常用于解决各
AI人工智能与OpenCV：实现智能图像编辑功能 AI智能探索者 AI Agent 智能体开发实战人工智能 opencv 计算机视觉 ai
AI人工智能与OpenCV：实现智能图像编辑功能关键词：人工智能、OpenCV、图像处理、计算机视觉、深度学习、智能编辑、图像增强摘要：本文深入探讨如何结合人工智能(AI)和OpenCV实现智能图像编辑功能。我们将从基础概念出发，详细介绍核心算法原理，展示实际代码实现，并分析典型应用场景。文章将涵盖从传统图像处理技术到深度学习方法的演进，重点讲解如何利用OpenCV和AI模型实现自动化的图像增强、
python学智能算法（十五）|机器学习朴素贝叶斯方法进阶-CountVectorizer多文本处理西猫雷婶人工智能机器学习 python学习笔记机器学习 python 人工智能深度学习 scikit-learn
【1】引言前序学习进程中，已经学习CountVectorizer文本处理的简单技巧，先相关文章链接为：python学智能算法（十四）|机器学习朴素贝叶斯方法进阶-CountVectorizer文本处理简单测试-CSDN博客此次继续深入，研究多文本的综合处理。【2】代码测试首先相对于单文本测试，直接将文本改成多行文本：#引入必要的模块fromsklearn.feature_extraction.te
《ChromaGAN》论文简读及demo运行（萌新手记） kkpeach 学习手记 python 机器学习计算机视觉
论文题目：《ChromaGAN:AdversarialPictureColorizationwithSemanticClassDistribution》《具有语义类别分布的对抗图片着色》论文地址：https://arxiv.org/pdf/1907.09837.pdf源码地址：https://github.com/pvitoria/ChromaGAN声明：仅学习用途。这是WACV2020收录的一篇
Orangepi Zero2 全志H616开发学习会学嵌入式 ARM Linux全志平台开发学习 linux 开发语言服务器
一.简介1.1为什么学学习目标依然是Linux系统，平台是ARM架构·蜂巢快递柜，配送机器人，这些应用场景用C51,STM32单片机无法实现·第三方介入库的局限性，比如刷脸支付和公交车收费设备需要集成支付宝SDK，提供的libalipay.so是Linux的库，设备必须跑Linux系统·图像识别，音频，视频等领域的技术支撑也无法脱离Linux系统·人工智能型设备通常需要更好的系统和更高的算力，所以
python学智能算法（十六）|机器学习支持向量机简单示例西猫雷婶 python学习笔记人工智能机器学习机器学习 python 支持向量机人工智能深度学习
【1】引言前序学习了逻辑回归等算法，相关文章链接包括且不限于：python学智能算法（十）|机器学习逻辑回归（Logistic回归）_逻辑回归算法python-CSDN博客python学智能算法（十一）|机器学习逻辑回归深入（Logistic回归）_np.random.logistic()-CSDN博客今天在此基础上更进一步，学习支持向量机，为实现较好地理解，先解读一个简单算例。【2】代码解读【2
人工智能-基础篇-2-什么是机器学习？（ML，监督学习，半监督学习，零监督学习，强化学习，深度学习，机器学习步骤等） weisian151 人工智能人工智能机器学习学习
1、什么是机器学习？机器学习（MachineLearning,ML）是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析等数学理论。其核心目标是让计算机通过分析数据，自动学习规律并构建模型，从而对未知数据进行预测或决策，而无需依赖显式的程序指令。基本思想：通过数据驱动的方式，使系统能够从经验（数据）中改进性能，形成对数据模式的抽象化表达。基本概念：模型：模型是对现实世界现
AI取代人类？不，真正淘汰你的是“不会用AI”的人 zhuzhi 人工智能 chatgpt
“AI会让人类失业吗？”——这个问题在过去几年被反复讨论。ChatGPT的爆火、MidJourney颠覆设计行业、自动驾驶取代司机……似乎AI正在“抢走”人类的工作。但真相是：AI不会取代所有人，但它会取代那些不会使用AI的人。未来10年，职场竞争不再是“人类VSAI”，而是**“会用AI的人”VS“不用AI的人”**。就像20年前互联网刚普及时，会用搜索引擎的人比只会翻书的人效率高10倍；今天，
2025年AI十大趋势：从多模态大模型到自主智能体 zhuzhi 人工智能大数据
2025年AI十大趋势：从多模态大模型到自主智能体人工智能技术正以前所未有的速度重塑着我们的世界。2025年，AI领域将迎来一系列突破性进展，从多模态大模型的全面进化到自主智能体的广泛应用，这些技术变革正在重新定义人机交互的边界。本文将系统梳理2025年AI发展的十大核心趋势，为读者揭示人工智能技术的最新发展方向及其对社会各领域的深远影响。趋势一：多模态大模型成为基础设施2025年，多模态大模型已
2025 年最强 RPA 软件盘点天竺鼠不该去劝架人工智能
RPA（机器人流程自动化）软件成为了企业提升效率、降低成本的重要工具。以下是2025年一些顶尖的RPA软件盘点。国外RPA软件UiPath地位：全球RPA市场的领军者。功能特性：全能型平台，覆盖流程发现、自动化设计到机器人管理全生命周期。拥有易用的低代码设计器，便于快速上手；强大的AI集成，可实现机器学习和文档理解；能与ERP、CRM等系统无缝集成。适用场景：适用于金融、零售、制造业等需要处理复杂
WPF学习笔记（3）：ListView根据内容自动调整列宽 weixin_30709061
WPF学习笔记（3）：ListView根据内容自动调整列宽原文:WPF学习笔记（3）：ListView根据内容自动调整列宽DataGrid中，只要不设置DataGrid的宽度和列宽度，或者将宽度设置为Auto，那么表格就会根据内容自动调整宽度，以显示所有内容。但如果是ListView，按以上方法设置，却达不到列宽自动调整的效果，列宽在控件第一次加载的时候已经确定，之后不会随着某列数据长度的增加和减
《机器学习数学基础》补充资料：什么是随机变量 CS创新实验室机器学习数学基础机器学习人工智能数学概率
卓永鸿提供本文介绍什么是随机变量及为什么要发展此种概念。我们先来看这个问题：一个边长为aaa的正三角形，CCC为其外接圆，外接圆半径为RRR。若在圆内随机作一弦，则弦长lll大于aaa的概率为何？法1：随机半径法先拉出一条圆半径，然后随机在半径上取一点，再画出通过此点并垂直半径的弦。易知当弦心距小于R/2R/2R/2时，弦长lll大于aaa，故概率为1/21/21/2。法2：随机端点法在圆周上随机
wpf 学习笔记
1.同时加载两个窗体先添加一个子窗体，然后再app.xaml.cs里重写OnStartup方法//app.xaml.csusingSystem.Configuration;usingSystem.Data;usingSystem.Windows;namespaceWpfApp1{//////InteractionlogicforApp.xaml///publicpartialclassApp:Ap
Vulkan 学习(18)---- 使用 ValidationLayer 小猪佩奇TONY Vulkan 学习学习 mfc c++
目录ValidationLayer简介启用ValidationLayerEnableValidationLayer检查扩展支持创建回调函数注册回调函数AndroidValidationLayerValidationLayer简介VulkanAPI的设计是按照最小化驱动程序的开销进行的，所以默认情况下VulkanAPI提供的错误检测的功能非常有限，很多基本的错误都没有被Vulkan显式进行处理，遇到
Linux-读者写者问题 “αβ” Linux linux 运维服务器 c++多线程 git 云服务器
目录问题描述读写锁主要思想代码伪实现读者优先算法写者优先算法读者写者公平算法库函数的学习读写锁接口读写锁使用案例问题描述在编写多线程的时候，有一种情况是十分常见的。那就是，有些公共数据修改的机会比较少。相比较改写，它们读的机会反而高的多。通常而言，在读的过程中，往往伴随着查找的操作，中间耗时很长。给这种代码段加锁，会极大地降低我们程序的效率。这类问题就归结为读者写者问题。那么有没有一种方法，可以专
java中压缩文件的解析方式（解析文件） Java失业转安卓 java 开发语言 eclipse
背景了解：java中存在IO流的方式，支持我们对文件进行读取（Input，从磁盘到内存）或写入（output，从内存到磁盘），那么我们在面对“zip”格式或者“rar”格式的压缩文件，又如何去解析使用。下面一起学习交流！所用知识点：1.java的util包下的ZipInputStream:读取zip文件流第三方类库：commons-io-2.16.1.jarjunrar-7.5.5.jarslf4
贝叶斯网络与深度学习的结合：图像识别和分类 AI天才研究院 AI人工智能与大数据计算 AI大模型企业级应用开发实战自然语言处理人工智能语言模型编程实践开发语言架构设计
本文我将为您撰写一篇关于"贝叶斯网络与深度学习的结合：图像识别和分类"的技术博客文章。这篇文章将深入探讨贝叶斯网络和深度学习在图像识别和分类领域的结合应用。我会遵循您提供的要求和结构模板,确保文章内容全面、深入且易于理解。让我们开始吧。贝叶斯网络与深度学习的结合：图像识别和分类关键词：贝叶斯网络、深度学习、图像识别、图像分类、概率推理、卷积神经网络、不确定性建模文章目录贝叶斯网络与深度学习的结合：
在浏览器中使用TensorFlow.js 魏铁锤chui tensorflow javascript 人工智能
TensorFlow.js简介介绍光学字符识别(OCR)是指能够从图像或文档中捕获文本元素，并将其转换为机器可读的文本格式的技术。如果您想了解更多关于这个主题的内容，本文是一个很好的介绍。TensorFlow.js是一个库，用于使用JavaScript开发和训练机器学习模型，并将其部署在浏览器中或Node.js上。您可以使用现有模型、转换PythonTensorFlow模型、使用迁移学习用您自己的
SQL学习笔记5 彤银浦 sql 学习笔记
多表查询1、多表关系MySQL是一个关系型数据库，数据库中表与表之间存在关联。它们的关系根据一张表包含另外一张表数据的多少可以分为：（使用外键建立关系的方法不常用）一对多或多对一：在多的一方加入外键对应少的一方的主键多对一：在两张表中加入一张中间表，中间表中加入两个外键对应两张表的主键一对一：在一张表加入另一张表的外键，且将外键约束为唯一2、多表查询概述多表查询的语法：select字段from表1
c++基于BP神经网络的手写数字识别鱼弦机器学习设计类系统开发语言人工智能
鱼弦：CSDN内容合伙人、CSDN新星导师、全栈领域创作新星创作者、51CTO(Top红人+专家博主)、github开源爱好者（go-zero源码二次开发、游戏后端架构https://github.com/Peakchen）基于BP（Backpropagation）神经网络的手写数字识别是一种常见的机器学习应用。下面我将为您提供原理的详细解释、使用场景的解释以及一些相关的文献材料链接。原理详细解释
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那

为什么ChatGPT用强化学习而非监督学习？

你可能感兴趣的:(业界观点,chatgpt,学习,人工智能,机器学习,自然语言处理)