朱bing

chatgpt实际是怎样工作的？

文章翻译自：
https://www.assemblyai.com/blog/how-chatgpt-actually-works/

ChatGPT 是 OpenAI 的最新语言模型，比其前身 GPT-3 有了重大改进。与许多大型语言模型类似，ChatGPT 能够为不同目的生成多种样式的文本，但具有更高的精确度、细节和连贯性。它代表了 OpenAI 大型语言模型系列的下一代产品，其设计非常注重交互式对话。

创建者结合使用监督学习和强化学习来微调 ChatGPT，但正是强化学习组件使 ChatGPT 独一无二。创作者使用一种称为人类反馈强化学习 (RLHF) 的特殊技术，该技术在训练循环中使用人类反馈来最大限度地减少有害、不真实和/或有偏见的输出。

在了解 RLHF 的工作原理和了解 ChatGPT 如何使用 RLHF 来克服这些问题之前，我们将研究 GPT-3 的局限性以及它们如何源于其训练过程。最后，我们将研究这种方法的一些局限性。

大型语言模型中的能力与对齐

在机器学习的上下文中，术语能力是指模型执行特定任务或一组任务的能力。模型的能力通常通过优化其目标函数的能力来评估，目标函数是定义模型目标的数学表达式。例如，设计用于预测股票市场价格的模型可能具有衡量模型预测准确性的目标函数。如果该模型能够准确预测股票价格随时间的变化，则可以认为它具有完成此任务的高水平能力。

另一方面，对齐关注的是我们实际希望模型做什么而不是训练它做什么。它问的问题是“目标函数是否符合我们的意图？” 并指模型的目标和行为与人类价值观和期望相一致的程度。举一个简单的具体例子，假设我们训练一个鸟类分类器将鸟类分类为“麻雀”或“知更鸟”，我们使用对数损失（衡量模型预测概率分布与真实分布之间的差异）作为训练客观的，即使我们的最终目标是高分类精度。该模型可能具有低对数损失，即模型的能力高，但准确性差在测试集上。事实上，对数损失与分类任务的准确性并不完全相关。这是一个错位的例子，模型能够优化训练目标，但与我们的最终目标不一致。

Models like the original GPT-3 are misaligned

大型语言模型（例如 GPT-3）根据来自互联网的大量文本数据进行训练，能够生成类似人类的文本，但它们可能并不总是产生与人类期望或理想值一致的输出。事实上，他们的目标函数是单词序列（或标记序列）的概率分布，使他们能够预测序列中的下一个单词是什么（下面有更多详细信息）。

然而，在实际应用中，这些模型旨在执行某种形式的有价值的认知工作，并且这些模型的训练方式与我们希望使用它们的方式之间存在明显差异。尽管从数学上讲，机器计算出的单词序列的统计分布可能是对语言建模的一种非常有效的选择，但作为人类，我们通过选择最适合给定情况的文本序列来生成语言，并使用我们的背景知识和常识来指导这个流程。当语言模型用于需要高度信任或可靠性的应用程序（例如对话系统或智能个人助理）时，这可能会成为一个问题。

虽然这些强大、复杂的模型在过去几年中经过大量数据训练变得非常有能力，但当用于生产系统以使人类生活更轻松时，它们往往无法发挥这种潜力。Large Language Models 中的对齐问题通常表现为：

缺乏帮助：不遵循用户的明确指示。
幻觉：模型编造了不存在的或错误的事实。
缺乏可解释性：人类很难理解模型是如何做出特定决定或预测的。
生成有偏见或有毒的输出：在有偏见/有毒数据上训练的语言模型可能会在其输出中重现该结果，即使没有明确指示这样做。

但是这个对齐问题具体是从哪里来的呢？语言模型的训练方式是否天生就容易出现错位？

语言模型训练策略如何产生错位

Next-token-prediction并且masked-language-modeling是用于训练语言模型的核心技术，例如transformers。在第一种方法中，模型被赋予一个单词序列（或“标记”，即单词的一部分）作为输入，并被要求预测序列中的下一个单词。例如，如果给模型输入句子

“The cat sat on the”

它可能会预测下一个词为“mat”、“chair”或“floor”，因为在给定先前上下文的情况下，这些词出现的可能性很高；语言模型实际上能够估计给定先前序列的每个**可能单词（在其词汇表中）**的可能性。

掩码语言建模方法是下一个标记预测的变体，其中输入句子中的某些单词被替换为特殊标记，例如[MASK]. 然后要求模型预测应该插入的正确单词来代替掩码。例如，如果模型给出了句子

“The [MASK] sat on the”

对于输入，他可能预测的单词为"cat", “dog”, or “rabbit”.

这些目标函数的一个优点是它允许模型学习语言的统计结构，例如常见的单词序列和单词使用模式。这通常有助于模型生成更自然、更流畅的文本，是每个语言模型预训练阶段必不可少的步骤。

然而，这些目标函数也会导致问题，本质上是因为模型无法区分重要错误和不重要错误。举个很简单的例子，如果给模型输入句子：

“The Roman Empire [MASK] with the reign of Augustus.”

它可能会预测“began”或“ended”，因为这两个词出现的可能性都很高（事实上，这两个句子在历史上都是正确的），即使第二个选择意味着完全不同的含义。

更一般地说，这些训练策略可能会导致语言模型在某些更复杂的任务中出现偏差，因为仅经过训练以预测文本序列中的下一个词（或掩码词）的模型可能不一定会学习一些其含义的更高层次的表示。因此，该模型难以泛化到需要更深入地理解语言的任务或上下文。

研究人员和开发人员正在研究各种方法来解决大型语言模型中的对齐问题。ChatGPT 基于原始的 GPT-3 模型，但经过进一步训练，使用人工反馈来指导学习过程，具体目标是减轻模型的错位问题。所使用的具体技术，称为从人类反馈中强化学习，是基于先前的学术研究。ChatGPT 代表了第一个将这种技术用于生产模型的案例。

但是，ChatGPT 的创建者究竟是如何利用人类反馈来解决对齐问题的呢？

从人类反馈中强化学习

有监督的微调步骤：预训练语言模型在标记者策划的相对少量的演示数据上进行微调，以学习从选定的提示列表生成输出的监督策略（SFT 模型）。这表示基线模型。
“模仿人类偏好”步骤：标注者被要求对相对大量的 SFT 模型输出进行投票，这样就创建了一个由比较数据组成的新数据集。在此数据集上训练了一个新模型。这称为奖励模型 (RM)。
Proximal Policy Optimization (PPO) 步骤：奖励模型用于进一步微调和改进 SFT 模型。这一步的结果就是所谓的政策模型。

第一步只发生一次，而第二步和第三步可以不断迭代：在当前最好的策略模型上收集更多的比较数据，用于训练新的奖励模型，然后训练新的策略。

现在让我们深入了解每个步骤的细节！

注意：本文的其余部分基于InstructGPT 论文的内容。根据 OpenAI 的说法，ChatGPT 已经“使用与 InstructGPT 相同的方法进行训练，但数据收集设置略有不同”（来源）。不幸的是，ChatGPT 的确切定量报告尚未公开。

第 1 步：监督微调 (SFT) 模型

第一步包括收集示范数据以训练监督政策模型，称为 SFT 模型。

数据收集：选择提示列表，并要求一组人工标记者写下预期的输出响应。对于 ChatGPT，使用了两种不同的提示来源：一些是直接从贴标者或开发人员准备的，一些是从 OpenAI 的 API 请求（即来自他们的 GPT-3 客户）中采样的。由于整个过程缓慢且昂贵，结果是一个相对较小的高质量精选数据集（大概有大约 12-15k 个数据点），用于微调预训练语言模型。
模型选择：ChatGPT 的开发人员没有微调原始 GPT-3 模型，而是选择了所谓的GPT-3.5 系列中的预训练模型。据推测，使用的基线模型是最新的text-davinci-003，一个 GPT-3 模型，主要在编程代码上进行了微调。

因此，非常有趣的是，为了创建像 ChatGPT 这样的通用聊天机器人，开发人员决定在“代码模型”而非纯文本模型之上进行微调。

由于此步骤的数据量有限，在此过程之后获得的 SFT 模型可能会输出仍然（概率上）不是很受用户关注的文本，并且通常会出现上文所述意义上的错位。这里的问题是监督学习步骤的可扩展性成本很高。

为了克服这个问题，现在的策略是让贴标签者对 SFT 模型的不同输出进行排序以创建奖励模型，而不是要求人工贴标签者创建一个更大的精选数据集，这是一个缓慢且昂贵的过程——让我们更详细地解释这一点下节详述。

第二步：奖励模型（RM）

目标是直接从数据中学习目标函数（奖励模型）。此函数的目的是为 SFT 模型输出打分，与这些输出对人类的期望程度成正比。在实践中，这将强烈反映选定的人类标签组的特定偏好以及他们同意遵循的共同准则。最后，这个过程将从数据中提取一个应该模仿人类偏好的自动系统。

它是这样工作的：

选择提示列表，SFT 模型为每个提示生成多个输出（4 到 9 之间的任意位置）。
贴标签者将输出从最好到最差排序。结果是一个新的标记数据集，其中排名是标签。该数据集的大小大约是用于 SFT 模型的精选数据集的 10 倍。
此新数据用于训练奖励模型 (RM)。该模型将一些 SFT 模型输出作为输入，并按优先顺序对它们进行排序。

对于贴标机来说，对输出进行排序比从头开始生产要容易得多，这个过程可以更有效地扩大规模。在实践中，这个数据集是从 30-40k 提示的选择中生成的，并且在排名阶段将可变数量的生成输出（对于每个提示）呈现给每个标签器。

第 3 步：通过近端策略优化 (PPO) 微调 SFT 模型

强化学习现在用于通过优化奖励模型来微调 SFT 策略。使用的特定算法称为近端策略优化（PPO），微调后的模型称为 PPO 模型。

什么是 PPO？以下是此方法的主要要点：

PPO 是一种用于在强化学习中训练代理的算法。之所以称为“on-policy”算法，是因为它直接从当前策略中学习和更新，而不是像 DQN（深度 Q 网络）这样的“off-policy”算法中那样从过去的经验中学习。这意味着 PPO 会根据代理正在采取的行动和收到的奖励不断调整当前策略。
PPO使用信任域优化的方法来训练策略，这意味着它将策略的变化限制在与先前策略的一定距离内，以确保稳定性。这与其他策略梯度方法形成对比，后者有时会对可能破坏学习稳定性的策略进行大量更新。
PPO 使用价值函数来估计给定状态或动作的预期回报。价值函数用于计算优势函数，它表示预期收益与当前收益之间的差异。然后使用优势函数通过比较当前策略采取的操作与先前策略将采取的操作来更新策略。这使 PPO 可以根据所采取行动的估计价值对政策进行更明智的更新。

在这一步中，PPO模型是从SFT模型初始化的，**价值函数是从奖励模型初始化的。**该环境是一个bandit 环境，它呈现随机提示并期望对提示做出响应。给定提示和响应，它会产生一个奖励（由奖励模型决定）并且这一集结束。每个代币的SFT 模型都添加了每个代币的KL 惩罚，以减轻奖励模型的过度优化。

绩效评估

因为该模型是在人工标注者输入上训练的，所以评估的核心部分也是基于人工输入，即它通过标注者对模型输出的质量进行评分来进行。为避免训练阶段涉及的标注者的判断过度拟合，测试集使用来自保留的 OpenAI 客户的提示，这些提示未出现在训练数据中。

该模型根据三个高级标准进行评估：

Helpfulness：判断模型遵循用户指令的能力，以及推断指令的能力。
Truthfulness：判断模型对封闭域任务产生幻觉（编造事实）的倾向。该模型在TruthfulQA 数据集上进行评估。
Harmlessness：标注者评估模型的输出是否合适，是否诋毁受保护类，或包含贬损内容。该模型还在RealToxicityPrompts和CrowS-Pairs数据集上进行了基准测试。

该模型还评估了传统 NLP 任务（如问答、阅读理解和摘要）的零样本性能，开发人员在其中一些任务上观察到与 GPT-3 相比的性能回归。这是一个“校准税”的例子，其中基于 RLHF 的校准程序是以降低某些任务的性能为代价的。

这些数据集的性能回归可以通过称为预训练混合的技巧大大减少：在通过梯度下降训练 PPO 模型期间，通过混合 SFT 模型和 PPO 模型的梯度来计算梯度更新。

该方法的缺点

正如InstructGPT 论文（根据其创建者所说，ChatGPT 正是基于该论文）所讨论的，该方法的一个非常明显的局限性是，在将语言模型与人类意图对齐的过程中，用于微调模型的数据受到各种错综复杂的主观因素的影响，包括：

生成演示数据的标记者的偏好。
设计研究和编写标签说明的研究人员。
选择由开发人员制作或由 OpenAI 客户提供的提示。
标记者偏差既包含在奖励模型训练（通过对输出进行排名）中，也包含在模型评估中。

作者特别指出了一个明显的事实，即参与训练过程的标注人员和研究人员可能无法代表语言模型的所有潜在最终用户。

除了这个明显的“内在”限制之外，我们还想指出该方法的其他一些可能的缺点、未明确解决的问题以及一些悬而未决的问题：

缺乏控制研究：报告的结果衡量最终 PPO 模型的性能，以 SFT 模型为基线。这可能会产生误导：我们怎么知道改进实际上是由于 RLHF？一项适当的（但昂贵的）对照研究将包括投入与用于训练奖励模型的标记工时数完全相同的时间，以创建具有高质量演示数据的更大的精选 SFT 数据集。然后，人们就可以客观地衡量 RLHF 方法与监督方法相比的性能改进。简单来说，缺乏这样的控制研究让一个基本问题完全悬而未决：RLHF 在对齐语言模型方面真的做得很好吗？

比较数据缺乏基本事实：标注者通常会对模型输出的排名持不同意见。从技术上讲，风险是在没有任何基本事实的情况下向比较数据添加高潜在方差。

人类偏好并不是同质的：RLHF 方法将人类偏好视为同质和静态的。假设所有人都拥有相同的价值观显然是一种延伸，至少在人类知识的大量主题上是这样。最近的一些研究开始以不同的方式解决这个悬而未决的问题。

奖励模型 (RM) 的提示稳定性测试：似乎没有实验调查奖励模型在输入提示变化方面的敏感性。如果两个提示在句法上不同但在语义上是等价的，RM 能否在模型输出的排名中显示出显着差异？简单来说，提示的质量对 RM 有多重要？

Wireheading 类型的问题：在 RL 方法中，模型有时可以学习操纵自己的奖励系统以获得预期的结果，从而导致“过度优化的策略”。这可以推动模型重新创建一些模式，这些模式由于某种未知原因使奖励模型得分高（请参阅OpenAI 这篇论文中的表 29 ，了解语言建模中这种行为的明确示例）。ChatGPT 在奖励函数中使用 KL 惩罚项对此进行了修补。请注意，有人试图优化 RM输入（即 PPO 输出）以提高其输出（奖励分数），同时限制输入本身与某些参考输入不太远（SFT 输出）。在最近的预印本中详细介绍了这种方法的局限性。

Selected references for further reading

The most relevant paper about the RLHF methodology used for ChatGPT is Training language models to follow instructions with human feedback, which in fact details a model called InstructGPT, referred to by OpenAI as a “sibling model” to ChatGPT.
Anthropic published a detailed study on the effectiveness of RLHF methods for finetuning language models to act as helpful and harmless assistants.
The paper Learning to summarize from Human Feedback describes RLHF in the context of text summarization.
Proximal Policy Optimization: the PPO algorithm paper.
Deep reinforcement learning from human preferences –was one of the earliest (Deep Learning) papers using human feedback in RL, in the context of Atari games.
Alternatives to OpenAI’s RLHF have been proposed by DeepMind in Sparrow and GopherCite papers.
A deep dive into the Alignment problem for language models is given in a (long) paper by Anthropic. Here’s an excellent summary by Sam Ringer. Anthropic also has an open source repository (with accompanying paper) for RLHF.

文章翻译自：

https://www.assemblyai.com/blog/how-chatgpt-actually-works/

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
绝招曝光！3小时高效利用ChatGPT写出精彩论文 kkai人工智能 chatgpt 人工智能 ai 学习媒体
在这份指南中，我将深入解析如何利用ChatGPT4.0的高级功能，指导整个学术研究和写作过程。从初步探索研究主题，到撰写结构严谨的学术论文，我将一步步展示如何在每个环节中有效运用ChatGPT。如果您还未使用PLUS版本，可以参考相关教程。**初步探索与主题的确定**起初，我处于庞大的知识领域中，寻找一个可深入研究的领域。ChatGPT如同灯塔，通过深入分析最新研究趋势和领域热点，帮助我在广阔的学
ChatGPT 高效学习套路揭秘：让知识获取事半功倍的秘诀 kkai人工智能 chatgpt 人工智能学习媒体 ai
最近这段时间，AI热潮因ChatGPT的火爆再次掀起。如今，网上大部分内容都在调侃AI，但很少有人探讨如何正经使用ChatGPT做事情。作为一名靠搜索引擎和GitHub自学编程的开发者，第一次和ChatGPT深度交流后，我就确信：ChatGPT能够极大提高程序员学习新技术的效率。使用ChatGPT一个月后，我越发感受到它的颠覆性。因此，我想从工作和学习的角度，分享它的优势及我的一些使用技巧，而非娱
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
程序员如何在AI时代保持核心竞争力 nfgo chatgpt 人工智能
程序员如何在AI时代保持核心竞争力随着AIGC（如ChatGPT、MidJourney、Claude等）大语言模型的相继涌现，AI辅助编程工具逐渐普及，程序员的工作方式正在发生深刻的变革。AI不仅能够自动生成代码，还能优化、调试、甚至提出解决方案。这一趋势让许多人担心：AI会不会最终取代部分编程工作？然而，也有人认为AI是提升效率的得力助手。那么，程序员在这个AI崛起的时代该如何应对？是专注某个领
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。