青云遮夜雨

GPT系列论文解读：GPT-3

GPT系列

GPT（Generative Pre-trained Transformer）是一系列基于Transformer架构的预训练语言模型，由OpenAI开发。以下是GPT系列的主要模型：

GPT：GPT-1是于2018年发布的第一个版本，它使用了12个Transformer编码器层和1.5亿个参数。GPT-1的训练数据包括了互联网上的大量文本。
GPT-2：GPT-2于2019年发布，是GPT系列的第二个版本。它比GPT-1更大更强大，使用了24个Transformer编码器层和1.5亿到15亿个参数之间的不同配置。GPT-2在生成文本方面表现出色，但由于担心滥用风险，OpenAI最初选择限制了其训练模型的发布。
GPT-3：GPT-3于2020年发布，是GPT系列的第三个版本，也是目前最先进和最强大的版本。它采用了1750亿个参数，拥有1750亿个可调节的权重。GPT-3在自然语言处理（NLP）任务中表现出色，可以生成连贯的文本、回答问题、进行对话等。
GPT-3.5：GPT-3.5是在GPT-3基础上进行微调和改进的一个变种，它是对GPT-3的进一步优化和性能改进。

GPT系列的模型在自然语言处理领域取得了巨大的成功，并在多个任务上展示出了强大的生成和理解能力。它们被广泛用于文本生成、对话系统、机器翻译、摘要生成等各种应用中，对自然语言处理和人工智能领域的发展有着重要的影响。

GPT系列是当前自然语言处理领域下最流行，也是商业化效果最好的自然语言大模型，并且他的论文也对NLP的领域产生巨大影响，GPT首次将预训练-微调模型真正带入NLP领域，同时提出了多种具有前瞻性的训练方法，被后来的BERT等有重大影响的NLP论文所借鉴。

前言

在GPT-2论文中，谷歌团队致力于将GPT应用于Zero-shot领域，当然取得了不错的结果，但是这种结果离真正能在市场上应用还差得远，所以在GPT-3这篇论文中，谷歌团队又将目光转回Few-shot领域中来，论文标题“Language Models are Few-Shot Learners”也写明了GPT-3不再追求极致的零样本，即在一个子任务上完全不给语言模型任何样例，转而将样本数量控制在较小范围。

问题的提出

近年来，NLP系统中出现了一种趋势，即以越来越灵活和任务无关的方式在下游传输中使用预先训练好的语言表示。首先，使用词向量学习单层表示，并将其反馈给任务特定的体系结构，然后使用具有多层表示和上下文状态的RNN形成更强的表示（尽管仍适用于任务特定的体系结构），最近，经过预训练的递归或Transformer语言模型已经过直接微调，完全消除了对任务特定架构的需求。

这最后一种范式在许多具有挑战性的NLP任务上取得了实质性进展，如阅读理解、问答、文本蕴涵和其他许多任务，并在新的架构和算法基础上不断进步。然而，这种方法的一个主要限制是，虽然体系结构与任务无关，但仍然需要特定于任务的数据集和特定于任务的微调：要在所需任务上实现强大的性能，通常需要对特定于该任务的数千到几十万个示例的数据集进行微调。出于几个原因，消除这一限制是可取的。

首先，从实践的角度来看，每项新任务都需要一个大型的标记示例数据集，这限制了语言模型的适用性。存在着非常广泛的可能有用的语言任务，包括从纠正语法到生成抽象概念的示例，再到评论短篇小说的任何内容。对于许多此类任务，很难收集大型有监督的训练数据集，尤其是在每个新任务都必须重复该过程的情况下。

其次，随着模型的表达能力和训练分布的狭窄，利用训练数据中虚假相关性的潜力从根本上增加。这可能会给预训练+微调范式带来问题，在这种范式中，模型设计得很大，以便在预训练期间吸收信息，但随后会在非常狭窄的任务分布上进行微调。有证据表明，在这种范式下实现的泛化可能很差，因为该模型对训练分布过于具体，并且在其之外没有很好的泛化。因此，微调模型在特定基准上的性能，即使名义上处于人的水平，也可能夸大基本任务的实际性能。

第三，人类学习大多数语言任务不需要大型有监督的数据集——自然语言中的简短指令（例如，“请告诉我这句话描述的是快乐还是悲伤”）或至多少量的演示（例如，“这里有两个勇敢的人的例子；请给出第三个勇敢的例子”）通常足以让人类执行新任务至少达到合理的能力水平。除了指出我们当前NLP技术的概念局限性外，这种适应性还具有实际优势——它允许人类无缝地混合在一起或在许多任务和技能之间切换，例如在长时间的对话中执行加法。为了广泛使用，希望有一天我们的NLP系统具有相同的流动性和通用性。

介绍

近年来，transformer语言模型的容量大幅增加，从1亿个参数，增加到3亿个参数，增加到15亿个参数，增加到80亿个参数，110亿个参数，最后增加到170亿个参数。每一次增加都带来了文本合成和/或下游NLP任务的改善，有证据表明，log损失与许多下游任务密切相关，随着规模的增加，呈现平稳的改善趋势。由于情境上下文学习涉及在模型参数范围内吸收许多技能和任务，因此，情境学习能力可能会随着规模的扩大而表现出类似的强劲增长。

在本文中，论文通过训练一个1750亿参数的自回归语言模型（Transformer Decoder）（称之为GPT-3）并测量其上下文学习能力来检验这一假设。具体而言，论文评估了二十多个NLP数据集上的GPT-3，以及一些旨在测试对训练集中不可能直接包含的任务的快速适应的新任务。对于每项任务，论文在3种条件下评估GPT-3：
（a）“few-shot learning”，或在上下文学习中，允许尽可能多的演示，以适应模型的上下文窗口（通常为10到100）
（b）“one-shot learning”，只允许一次演示，
（c）“zero-shot learning”，不允许演示，仅向模型提供自然语言说明。
GPT-3原则上也可以在传统的微调设置中进行评估，但论文将此留给未来的工作。

上图说明了论文研究的条件，并显示了需要模型从单词中删除无关符号的简单任务的few-shot学习。通过添加自然语言任务描述和模型上下文中的示例数量，模型性能得到了提高。few-shot学习也随着模型大小的增加而显著提高。虽然这种情况下的结果特别引人注目，但在论文研究的大多数任务中，模型大小和上下文中的示例数量的总体趋势都适用。论文强调，这些“学习”曲线不涉及梯度更新或微调，只是增加了作为条件作用的演示次数。

方法

论文的基本预训练方法，包括模型、数据和训练，与GPT-2中描述的过程类似，相对简单地扩大了模型大小、数据集大小和多样性以及训练长度。我们对情境学习的使用也与 GPT-2类似，但在这项工作中，我们系统地探索了情境中学习的不同设置。因此，我们首先明确定义和对比我们将评估 GPT-3 或原则上评估 GPT-3 的不同设置。这些设置可以被视为取决于它们倾向于依赖多少特定于任务的数据。

图中我们可以看出在微调时GPT-3不需要进行梯度的更新，这也是GPT-3的卖点之一

微调(FT)：是近年来最常见的方法，它涉及通过对特定于所需任务的监督数据集进行训练来更新预训练模型的权重。通常使用数千到数十万个带标签的示例。微调的主要优点是在许多基准测试中表现出色。主要缺点是每个任务都需要一个新的大型数据集，分布外泛化能力差的可能性，以及利用训练数据的虚假特征的可能性，这可能会导致与人类表现进行不公平的比较。在这项工作中，我们没有对 GPT-3 进行微调，因为我们的重点是与任务无关的性能，但 GPT-3 原则上可以进行微调，这是未来工作的一个有希望的方向。
Few-Shot (FS)：Few-Shot (FS) 是我们在这项工作中使用的术语，指的是这样的设置：在推理时为模型提供一些任务演示作为条件，但不允许权重更新。如上图所示，对于典型的数据集，示例具有上下文和所需的完成（例如英语句子和法语翻译），通过给出 K 个上下文和完成的示例，然后提供一个最终示例，可以进行少样本工作上下文，模型有望提供完成。我们通常将 K 设置在 10 到 100 的范围内，因为这是模型上下文窗口中可以容纳的示例数量 ( $n_{ctx}$ = 2048)。 Few-shot 的主要优点是大大减少了对特定任务数据的需求，并降低了从大而窄的微调数据集中学习过于狭窄的分布的潜力。主要缺点是，迄今为止，这种方法的结果比最先进的微调模型要差得多。此外，仍然需要少量任务特定数据。正如名称所示，此处描述的语言模型的小样本学习与 ML 中其他上下文中使用的小样本学习相关 - 两者都涉及基于任务的广泛分布的学习（在这种情况隐含在预训练数据中），然后快速适应新任务。
One-Shot (1S)：One-Shot (1S) 与 Few-shot 相同，只是只允许进行一次演示，此外还需要对任务进行自然语言描述，区分 One-shot 和 Few-shot 的原因零样本（上图）的优点是它最接近某些任务与人类沟通的方式。例如，当要求人类在人类工作者服务（例如 Mechanical Turk）上生成数据集时，通常会给出一个任务演示。相比之下，如果不给出示例，有时很难传达任务的内容或格式。
Zero-Shot (0S)：Zero-Shot与One-Shot相同，只是不允许进行演示，并且模型仅被给予描述任务的自然语言指令。这种方法提供了最大的便利性、鲁棒性的潜力，并避免了虚假相关性（除非它们在预训练数据的大型语料库中广泛出现），但也是最具挑战性的设置。在某些情况下，如果没有先前的示例，人类甚至可能很难理解任务的格式，因此这种设置在某些情况下“相当困难”。例如，如果有人被要求“制作一个 200m 短跑的世界纪录表”，这个请求可能会含糊不清，因为可能不清楚该表应该具有什么格式或应该包含什么（即使仔细考虑）澄清、准确理解想要的东西可能很困难）。尽管如此，至少对于某些设置来说，零样本最接近人类执行任务的方式。

模型规模

GPT-3模型和架构

论文使用与 GPT-2相同的模型和架构，包括其中描述的修改后的初始化、预归一化和可逆标记化，不同之处在于我们在Transformer，类似于Sparse Transformer。为了研究 ML 性能对模型大小的依赖性，我们训练了 8 种不同大小的模型，范围从 1.25 亿个参数到 1750 亿个参数三个数量级，最后一个是我们称为 GPT-3 的模型。之前的工作表明，如果有足够的训练数据，损失函数的缩放应该近似为大小函数的平滑幂律；许多不同大小的训练模型使我们能够测试这个假设的验证损失和下游语言任务。上图显示了论文 8 个模型的尺寸和架构。这里 $n_{params}$ 是可训练参数的总数， $n_{layers}$ 是总层数， $d_{model}$ 是每个瓶颈层中的单元数（我们的前馈层始终是瓶颈层大小的四倍， $d_{ff} = 4 * d_{model}$ ）， $d_{head}$ 是每个注意力头的维度。所有模型都使用 $n_{ctx} = 2048$ 个token的上下文窗口。我们沿着深度和宽度维度跨 GPU 划分模型，以最大程度地减少节点之间的数据传输。每个模型的精确架构参数是根据计算效率和跨 GPU 模型布局的负载平衡来选择的。之前的工作表明验证损失在相当宽的范围内对这些参数并不强烈敏感。

原论文就写了这么少的内容，并没有说清楚具体的模型细节

训练数据

语言模型的数据集迅速扩展，最终形成了包含近万亿个单词的 Common Crawl 数据集。这种大小的数据集足以训练我们最大的模型，而无需对同一序列进行两次更新。然而，我们发现未经过滤或轻度过滤的 Common Crawl 版本往往比经过精心策划的数据集质量较低。因此，我们采取了 3 个步骤来提高数据集的平均质量：
（1）我们根据与一系列高质量参考语料库的相似性下载并过滤 CommonCrawl 的版本，（2）我们在文档级别执行模糊重复数据删除，在数据集内部和数据集之间，以防止冗余并保持我们保留的验证集的完整性，作为过度拟合的准确度量，
（3）我们还在训练组合中添加了已知的高质量参考语料库，以增强 CommonCrawl 并提高其多样性。

最终的数据集如下：

我们可以看出，虽然Common Crawl数据集的大小是其他数据集之和的数倍，但是每个Batch只采样百分之60，这种做法既能保证数据集足够大来训练这个175B的大模型，又能保证高质量数据在总数据集比重较大，保证模型的准确性。

训练过程

较大的模型通常可以使用较大的批量大小，但需要较小的学习率。我们在训练期间测量梯度噪声尺度，并用它来指导我们选择批量大小。为了在不耗尽内存的情况下训练更大的模型，我们在每个矩阵乘法中混合使用模型并行性，并在网络各层之间使用模型并行性。所有模型均在 Microsoft 提供的高带宽集群的 V100 GPU 上进行训练。

评估

对于少样本学习，我们通过从该任务的训练集中随机抽取 K 个示例作为条件来评估评估集中的每个示例，根据任务以 1 或 2 个换行符分隔。对于 LAMBADA 和 Storycloze，没有可用的监督训练集，因此我们从验证集中抽取条件示例并在测试集上进行评估。对于 Winograd（原始版本，不是 SuperGLUE 版本），只有一个数据集，因此我们直接从中绘制条件示例。

K 可以是从 0 到模型上下文窗口允许的最大数量的任何值，对于所有模型来说， $n_{ctx}$ = 2048，通常适合 10 到 100 个示例。 K 值越大越好，但并不总是越好，因此当有单独的验证集和测试集可用时，我们会在验证集上尝试几个 K 值，然后在测试集上运行最佳值。对于某些任务，除了（或对于 K = 0，而不是）演示之外，我们还使用自然语言提示。

对于涉及从多个选项（多项选择）中选择一个正确完成的任务，论文提供了 K 个上下文示例加上正确完成，然后仅提供一个上下文示例，并比较每个完成的 LM 可能性。对于大多数任务，我们比较每个标记的可能性（对长度进行标准化），但是，在少数数据集（ARC、OpenBookQA 和 RACE）上，我们通过对每个标记的无条件概率进行标准化，在开发集上衡量，获得了额外的好处完成，通过计算 $\frac{P (completion|context)}{ P (completion|answer context) }$ ，其中答案上下文是字符串“Answer:”或“A:”，用于提示完成应该是答案，但在其他方面是通用的。

在涉及二元分类的任务中，我们为选项赋予更具语义意义的名称（例如“True”或“False”而不是 0 或 1），然后将任务视为多项选择。

总结

论文提出了一个 1750 亿个参数的语言模型，该模型在零样本、单样本和少样本设置中的许多 NLP 任务和基准测试中显示出强大的性能，在某些情况下几乎与 4 个最先进的性能相匹配微调系统，以及在动态定义的任务中生成高质量的样本和强大的定性性能。我们在不使用微调的情况下记录了大致可预测的性能扩展趋势。论文还讨论了此类模型的社会影响。尽管存在许多限制和弱点，但这些结果表明，非常大的语言模型可能是开发适应性强的通用语言系统的重要组成部分。

谷歌团队似乎不愿透露GPT系列模型的细节内容，GPT系列论文花了大量的时间来展示GPT模型在不同任务上的实验结果，在模型方法和训练方法上一带而过，是一篇带有“炫技性”的论文，并不是一篇适合读者去学习自然语言大模型的论文。

人工智能LLM | 基础配置 | 通过环境变量配置API-KEY 一文通教程 H-大叔人工智能大模型实战与教程人工智能
在实战开发大语言模型的过程中，经常会遇到各种API-KEY的配置问题，例如GPTOpenAIKEY的配置，而且目前大部分都要求将其配置在环境变量中，下面将会讲解如何在Linux、macOS、Windows中配置，本文一文通教程。您可以使用配置环境变量的方法，避免在调用各种SDK时显式地配置API-KEY，从而降低泄漏风险。环境变量是操作系统中用于存储有关系统环境的信息的变量。您可以通过环境变量来配
【人工智能】ChatGPT、DeepSeek-R1、DeepSeek-V3 辨析 G皮T #大语言模型人工智能 LLM 大语言模型 chatgpt deepseek DeepSeek-R1 DeepSeek-V3
ChatGPT、DeepSeek-R1、DeepSeek-V3辨析1.ChatGPT对比DeepSeek1.1技术相似点1.2主要差异1.3关键区别1.4如何选择1.5总结2.DeepSeek-R1对比DeepSeek-V32.1DeepSeek-R12.2DeepSeek-V32.3核心区别总结2.4如何选择3.R1和V3有什么含义3.1DeepSeekR1的"R"3.2DeepSeekV3的"
「论文导读」LLM高效推理与模型量化雷羿 LexChien prompt 人工智能 LLM 论文阅读
1.论文背景作者：HugoTouvron等人，來自MetaAI来源：arXiv:2302.13971，2023年2月主题：介绍LLaMA系列模型（LLaMA-7B、13B、33B、65B），专为研究用途设计，强调高效能与低资源需求的语言模型推理。论文探讨如何通过优化训练数据、模型架构和推理技术，在有限硬体资源（如单一GPU或CPU）上实现高效推理。学术背景：随着大型语言模型（LLM）如GPT-3的
【深度学习新浪潮】什么是上下文长度？小米玄戒Andrew 深度学习新浪潮深度学习人工智能 LLM 语言模型大模型模型优化上下文长度
大型语言模型（LLM）的上下文长度是指模型在处理当前输入时能够有效利用的历史文本长度，通常以token（如单词、子词或标点）为单位衡量。例如，GPT-4支持128Ktoken的上下文，而Llama4Scout甚至达到了10Mtoken的惊人规模。这一指标直接影响模型在长文档理解、多轮对话等复杂任务中的表现。一、上下文长度的合理范围上下文长度的选择需结合具体应用场景：日常对话：通常需要8K–32Kt
Python机器学习与深度学习：决策树、随机森林、XGBoost与LightGBM、迁移学习、循环神经网络、长短时记忆网络、时间卷积网络、自编码器、生成对抗网络、YOLO目标检测等 WangYan2022 机器学习/深度学习 Python 机器学习深度学习随机森林迁移学习
融合最新技术动态与实战经验，旨在系统提升以下能力：①掌握ChatGPT、DeepSeek等大语言模型在代码生成、模型调试、实验设计、论文撰写等方面的实际应用技巧②深入理解深度学习与经典机器学习算法的关联与差异，掌握其理论基础③熟练运用PyTorch实现各类深度学习模型，包括迁移学习、循环神经网络（RNN）、长短时记忆网络（LSTM）、时间卷积网络（TCN）、自编码器、生成对抗网络（GAN）、YOL
比Cursor香！字节AI编程神器Trae上线，Claude3.5+GPT4o免费用，中文开发者狂喜！东哥说AI AI应用 AI编程 AI工具 Trae Cursor Windsurf
2024年开始，AI编程工具在国外卷疯了——Cursor、Copilot、Windsurf、Devin、Bolt.new等一系列AI编程神器纷纷露脸，但是国外的软件多国内的中文开发者还是不够友好；国内的各个编程插件通义灵码、文心快码、豆包MarsCode也经常刷屏程序员圈，但是还是作为一个插件嵌入到IDE中使用、而非作为独立的IDE。就在1月，字节跳动终于出手了，发布了对标Cursor和Winds
大模型开源与国产化突围：技术路径与产业机遇深度解析梦玄海开源架构 golang 开发语言后端大数据
引言：大模型时代的双轨竞速2023年全球大语言模型（LLM）参数量突破万亿级，GPT-4、LLaMA等模型引领技术浪潮。中国在这场竞赛中面临双重命题：既要融入全球开源生态，又要构建自主可控的技术体系。本文将从技术架构、训练范式、生态建设三个维度，深入剖析大模型开源与国产化的突围路径。一、全球开源格局与中国大模型现状1.1国际开源生态的演进特征技术民主化加速：LLaMA-2（700亿参数）、BLOO
深入详解 AI 与深度学习：从零开始掌握 BERT 模型架构拉不拉斯AICoding 技术探索人工智能深度学习 bert
深入详解AI与深度学习：从零开始掌握BERT模型架构引言在自然语言处理（NLP）领域，BERT（BidirectionalEncoderRepresentationsfromTransformers）是近年来最具影响力的模型之一。它通过双向上下文理解彻底改变了NLP任务的处理方式。本文将从基础概念到核心原理、应用场景和实践技巧，深入浅出地讲解BERT，帮助初学者快速掌握这一技术。一、BERT的核心
【人工智能】Maas（模型即服务）（Model as a Service）是一种基于云计算的商业模式，通过API将预训练的人工智能模型作为服务提供给用户，使其无需自行管理底层基础设施即可调用AI能力。本本本添哥 A -AIGC 人工智能大模型人工智能云计算
ModelasaService（模型即服务，MaaS）是一种基于云计算的商业模式，通过API将预训练的人工智能模型作为服务提供给用户，使其无需自行管理底层基础设施即可调用AI能力。MaaS通过云原生架构和标准化服务，正在重塑AI技术的开发和消费方式，推动人工智能从“技术专有”向“普惠工具”转变。以下是其核心要点：1.定义与核心理念MaaS将大模型（如GPT-3、多模态模型等）封装为标准化服务，用户
Windows系统FastGPT安装配置依赖项遇到的问题耳双6 windows
遇到了两个问题，记录备忘一下安装Docker报错：此访问控制列表格式不规范，因此无法修改。1.使用管理员权限使用管理员权限打开cmd命令提示符窗口。2.修复文件目录权限icacls"C:\ProgramFiles\Docker"/reset/t/c/qicacls"C:\ProgramData\DockerDesktop"/reset/t/c/q然后再双击文件就能正常安装了参数解释：/reset：
Transformer模型架构深度讲解
Transformer是一种在自然语言处理（NLP）和深度学习中非常重要的模型架构。它首次由Vaswani等人于2017年提出，主要应用于序列到序列的任务（如机器翻译、文本生成、摘要生成等）。Transformer模型与传统的RNN（循环神经网络）和LSTM（长短时记忆网络）不同，它不依赖于时间步的顺序处理，而是完全基于“注意力机制”进行计算，这使得它在训练速度、并行化能力和长期依赖问题的处理上具
AlphaGPT通过国家AIGC生成式算法备案，为法律专业人士提供更加合规可靠的ai技术支持资讯分享周 AIGC 人工智能
在当前互联网信息时代,大模型算法已成各行业不可或缺的核心,不仅改善生活和工作,也在创新中展现巨大潜力。然而,随着算法应用的普及,如何合规管理算法,保护用户权益和隐私,确保公正运行,成为重要议题。日前,国内领先的法律科技企业iCourt宣布,其自主研发的法律垂类领域大模型AlphaGPT成功通过国家生成式模型深度学习合成算法备案。本次备案的通过,彰显了iCourt在法律AI领域有迈向了一个新的里程碑
满血DeepSeek加持的AlphaGPT，助力高文律师事务所全面拥抱AI
2025年初,中国团队精心雕琢的通用大模型DeepSeek凭借其创新的架构优化以及深入的数据挖掘技术,在逻辑推理、多轮对话和知识搜索等关键领域大放异彩,其为诸多垂直领域,特别是法律行业的智能化转型,开拓了全新的方向。2月8日,法律科技领域的领军者iCourt将旗下的AlphaGPT与DeepSeek深度融合,重磅推出业内首款“DeepSeek+法律专业”AI大模型。这一创举彻底打破了传统法律智能工
ChatGPT之后：AI原生应用如何推动人机共创2.0时代？ Agentic AI人工智能与大数据 CS chatgpt AI-native ai
ChatGPT之后：AI原生应用如何推动人机共创2.0时代？关键词：AI原生应用、人机共创2.0、生成式AI、认知增强、协作范式变革摘要：ChatGPT的爆发不仅是AI技术的突破，更标志着人机关系的转折点。本文将从「AI原生应用」这一核心概念出发，通过技术原理、协作模式演变、典型场景和未来趋势的深度解析，揭示AI如何从「工具助手」升级为「共创伙伴」，推动人机关系进入「能力融合、双向激发」的2.0时
AI人工智能浪潮中，GPT的技术优势凸显 AI学长带你学AI 人工智能 gpt ai
AI人工智能浪潮中，GPT的技术优势凸显关键词：人工智能、GPT、自然语言处理、深度学习、Transformer、大语言模型、技术优势摘要：本文深入探讨了在人工智能浪潮中GPT(GenerativePre-trainedTransformer)系列模型的技术优势。我们将从GPT的核心架构出发，分析其独特的技术特点，包括自注意力机制、预训练-微调范式、零样本学习能力等。通过与传统NLP方法的对比，揭
语言大模型综述
Paper:ASurveyofLargelanguageModels目录Paper:ASurveyofLargelanguageModels综述概要LLM关键技术规模定律（ScalingLaws）预训练与微调对齐调优（AlignmentTuning）外部工具集成GPT系列模型的技术演进模型检查点和APIPre-Training数据准备和处理数据准备数据预处理数据调度架构EmergentArchit
【论文复现】利用生成式AI进行选股和分配权重代码能跑就行管它可读性人工智能 chatgpt
2023年8月，OleksandrRomanko等发表题为《ChatGPT-basedInvestmentPortfolioSelection》（基于ChatGPT进行投资组合选择）的论文。论文探讨了生成式AI模型（如ChatGPT）在投资组合选择中的应用潜力。由于生成式AI模型可能产生幻觉，因此需要谨慎验证和验证其输出。本文采用另一种方法，利用ChatGPT从S&P500市场指数中获取潜在有吸引
10.6 ChatGLM3私有数据微调实战：24小时打造高精度模型，显存直降60% 少林码僧掌握先机！从 0 起步实战 AI 大模型微调打造核心竞争力 chatgpt 机器学习深度学习人工智能语言模型
ChatGLM3私有数据微调实战：24小时打造高精度模型，显存直降60%1.实战构造私有的微调数据集在微调大模型时，数据质量直接决定模型效果。本节将手把手教你如何构建高质量的私有微调数据集。1.1使用ChatGPT自动设计生成训练数据的Prompt核心思路：通过ChatGPT生成符合任务需求的样本数据，降低人工标注成本。步骤示例（以生成客服对话数据为例）：fromlangchain.prompts
大语言模型（LLM）课程学习（Curriculum Learning）、数据课程（data curriculum）指南：从原理到实践
在人工智能的浪潮之巅，我们总会惊叹于GPT-4、Llama3.1、Qwen2.5这些顶尖大语言模型（LLM）所展现出的惊人能力。它们似乎无所不知，能写诗、能编程、能进行复杂的逻辑推理。一个自然而然的问题是：它们是如何“学”会这一切的？大多数人会回答：“用海量数据喂出来的。”这个答案只说对了一半。如果你认为只要把互联网上能找到的所有数据（比如15万亿个token）随机打乱，然后“一锅烩”地喂给模型，
巨兽的阴影：大型语言模型的挑战与伦理深渊田园Coder 人工智能科普人工智能科普
当GPT-4这样的庞然大物能够流畅对话、撰写诗歌、编写代码、解析图像，甚至在某些测试中媲美人类专家时，大型语言模型（LLM）仿佛成为了无所不能的“智能神谕”。然而，在这令人目眩的成就之下，潜藏着复杂而严峻的挑战与伦理困境，如同光芒万丈的科技巨兽脚下那片难以忽视的深邃阴影。这些挑战并非技术进步的偶然副作用，而是深植于LLM的运作本质、训练数据来源以及其与社会交互的复杂性之中。它们警示我们，在追逐能力
扩散模型中的 Transformer：图像生成及其延展应用询问 ChatGPT DeepSeek大模型官方教程 transformer chatgpt 深度学习自然语言处理人工智能 ai 大模型学习
扩散模型近年来在生成逼真但合成的连续媒体内容方面引起了广泛关注。本次演讲将介绍Transformer在图像生成的扩散模型中的应用，并进一步探讨其更广泛的前景。我们首先简要介绍扩散模型的基础知识以及它们的训练方式，从而建立基本背景。接着，我们讲解曾是扩散模型事实标准的基于UNet的网络架构，这将帮助我们理解引入Transformer架构并推动其发展的动因。随后，我们将深入探讨构成基础架构的核心模块，
自然语言处理-基于预训练模型的方法-笔记
自然语言处理-基于预训练模型的方法-笔记【下载地址】自然语言处理-基于预训练模型的方法-笔记《自然语言处理-基于预训练模型的方法》由哈尔滨工业大学出版，深入探讨了NLP领域的前沿技术与预训练模型的应用。本书系统介绍了预训练模型的基本概念、发展历程及常见模型的原理，并通过丰富的实践案例与代码实现，帮助读者掌握这些技术在自然语言处理任务中的实际应用。无论是初学者、研发人员，还是希望提升NLP能力的研究
模型微调方法Prefix-Tuning ballball~~ 大模型人工智能算法大数据
简介：个人学习分享，如有错误，欢迎批评指正。随着大规模预训练语言模型（如GPT系列、BERT等）的广泛应用，如何高效、经济地针对特定任务对这些模型进行微调（Fine-Tuning）成为研究热点。传统的微调方法通常需要调整模型的大量参数，导致计算资源消耗大、适应新任务的速度慢。为了解决这一问题，Prefix-Tuning（前缀调优）作为一种高效的微调技术被提出，旨在通过引入少量可训练的前缀参数，达到
PTP 与 gPTP 的对比解析 ftdlk 人形机器人机器人自动驾驶
PTP与gPTP的对比解析PTP（PrecisionTimeProtocol）和gPTP（generalizedPrecisionTimeProtocol）均为高精度时间同步协议，但设计目标、应用场景及技术实现存在显著差异。以下是两者的核心区别：1.协议标准与目标特性PTP(IEEE1588)gPTP(IEEE802.1AS)标准版本IEEE1588-2008（主流）/IEEE1588-2019I
star31.6k，Aider：让代码编写如虎添翼的终端神器
ider是一款运行在终端中的AI结对编程工具，它能与大型语言模型（LLM）无缝协作，直接在您的本地Git仓库中编辑代码。无论是启动新项目，还是优化现有代码库，Aider都能成为您最得力的助手。它支持Claude3.5Sonnet、DeepSeekV3、GPT-4o等顶级AI模型，几乎可以连接任何LLM，让编程体验如虎添翼。Stars数35,188Forks数3,230主要特点Git操作：Aider
多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎 zhaoyi_he 重构人工智能
一、引言：为什么多模态是AI发展的下一场革命？过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI迈出关键一步。OpenAI的GPT-4o、Google的Gemini
别再盯着工具选型了，组织协作真正的问题在这里｜CTO的一线观察
GPT、Agent、多模态、Copilot……新一轮AI热潮涌来，很多企业也跟上了节奏，纷纷把“AI办公”挂上了OKR。你可能也遇到过这样的场景：项目部署了AI助手，但团队协作依然低效；工具用了不少，日报、周报、纪要、方案、流程……依然靠人手“补漏”；系统林立，数据割裂，信息层层递送但任务没人推动，协同像“失速列车”。AI上了，协作没变——问题出在哪儿？作为一线的技术负责人，我们不得不承认：真正的
这是gpt o1给出的物联网工程专业的大学规划，有人看看这个合理吗？王倚山 gpt 物联网学习开发语言
下面是一份更为详细、覆盖全年（包括寒暑假）的四阶段学习规划，旨在帮助你在大学剩余时间里持续学习、循序渐进地掌握物联网（IoT）核心技能，打造深厚的技术壁垒。每个阶段都有明确的学习目标与自学内容细节，并在寒暑假安排了“强化期”任务，让你全年不停歇，不断提升。总体思路稳扎稳打：从嵌入式基础到RTOS、传感器驱动、通信协议，再到边缘计算、云平台、工业协议、安全攻防，层层深入。项目驱动：每个阶段至少完成1
大语言模型应用指南：ReAct 框架 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
大语言模型应用指南：ReAct框架关键词：大语言模型,ReAct框架,自然语言处理(NLP),模型融合,多模态学习,深度学习,深度学习框架1.背景介绍1.1问题由来近年来，深度学习技术在自然语言处理(NLP)领域取得了显著进展。尤其是大语言模型(LargeLanguageModels,LLMs)，如BERT、GPT系列等，通过在大规模无标签数据上进行预训练，获得了强大的语言理解和生成能力。然而，预
大语言模型原理基础与前沿基于语言反馈进行微调 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿基于语言反馈进行微调作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，自然语言处理（NLP）领域取得了显著的进展。大语言模型（LargeLanguageModels，LLMs）如GPT-3、BERT等在各项NLP任务上取得了令人瞩目的成绩。然而，如何进一步提高大语言模型的理
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S