公众号-芋道源码

谈谈ChatGPT 背后的核心技术论文

点击上方“芋道源码”，选择“设为星标”

管她前浪，还是后浪？

能浪的浪，才是好浪！

每天 10:33 更新文章，每天掉亿点点头发...

源码精品专栏

原创 | Java 2021 超神之路，很肝~
中文详细注释的开源项目
RPC 框架 Dubbo 源码解析
网络应用框架 Netty 源码解析
消息中间件 RocketMQ 源码解析
数据库中间件 Sharding-JDBC 和 MyCAT 源码解析
作业调度中间件 Elastic-Job 源码解析
分布式事务中间件 TCC-Transaction 源码解析
Eureka 和 Hystrix 源码解析
Java 并发源码

来源：智能化学习与思考

缘起
论文介绍
启发收获

缘起

输入几个简单的关键词，AI能帮你生成一篇短篇小说甚至是专业论文。作为上知天文下知地理对话语言模型，最近大火的ChatGPT在邮件撰写、视频脚本、文本翻译、代码编写等任务上强大表现，让埃隆·马斯克都声称感受到了AI的“危险”。

最近大火的ChatGPT的计算逻辑来自于一个算法名字叫Transformer。它来源于2017年的一篇科研论文《Attention is all your need》。本来这篇论文是聚焦在自然语言处理领域，但由于其出色的解释性和计算性能开始广泛地使用在AI各个领域，成为最近几年最流行的AI算法模型，无论是这篇论文还是Transformer模型，都是当今AI科技发展的一个缩影。

这也是我想在这里给大家分析这篇文章的核心要点和主要创新的初衷。

但我非AI（数学，计算机）专业，只是梳理并分享自己学习的体会和思考，与大家一起讨论，欢迎各位多提宝贵意见；所述并不专业，各位大牛可以绕行。

从Transformer提出到“大规模预训练模型”GPT（Generative Pre-Training）的诞生，再到GPT2的迭代标志Open AI成为营利性公司，以及GPT3和ChatGPT的“出圈”；再看产业界，第四范式涉及到多个重要领域比如生物医疗，智能制造纷纷有以Transformer落地的技术产生。在这个浪潮下，我的思考是：

一是，未来很长一段时间在智能化领域，我们都将经历“科研、算力、基础架构、工程、数据、解决方案”这个循环的快速迭代；流动性、创新性短期不会稳定下来，而是会越来越强。

我们很难等到科技封装好，把这些知识全部屏蔽掉，再去打磨产品。未来在竞争中获胜的，将是很好地“解决了产品化和科研及工程创新之间平衡”的团队。我们一般理解的研发实际上是工程，但AI的实践科学属性需要团队更好的接纳这种“流动性”。因此对所有从业者或者感兴趣智能化的小伙伴了解全栈知识成了一个刚需。

二是，通过对这篇论文的探讨，可以更直观地理解：在科研端发生了什么，以什么样的速度和节奏发生；哪些是里程碑？是科学界的梅西横空出世，带我们发现真理；哪些是微创新？可能方向明确了，但还有很多空间可以拓展；哪些更像炼金术？仍然在摸索，尚需要很长一段时间，或者一直会保持这个状态。

三是，在AI领域，由于技术原因，更多的论文是开源代码的，一方面，促进了更多人参与进来改进迭代；另一方面，科研跟工程实现无缝连接，一篇论文可以拉动从核心代码到平台，到具体应用很大范围的价值扩散。一篇论文很可能就是一个领域，一条赛道，甚至直接驱动业务价值和客户价值的大幅提升。

四是， AI技术发展有很多领域（感知，认知，感知又分图像、语音、文字等，认知也可以分出很多层次），之前这些领域的算法逻辑存在很大差别，Transformer的出现有一定程度上推动各个领域汇聚的迹象，介绍清楚这篇文章，对把握整体，可能有些作用。另外ChatGPT属于现象级应用，大家更有直观感受，未来这类应用的体验提升和更新速度只会更快，理解了其背后的逻辑，更有助于我们把握这个趋势。

基于 Spring Boot + MyBatis Plus + Vue & Element 实现的后台管理系统 + 用户小程序，支持 RBAC 动态权限、多租户、数据权限、工作流、三方登录、支付、短信、商城等功能

项目地址：https://github.com/YunaiV/ruoyi-vue-pro

视频教程：https://doc.iocoder.cn/video/

论文介绍

下面步入正题，开始介绍这篇论文，会涉及一些技术细节及公式，可能还需要仔细看一下，相信一旦看进去，你会对AI的理解加深很多。

总体把握

这篇论文的结构非常精炼，提出问题，分析问题，解决问题，给出测试数据。顶刊文章讲究言简意赅，有描述，有代码，有结果；其中最核心的是以下这张图，作者团队提出Transformer的核心算法结构：

整篇文章就是围绕这张图来进行解释的，由于篇幅所限，我们聚焦在一条主线上：1、文章想解决主要问题是什么；2、如何解决的；3、从文章提出的解决方案作为一个案例来引发整体思考，因此我们将内容简化，主要关注核心部分。

这张图表达的内容如果理解了，那基本上你掌握了这篇论文85%的内容，也是最关键的部分。

《Attention is all your need》在编写时主要是为了考虑NLP任务，是由几个Google的科研人员一起完成的，其中一个背景是Google也在推广自己的并行计算芯片以及AI TensorFlow开发平台。平台主要功能特点是并行计算，这篇文章的算法也是在最大限度的实现并行计算。我们就以一个简单的例子来把这个算法串一遍。

核心内容

需求是我们需要训练一个模型，进行中文到英文翻译。

背景知识：这个需求要把“翻译：我爱你 to I love you”转置成一个y=f(x)问题，x代表中文，y是英文，我们要通过训练得到f()，一旦训练成功f()，就可以实现翻译。大家拼的就是谁的训练方法更准确，更高效，谁的f()更好用。

之前自然语言处理主要的算法叫RNN（循环神经网络），它主要的实现逻辑是每个“字”计算之后将结果继承给第二个字。算法的弊病是需要大量的串行计算，效率低。而且当遇到比较长的句子时，前面信息很有可能会被稀释掉，造成模型不准确，也就是对于长句子效果会衰减。这是这篇文章致力于要解决的问题，也就是说这篇文章有训练处更好的f()的方法。联想一下ChatGPT可以做论文，感受一下。

在Transformer里，作者提出了将每个字与句子中所有单词进行计算，算出这个词与每个单词的相关度，从而确定这个词在这个句子里的更准确意义。（这句话要是理解了，后面其实可以不看了。）

在此处，要开始进入一些技术细节，在开始之前，我们有必要再熟悉一下机器学习领域最核心的一个概念——“向量”。在数字化时代，数学运算最小单位往往是自然数字。但在AI时代，这个最小单元变成了向量。这是数字化时代计算和智能化时代最重要的差别之一。

举个例子，比如，在银行，判断一个人的信用额度，我们用一个向量来表示：

向量是一组数据的集合，也可以想象成在一个超高维度空间里的一个点。一个具体的信用额度向量，就是在8个特征组成的高维空间的一个点。数据在高维空间将展现更多的数学性质比如线性可分，容易让我们抓住更多隐藏的规律。

向量的加减乘除是计算机在进行样本训练是最主要的计算逻辑。第四范式一直强调的高维，实时，自学习，其中高维就是把企业信息拉升到一个非常高维的空间，变成向量。

Transformer模型的主要意义就是找到了一个算法，分成三步把一个词逐步定位到了一个高维空间，在这个过程中赋予这个单词比其它算法更优的信息。很多情况下这个高维空间有着不同的意义，一旦这个向量赋予的信息更准确更接近真实情况，后面的机器学习工作就很容易展开。还拿刚才信用额度向量举例子：

这两个向量存在于两个不同的向量空间，主要的区别就是前者多了一个向量特征：“年薪”。可以思考一下如果判断一个人的信用额度，“年薪”是不是一个很重要的影响因子？

以上例子还是很简单的，只是增加了一个特征值，在Transformer里就复杂很多，它是要把多个向量信息通过矩阵加减乘除综合计算，从而赋予一个向量新的含义。

好，理解了向量的重要性，我们看回Transformer的三步走，这三步走分别是：1、编码（Embedding）；2、定位（Positional encoding）；3、自注意力机制（Self-Attention），这个真的大名鼎鼎。

举个例子，比如，翻译句子Smart John is singing到中文。

首先，要对句子每个词进行向量化。

我们先看“John”这个词，需要先把“John”这个字母排列的表达转换成一个512维度的向量John，这样计算机可以开始认识它。说明John是在这个512维空间的一个点；这是第一步：编码（Embedding）。

再次，第二步，定位（Positional encoding）。利用以下公式（这是这篇文章的创新）：

微调一个新的高维空间，生成一个新的向量：

我们不用太担心这个公式，它核心意义是：在这个新的向量里面每一位由原来的0和1表示，分别取代成由sin和cos表示，这个目的是可以通过sin和cos的定律，让这个新向量不仅表示John这个单词的意义，还可以表示John在Smart John is singing这个句子的位置信息。

如果不理解，可以直接忽略，只要记住第二步是用来在“表达John这个词的向量”中，加入了John在句子中的位置信息。John已经不是一个孤立的词，而是一个具体句子中的一个词，虽然还不知道句子中其他词是什么含义。

如果第一步计算机理解了什么是John，第二步计算机理解了“* John**”。

最后，第三步，自注意力机制（Self-Attention），通过一个Attention（Q，K，V）算法，再次把John放到一个新的空间信息里，我们设为：

在这个新向量里，不仅包含了John的含义，John在句子中位置信息，更包含了John和句子中每个单子含义之间的关系和价值信息。我们可以理解，John作为一个词是一个泛指，但Smart John就具体了很多，singing的Smart John就又近了一步。而且Attention （Q，K，V）算法，不是对一个单词周围做计算，是让这个单词跟句子里所有单词做计算。通过计算调整这个单词在空间里的位置。

这种方法，可以在一个超长句子中发挥优势，而且最关键的是一举突破了时序序列的屏障，以前对于图像和NLP算法的划分，很大程度上是由于NLP有很明显的时序特征，即每个单词和下一个以及在下一个有比较明显的时序关系。但Transformer这种算法打破了这种束缚，它更在意一个单词跟句子中每个单词的价值权重。这是Transformer可以用到everywhere的主要原因。

计算过程

如果不感兴趣，可以跳过这一部分介绍，直接进入启发收获部分。

具体的计算过程，用翻译句子“我爱你”到“I love you”举例（这句更简单一些）。首先进行向量化并吸收句子位置信息，得到一个句子的初始向量组。

由于样本每个句子长短不同，所以每个句子都会是一个512*512的矩阵，如果长度不够就用0来代替。这样在训练时，无论多长的句子，都可以用一个同样规模的矩阵来表示。当然512是超参，可以在训练前调整大小。

接着，用每个字的初始向量分别乘以三个随机初始的矩阵WQ，Wk，Wv 分别得到三个量Qx，Kx，Vx。下图以“我”举例。

然后，计算每个单词的attention数值，比如“我”字的attention值就是用“我”字的Q我分别乘以句子中其他单词的K值，两个矩阵相乘的数学含义就是衡量两个矩阵的相似度。然后通过一个SoftMax转换（大家不用担心如何计算），计算出它跟每个单词的权重，这个权重比例所有加在一起要等于1。再用每个权重乘以相对应的V值。所有乘积相加得到这个Attention值。

这个attention数值就是除了“我”字自有信息和位置信息以外，成功的得到了这个句子中每个单词的相关度信息。

大家可以发现，在所有注意力系数的计算逻辑中其实只有每个字的初始矩阵WQ，Wk，Wv是未知数（这三个矩阵是所有文字共享的）。那么我们可以把这个Transformer简化成一个关于输入，输出和这个W矩阵的方程：其中X是输入文字信息，Y是翻译信息。

这里有必要再介绍一下机器学习的基础知识：Transformer算法本质上是一个前馈神经网络模型，它的计算基础逻辑，不去管复杂的隐藏层，就是假设Y=f(x)=wx，（目标还是要算出一个f()）然后随机设置一个w0，开始计算这个y=w0x的成本函数，然后再把w0变成w1，计算y=w1x的成本函数，以此类推计算出无数w（不是无数哈，也会收敛的），然后比较哪个w的成本函数最小，就是我们训练出来的f()。那么在Transformer里，这三个初始矩阵就是那个w0。

再回到Transformer，在计算Attention之后，每个单词根据语义关系被打入了新的高维空间这就是Self-attention（自注意力机制）。

但在Transformer里，并不是代入了一个空间，而是代入了多个高维空间，叫做多头注意力机制。

文章中没有给出更清晰的理论支持，为什么是多头。

主要原因是在训练时效果很好。这也是AI科研论文的一个特点，常常凭借非常高的科研素养和敏感性，发现一些方向，并且通过测试确实有效，但不一定可以给出很完美的理论支撑。这往往也给后续研究者一些可以进一步完善的空间。

事实证明，如何提升Attention（Q，K，V）效率是Transformer领域迭代最快的部分。之后的Bert算法提出预训练机制成为了主流，后面会做进一步介绍。

当然，事后我们可以理解是把这个句子中的逻辑关系放到不同的高维空间去训练，目的就是希望抓取更多的信息，这一部分可以更加深刻理解科研人员对空间的应用。

除了以上内容，还有一些技术点比如Mask机制、layer norm、神经网络激函数饱和区控制等，由于篇幅关系以及属于技术细节就不一一介绍了。

如果大家理解了多头自注意力机制，基本已经85%掌握了这篇论文的重要内容，也对还在快速扩展影响力的Transformer模型有了一个比较直观的认识。

基于 Spring Cloud Alibaba + Gateway + Nacos + RocketMQ + Vue & Element 实现的后台管理系统 + 用户小程序，支持 RBAC 动态权限、多租户、数据权限、工作流、三方登录、支付、短信、商城等功能

项目地址：https://github.com/YunaiV/yudao-cloud

视频教程：https://doc.iocoder.cn/video/

启发收获

从理论科研进步的角度看

Transformer打破了时序计算的逻辑，开始快速出圈，多个AI原本比较独立的领域开始在技术上融合。再往里看，Transformer能打破时序很重要一点是并行计算的算力模式给更复杂的计算带来了性价比上的可能性。算力的进一步提高，必将在AI各细分领域带来融合，更基础设施级别的模型，算法仍将不断推出。AI领域在图像，NLP；感知认知领域的专业分工也会慢慢变模糊。

AI科研确实具有一些实验性质。除了核心思想，确实还有很多技术点的解决方向已经明确，但还有很大的提升空间，可以预见围绕Transformer周边的微创新会持续加速繁荣。

《Attention is all your need》在业内大名鼎鼎，但你要是细看，会发现很多内容也是拿来主义，比如最重要的Attention（Q，K，V）中Query，Key，Value是互联网推荐系统的标配方法论；整个Transformer算法也是一个大的神经网络，算法是在前人基础上一步一步迭代发展，只是这个迭代速度明显在加快。

从理论、算法、架构、工程的角度看

AI算法科研领域正经历算法、开源代码、工程、算力的增长飞轮。

下图是顶级刊物上的学术论文中，开放源代码的论文比例，这个数据在这几年以更快的速度在增长。科研过程与工程过程产生越来越大的交集。开源社区和开源文化本身也在推动算法和工程的快速发展。

更多人参与，更多领域的人参与进来，进入门槛随着算力成本、AI基础架构和代码、知识分享的开源逐渐降低，科研与工程的边界也变得模糊，这个就像足球运动的规律，除了足球人口增多，天才球员梅西出现的概率也会增大。

从数据和后续方案发展的角度看

ChatGPT的成功同大量的数据训练功不可没，但除了简单对话互动或者翻译，大篇幅回答甚至论文级别的答案还是极其缺乏样本数据（算法训练需要的样本数据需要清晰度X和Y）。

而且Transformer的算法相比其他算法需要更大的数据量，原因在于它需要起始阶段随机产生三个矩阵，一步一步进行优化。除了Transformer以外，另一个技术Bert也是技术发展非常重要的现象级算法。其核心是一个简化的Transformer，Bert不去做从A翻译到B，它随机遮住X里面的一些单词或句子让算法优化对遮住部分的预测。这种思路使得Bert成为了Transformer预训练最好的搭档。

如果通过Bert进行预训练，相当于给矩阵加入了先验知识（之前训练逻辑没有给机器任何提示，规则后者基础知识），提高了正式训练时初始矩阵的准确度，极大地提升了之后Transformer的计算效率和对数据量的要求。

在现实中，举例来说，如果我想训练国家图书馆图书，之前需要每本书的信息和对这本书的解释，或者中文书对应的英文书。但现在我们可以大量只是训练内容，不需要打标签，之后只需要通过Transformer对样本数据进行微调。这就给ChatGPT很大的进步空间，而且可以预见，更多这类大模型会雨后春笋一般快速出现。

由于Transformer是更高级的神经网络深度学习算法，对数据量有很高要求，这也催生了从小数据如何快速产生大数据的算法，比如GAN对抗网络等。这是AIGC领域的核心技术。解决数据量不足问题，除了更高效率抽象小数据的信息，也多了把小数据补足成大数据的方法，而且这些方法在快速成熟。

我们发现在机器学习算法中有大量的超级参数，比如在Transformer里多头机制需要几头N，文字变成向量是512还是更多，学习速率等都需要在训练之前提前设置。由于训练时间长，参数复杂，要想遍历更优秀的计算效果需要非常长的摸索时间。

这就催生出AutoML，第四范式在这个领域研究多年，拿Transformer举例，就要很多个路线进行自动化机器学习；比如贝叶斯计算（找到更优参数配置概率）；强化学习思路（贪婪算法在环境不明朗情况下迅速逼近最优）；另外还有寻求全新训练网络的方法（Transformer，RNN，MLP等联合使用排列组合）等。

科研发展强调参数化，工业发展强调自动化，这两者看似统一，但在现实实操过程中往往是相当痛苦矛盾的。这也是开篇说的产品化和科研流动性相平衡的一个重要领域。

欢迎加入我的知识星球，一起探讨架构，交流源码。加入方式，长按下方二维码噢：

已在知识星球更新源码解析如下：

最近更新《芋道 SpringBoot 2.X 入门》系列，已经 101 余篇，覆盖了 MyBatis、Redis、MongoDB、ES、分库分表、读写分离、SpringMVC、Webflux、权限、WebSocket、Dubbo、RabbitMQ、RocketMQ、Kafka、性能测试等等内容。

提供近 3W 行代码的 SpringBoot 示例，以及超 4W 行代码的电商微服务项目。

获取方式：点“在看”，关注公众号并回复 666 领取，更多内容陆续奉上。

文章有帮助的话，在看，转发吧。
谢谢支持哟 (*^__^*）

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
绝招曝光！3小时高效利用ChatGPT写出精彩论文 kkai人工智能 chatgpt 人工智能 ai 学习媒体
在这份指南中，我将深入解析如何利用ChatGPT4.0的高级功能，指导整个学术研究和写作过程。从初步探索研究主题，到撰写结构严谨的学术论文，我将一步步展示如何在每个环节中有效运用ChatGPT。如果您还未使用PLUS版本，可以参考相关教程。**初步探索与主题的确定**起初，我处于庞大的知识领域中，寻找一个可深入研究的领域。ChatGPT如同灯塔，通过深入分析最新研究趋势和领域热点，帮助我在广阔的学
ChatGPT 高效学习套路揭秘：让知识获取事半功倍的秘诀 kkai人工智能 chatgpt 人工智能学习媒体 ai
最近这段时间，AI热潮因ChatGPT的火爆再次掀起。如今，网上大部分内容都在调侃AI，但很少有人探讨如何正经使用ChatGPT做事情。作为一名靠搜索引擎和GitHub自学编程的开发者，第一次和ChatGPT深度交流后，我就确信：ChatGPT能够极大提高程序员学习新技术的效率。使用ChatGPT一个月后，我越发感受到它的颠覆性。因此，我想从工作和学习的角度，分享它的优势及我的一些使用技巧，而非娱
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
程序员如何在AI时代保持核心竞争力 nfgo chatgpt 人工智能
程序员如何在AI时代保持核心竞争力随着AIGC（如ChatGPT、MidJourney、Claude等）大语言模型的相继涌现，AI辅助编程工具逐渐普及，程序员的工作方式正在发生深刻的变革。AI不仅能够自动生成代码，还能优化、调试、甚至提出解决方案。这一趋势让许多人担心：AI会不会最终取代部分编程工作？然而，也有人认为AI是提升效率的得力助手。那么，程序员在这个AI崛起的时代该如何应对？是专注某个领
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement

谈谈ChatGPT 背后的核心技术论文

缘起

论文介绍

启发收获

你可能感兴趣的:(chatgpt,人工智能,深度学习)