CSDN资讯

万字长文解读：从Transformer到ChatGPT，通用人工智能曙光初现

ChatGPT掀起的NLP大语言模型热浪，不仅将各家科技巨头和独角兽们推向风口浪尖，在它背后的神经网络也被纷纷热议。但实际上，除了神经网络之外，知识图谱在AI的发展历程中也被寄予厚望。自然语言处理是如何伴随人工智能各个流派不断发展、沉淀，直至爆发的？本文作者将带来他的思考。

作者 | 王文广

出品 | 《新程序员》

自ChatGPT推出以来，不仅业内津津乐道并纷纷赞叹自然语言处理（Natural Language Processing, NLP）大模型的魔力，更有探讨通用人工智能（Artificial general intelligence，AGI）的奇点来临。有报道说Google CEO Sundar Pichai发出红色警报（Red code）并促使了谷歌创始人佩奇与布林的回归，以避免受到颠覆性的影响[1][2][3]。同时，根据路透社的报道，ChatGPT发布仅两个月就有1亿用户参与狂欢，成为有史以来用户增长最快的产品[4]。本文以ChatGPT为契机，介绍飞速发展的自然语言处理技术（如图1所示）。

图1 ChatGPT引发 Google“红色警报” [1][2][3]

从机器翻译到ChatGPT：自然语言处理的进化

自然语言处理的历史可以追溯到1949年,恰好与共和国同龄。但是由香农的学生、数学家Warren Weaver发布的有关机器翻译的研讨备忘录被认为是自然语言处理的起点，比1956年达特茅斯会议提出“人工智能（Artificial Intelligence，AI）” 的概念还略早一些。

二十世纪五、六十年代是自然语言处理发展的第一阶段，致力于通过词典、生成语法（图2）和形式语言来研究自然语言，奠定了自然语言处理技术的基础，并使得人们认识到了计算对于语言的重要意义。这个阶段的代表性的成果有1954年自动翻译（俄语到英语）的“Georgetown–IBM实验”，诺姆·乔姆斯基（Noam Chomsky）于1955年提交的博士论文《变换分析（Transformational Analysis）》和1957年出版的著作《句法结构（Syntactic Structures）》等。

图2 句法分析示例，来自《知识图谱：认知智能理论与实战》图4-5，P149[6]

在二十世纪六、七十年代，对话系统得到了发展，比如SHRDLU、LUNAR和ELIZA（图3）。麻省理工学院的SHRDLU采用句法分析与“启发式理解器（heuristic understander）”相结合的方法来理解语言并做出响应。LUNAR科学自然语言信息系统（Lunar Sciences Natural Language Information System）则试图通过英语对话的方式来帮助科学家们便捷地从阿帕网（ARPA net）获取信息，这倒像是当前爆火的ChatGPT雏形。ELIZA是那时对话系统的集大成者，集成了关键词识别（图4）、最小上下文挖掘、模式匹配和脚本编辑等功能[5]。

图3 ELIZA对话系统，摘自维基百科ELIZA词条

图4 ELIZA系统中关键词挖掘的流程图[5]

随着自然语言处理任务愈加复杂，人们认识到知识的缺乏会导致在复杂任务上难以为继，由此知识驱动人工智能逐渐在二十世纪七、八十年代兴起。语义网络（Semantic Network）和本体（Ontology）是当时研究的热点，其目的是将知识表示成机器能够理解和使用的形式，并最终发展为现在的知识图谱[6]。在这个阶段，WordNet、CYC等大量本体库被构建，基于本体和逻辑的自然语言处理系统是研究热点。

进入二十世纪末二十一世纪初，人们认识到符号方法存在一些问题，比如试图让逻辑与知识覆盖智能的全部方面几乎是不可完成的任务。统计自然语言处理（Statistical NLP）由此兴起并逐渐成为语言建模的核心，其基本理念是将语言处理视为噪声信道信息传输，并通过给出每个消息的观测输出概率来表征传输，从而进行语言建模。相比于符号方法，统计方法灵活性更强，在大量语料支撑下能获得更优的效果。

在统计语言建模中，互信息（Mutual Information）可以用于词汇关系的研究，N元语法（N-Gram）模型是典型的语言模型之一，最大似然准则用于解决语言建模的稀疏问题，浅层神经网络也早早就应用于语言建模，隐马尔可夫模型（Hidden Markov Model，HMM）和条件随机场（Conditional Random Fields ，CRF）（图5）是这个阶段的扛把子。在搜索引擎的推动下，统计自然语言处理在词法分析、机器翻译、序列标注和语音识别等任务中广泛使用。

图5 条件随机场，来自《知识图谱：认知智能理论与实战》图3-8，P104[6]

特别地，从这个阶段开始，中文自然语言处理兴起，中国的机构紧紧跟上了人工智能发展的潮流。由于中文分词、词性标注和句法分析等工作与英语等西方语言有着很大的不同，许多针对中文语言处理的方法被深入研究并在推动自然语言处理的发展中发挥着巨大作用。

2006年起，深度学习开始流行，并在人工智能的各个细分领域“大杀四方”，获得了非凡的成就，自然语言处理也开始使用深度学习的方法。随着2013年Word2vec的出现，词汇的稠密向量表示展示出强大的语义表示能力，为自然语言处理广泛使用深度学习方法铺平了道路。从现在来看，Word2vec也是现今预训练大模型的“婴儿”时期。

随后，在循环神经网络（Recurrent Neural Network，RNN）、长短期记忆网络（Long Short-Term Memory，LSTM）、注意力机制、卷积神经网络（Convolutional Neural Network，CNN）、递归神经网络（Recursive Neural Tensor Network）等都被用于构建语言模型，并在句子分类、机器翻译、情感分析、文本摘要、问答系统、实体抽取、关系抽取、事件分析等任务中取得了巨大的成功。

2017年发布的变换器网络（Transformer）[7]极大地改变了人工智能各细分领域所使用的方法，并发展成为今天几乎所有人工智能任务的基本模型。变换器网络基于自注意力（self-attention）机制，支持并行训练模型，为大规模预训练模型打下坚实的基础。自此，自然语言处理开启了一种新的范式，并极大地推进了语言建模和语义理解，成就了今天爆火出圈的 ChatGPT，并让人们能够自信地开始探讨通用人工智能（Artificial General Intelligence，AGI）。

BERT & GPT的基础：变换器网络

变换器网络是2017年Google在论文《Attention Is All You Need》[7]中提出的一种序列到序列（Sequence to sequence, seq2seq）的深度神经网络架构，其架构如图6所示。

图6 变换器网络架构[7]

该网络在当时并未引起轰动，仅仅如蝴蝶扇动了几下翅膀。但随着时间的推移却引发了蝴蝶效应，最终掀起了自然语言处理乃至人工智能的海啸。限于篇幅，这里简要介绍变换器网络的重要特点。

变换器网络完全依赖于注意力机制，支持极大的并行化。如图6所示，变换器网络由两部分组成，左边是编码部门，有N个编码器组成；右边是解码部分，由N个解码器组成。编码部分将输入序列（文本）进行编码，解码部分以自回归的方法不断解码下一个词元，最终完成从序列到序列的变换并输出。

图7展示了一个中文到英文翻译的序列到序列的实例——将中文“《知识图谱：认知智能理论与实战》是一本人工智能必看书籍”翻译为英文“Knowledge Graph: Theory and Practice of Cognitive Intelligence is a must read book on AI.”。翻译也是最典型的序列到序列的语言任务，事实上也正是这个任务在1949年开启了自然语言处理这门学科，同时在变换器网络的论文中，用的评测也正是翻译任务。

图7 用变换器网络进行中译英的实例

变换器网络的最大创新是完全使用多头自注意力机制（Multi-Head Self-Attention Mechanism，其架构如图8所示）。变换器网络的编码器和解码器都是用了同样的多头自注意力结构，有所不同的是，编码器中，自注意力是双向的，而解码器中，自注意力只允许关注输出序列中较早的位置。如图8的左边图所示，解码器的自注意力层在自注意力计算的 softmax 步骤之前设置为-inf来屏蔽（mask）未来位置，即图中标签为“Mask（opt.）”的框所标识的。这也正是图6的解码器中被称为“Masked Multi-Head Attention”的原由。

图8 多头自注意力机制[7]

多头自注意力机制的核心就是自注意力。图9是自注意力的一个实例，直观地理解，自注意力就是模型在处理当前输入序列的某个词元与该序列其他词元的语义相关性。不同的“头”关注了不同维度/方面的语义。图9示例了“今”字与同一输入序列（句子）的其他字的语义相关性，不同颜色表示了不同的“头”（顶部色块表示了不同的“头”的标识），而颜色的深浅表示了语义相关性的强弱。在这个例子中，“今”字在有多个“注意力头”最关注了“古”字，而在另一个“注意力头”则最关注“魂”字，还有两个“注意力头”最关注了“的”字。

图9 自注意力实例，《知识图谱：认知智能理论与实战》图3-15（P124）[6]

值得一提的是，变换器网络是近5年自然语言处理乃至全部人工智能高速发展的最大功臣！近年来叱咤风云的BERT就是以变换器网络的编码器为基础的，而 GPT 则是以其解码器为基础的。

NLP奋发五载

由于变换器网络的出现，大语言模型的兴起，以及多种机器学习范式的融合，近五年自然语言处理有了极大的发展。从现在来看，这个起点当属2018年ELMo、GPT和BERT的出现。特别是，BERT通过巨量语料所学习出来的大规模预训练模型，不仅学会了上下文信息，还学会了语法、语义和语用等，乃至很好地学会部分领域知识。BERT在预训练模型之上，针对特定任务进行微调训练，在十多个自然语言处理任务的评测中遥遥领先，并在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人成绩，两个衡量指标上都首次并全面超越人类。

由于BERT的惊人表现，自然语言处理由此开启了新时代，在此后的五年中奋发进取，不断增强语言理解与生成的能力，最终出现了去年年底爆火出圈的ChatGPT，并引发了通用人工智能即将到来的激烈探讨。下面从三个维度来介绍自然语言处理的奋进五年——大模型的突飞猛进，算法的融会贯通，以及应用的百花齐放。

大模型的突飞猛进

图10展示了自2018年至今具有一定影响力的大模型，其中横轴是模型发布时间（论文发表时间或模型发布时间的较早者），纵轴是模型参数的数量（单位是百万，坐标轴是底为10的对数坐标轴），名字为黑色字体的是国外机构发布的大模型，红色字体的是国内机构发布的大模型。从图10可以看到，这五年，预训练大语言模型的参数规模从1亿到1万亿的“野蛮”增长，增长速度几乎是每年翻10倍。这个每年翻10倍的模型增长规律，被称为“智能时代的摩尔定律”。深入分析大模型的情况，总结有两方面内容：

图10 自然语言大模型的奋进五载

机构方面，Google和Deepmind发布了BERT、T5、Gopher、PaLM、GaLM、Switch等等大模型，模型的参数规模从1亿增长到1万亿；OpenAI和微软则发布了GPT、GPT-2、GPT-3、InstructGPT、Turing-NLG 和 M-Turing-NLG等等大模型，模型的参数规模从1亿增长到5000亿；百度发布了文心（ERNIE）系列，包括 ERNIE，ERNIE2.0，ERNIE3.0，ERNIE 3.0-Titan，参数规模从3亿增长到2600亿。总体来说，随着模型的增长，有能力训练和发布大模型的在减少。除了上面提到的几家之外，其他的还有芯片大厂Nvidia靠充足的算力，大力出奇迹，国内的智源研究院和鹏程实验室等机构也发布了悟道、盘古等大模型，表现不俗。
大模型成本高昂，时间成本和经济成本都巨大。以模型参数为1750亿的GPT-3为例，用于训练模型的原始语料文本超过100TB（压缩包为45TB），包含了网页、书籍、英文维基百科等。原始语料文本经过处理后，形成了超过5000亿个词元（西方语言的词，中文的字等）的训练语料。GPT-3模型的训练和评估采用的算力是微软和OpenAI一起打造的超级计算集群，集群有28.5万核CPU，1万个V100 GPU，以及400Gbps的网络带宽。建造这个超级计算集群的费用超过20亿元。如果租用微软或其他云厂商的集群来训练GPT-3，训练一次GPT-3需要耗费估计从280万到540万美元不等（价格因不同云厂商而有所不同）。因训练花费不菲，在 GPT-3的论文《Language Models are Few-Shot Learners》中提到“发现了bug但由于训练费用问题而没有重新训练模型（Unfortunately, a bug in the filtering caused us to ignore some overlaps, and due to the cost of training it was not feasible to retrain the model.）”[11]。

算法的融会贯通

自然语言处理在这五年的高速发展，除了模型越来越大，训练语料越来越多之外，核心还是多种不同类型的人工智能技术的高速发展，以及在自然语言处理领域将对这些技术的融会贯通。这些人工智能技术包括但不限于语言模型、对话系统（Conversational AI）、思维链（Chain of Thoughts）、强化学习（Reinforcement Learning）和人类反馈强化学习 (Reinforcement Learning from Human Feedback，RLHF)、情境学习（In-context learning）、无监督学习（Unsupervised Learning）等等。除此之外，算力的增长、大数据处理技术的发展也提供了必不可少的支撑。

语言模型

这里简要介绍三类代表性的语言模型，分别为BERT所使用的掩码语言模型、GPT系列所使用的自回归语言模型以及ERNIE系列所使用的引入了知识图谱等专家知识的语言模型。

掩码语言模型（Masked language model，MLM）是一种双向语言模型[6][8]，模拟了人类对语言的认知的双向语言模型。一个例子是，人们快速读阅时，些许的字文错误并不会影响理解，这是由于人们会自动补全。掩码语言模型正是模拟了这一特点，比如对于“一枝红杏出墙来”这句话，将其一部分掩盖住后，原句变为“一枝红⬛出墙来”，如何判断“⬛”掩盖的部分？人们能够自然地意识到“⬛”掩盖的是“杏”。而掩码语言模型则是为了让模型能够像人一样“猜出”被掩盖的部分。BERT通过变换器网络的编码器来实现掩码语言模型。同时，如图11所示，BERT使用了多任务学习方法来从大规模语料中训练出模型，并在具体任务中进行微调（Fine-Tuning）。

图11 BERT的预训练和具体任务的微调示意图[8]

与BERT不一样的是，GPT系列则通过变换器网络的解码器实现了自回归语言模型（Autoregressive language model）[9]，采用多任务训练的方法训练模型，模型如图12所示。自回归在时间序列分析中非常常见，比如ARMA,GARCH等都是典型的自回归模型。在语言模型中，自回归模型每次都是根据给定的上下文从一组词元中预测下一个词元，并且限定了一个方向（通常是正向，即在一个句子中从前往后依次猜下一个字/词）。同样以“一枝红杏出墙来”为例，自回归语言模型中，给定“一枝红”的上下文来预测下一个 “杏”字，紧接着给定“一枝红杏”来预测下一个“出”字，然后是根据给定的“一枝红杏出”来预测“墙”字，如此循环，直到完成整个序列的预测并输出。有多种不同的方案来选择模型预测的输出标记序列，例如贪婪解码、集束搜索（Beam Search）、Top-K采样、核采样（Nucleus Sampling）、温度采样（Temperature Sampling）等。除了 GPT 系列之外，Transformer-XL、XLNet等大模型也采用了自回归语言模型。

图12 GPT模型架构及多任务训练示意图[9]

ERNIE在采用了 BERT 类似的模型架构之上，加入了知识图谱[6]，使得模型能够用先验知识来更好地理解语义，其架构如图13所示[10]。还是以“一枝红杏出墙来”为例，ERNIE能够更好地理解“红杏”，并知道它是一种“植物”。也因此，相比于BERT和GPT，ERNIE能够在更小的模型下获得相对更好的效果。尤其值得一提的是，这点在中文场景中更加明显。

图13 ERNIE模型架构及嵌入知识图谱的示意图[10]

情境学习

情境学习（In-context Learning）是随着GPT-3而流行起来。在GPT-3中，通过给出仅仅几个示例就能够很好地完成许多自然语言处理任务的方法，被称为情境学习。图14是一个直观的例子，使用了ChatGPT的情境学习来实现情感分析任务。直观地说，情境学习就是给模型一些包含任务输入和输出的提示，并在提示的末尾附加一个用于预测的输入，模型根据提示和预测输入来预测任务的结果并输出。也因此，情境学习有时候也被称为基于提示的学习（Prompt-based learning）。

图14 情境学习实例，使用了ChatGPT

从图15可以看出，情境学习的预测结果在大模型的情况下效果表现得非常好，但在小模型的情况下表现糟糕。简单地说，大模型使得情境学习变得有用。这是由于情境学习依赖于语言模型所学习到的概念语义和隐含的贝叶斯推理，而这依赖于大规模预训练模型对潜在概念的学习，从文档级语料学习了长距离依赖并保持长距离的连贯性、思维链和复杂推理等等。也因此，情境学习在大模型之前罕见，可谓连实验室的玩具都谈不上。而在大模型的支撑下，在许多自然语言处理任务的基准测试（如LAMBADA文本理解测试集和TriviaQA问答测试集）中，情境学习相比其他模型也非常具有竞争力。

图15 情境学习效果曲线[11]

从应用来看，情境学习最为津津乐道的两个特点是：

情境学习能够有效地使模型即时适应输入分布与训练分布有显著差异的新任务，这相当于在推理期间通过“学习”范例来实现对特定任务的学习，进而允许用户通过新的用例快速构建模型，而不需要为每个任务进行微调训练。
构建于大语言模型之上的情境学习通常只需要很少的提示示例即可正常工作，这对于非自然语言处理和人工智能领域的专家来说非常直观且有用。

这两个特点使得人们能够使用一个模型来实现不同的任务，为类似ChatGPT这样的准AGI提供了技术基础。也正因此，人工智能领域念叨多年的通用人工智能终于露出了一丝曙光。

人类反馈强化学习

人类反馈强化学习是一种人工智能模型在进行预测（推断）的过程中通过人的反馈来实现模型学习，使得模型输出与人类的意图和偏好保持一致，并在连续的反馈循环中持续优化，进而产生更好的结果。

事实上，人工智能发展过程中，模型训练阶段一直都有人的交互，这也被称为人在圈内（Human-in-the-loop, HITL），但预测阶段则更多的是无人参与，即人在圈外（Human-out-of-the-loop, HOOTL）。在这五年的奋进中，通过人类反馈强化学习使得自然语言处理在推断阶段能够从人的反馈中学习。这在自然语言处理领域是一个新创举，可谓人与模型手拉手，共建美好新AI。

从技术上看，人类反馈强化学习是强化学习的一种，适用于那些难以定义明确的用于优化模型损失函数，但却容易判断模型预测效果好坏的场景，即评估行为比生成行为更容易。在强化学习的思想中，智能体（Agent）通过与它所处环境的交互中进行学习，常见在各类游戏AI中。比如，鼎鼎大名的 AlphaGo，在2017年乌镇互联网大会上打败了围棋世界冠军柯洁，其核心技术就是强化学习。

人类反馈强化学习并非从自然语言处理开始的，比如2017年OpenAI和DeepMind合作探索人类反馈强化学习系统与真实世界是否能够有效地交互，实验的场景是Atari游戏、模拟机器人运动等。这些成果随后被OpenAI和DeepMind应用到大语言模型上，通过人类反馈来优化语言模型，进而使得模型的输出与预期目标趋于一致，比如InstructionGPT、FLAN等。这些成果表明，加入人类反馈强化学习使得生成文本的质量明显优于未使用人类反馈强化学习的基线，同时能更好地泛化到新领域。

图16是人类反馈强化学习的框架图，奖励预测器是学习出来的，这点与传统强化学习有所不同。在传统强化学习中，奖励函数是人工设定的。在InstructionGPT中，强化学习算法使用了近端策略优化（Proximal Policy Optimization，PPO)来优化GPT-3生成摘要的策略。

图16 人类反馈强化学习框架图

应用的百花齐放

近年来，所有自然语言处理的任务都有了长足进步，效果飙升，许多任务都超越了人类专家的水平。在斯坦福问答数据集2.0（SQuAD2.0）评测中，最新的模型EM 分数和F1分数分别为90.939和93.214，相比人类专家86.831和89.452高了4.73%和4.21%。在斯坦福对话问答CoQA数据集的评测中，最佳模型的分数达到90.7，相比人类专家的分数88.8，高出了2%。在机器翻译中，自2017年至今，WMT2014英译德评测集的 BLEU分数从26增长到35以上，德译英则从23增长到35以上。在其他诸如文本分类、文档分类、对话生成、数据到文本（Data-to-Text）、看图说话（Visual Storytelling）、视觉问答、情感分析、实体抽取、关系抽取、事件抽取、自动摘要、OCR等等任务中的效果增长都非常显著。

在这五年中，行业应用也愈加广泛。金融、医疗、司法、制造、营销、媒体等各行各业都是使用自然语言处理技术提升效率，降低风险。基于自然语言处理最新技术的综合性平台智能文档处理系统（Intelligence Document Process System，IDPS）开始流行，比如图17所示的达观数据IDPS。中国信息通信研究院（信通院）等机构组织了标准编制和评测，万千企业开始使用智能文档处理系统进行文档智能比对、关键要素抽取、银行流水识别、风险审核、文档写作等，实现了诸多脑力劳动的智能化。

图17 达观智能文档处理系统

同时，依托自然语言处理进行实体、关系、事件等知识的抽取，构建出领域专业知识图谱，并以语义检索、智能问答、归因分析、知识推理等为各行提供了丰富的应用，比如赋能智能制造的故障排查，金融行业的智能投研和智能投顾，政府和企业的舆情分析，营销和售后的智能客服和智能运营，媒体的资讯分类、自动摘要和事实校验等。

随着近五年自然语言处理技术的发展，许多原来无法完善服务的场景也有了切实可见的应用，影响着三百六十行的亿万工作者。由OpenAI的Codex大语言模型提供支撑的GitHub CoPilot为数千万的程序员提供效率工具。最新的ChatGPT参与沃顿商学院的工商管理硕士课程的期末考试并获得了B档成绩，展现出了非凡的能力[12]。同样的场景出现在许多大学中，比如北密歇根大学有学生使用 ChatGPT写课程论文获得了全班最高分。更有甚者，ChatGPT已经成为了许多科学论文或出版书籍的共同作者，比如ChatGPT名列《Performance of ChatGPT on USMLE: Potential for AI-Assisted Medical Education Using Large Language Models》这篇12个作者中的第三位[13]，Gautier Marti则在其出版的书籍《From Data to Trade: A Machine Learning Approach to Quantitative Trading》中将ChatGPT列为共同作者。

AGI初现曙光

人类对智能化的追求可谓孜孜不倦，自远古时期对智能化的想象，比如三国演义中诸葛亮的木牛流马，到每一次人工智能蓬勃发展时期，都会对通用人工智能进行想象和期待。但直至去年年底ChatGPT出现之前，所有的人工智能产品都局限于某一特定领域。比如：

用于实体抽取的系统，无法用于对话。
用于问答的系统可以在SQuAD2.0获得高分，但在没有进行微调等重新训练模型的情况下，在命名实体识别或翻译的评测中就表现得很差劲。
AlphaZero在围棋上打遍天下无敌手，但没法用来做其他事情，比如人脸识别或者事件分析等。
AlphaFold2能够解决蛋白质折叠这种专业大学教授都难以搞定的超级难的问题，但面对幼儿园小朋友也能很好地解决的“12+23”等算术问题则显得无能为力。
有一些试图以通用智能助手形式提供的人工智能产品则经常被戏称为“人工智障”。

当我们细数过去种种人工智能产品的优势和不足的时候，就容易看出 ChatGPT 所展现出来的“超能力”。图18是ChatGPT超能力的一个实例展示，不仅能够流畅地进行对话，还能够在这个过程中完成多项自然语言处理任务，包括基于提示的情感分析、编写代码、翻译、报告撰写和摘要等。更进一步的，论文《ChatGPT: The End of Online Exam Integrity？》认为，ChatGPT能够展现批判性思维能力，并以最少的输入生成高度逼真的文本，潜在威胁了在线考试的诚信。其本质是：ChatGPT展现出了超强的能力，这个能力在前面提过的ChatGP能够通过沃顿商学院的工商管理硕士课程也展现过。这种“超能力”恰如人类的大脑一样，能在许多领域进行推理，并以接近或超越人类的水平完成多项认知任务。这正是人们所说的通用人工智能（Artificial General Intelligence，AGI）。

图18 ChatGPT多才多艺的超能力实例

支撑起ChatGPT 超能力的，正是自然语言处理技术奋进五载的大综合。从技术角度，就是在无监督大规模预训练语言模型的基础上，使用标注语料进行有监督的训练。在此基础之上，通过训练一个奖励预测模型，以及使用近端策略优化来训练强化学习策略。并在面向用户的应用中使用了人类反馈强化学习技术来实现对话理解和文本生成。图19展示了ChatGPT所使用的方法，可以看出，ChatGPT 涵盖了机器学习的三大范式——有监督学习、无监督学习和强化学习。这也许和人类大脑的行为类似：

无监督学习——婴儿期人类大脑，遗传和3岁以下认知世界的模式；
有监督学习——从幼儿园开始不断学习各类技能和知识；
强化学习——从现实环境的反馈中学习。

图19 训练ChatGPT的过程示意图[14]

正是这些技术的总和所展现出的强大能力，ChatGPT 为通用人工智能带来了曙光。许多业内大佬也纷纷为此站台，比如：

微软联合创始人比尔·盖茨在2023年1月11日的Reddit AMA（Ask Me Anything）的问答帖中对一些热门科技概念发表了看法，他表示自己不太看好Web3和元宇宙，但认为人工智能是“革命性”的，对OpenAI的ChatGPT印象深刻[15]。微软也准备再向OpenAI投资100亿美元，并表示旗下全部产品都接入ChatGPT以提供智能服务。
此前力推元宇宙的Meta的态度也有所改变，扎克伯格在2022年度报告投资者电话会议上表示“我们的目标是成为生成式人工智能的领导者（Our Goal is to be Leader in Generative AI）”[16]。面对投资者对元宇宙是否被抛弃的疑问，扎克伯格的回答是“今天专注于人工智能，长期则是元宇宙（AI today and over the longer term the metaverse）”（想想经济学家凯恩斯那句名言“长期来看，我们都死了”吧）。
Google创始人回归并全力支持类似 ChatGPT产品的开发，同时向Anthropic投资3亿美元。Anthropic由OpenAI的多名资深研究人员创立，其产品与OpenAI的类似，如Claude（ChatGPT）和（GPT-3）。
许多学者认为，通用人工智能到来的时间会加速，也许，2035年就是一个通用人工智能的“奇点”时刻。

也许有人认为夸大其词或危言耸听。毕竟，ChatGPT也仅仅展现了语言方面的能力，对其他诸如视觉、语音等完全不涉及。而即使在语言方面，ChatGPT表现弱智的地方也很多，图20就是一个例子（这个问题流传最广的回答是：贾母）,深度学习的代表性人物Yann LeCun也激烈批评大语言模型的问题“人们严厉批评大语言模型是因为它的胡说八道，ChatGPT 做了（与语言大模型）同样的事（People crucified it because it could generate nonsense.ChatGPT does the same thing.）”。事实上，这个表现有点像幼儿园的小朋友的“童言无忌”，而这不也正是“智能”的表现么？而解决这个问题有现成的人工智能方法——知识图谱[6]等符号人工智能方法和基于知识的人工智能方法。这些方法在这几年也发展迅速。一旦ChatGPT拥有一个知识图谱来支撑“常识”，其下限将极大地提升[17]，“童言无忌”变得成熟，那么语言领域的通用人工智能可谓来临。

图20 ChatGPT关于“贾宝玉娶老婆”的例子

进一步的，跳出自然语言处理，从更广泛的人工智能视角来看，这几年的进展也非常大。比如通过文本提示生成视频的扩散模型（Diffusion Model，DM），在图像生成上提升了视觉保真度，同样引发了视觉领域的爆火出圈；语音合成方面，VALL-E模型支持通过语音提示，合成符合输入语音音色和情绪的逼真声音。特别地，这些不同领域的人工智能，包括视觉、图像处理、语音识别、语音合成、知识图谱、时间序列分析等等，也全部都在采用变换器网络来实现[18]。这使得ChatGPT或类似系统加入语音、视觉等变得容易，进而构建出跨模态的，多才多艺的通用人工智能。

结语

可以想象，未来五年到十年，融合语言、视觉和语音等多模态的超大模型将极大地增强推理和生成的能力，同时通过超大规模知识图谱和知识计算引擎融入人类的先验知识，极大提升人工智能推理决策的准确性。这样的人工智能系统既能够像人一样适应现实世界的不同模态的绝大多数任务，完成任务的水平甚至超越绝大多数的普通人，又可以在各种富有想象力和创造性的任务上有效地辅助人类。

这样的系统正是人们想象和期待了数千年的智能系统，而这也会被称为真正的通用人工智能。进一步，随着人形机器人、模拟人类的外皮肤合成技术等等各类技术的发展，这些技术互相融合，科学幻想中的超人工智能的来临也将成为现实。而在通用人工智能如灿烂阳光洒满每一个角落时，蓦然回顾，会发现AGI的第一道曙光是2022年底的ChatGPT。正所谓“虎越雄关，NLP奋发五载；兔临春境，AGI初现曙光。”

参考文献

[1] ChatGPT将代替搜索引擎？谷歌内部发红色警报. 澎湃新闻. https://www.thepaper.cn/newsDetail_forward_21282873

[2] How ChatGPT Suddenly Became Google’s Code Red, Prompting Return Of Page And Brin. Forbes. https://www.forbes.com/sites/davidphelan/2023/01/23/how-chatgpt-suddenly-became-googles-code-red-prompting-return-of-page-and-brin/. 2023.

[3] With Bing and ChatGPT, Google is about to face competition in search for the first time in 20 years. Insider. https://www.businessinsider.com/bing-chatgpt-google-faces-first-real-competition-in-20-years-2023-1

[4] ChatGPT sets record for fastest-growing user base - analyst note。Reuters. https://www.reuters.com/technology/chatgpt-sets-record-fastest-growing-user-base-analyst-note-2023-02-01/. 2023.

[5] Joseph Weizenbaum. ELIZA--A Computer Program for the Study of Natural Language Communication Between Man and Machine.[J]// Communications of the ACM. Vol9. P36–45.

[6] 王文广. 知识图谱：认知智能理论与实战[M] //电子工业出版社, 2022

[7] Ashish Vaswani, Noam Shazeer, Niki Parmar et al. Attention is all you need.[C] //In advances in neural information processing systems. 2017. P5998-6008

[8] Jacob Devlin, Ming-Wei Chang, Kenton Lee et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.[C] // In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2019. P4171–4186.

[9] Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever. Improving language understanding with unsupervised learning. //OpenAI Technical Report. 2018.

[10] Yu Sun, Shuohuan Wang, Shikun Feng et al. ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation. arXiv:2107.02137. 2021.

[11] Tom Brown, Benjamin Mann, Nick Ryder et al. Language Models are Few-Shot Learners.[C] // In Advances in Neural Information Processing Systems 33 (NeurIPS 2020). 2020. P1877—1901

[12] ChatGPT passes MBA exam given by a Wharton professor. NBC News. https://www.nbcnews.com/tech/tech-news/chatgpt-passes-mba-exam-wharton-professor-rcna67036. 2023.

[13] Tiffany Kung, Morgan Cheatham, ChatGPT et al. Performance of ChatGPT on USMLE: Potential for AI-Assisted Medical Education Using Large Language Models. doi:10.1101/2022.12.19.22283643. 2022.

[14] ChatGPT: Optimizing Language Models for Dialogue. OpenAI. https://openai.com/blog/chatgpt/. 2022

[15] 比尔·盖茨看好 AI，而非 Web3 和元宇宙. 新浪网. http://vr.sina.com.cn/news/hot/2023-01-13/doc-imxzzfmr4911664.shtml. 2023

[16] Meta Platforms (NASDAQ: META) CEO Mark Zuckerberg: “Our Goal is to be Leader in Generative AI”. Wall Street Reporter. https://www.wallstreetreporter.com/2023/02/02/meta-platforms-nasdaq-meta-q4-2022-earnings-call/. 2023.

[17] Wolfram|Alpha as the Way to Bring Computational Knowledge Superpowers to ChatGPT. StephenWolfram. https://writings.stephenwolfram.com/2023/01/wolframalpha-as-the-way-to-bring-computational-knowledge-superpowers-to-chatgpt/. 2023.

[18] 学习ChatGPT和扩散模型Diffusion的基础架构Transformer，看完这些论文就够了.走向未来. https://mp.weixin.qq.com/s/3bOFfODR7rpnyzrpocHlfQ. 2023.

本文作者

王文广，达观数据副总裁，高级工程师，自然语言处理和知识图谱著名专家。《知识图谱：认知智能理论与实战》作者，人工智能标准编制专家，专注于知识图谱与认知智能、自然语言处理、图像与语音处理、图分析等人工智能方向。曾获得多个国际国家级、省部级、地市级奖项，拥有数十项人工智能领域的国家发明专利和会议、期刊学术论文。

你可能感兴趣的:(人工智能,transformer,chatgpt,深度学习)

【AI热点】MCP协议深度洞察报告碣石潇湘无限路人工智能 php 开发语言
摘要人工智能技术飞速发展，大型语言模型（LLM）如何高效、安全地利用外部数据和工具成为关键问题。模型上下文协议（ModelContextProtocol，简称MCP）是一种由Anthropic于2024年底提出的开放标准协议。它通过统一的客户端-服务器架构，为AI应用与文件系统、数据库、第三方API等外部资源之间提供标准化、安全的双向通信接口。本文将深入解析MCP协议的基本概念和背景、架构设计（通
【AI】Transformer布道：让AI学会“左顾右盼”的超级大脑！（扫盲帖）碣石潇湘无限路人工智能 transformer 深度学习
在LLM爆火的时代，如果还不了解Transformer就太落伍了，下面我第一次尝试用一种更日常、更口语化的方式，把Transformer这个模型讲个大概。你可以想象我们是从“什么是注意力”开始，一步步搭积木，直到把整个Transformer这台“机器”组装起来，然后再看看它能干什么、怎么训练、为什么厉害。主要目的就是帮助更多的非AI专业的人群入门和了解实现AGI的底层架构。1.为什么要有Trans
必看！一文读懂知识蒸馏技术小天才学习机打游戏人工智能知识图谱神经网络 langchain windows
导读最近，DeepSeek的爆火让大家对人工智能领域的技术发展又有了新的关注。而知识蒸馏作为深度学习中一项重要的技术，也在背后默默地发挥着作用，今天就来给大家详细介绍一下知识蒸馏及其相关原理。1.知识蒸馏是什么在深度学习领域，大型模型（如DeepSeek）通常具有强大的性能，但它们的计算量和参数量都非常庞大，这使得它们难以在资源受限的设备（如移动设备或嵌入式设备）上部署。例如，GPT-3在570G
从零开始大模型开发与微调：PyTorch 2.0深度学习环境搭建 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
从零开始大模型开发与微调：PyTorch2.0深度学习环境搭建作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习在各个领域的广泛应用，大模型开发与微调成为了当前研究的热点。大模型能够学习到丰富的知识，并在各个下游任务上取得优异的性能。然而，大模型开发与微调需要强大的计算资源和专业的知识背景，这对于许多初学者和研究
仅仅使用pytorch来手撕transformer架构(3)：编码器模块和编码器类的实现和向前传播 KangkangLoveNLP 手撕系列 #transformer pytorch transformer 人工智能深度学习架构机器学习 python
仅仅使用pytorch来手撕transformer架构(2)：编码器模块和编码器类的实现和向前传播往期文章：仅仅使用pytorch来手撕transformer架构(1)：位置编码的类的实现和向前传播最适合小白入门的Transformer介绍仅仅使用pytorch来手撕transformer架构(2)：多头注意力MultiHeadAttention类的实现和向前传播#Transformer编码器模块
AI大模型学习路线及相关资源推荐 python游乐园学习资源学习 Python AI AI编程人工智能
哈喽，大家好！本文为大家带来AI大模型学习路线及相关资源推荐，这对于学习掌握AI大模型很有帮助呦，希望大家多多点赞收藏～感谢～～1AI大模型的基础信息1.1什么是AI大模型AI大模型，即人工智能大型模型，是一种基于深度学习技术，具有海量参数、强大算力支持、能够处理和生成复杂数据的人工智能模型。1.2AI大模型的主要特点规模庞大：AI大模型通常包含海量的参数。例如，谷歌的BERT模型在最初发布时就有
模型蒸馏：从复杂到精简，AI技术的“瘦身”秘籍 lmtealily 人工智能
引言在人工智能的浪潮中，大型模型如BERT、GPT系列等在自然语言处理（NLP）、计算机视觉（CV）等领域取得了显著的成果。然而，这些“庞然大物”通常拥有数十亿甚至数千亿个参数，计算和存储成本极高，难以部署到资源受限的设备上。为了解决这一问题，模型蒸馏技术应运而生。模型蒸馏是一种将大型复杂模型的知识迁移到小型简单模型的技术，旨在保持高性能的同时大幅减少模型的参数量和计算复杂度。本文将带你深入了解模
【深度学习与大模型基础】第3章-张量 lynn-66 深度学习与大模型基础深度学习人工智能
大家好！今天我们来聊聊张量（Tensor）。别被这个词吓到，其实它没那么复杂。什么是张量？简单来说，张量就是一个多维数组。你可以把它看作是一个装数据的容器，数据的维度可以是一维、二维，甚至更高。标量（0维张量）：就是一个单独的数字，比如3。向量（1维张量）：一串数字，比如[1,2,3]。矩阵（2维张量）：一个表格，比如[[1,2],[3,4]]。更高维张量：比如[[[1,2],[3,4]],[[5
AI人工智能对前端的冲击？理想不理想v 人工智能前端
‌AI人工智能对前端开发的冲击主要体现在以下几个方面‌：‌代码生成与自动化‌：AI工具如GPT-4和GitHubCopilot能够自动生成高质量的前端代码，从简单的组件到复杂的应用程序，这不仅提高了开发效率，还降低了人为错误的可能性。自动化代码生成工具可以显著减少开发者编写重复性代码的时间，使他们能够专注于创新和解决复杂问题‌。‌跨平台开发支持‌：AI可以帮助生成适用于不同平台的代码，简化跨平台开
浅析AI对前端程序员工作的威胁和机遇 minstbe AI应用与观察人工智能前端
这几年，AI技术发展得很快，尤其是像ChatGPT这种工具，搞得不少前端程序员开始担心饭碗问题。这种担心倒也不是没道理，因为AI确实在某些方面很“卷”，但咱们换个角度想想，也许这背后藏着更多的机会呢？咱们今天就i来聊聊这个事儿。威胁：有些活，AI真能干了基础代码不求人以前写个网页小功能，要查文档、搜StackOverflow、试错调试啥的，但现在不一样了，你问ChatGPT，分分钟把代码甩给你，而
从人工智能窥见网络安全的重要性 He_Donglin 人工智能 web安全网络
“人工智能”一词在上世纪五十年代被提出，在当时，计算机正处于萌芽阶段，同时期的人类第一台电子计算机“ENIAC”诞生了，但是埃尼亚克有很多缺点：庞大的占地面积、庞大的质量、单一的功能、较小的内存等，这主要受制于其他领域的发展，但当时的人们对计算机寄予厚望，希望在未来某一天它能够拥有足够强大的“power”，帮助人们解决诸多问题。于是乎，经过无数科学家数十年来的努力，计算机“长大了”，它的功能不再单
《今日AI-人工智能-编程日报》-源自2025年2月28日小亦编辑部每日AI-人工智能-编程日报人工智能
技术突破OpenAI发布GPT-4.5：OpenAI正式推出新一代大模型GPT-4.5，语言理解、情商及逻辑推理能力显著增强，幻觉问题大幅减少，计算效率较GPT-4提升超10倍，已逐步向用户开放试用。国产模型Kimi发布k1.6版本：国产模型Kimi发布的k1.6版本，在编程任务评测中超越GPTo3-mini，首次登顶榜首。其“快思考”架构使响应速度提升至秒级，部署成本下降40%。企业动态贵州广电
《今日AI-人工智能-编程日报》-源于2025年3月11日小亦编辑部每日AI-人工智能-编程日报人工智能
1.AI行业动态1.1Manus通用智能体初成型，开启AIAgent新时代中泰证券发布研报称，首款通用型AI智能体Manus已问世，能够将复杂任务拆解为可执行的步骤链，并在虚拟环境中灵活调用工具，标志着AI从“Reasoner”走向“Agent”阶段。Manus的成功引发了开源复现潮，DeepSeek模型已被整合到OWL项目中，并在GAIA基准测试中表现接近Manus。1.2DeepSeek-R2
OpenCV 深度学习模块 cv2.dnn 与其他深度学习框架的优缺点对比及适用场景白.夜深度学习 opencv
OpenCV提供了一个深度学习模块cv2.dnn，让开发者能够在计算机视觉项目中轻松加载和推理深度学习模型。相比于TensorFlow、PyTorch等其他深度学习框架，cv2.dnn有其独特的优点与缺点，适用于不同的应用场景。在这篇文章中，我们将详细分析cv2.dnn的优缺点，并讨论它的适用场景。一、cv2.dnn的优点1.简单易用cv2.dnn提供了一个相对简单且易于使用的接口，适合已经在使用
深度学习中的 blob 格式：与普通 image 的区别及转换原因白.夜深度学习人工智能
在深度学习模型推理过程中，我们经常会用到cv2.dnn.blobFromImage函数将普通图像转换为blob格式。那么，blob格式到底是什么？它和普通image有什么区别？为什么在模型推理中需要这种转换？本文将用通俗的语言为你解答这些问题。1.什么是blob格式？blob是OpenCV中用于深度学习模型输入的一种特殊数据格式，全称为BinaryLargeObject。它本质上是一个多维数组（通
DeepSeek多语言智能创作引擎解析智能计算研究中心其他
内容概要在人工智能技术加速演进的背景下，DeepSeek系列产品通过混合专家架构（MoE）与670亿参数的协同设计，构建了多模态智能创作引擎的核心竞争力。该系统依托动态路由机制，将视觉语言理解模块与多语言处理单元进行深度耦合，使模型在解析图文混合信息时展现出超越单一模态的认知能力。尤为突出的是，其分层参数激活策略将推理成本降低至传统密集模型的38%，同时维持了95%以上的任务完成精度。行业分析机构
通义千问：阿里巴巴的AI大模型深度解析俊星学长人工智能
通义千问：阿里巴巴的AI大模型深度解析在人工智能（AI）技术日新月异的今天，大型语言模型作为其中的佼佼者，正逐步改变着我们的生活与工作方式。阿里巴巴推出的通义千问，作为这一领域的佼佼者，以其卓越的性能和广泛的应用场景，引起了业界的广泛关注。本文将从通义千问的简介、模型架构、技术特点与优势、应用场景以及未来发展等多个方面，对其进行全面解析。一、通义千问简介通义千问是由阿里云开发的一款大型语言模型，旨
Transformer动画讲解 - 工作原理 ghx3110 transformer 深度学习人工智能
Transformer模型在多模态数据处理中扮演着重要角色，其能够高效、准确地处理包含不同类型（如图像、文本、音频、视频等）的多模态数据。Transformer工作原理四部曲：Embedding（向量化）、Attention（注意力机制）、MLPs（多层感知机）和Unembedding（模型输出）。阶段一：Embedding（向量化）“Embedding”在字面上的翻译是“嵌入”，但在机器学习和自
Java：AI 浪潮中的隐形支柱 —— 探秘 Java 在人工智能领域的独特地位琢磨先生David 人工智能
引言在人工智能技术席卷全球的今天，当人们谈论AI开发时，Python、R语言、C++等工具总是最先被提及。然而在这个充满创新的领域，有一个"老兵"正悄然发挥着不可替代的作用——自1995年诞生至今的Java语言，凭借其独特的工程化基因，正在构建起AI世界的底层基础设施。本文将揭示Java如何在大数据、机器学习、企业级AI系统等领域持续创造价值。一、Java的AI基因解码跨平台优势的现代意义"一次编
谷歌Gemini 3大模型发布，AI领域再掀波澜！广拓科技人工智能
在人工智能的浩瀚宇宙中，每一次重大突破都如同一颗璀璨的新星，照亮我们对未来的想象。而近期，谷歌发布的Gemini3大模型，无疑是其中最为耀眼的存在，它在AI领域激起的波澜，迅速蔓延至全球科技圈，引发了广泛关注与热烈讨论。随着AI技术的迅猛发展，我们已经见证了众多令人惊叹的创新成果。从智能语音助手到图像识别技术，从自动驾驶汽车到医疗诊断辅助系统，AI正以前所未有的速度改变着我们的生活和工作方式。在这
Transformer架构在生成式AI中的应用解析二进制独立开发非纯粹GenAI 人工智能 transformer 架构深度学习机器学习 tensorflow 迁移学习
文章目录1.Transformer架构概述1.1Transformer的核心思想1.2Transformer架构的优势2.Transformer在文本生成中的应用2.1GPT系列：基于Transformer的自回归文本生成2.2BERT系列：基于Transformer的双向编码器3.Transformer在图像生成中的应用3.1VisionTransformer（ViT）3.2DALL·E：基于T
1llama源码学习·model.py[3]ROPE旋转位置编码(1)原理小杜不吃糖学习
零：(导学)Transformer位置编码（1）为什么需要位置编码位置编码描述序列中实体的位置信息，为每个位置分配唯一的表示。Transformer使用智能位置编码方案，其中每个位置/索引都映射到一个向量。因此，位置编码层的输出是一个矩阵，其中矩阵的每一行表示序列的编码对象与其位置信息的总和（2）Transformer中的位置编码假设有一个长度为LLL的输入序列，并要求位置kkk为该序列中的对象，
使用DeepSeek自动生成PPT：高效办公的终极指南点我头像干啥 Ai 人工智能信息可视化深度学习
引言在现代职场中，PPT（PowerPoint演示文稿）已经成为沟通、展示和分享想法的重要工具。然而，制作一份高质量的PPT往往需要耗费大量时间和精力，尤其是在内容整理、排版设计和样式调整方面。幸运的是，随着人工智能技术的发展，像DeepSeek这样的工具可以帮助我们自动化生成PPT，极大地提升工作效率。本文将详细介绍如何使用DeepSeek自动生成PPT，并分享一些实用技巧，帮助你快速上手。一、
小狐狸AI数字人源码独立SAAS部署全开源+搭建环境教程 kaui52066 kaui52066精品源码人工智能 uni-app 前端小程序 php 小狐狸AI数字人数字人源码
一.系统介绍小狐狸AI数字人分身系统源码独立部署支持PC端、小程序端、H5端，一键克隆真人形象+声音核心功能亮点：1:1真人级克隆技术声音克隆：上传3分钟音频，AI深度学习声纹特征，复刻语气、情感、方言形象克隆：通过照片/视频建模，生成动态3D数字人，表情自然，动作流畅智能口型同步引擎AI算法精准匹配唇形与语音，实现口型同步0门槛SAAS化操作无需专业设备，网页端一键生成数字人视频海量模板库：电商
（大模型微调大模型学习路线大模型入门）_大模型学习，吹爆！2025最详细的大模型学习路线已整理！手把手带你高效入门，大模型论文全打通！大模型老炮学习人工智能大模型学习 AI 大模型大模型微调大模型教程
一、初聊大模型1、什么是大模型？大模型，通常指的是在人工智能领域中的大型预训练模型。你可以把它们想象成非常聪明的大脑，这些大脑通过阅读大量的文本、图片、声音等信息，学习到了世界的知识。这些大脑（模型）非常大，有的甚至有几千亿个参数，这些参数就像是大脑中的神经元，它们通过复杂的计算来理解和生成语言、图片等。举个例子，你可能听说过GPT-3，它就是一个非常著名的大模型。GPT-3可以通过理解你提出的问
国产 DeepSeek V3 被秒成“前浪“？谷歌开放最强 Gemini 2.0 全家桶：速度快60倍，上下文还长16倍！ Bryan Ding 人工智能深度学习
谷歌向所有人发布了Gemini2.0——迄今为止谷歌“功能最强大”的人工智能模型套件。1谷歌Gemini2.0向所有人开放去年12月，谷歌发布Gemini2.0Flash的实验版本，正式开启了代理型AI的新时代。Gemini2.0Flash是谷歌为开发者群体打造的高效主力模型，具有低延迟、高性能等优势。今年早些时候，谷歌在GoogleAIStudio中更新了2.0FlashThinkingExpe
【PyTorch】PyTorch 中改变张量形状的几种方法 shengchao0920 pytorch 人工智能 python
PyTorch中改变张量形状的几种方法在深度学习领域，PyTorch是一个广泛使用的框架，它提供了丰富的API来处理张量（tensor）。在模型开发过程中，我们经常需要改变张量的形状以满足特定的需求。本文将介绍在PyTorch中改变张量形状的几种方法，并给出推荐的使用场景。比如：我们想合并一个张量的最后两个维度。一、方法1.使用reshape方法reshape方法可以改变张量的形状而不改变其数据。
图像拼接-UDIS详细推导和精读Unsupervised Deep Image Stitching: ReconstructingStitched Features to Images cccc来财算法计算机视觉深度学习
无监督粗对齐1.基于消融的策略主要是为了找到重叠区，去除无效区2.拼接域的TransformerLayer无监督图像重建1.低分辨率变形单应性变换仅能表示同一深度的空间变换，在实际的图像拼接任务中，由于输入图像的多样性和复杂性，经过第一阶段的粗对齐后，图像往往无法完全对齐。为了让网络能够感知到这些错位区域，特别是在高分辨率和大视差的情况下，设计了低分辨率变形分支，先在低分辨率下对图像进行处理和学习
L1-5 别再来这么多猫娘了！云格～团队天梯赛算法 c++
以GPT技术为核心的人工智能系统出现后迅速引领了行业的变革，不仅用于大量的语言工作（如邮件编写或文章生成等工作），还被应用在一些较特殊的领域——例如去年就有同学尝试使用ChatGPT作弊并被当场逮捕（全校被取消成绩）。相信聪明的你一定不会犯一样的错误！言归正传，对于GPT类的AI，一个使用方式受到不少年轻用户的欢迎——将AI变成猫娘：当然，由于训练数据里并不区分道德或伦理倾向，因此如果不加审查，A
Gemini 2.0 Flash 新加坡内哥谈技术人工智能大数据语言模型
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/过去一年，人工智能领域取得了令人瞩目的进展。如今，备受期待的Gemini2.0系列首款模
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =