计算机视觉研究院

AGI—从GPT和大型语言模型中汲取的经验教训

点击蓝字关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

论文地址：https://arxiv.org/pdf/2306.08641.pdf

计算机视觉研究院专栏

Column of Computer Vision Institute

人工智能界一直在追求被称为通用人工智能（AGI）的算法，这些算法适用于任何类型的现实世界问题。

总述

最近，由大型语言模型（LLM）提供支持的聊天系统出现了，并迅速成为在自然语言处理（NLP）中实现AGI的一个有前途的方向，但在计算机视觉（CV）中实现AGI的道路仍不清楚。人们可能会将这种困境归因于视觉信号比语言信号更复杂，但我们有兴趣找到具体的原因，并从GPT和LLM中吸取经验来解决这个问题。

在今天分享中，从AGI的概念定义开始，简要回顾了NLP如何通过聊天系统解决广泛的任务。该分析启发我们，统一是CV的下一个重要目标。但是，尽管在这个方向上做出了各种努力，CV仍然远远不是一个像GPT这样自然集成所有任务的系统。我们指出，CV的本质弱点在于缺乏从环境中学习的范式，而NLP已经完成了文本世界中的任务。然后，我们想象一个管道，将CV算法放在世界范围的可交互环境中，对其进行预训练，以预测其动作的未来帧，然后用指令对其进行微调，以完成各种任务。我们希望通过大量的研究和工程努力来推动这一想法并扩大其规模，为此我们分享了我们对未来研究方向的看法。

背景

世界正在见证一场迈向通用人工智能（AGI）的史诗之旅，我们按照惯例将AGI定义为一种可以复制人类或其他动物所能完成的任何智力任务的计算机算法。具体来说，在自然语言处理（NLP）中，计算机算法已经发展到可以通过与人类聊天解决广泛任务的程度。一些研究人员认为，这些系统可以被视为AGI的早期火花。这些系统大多建立在大型语言模型（LLM）之上，并通过指令调优进行了增强。它们配备了外部知识库和专门设计的模块，可以完成解决数学问题、生成可视化内容等复杂任务，体现了其理解用户意图和执行初步思想链的强大能力。尽管在某些方面存在已知的弱点（例如，讲述科学事实和被点名的人之间的关系），但这些开创性的研究已经显示出一种明显的趋势，即将NLP中的大多数任务统一为一个系统，这反映了对AGI的追求。

与NLP中统一的快速进展相比，计算机视觉社区还远远不是统一所有任务的目标。常规的CV任务，如视觉识别、跟踪、生成等，大多使用不同的网络架构/或专门设计的通道进行处理。研究人员期待着像GPT这样的系统，它可以通过统一的提示机制处理广泛的CV任务，但在实现单个任务的良好实践和在广泛的任务中推广之间存在权衡。例如，为了报告目标检测和语义分割中的高识别精度，最好的策略是在用于图像分类的强大主干上设计特定的头部模块，并且这种设计通常不会转移到其他问题。

因此，出现了两个问题：（1）为什么CV的统一如此困难？（2）为了实现这一目标，可以从GPT和LLM中学到什么？

为了回答这些问题，重新审视GPT，并将其理解为在文本世界中建立一个环境，并允许算法从交互中学习。CV研究缺乏这样的环境。因此，算法无法模拟世界，因此它们对世界进行采样，并学会在所谓的代理任务中获得良好的性能。在经历了史诗般的十年深度学习之后，代理任务不再有意义地表明CV算法的能力；越来越明显的是，继续追求对它们的高精度可以使我们远离AGI。

总述

简而言之，AGI就是学习一个广义函数a=π（s）。尽管形式很简单，但老式的人工智能算法很难使用相同的方法、算法甚至模型来处理所有这些问题。在过去的十年里，深度学习提供了一种有效而统一的方法：人们可以训练深度神经网络来近似函数a=π（s），而不知道它们之间的实际关系。强大的神经网络架构（如transformer）的出现甚至使研究人员能够为不同的数据模式训练一个模型。

实现AGI存在巨大困难，包括但不限于以下问题。

数据的复杂性。真实世界的数据是多方面和丰富的。一些数据模态（例如，图像）可能具有相当高的维度，并且不同模态之间的关系可能是复杂和潜在的。
人类智力的复杂性。AGI的目标不仅是解决问题，还包括计划、推理、对不同事件的反应等。有时，人类行为和目标之间的关系是模糊的，很难用数学形式表示。
缺乏神经或认知理论。人类还不了解人类的智慧是如何实现的。目前，计算机算法提供了一种途径，但随着神经病学和/或认知学的未来研究，可能会出现更多的可能性。

GPT

NLP中AGI的火花

在过去的一年里，ChatGPT3、GPT-4和其他人工智能聊天机器人，如Vicuna4，在AGI方面取得了重大进展。它们是为自然语言处理（NLP）开发的计算机算法。通过与人类的聊天程序，他们可以理解人类的意图，并完成广泛的任务，只要这些任务能够以纯文本呈现。特别是，GPT-4在通用问题解决方面有很强的能力，被认为是NLP领域AGI的早期火花。

尽管GPT-4尚未向公众开放视觉界面，但官方技术报告展示了几个关于多模式对话的奇特例子，即基于输入图像的聊天作为参考。这意味着GPT-4已经具备了将语言特征与视觉特征相结合的能力，因此它可以执行基本的视觉理解任务。正如我们稍后将看到的，视觉社区已经为相同的目的开发了几种替代品，关键在于使用ChatGPT或GPT-4来生成（指导）训练数据。此外，通过简单的提示，GPT-4还能够调用用于图像生成的外部软件（例如，Midtravel，如下图所示）和用于解决计算机视觉中复杂问题的外部库（例如，HuggingFace库）。

这些人工智能聊天机器人是分两个阶段进行训练的。在第一阶段，使用自监督学习在大型文本数据库上预训练大型语言模型（LLM），其中大部分基于transformer架构。在第二阶段，预先训练的LLM由人工指令监督，以完成特定任务。如有必要，收集人类反馈并进行强化学习，以微调LLM，使其具有更好的性能和更高的数据效率。CV:AGI的下一个战场

AGI下一个战场

CV:AGI的下一个战场

人类基于多种数据模态感知世界。众所周知，我们所学的大约85%是通过我们的视觉系统完成的。因此，鉴于NLP社区已经显示出AGI的前景，自然会将计算机视觉（CV）或多模态（至少包括视觉和语言领域）视为AGI的下一个战场。

在此提供两项补充意见，以补充上述声明。首先，很明显，CV是NLP的超集，因为人类阅读文章首先识别捕获图像中的字符，然后理解内容。换句话说，CV中的AGI（或多模态）应涵盖NLP中AGI的所有能力。其次，我认为，在许多情况下，仅靠语言是不够的。例如，当人们试图找到关于未知物体（例如，动物、时尚等）的详细信息时，最好的方法是捕捉图像并将其用于在线搜索；单纯依赖文本描述可能会带来不确定性和不准确性。另一种情况是，正如我前面提及那样，在场景中引用细粒度语义（用于识别或图像编辑）并不总是容易的，而且以视觉友好的方式思考更有效，例如，使用点或框来定位目标，而不是说“穿着黑色夹克、站在黄色汽车前的人，和另一个人说话。”

理想与现实

希望有一种CV算法，可以通过与环境交互来解决一般任务。注意，该要求不限于识别所有内容或基于图像或视频剪辑执行对话。它应该是一个整体系统，从人类那里接收通用命令并产生期望的结果。但是，CV的现状还很初步。如下图所示，CV一直在为不同的视觉任务使用不同的模块甚至系统。

统一是趋势

下面，我将最近关于CV统一的研究主题总结为五类。

Open-world Visual Recognition

在很长一段时间内，大多数CV算法只能识别训练数据中出现的概念，导致视觉概念的“封闭世界”。相反，“开放世界”的概念是指CV算法能够识别或理解任何概念的能力，无论它以前是否出现过。开放世界能力通常是由自然语言引入的，因为它是人类理解新概念的自然方式。这就解释了为什么图像字幕和视觉问答等与语言相关的任务促成了最早的视觉识别开放世界设置。

The Segment Anything Task

Segment Anything任务是最近引入的一个通用模块，用于将原始图像像素聚类成组，其中许多像素对应于图像中的基本视觉单元。所提出的任务支持多种类型的提示，包括点、轮廓、文本等，并为每个提示或每个提示组合生成一些掩码和分数。在拥有约1000万张图像的大规模数据集上进行训练后，衍生模型SAM能够转移到广泛的分割任务中，包括医学图像分析、伪装对象分割、3D对象分割、对象跟踪，以及图像修复等应用场景。SAM还可以与最先进的视觉识别算法一起使用，例如将视觉基础算法产生的边界框细化为掩码，并将分割单元输入用于图像标记的开集分类算法。

Generalized Visual Encoding

统一CV任务的另一种方法是为它们提供通用的视觉编码。有几种方法可以实现这一目标。一个关键的困难在于视觉任务之间的巨大差异，例如，目标检测需要一组边界框，而语义分割需要对整个图像进行密集预测，这两者都与图像分类所需的单个标签非常不同。正如所有人都能理解的那样，自然语言提供了一种统一的形式来表示一切。一项名为pix2seq的早期研究表明，物体检测结果（即边界框）可以公式化为自然语言和坐标，然后转换为标记作为视觉模型的输出。在后来的版本pix2seq-v2中，他们对表示进行了概括，以目标检测、实例分割、关键点检测和图像字幕的输出。类似的想法也用于其他图像识别、视频识别和多模态理解任务。

LLM-guided Visual Understanding

视觉识别可能很复杂，尤其是当它涉及组成概念和/或视觉实例之间的关系时。端到端模型（用于视觉问答的视觉语言预训练模型）很难按照人类容易理解的程序产生答案。为了缓解这个问题，一种实用的方法是生成可解释的逻辑来帮助视觉识别。这个想法并不新鲜。几年前，在transformer架构出现之前，研究人员提出使用长短期记忆（LSTM）模型来生成程序，以便调用视觉模块作为复杂问题回答的模块。当时，LSTM的能力在很大程度上将这个想法限制在相对简单和模板化的问题范围内。

最近，大型语言模型（尤其是GPT系列）的出现使任意问题的转换成为可能。具体来说，GPT可以以不同的方式与人类相互作用。例如，它可以将基本识别结果总结为最终答案，或者生成代码或自然语言脚本来调用基本视觉模块。因此，视觉问题可以分解为基本模块。这对于逻辑问题尤其有效，例如询问对象之间的空间关系或取决于对象数量的问题。

Multimodal Dialog

多模式对话框将基于文本的对话框扩展到视觉领域。早期的工作涉及视觉问答，其中构建了具有简单问题的各种数据集。随着LLM的快速发展，通过将预先训练的视觉和语言模型一起微调，可以实现多轮问答。研究还表明，可以通过多模态的上下文学习或使用GPT作为逻辑控制器来回答广泛的问题。

最近，GPT系列中开发的一种新范式，命名为指导学习，被继承来提高多模式对话的质量。其想法是从GT实况注释或识别结果中提供一些参考数据（例如，目标、描述），并要求GPT模型生成指令数据（即丰富的问答对）。通过对这些数据进行微调（无需参考），视觉和语言的基础模型可以通过轻量级网络模块（例如Q-former）相互交互。多模式对话为计算机视觉提供了一个初步的交互基准，但作为一项语言指导任务，它也有开放世界视觉识别中分析的弱点。我们希望丰富查询形式（例如，使用通用视觉编码方法）可以将多模式对话推向更高的水平。

未来

从环境中学习

An Imaginary Pipeline

上图显示了我们的想法。该管道包括三个阶段：第0阶段用于建立环境，第1阶段用于预训练，第2阶段用于微调。必要时，可以提示微调后的模型执行传统的视觉识别任务。

Comments on Research Directions

最后，对未来的研究方向进行了展望。随着主要目标从代理任务的性能转移到从环境中学习，许多流行的研究方向可能不得不调整其目标。这里有一个免责声明：以下所有声明都是我们的个人意见，可能是错误的。

论营造环境

一个明确的目标是继续增加虚拟环境的规模、多样性和保真度。有多种技术可以提供帮助。例如，新的3D表示形式（例如，neural rendering field, NeRF）在实现重建质量和开销之间的折衷方面可能更有效。另一个重要的方向是丰富的环境。定义新的、复杂的任务并将它们统一为一个提示系统是一项不平凡的任务。此外，人工智能算法可以从更好地模拟其他代理的行为中受益匪浅，因为它可以在很大程度上提高环境的丰富性，从而提高训练算法的稳健性。

论生成性预训练

主要有两个因素影响预训练阶段，即神经架构设计和代理任务设计。后者显然更为重要，前者应建立在后者的基础上。应修改现有的预训练任务，包括对比学习和掩蔽图像建模，以便在虚拟环境中进行有效探索。我们希望新设计的代理专注于数据压缩，因为视觉数据中的冗余比语言数据中的要重得多。新的预训练代理定义了神经架构的要求，例如，为了实现数据压缩和视觉识别之间的折衷，设计的架构应该具备根据请求提取不同级别（粒度）视觉特征的能力。此外，跨模态（例如，文本到图像）生成将成为衡量预训练性能的直接指标。当统一的标记化方法可用时，可以将其公式化为重建损失的多模式版本。

论指导微调

我们还没有进入新范式中定义任务的范围。由于现实世界中的任务可能非常复杂，我们推测可以首先定义和训练一些基本任务，以便将复杂的任务分解为它们。为此，应该设计一个统一的提示系统，并收集丰富的人工指令。作为一个合理的推测，指令数据的数量可能比为训练GPT和其他聊天机器人而收集的数据大几个数量级。这对CV来说是一个全新的故事。未来的道路充满了未知的困难和不确定性。目前我们看不到太多，但未来会出现清晰的道路。

© THE END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

往期回顾

｜ICLR 2023 | RevCol：大模型架构设计新范式

｜清华大学提出LiVT，解决不平衡标注数据

｜AI大模型落地不远了

｜华为诺亚极简网络，靠13层就拿下83%精度

LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
基于Python给出的PDF文档转Markdown文档的方法程序媛了了 python pdf 开发语言
注：网上有很多将Markdown文档转为PDF文档的方法，但是却很少有将PDF文档转为Markdown文档的方法。就算有，比如某些网站声称可以将PDF文档转为Markdown文档，尝试过，不太符合自己的要求，而且无法保证文档没有泄露风险。于是本人为了解决这个问题，借助GPT（能使用GPT镜像或者有条件直接使用GPT的，反正能调用GPT接口就行）生成Python代码来完成这个功能。笔记、代码难免存在
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
绝招曝光！3小时高效利用ChatGPT写出精彩论文 kkai人工智能 chatgpt 人工智能 ai 学习媒体
在这份指南中，我将深入解析如何利用ChatGPT4.0的高级功能，指导整个学术研究和写作过程。从初步探索研究主题，到撰写结构严谨的学术论文，我将一步步展示如何在每个环节中有效运用ChatGPT。如果您还未使用PLUS版本，可以参考相关教程。**初步探索与主题的确定**起初，我处于庞大的知识领域中，寻找一个可深入研究的领域。ChatGPT如同灯塔，通过深入分析最新研究趋势和领域热点，帮助我在广阔的学
ChatGPT 高效学习套路揭秘：让知识获取事半功倍的秘诀 kkai人工智能 chatgpt 人工智能学习媒体 ai
最近这段时间，AI热潮因ChatGPT的火爆再次掀起。如今，网上大部分内容都在调侃AI，但很少有人探讨如何正经使用ChatGPT做事情。作为一名靠搜索引擎和GitHub自学编程的开发者，第一次和ChatGPT深度交流后，我就确信：ChatGPT能够极大提高程序员学习新技术的效率。使用ChatGPT一个月后，我越发感受到它的颠覆性。因此，我想从工作和学习的角度，分享它的优势及我的一些使用技巧，而非娱
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
效率神器来了：AI工具手把手教你快速提升工作效能 kkai人工智能人工智能学习媒体 ai chatgpt
随着科技的进步，AI工具已经成为提升工作效率的关键手段。本文将介绍一些实用的AI工具和方法，帮助你自动化繁琐的重复性任务、优化数据管理、促进团队协作与沟通，并提升决策质量。背景：OOPAI-免费问答学习交流-GPT自动化重复性任务Zapier：Zapier可以自动化多个应用程序之间的工作流程。例如，它能自动将Gmail中的附件保存至GoogleDrive，或在你发布新文章时，自动分享至社交媒体平台
程序员如何在AI时代保持核心竞争力 nfgo chatgpt 人工智能
程序员如何在AI时代保持核心竞争力随着AIGC（如ChatGPT、MidJourney、Claude等）大语言模型的相继涌现，AI辅助编程工具逐渐普及，程序员的工作方式正在发生深刻的变革。AI不仅能够自动生成代码，还能优化、调试、甚至提出解决方案。这一趋势让许多人担心：AI会不会最终取代部分编程工作？然而，也有人认为AI是提升效率的得力助手。那么，程序员在这个AI崛起的时代该如何应对？是专注某个领
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
腾讯发表多模态综述，一文详解多模态大模型存内计算开发者社区多模态大模型人工智能 chatgpt AIGC 量子计算 AI-native gpt agi
多模态大语言模型（MLLM）是近年来兴起的一个新的研究热点，它利用强大的大语言模型作为大脑来执行多模态任务。MLLM令人惊讶的新兴能力，如基于图像写故事和无OCR的数学推理，在传统方法中是罕见的，这表明了一条通往人工通用智能的潜在道路。在本文中，追踪多模态大模型最新热点，讨论多模态关键技术以及现有在情绪识别上的应用。腾讯AILab发表了一篇关于多模态大模型的最新综述《MM-LLMs:RecentA
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
java观察者模式 3213213333332132 java 设计模式游戏观察者模式
观察者模式——顾名思义，就是一个对象观察另一个对象，当被观察的对象发生变化时，观察者也会跟着变化。在日常中，我们配java环境变量时，设置一个JAVAHOME变量,这就是被观察者，使用了JAVAHOME变量的对象都是观察者，一旦JAVAHOME的路径改动，其他的也会跟着改动。这样的例子很多，我想用小时候玩的老鹰捉小鸡游戏来简单的描绘观察者模式。老鹰会变成观察者，母鸡和小鸡是
TFS RESTful API 模拟上传测试 ronin47
TFS RESTful API 模拟上传测试。　　细节参看这里：https://github.com/alibaba/nginx-tfs/blob/master/TFS_RESTful_API.markdown 模拟POST上传一个图片： curl --data-binary @/opt/tfs.png http
PHP常用设计模式单例, 工厂, 观察者, 责任链, 装饰, 策略,适配,桥接模式 dcj3sjt126com 设计模式 PHP
// 多态, 在JAVA中是这样用的, 其实在PHP当中可以自然消除, 因为参数是动态的, 你传什么过来都可以, 不限制类型, 直接调用类的方法 abstract class Tiger { public abstract function climb(); } class XTiger extends Tiger { public function climb()
hibernate 171815164 Hibernate
main,save Configuration conf =new Configuration().configure(); SessionFactory sf=conf.buildSessionFactory(); Session sess=sf.openSession(); Transaction tx=sess.beginTransaction(); News a=new
Ant实例分析 g21121 ant
下面是一个Ant构建文件的实例，通过这个实例我们可以很清楚的理顺构建一个项目的顺序及依赖关系，从而编写出更加合理的构建文件。下面是build.xml的代码： <?xml version="1
[简单]工作记录_接口返回405原因 53873039oycg 工作
最近调接口时候一直报错，错误信息是: responseCode:405 responseMsg:Method Not Allowed 接口请求方式Post.
关于java.lang.ClassNotFoundException 和 java.lang.NoClassDefFoundError 的区别程序员是怎么炼成的
真正完成类的加载工作是通过调用 defineClass来实现的；而启动类的加载过程是通过调用 loadClass来实现的；就是类加载器分为加载和定义 protected Class<?> findClass(String name) throws ClassNotFoundExcept
JDBC学习笔记-JDBC详细的操作流程 aijuans jdbc
所有的JDBC应用程序都具有下面的基本流程：　　1、加载数据库驱动并建立到数据库的连接。　　2、执行SQL语句。　　3、处理结果。　　4、从数据库断开连接释放资源。下面我们就来仔细看一看每一个步骤：其实按照上面所说每个阶段都可得单独拿出来写成一个独立的类方法文件。共别的应用来调用。 1、加载数据库驱动并建立到数据库的连接： Html代码 St
rome创建rss antonyup_2006 tomcat cms xml struts Opera
引用 1.RSS标准 RSS标准比较混乱，主要有以下3个系列 RSS 0.9x / 2.0 : RSS技术诞生于1999年的网景公司(Netscape)，其发布了一个0.9版本的规范。2001年，RSS技术标准的发展工作被Userland Software公司的戴夫温那(Dave Winer)所接手。陆续发布了0.9x的系列版本。当W3C小组发布RSS 1.0后，Dave W
html表格和表单基础百合不是茶 html 表格表单 meta 锚点
第一次用html来写东西,感觉压力山大,每次看见别人发的都是比较牛逼的再看看自己什么都还不会, html是一种标记语言,其实很简单都是固定的格式 _----------------------------------------表格和表单表格是html的重要组成部分,表格用在body里面的主要用法如下; <table> &
ibatis如何传入完整的sql语句 bijian1013 java sql ibatis
ibatis如何传入完整的sql语句？进一步说，String str ="select * from test_table"，我想把str传入ibatis中执行，是传递整条sql语句。解决办法： <
精通Oracle10编程SQL(14)开发动态SQL bijian1013 oracle 数据库 plsql
/* *开发动态SQL */ --使用EXECUTE IMMEDIATE处理DDL操作 CREATE OR REPLACE PROCEDURE drop_table(table_name varchar2) is sql_statement varchar2(100); begin sql_statement:='DROP TABLE '||table_name;
【Linux命令】Linux工作中常用命令 bit1129 linux命令
不断的总结工作中常用的Linux命令 1.查看端口被哪个进程占用通过这个命令可以得到占用8085端口的进程号，然后通过ps -ef|grep 进程号得到进程的详细信息 netstat -anp | grep 8085 察看进程ID对应的进程占用的端口号 netstat -anp | grep 进程ID &
优秀网站和文档收集白糖_ 网站
集成 Flex, Spring, Hibernate 构建应用程序性能测试工具-JMeter Hmtl5-IOCN网站 Oracle精简版教程网站鸟哥的linux私房菜 Jetty中文文档 50个jquery必备代码片段 swfobject.js检测flash版本号工具
angular.extend boyitech AngularJS angular.extend AngularJS API
angular.extend 复制src对象中的属性去dst对象中. 支持多个src对象. 如果你不想改变一个对象，你可以把dst设为空对象{}: var object = angular.extend({}, object1, object2). 注意: angular.extend不支持递归复制. 使用方法: angular.extend(dst, src); 参数:
java-谷歌面试题-设计方便提取中数的数据结构 bylijinnan java
网上找了一下这道题的解答，但都是提供思路，没有提供具体实现。其中使用大小堆这个思路看似简单，但实现起来要考虑很多。以下分别用排序数组和大小堆来实现。使用大小堆： import java.util.Arrays; public class MedianInHeap { /** * 题目：设计方便提取中数的数据结构 * 设计一个数据结构，其中包含两个函数，1.插
ajaxFileUpload 针对 ie jquery 1.7+不能使用问题修复版本 Chen.H ajaxFileUpload ie6 ie7 ie8 ie9
jQuery.extend({ handleError: function( s, xhr, status, e ) { // If a local callback was specified, fire it if ( s.error ) { s.error.call( s.context || s, xhr, status, e ); }
[机器人制造原则]机器人的电池和存储器必须可以替换 comsci 制造
机器人的身体随时随地可能被外来力量所破坏,但是如果机器人的存储器和电池可以更换,那么这个机器人的思维和记忆力就可以保存下来,即使身体受到伤害,在把存储器取下来安装到一个新的身体上之后,原有的性格和能力都可以继续维持..... 另外,如果一
Oracle Multitable INSERT 的用法 daizj oracle
转载Oracle笔记-Multitable INSERT 的用法 http://blog.chinaunix.net/uid-8504518-id-3310531.html 一、Insert基础用法语法： Insert Into 表名 (字段1,字段2,字段3...） Values (值1,
专访黑客历史学家George Dyson datamachine on
20世纪最具威力的两项发明——核弹和计算机出自同一时代、同一群年青人。可是，与大名鼎鼎的曼哈顿计划（第二次世界大战中美国原子弹研究计划）相比，计算机的起源显得默默无闻。出身计算机世家的历史学家George Dyson在其新书《图灵大教堂》（Turing’s Cathedral）中讲述了阿兰·图灵、约翰·冯·诺依曼等一帮子天才小子创造计算机及预见计算机未来
小学6年级英语单词背诵第一课 dcj3sjt126com english word
always 总是 rice 水稻，米饭 before 在...之前 live 生活，居住 usual 通常的 early 早的 begin 开始 month 月份 year 年 last 最后的 east 东方的 high 高的 far 远的 window 窗户 world 世界 than 比...更
在线IT教育和在线IT高端教育 dcj3sjt126com 教育
codecademy http://www.codecademy.com codeschool https://www.codeschool.com teamtreehouse http://teamtreehouse.com lynda http://www.lynda.com/ Coursera https://www.coursera.
Struts2 xml校验框架所定义的校验文件蕃薯耀 Struts2 xml校验 Struts2 xml校验框架 Struts2校验
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 15:54:59 星期六 http://fa
mac下安装rar和unrar命令 hanqunfeng mac
1.下载：http://www.rarlab.com/download.htm 选择 RAR 5.21 for Mac OS X 2.解压下载后的文件 tar -zxvf rarosx-5.2.1.tar 3.cd rar sudo install -c -o $USER unrar /bin #输入当前用户登录密码 sudo install -c -o $USER rar
三种将list转换为map的方法 jackyrong list
在本文中，介绍三种将list转换为map的方法： 1）传统方法假设有某个类如下 class Movie { private Integer rank; private String description; public Movie(Integer rank, String des
年轻程序员需要学习的5大经验 lampcy 工作 PHP 程序员
在过去的7年半时间里，我带过的软件实习生超过一打，也看到过数以百计的学生和毕业生的档案。我发现很多事情他们都需要学习。或许你会说，我说的不就是某种特定的技术、算法、数学，或者其他特定形式的知识吗？没错，这的确是需要学习的，但却并不是最重要的事情。他们需要学习的最重要的东西是“自我规范”。这些规范就是：尽可能地写出最简洁的代码；如果代码后期会因为改动而变得凌乱不堪就得重构；尽量删除没用的代码，并添加
评“女孩遭野蛮引产致终身不育 60万赔偿款1分未得”医腐深入骨髓 nannan408
先来看南方网的一则报道：再正常不过的结婚、生子，对于29岁的郑畅来说，却是一个永远也无法实现的梦想。从2010年到2015年，从24岁到29岁，一张张新旧不一的诊断书记录了她病情的同时，也清晰地记下了她人生的悲哀。　　粗暴手术让人发寒　　2010年7月，在酒店做服务员的郑畅发现自己怀孕了，可男朋友却联系不上。在没有和家人商量的情况下，她决定堕胎。　　12月5日，
使用jQuery为input输入框绑定回车键事件 VS 为a标签绑定click事件 Everyday都不同 jsp input 回车键绑定 click enter
假设如题所示的事件为同一个，必须先把该js函数抽离出来，该函数定义了监听的处理： function search() { //监听函数略...... } 为input框绑定回车事件，当用户在文本框中输入搜索关键字时，按回车键，即可触发search(): //回车绑定 $(".search").keydown(fun
EXT学习记录 tntxia ext
1. 准备（1）官网：http://www.sencha.com/ 里面有源代码和API文档下载。 EXT的域名已经从www.extjs.com改成了www.sencha.com ，但extjs这个域名会自动转到sencha上。（2）帮助文档：想要查看EXT的官方文档的话，可以去这里h
mybatis3的mapper文件报Referenced file contains errors xingguangsixian mybatis
最近使用mybatis.3.1.0时无意中碰到一个问题： The errors below were detected when validating the file "mybatis-3-mapper.dtd" via the file "account-mapper.xml". In most cases these errors can be d

AGI—从GPT和大型语言模型中汲取的经验教训

你可能感兴趣的:(agi,gpt,语言模型,人工智能,自然语言处理)