人工智能学家

【综述专栏】VALSE 2023 | 走向计算机视觉的通用人工智能：GPT和大语言模型带来的启发...

来源：知乎—谢凌曦

作者：https://zhuanlan.zhihu.com/p/620631150

转载声明

本文可以规范转载，无需通知本人。
转载时请注明出处（知乎链接）、标明作者，并且注明：文章所有内容均只代表作者本人观点，其中涉及的前沿内容均有可能被推翻。同时请标明：二次转载须连同出处、作者、声明等一并转载。

引言

距离上次的长篇大论，已经过去了半年有余。这段时间，对于AI业界甚至整个世界，都是惊心动魄的。在这段时间里，最令人印象深刻的大事莫过于ChatGPT和GPT-4的发布。毫无疑问，GPT-4是有史以来最为强大的AI程序。在随后发表的一篇论文[1]中，学者们将GPT-4称为通用人工智能（AGI）诞生的火花。诚然，每个人对于AGI的定义不尽相同，现阶段的GPT也尚未真正解决AI领域的所有难题；然而，基于大模型的技术，确实已经接近完成NLP领域的大一统，甚至让人隐约看到了AGI的曙光。或许，在3-5年内，我们就能够看到冯诺伊曼架构基础之上的AGI计算架构；倘若如此，大模型将在其中占据核心位置。

除了GPT系列外，计算机视觉领域也好不热闹，几个前沿方向都出现了令人惊叹的进展。对于公众来说，感受最深的莫过于AI绘画了。Stable Diffusion[2]和ControlNet[3]等技术的出现，大幅降低了训练和应用扩散模型的门槛。在Midjourney等社区中，AI绘画的发展速度可谓一日千里，许多技术困难（如AI不会画手、不会数数等）也得到了初步改善。如今，只要有一块入门级GPU或者交一点订阅费用，每个人都可以创作出自己的AI作品来。就连一段时间以来颇为平淡的视觉感知领域，也被一个叫做SAM[4]的方法搅动起来：虽然SAM还存在诸多缺陷（如语义识别能力有限），但它让人看到了视觉基础模型的更多可能性。根据Google scholar的统计，仅仅两个月的时间里，SAM就得到了超过200次引用，足见关注程度之高、研究之内卷。

面对如此冲击，包括我在内的许多研究者都会感到迷茫。很显然，在NLP的引领下，发展大一统的任务和体系，将成为未来3-5年整个CV领域的核心课题。然而，CV是否已经做好实现这个宏伟目标的准备？当前的视觉基础模型（包括最近的SAM）究竟做到了什么、没有做到什么？这篇断断续续写了两个月的文章，就是我对于这些问题的思考。

文章的部分内容，也被我整理成一篇微型survey，并与VALSE上报告的PPT一起，放在以下地址：

https://github.com/198808xc/Vision-AGI-Survey

【综述专栏】VALSE 2023 | 走向计算机视觉的通用人工智能：GPT和大语言模型带来的启发..._第2张图片

图1：调研报告首页截图。

arXiv链接如下：

https://arxiv.org/abs/2306.08641

在这篇文章中，我将从AGI的定义说起。随后，我将简要回顾NLP领域所经历的变革。基于大语言模型的GPT系列，为自然语言处理带来了划时代的改变，点燃了AGI的火花。接着，我将进入CV领域的讨论。作为AGI的下一个重要战场，CV领域正在走向大一统模型，但是面临的困难还很大。我将回顾现有工作，分析本质困难，并且在GPT的启发下提出一种新的研究范式。最后，我还将分享一些个人观点。

人工智能和通用人工智能

今天的人们，对于人工智能（AI）一词并不陌生。现代意义上的AI诞生于1956年的达特茅斯会议，随后经历了几十年的发展，几经兴衰。AI的根本目标，在于使用数学方法复现人类智能。近年来，在深度学习的带动下，AI领域取得了长足进步，也深刻地改变了人们的生产生活方式。

通用人工智能（AGI），是AI发展的最高目标。关于AGI的定义有很多，其中最通俗的一种，即AGI是能够具有任何人类和动物所具有能力的算法。从早期的图灵测试（早于达特茅斯会议）开始，关于AGI的追求和争论从未停止。深度学习的出现，大大加快了AGI的进程；而近期的GPT系列，则被学者们认为是点燃了AGI的火花[1]。深度学习本身提供了一种通用的方法论，使得人们可以在确定输入和输出形式的情况下，使用统计学习方法，构建神经网络（一种层次化的数学函数）来近似输入和输出之间的关系。只要有足够多的数据，深度学习就能够应用于CV、NLP、强化学习等诸多AI子领域。

关于AGI的形式化定义，则可以借鉴2007年出版的《通用人工智能》一书[5]的观点。将智能体放在一个环境中，当它观察到一系列状态时，可以从某个集合里选择相应的行动，并且得到相应的奖励。AGI的目标是学习一种映射，使得其在环境中行动时，得到的累计奖励最大化。AGI的定义虽然很简单，但是实现起来却非常难，主要困难包括但不限于：实际数据具有很高的维度、人类智能具有复杂特性、神经和认知科学的理论缺失，等。

GPT：点燃NLP领域的AGI火花

发布以来，GPT系列刷新了无数纪录，其中就包括2个月内达到1亿用户的神迹。这个纪录的重要性在于，它表明了AI算法已经具备面向普通用户（to consumers，即2C）的能力，这在历史上还是第一次。为了做到2C，AI算法必须具备极强的通用能力，能够满足用户的绝大部分要求。令人吃惊的是，GPT做到了这一点。GPT基本上解决了NLP领域的常见问题。在许多问题（如编写代码）上，GPT的能力甚至超越了专门设计的算法。也就是说，GPT实现了NLP领域的大一统：原先看似孤立的各个任务，都可以在多轮对话任务下统一起来。诚然，GPT还不完美，也会在许多问题上犯错或者胡言乱语，但是在可预见的范围内，NLP的研究范式不会再发生大的变革了。这场旷日持久（从达特茅斯会议算起，已有近70年）的NLP战争已经分出胜负，接下来就是些打扫战场的工作，比如解决垂直领域问题、逻辑推理、提高用户体验，等等。

关于GPT的能力展示，此处不再赘述，大家可以参考互联网上浩如烟海的资料，或者“AGI火花”一文里系统详尽的分析[1]。我只想引述GPT-4官方新闻的一句话：

As a result, our GPT-4 training run was (for us at least!) unprecedentedly stable, becoming our first large model whose training performance we were able to accurately predict ahead of time.
结果表明，GPT-4的训练过程（至少对我们来说）前所未有地稳定，它也成为我们训练过的第一个能够提前准确预测效果的大模型。

换句话说，GPT-4的本质是个神经网络，是个概率模型；但是它表现出来的行为（不论是训练还是测试），已经稳定得不像个概率模型了。这着实是一次了不起的技术突破！

关于GPT系列的实现原理，许多优秀的文章已经做过分析，此处我不再赘述。简单地说，GPT训练分为两个阶段。第一阶段被称为生成式预训练，主要在无标注的通用语料库中进行。大规模语言模型通过预测下一单词，拟合通用文本的数据分布，并获得in-context learning能力，能够通过少量示例来适应新任务。第二阶段被称为指令微调，主要在有标注的对话数据库中进行。在此过程中，大规模语言模型将通用文本分布对齐到问答数据中，显著提升了针对性解决问题的能力。同时，模型还可以从人类用户的反馈中学习奖励函数，从而进一步增强其满足用户偏好的能力。如果对更具体的分析感兴趣，可以自行搜索ChatGPT的实现原理。

CV：AGI的下一个战场

由于人类通过多种模态来理解世界，因此真正的AGI必须结合CV和NLP来实现。然而，在CV中实现AGI，比在NLP中实现AGI的难度大很多。根据前面的定义，真正的AGI应该具有即解决通用问题、与环境互动的能力，而不仅仅是完成万物识别和多模态对话等初级任务。然而如图2所示（示例图源：UberNet[6]），相比于利用统一对话系统来解决所有问题的GPT，当前CV的常用方法论还比较初步，大多局限于使用独立的模型甚至算法来解决不同的问题，包括图像分类、物体检测、实例分割、注意力检测、图像描述、以文生图等。

图2：当前CV主要使用独立的算法解决问题。

艰难的CV大一统之路

为了接近GPT的水平，CV必须走向大一统，也就是使用一套系统，解决各种视觉问题。近来，业界出现了不少此类尝试，我们将其分为五个主要方向。其中前三个方向主要解决任务形式的统一、第四个方向主要解决视觉任务逻辑的统一、最后一个方向主要解决视觉和语言交互的统一。以下我们简要综述每个方向的代表性工作，并且分析它们的优缺点。

开放域视觉识别：即要求算法不仅能够识别训练集中出现过的概念，还能够通过自然语言等方式识别训练集中未出现过的概念。当前，开放域识别的主要奠基性工作为CLIP[7]，它提供了文本和图像间的跨模态特征对齐方法，使得人们能够统一使用自然语言来指代目标语义，从而完成了分类、检测、分割、定位、按需识别等各类任务。虽然自然语言提供了足够的灵活性，使得开放域识别成为可能，但自然语言难以指代视觉信号中的细粒度信息，从而在一定程度上限制了识别能力。
Segment Anything任务：通过设计统一的prompt系统并且在标注层面完成数据闭环，SAM[4]能够分割出图像中的所有基础单元，并且在相当广泛的视觉域中展现出了泛化能力。无需重新训练，SAM就能提供基础语义单元，并应用于分割3D物体、物体消除和填充、分割医疗影像或者隐藏物体，等。SAM传递出的重要思路是：通过降低视觉任务的难度（此处主要指无语义标签的分割），来统一视觉任务形式定义，增强模型的域间迁移能力。从形式看看，SAM很像通用的视觉识别流程中的一个部分，但如何构建合理的上下游模块来配合它（以构建完整流程），依然是个开放问题。
通用视觉编码：即一系列通过统一编码形式，来整合多种任务的尝试。它们虽然形式不同，但是都指向同一个目标，即通过把不同模态、不同任务的数据编码为统一形态，使得单个神经网络模型能够完成尽可能多的任务。其中代表性的方法分为三类：首先是Gato[8]，它验证了单个transformer模型能够完成CV、NLP、强化学习等任务；其次是pix2seq[9]和OFA[10]，验证了不同视觉任务（如检测、分割、描述）在自然语言形态下得到统一，从而送入单个模型进行训练；最后是Painter[11]和SegGPT[12]，借鉴了NLP中in-context learning的方式，将一系列视觉任务编码为不同形式的图像密集预测任务，并训练单个纯视觉模型来解决问题。相比于传统视觉识别框架，这些方法更接近大一统的目标，也论证了当前的神经网络模型特别是transformer能够适应一大类跨模态任务。然而，这些仅仅追求形式上的统一，与多任务学习的边界并不清晰，也并未充分展现出统一带来的好处。
大语言模型引导的视觉理解：在语言模型的协助下，将复杂视觉问题拆解为统一的逻辑链，并分步解决问题。其实这类方法并非最近才出现：至少在2017年，就出现了使用LSTM拆分问题并调用视觉模块的尝试[13]。只是大语言模型的出现，使得这一方法论的通用性大大增强。最近出现的一系列工作，其共同特点是使用GPT将文本问题转化为可分步执行的逻辑。这种逻辑可以是代码，可以对接搜索引擎，也可以表现为流程图或者自然语言。必要时，程序将调用视觉模块，以提供检测、计数、OCR、描述等基础能力。这类方法充实了视觉问答的逻辑，也提升了答案的可解释性，但它强烈地依赖于大语言模型和基础视觉模块。很多情况下，以检测为代表的视觉任务本身也需要复杂逻辑来完成。很显然，当前的方法很难下探到这一深度。
多模态对话：在对话任务中引入图像或视频作为参考，从而允许通过对话任务来完成统一形式的视觉理解。在视觉、语言、跨模态预训练模型的基础上，只需要微调很少部分的参数，就能完成问答任务[14]。受到GPT系列的启发，研究者们将视觉标注送入语言模型，在简单的提示下，生成了问答数据[15]。多模态对话模型在这些问答数据上微调之后，就具备了回答复杂问题的能力。目前，以此种方式产生的问答结果，已经可以媲美GPT-4技术报告中提到的例子[16]。然而，当前多模态对话系统的能力，大部分来自大语言模型。这也就意味着，与开放域识别一样，多模态对话对于细粒度视觉信息的指代能力比较有限。在使用复杂图像作为参考时，算法很难针对其中某个特定的人或物进行提问，从而也限制了解决具体问题的能力。

以上几个方向的研究，将CV领域带到了新的高度。以当前进展看，CV算法能够在一定条件下完成视觉识别，也能够进行初步的多模态对话，但是距离大一统模型、距离通用的任务解决还有很远。而后者正是AGI所需要的能力。

于是我们不禁要问：为什么在CV中完成大一统如此困难？这个问题的答案，还要从NLP中去找。

NLP给CV带来的启发

我们尝试从另一个视角来理解GPT所完成的事情。我们不妨想象自己像GPT一样，生活在一个纯文本的世界里。在这样的世界里，多轮对话任务是充分且必要的：一方面，我们只能通过文字与其他智能体交流；另一方面，我们可以通过多轮对话去完成所有任务。也就是说，在NLP领域，学习环境是完备的：我们通过多轮对话来训练算法，而算法也只需要掌握多轮对话，就是一个能够完成所有任务的AGI。我将这个性质成为“所训即所需”——这个词是模仿“所见即所得”造出来的。

这样看来，GPT所定义的对话任务，比起GPT的实现方法更加重要！这种定义使得AI算法能够通过与环境互动来学习，恰好符合AGI的定义：与环境互动，并且最大化奖励。相较而言，CV就没有形成清晰的路线：既没有环境用于预训练，各种算法也并不能在实际环境中解决问题。显然，这背离了CV和AGI的基本原则。事实上，早在1970年代，计算机视觉的先驱大卫·马尔就提出：视觉算法必须构建真实世界的模型，并且从交互中学习[17]；随后也不乏其他学者指出交互的重要性。然而如今，大部分视觉算法并非研究如何与环境交互，而是研究如何在各种任务上提升精度。

这是为什么呢？当然是环境构建的难度太大！

代理任务：理想向现实的妥协

要想构建场景用于CV任务，主要有两种方法：

构建真实环境：在真实世界中放置大量智能体，使其通过与包括人类在内的其他智能体互动学习。这种方式的缺点在于成本太高且难以确保安全。
构建虚拟环境：通过视觉算法模拟或者重建3D环境，在虚拟世界中训练智能体。这种方式的缺点在于真实性不足，包括场景建模的真实性和智能体行为的真实性，从而训练的智能体难以有效迁移至真实世界中。

除此之外，对环境中其他智能体行为的模拟也很重要，这决定了CV算法在真实应用场景中的适应能力。如果希望环境与智能体互动（例如在现实世界中放置一个真实的机器人），则收集数据的成本还会显著上升。另一方面，环境中的智能体的行动模式往往比较单一，难以模拟真实世界中丰富而开放（open-domain）的行为。

总的来说，目前所构建的场景，还不足以满足大规模训练CV算法的需要。在无法模拟环境情况下，人们只能退而求其次，不直接与环境互动，而从真实环境中采样大量的数据，并且将与环境互动可能需要的能力定义为一系列代理任务（即通过完成任务，接近最终的目标），如物体识别、追踪等。人们假设，通过提升这些代理任务的精度，就能够让CV算法更接近AGI。

可问题是，这个假设对吗？

图3表达了我们的观点。在深度学习出现之前，CV的算法还比较弱，代理任务的精度也不高。当时，对于代理任务的追求，很大程度上推进了AGI的发展。然而过去十年，随着深度学习的发展，各项代理任务都已经高度饱和。在ImageNet-1K数据集上，top-1分类精度已经从前深度学习时代的50%以下提升到了90%以上。此时，继续提升代理任务的精度，有可能无法逼近AGI，甚至与之背道而驰。GPT的出现，进一步印证了这个观点：在接近AGI的模型出现后，原本孤立的NLP代理任务，如翻译和命名实体抽取，就变得不再重要了。

代理将死！

图3：CV的代理任务正在失去意义，甚至使我们远离AGI。

未来范式：从环境中学习

我们设想的学习流程如图4（图源：Habitat[18]和ProcTHOR[19]）所示，分为如下阶段：

第0阶段，环境构建。通过各种方式构建虚拟环境，尽可能地增强环境的丰富性、真实性，可交互性。
第1阶段，生成式预训练。让智能体探索环境，结合自身行动，预测未来将会看到的画面。这对应于GPT的预训练阶段，任务是预测下一个单词。在这个过程中，CV算法记忆了现实世界的分布，并做好了通过少量样本学习任务的能力。
第2阶段：指令微调。训练智能体完成具体任务，如寻找特定物体，甚至与其他智能体交互。这对应于GPT的指令微调任务，同样建立在丰富的任务描述和人工指令数据基础上。在这个过程中，CV算法为了完成任务，必须掌握各种视觉概念，并习得按需处理视觉信号的能力。
下游阶段（可选）。可以用基于prompt的方式，将AGI模型用于传统视觉任务。

图4：设想中的未来CV训练流程，在环境探索、完成任务，并迁移到下游感知任务。

需要注意的是，在这样一个流程中，代理任务只是算法在通用任务上训练过后，“顺手”习得的能力。而现在的大部分CV研究，却将代理任务作为唯一的追求，属实是本末倒置了。

要想实现上述流程，面临的困难有很多。我们从三个阶段来分析。

更复杂的虚拟环境。当前构建虚拟环境的方法主要有两种。一是基于真实数据产生的虚拟环境：收集实际场景数据，并将其建模为点云、面片（mesh）、神经辐射场（NeRF）等数据结构，并支持高速、大规模的渲染。这种做法的成本还比较高，难以规模化生产环境。当前可用的3D数据集（如Habitat[18]），相比于2D数据集，规模要小好几个数量级，且依然局限于某些特殊场景（如室内或者街景）。二是通过仿真学方法构建虚拟环境：通过3D建模、生成式算法（包括GAN和扩散模型）等方式，直接采样虚拟数据并渲染3D环境。这种做法虽然能够批量生成环境（如ProcTHOR[19]），但它不易还原真实世界的数据分布。一方面，图像上通常包含影响算法学习的artifacts（即使肉眼难以观察出来），从而难以保证在虚拟数据上训练的模型的迁移能力。然而不论是哪种方法，虚拟环境的大小和真实度还不能满足要求，且难以允许AI算法与环境中的其他智能体互动。
更复杂的数据结构。NLP的数据结构比较简单，它天然具备“单词”这样基本、不可分的[20]语义单元，也自然地设计出了transformer这样的架构来处理这些离散单元；在任务层面上，NLP将预训练定义为上下文生成（俗称完形填空），同时也将所有下游任务也建模为上下文生成。如此浑然一体的框架，使得NLP的预训练任务和下游任务之间gap很小。然而CV的数据结构就要复杂得多：这种复杂不仅体现在图像的维度更高，而且体现在图像的基本语义单元难以定义。在这种情况下，一味地“抄作业”，强行把图像切分为tokens以套用transformer架构，显然不是最优方案。当前，我越来越倾向于认为，token只是一种假象、一种权宜之法，真正适合视觉表征的数学性质，还需要更多工作来揭示。
更复杂的实际任务。显然，引入CV信号后，智能体通过与环境互动，能够完成更多、更复杂的任务。与NLP的多轮对话相比，这些任务的形式更复杂、数据模态更丰富、多样性也更显著。可以预期，如果采用指令微调的方式，就需要收集更多的数据，甚至引入真实智能体的行为模式。这对于数据量、数据复杂度等方面，都有更高的要求。

最近，我们关注到一些令人欣喜的工作。其中一个工作是PaLM-E[21]，它使用跨模态基础模型来指导具身视觉算法，增强其能力。另一个不如PaLM-E有名，但却更让人振奋的工作则是ENTL[22]，它将环境建模和指令学习都建模为序列预测的形式，实现了上述框架的雏形。这些工作照亮了在环境中学习的道路；在此基础上，伴随着系统设计和工程优化，我们将会看到CV大一统的光明未来。

小结

在达特茅斯会议的提议书中，AI的先驱者们写下了一个看似平凡，却无比困难的问题：如何让计算机学会使用人类语言？经过几十年的努力，研究者们终于在NLP领域看到了AGI的曙光，但是CV领域距离这个目标还有很远。造成CV当前困境的本质原因，在于CV领域没有构建起“从环境中学习”的范式，因而只能采样环境、设计代理任务，无法形成系统层面的闭环。未来，为了实现CV的大一统，我们必须抛弃现有框架，设计全新的具身范式，让CV算法在与环境的交互中增强能力，不断进化。

一些感性的思考

最近一段时间，我看到了许多稍显浮躁的论调。其中最为常见的，莫过于AI将要革新一切，甚至消灭大部分AI从业者，最终达到共同失业（划掉最后一句）。作为理智的从业人员，我知道CV算法的能力还比较有限，硬骨头还有很多。不过有一点是确定的：大规模语言模型（LLM）已经具备了强大的意图理解和初步的逻辑推理能力，因而达到了成为AI与人类沟通的“中枢系统”的条件。一旦如此，这条技术路线就会固化下来，在未来3-5年甚至更长的时间内，业界要做的事情只有两件：继续强化中枢系统（增强LLM或者构建其多模态的变种、以模块化的形式完善其各项能力），并且将这种范式复刻到CV领域里去。如今，再讨论大模型是否是未来已经没有意义，我们要做的，就是为CV真正用上大模型做好铺垫和准备。

目前看来，大模型很可能会成为与深度学习本身相媲美的革命性技术，我们很可能正在经历一场技术革命。在大模型定义的新时代里，我们每个人都是初学者。以代理任务为代表的旧时代遗存，将很快失去价值；而不能勇敢地拥抱新方法的人，也将随着代理任务一并消亡。

附录

以下文字，是对上述观点的补充，也是一些暂时还没有形成体系的思考。

再谈CV的根本困难

在去年的那篇文章里，我阐述了CV的三大根本困难，即信息稀疏性、域间差异性、无限粒度性，并且指出它们正是采样+代理任务的范式所带来的副作用。文章链接如下：关于视觉识别领域发展的个人观点

其中的关键段落摘抄如下：

从根本上说，自然语言是人类创造出来，用于存储知识和交流信息的载体，所以必然具有高效和信息密度高的特性；而图像则是人类通过各种传感器捕捉的光学信号，它能够客观地反映真实情况，但相应地就不具有强语义，且信息密度可能很低。从另一个角度看，图像空间比文本空间要大得多，空间的结构也要复杂得多。这就意味着，如果希望在空间中采样大量样本，并且用这些数据来表征整个空间的分布，采样的图像数据就要比采样的文本数据大许多个数量级。顺带一提，这也是为什么自然语言预训练模型比视觉预训练模型用得更好的本质原因——我们在后面还会提到这一点。根据上述分析，我们已经通过CV和NLP的差别，引出了CV的第一个基本困难，即语义稀疏性。而另外两个困难，域间差异性和无限粒度性，也多少与上述本质差别相关。正是由于图像采样时没有考虑到语义，因而在采样不同域（即不同分布，如白天和黑夜、晴天和雨天等场景）时，采样结果（即图像像素）与域特性强相关，导致了域间差异性。同时，由于图像的基本语义单元很难定义（而文本很容易定义），且图像所表达的信息丰富多样，使得人类能够从图像中获取近乎无限精细的语义信息，远远超出当前CV领域任何一种评价指标所定义的能力，这就是无限粒度性[23]。

进一步分析，我们就会得到一个有趣的结论：CV的本质困难在于人类对视觉信号的理解十分有限。人类从来就没有真正掌握视觉信号的结构，乃至为其定义某种专用语言，而只能通过自然语言来指代和表示视觉信号。许多明显的证据都能够表达这一点：大部分人在没有经过训练的情况下，很难画出具有真实感的图像（这表明人类没有掌握图像的数据分布）；同时，大部分人很难通过语言交流，向另外一个人准确地表达图像上的意思——即使两人在语音通话，且看着电脑上的同一张图，要想通过纯语言交流指代图中的某些细节元素，也未必总是容易的。

如果重新审视CV的三大根本困难，就会发现它们可以统一起来，体现为视觉信号的表征粒度具有主观性和不确定性，或者追求客观的视觉信号与追求简洁的语义信号之间的矛盾。当表征粒度较大（即追求语义信号的简洁性）时，人类可以用较为简洁的方式表达视觉信息，于是认为视觉信号具有语义稀疏性；当表征粒度较小（即追求视觉信号的客观性）时，人类又能够识别出图像中丰富的视觉信息，于是认为视觉信号具有无限粒度性；当表征粒度不确定时，人类很难将连续变化的视觉信号与离散的语义空间对应起来，于是在视觉信号改变而语义不变的范围内，就产生了域间差异性[24]。

此外需要特别指出的是，信息稀疏性和无限粒度性之间的矛盾，主要体现在传统的代理任务中。此时，如果追求表征的高效性（如使用信息压缩作为指标），就难以保证识别的细粒度和准确率。为了规避这样的矛盾，唯一的方案是构建真实的交互环境，允许智能体根据任务来调整视觉信号的粒度。

再次对比CV和NLP，就会发现，NLP很好地避免了粒度不确定的问题。由于NLP处理的文本信号是人为创造的，它的粒度就是文字本身的粒度。虽然这个粒度可变（例如用语言描述一个物体或者场景时，既可以描述得很精确，也可以描述得很粗略），但人类确定了这个粒度，并且保证它与实际需求相吻合。

既然NLP的粒度比较明确，是否可以帮助CV完成任务？我们发现，以往几乎所有CV方法，都使用NLP的方式来定义粒度。其中典型的例子有两个：基于分类的任务以及语言指代的任务。这两种方式各自存在的缺陷，我在之前的文章中也分析过，摘录如下。

基于分类的方法：这包括传统意义上的分类、检测、分割等方法，其基本特点是给图像中的每个基本语义单元（图像、box、mask、keypoint等）赋予一个类别标签。这种方法的致命缺陷在于，当识别的粒度增加时，识别的确定性必然下降，也就是说，粒度和确定性是冲突的。举例说，在ImageNet中，存在着“家具”和“电器”两个大类；显然“椅子”属于“家具”，而“电视机”属于“家电”，但是“按摩椅”属于“家具”还是“家电”，就很难判断——这就是语义粒度的增加引发的确定性的下降。如果照片里有一个分辨率很小的“人”，强行标注这个“人”的“头部”甚至“眼睛”，那么不同标注者的判断可能会不同；但是此时，即使是一两个像素的偏差，也会大大影响IoU等指标——这就是空间粒度的增加引发的确定性的下降。语言驱动的方法：这包括CLIP带动的视觉prompt类方法，以及存在更长时间的visual grounding问题等，其基本特点是利用语言来指代图像中的语义信息并加以识别。语言的引入，确实增强了识别的灵活性，并带来了天然的开放域性质。然而语言本身的指代能力有限（想象一下，在一个具有上百人的场景中指代某个特定个体），无法满足无限细粒度视觉识别的需要。归根结底，在视觉识别领域，语言应当起到辅助视觉的作用，而已有的视觉prompt方法多少有些喧宾夺主的感觉。

说了这么多，还是回到开始的那个根本症结：视觉没有定义好自己的语言。当前可见的方法，都是用NLP的方式来定义CV。这些方法可以解决CV的初级问题，但要深入探索下去，就要碰得头破血流！

CV所处的发展阶段

很显然，GPT范式在NLP领域的大获成功，让CV研究者有些心痒难耐。遵循NLP的发展路径看，NLP在GPT-1阶段构建了大模型，在GPT-3阶段观察到了能力涌现，进而在ChatGPT阶段采用了指令学习来解决具体任务。

于是一个很重要的问题是：当前的CV研究，到底发展到了什么阶段？

4月底，我参加了一次VALSE线上研讨会的panel环节，其中一个问题就是：SAM是否解决了计算机视觉问题，或者是否达到了GPT-3的水平（以致于可以在此基础上构建强大的CV算法）。我给出的结论很悲观：SAM没有达到GPT-3的水平，甚至离GPT-1还很远。其中最重要的原因，就是CV没有构建合适的学习环境。前面说到，NLP构建了对话环境，并且针对对话任务，设计了完形填空配合指令微调的学习范式。如果CV要仿照这套流程，就应当也构建交互任务，并且设计相应的预训练和微调任务。很显然，当前的CV学习范式并没有做到这一点，因此我们总感觉CV的上下游任务是脱节的：即使当前效果最好的MIM方法，似乎也和下游任务关系不大。要解决这个问题，很可能要从源头下手，构建起真正的学习环境来。

接着我们讨论能力涌现的问题。关于NLP的大模型为什么能够观察到能力涌现，业界似乎还存有疑问。我自己有一个大胆的假说：能力涌现的前提，是预训练数据已经覆盖了现实世界的一定比例。在这种情况下，预训练模型不必担心过拟合，因为它的任务就是记忆数据分布，某种意义上就是过拟合——这个假说也同时揭示了为什么NLP可以追求大模型：因为在不担心过拟合的情况下，大模型的拟合能力要更强。在这里，NLP的特征空间小、数据形态简单的优势就体现出来，而CV要想达到这样的状态，还需要更多的数据和更大的算力。

我有一个不严格的类比：NLP好比国际象棋，CV好比围棋。1996年，超级计算机深蓝通过启发式搜索的方式，在国际象棋中战胜了人类世界冠军，但是相似的方法无法在围棋中复现，因为围棋的状态空间要远远超过国际象棋。后来，在深度学习的帮助下，围棋的启发式函数得到了非平凡的改进，终于能够支撑起更复杂的状态空间的探索。如果没有深度学习，也许人类要再过几十年，才能够通过超大计算量的堆砌，达成同样的成就。深度学习的出现极大地加速了这个过程。

回到CV的发展上来。诚然，按照当前数据收集和计算量提升的速度，或许再过足够长的时间，CV也能够跌跌撞撞地达到当前NLP的水平。不过我相信，在此之前，一定会有某项技术突破，加速CV赶超NLP的过程。而我们CV研究者的使命，就是找到这项技术，或者至少找对正确的方向。

对未来研究方向的展望

经过上面的讨论，未来CV的pipeline已经有了雏形：基于交互环境的生成式预训练和指令微调方法。这未必是唯一的路线，只是在NLP的启发下催生出来的最有可能的路线。实现它的困难有很多，但只要认准了方向，当前的困难恰恰对应于最有前景的研究方向。

退一步说，如果上述pipeline在短期内难以实现，那么CV就应当尽可能吸收NLP的能力，以期提升通用能力。很显然，纯粹基于图像信号的CV研究将越来越少，融合语言的跨模态研究将成为绝对主流：只要使用了CLIP或者类似的多模态基础模型用于特征抽取，就相当于接受了跨模态的思想。在这条路线上，最重要的研究方向可以概括为“找到图像与自然语言的交互方式”，或者更进一步地说，“找到图像本身的语言”：这一点对于交互类任务也是至关重要的。

一些重要的研究方向包括：

【环境构建】新的三维表征方法，结合NeRF、点云等多种数据结构，目标是构建大规模、真实性强、可运动、可交互的具身环境。
【环境构建】智能体行为模拟，包括基于进化算法，演进智能体的行为模式。
【生成式预训练】新的自回归预训练方法，其中神经网络架构设计，需要追求预训练的效果而不是代理任务的精度。为了解决视觉信号的冗余性，动态压缩率可能是一个很好的指标。
【生成式预训练】图文生成算法，不仅能够辅助环境构建，还会成为预训练的评价指标。
【指令微调】以prompt形式统一各种类型的视觉任务，使得同一套计算模型能够适应尽可能多的任务。顺便，SAM提供了一种解耦的思路，证实了在弱化语义的前提下，分割基础单元的通用性很强。在传统框架下，我比较看好将复杂任务解耦成基本单元的做法。
【指令微调】定义新的人机交互方式，通过人类演示，收集足够的指令数据。

参考

1. abcBubeck S, Chandrasekaran V, Eldan R, et al. Sparks of artificial general intelligence: Early experiments with gpt-4[J]. arXiv preprint arXiv:2303.12712, 2023.

2. Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 10684-10695.

3. Zhang L, Agrawala M. Adding conditional control to text-to-image diffusion models[J]. arXiv preprint arXiv:2302.05543, 2023.

4. abKirillov A, Mintun E, Ravi N, et al. Segment anything[J]. arXiv preprint arXiv:2304.02643, 2023.

5. Goertzel B Artificial general intelligence[M]. New York: springer, 2007.

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）大脑研究计划，构建互联网（城市）大脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

你可能感兴趣的:(人工智能,计算机视觉,gpt,语言模型,自然语言处理)

AIGC空间智能在服装设计领域的颠覆性变革 AI天才研究院 ChatGPT 实战 ChatGPT AI大模型应用入门实战与进阶 AIGC ai
AIGC空间智能在服装设计领域的颠覆性变革关键词：AIGC、空间智能、服装设计、数字孪生、生成式AI、3D人体建模、智能设计系统摘要：本文深入探讨AIGC（人工智能生成内容）与空间智能技术在服装设计领域的融合创新，揭示其如何通过三维人体建模、场景模拟、智能生成算法重构传统设计流程。从技术原理层解析空间智能的核心模块，结合生成对抗网络（GAN）、Transformer模型等前沿算法，展示从创意生成到
编程效率的飞跃、创新驱动的测试与行业应用的新篇章
###引言在人工智能技术飞速发展的今天，AI工具、大模型及行业应用正在深刻改变着开发者的工作模式与各领域的发展格局。从智能编码助手到自动化测试平台，从大模型落地实践到垂直行业解决方案，AI正成为提升效率、驱动创新的核心引擎。本文将围绕“AI技术如何重塑你的工作与行业”这一主题，探讨AI工具、AI编程、AI测试以及AI行业应用和大模型落地等方面的影响。 ###一、AI工具重塑开发工作 #
中电金信：十问高质量数据集：金融大模型价值重塑有“据”可循
2025年，随着大模型在金融领域的深度应用，高质量数据集已逐渐成为决定模型性能的“基石”。面对数据要素价值释放的关键机遇期，国家政策不断深入推进：2月，国务院国资委启动“AI+”专项行动，着力攻克数据难题；5月，数字中国峰会发布了首批30项央企AI高质量数据集成果；6月，在央国企金融领域人工智能高质量数据集工作推进会上，14家企业共同签署了“央国企金融数据产业共同体倡议书”，旨在推动人工智能与数据
毕业论文 | 人工智能侵权责任法律问题研究——以无人驾驶汽车为例北斗猿毕业论文设计人工智能无人驾驶法律侵权责任法民法典
===========================================github：https://github.com/MichaelBeechanCSDN：https://blog.csdn.net/u011344545===========================================人工智能侵权责任法律问题研究——以无人驾驶汽车为例目录摘要一、绪论(一)课
人工智能发展简史——未来是属于AI人工智能的。 AI天才研究院 ChatGPT AI人工智能与大数据人工智能
目录人工智能发展简史第一章：起步期-20世纪50年代及以前1.1计算机象棋博弈（Programmingacomputerforplayingchess）1.2图灵测试（TuringTest）1.3达特茅斯学院人工智能夏季研讨会（DartmouthSummerResearchConferenceonArtificialIntelligence）1.4感知机（Perceptrons）第二章：第一次浪潮
算法化资本——智能投顾技术重构金融生态的深度解析田园Coder 人工智能科普人工智能科普
金融市场的数字化进程正经历着本质性跃迁。当传统交易大厅的开放式喊价被服务器集群的低频嗡鸣取代，当投资决策从人类直觉转向概率矩阵计算，一场由人工智能驱动的资本范式革命已悄然降临。智能投顾作为这场变革的核心载体，其技术架构不仅重塑财富管理的运作逻辑，更在认知层面挑战着金融市场的存在根基。理解这场变革的深度与广度，需要穿透技术表象，审视算法与资本结合引发的复杂生态嬗变。智能投顾系统的技术支柱建立于三重认
当争论者还在讨论AI的边界，实践者早已用这些技术解决实际问题渡难繁辰人工智能拥抱AI 人工智能 ai
——普通人参与AI革命的关键路径一、AI应用五大核心组件（通俗拆解版）1️⃣LLM：AI的「决策核心」本质：大型语言模型（如DeepSeek、通义千问），具备语言理解与生成能力能力边界：✅处理文本类任务（写作/翻译/摘要）❌无法获取实时信息（如最新股价）⚠️存在“幻觉”（虚构信息）风险案例对比：问：“鲁迅和周树人什么关系？”基础LLM：“两位都是著名作家”（错误）增强版LLM：“周树人是鲁迅本名”
AI“大航海”时代：企业人力资源的AI-HR实践与效能提升策略
在数字化浪潮的推动下，人工智能（AI）正以前所未有的速度渗透各行各业，人力资源管理（HR）领域也不例外。AI技术的引入与应用落地，不仅提升HR管理效率，更在深层次上带来人力资源运作模式的变革。什么是AI-HR所谓AI-HR，是指将人工智能技术应用于人力资源管理，并通过机器学习、自然语言处理、数据挖掘等技术，优化招聘、培训、绩效评估、员工关系等人力资源各个业务模块。近年来，随着AI技术的成熟和普及，
PagedAttention和Continuous Batching 流浪大人大模型深度学习人工智能机器学习
PagedAttention是什么PagedAttention是一种用于优化Transformer架构中注意力机制的技术，主要用于提高大语言模型在推理阶段的效率，特别是在处理长序列数据时能有效减少内存碎片和提高内存利用率。它借鉴了操作系统中虚拟内存分页机制的思想。工作原理传统注意力机制的局限性：传统的注意力机制在处理长序列时，需要为每个位置计算注意力得分并存储中间结果，这会导致内存占用随着序列长度
生成式人工智能认证（GAI认证）含金量怎么样？技能咖 GAI认证生成式人工智能认证人工智能
当生成式人工智能（GenerativeAI）的浪潮以摧枯拉朽之势重塑职业版图时，一个尖锐的问题正悬在无数人的心头：在技术迭代比眨眼更快的时代，如何证明自己具备驾驭AI的核心能力？这场认知革命的背后，一张认证证书的价值早已超越了纸面——它既是个人能力的“信用背书”，也是企业筛选人才的“技术密码”。而生成式人工智能认证（GAI认证）的诞生，恰似一把打开未来之门的密钥，其含金量究竟几何？答案藏在三个维度
全球 AI HR 浪潮下的中国实践：从效率革命到战略重构 weixin_54980836 人工智能重构
一、全球AIHR的技术跃迁与价值重构在DeepSeek、ChatGPT引发的生成式AI革命中，人力资源管理领域正经历着从“工具替代”到“认知重构”的范式转变。Gartner《2025年人力资源技术趋势报告》指出，AI在HR场景的应用已从简历筛选、薪资计算等基础效率工具，升级为支持组织战略决策的“数字伙伴”。这种转变的底层逻辑，源于大模型技术带来的三大突破：多模态交互能力：AI已能同时处理文本、语音
SpringBoot多数据源动态切换方案：AbstractRoutingDataSource详解 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot多数据源动态切换
TensorRT-LLM：大模型推理加速引擎的架构与实践
前言：技术背景与发展历程：随着GPT-4、LLaMA等千亿级参数模型的出现，传统推理框架面临三大瓶颈：显存占用高（单卡可达80GB）、计算延迟大（生成式推理需迭代处理）、硬件利用率低（Transformer结构存在计算冗余）。根据MLPerf基准测试，原始PyTorch推理的token生成速度仅为12.3tokens/s（A100显卡）。一、TensorRT-LLM介绍：TensorRT-LLM是
深入解读MaaS技术架构：从模型服务到智能部署的全流程分析 Cc不爱吃洋葱架构人工智能大语言模型大模型智能部署 MaaS技术架构 LLM
随着人工智能（AI）的迅速发展，MaaS（ModelasaService，模型即服务）技术架构应运而生。它通过将复杂的AI模型封装为标准化服务，降低了模型的开发和部署门槛，帮助企业快速实现业务场景的智能化升级。本文将深入解析MaaS技术架构，详细阐述其各个组成部分以及如何在实际应用中高效发挥其功能。一、使用方层：从应用接入到业务赋能MaaS技术架构的顶层是使用方层，它主要面向第三方应用，是企业与M
Spring Boot + 本地部署大模型实现：安全性与可靠性保障代码老y spring boot bootstrap 后端
在将大语言模型集成到SpringBoot应用中时，安全性和可靠性是两个关键因素。本地部署的大模型虽然提供了强大的功能，但也可能带来一些安全风险，如数据泄露、模型被恶意利用等。本文将介绍如何在SpringBoot应用中保障本地部署大模型的安全性和可靠性，确保应用的稳定运行。一、安全性保障（一）数据加密传输加密：确保模型生成的结果在传输过程中被加密，防止数据在传输过程中被窃取。可以使用HTTPS协议来
想要了解大模型，看懂这一篇就够了！大模型工作流程及核心参数介绍！ Gq.xxu qwen3 vllm transforms 大语言模型部署深度学习人工智能
若想深入探究大模型核心参数的效果与作用，就务必先弄清大模型的工作流程，明确核心参数在流程各阶段的效能与功能，知晓其具体含义。一，大模型的工作流程大模型运行时的工作原理可以概括为输入处理→特征提取→模型推理→结果生成四个核心阶段，整个过程融合了深度学习架构、自然语言处理技术以及分布式计算能力。从用户输入到大模型输出，整个工作的处理流程如下：输入文本→分词→嵌入+位置编码→Transformer多层处
从0开始学习计算机视觉--Day08--卷积神经网络
之前我们提到，神经网络是通过全连接层对输入做降维处理，将输入的向量通过矩阵和激活函数进行降维，在神经元上输出激活值。而卷积神经网络中，用卷积层代替了全连接层。不同的是，这里的输入不再需要降维，而是可以保留输入的空间结构，例如输入的是32×32×3的图片，在全连接层中是3072×1的向量，而卷积层里则保持不变。这里的改变的地方是对于同样的WX的函数形式，这里是把5×5×3的权重矩阵（也叫卷积核）向量
MCP客户端请求MCP服务器资源的Python SDK实现 AI天才研究院计算 AI人工智能与大数据 Python实战 python 开发语言 ai 服务器
我将为您提供一个详细的指南，说明如何使用PythonSDK让MCP客户端请求MCP服务器的资源。MCP客户端请求MCP服务器资源的PythonSDK实现核心概念ModelContextProtocol(MCP)是一个标准化协议，允许应用程序以标准化的方式为大语言模型(LLM)提供上下文，将提供上下文的关注点与实际的LLM交互分离。MCP中的资源(Resources)是一种核心原语，允许服务器暴露数
人工智能LLM | 基础配置 | 通过环境变量配置API-KEY 一文通教程 H-大叔人工智能大模型实战与教程人工智能
在实战开发大语言模型的过程中，经常会遇到各种API-KEY的配置问题，例如GPTOpenAIKEY的配置，而且目前大部分都要求将其配置在环境变量中，下面将会讲解如何在Linux、macOS、Windows中配置，本文一文通教程。您可以使用配置环境变量的方法，避免在调用各种SDK时显式地配置API-KEY，从而降低泄漏风险。环境变量是操作系统中用于存储有关系统环境的信息的变量。您可以通过环境变量来配
【人工智能】ChatGPT、DeepSeek-R1、DeepSeek-V3 辨析 G皮T #大语言模型人工智能 LLM 大语言模型 chatgpt deepseek DeepSeek-R1 DeepSeek-V3
ChatGPT、DeepSeek-R1、DeepSeek-V3辨析1.ChatGPT对比DeepSeek1.1技术相似点1.2主要差异1.3关键区别1.4如何选择1.5总结2.DeepSeek-R1对比DeepSeek-V32.1DeepSeek-R12.2DeepSeek-V32.3核心区别总结2.4如何选择3.R1和V3有什么含义3.1DeepSeekR1的"R"3.2DeepSeekV3的"
「论文导读」LLM高效推理与模型量化雷羿 LexChien prompt 人工智能 LLM 论文阅读
1.论文背景作者：HugoTouvron等人，來自MetaAI来源：arXiv:2302.13971，2023年2月主题：介绍LLaMA系列模型（LLaMA-7B、13B、33B、65B），专为研究用途设计，强调高效能与低资源需求的语言模型推理。论文探讨如何通过优化训练数据、模型架构和推理技术，在有限硬体资源（如单一GPU或CPU）上实现高效推理。学术背景：随着大型语言模型（LLM）如GPT-3的
在学校研究学习的偏算法，秋招投递开发岗位还有希望吗程序员
前言Thelasttime,Ihavelearned这是星球同学，在周五晚上答疑聊天的时候对我的提问：如果简历上的项目偏算法，但是自学了一些操作系统和计网的知识，秋招的时候投递偏开发的岗位有希望吗？简历上是否也要加上相关项目？估计也是很多朋友的疑问，毕竟很多同学读研，有些老师疯狂push，要成果，发论文。要想尽快发论文，那只能“研究”人工智能、算法的一些东西了。但是众所周知，算法要求很高，不仅要求
AlphaEvolve：谷歌的算法进化引擎 | 从数学证明到芯片设计的AI自主发现新纪元大千AI助手人工智能 Python #OTHER 算法人工智能深度学习 AlphaEvolve google gemini
AlphaEvolve：谷歌的算法进化引擎|从数学证明到芯片设计的AI自主发现新纪元——结合大语言模型与进化计算，重塑科学发现与工程优化的通用智能体本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！⚙️一、核心定义与技术架构AlphaEvolve是由谷歌DeepMind开发的通用科学AI智能体，其核心
vLLM 的逻辑与运作机制 a李兆洋大模型推理
vLLM的逻辑与运作机制vLLM作为一种高效的推理框架，逐渐成为研究和应用的热点。vLLM的核心在于如何高效地管理和调度模型推理任务，以最大化利用计算资源并提高推理效率。一、vLLM是如何运作的？vLLM是一种虚拟化的大语言模型推理框架，它通过高效的资源管理和调度机制，使得大规模语言模型的推理任务能够更加高效地运行。vLLM的核心逻辑是LLMEngine，它负责处理和调度推理请求，管理KVcach
【AI论文】基于图像思维的多模态推理：理论基础、方法及未来前沿东临碣石82 人工智能
摘要：近期，文本思维链（Chain-of-Thought，CoT）显著推动了多模态推理的进展。在这一范式下，模型在语言层面进行推理。然而，这种以文本为中心的方法将视觉信息视为静态的初始语境，从而在丰富的感知数据与离散的符号思维之间造成了根本性的“语义鸿沟”。人类认知往往超越语言的局限，将视觉作为动态的心理草图板加以利用。如今，人工智能领域也正经历着类似的演变，标志着从仅能对图像进行思考的模型向真正
【深度学习新浪潮】什么是上下文长度？小米玄戒Andrew 深度学习新浪潮深度学习人工智能 LLM 语言模型大模型模型优化上下文长度
大型语言模型（LLM）的上下文长度是指模型在处理当前输入时能够有效利用的历史文本长度，通常以token（如单词、子词或标点）为单位衡量。例如，GPT-4支持128Ktoken的上下文，而Llama4Scout甚至达到了10Mtoken的惊人规模。这一指标直接影响模型在长文档理解、多轮对话等复杂任务中的表现。一、上下文长度的合理范围上下文长度的选择需结合具体应用场景：日常对话：通常需要8K–32Kt
Manus AI与多语言手写识别 tonngw 人工智能
技术文章大纲：ManusAI与多语言手写识别引言手写识别技术的发展背景与市场需求ManusAI的定位与核心技术优势多语言场景下的挑战与机遇ManusAI的核心技术架构基于深度学习的端到端手写识别模型多模态数据融合（笔迹压力、书写轨迹等）自适应语言模型与字符集扩展机制多语言手写识别的关键技术非拉丁语系（中文、阿拉伯语等）的笔迹特征提取小样本语言数据的迁移学习策略上下文感知与语法纠错在低资源语言中的应
DeepSeek 帮助自己的工作
引言简述人工智能助手在职场中的普及趋势DeepSeek作为智能创作助手的核心功能概述DeepSeek的核心能力信息检索与整合：基于用户意图精准搜索并生成答案多场景应用：技术文档撰写、数据分析、代码生成等交互优化：遵循用户指定的格式与内容规范职场应用场景与实操案例技术文档撰写自动生成API文档框架根据需求补充技术细节示例代码块与公式的规范化输出数据分析支持快速检索行业数据并生成可视化建议数学建模中的
Python机器学习与深度学习：决策树、随机森林、XGBoost与LightGBM、迁移学习、循环神经网络、长短时记忆网络、时间卷积网络、自编码器、生成对抗网络、YOLO目标检测等 WangYan2022 机器学习/深度学习 Python 机器学习深度学习随机森林迁移学习
融合最新技术动态与实战经验，旨在系统提升以下能力：①掌握ChatGPT、DeepSeek等大语言模型在代码生成、模型调试、实验设计、论文撰写等方面的实际应用技巧②深入理解深度学习与经典机器学习算法的关联与差异，掌握其理论基础③熟练运用PyTorch实现各类深度学习模型，包括迁移学习、循环神经网络（RNN）、长短时记忆网络（LSTM）、时间卷积网络（TCN）、自编码器、生成对抗网络（GAN）、YOL
比Cursor香！字节AI编程神器Trae上线，Claude3.5+GPT4o免费用，中文开发者狂喜！东哥说AI AI应用 AI编程 AI工具 Trae Cursor Windsurf
2024年开始，AI编程工具在国外卷疯了——Cursor、Copilot、Windsurf、Devin、Bolt.new等一系列AI编程神器纷纷露脸，但是国外的软件多国内的中文开发者还是不够友好；国内的各个编程插件通义灵码、文心快码、豆包MarsCode也经常刷屏程序员圈，但是还是作为一个插件嵌入到IDE中使用、而非作为独立的IDE。就在1月，字节跳动终于出手了，发布了对标Cursor和Winds
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR