深圳季连AIgraphX

51-13 多模态论文串讲—BEiT v3 论文精读

BEiT-3的核心思想是将图像建模为一种语言，这样我们就可以对图像、文本以及图像-文本对进行统一的mask modeling。Multi-way transformer模型可以有效地完成不同的视觉和视觉语言任务，使其成为通用建模的一个有效选择。

同时，本文也对多模态大模型作了一个简单的总结。

接下来，我们来看BEiT-3论文，题目是Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks。BEiT-3的这个目标，非常明确，他就是想做一个更大一统框架，不论是从模型上要统一，而且从训练的目标函数上要统一。还有就是模型大小，数据集大小，怎么scale也要统一。作者管这个叫做big convergence。那如果简单用一句话来概括？BEiT-3就是把图像也看成了是一种语言，他们题目的意思说image as foreign language。他们在文章中，把这个image叫做Imglish，文本叫做English，把这个图像文本叫做parallel sentence。这个时候，因为不论是图像还是文本，我都可以用mask modeling去做。不需要ITC、ITM、MLM loss或者Word patch alignment各种loss。那模型层面，他就用的是他们之前VLMo提出的那个MoME。在这篇论文里，作者又重新起了个名字，管他们之前提出的那个框架叫做multi-way transformers，可能是受Google pathway的影响吧。总之到最后，这就是一个非常简单，而且非常容易扩展的一个框架。模型就是multi-way transformer一个，目标函数也就一个mask modeling。但是效果，出奇的好。

我们往下看，BEIT-3采取了CoCa这种多边形图的形式去展现它有到底有多强。

那我们可以看到在这个图里面，作者还新加了蓝色的这个flamingo，然后他们的BEiT-3，就是这个紫色的这条线，完完全全把之前所有的方法，全都包进去了。而且在每个任务上的提升，也都不小。而且最重要的是，BEiT-3这种灵活的结构，就是一个模型，但是它在推理的时候，可以拆成各种各样的部分去做下游任务，就导致它可以做Unimodel的这个图像问题。比如说classification，segmentation，detection，他通都可以做。然后，就是他本来要做的，这种各种各样的多模态的任务，当然language的任务他也是可以做的。只不过这里，之前的工作也没有比，所以他这里也就不用比。那因为BEiT-3的这个效果，也确实是非常强，所以作者在这个图一之后，紧跟着又跟了一个表一，放在了第二页。去具体展示了一下，BEiT-3到底做了任务，然后之前的这个SOTA到底是哪些方法，然后上面具体提升了多少。

我们这里可以看到，比如说在ADE20K上，BEiT-3就达到62.8，其实到现在为止应该还都是一、二吧，我看paper with code上最高是62.9。然后object detection，在CoCo上也已经刷到了，惊人的是63.7，当然现在好像已经65点几了，大家刷coco的这个积极性还是非常高，目标检测是真卷不动。然后在ImageNet上，BEiT-3达到89.6。你是可能会想，Coca不都已经90多了吗？当时作者在这里打了个记号。说这个性能，SOTA的这个性能，是没有用额外的private data训练，但是，CoCa用了JFT300m，这个Google自己有的数据集，所以别人没法复现。

然后如果看多模态这边，我们也可以发现，像NLVR2这个数据集上，这个BEiT-3比之前的CoCa高了5.6个点，这个提升是非常恐怖的，而且别的几个多模态任务，这个BEiT-3表现也都非常。所以说别看BEiT-3就是一个模型结构，只用了一个目标函数，而且它的数据，也没有用很多，微软真的是很亲民。他这篇文章专门还强调了，他使用的这个预训练数据集，全都是public data set，都是你可以下到的，您是可以去得到差不多一样的数据集，然后去复现它的模型的。

所以这个从侧面说明了两个问题，第一个，就是说不是目标函数越多越好，不是说你给他加更多的regularization，它这个模型就一定会训练的更好，还是得看loss之间，有没有互相弥补的特性。而且还有就是你这个当模型变大，数据变大的时候，你还需不需要其他的这个loss函数，那比如说CLIP，也就用了这个对比学习就训练的很好了。那BEiT-3，就用mask model也就训练很好了。所以真的是越简单的方法，它skill越好，而且越能应用。第二个，就是说数据也不一定是越多越好，那CoCa，就用了10倍于训练CLIP的数据量，可能几十倍于BEiT-3用的这个数据量，但BEiT-3的这个性能，还反超了Coa，所以更多时候，这个数据的质量是非常关键。

BEiT-3，其实从方法上来说，它就是之前，BEiT，BEiT v2，VLBEiT，VLMo，他们一系列的工作的一个集合体。本身，它其实没有提出什么新的东西，都是在之前的工作里，都已经提到过了，这篇就是把它做大做强。展示了一下，到底一个unified framework，达到一个什么样的性能。

那BEiT-3的这个引言部分，真的是写的非常非常好，如果有同学对多模态学习感兴趣，或者接下来想做多模态的研究，那我建议一定要把这个第一段读一下。

作者上来就给这个引言部分起了个标题，叫做the big convergence，就是大一统。

文章说，最近我们观察到，不论是在这个language，还是在vision，还是在这个多模态领域，我们都观测到这个big convergence。就是说我们在超级多的这个数据集上，去做大规模的预训练，一旦这个模型训练好之后，它的这个特征，就已经非常好了，可以直接transfer到这个下游任务上去。那尤其是当你这个模型足够大，数据足够多的时候，你有可能就能训练出来一个有通用性能的一个foundation model。这个foundation model，可能就已经能去解决，各种各样的这个模态，或者各种各样的下游任务了，非常的强大。那foundation model这个概念，其实也就是去年还是前年提出的，基本上22年做大模型的，都喜欢把他们的模型叫做foundation model，所以一瞬间，出来了很多很多的foundation model。那作者说，在这篇工作里，他们就是想把这个大一统，继续往前再推一步，就是彻底把这个多模态，尤其是vision language的这个预训练做得很好，而且主要是从以下的这三个方面来讲这个大一统。

那第一个方面，就是说从这个模型角度来说，这个transformer真的是非常关键。之前我们讲transformer，还有vision transformer的时候，我就说过，我非常喜欢transformer这个结构，原因，不是因为这个结构它有多强，因为最近你看在这个视觉这边的这个CNN和transformer，还在争到底是谁性能更好，或者说谁更适合做这个视觉任务，但这个，其实已经无所谓了。因为未来，肯定是多模态的，未来肯定是一个模型，去做所有的modality，这样去做所有的task，肯定是一个大一统的框架。那在这个大一统的框架下，CNN就不太适合做其他的modality，但是transformer，又适合做很多的modality，所以就从这一点上讲，Transformer已经胜出了。所以作者接下来说，这个transformer刚开始是从NLP那边用的，然后，逐渐用到了这个vision和这个多模态领域。现在，对于这个vision language model，对于多模学习来说，有几个常用的这个方式，比如说，CLIP就是Dual encoder这种的方式，他就非常适合做这种快速的retrieval。还有，就是这种encoder-decoder的框架去做这种generation task，我们刚讲这个BLIP、CoCA这都属于这类。还有，就是这种fusion-encoder architecture，就是只用encoder，有多模态融合部分，ALBEF、VLMo那都属于这一类，他们就能做很好的这个image text encoding。作者说，不论是哪一个方向，这些模型，在遇到这个下游任务的时候，因为这个输入的形式，可能有时候会改变，或者输出的形式，有时候会改变，所以这个模型，就需要根据下游任务去做一些改进，它不是真正意义上的就是训练好一个模型之后，你拿去用就可以了，而是说你训练好这个模型之后，你遇到各种各样的任务，你还得去修改。那这个就还不够方便，而且，离他们说的这种general purpose model，就还有一段距离，所以作者这篇文章里就说，我们想提出BEiT-3，用multi-way transformer，去进一步的往这个方向去push。

接下来，对于这个大一统方向的第二个点，就是这个预训练的目标函数。作者说，其实到目前为止，这个mask data modeling，就已经成功的被应到各个这个modality里了，比如说最开始的完形填空这个BERT，然后Image这边，他们就是自己的这个BEit，还有这个image text pair这边就是他们自己的VLBEiT。总之，就用这种掩码学习，就已经能够很好的去学习图像，文本，或者多模态的这种特征了。那作者这里就想，那我能不能真的就用这一个目标函数，就把这个模型训练的非常好？因为，如果你用更多的这个目标函数，你这个训练速度，肯定会变慢，也就是他这里说的，如果你用其他的这个pretraining objective，比如说ITM的话，你这个当数据和模型变大的时候，计算就不高效了，你就很难去在短时间内训练出来一个大模型。另外也有优化和调参的问题在里面，如果你只有一个loss，那你这个loss weight，就没啥可调的了，但是如果你现在有三四个loss，那这loss和loss之间的weight该怎么调？你是不是得跑好几个大模型去对比一下该选用什么loss weight？那同时，有的loss之间可能互补，有的loss之间可能互斥。比如说之前我们说想让那个ITM工作的更好，我们还得用ITC去帮助他选择Hard negative，然后才能去做ITM，这就无形中增加了很多的复杂度，和很多这种调参度就太人工了，他就不好skill up。所以作者说，在这篇文章中，我们就用了一个这个pretraining task，就是mask then predict。然后我们就把这个图像看成是一个foreign language叫Imglish。因为反正图像过完这个vision transformer embedding以后，它就变成了一个sequence of token，那这样他们就能把这个文本和图像，用同样的方式去处理，本质上就没有任何区别。而且如果这样子去处理，对于这个多模态的这个图像文本来说，也就可以把它看成是一个parallel sentence，就是句子一，后面跟了个句子二，就没有什么不同了，一切，都变成NLP了。当然这也从侧面说明，mask data modeling这个目标函数，真的是非常的强。

最后作者，又讨论一下第三个方面，就是如何把这个模型，还有数据集的这个大小，全都scaling up，因为只有scaling up，用了更多的数据，有一个capacity很大的模型，他才有可能用一个模型去解决所有的事情。所以在BEiT-3里，作者说也把这个模型的size扩展到了B级，而且也把数据集也扩展的非常大，但即使如此，作者团队还是坚持，就使用这种public available的这个data resource。所以学术界，就比较容易去这个复现，非常的难能可贵。

如果我们接下来看BEIT的这个方法本身，也就看这个图。

就会发现，真的很简单，而且它就是VLMo，所以没什么好讲的。那对于模型本身而言，它就是用了这个multi-way transformer，就是之前的这个MoME。它前面的这个自注意力，全都是shared，只有后面这个feed forward network是不一样的。根据不同的modality，我们练不同的expert，这是vision，这是language，这是vision language。然后通过调整，不同的这个input modality，然后去选择这个模型，到底该走哪一支，最后来得到模型的这个输出。至于训练的时候的这个目标函数，就是这个mask data modeling，它有可能是遮住了图像，有可能是遮住了文本，总之就是完形填空，你去这个恢复它就可以了。所以说，非常直接，而且就像VLMo里讲的一样，它也很灵活。

我们现在如果直接去看这个图三

也就是说当一训练完了之后，我们要去做这个下游任务的transfer的时候，作者这里说BEiT-3也非常的强大。如果你只用这边的这个vision encoder，就可以去做所有这个图像这边的任务，包括分类、分割和检测。那如果你只用language这边的encoder，你就可以去做那边的各种任务，反正是用MLM训练出来的，所以BERT能做，BEiT-3都能做。那接下来，就是看多模态了，如果你有vision和language，最后有vision language这种fusion encoder形式，你就比较容易去做这种vison language understanding task，这种VQA，VR这种任务。那如果你想像CLIP一样，去做比较高效的这种image text retrieval，你就可以把这两个vision和language分开做，变成双塔结构。那如果fine tune的话，你还可以再用ITC去fine tune一下就好了。最后，就是如果你做生成，你做captioning这种任务，如像我们讲过BLIP和CoCa，就是文本这边mask，然后你用image grounded这个text encoder去预测这个mask掉的词到底什么，然后可以做image captioning。所以说，BEiT-3，就跟一个积木一样，也就跟一个乐高一样，他每一个训练好的那个transformer block，或者每一个训练好的那个SA或者这个FFN，你都可以随意的去拼和组合，从而达到你想要的各种结果。

那最后，我们可以快速的对多模态大模型做一下总结。

我们可以从最中间的这个vision transform ViT开始说。多模态学习之前，都是OSCAR或者UNITER的这些工作，但他们的缺陷，都是因为里面用了一个object detection的模型，去做这个视觉特征的抽取，这个就太慢，而且太贵了。所以说在vision transformer出来之后，这个ViLT的作者就想到说，我可以把这个vision这边，就用一个vision transformer去代替，就一个embedding层就足够了，这样大大的简化了这个模型结构，所以，结合ViT和这个OSCAR，推出了这个ViLT。

ViLT是ICML 21的工作，Clip也是ICML 21的工作。经过一番这个总结，经验和对比，ALBEF的作者就发现了，说Clip比较高效，适合做这种image text retrieval，原始的这些方法，因为这个Modality fusion做的很好，多模态任务非常强，而这个ViLT这个结构比较简单，所以说最后，综合3家的长处，就推出了ALBEF这么一个fusion encoder的模式，从而取得了不错的结果。

因为ALBEF也release了代码，而且结果不错，模型也比较简单，所以在它之上，又延伸出来了很多工作。那比如说之前，这个SimVLM，就是用encoder，decoder去做多模态的。然后作者在的ALBEF、SimVLM基础上推出了这个CoCa。用contrast和caption两个loss就训练出了一个强大的模型。

那同时，另外一个分支，就是有了这个ViLT，而且有了这个ALBEF之后，微软的研究者，就推出了这个VLMo，就用这个共享参数的方式推出一个统一的做多模态的框架。

然后，基于这种参数共享的思想，基于这种可以用很多很多，这个text branch，作者又推出了这个BLIP模型，能做非常好的这个Capfilter的功能，而且它的capfilter模型，也非常的好用，能够像一个普适的工具一样，用到各种各样的情形中去。

我们再回到这个vision transformer。那vision transformer在他的文章中，也做了mask data modeling的方式，去做self supplied learning，但是当时的效果，不是很好。但是大家，整个community，都觉得mask data modeling是一个非常promising的这个方向，所以大家，就顺着BERT的这个思想，这个微软的研究者就提出了BEiT。当时的口号，就是这是计算机视觉界的BERT Moment。

然后在BEiT的基础上，很快又推出了BEiT v2，但是这个，主要是做这个视觉task，并不是做多模态的。然后，因为BEiT可以在视觉上做mask model，然后BERT，可以在文本上做mask model，作者就想那视觉和文本是不是可以合在一起？所以说，又推出了这个vision language BEiT，即VL-BEiT。

最后，在他们一系列的这个实验，经验的这个积累之下，作者最后把BEiT v2，VLMO和VL-BEiT等3个工作合起来，推出了多模态的BEiT-3，大幅超过了之前的这个CoCa,BLIP在单模态和多模态上的各种表现。

再回到ViT，那对于mask data modeling来说，你也可以mask and predict不同的东西。譬如BEiT就是去predict那个patch。另外耳熟能详的工作MAE，mask auto encoder，就是去mask predict pixel。当然不论是恢复patch还是恢复pixel，其实vision transformer那篇paper，原来它都已经做了，但是效果都不是很好，然后BEiT和MAE，都把这个效果推高到很高的一个高度。然后MAE，它有一个非常好的一个特性，就是说他在视觉那端，他把大量的这个patch，全都给mask之后，他只把那些没有mask的那些patch，扔给了这个vision transform 去学习，这样就大大减少了这个计算量。

那这个东西，当然不是视觉里独有的了，所以就引出了最近新出的另外一篇比较有名的工作，也有很多同学说能不能讲一下这篇FLIP，Facebook新出的论文，就是fast language image prediction。

但其实，他的想法真的是非常非常的直接，就是把MAE的这个有用的这个特性，用到Clip的这个结构里，它的模型就是Clip，没有任何的改变，只不过是在视觉这端，它跟MAE一样，都是只用那些没有mask的token，把那些mask的就删掉了，这样无形之中，就把sequence length降低了很多，所以这个训练就快了，也就是他说的这个fast language image prediction。

当然Flip这篇论文，做了超级多的实验，最后也做了model和data，还有这个训练Schedule上各种这个scaling的实验。所以大家如果有时间，也可以去读一下，但是从方法本身上来说，它就是在Clip的基础上用MAE的思想。

最后，想说的一点，就是多模态学习的进展，实在是太快了，除了我们这两期讲到的这么多多模态的工作之外，最近还有很多非常非常引人入胜的工作。

比如说有一个系列，就是用language去做interface。他的意思就是说，即使你像BLip，VLMO，BEiT-3，这种模型它可以像积木一样，你想做什么任务，你就去拼出来你想要的模型，然后你再去fine tune得到你想要的结果。这个还是不够统一，它不是真正意义上的unified framework，它只是更灵活的把很多模型给拼到一起了，那真正unified，真正大一统的框架到底应该长什么样？当然有很多思路了，其中一个，如说微软的metaLM，还有Google的这个PaLI。他们称模型就是一个encoder decoder，然后有图像的输入，有文本的输入，但是至于这个模型，不论是在预训练的时候，还是在下游任务的时候做什么，完全是由文本那边的prompt决定。它的输出，永远都是文字，就不论你是什么任务，它的输出都是文字，它是一个text generation task。然后这个时候，如果你做VQA，那你的文本，就说我现在在做VQA，这是我的问题，然后你，就生成一个答案给我。那如果你现在是在做图像分类，那你就把图像给他，然后文本那边，你就告诉他prompt说我现在在做分类，然后这时候，他就会把这个图像的这个label，直接给你生成出来，它不是0123456这种label了，它直接就生成，这是狗还是猫，就是这种带有语义的词了，所以就是text generation。它通过调整各种各样的prompt，也就是这里说的这个language interface，就只需要调整的language，那这个模型，就知道你在做什么任务，然后就会给出相应的这个文本的输出，然后来告诉你答案。那在这个意义下？这个模型真的是很少被改动，所以算得上是一个unified framework。

另外，还有一系列工作，最近也是非常的火热，叫做generalist model，翻译过来，可能就叫通才模型，或者通用模型。它也是一个意思，就是说不论是在训练的时候，还是在做下游任务的时候，我都想用一个模型，直接训练好之后做就完了，我不想在根据这个下游任务再去调整我的模型结构，或者再给它加一个task specific head，比如说分类头，检测头，分割头这种。那最近也有一些工作，比如说这个unified-IO，还有Uni-Perceiver v2。虽然说这一系列工作，暂时看起来，它的性能还没有那么的炸裂，那么的好，但是我觉得，在现在这个卷的速度之下，可能也就是今年的NeurIPS，就会出来一系列这种generalist model，不仅模型简单，而且效果，应该也能够超过之前的那种task specific模型。

https://arxiv.org/pdf/2208.10442.pdf

多模态论文串讲·下【论文精读·49】_哔哩哔哩_bilibili

C++系列（十）：面向对象编程终极指南！从封装到多态，彻底掌握类与对象的核心奥秘傅里叶的耶 C++语言系列（教程 +实战）c++类和对象
引言面向对象编程（OOP）是现代软件开发的核心范式，C++通过封装、继承和多态三大特性提供了强大的面向对象能力。这些特性使代码更易维护、扩展和复用，是构建复杂系统的基石。本章将深入探讨C++类和对象的方方面面，从基础封装到高级多态应用，帮助您掌握面向对象编程的精髓。最后，如果大家喜欢我的创作风格，请大家多多关注up主，你们的支持就是我创作最大的动力！如果各位观众老爷觉得我哪些地方需要改进，请一定在
MCP Streamable HTTP 样例（qbit） pythonagent
前言模型上下文协议（ModelContextProtocol，MCP），是由Anthropic推出的开源协议，旨在实现大语言模型与外部数据源和工具的集成，用来在大模型和数据源之间建立安全双向的连接。本文代码技术栈Python3.11.8FastMCP2.10.3MCP的传输机制StandardInput/Output(stdio)StreamableHTTPServer-SentEvents(SS
2025 轻松部署 ERPNext linux
在数字化转型浪潮不断推进的2025年，企业对高效、灵活的企业资源计划（ERP）系统需求日益增长。作为一款开源且功能全面的ERP系统，ERPNext以其模块化、易用性和强大的自定义能力，受到越来越多中小企业的青睐。然而，部署ERPNext仍然是许多企业信息化过程中的一大挑战。本文将介绍如何借助云平台实现快速、轻松、安全地部署ERPNext系统。什么是ERPNext？ERPNext是一个开源的ERP系
从零开始：构建支持上下文窗口的AI原生应用实战指南 AI天才研究院 AI人工智能与大数据 AI-native ai
从零开始：构建支持上下文窗口的AI原生应用实战指南关键词：大语言模型（LLM）、上下文窗口、AI原生应用、token管理、对话状态保持、向量检索、记忆压缩摘要：本文从AI原生应用的核心需求出发，系统讲解支持上下文窗口的应用构建全流程。通过解析上下文窗口的技术本质、关键挑战及解决方案，结合Python代码实战和真实场景案例，帮助开发者掌握从需求分析到落地部署的完整方法。内容涵盖上下文窗口管理策略、t
EgoAlpha/prompt-in-context-learning项目解析：Prompt Engineering核心技术指南霍日江Eagle-Eyed
EgoAlpha/prompt-in-context-learning项目解析：PromptEngineering核心技术指南prompt-in-context-learningAwesomeresourcesforin-contextlearningandpromptengineering:MasteryoftheLLMssuchasChatGPT,GPT-3,andFlanT5,withup-
检索增强生成(RAG)技术演进：从论文到工业级应用 AGI大模型与大数据研究院 AI大模型应用开发实战 ai
检索增强生成(RAG)技术演进：从论文到工业级应用关键词：RAG、检索增强生成、大语言模型、知识检索、工业应用、技术演进、AI系统架构摘要：本文深入探讨检索增强生成(RAG)技术从学术研究到工业应用的完整演进历程。我们将从基础概念出发，逐步解析RAG的核心原理、架构设计、实现细节和优化策略，并通过实际案例展示如何构建高效可靠的工业级RAG系统。文章还将分析当前技术挑战和未来发展方向，为读者提供全面
手机FunASR识别SIM卡通话占用内存和运行性能分析
手机FunASR识别SIM卡通话占用内存和运行性能分析--本地AI电话机器人上一篇：手机无网离线使用FunASR识别SIM卡语音通话内容下一篇：手机通话语音离线ASR识别商用和优化方向一、前言书接上一文《阿里FunASR本地断网离线识别模型简析》，我们其实在2023年底的时候输出过一版基于离线FunASR的ASR转文字方案。当时为了减少模型文件的数量和大小，只引入了【vad_res】、【asr_o
颠覆人机交互！多模态 AI Agents 大模型如何用 5 大模式开启智能新时代？
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】文章目录GPT多模态大模型与AIAgent智能体系列七颠覆人机交互！多模态AIAgents大模型如何用5大模式开启智能新时代？一、从“单一感知”到“多模态融合”：A
深入剖析开源AI阅读器项目Saga Reader基于大模型的文本转换与富文本渲染优化方案魑魅丶小鬼人工智能
引言AI阅读器作为一种新型的内容消费工具，正在改变人们获取和处理信息的方式。本文将介绍SagaReader项目中如何利用大型语言模型(LLM)进行网页内容抓取、智能优化和富文本渲染，特别是如何通过精心设计的提示词(prompt)引导LLM生成样式丰富的HTML内容，提升用户阅读体验。关于SagaReader基于Tauri开发的著名开源AI驱动的智库式阅读器（前端部分使用Web框架），能根据用户指定
实操 SpringBoot+MCP！清风孤客 spring boot 后端 java 人工智能
引言随着人工智能的飞速发展，大语言模型(LLM)正在革命性地重塑用户与软件的交互范式。想象一下这样的场景：用户无需钻研复杂的API文档或者在繁琐的表单间来回切换，只需通过自然语言直接与系统对话——“帮我查找所有2023年出版的图书”、“创建一个新用户叫张三，邮箱是[email protected]”。这种直观、流畅的交互方式不仅能显著降低新用户的学习曲线，更能大幅削减B端系统的培训成本和实施
【SpringBoot】Spring Boot 高并发优化终极指南，涵盖线程模型、JVM 调优、数据库访问、缓存策略等 15+ 核心模块夜雨hiyeyu.com java spring boot jvm spring java 后端性能优化系统架构
SpringBoot高并发优化终极指南，涵盖线程模型、JVM调优、数据库访问、缓存策略等15+核心模块一、线程模型深度调优（核心瓶颈突破）1.Tomcat线程池原子级配置2.异步任务线程池隔离策略二、JVM层终极调参（G1GC深度优化）1.内存分配策略2.GC日志分析技巧三、缓存策略原子级优化1.三级缓存架构实现2.缓存穿透/雪崩防护四、数据库访问极致优化1.连接池死亡参数配置2.分页查询深度优化
如何学习智能体搭建
如何学习智能体搭建前言随着人工智能的发展，智能体（Agent）成为自动化、交互式应用和自主决策系统中的核心角色。本书将从零基础出发，系统讲解智能体的基本原理、常见框架、实战搭建与进阶技巧，帮助你快速上手并应用于实际项目。目录智能体基础认知智能体的核心组成主流智能体开发框架本地智能体与云端智能体选型智能体的任务自动化与插件集成智能体的知识检索与上下文管理智能体的多模态扩展智能体安全与可控性智能体实战
VIT视觉妄想成为master opencv 目标检测机器学习数据挖掘语音识别人工智能计算机视觉
VisionTransformer视觉和语言(Vision-Language)NLPrompt:Noise-LabelPromptLearningforVision-LanguageModelsPaper:https://arxiv.org/abs/2412.01256Code:GitHub-qunovo/NLPromptPhysVLM:EnablingVisualLanguageModelsto
前端面试的话术集锦第 25 篇博文——CSS面试题上互联网全栈开发实战面试专栏-前端后端面试前端面试 css 跳槽职场和发展职场发展求职招聘
这是记录前端面试的话术集锦第二十五篇博文——CSS面试题上，我会不断更新该博文。❗❗❗1.介绍一下标准的CSS的盒子模型？与低版本IE的盒子模型有什么不同的？标准盒子模型：宽度=内容的宽度(content)+border+padding+margin低版本IE盒子模型：宽度=内容宽度(content+border+padding)+margin2.box-sizing属性用来控制元素的盒子模型的解
云成本优化的核心原则与框架极客奇点云服务降本增效云计算成本优化 FinOps 降本增效
一、引言：云成本失控的挑战据Flexera2022年报告，全球企业32%的云支出被浪费，主因包括资源闲置、配置超配、缺乏成本可见性等。面对此现状，FinOps（财务运营）作为云成本管理的核心框架，通过“成本可视-分配-优化”闭环，成为企业降本增效的关键手段。二、FinOps核心理念与三支柱框架FinOps的本质是打破财务、技术、业务的壁垒，建立数据驱动的成本治理文化。其框架由三大支柱构成：┌───
3DXML 转换为 SOLIDWORKS 技术指南：含迪威模型网在线转换方案
在工业设计协同工作中，不同CAD软件的文件格式转换是常见需求。3DXML作为DassaultSystèmes旗下CATIA软件的轻量型三维数据格式，因体积小、便于传输，被广泛用于模型预览和跨平台共享。但当需要在SOLIDWORKS中进行深入设计或工程分析时，需将3DXML格式转换为SOLIDWORKS兼容格式。本文将为技术人员和学生详细介绍转换全流程，并推荐实用的在线转换平台——迪威模型网。一、3
【Python进阶】Python网络协议与套接字编程：构建客户端和服务器
1、网络通信基础与网络协议1.1网络通信模型概述网络通信是信息时代基石，它如同现实世界中的邮递系统，将数据从一处传递到另一处。其中，OSI七层模型与TCP/IP四层或五层模型是理解和构建网络通信的基础。1.1.1OSI七层模型与TCP/IP四层/五层模型OSI（开放系统互连）参考模型提出了七层结构，从物理层到应用层，每一层都有其特定的功能和职责，例如物理层关注的是信号如何在介质上传输，而应用层则处
【Flask】问题RuntimeError: A ‘SQLAlchemy’ instance has already been registered on this Flask app的处理方法 Tzq@2018 #flask flask
【Flask】RuntimeError:A‘SQLAlchemy’instancehasalreadybeenregisteredonthisFlaskapp.Importandusethatinstanceinstead.一、解决方案1.1、单例模式管理SQLAlchemy实例1.2、正确初始化应用1.3、模型文件中使用全局实例二、错误原因分析三、完整正确代码示例四、关键注意事项五、替代方案：延
服务间远程调用 tomorrow.hello 架构网络服务器运维
1.协议分层模型通信协议通常按照分层模型进行设计，常见的分层模型包括OSI七层模型和TCP/IP四层模型。OSI七层模型包括应用层、表示层、会话层、传输层、网络层、数据链路层和物理层；而TCP/IP四层模型则包括应用层、传输层、网络层和网络接口层‌。每个层次都有其特定的功能和职责，确保数据的完整传输和错误处理。2.传输协议传输协议主要包括TCP、UDP、HTTP、HTTPS、FTP、SMTP、SS
AI驱动的个人工作革命：基于DeepSeek构建全场景智能工作助理（含源代码+多应用场景） AI_DL_CODE DeepSeek深度应用人工智能 DeepSeek 个人智能助理 LangChain 任务自动化知识管理大模型应用
摘要：本文详细阐述基于DeepSeek大模型构建个人工作助理的完整技术方案，通过LangChain实现任务分解、知识检索与工具调用的智能协同。方案融合向量数据库、多模态交互与个性化学习算法，构建涵盖邮件处理、会议管理、文档生成等15大核心工作场景的自动化系统。文中提供可运行代码、完整部署指南及效能测试数据，实现邮件处理效率提升13倍、会议纪要生成时间缩短100%、任务安排错误率降低83%的显著优化
构建你的AI应用开发平台：如何在Ubuntu上使用Docker部署Dify kaixin_啊啊商业合作 cpolar 人工智能 ubuntu docker
文章目录前言1.Docker部署Dify2.本地访问Dify3.Ubuntu安装Cpolar4.配置公网地址5.远程访问6.固定Cpolar公网地址7.固定地址访问前言本文主要介绍如何在LinuxUbuntu系统使用Docker快速部署大语言模型应用开发平台Dify,并结合cpolar内网穿透工具实现公网环境远程访问本地Dify服务！Dify是一款开源的大语言模型(LLM)应用开发平台。它融合了后
[特殊字符] AlphaGo：“神之一手”背后的智能革命与人机博弈新纪元大千AI助手人工智能 Python #OTHER 人工智能算法数据挖掘机器学习 alphago google 围棋
从围棋棋盘到科学前沿的通用人工智能范式突破本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与历史意义AlphaGo是由谷歌DeepMind团队开发的围棋人工智能程序，其里程碑意义在于：首破人类围棋壁垒：2016年以4:1击败世界冠军李世石九段，成为首个在完整对局中战胜人类顶尖棋手的AI。
隐马尔可夫模型（HMM）：观测背后的状态解码艺术大千AI助手人工智能 Python #OTHER 数据挖掘人工智能机器学习算法 HMM 马尔科夫概率论
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心概念：双重随机过程隐马尔可夫模型（HiddenMarkovModel,HMM）是一种通过可观测序列推断隐含状态序列的概率图模型，包含两个核心随机过程：隐含状态链：不可观测的马尔可夫过程${q_t}$P(qt∣qt−1,qt−2,…,q1)=P(
【目标检测】Yolov7 的 ELAN 和 E-ELAN 模块演进（涉及到分组卷积，cardinality，梯度路径） Jiangnan_Cai 深度学习目标检测 YOLO 人工智能
感觉从YOLOv6开始，YOLOv6系列感觉优化点都着重于推理速度上面，YOLOv6的RepBlock重参数化，给我的感觉就是算子融合进行加速。而YOLOv7，为了在各种架构的边缘设备上获得极致的推理速度。YOLOv7的工作：新的bagoffreebies（有效的训练技巧，不会增加推理的计算量）有规划的重参数化模型（不同边缘设备架构，不同的重参数化方法）新的动态标签分配方法为了更好的理解YOLOv
threejs的transformControls拖拽结束的异常
transformControls拖拽结束以后会以结束点的射线拾取重新选中新的模型，这里发现是监听事件的问题//创建TransformControlsconsttransformControls=newTransformControls(camera,renderer.domElement);consttransformControlsHelper=transformControls.getHel
量化价值投资中的深度学习技术：TensorFlow实战
量化价值投资中的深度学习技术：TensorFlow实战关键词：量化价值投资,深度学习,TensorFlow,股票预测,因子模型,LSTM神经网络,量化策略摘要：本文将带你走进"量化价值投资"与"深度学习"的交叉地带，用小学生都能听懂的语言解释复杂概念，再通过手把手的TensorFlow实战案例，教你如何用AI技术挖掘股票市场中的价值宝藏。我们会从传统价值投资的痛点出发，揭示深度学习如何像"超级分析
MBSE 深度解析，基于模型的系统工程北城笑笑软件工程硬件工程
目录前言一、基础概述1.1中文全称与基本定义1.2MBSE的起源与背景1.2.1提出的背景与动因1.2.2MBSE的思想萌芽1.3MBSE与传统工程的区别二、发展历程2.1MBSE的演进阶段2.1.1探索期（2000年以前）2.1.1定义期（2000–2010年）2.1.1应用期（2010–2020年）2.1.1智能融合期（2020年至今）2.2主流建模语言与标准2.2主流建模语言与标准2.2.1
【人工智能】Spring AI Alibaba，一个面向 Java 开发者的开源框架，它旨在简化将人工智能（AI）功能集成到应用程序中的过程。本本本添哥 A -AIGC 人工智能大模型人工智能 java spring
一、SpringAIAlibaba介绍SpringAIAlibaba是一个面向Java开发者的开源框架，它旨在简化将人工智能（AI）功能集成到应用程序中的过程。该项目基于SpringAI构建，并且是阿里云通义系列模型及服务在JavaAI应用开发领域的最佳实践。SpringAIAlibaba的目标是为开发者提供一套高层次的AIAPI抽象以及与云原生基础设施的深度集成方案，从而帮助他们快速构建智能应用
模型融合与人机协同：构建人机共生的智能未来 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍在科技日新月异的今天，人工智能（AI）已经成为了我们生活中不可或缺的一部分。从智能手机，到自动驾驶汽车，再到医疗诊断，AI的应用已经渗透到了我们生活的方方面面。然而，尽管AI的发展已经取得了显著的成就，但是我们仍然面临着一个重大的挑战：如何让AI系统更好地理解和适应人类的需求，以实现人机共生的智能未来。为了解决这个问题，越来越多的研究者开始探索模型融合和人机协同的方法。2.核心概念与联
穿越SaaS迷雾：从工具到智能体，国内垂直SaaS的“阵痛”与“新生”
——在增长与亏损的悖论中，一场由AI驱动的“大洗牌”正悄然上演引言：每个SaaS创始人的“冰与火之歌”每个投身国内SaaS（软件即服务）创业的创始人，心中或许都吟唱着一首“冰与火之歌”。“火”的一面，是资本的热捧、数字化转型的时代浪潮，以及那条陡峭诱人的ARR（年度经常性收入）增长曲线。根据相关调研报告，2023年中国企业级SaaS市场规模已达888亿元，其中垂直行业SaaS的占比正从35%攀升至
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &

51-13 多模态论文串讲—BEiT v3 论文精读

你可能感兴趣的:(AutoGPT,自动驾驶大模型,transformer,自动驾驶,智慧城市,人工智能,gpt-3)