weixin_42653320

2019：Answer Them All! Toward Universal Visual Question Answering Models

摘要

视觉问题回答(VQA)研究分为两个阵营：第一个关注需要自然图像理解的VQA数据集，第二个关注测试推理的合成数据集。一个好的VQA算法应该同时能够实现，但只有少数VQA算法用这种方法进行测试。我们比较了在覆盖这两个领域的8个VQA数据集上的五种最先进的VQA算法，为了使比较公平，所有的模型都尽可能地标准化了，例如，它们使用相同的视觉特征、答案词汇等。我们发现这些方法并不能推广到这两个领域。为了解决这个问题，我们提出了一种新的VQA算法，它可以在这两个领域上竞争或超过最先进的算法。

一、介绍

正确回答这些问题需要很多能力，包括对象定位、属性检测、行为分类、场景理解、推理、计数以及更多。很多表现好的算法仅仅利用了偏见和表面相关性，之后的自然图像数据集试图解决此问题，VQA v2通过对每个问题加入互补图像和不同的答案减少了一定的语言偏见；TDIUC分析了多种问题和很少答案的泛化；CVQA测试了概念组合性；VQA CP v2测试了当训练和测试分布不同时的表现。

虽然之后的自然图像数据集减少了偏见，但这里的绝大多数问题没有严格测试推理技能。创建了几个合成数据集作为一种补救措施，它们包含有着挑战性问题，即能测试多步推理、计数和逻辑推理的简单视觉场景。为正确评估算法的鲁棒性，这些数据集的创建者认为算法应该在两个领域内测试。

然而，几乎所有最近的论文只报告了在一种领域上的表现，CLEVR上的最佳算法没有在自然图像VQA数据集上测试，反之亦然。我们在八个数据集上测试了五种最先进VQA系统，发现大多方法并没有在两个领域内表现好(图1)。我们提出一种新模型，在所有的评估数据集上竞争最先进的模型。

主要贡献：（1）在8个数据集上对五种最先进算法严格比较，发现许多算法并不能跨领域进行推广。（2）VQA算法通常使用不同的视觉特征和答案词汇，使很难评估性能提高，我们努力标准化跨模型的组件，如使用相同视觉特征比较所有算法，这需要提高合成场景的方法来使用区域建议。（3）大多VQA算法在泛化测试中的表现很差，表明这些方法仍然在利用数据集偏见。（4）我们描述了一种新的算法，在所有数据集上与最先进的方法媲美，总体表现最好。

二、相关工作

VQA数据集的统计数据如下。

VQA v1数据集有多种语言偏见，如一些问题与特定答案严重相关，VQAv2存在其它语言偏见，如推理问题与检测问题相比比较罕见。TDIUC尝试将问题分为12种类型，有评估问题类型泛化的指标。CVQA重新分割VQAv1，以测试训练集中未见过的概念组成的泛化，测试了以看不见的方式组合以前看到的概念能力。VQA-CPv2重新组织了VQAv2，每种问题类型的答案分布在训练和测试中不同。CLEVR是一个合成数据集，包含简单几何形状的视觉场景，旨在测试合成语言和基本的视觉推理，其中的问题通常需要长链的复杂推理，其中问题被分为五个任务：查询属性、比较属性、存在、计数和整体比较，所有的问题都通过编程生成，所以创建CLEVR-Humans是为提供人类生成的问题，以测试对自由形式问题的泛化。 CLEVR-CoGenT测试了处理看不见的概念组合和记住旧的概念组合的能力，分为CoGenT-A和CoGenT-B，具有相互排斥的形状+颜色组合，如果在CoGenT-A上训练的模型在没有微调的情况下在CoGenT-B上表现良好，它表明了对新组成的泛化，如果在CoGenT-B上进行微调的模型在CoGenT-A上仍然表现良好，这表明它能够记住旧的概念组合，这些数据集中的问题比CVQA中的大多数问题更为复杂。

三、RAMEN VQA模型

我们提出了VQA的多模态嵌入网络的循环聚合模型（RAMEN），它被设计为一个概念上的简单架构，它可以适应自然场景的复杂性，也能够回答需要复杂的组合推理的问题，这些问题出现在像CLEVR这样的合成数据集中。如图2所示，RAMEN分三个阶段处理视觉和问题特征：

1.视觉和语言特征的早期融合：视觉和语言特征之间的早期融合和/或使用语言对视觉特征的早期调节已被证明有助于组合推理。受这些方法的启发，我们提出了通过空间局部视觉特征与问题特征的早期融合。

2. 通过共享投影来学习双模态嵌入：连接的视觉+问题特征通过共享网络传递，产生空间局部的双模态嵌入。这一阶段可以帮助网络学习视觉和文本特征之间的相互关系。

3. 学习到的双模态嵌入的循环聚合：我们使用双向门控循环单元bi-GRU)聚合整个场景的双模态嵌入，以捕获双模态嵌入之间的相互作用。最后的向前和向后状态基本上需要保留回答这个问题所需的所有信息。

虽然最近最先进的自然图像VQA模型使用注意力或双线性池机制，但RAMEN能够在没有这些机制的情况下执行比较性的性能。同样地，与最先进的CLEVR模型相比，RAMEN没有使用预定义的模块或推理细胞，但我们的实验证明了它能够进行组合推理。

3.1 形式模型定义

RAMEN的输入是一个问题嵌入q和一组N区域建议ri，每个ri表示视觉外观特征和空间位置。RAMEN首先聚合每个建议和问题向量，然后进行批归一化：

然后将所有N个ci向量通过一个函数F(ci)，该函数混合特征产生一个双模态嵌入bi=F(ci)，其中F(ci)使用具有残余连接的多层感知器(MLP)建模。

接下来，我们通过将每个双模态嵌入与原始问题嵌入连接起来，并聚合集合，使用：

其中，函数A使用bi-GRU建模，A的输出由正向和向后GRU的最终状态的连接组成。我们将a称为RAMEN嵌入，然后发送到一个预测答案的分类层。虽然RAMEN比最近的VQA模型更简单，但我们证明，与更复杂的模型不同，RAMEN在不同的数据集之间具有竞争力。

3.2 实现细节

输入表示：问题词由预训练过的GloVe向量初始化为300维嵌入，通过GRU处理获得一个1024维问题嵌入；每个区域建议由视觉特征连接空间信息组成，视觉特征由基于Faster R-CNN的bottom-up结构产生的2048维CNN特征，空间信息是每个区域或分为16*16的(x,y)坐标网格，然后将其扁平形成一个512维向量。

模型配置：投影函数F被建模为一个4层的MLP，具有1024个单元，具有旋转的非线性激活函数，它在第2、第3和第4层有残余连接。聚合器A是一个单层具有1024维隐藏状态的bi-GRU，因此前向和后向状态的连接产生了一个2048维的嵌入，这种嵌入通过一个2048维的全连接的交换层进行投影，然后是一个输出分类层，在数据集中每个可能的答案有一个单元。

四、VQA模型评估

UpDn：使用bottom-up机制生成来自Faster RCNN的对象建议，top-down机制预测这些建议的注意力分布，使用问题预测图像区域的注意力权重。

问题条件图(QCG)：将图像表示为图，其中来自bottom-up区域建议的对象级特征作为节点，编码问题为条件的区域之间的交互作为边。对于每个节点，QC-Graph选择了一个边连接最强的节点的邻域，从而产生一个问题特定的图结构。该结构由一个补丁算符进行处理，以执行空间图卷积。选择这个模型背后的主要动机是检验所提出的图表示和操作对组合推理的有效性。

双线性注意力网络(BAN)：通过考虑所有区域建议（视觉通道）与所有问题单词（文本通道）之间的交互作用来融合视觉和文本模式。与双注意机制不同，BAN处理所有通道之间的相互作用。它可以被认为是低秩双线性池化方法的一种推广。在VQA v2的test-std分割上实现70.35%的注意力，是已发表的最佳结果之一。

关系网络(RN)：将每一对区域建议，嵌入它们，并总结所有的N2对嵌入，以产生一个编码对象之间关系的向量。这种成对的特征聚合机制支持组合推理，然而，RN的计算复杂度随着对象数量的增加而二次增加，使得当对象数量较大时运行成本昂贵。最近有人尝试通过减少输入给RN[35,2]的输入对象的数量来减少成对比较的数量。

记忆、注意力和组合(MAC)网络：使用自动学习执行基于注意力的推理的计算单元。与模块化网络[7,18,8]需要预定义的模块来执行预先指定的模块推理功能不同，MAC直接从数据中学习推理机制，每个MAC单元维护表示推理操作的控制状态和作为推理操作的结果的内存状态。它有一个类似计算机的架构，具有读、写和控制单元。在CLEVR数据集上对MAC进行了评估，并报告了具有挑战性的计数和数值比较任务的显著改进。

4.1 标准化模型

为对模型公平比较，我们对所有算法所有数据集使用同样的视觉特征，具体使用具有一个ResNet-101后端的Faster R-CNN模型的区域建议生成器产生的2048维bottom-upCNN特征，将建议数量固定在36个。

保持兼容性：UpDn，QCG和BAN都是针对区域建议进行运作的，对于MAC和RN，我们需要修改输入层来接受bottom-up特征，而不是卷积特征图。对于MAC，我们用bottom-up特征的线性投影来代替初始的二维卷积运算，对于RN，我们移除了初始的卷积网络，并直接连接了以问题嵌入为输入的bottom-up特征。在这些变化后，两种模型的性能可与使用学习到的卷积特征图作为输入的版本相比较，在CLEVR验证集上，MAC达到98%，RN达到95.97%。

五、实验和结果

5.1 主要结果

本节我们演示了当前VQA算法无法推广到自然和合成的数据集中，并表示RAMEN在所有数据集上表现最好。我们还对所有六种算法的偏见性、组合性和泛化性进行分析。表2提供在所有八个数据集上的六种算法的主要结果。在CLEVR数据集使用简单准确率，TDIUC上平均类型，在VQA v1、VQA v2、CVQA和VQACPv2上10-choose-3。图3给出了RAMEN与其它模型相比的一些例子。

跨VQA数据集的泛化：RAMEN在TDIUC和CVQA上效果最高，是VQAv1、VQAv2、VQACPv2、CVQA和所有的CLEVR数据集上效果第二好的模型，平均而言、它在数据集上得分最高，表明它可以在自然数据集和测试推理的合成数据集上进行泛化。BAN的平均得分次高，BAN适用于自然图像数据集，在VQAv1、VQAv2和VQACPv2上优于其他模型，然而，BAN表现出的组合推理能力有限。尽管RABEN在概念上比BAN简单的多，但在CLEVR上的表现超过BAN6%，在CLEVR-CoGenT-B上高出10%。在所有的组合推理测试中，RAMEN都在MAC的1.4%以内。UpDn和QCG在CLEVR上表现不佳。

跨问题类型的泛化：我们使用TDIUC来研究问题类型的泛化。TDIUC有多个精度度量，mean-per-type(MPT)和归一化mean-per-type(N-MPT)补偿偏见。如表3所示，所有方法的简单准确率都超过82%，然而，MPT和NMPT的得分都低了13-20%，较低的MPT分数表明，所有的算法都在努力推广到多个任务。RAMEN的MPT最高，其次是BAN。对于所有的算法，“对象存在”、“对象识别”和“场景识别”是最简单的任务，所有方法的准确率都超过84%；然而，这些任务都有相对大量的训练数据(各有60K-657KQA对)，所有方法在“运动识别”(31KQA对)上均表现良好，准确率超过93%，但在概念上相似的“活动识别”任务(8.5KQA对)上均表现不佳，准确率低于62%。这表明了无法用较少的例子泛化到问题类型。为了强调这一点，TDIUC提供标准化MPT(N-MPT)通过考虑答案频率来衡量对罕见答案的泛化。对于所有模型，标准化和非标准化分数之间的差异都很大，RAMEN的差距最小，表明RAMEN最能抵抗分布偏差，而BAN的差距最大。

新概念组合的泛化：我们使用CVQA和CLEVR-CoGenT-B来评估概念的组合性。如表2所示，CVQA上的分数低于VQAv1，这表明所有的算法在以新的方式组合概念时都很困难。MAC的性能下降最大，这表明它的推理单元不能有效地组成真实世界的视觉语言概念。

为了评估在合成数据集上推广到新概念组成的能力，我们在CLEVR-CoGenT-A的训练分割上训练模型，并在没有微调的情况下对验证集进行评估。在[44]之后，我们从“B”的验证集中获得一个测试分割，并在“B”上没有微调的情况下报告性能。所有算法的性能都有大幅下降。与CVQA的结果不同，MAC的性能下降更小。同样，RAMEN的性能下降幅度相对较小。

在VQACP v2的变化先验的性能：所有算法在变化先验下的性能都有很大下降，表明，要使VQA算法克服语言和视觉先验，还有很多的工作要做。

计数和数值比较：对于CLEVR，计数和数字比较（“等于整数”、“大于”和“小于”）是跨算法中最具挑战性的任务，如表4所示。MAC在这些任务上表现最好，其次是RAMEN。除了MAC和QCG之外的算法显示了“小于”和“大于”问题类型之间存在很大的（>4.8%）差异，这需要类似的推理类型。这种差异在RN中最为明显（9.13%），表明在语言理解方面存在困难。BAN使用一个计数模块[54]；然而，它在CLEVR的计数任务上的性能仍然比MAC低9%。所有的算法也都难以在自然图像中进行计数。尽管TDIUC有超过164K的计数问题，但所有方法在这些问题上的得分都低于62%。

其它的CLEVR任务：如表4所示，除数字比较外，RAMEN在所有任务上的表现与MAC相比都在0.03-1.5%以内。UpDn和QCG是在所有查询类型上性能最差的模型。除了QCG之外，所有的模型都发现它很容易回答关于对象属性和存在性的查询。除了UpDn和QCG之外的模型在需要比较这些属性的属性比较问题上表现良好。令人惊讶的是，BAN找到了属性比较，这需要更多的推理，比更简单的属性查询任务更容易。我们在没有微调的情况下展示了CLEVR-Humans上的结果，以检验如果算法只在CLEVR的词汇表上进行训练，它们处理自由形式语言的效果。BAN的泛化效果最好，其次是RAMEN和RN。

5.2 消融研究

表5给出了几种测试RAMEN成分贡献的消融研究的结果。我们发现，早期融合对RAMEN的性能至关重要，去除它会导致CLEVR的准确率下降近20%，而VQAv2的准确率下降近4%。去除晚期融合对CLEVR和VQAv2影响不大。

我们还探索了与使用平均池相比于使用bi-GRU用于聚合的效用，并发现这导致了两个数据集的性能下降。我们认为，循环聚合有助于捕获双模态嵌入之间的交互作用，这对推理任务至关重要，而且它还可以通过执行一种非最大抑制的形式来帮助删除重复建议。

5.3 更新的模型

通过设计的透明度网络(TBD)通过使用地面真实函数程序来训练网络，在CLEVR上实现了99.1%的精度，对自然的VQA数据集是不可用的。神经符号VQA(NS-VQA)在CLEVR上的得分为99.8%，但使用问题解析器来分配功能模块和高度专门基于分割的CNN特征，他们没有进行消融研究来确定这些视觉特征的影响。我们比较的所有模型都不能访问这些额外的资源。

通过使用来自其它VQA数据集的额外数据和集成，在VQAv2上的结果可以显著改善，例如2018年挑战的获胜者使用了来自VisualDialog[11]的对话作为额外的问答对和30个模型的集合。这些增强功能可以应用于我们评估的任何模型，以提高性能。VQACPv2的结果也可以使用专门的架构进行改进，例如使用对抗性正则化[46]的GVQA[4]和UpDn。然而，它们在VQACPv2上的性能仍然很差，采用对抗性正则化的UpDn的准确率达到42.04%，比非正则化模型仅提高了2.98%。

六、讨论：一个模型可以统治他们的全部吗

我们进行了第一个系统的研究，以检验在合成数据集上工作的VQA系统是否推广到真实数据集，反之亦然。这是我们项目的最初范围，但当我们发现没有一种方法在数据集上有效时，我们感到震惊。这促使我们创建一个新的算法，尽管RAMEN比许多算法更简单，但拉面可以竞争甚至超过其他方法。我们认为，一些最先进的架构可能被过度设计，利用了它们最初测试的领域中的偏差，导致在其他数据集上测试时的性能下降。这导致我们质疑，在一个特定的数据集上使用高度专门的机制是否会导致该领域取得重大进展，因为我们概念上更简单的算法在没有这种机制的自然和合成数据集上都具有竞争力。

我们提倡开发一个单一的VQA模型，它在广泛的挑战中表现得很好。在持续学习范式中训练该模型将评估前向和后向转移[17,27,42]。另一个有趣的方法是将VQA与视觉查询检测[1]等相关任务相结合。无论如何，现有的算法，包括我们的算法，在展示视觉语言概念的理解和推理方面还有很长的路要走。从CVQA和VQACPv2上的大幅性能下降可以证明，目前的算法在学习成分概念方面表现很差，并且受到这些数据集的偏差的影响，这表明依赖于表面相关性。我们观察到，仅为合成的封闭世界场景开发的方法往往无法处理不受约束的自然图像和问题。尽管VQAv2和CLEVR的性能在这些基准测试上正接近人类水平，但我们的结果显示VQA还远未得到解决。我们认为，未来的工作应该集中于创建一个跨领域工作良好的模型。在一个通用的训练集上训练一个数据集，然后在多个测试集上评估它将是很有趣的，每个测试集要求不同的技能集。这样做将有助于寻找一个能够控制它们全部的VQA模型。

七、结论

我们的工作努力为VQA算法的期望设定一个新的标准：在自然场景中的良好性能和具有挑战性的综合基准测试。我们希望我们的工作将带来VQA未来的进步。

支持生成式 AI：聊天与文档检索的结合 drebander AI 编程人工智能 springAI
生成式AI已成为现代应用的重要组成部分，从实时聊天到文档检索，再到智能问答系统，其核心是能够理解上下文并生成有用的回答。在生成式AI中，聊天会话内存（ChatConversationMemory）和检索增强生成（RAG,RetrievalAugmentedGeneration）是两个关键功能，分别解决了上下文管理和大规模文档检索问题。本文将介绍SpringAI如何支持这两个功能，并通过实际应用场景
目标检测算法以及常用库概述 YOLO大师目标检测算法人工智能
YOLO目标检测创新改进与实战案例专栏专栏目录：YOLO有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLO基础解析+创新改进+实战案例目标检测是在图像中发现并识别物体的过程，它是深度学习和图像处理领域的重要成果之一。在创建物体定位时，识别物体时，常见的一种方法是使用边界框。这种方法具有很高的通用，可以训练目标检测模型来识别和检测多个特
基于CNN+Transformer混合模型实现交通流量时序预测(PyTorch版) 矩阵猫咪 cnn transformer pytorch 卷积神经网络深度学习
前言系列专栏:【深度学习：算法项目实战】✨︎涉及医疗健康、财经金融、商业零售、食品饮料、运动健身、交通运输、环境科学、社交媒体以及文本和图像处理等诸多领域，讨论了各种复杂的深度神经网络思想，如卷积神经网络、循环神经网络、生成对抗网络、门控循环单元、长短期记忆、自然语言处理、深度强化学习、大型语言模型和迁移学习。随着城市化进程的加速，交通流量预测成为城市交通管理与规划中的关键任务。准确的交通流量预测
大语言模型应用指南：OpenAI大语言模型简介 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型应用指南：OpenAI大语言模型简介1.背景介绍1.1问题的由来在过去几年中,自然语言处理(NLP)领域取得了长足的进步,这主要归功于大型语言模型(LargeLanguageModels,LLMs)的出现和发展。LLMs是一种基于深度学习的人工智能模型,能够从大量文本数据中学习语言模式和语义关系,从而生成看似人类写作的自然语言输出。随着计算能力和数据可用性的不断提高,LLMs的规模也在不
一、深度学习的基本介绍关关钧深度学习深度学习人工智能神经网络
机器学习的基本步骤：前馈运算、反向传播计算梯度、根据梯度更新参数值。一、定义及基本概念深度学习，就是一种利用深度人工神经网络来进行自动分类、预测和学习的技术。它可以从海量的数据中自动学习，找寻数据中的特征。所以说，它的本质就是自动提取特征的能力。可以说，深度学习就等于深度人工神经网络。一般认为超过三层的神经网络就可以叫做深度神经网络。深度学习属于一种特殊的人工智能技术。反向传播算法：此算法是人工神
# AI绘图中的Embedding、CLIP、Flux中的Clip与LCM SDXL加速生成解析迪小莫学AI 人工智能 embedding
AI绘图中的Embedding、CLIP、Flux中的Clip与LCMSDXL加速生成解析在现代AI绘图和深度学习中，涉及了多个复杂的概念和技术，这些技术在图像生成、训练加速以及多模态学习等方面起着至关重要的作用。在这篇博客中，我们将讨论几个关键概念：Embedding、CLIP模型、Flux中的Clip，以及LCMSDXL加速生成技术的实现原理。1.AI绘图中的Embedding是什么意思？在A
计算机视觉 ---图像读取与显示(OpenCV与Matplotlib) 两千连弹计算机视觉计算机视觉 opencv matplotlib
前言本文分别介绍了使用OpenCV和Matplotlib进行图像读取与显示的方法，如cv2.imread()、cv2.imshow()、plt.imread()、plt.imshow()等，并提及了使用OpenCV时的注意事项。OpenCV与Matplotlib图像读取与显示的差异图像读取：OpenCV：使用cv2.imread()函数读取图像，默认读取的图像格式是BGR（蓝绿红）。Matplot
Python文件操作(json、csv、tsv、excel、pickle文件序列化) herosunly 机器学习入门之工具篇 Python新手快速入门 python 文件操作
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了Python文件操作(json、csv、tsv、excel、pickle
unity游戏开发毕设_毕设分享：用Unity探究2D游戏的打击感幸行远 unity游戏开发毕设
这是我毕业设计的一部分emmm……我的毕设和格斗游戏相关，而对于打击感的研究算是其中我比较在意的一环。现在临近毕业，我将毕设中开发部分的一些内容整理出来分享，希望能通过这样学习到更多的东西。打击感为何物？字面意思，“打到了的感觉”；好的打击感是易读的，包含信息充足的；它可以让玩家感受到这次的攻击奏效了、这次攻击的轻重程度、感受到这是怎样的攻击。在电子游戏中，则通过视觉和听觉呈现这些。实现方式市面上
Langchain本地知识库部署 MaxCode-1 langchain
本地部署（Docker+LangChain+FAISS）1.概述本地部署LangChain-Chatchat可以为企业提供高效、安全、可控的AI知识库方案。本方案基于Docker、LangChain和FAISS进行本地化部署，适用于企业内部知识库问答、私有化AI应用等场景。2.技术选型2.1LangChainLangChain是一个开源的LLM（大语言模型）应用开发框架，支持多种模型和数据源，适用
AI学习指南Ollama篇-Ollama简介俞兆鹏 AI学习指南人工智能 ollama
一、定义大语言模型（LLM）是一种基于深度学习的自然语言处理模型，能够生成文本、回答问题、翻译语言、撰写代码等。这些模型通过海量的文本数据进行训练，学习语言的模式和结构，从而能够生成自然流畅的文本内容。随着技术的不断进步，大语言模型在各个领域都展现出了巨大的潜力。二、应用场景大语言模型的应用场景非常广泛，以下是一些常见的例子：聊天机器人：通过自然语言理解与生成，为用户提供智能对话服务。内容创作：帮
JHipster入门 - 生成单体架构的应用 yorkwu1977 软件工程架构
JHipster入门-生成单体架构的应用目标准备工作生成基础功能输入指令开始问答环节问答环节结束，开始自动生成基础功能代码生成业务功能输入指令开始问答环节问答环节结束，开始自动生成业务功能代码调试启动启动后端服务启动前端服务访问前端页面打包启动构建启动访问前端页面关于数据库交给JHipster自己启动目标30分钟内生成一个开箱即用的单体架构应用。生成SpringBoot后端代码和Vue前端代码。基
深度ResUnet与ResUnet++：新一代的语义分割神器倪澄莹George
深度ResUnet与ResUnet++：新一代的语义分割神器去发现同类优质开源项目:https://gitcode.com/在这个数据驱动的时代，深度学习模型在图像处理领域展现出了强大的潜力，尤其是在语义分割任务中。今天，我们向您推荐一个基于PyTorch实现的开源项目——DeepResUnet和ResUnet++。这两个模型源自于学术界的最新研究，旨在提高图像分割的准确性和效率。项目介绍这个开源
医学类使用TransUNet、UNet、DeepLabV3+、HRNet、PSPNet 模型对息肉分割数据集进行训练、评估和可视化 EDD2020息肉数据集分割数据集计算机C9硕士_算法工程师数据集语义分割医学类数据集语义分割息肉 TransUNet UNet
息肉数据集/息肉瘤分割项目解决（已处理好:EDD2020数据集(EndoscopyDiseaseDetectionandSegmentationChallenge)该息肉分割数据集主要包含人体生长的（肠胃）息肉用于器官内部息肉瘤分割，息肉目标检测，息肉定位任务息肉分割是一个重要的医学影像分析任务，特别是在内窥镜检查中。EDD2020数据集是一个很好的起点。我们将使用几种流行的深度学习模型（如Tra
L8打卡学习笔记无涯学徒1998 学习笔记支持向量机
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊SVM与集成学习SVMSVM线性模型SVM非线性模型SVM常用参数集成学习随机森林导入数据查看数据信息数据分析随机森林模型预测结果结果分析个人总结SVM超平面：SVM在特征空间中寻找一个能够最大化类别间隔的超平面，称为最大间隔超平面。这个超平面就是将数据集分成不同类别的边界。支持向量：支持向量是离分隔超平面最近的样本点，它们决定了超平面的
P5学习笔记无涯学徒1998 python pytorch
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊运动鞋品牌识别设置GPU导入数据构建CNN模型编写训练函数编写测试函数设置动态学习率等间隔动态调整自定义调整多间隔调整余弦退火正式训练结果可视化使用模型进行预测个人总结设置GPUimporttorchimporttorch.nnasnnimporttorchvision.transformsastransformsimporttorchv
深度学习中高斯噪声：为什么以及如何使用小白学视觉深度学习人工智能
点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达来源：DeepHubIMBA本文约1800字，建议阅读8分钟高斯噪声是深度学习中用于为输入数据或权重添加随机性的一种技术。在数学上，高斯噪声是一种通过向输入数据添加均值为零和标准差(σ)的正态分布随机值而产生的噪声。正态分布，也称为高斯分布，是一种连续概率分布，由其概率密度函数(PDF)定义：pdf(x)=(1/(σ*sqrt(
OpenCV中添加高斯噪声到彩色图像和点云 LpmShell opencv 人工智能计算机视觉点云
在计算机视觉和图像处理中，噪声是一种常见的现象，可以对图像和点云数据产生不良影响。高斯噪声是一种常见的噪声类型，它具有正态分布的特点。在本文中，我们将使用OpenCV库来添加高斯噪声到彩色图像和点云数据，并提供相应的源代码示例。添加高斯噪声到彩色图像首先，我们将介绍如何使用OpenCV库向彩色图像添加高斯噪声。以下是添加高斯噪声的步骤：步骤1:导入必要的库importnumpyasnpimport
深度学习｜表示学习｜卷积神经网络｜由参数共享引出的特征图｜08 漂亮_大男孩表示学习深度学习学习 cnn
如是我闻：FeatureMap（特征图）的概念与ParameterSharing（参数共享）密切相关。换句话说，参数共享是生成FeatureMap的基础。FeatureMap是卷积操作的核心产物，而卷积操作的高效性正是由参数共享带来的。下面我们详细看一下FeatureMap和ParameterSharing之间的关系：1.什么是FeatureMap？定义：FeatureMap是卷积操作生成的输出结
探秘FreeMovie：一个开源的电影推荐系统孟振优Harvester
探秘FreeMovie：一个开源的电影推荐系统去发现同类优质开源项目:https://gitcode.com/项目简介是一个基于深度学习的开源电影推荐系统，由pojiezhiyuanjun开发并维护。该项目的目标是为用户提供个性化的电影推荐服务，通过机器学习算法理解用户的观影偏好，并据此进行智能推荐。技术分析FreeMovie的核心架构包括以下关键组件：数据处理-项目采用Hadoop进行大数据预处
Topaz Video AI——视频修复爱研究的小牛 AIGC—视频 AIGC
一、TopazVideoAI介绍及使用TopazVideoAI是一款基于人工智能的视频增强和修复软件，主要用于提升视频质量、去噪、插帧和分辨率提升。它利用深度学习技术对视频进行智能化处理，使得视频看起来更加清晰和流畅。TopazVideoAI特别适合那些需要修复旧视频、提升低分辨率视频质量的用户。二、TopazVideoAI的主要功能视频去噪：通过AI模型去除视频中的噪点，使画面更加干净。分辨率提
【深度学习|变化检测孪生网络】基于共享权重的双流 U-Net 变化检测网络架构，附代码（一）努力学习的大大深度学习基础深度学习网络架构人工智能 python
【深度学习|变化检测孪生网络】基于共享权重的双流U-Net变化检测网络架构，附代码（一）【深度学习|变化检测孪生网络】基于共享权重的双流U-Net变化检测网络架构，附代码（一）文章目录【深度学习|变化检测孪生网络】基于共享权重的双流U-Net变化检测网络架构，附代码（一）基于共享权重的双流U-Net变化检测网络架构1.双流网络（SiameseNetwork）概述2.双流网络的应用——变化检测3.U
【深度学习|迁移学习】Wasserstein距离度量和跨域原型一致性损失（CPC Loss）如何计算？以及Wasserstein距离和CPC Loss结合的对抗训练示例，附代码（二）努力学习的大大深度学习基础深度学习迁移学习人工智能 python
【深度学习|迁移学习】Wasserstein距离度量和跨域原型一致性损失（CPCLoss）如何计算？以及Wasserstein距离和CPCLoss结合的对抗训练示例，附代码（二）【深度学习|迁移学习】Wasserstein距离度量和跨域原型一致性损失（CPCLoss）如何计算？以及Wasserstein距离和CPCLoss结合的对抗训练示例，附代码（二）文章目录【深度学习|迁移学习】Wassers
激光线扫标定和相机标定：中高级C++程序员与计算机视觉工程师的指南 m0_57781768 数码相机 c++计算机视觉
激光线扫标定和相机标定：中高级C++程序员与计算机视觉工程师的指南简介在计算机视觉和机器人领域，激光标定和相机标定是实现高精度测量和检测的关键技术。激光线扫标定和相机标定在许多应用中都是必不可少的，如自动驾驶、工业检测、三维重建等。本文将详细介绍激光线扫标定和相机标定的基本概念、实现细节以及常见问题的解决方案。目标读者为中高级C++程序员和计算机视觉工程师，文章将提供详细的技术细节和代码示例，确保
基于ROS的相机和激光雷达离线自动标定 AUBarryRobot 传感器标定数码相机
目录前言理论背景相机和激光雷达标定原理实现思路Reference前言因为本人实际工作中在做视觉和雷达的相关融合工作，所以相机和雷达的传感器之间的位姿RT矩阵则是要首先进行解决的。标定对大部分人来说都很头疼，抵触，在网上进行调研也没有什么太好的方法，或者别人分享的项目和自己的相差很大，根本不适用或者不好复现。而且可能全程比较繁琐，需要手动进行各种操作，运行一大堆程序。我的联合标定程序，只需要采集对应
QT 笔记繁缕怀夕 QT 笔记
本文详述了QT的基础应用，其中包括基础控件应用、多线程等工具类使用、以及显示2D、3D图像等功能，适用于C++和计算机视觉领域的开发者。1、基础控件QLineEditQComboBoxQMenuQToolBar2、基础功能2.1、多线程线程QThread2.2、多语言静态显示动态切换3、QChart4、QGraphicsView5、PCL之VTK
2025数学建模美赛B题完整建模思路——管理可持续旅游业鹿鹿数模数学建模
2025MCM问题B：管理可持续旅游业以下是我们对该题目的赛题分析，由于完整内容过长，因此在此处放出部分内容，欢迎从文末小卡片处加群获取。赛题分析以下内容包括三个主要部分：(1)题目的中文翻译(2)对题目的整体分析与思路综述(3)对题目要求的逐项详细分析与求解思路。本文的撰写将综合运用多元的数学模型、算法以及机器学习/深度学习的方法，并在必要时给出题外假设与可行的创新性思路，以期为参赛者提供较为系
使用YOLOv8训练一个无人机（UAV）检测模型，深度学习目标检测中_并开发一个完整的系统 yolov8来训练无人机数据集并检测无人机 QQ_767172261 无人及视角 YOLO 无人机深度学习
使用YOLOv8训练一个无人机（UAV）检测模型，深度学习目标检测中_并开发一个完整的系统yolov8来训练无人机数据集并检测无人机无人机数据集，yolo格式种类为uav，一共近5w张图片，如何用yolov8代码训练无人机检测数据集文章目录以下文章及内容仅供参考。1.环境部署2.数据预处理数据集准备划分数据集3.模型定义4.训练模型5.评估模型6.结果分析与可视化7.集成与部署PyQt6GUI(`
Python实现SMTP自动发邮件全流程指南福建低调
本文还有配套的精品资源，点击获取简介：SMTP是互联网用于发送电子邮件的标准协议，Python提供便利的库来实现这一功能。本文将介绍如何利用Python的smtplib和email.mime库通过SMTP自动发送邮件，包括设置服务器、登录验证、构建邮件对象、发送邮件，并提供了一个代码示例。文章还强调安全性和常见问题的解决方案，为初学者提供详细步骤和视觉辅助。1.SMTP协议基础在互联网技术飞速发展
AlphaFold2的思路总结（十五） xiaofengzihhh 蛋白质结构预测深度学习人工智能神经网络
2021SC@SDUSC这学期的代码分析工作接近尾声了，我想简单总结一下AlphaFold2的总体思路具体来看，AlphaFold2主要利用多序列比对（MSA），把蛋白质的结构和生物信息整合到了深度学习算法中。它主要包括两个部分：神经网络EvoFormer和结构模块（Structuremodule）。一、EvoFormer 在EvoFormer中，主要是将图网络（Graphnetworks）
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR