若年封尘

跨模态检索论文阅读：Plug-and-Play Regulators for Image-Text Matching用于图像文本匹配的即插即用调节器

Plug-and-Play Regulators for Image-Text Matching用于图像文本匹配的即插即用调节器

利用细粒度的对应关系和视觉语义比对在图像-文本匹配中显示出巨大的潜力。通常，最近的方法首先使用跨模态注意力单元来捕捉潜在的区域-单词交互，然后整合所有比对以获得最终的相似性。然而，它们大多采用具有复杂结构或额外信息的一次性前向关联或聚合策略，而忽略了网络反馈的调节能力。在本文中，我们开发了两个简单但非常有效的调节器，它们有效地对消息输出进行编码，以自动上下文化和聚合跨模态表示。具体地说，我们提出了（i）一种递归对应调节器（RCR，Recurrent Correspondence Regulator），它通过自适应注意因子逐步促进跨模式注意单元，以获得更灵活的对应关系，和（ii）循环聚合调节器（RAR，Recurrent Aggregation Regulator），其反复调整聚合权重以越来越强调重要的比对而淡化不重要的比对。此外，有趣的是，RCRand RAR是“即插即用”的：它们都可以基于跨模态交互被整合到许多框架中，以获得显著的利益，并且它们的合作取得了进一步的改进。在MSCOCO和Flickr30K数据集上进行的大量实验验证了它们可以在多个模型上带来令人印象深刻的综合R@1增益，证实了所提出方法的通用性和泛化能力。

简介

在本文中，引入了[32]-[35]定义的调节器机制，其中可以通过自适应地优化具有合理的后向反馈的前向学习过程来改进网络，并验证了精心设计的监管操作可以在不需要额外数据和复杂结构的情况下，在获得准确的相互作用和进行跨模式的最佳聚合方面发挥巨大作用。

更具体地说，我们提出了一种递归相关性调节器（RCR）和递归聚合调节器（RAR）来逐步促进图像-文本匹配过程，如图1所示。RCR学习每个特定单词/区域的自适应注意因子，以迭代地细化跨模式注意单元，为不同图像-文本对中语义不同的单词/区域获得更合理的注意分布。RAR从对所有比对进行平均开始，然后在前一步中更新由聚合比对引导的聚合权重，这会越来越强调重要比对，并逐渐减少不重要比对的干扰，以预测更精确的相似性得分。所提出的RCR和RAR的一个重要而有吸引力的特性是“即插即用”：它们都可以无缝地插入到许多现有的基于跨模态交互的方法中，以实现显著的改进，并且它们的合作带来了更大的好处。此外，我们通过实验验证，即使使用最简单的框架，RCR和RAR的插件也使模型[18]能够在MSCOCO和Flickr30K上获得最先进的结果。

总之，我们的主要贡献有三个方面：

我们提出了一种递归通信调节器（RCR），以动态更新交叉注意力单元，从而更好地利用通信。它学习每个单词/区域的自适应注意力因素，以根据其语义和相关的图像-文本对生成更合理的注意力分布。
我们提出了一种递归聚合调节器（RAR）来重复校准权重，以实现更具辨别力的本地相似性聚合。它逐步重新加权由早期指南比对引导的单词/区域参与比对，以突出显示更重要的比对。
RCR和RAR可以单独或联合应用于各种图像-文本匹配方法，以实现显著的改进，表明了所提出方法的有效性和泛化能力。

图 1. 提出的调节器的示意图。RCR 通过调整温度 λ 和信道系数 e，在单词 "roof "及其相应区域之间逐步形成合理的注意力分布，而 RAR 则不断突出每个单词所关注的重要排列，并逐步提高自身性能，以实现更全面的聚合。

图 2. RCR 通过学习新的通道权重向量和 softmax 温度来完善跨模态交互的示意图

图 3. 在上一步整体配准向量的指导下更新聚合权重的 RAR 图示

方法

在本节中，我们将详细介绍基于SCAN[18]的跨模态注意力单位提出的递归对应调节器（RCR）和递归聚合调节器（RAR）。这两个调节器可以有效地探索网络本身的调节能力，进而通过利用精心设计的对齐反馈显著促进学习过程。为了简单起见，我们采用T2I注意力来描述所提出的调节策略，这些策略可以以同样的方式应用于I2T注意力。

对于词与区域的交互作用，1）现有的大多数方法都是用固定和统一的因子计算一次性的前向程序，这显然缺乏适应各种语义的词语的调节能力。相比之下，RCR 首先生成构建的对齐方式，记录上一步中每个词与所有相关区域之间的丰富相关性，进而重新权衡每个词的权重向量和温度值，完善相应的注意力分布。2) 早期的研究总是倾向于将单词与可比空间中潜在的 "最近 "区域对齐，即使是负面的图像-文本对。我们认为，正面图像中的词语应更多地关注特定的相关区域，而负面图像中的词语则应关注 "完全不相关 "的区域。从上述角度来看，递归聚合器可以动态更新信道测量值，完善词-区域相关性的数值，从而扩大匹配和未匹配词对之间的差距，提高复杂匹配模式的建模能力。

RAR 并非如公式 (5) 所述对所有单词特征和出席图像特征之间的所有余弦相似度进行平均，而是更进一步，通过迭代聚合所构建的配准来识别跨模态的更全面的内容。具体来说，RAR 从平均聚合开始，在每个调节步骤中，它都会尝试从上一步的上下文信息输出中学习，并平衡每个基于单词的排列的重要性，而无需手动调整。可以观察到，RAR 越来越重视来自重要词语的排列，并逐渐降低不重要词语的聚合权重。通过这种方法，网络可以不断调整所有排列的比例，并分配更合理的聚合权重，从而使整体排列更具区分度，图像-文本匹配的距离度量也更合适。

RCR 和 RAR 的特性

多种模型上的即插即用。RCR 和 RAR 最吸引人的特性是 “即插即用”。为了证明它们的巨大适用性，我们将这两个调节器应用到了许多基于跨模态交互的现有方法中：
堆叠交叉注意（SCAN）[18] 首先计算所有区域-单词的相似性，并将每个区域/单词与其对应的单词/区域对齐。通过平均所有基于区域/单词的余弦距离得出最终的相似度。
双向聚焦注意力（BFAN）[19] 通过为每个区域-词对重新分配更精细的注意力权重来扩展通用注意力，并通过基于区域和基于词的分数相加来计算匹配结果。
位置聚焦注意力（PFAN）[22] 通过引入额外的位置信息来增强区域特征，以促进区域-单词的对应，并将所有区域/单词注意力的余弦相似度整合为预测值。
跨模态自适应信息传递（CAMP）[30] 通过内积探索区域-单词亲和矩阵，并转移跨模态内容以改进区域和单词表征，然后将其汇总为整体图像和文本特征，计算最终的相似度。
相似性图推理和注意力过滤（SGRAF）[28] 采用余弦相似性乘以固定温度作为区域-单词注意力权重，然后通过复杂图和注意力模块将层次相似性特征映射为匹配得分。

图 4. 我们的调节器即插即用的操作说明。在独立应用中，RCR 可促进区域与词的对应，并保留原始的相似性计算，而 RAR 可促进更准确的相似性预测，并保留原始的跨模态交互。

图 4 展示了我们如何将 RCR 或 RAR 插入上述匹配方法。具体来说，跨模态注意力利用余弦度量或内积作为区域-单词亲和力权重，并输出每个区域/单词及其相关单词/区域。利用这些配对特征，RCR 首先构建配对向量，然后通过式（7）（8）学习相应的权重向量和温度系数，进而通过式（9）-（11）完善区域-词特征距离并优化跨模态交互。除了一组配准向量外，RAR 还能通过式（14）-（16）在一个引导向量和所有配准向量之间逐步生成更合适的权重，并促进更合理的相似性聚合处理。事实证明，这种简单的信息反馈为许多跨模态交互作品带来了显著的改进，甚至比相关的复杂作品性能更优越。

RCR 和 RAR 的协作

RCR 和 RAR 可以相互配合，其中 RCR 负责调整跨模态交互，而 RAR 则完善配准聚合以实现进一步改进。在算法 1 中，我们介绍了一种简便的组合，即 RCAR，它可以逐一执行这两种规则。需要注意的是，它们之间的合作非常灵活，更多变体及实验结果可参见实验部分。

实验

表1.按时间顺序排列的检索结果。最好的两个结果用粗体和下划线标出。∗ 采用热身策略和文字大小增强，而 ? 表示输入图像分辨率较高的集合模型

我们将早期和学习到的排列作为当前的指导向量，以建立残差版本的 RAR。RAR 的目的是构建更好的引导，并在整个过程中为基于词的原始配准分配适当的聚合权重。因此，我们可以发现，具有残差结构的 RAR 在每一步都使用相同的词对齐的情况下，并不能带来显著的改进。#RAR 和 #RCR 的超参数调整。表四、表五、表六和表七展示了不同步骤对调节器的评估结果。我们在不使用任何调节器的情况下设定了基线，即只利用跨模态注意力[18]，并通过公式（5）预测所有余弦距离的平均值来得出最终得分。

聚合调节器。RAR 保留原始的跨模态注意力单元，并根据公式（18）和公式（7）构建的排列计算相似度。对于 MSCOCO 5K 测试集，基于 T2I 注意力，RAR 最多能将句子和图像检索的 R@1 提高 12.6% 和 7.9%，基于 I2T 注意力，RAR 最多能将句子和图像检索的 R@1 提高 9.9% 和 6.4%。对于 Flickr30K 1k 测试集，它还能提高双向 R@1，在 T2I 和 I2T 注意力下分别持续提高 9.8/7.5% 和 2.4/7.7% 以上。由此可见，RAR 可以生成更准确、更可信的图像-文本相似度测量结果。
对应调节器。RCR 会更新区域-词之间的交互作用，迭代更新针对跨模态实例的聚合特征，并通过式（5）保持原始预测过程。与基础模型相比，RCR 在 MSCOCO5K 上可以获得 R@1 的稳定增长，最大增幅为 9.4/5.8%（T2I）和 13.4/7.4%（I2T），同时在 Flickr30K 上的增幅为 10.4/9.9%（T2I）和 9.0/15.6%（I2T），验证了 RCR 能够利用更精细、更恰当的词-区域关联。
协作调节器。如算法 1 所述，我们采用了 RAR 和 RCR 的一比一组合，这表明前者总是比后者多走一步。与两步 RAR 和一步 RCR 相比，N =2 RCAR 可以在两个方向上大幅提高 R@1，这表明 RCR 和 RAR 具有良好的兼容性。事实上，它们之间的合作非常灵活。以表 VI 中对 Flickr30K 的 T2I 关注为例，另一种策略是先执行 2 步 RCR，然后再执行 3 步 RAR，这样在句子和图像检索上分别获得了 77.5%和 57.8%的 R@1（算法 1 的 R@1 为 77.8%和 57.2%）。此外，我们还可以观察到，#RCR 和 #RAR 越大并不一定越好，这可能是由于递归结构的原因，一定步数的递归会使网络性能达到饱和。
计算成本。单 SCAN [18] 的模型大小为 12.2M，而 RAR、RCR 或 RCAR 的每一步都会带来近 0.13M 、0.95M 或 1.12M 的额外参数。使用 NVIDIA GeForce RTX 3090，T2I-SCAN 的推理时间为每对图像-文本 3.05 us，RAR/RCR/RCAR 每一步带来的额外成本为 0.51/4.72/5.91 us，而 I2T-SCAN 的预测时间为 4.25 us，额外成本为 1.19/8.21/10.54 us。从这些实验中，我们建议独立应用时采用 step=2-3，合作时采用 step=2(RAR)+1(RCR)，因为它们在准确性和复杂性之间实现了更好的权衡，并在表 II 中证明了多种最先进方法的普遍有效性和广泛适用性。

结论和未来工作

在本文中，我们提出了两种调节器，称为递归对应调节器（RCR）和循环聚合调节器（RAR）显著促进图像文本匹配过程。具体而言，RCR试图通过学习更有针对性的注意力因素来动态地促进跨模态注意力单元，而RAR旨在从整体信息反馈中逐步整合合理的聚类权重。即插即用特性使他们能够无缝集成到许多基于跨模式交互的现有方法中，以实现显著的改进，并可以通过协作方式获得更多好处。在MSCOCO和Flickr30K上进行的大量实验证明了我们提出的方法的巨大优势和广泛适用性。除了上述观察结果之外，我们还试图将我们的调节器应用于另一个分支[9]、[13]、[14]、[17]，这些分支专注于单模态表示，而没有跨模态交互。有趣的是，两步RCR和三步RAR可以改善R@1通过逐步更新区域中的最后一个自注意层并将所有实例特征分别聚合为一个整体特征，SAEM[13]在两个方向上分别增加了2.8/4.1%和3.7/2.5%，反映了我们的调节器的巨大潜力。更高效的框架和应用场景是我们未来的研究方向之一。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
新私域是什么平台靠谱吗氧惠佣金真的高
新私域指的是借助与互联网电商，随着平台内商家入驻量、用户量相辅相成的全国化平台。是否靠谱取决于平台是否合规。新私域指的是借助与互联网电商，在传统会员体系外新增的锁定用户跨平台、跨界收益，一种随着平台内商家入驻量、用户量相辅相成的全国化平台。关于新私域平台是否靠谱，这个需要看平台的底层逻辑是否合理、合法、合规以及平台的未来的发展方向氧惠APP抖音购物、看电影、点外卖、打车用氧惠APP！佣金更高、更优
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
【道德经】第二十四章企者不立稀土永磁Amy
企者不立，跨者不行。自见者不明，自是者不彰，自伐者无功，自矜者不长。其于道也，曰余食赘行，物或恶之，故有道者不处也。踮起脚跟，想要站得高的人反而站不稳；跳跃式地前行的人反而走不远。自我显摆的人，反而难以显明；自以为是的人，其优点反而得不到彰显；自吹自擂的人，有功劳也没人承认；自高自大的人，难以成为领袖人物。
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
如何给QQ邮箱自动发邮件？无惧「小爱」下线！代码全公开，两步搞定 AI码上来 AI实战微信人工智能 python
前两天，搞了个微信AI小助理-小爱(AI)，爸妈玩的不亦乐乎。零风险！零费用！我把AI接入微信群，爸妈玩嗨了，附教程（下）最近一直在迭代中，挖掘小爱的无限潜力:链接丢给它，精华吐出来！微信AI小助理太强了，附完整提示词拥有一个能倾听你心声的「微信AI小助理」，是一种什么体验？小爱打工，你躺平！让「微信AI小助理」接管你的文件处理，一个字：爽！我把多模态大模型接入了「小爱」，痛快来一场「表情包斗图」
人生过的是心情，生活活的是心态久孤__
一个人的时候该如何去面对孤独寂寞很喜欢罗兰的一句话：“个人有个人理想的乐园，有自己所乐于安享的世界，朝自己所乐于追求的方向去追求，就是你一生的道路，不必抱怨环境，也无需艳羡他人。”图片发自App有些路，你看旁人走的成功，自己也跃跃欲试，可真当自己走过了，才知道其中辛苦；有些坎儿，你看别人跨的轻松，自己也不甚在意，可真当自己置身其中，才明白各中艰难。图片发自App说白了，谁的生活都不容易，隔岸去看总
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
腾讯发表多模态综述，一文详解多模态大模型存内计算开发者社区多模态大模型人工智能 chatgpt AIGC 量子计算 AI-native gpt agi
多模态大语言模型（MLLM）是近年来兴起的一个新的研究热点，它利用强大的大语言模型作为大脑来执行多模态任务。MLLM令人惊讶的新兴能力，如基于图像写故事和无OCR的数学推理，在传统方法中是罕见的，这表明了一条通往人工通用智能的潜在道路。在本文中，追踪多模态大模型最新热点，讨论多模态关键技术以及现有在情绪识别上的应用。腾讯AILab发表了一篇关于多模态大模型的最新综述《MM-LLMs:RecentA
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&

跨模态检索论文阅读：Plug-and-Play Regulators for Image-Text Matching用于图像文本匹配的即插即用调节器

简介

相关工作

跨膜态注意力

相似性聚合

即插即用方法

方法

RCR 和 RAR 的特性

RCR 和 RAR 的协作

实验

结论和未来工作

你可能感兴趣的:(深度学习,#,跨模态检索,论文阅读,跨模态检索,人工智能,深度学习)