乄洛尘

Self-paced Multi-grained Cross-modal Interaction Modeling for Referring Expression Comprehension论文阅读

Self-paced Multi-grained Cross-modal Interaction Modeling for Referring Expression Comprehension论文阅读笔记

一、Abstract
二、引言
三、相关工作
- A、指代表达式理解
- B、Transformer
- C、自定进度学习
四、方法
- A、动机和框架总览
- B、多粒度跨模态注意力
- - 1）跨模态交替注意力模块 Cross-modal Alternate Attention Module (CA^2^M)
  - 2）跨模态交互分组和融合
- C、自定进度样本信息学习
- D、优化
五、实验
- A、数据集和评估指标
- - 数据集
  - 评估指标
- B、实施细节
- - 训练
  - 推理
- C、与 SOTA 方法的比较
- D、消融实验
- - 1）视觉和语言特征数量的影响
  - 2）CA^2^M 数量的影响
  - 3） $\lambda$ 和 $\sigma$ 的影响
  - 4）CA^2^M 和 Transformer 编码器层的比较
- E、定性结果
六、结论

写在前面

又是一周快过去了，哎，时间过得很快呀。这是一篇 REC 的文章，由于没放出代码，不好评价这个效果，尤其一些实验数据，感觉有点不可思议了。

论文地址：Self-paced Multi-grained Cross-modal Interaction Modeling for Referring Expression Comprehension
代码地址：原文暂未提供
预计提交于：某个会议
Ps：2023 年每周一篇博文阅读笔记，主页更多干货，欢迎关注呀，期待 5 千粉丝有你的参与呦~

一、Abstract

指代表达式理解 referring expression comprehension (REC) 通常需要大量的多粒度视觉-语言模态的信息来实现精确推理，此外一些难样本有着更多的信息。于是本文提出自定进度的多粒度跨模态交互建模 Self-paced Multi-grained Cross-modal Interaction Modeling。具体来说，设计一种基于 Transformer 的多粒度跨模态机制，提出一种自定进度的样本信息学习方法来增强网络对信息丰富的样本的学习能力。实验效果很好。

二、引言

首先指出 REC 的目的，意义，应用。接下来指出 REC 网络需要的定位能力，大白话修饰语句就不解读了。视觉编码器，例如 ResNet，在更深层时捕捉语义信息，而在浅层时捕捉详细信息。如下图中的注意力图所示：

与此同时，基于 Transformer 的语言编码器，例如 BERT 等，能够在浅层时捕捉短语级别的信息，而在高层时捕捉句子级别的信息。因此需要从这些模态中聚合多粒度信息，并执行跨模态交互。于是设计基于 Transformer 的多粒度跨模态注意力，逐渐且自适应地实现多粒度视觉和语言模态的交互。
对多粒度信息样本的充分学习也能促进多粒度跨模态交互。然而很难去直观衡量多粒度信息以及自适应样本学习的策略。于是本文利用定位的难易程度来反应多粒度信息的数量以及每个样本学习的必要性。具体来说，设计了一种自定的样本信息学习，能够让网络衡量训练样本的难易得分，从而自适应地驱动网络获得包含多粒度信息的样本知识。
具体来说，设计了一种基于 Transformer 的多粒度跨模态注意力，通过提出的多模态的交互交换注意力模块 cross-modal alternate attention module (CA2M) 实现分组和融合。进一步在每次训练迭代过程中，基于当前的网络为每个样本输出难易程度得分，于是网络能够自适应的从这些样本中学习到多粒度信息。大量实验表明方法很有效，且推理速度很快。如下图所示：

贡献总结如下：

提出一种自定速度的多粒度跨模态交互建模框架 Self-paced Multi-grained Cross-modal Interaction Modeling framework，在网络结果和学习机制上的创新提升了定位性能；
构建了一种多粒度跨模态注意力机制，设计了一种自定进度的样本信息学习策略，能够自适应地驱动网络学习多粒度样本信息；
实验表明方法效果很好。

三、相关工作

A、指代表达式理解

之前传统的 REC 方法包含两个阶段：产生候选 Box，选择最匹配的 Box。在第一阶段，通过预训练的目标检测器，例如 Faster-RCNN 生成大量的候选 boxes，第二阶段挑选出最佳候选的 box 作为目标 box。然而受限于 Box、匹配的正确度、表达式，此类方法精度和速度达不到要求。最近一些方法通过设计视觉-语言融合模块来直接预测目标 box，但是忽略了多粒度视觉语言编码器中信息的利用。于是本文提出一组多粒度跨模态注意力来提炼视觉语言编码器中的多粒度信息。

B、Transformer

基于 Transformer 的方法在自然语言处理任务中性能非常好，之后用于视觉任务中，例如图像分类，目标检测，全景分割等，还有一些基于 Transformer 的预训练模型用于视觉-语言任务。Transformer 中的注意力机制能够捕捉上下文的长范围依赖以及跨模态 tokens 间的关联。相比于这些 Transformer，本文提出的 CA²M 能够充分地进行多粒度跨模态交互且实现更准确定位的同时，推理速度更快。

C、自定进度学习

自定进度学习采用当前的训练网络来衡量样本的难易度进行目标学习。自定进度学习可以在训练过程中动态实现样本的学习。正因为 REC 数据集中样本的分布不均，本文旨在设计自定进度样本信息学习来自适应地实现网络的渐进学习。

四、方法

A、动机和框架总览

REC 通常需要大量的多粒度信息来实现定位。由于视觉和语言编码器在不同的层次上处理多粒度信息，且复杂样本通常包含充分的细粒度信息，于是本文提出自定进度的跨模态交互建模框架，通过多粒度跨模态注意力和自定进度的样本信息学习来提升推理能力。(这个故事讲的有点牵强，估计还是先有结果再有故事吧。)
给定一幅图像和一个指代表达式，本文旨在直接回归出目标 box 的坐标。基于 ResNet 的视觉编码器和基于 BERT 的语言编码器首先从不同的层中提取多粒度信息，然后在多粒度跨模态注意力中，通过设计的跨模态交替注意力模块 CA²M，获得的视觉语言特征用于实现跨模态交互的分组和融合，而 [CLS] token 用于输出。预测头由三层感知机组成，将 [CLS] token 转化为 box 的坐标。在每次的训练迭代过程中，自定进度的样本信息学习计算每个样本的难度得分，指导网络增进对具有充分多粒度信息的样本的学习。

B、多粒度跨模态注意力

1）跨模态交替注意力模块 Cross-modal Alternate Attention Module (CA²M)

实际上就是两个 Cross-attention 模块。

CA²M 核心组成是注意力模块，其输入源于视觉和语言模态的 token 序列。开始时采用的全连接模块：
$Q=X^{q}W^{q},\quad K=X^{s}W^{k},\quad V=X^{s}W^{\nu}$ 其中 $W^{q}$ 、 $W^{k}$ 、 $W^{v}$ 分别是 query、key、value 的可学习权重， $X^{q}$ 、 $X^{s}$ 来源于不同的模态。接下来：
$\mathrm{CrossAttention}(Q,K,V)=\mathrm{Softmax}(\frac{QK^{\top}}{\sqrt{d_{\mathrm{dim}}}})V$ 其中 $d_{\text{dim}}$ 为 embeddings 的通道维度。

视觉语言特征融合过程如图 4 所示。具体来说，给定视觉特征 $F_v$ 和语言特征 $F_l$ 。CA²M 首先拿 $F_v$ 和 $F_l$ 作为 $X^q$ 和 $X^s$ ，然后有：
$\begin{aligned}F_{\nu}^{*}&=\mathrm{LN}(F_{\nu}+\mathrm{MHCA}(F_{\nu},F_{l}))\\\\F_{\nu}^{'}&=\mathrm{LN}(F_{\nu}^{*}+\mathrm{FFN}(F_{\nu}^{*}))\end{aligned}$ 其中 $\mathrm{LN}$ ， $\mathrm{MHCA}$ ， $\mathrm{FFN}$ 分别表示层归一化，多头注意力，前项传播网络。在获得 $F_v^{\prime}$ 后，CA²M 分别将 $F_l$ 和 $F_v^{\prime}$ 视为 $X^q$ 和 $X^s$ ，从而获得特征 $F_l^{\prime}$ ：
$\begin{aligned}F_l^*&=\mathrm{LN}(F_l+\mathrm{MHCA}(F_l,F_\nu^{'}))\\F_l^{'}&=\mathrm{LN}(F_l^*+\mathrm{FFN}(F_l^*))\end{aligned}$ 相比于 Transformer 编码器层，CA²M 效率更高：

最后，将 CA²M 作为多粒度跨模态注意力的核心组成部分，来实现下面跨模态交互的分组和融合。

2）跨模态交互分组和融合

基于 ResNet 的视觉编码器从最后三个阶段中提取出视觉特征，之后通过下采样或上采样操作拼接得到视觉特征 $F_v^0\in \mathbb{R}^{(HW)\times C_1}$ 。基于 6 层的 BERT 将每两层视为一个 Block，提取出具有相同维度 $L\times C_1$ 的三个语言特征 $\{F_{l,i}^0\}^3_{i=1}$ ，其中 $L$ 和 $C_1$ 分别表示长度和通道。在分组跨模态交互中， $F_v^0$ 和 $F_{l,i}^0$ 分别通过两层的 CA²M 进行交互。

在完成第一阶段的多粒度跨模态注意力后，得到 ${F_{v,i}^{1},F_{l,i}^{1}\}_{i=1}^{3}$ ，其维度分别为 $(HW)\times C_0$ 和 $L\times C_0$ 。在分组跨模态交互中，首先拼接 ${F_{v,i}^{1},F_{l,i}^{1}\}_{i=1}^{3}$ 得到 $F_{v}^{2}\in\mathbb{R}^{(HW)\times C_{1}}$ 和 $F_{l}^{2}\in\mathbb{R}^{L\times C_{1}}$ 。之后三层的 CA²M 用于执行第二阶段的多粒度跨模态注意力，得到 $F_{v}^{3}\in\mathbb{R}^{(HW)\times C_{1}}$ 和 $F_{l}^{3}\in\mathbb{R}^{L\times C_{1}}$ 。最后从 $F_l^3$ 中得到的 [CLS] 经过三层感知机后预测目标 Box $\hat b=(\hat x,\hat y,\hat w,\hat y)$ 。

C、自定进度样本信息学习

在训练的每次迭代过程中，采用 L1 损失和通用的 IoU 损失两个角度来衡量每个样本的难度。给定 GT $b = (x, y, w, h)$ 和预测的目标 box $\hat b=(\hat x,\hat y,\hat w,\hat h)$ ，L1 损失为：
${\mathcal L}_{L1}=|x-\hat x|+|y-\hat y|+|w-\hat w|+|h-\hat h|$ 进一步将矩形框 $b$ 和 $\hat b$ 表示为 $A$ 和 $B$ ，通用 IoU 损失为：
$\mathcal{L}_{\mathrm{g}iou}=1-\frac{|A\cap B|}{|A\cup B|}+\frac{|C-A\cup B|}{|C|}$ 其中 $C$ 表示 $A$ 和 $B$ 的最小内接矩形， $|\cdot|$ 表示区域的面积。不难发现 ${\mathcal L}_{L1}$ 和 $\mathcal{L}_{\mathrm{g}iou}$ 的最小值都是 0。而 ${\mathcal L}_{L1}$ 和 $\mathcal{L}_{\mathrm{g}iou}$ 越小，表明当前样本越容易。

在得到 ${\mathcal L}_{L1}$ 和 $\mathcal{L}_{\mathrm{g}iou}$ 后，使用 $\mathcal{D}(\cdot)$ 生成难度得分 $d_0$ 和 $d_1$ 引导网络学习样本，于是有：
$d_{0}=\mathcal{D}_{\mu_{0},\sigma_{0}}(\mathcal{L}_{L1}),\quad d_{1}=\mathcal{D}_{\mu_{1},\sigma_{1}}(\mathcal{L}_{giou})$ 具体而言，对于每个 $\mathcal L$ ，其对应的难度得分 $d$ 定义为一个指数函数：
$d=\mathcal{D}_{\mu,\sigma}(\mathcal{L})=e^{\frac{(\mathcal{L}-\mu)^{2}}{\sigma^{2}}}$ 其中 $\mu$ 表示位置， $\sigma$ 控制着函数的宽度。当 ${\mathcal L}_{L1}$ 和 $\mathcal{L}_{\mathrm{g}iou}$ 越接近 $0$ 时，样本的定位精度越高，于是设置 $\mu_0$ 和 $\mu_1$ 为 0。此外， $\sigma_0$ 和 $\sigma_1$ 是可学习的参数，其值越大时，函数越光滑。在每次训练迭代过程中，从上述的难度得分 $d_0$ 和 $d_1$ 中使用 $d_0{\mathcal L}_{L1}$ 和 $d_1\mathcal{L}_{\mathrm{g}iou}$ 用于自定进度的样本信息学习。

D、优化

总体损失如下：
$\mathcal{L}_{total}=d_{0}\mathcal{L}_{L1}+d_{1}\mathcal{L}_{giou}-\lambda(d_{0}+d_{1})$ 其中 $\lambda$ 为归一化系数， $\lambda(d_{0}+d_{1})$ 为控制 $\sigma_1$ 和 $\sigma_1$ 的常数。

五、实验

A、数据集和评估指标

数据集

RefCOCO、RefCOCO+、RefCOCOg、ReferItGame。

评估指标

$A cc @0.5$ ：当 GT 和预测 Box 的 IoU 超过 0.5 时，即为正确，最后统计平均得分。此外还包含推理速度。

B、实施细节

训练

AdamW 优化器，权重衰减 $1 e - 4$ ，ResNet-50 或 ResNet-101 预训练在 MC-COCO 上用于视觉编码器，未级联的 6 层 BERT 用于语言编码器。 $\sigma_0$ 、 $\sigma_1$ 初始化为 2.5， $\lambda$ 0.75， $H$ 、 $W$ 分别缩小为原图的 16 倍。 $C_0$ 和 $C_1$ 分别为 256，768。视觉和语言编码器的初始学习率设为 $1 e - 5$ ， $\sigma_0$ 、 $\sigma_1$ 的学习率设为 $5 e - 5$ ，剩下的模块设为 $1 e - 4$ 。模型训练 120 个 epoch，Batch_size 192，其中学习率在第 10 和第 80 个 epoch 时衰减 10%。在大尺度训练和微调中，训练 40 epoch 和 60 epoch，而在第 30 和 40 epoch 时，学习率衰减 10%。输入的图像尺寸为 $512\times512$ 。数据增强包含：随机水平翻转、随机仿射变换、随机颜色空间抖动、高斯模糊。表达式的最大长度设为 40，相应的 [CLS] 和 [SEP] 插入其中。训练采用 8 块 NVIDIA A100 GPUs（有钱）。

推理

输入图像尺寸为 $512\times512$ ，表达式的最大长度设为 40，无数据增强。模型直接输出坐标，无需后续操作。

C、与 SOTA 方法的比较

D、消融实验

采用 ResNet-50 和 6 层的 BERT 分别作为视觉和语言编码器，在 RefCOCOg-google 验证集上进行。

1）视觉和语言特征数量的影响

2）CA²M 数量的影响

3） $\lambda$ 和 $\sigma$ 的影响

4）CA²M 和 Transformer 编码器层的比较

E、定性结果

六、结论

本文提出自定进度的多粒度跨模态交互建模框架，通过聚合难样本的不同模态的多粒度信息来提升定位能力。具体来说，构建了一个基于 Transformer 的多粒度跨模态注意力，设计了一个自定进度的样本信息学习来自适应地实现模型对具有充分信息的样本的学习。实验表明有效。

写在后面

这篇文章创新点水平较中等（与顶会相比），其中的注意力模块不能算是自主创新，因为就是个 Cross-Attention 的叠加，想必在很多模型中都会用到。第二个创新点可以的，就是这个难样本的学习策略，这一点倒是还没有文章注意到。还要吐槽的就是这篇文章没有代码，那个推理速度的实验有点难信服。

AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
Python计算机视觉编程第三章图像到图像的映射一只小小程序猿计算机视觉 python opencv
目录单应性变换直接线性变换算法仿射变换图像扭曲图像中的图像分段仿射扭曲创建全景图RANSAC拼接图像单应性变换单应性变换是将一个平面内的点映射到另一个平面内的二维投影变换。在这里，平面是指图像或者三维中的平面表面。单应性变换具有很强的实用性，比如图像配准、图像纠正和纹理扭曲，以及创建全景图像。单应性变换本质上是一种二维到二维的映射，可以将一个平面内的点映射到另一个平面上的对应点。代码如下：impo
DIODE：超高分辨率室内室外数据集（猫脸码客第186期）猫脸码客: catCode2024 开源数据集猫脸码客开源数据集超高分辨率室内室外数据集
亲爱的读者们，您是否在寻找某个特定的数据集，用于研究或项目实践？欢迎您在评论区留言，或者通过公众号私信告诉我，您想要的数据集的类型主题。小编会竭尽全力为您寻找，并在找到后第一时间与您分享。在计算机视觉和深度学习领域，深度信息作为三维空间感知的重要组成部分，对于实现高级视觉任务如场景理解、机器人导航、增强现实等具有至关重要的作用。然而，获取准确且密集的深度数据一直是一个挑战，尤其是在同时涵盖室内和室
《互联网时代教师自主成长的模式研究》论文阅读与思考2 宁超群
2.第二部分教师自主成长的模式建构，实质上是对新网师底层逻辑的描述。你认为，新网师的培训模式与传统常见的培训模式有哪些区别？这些区别有什么意义或价值？读完第二部分后，你对新网师有哪些新的认识或理解？你认为新网师目前哪些方面做得好，哪些方面做得还不够？答：我认为新网师的培训模式与传统常见的培训模式有以下区别：（1）培训对象的参与动机不同。新网师学员的参与是自觉自愿、积极主动，而传统培训更多是被迫参与
深度学习入门篇：PyTorch实现手写数字识别 AI_Guru人工智能深度学习 pytorch 人工智能
深度学习作为机器学习的一个分支，近年来在图像识别、自然语言处理等领域取得了显著的成就。在众多的深度学习框架中，PyTorch以其动态计算图、易用性强和灵活度高等特点，受到了广泛的喜爱。本篇文章将带领大家使用PyTorch框架，实现一个手写数字识别的基础模型。手写数字识别简介手写数字识别是计算机视觉领域的一个经典问题，目的是让计算机能够识别并理解手写数字图像。这个问题通常作为深度学习入门的练习，因为
OpenCV高阶操作富士达幸运星 opencv 人工智能计算机视觉
在图像处理与计算机视觉领域，OpenCV（OpenSourceComputerVisionLibrary）无疑是最为强大且广泛使用的工具之一。从基础的图像读取、1.图片的上下，采样下采样（Downsampling）下采样通常用于减小图像的尺寸，从而减少图像中的像素数。这个过程可以通过多种方法实现，但最常见的是通过图像金字塔中的pyrDown函数（在OpenCV中）或其他类似的滤波器（如平均池化、最
深入掌握大模型精髓：《实战AI大模型》带你全面理解大模型开发！努力的光头强人工智能 langchain prompt transformer 深度学习
今天，人工智能技术的快速发展和广泛应用已经引起了大众的关注和兴趣，它不仅成为技术发展的核心驱动力，更是推动着社会生活的全方位变革。特别是作为AI重要分支的深度学习，通过不断刷新的表现力已引领并定义了一场科技革命。大型深度学习模型（简称AI大模型）以其强大的表征能力和卓越的性能，在自然语言处理、计算机视觉、推荐系统等领域均取得了突破性的进展。尤其随着AI大模型的广泛应用，无数领域因此受益。AI大模型
计算机视觉—照相机（下） zidea
封面焦距(FieldofView)同一位置相机用不同焦距，28mmFieldofView就变小，85mm时候的Fieldofview也就是只有28度视野，每一个物体在通常尺寸的胶片上像素也就是越多，chromaticAberration焦距和是波长相关，不同颜色光聚焦在不同位置。这种现象在物体边缘尤为明显。颜色颜色说简单也简单，说复杂也复杂，我们在高中物理已经知道可见光是电磁波，不同颜色对应不同波
Python OpenCV精讲系列 - 高级图像处理技术（五）极客代码 Python OpenCV精讲 python opencv 图像处理开发语言人工智能计算机视觉
⚡️⚡️专栏：PythonOpenCV精讲⚡️⚡️本专栏聚焦于Python结合OpenCV库进行计算机视觉开发的专业教程。通过系统化的课程设计，从基础概念入手，逐步深入到图像处理、特征检测、物体识别等多个领域。适合希望在计算机视觉方向上建立坚实基础的技术人员及研究者。每一课不仅包含理论讲解，更有实战代码示例，助力读者快速将所学应用于实际项目中，提升解决复杂视觉问题的能力。无论是入门者还是寻求技能进
计算机视觉中的数据增强方法总结 CV技术指南(公众号) CV技术总结计算机视觉深度学习卷积神经网络
前言：在计算机视觉方向，数据增强的本质是人为地引入人视觉上的先验知识，可以很好地提升模型的性能，目前基本成为模型的标配。最近几年逐渐出了很多新的数据增强方法，在本文将对数据增强做一个总结。本文介绍了数据增强的作用，数据增强的分类，数据增强的常用方法，一些特殊的方法，如Cutout，RandomErasing，Mixup，Hide-and-Seek，CutMix，GridMask，FenceMask
计算机视觉中，什么是Hide-and-Seek？ Wils0nEdwards 计算机视觉人工智能
是的，Hide-and-Seek技术主要是在弱监督学习领域中使用的，它的核心思想是通过随机遮掩输入图像的一部分，强迫模型学习更全面的特征，而不是仅仅依赖显著的局部信息。由于弱监督场景下的监督信号有限，例如只有少量的点标注、粗略标注或没有任何标注，模型容易过度依赖于图像中最显著的部分，而忽略其他信息。这种现象会导致模型只关注容易识别的局部特征，而无法理解物体的整体结构或捕捉更多的背景信息。1.Hid
计算机视觉——第三章图像拼接 JMU15980999055 python 计算机视觉人工智能
计算机视觉——第三章图像拼接1.图像全景拼接的原理和过程的简要介绍1.1特征点提取和匹配1.2图像配准1.3图像拼接2.实现多图像拼接2.1图片集说明2.2实验代码2.3实验结果及其分析3.两张不同角度的图像拼接3.1图片集说明3.2实验代码3.3实验结果及其分析总结1.图像全景拼接的原理和过程的简要介绍在同一位置拍摄的两幅或者多幅图片是单应性相关的，我们经常使用该约束将很多图像缝补起来，拼成一个
计算机视觉学习路线不会代码的小林计算机视觉
计算机视觉学习路线是一个系统而全面的过程，涵盖了从基础知识到高级应用的多个方面。以下是一个详细的计算机视觉学习路线，供您参考：一、基础知识学习编程语言与基础库学习Python语言，掌握基础语法、函数、面向对象编程等概念。Python是计算机视觉领域广泛使用的编程语言，因其简洁易读和丰富的库支持而受到青睐。学习Numpy库，用于科学计算和多维数组操作，这是计算机视觉中数据处理的基础。学习OpenCV
【Python第三方库】OpenCV库实用指南墨辰JC Python opencv python 人工智能学习
文章目录前言安装OpenCV读取图像图像基本操作获取图像信息裁剪图像图像缩放图像转换为灰度图图像模糊处理边缘检测图像翻转图像保存视频相关操作方法讲解读取视频从摄像头读取视频前言OpenCV（OpenSourceComputerVisionLibrary）作为一个强大的计算机视觉库，提供了丰富的图像处理和计算机视觉功能，尤其在图像识别、对象检测、视频分析等领域有着广泛的应用。本文将带领读者使用Pyt
ESRGAN——老旧照片、视频帧的修复和增强，提高图像的分辨率爱研究的小牛 AIGC——图像 AIGC—视频 AIGC 人工智能深度学习音视频自动化
ESRGAN（EnhancedSuper-ResolutionGAN）：用于提高图像的分辨率，将低质量图像升级为高分辨率版本，常用于老旧照片、视频帧的修复和增强。一、ESRGAN介绍1.1背景超分辨率问题是计算机视觉中的一个重要研究领域，其目标是通过增加像素数量来提高图像的分辨率，恢复出更加细腻的图像。传统的算法（如双三次插值）通常导致放大后的图像模糊、不自然。而深度学习特别是**生成对抗网络（G
计算机视觉之旅-进阶-图像滤波处理撸码猿计算机视觉图像处理人工智能
1.基本概念1.1.数字图像图像处理的对象是数字图像,它是由像素点阵列表示的图像。需要了解像素、图像分辨率、灰度级、RBG等图像表示方法。用numpy数组表示,每个元素为像素值。例如RGB图像 importnumpyasnp img=np.array([[[255,0,0],[0,255,0]],[[0,0,255],[255,255,255]]]) 1.2.采样和量化数字图像是通过采样和量化得到
探秘3D UNet-PyTorch：高效三维图像分割利器鲍凯印Fox
探秘3DUNet-PyTorch：高效三维图像分割利器在医学影像处理、计算机视觉和自动驾驶等领域，三维图像的理解与分析至关重要。而是一个基于PyTorch实现的深度学习模型，专为三维图像分割任务设计。本文将深入剖析该项目的技术细节，应用场景及特性，以期吸引更多的开发者和研究人员参与其中。项目简介3DUNet是2DUNet的三维扩展，其结构保持了卷积神经网络的对称性，采用跳跃连接的方式保留了不同尺度
论文学习笔记 VMamba: Visual State Space Model Wils0nEdwards 学习笔记
概览这篇论文的动机源于在计算机视觉领域设计计算高效的网络架构的持续需求。当前的视觉模型如卷积神经网络（CNNs）和视觉Transformer（ViTs）在处理大规模视觉任务时展现出良好的表现，但都存在各自的局限性。特别是，ViTs尽管在处理大规模数据上具有优势，但其自注意力机制的二次复杂度对高分辨率图像处理时的计算成本极高。因此，研究者希望通过引入新的架构来降低这种复杂度，并提高视觉任务的效率。现
深度学习计算机视觉中 feature modulation 操作是什么？ Wils0nEdwards 深度学习计算机视觉人工智能
什么是特征调制（FeatureModulation）？在深度学习与计算机视觉领域，特征调制（FeatureModulation）是一种用于增强模型灵活性和表达能力的技术，尤其是最近几年，它在许多任务中变得越来越重要。特征调制通过动态调整神经网络中间层的特征，使模型能够根据不同的上下文、输入或任务自适应地调整自身的行为。特征调制的核心概念特征调制的基本思想是通过某种形式的参数调节来改变特征表示的性质
计算机视觉中，如何理解自适应和注意力机制的关系？ Wils0nEdwards 计算机视觉人工智能
自适应和注意力机制之间的关系密切相关，注意力机制本质上是一种自适应的计算方法，它能够根据输入数据的不同特点，自主选择和聚焦于输入的某些部分或特征。以下是两者之间的具体关系和如何理解它们：1.注意力机制的自适应特性注意力机制的核心功能是为不同输入元素（如特征、位置、通道等）分配不同的权重。这些权重是通过学习动态生成的，表示模型对不同输入元素的关注程度。由于这些权重是根据具体的输入数据动态计算的，因此
解锁Python中的人脸识别：Face Recognition库详解与应用码上飞扬 Recognition 人脸识别
在当今的人工智能时代，人脸识别技术已经成为了计算机视觉领域的一项重要应用。无论是在安全监控、社交媒体还是智能设备中，人脸识别都扮演着不可或缺的角色。在众多的人脸识别工具和库中，Python的FaceRecognition库以其简单易用和高效性而备受青睐。本文将深入探讨FaceRecognition库的使用方法、工作原理及其应用场景，帮助你快速掌握这一强大的工具。一、什么是FaceRecogniti
【定位系列论文阅读】-Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for Place Recognition（一）醉酒柴柴论文阅读学习笔记
这里写目录标题概述研究内容Abstract第一段（介绍本文算法大致结构与优点）1.Introduction介绍第一段（介绍视觉位置识别的重要性）第二段（VPR的两种常见方法，本文方法结合了两种方法）第三段（本文贡献）第四段（为证明本文方法优越性，进行的测试以及比较）2.RelatedWork相关工作第一段（介绍早期与深度学习的全局图像描述符）第二段（介绍局部关键点描述符）第三段（局部描述符可以进一
论文阅读笔记（十九）：YOLO9000: Better, Faster, Stronger __Sunshine__ 笔记 YOLO9000 detection classification
WeintroduceYOLO9000,astate-of-the-art,real-timeobjectdetectionsystemthatcandetectover9000objectcategories.FirstweproposevariousimprovementstotheYOLOdetectionmethod,bothnovelanddrawnfrompriorwork.Theim
OpenCV3最常用的基本操作 HeoLis
OpenCV介绍OpenCV的全称是OpenSourceComputerVisionLibrary，是一个跨平台的计算机视觉库。OpenCV是由英特尔公司发起并参与开发，以BSD许可证授权发行，可以在商业和研究领域中免费使用。OpenCV可用于开发实时的图像处理、计算机视觉以及模式识别程序。该程序库也可以使用英特尔公司的IPP进行加速处理。以上是维基百科关于OpenCV的介绍，简单来说它就是处理图
论文阅读笔记: DINOv2: Learning Robust Visual Features without Supervision 小夏refresh 论文计算机视觉深度学习论文阅读笔记深度学习计算机视觉人工智能
DINOv2:LearningRobustVisualFeatureswithoutSupervision论文地址:https://arxiv.org/abs/2304.07193代码地址:https://github.com/facebookresearch/dinov2摘要大量数据上的预训练模型在NLP方面取得突破，为计算机视觉中的类似基础模型开辟了道路。这些模型可以通过生成通用视觉特征(即无
Sora文本生成影像模型背后的创新原理与挑战 noVonN c语言深度学习算法区块链人工智能
引言随着人工智能技术的飞速发展，OpenAI作为行业领导者，在文本生成领域取得重大突破之后，近日又推出了其在影像生成领域的最新力作——Sora。这款模型将自然语言处理与计算机视觉技术相结合，旨在通过输入文本描述来快速创作出逼真的电影场景，为内容创作者提供了前所未有的艺术表达工具。然而，正如OpenAI所指出的那样，尽管Sora展现出了令人惊叹的创造力，但它在仿真复杂物理现象和理解具体事例因果关系方
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st