论文笔记:CVPR2023 IRRA—隐式推理细粒度对齐模型,语言行人检索任务新SOTA,CUHK-PEDES数据集Rank-1可达73.38%!

目录

  • 论文基本信息
  • 引言
  • 模型
    • 模态编码器
    • Implicit Relation Reasoning 模块与 MLM 任务
    • Similarity Distribution Matching
  • 结果

论文基本信息

论文笔记:CVPR2023 IRRA—隐式推理细粒度对齐模型,语言行人检索任务新SOTA,CUHK-PEDES数据集Rank-1可达73.38%!_第1张图片

论文:Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image Person Retrieval
代码:https://github.com/anosorae/IRRA

这是今年CVPR2023的工作,也是目前在语言行人检索领域实现SOTA性能的模型,模型整体并不复杂性能却很好,代码也做了开源,是一个非常好的工作。

下面将对该文章进行简要的梳理与记录,还不太了解该任务的小伙伴可以看一下博主之前的介绍文章:
《基于自然语言描述的行人检索 Text-based Person Retrieval - 常用数据集》

引言

文本行人检索旨在基于给定的文本描述查询识别目标人物,该任务的首要挑战是学习一个视觉和文本模态到共同潜在空间的映射,然后在该映射空间中完成相似图文对的匹配。

那么先前的工作都是怎么做的呢?主流方法都是分别通过两个预训练好的单模态模型来提取图片和文本特征,并且利用先验信息来显示地对齐图像和文本之间的关系,从而做出最终的预测。如果感觉不太好理解可以看一下原论文的图:

论文笔记:CVPR2023 IRRA—隐式推理细粒度对齐模型,语言行人检索任务新SOTA,CUHK-PEDES数据集Rank-1可达73.38%!_第2张图片
最简单最直接的方法就是用两个模态的编码器来分别提取图像和文本特征,然后做一个全局匹配,比如分别用ViT和BERT提取图像和文本特征,然后将全局特征向量投影到共同空间中做一个点积,响应高的就视为匹配图文对,这就是(a)图中的方法。

这样的全局匹配显然是缺乏一定细粒度对齐能力的,于是就有了图(b)中这种显示局部对齐的方法。具体来说就是根据行人图像的先验信息,把图片划分为头、上身、下身等等几个部分,然后分别提取这几个区域的特征作为行人图片的局部特征;同样的,对于自然语言描述进行相关的名词抽取、语句分析等,提取住一些关键的名词的特征作为描述语言的局部特征,然后进行一个显示的局部匹配。这种局部匹配策略虽然有利于提升检索性能,但在检索过程中引入了不可避免的噪声和不确定性;此外,该策略需要在推理过程中计算这些表示之间的成对相似性,降低了推理速度。

针对上述问题,该文章就提出了一种跨模态隐式推理和对齐模型(cross-modal Implicit Relation Reasoning and Aligning, IRRA),该框架借助跨模态隐式局部关系学习进行全局对齐,而不需要任何额外的监督和推理代价,如图©所示。具体来说,IRRA设计了一个隐式关系推理模块,通过自注意力和交叉注意力机制有效地构建视觉和文本表示之间的关系,然后利用该融合表示来做语言掩码建模(MLM)任务,实现有效的隐式模态间和模态内细粒度关系学习;其次,为了全局对齐视觉和文本嵌入,提出了相似性分布匹配损失来最小化图像-文本相似性分布与标准化标签匹配分布之间的KL散度。

IRRA在所有三个公开数据集上都取得了最新的结果,与之前的方法相比,Rank-1准确率有大约3%-9%的显著提升。

模型

论文笔记:CVPR2023 IRRA—隐式推理细粒度对齐模型,语言行人检索任务新SOTA,CUHK-PEDES数据集Rank-1可达73.38%!_第3张图片
模型的总体架构如上图所示,如果用一段话来描述这段模型的话,可以概括为:

IRRA首先利用预训练好的CLIP模型来分别提取视觉和文本特征,分别得到图像[cls]特征向量和整体特征向量序列、文本[cls]特征向量和整体特征向量序列。随后开始进行全局匹配监督和局部隐式推理监督两个任务,全局匹配就是对图像[cls]特征和文本[cls]特征做点乘得到相似度矩阵,然后与真实的标签分布做KL散度损失;局部隐式推理就是做了一个跨模态的MLM任务,首先对文本描述序列进行随机单词屏蔽,然后使用交叉注意力机制和自注意力机制进行跨模态融合,然后对屏蔽单词进行预测,由此完成模型的细粒度对其学习。

接下来我们详细地介绍一下每个模块的具体架构:

模态编码器

编码器部分就是使用的预训练好的CLIP模型,图像这边使用的是ViT16/32模型,而没有使用ResNet系列的模型;文本这边使用的就是CLIP Text Transformer。

Implicit Relation Reasoning 模块与 MLM 任务

论文笔记:CVPR2023 IRRA—隐式推理细粒度对齐模型,语言行人检索任务新SOTA,CUHK-PEDES数据集Rank-1可达73.38%!_第4张图片
隐式推理部分就是借鉴了MLM任务的思想,即按照BERT模型的方式对语言进行随机掩码,然后使用一个跨模态注意力机制交互语言和图像信息,最后预测出相应的掩码单词,以此来提升模型的细粒度对齐能力。

IRRA使用的跨模态注意力机制比较类似于单向跨模态注意力机制,同样是文本做query、图像做key和value进行交互,不同之处在于其只用一个交叉注意力机制然后堆叠了 M M M个自注意力机制和前向网络,如下图所示。
论文笔记:CVPR2023 IRRA—隐式推理细粒度对齐模型,语言行人检索任务新SOTA,CUHK-PEDES数据集Rank-1可达73.38%!_第5张图片

Similarity Distribution Matching

全局匹配就是通过常用的点乘方式得到图像和文本之间的相似度矩阵,然后和真实的分布矩阵计算KL散度损失,在这中间还加入了温度系数调节相似度矩阵的峰值,整体上没有太多改进。
论文笔记:CVPR2023 IRRA—隐式推理细粒度对齐模型,语言行人检索任务新SOTA,CUHK-PEDES数据集Rank-1可达73.38%!_第6张图片

结果

结果当然是非常好的,IRRA在CUHK-PEDES、ICFG-PEDES和RSTPReid数据集上均实现了SOTA的性能,并且提升幅度是很大的。

论文笔记:CVPR2023 IRRA—隐式推理细粒度对齐模型,语言行人检索任务新SOTA,CUHK-PEDES数据集Rank-1可达73.38%!_第7张图片
论文笔记:CVPR2023 IRRA—隐式推理细粒度对齐模型,语言行人检索任务新SOTA,CUHK-PEDES数据集Rank-1可达73.38%!_第8张图片
论文笔记:CVPR2023 IRRA—隐式推理细粒度对齐模型,语言行人检索任务新SOTA,CUHK-PEDES数据集Rank-1可达73.38%!_第9张图片

你可能感兴趣的:(细粒度跨模态检索,计算机视觉,人工智能,深度学习)