Dual-awareness Attention for Few-Shot Object Detection

Should I Look at the Head or the Tail? Dual-awareness Attention for Few-Shot Object Detection

论文链接:https://arxiv.org/pdf/2102.12152.pdf

Introduction

现有的少样本目标检测存在的问题:

  • 全局池化会导致严重的空间信息损失。

  • 基于卷积的注意力对于分布变化的目标之间关系的建模不够有效,会导致空间失调(spatial misalignment)。

  • 直接将多张同类目标的平均特征图作为一个类别的表示会导致信息纠缠。
    Dual-awareness Attention for Few-Shot Object Detection_第1张图片
    证明空间变量对于少样本目标检测的影响

  • 假设:空间变化(spatial variability) 对于 FSOD 不重要,那么支持集的选择对于 FSOD 的性能没有很大影响。

  • 通过实验证明,支撑集中背景噪声和空间变化影响 FSOD 的检测性能。

Dual-awareness Attention for Few-Shot Object Detection_第2张图片
针对提出的三个问题,本文提出了双重感知注意力机制(Dual-awareness Attention, DAnA),由背景注意力(Background Attention)模块和跨图像空间注意力(Cross-image Spatial Attention)模块组成。

Methodology

Problem Definition
  • 任务定义

    S 为支撑集,由K个相同类别的图片组成, S = { S k } k = 1 K S = {\{S^k\}}_{k=1}^{K} S={Sk}k=1K

    给定一个支撑集 S i S_i Si和一个查询集 I i I_i Ii,少样本目标检测的任务是识别 I i I_i Ii中所有属于 S i S_i Si类别的目标

    通过收集( S i S_i Si, I i I_i Ii),可以定义one-way K-shot目标检测任务 H = { ( S i , I i ) } i = 1 τ H = \{(S_i,I_i)\}_{i=1}^{\tau} H={(Si,Ii)}i=1τ

  • 数据定义

    数据集依据种类分为两个部分, C b a s s C^{bass} Cbass表示用来训练的种类, C n o v e l C^{novel} Cnovel表示用来测试泛化能力。先利用基础数据训练一个条件模型 f ( I ∣ S ) f(I|S) f(IS),给定支撑集 S S S 的基础上,识别查询集 I I I ,这样学习到的模型可以被应用到新类别数据集上。

Dual-awareness Attention Mechanism
  • 实现目标
    • 增强支撑特征图的语义上下文
    • 自适应地聚合多个支撑特征和查询特征的映射关系
Background Attention Block

Dual-awareness Attention for Few-Shot Object Detection_第3张图片
过程建模

利用一个可学习的矩阵 W e ∈ R 1 × C W_e \in R^{1 \times C} WeR1×C变换支撑特征图 Y k ∈ R C × H S × W S Y^k \in R^{C\times H_S \times W_S} YkRC×HS×WS ,并将其应用于 softmax 函数,表示如下:
Dual-awareness Attention for Few-Shot Object Detection_第4张图片
y i k ∈ R C × 1 y_{i}^{k} \in R^{C \times 1} yikRC×1 表示 Y k Y^k Yk 的第 i i i 像素, A B A ( y i ) A_{BA}(y_i) ABA(yi) 可以看作对不同位置 i i i 的打分,基于此,后续过程可以用如下表示:
Dual-awareness Attention for Few-Shot Object Detection_第5张图片
β \beta β 为超参数,输出 Y ^ k \hat{Y}^{k} Y^k 表示为每个位置增强上下文语义的特征图。

Cross-image Spatial Attention Block

Dual-awareness Attention for Few-Shot Object Detection_第6张图片
过程建模

输入查询特征图 X X X 和增强的支撑特征图 Y k Y^{k} Yk,利用矩阵 W q , W k ∈ R C ′ × C W_q, W_k \in R^{C' \times C} Wq,WkRC×C 获得query embedding Q = W q X Q=W_q X Q=WqX 和key embedding K = W k Y ^ k K=W_k\hat{Y}^k K=WkY^k,查询特征和支撑特征之间的对应关系可以通过以下方法计算:
δ ( X , Y ^ k ) = σ ( ( Q − μ Q ) T ( K − μ K ) ) \delta(X,\hat{Y}^{k}) = \sigma((Q-\mu_Q)^T(K-\mu_K)) δ(X,Y^k)=σ((QμQ)T(KμK))
δ ( X , Y ^ k ) \delta(X,\hat{Y}^{k}) δ(X,Y^k) 的大小为 H X W X × H Y W Y H_XW_X \times H_YW_Y HXWX×HYWY μ Q \mu_Q μQ μ K \mu_K μK 是query embedding 和 key embedding 所有像素值的平均值。跨图像空间注意力函数 A C I S A A_{CISA} ACISA 定义为如下形式:
A C I S A ( X , Y ^ k ) = σ ( X , Y ^ k ) + γ ⋅ W r Y ^ k A_{CISA}(X,\hat{Y}^k) = \sigma(X,\hat{Y}^k) + \gamma \cdot W_r\hat{Y}^k ACISA(X,Y^k)=σ(X,Y^k)+γWrY^k
其中 W r ∈ R 1 × C W_r \in R^{1 \times C} WrR1×C 是一个可学习的权重矩阵,加号前后两项可以看作跨图像注意力和自注意力,前者衡量对应关系,后者代表每个像素的重要性,基于此可以构建query-position-aware(QPA)支撑特征 Z k ∈ R C × H X × H Y Z^k \in R^{C \times H_X \times H_Y} ZkRC×HX×HY
z i k = ∑ j ∈ Ω A C I S A ( X , Y ^ k ) j ⋅ y ^ j k z_{i}^{k} = \sum_{j \in \Omega}A_{CISA}(X,\hat{Y}^k)_j \cdot \hat{y}_j^k zik=jΩACISA(X,Y^k)jy^jk
在K-shot的设置中,对特征求平均
Z = 1 K ∑ k = 1 K Z k Z=\frac{1}{K} \sum_{k=1}^KZ^k Z=K1k=1KZk
这里为什么进行可以求平均,因为 z i 1 , z i 2 , . . . z i K z_{i}^{1}, z_{i}^{2},...z_{i}^{K} zi1,zi2,...ziK都是基于 x i x_{i} xi并表示相同的语义信息。

FSOD with Dual-awareness Attention

双重感知注意力机制(DAnA)较易融入one-stage 和 two-stage 的目标检测方法中,本文将其应用于Faster R-CNN 和 RetinaNet 中,整体的结构如下图所示:
Dual-awareness Attention for Few-Shot Object Detection_第7张图片

Experiments

Two-stage

Dual-awareness Attention for Few-Shot Object Detection_第8张图片

One-stage

Dual-awareness Attention for Few-Shot Object Detection_第9张图片

你可能感兴趣的:(论文阅读,深度学习,目标检测,少样本)