[ECCV 2022] VL-LTR: Learning Class-wise Visual-Linguistic Representation for LTR

Contents

  • Introduction
  • Methodology
    • Class-wise Visual-Linguistic Pre-training (CVLP)
    • Language-Guided Recognition
  • Experiments
  • References

Introduction

  • 作者将大规模预训练多模态模型 (i.e., CLIP) 用在了长尾分类任务上,提出了 VL-LTR. 作者指出,文本通常可以描述类别的一些高层级的语义信息,当类别缺少足够样本时,文本可以作为类别的先验知识,让模型学得泛化性更好的类别特征。通过在长尾数据集上继续微调模型 (CVLP) 以及使用新的多模态分类头 (LGF Head),VL-LTR 在 3 个长尾数据集上的性能都达到了 SOTA
    [ECCV 2022] VL-LTR: Learning Class-wise Visual-Linguistic Representation for LTR_第1张图片

Methodology

[ECCV 2022] VL-LTR: Learning Class-wise Visual-Linguistic Representation for LTR_第2张图片

Class-wise Visual-Linguistic Pre-training (CVLP)

  • 不同于 CLIP 使用 instance-wise image-text pairs 进行对比学习,CVLP 主要目标是预训练图像和文本 encoder,从而在 class level 上对齐图像和文本表征只要是描述同一类别的图像和文本都可以组成正样本对 (不过 CVLP 的初始化参数仍然来自于 CLIP)
  • Class-wise Contrastive Learning (CCL) loss. 随机采样一个 batch 的 images I = { I i } i = 1 N \mathcal I=\{I_i\}_{i=1}^N I={Ii}i=1N 和 text sentences T = { T i } i = 1 N \mathcal T=\{T_i\}_{i=1}^N T={Ti}i=1N,分别送入 visual encoder E vis \mathcal E_{\text{vis}} Evis 和 linguistic encoder E lin \mathcal E_{\text{lin}} Elin 得到图像和文本 embed
    在这里插入图片描述CCL loss 为
    [ECCV 2022] VL-LTR: Learning Class-wise Visual-Linguistic Representation for LTR_第3张图片其中, S i , j S_{i,j} Si,j E i I E_i^I EiI E j T E_j^T EjT 之间的余弦相似度, L vis \mathcal L_{\text{vis}} Lvis L lin \mathcal L_{\text{lin}} Llin 为图像和文本分别作为 anchor 时的对比损失, T i + \mathcal T_i^+ Ti+ 为 image I i I_i Ii 的文本正样本集合 (i.e., 描述同一类别的文本), I i + \mathcal I_i^+ Ii+ 为 text T i T_i Ti 的图像正样本集合 (i.e., 描述同一类别的图像), τ \tau τ 为可学习的温度参数,初始化为 0.07
  • distillation loss. 为了避免文本语料库不足导致的过拟合,作者还从 CLIP 进行了蒸馏 (看实验结果的话,zero-shot CLIP 的 few-shot 性能好于 VL-LTR,这说明在训练的时候模型还是对尾部类别过拟合了,而蒸馏可以在一定程度上缓解过拟合)
    [ECCV 2022] VL-LTR: Learning Class-wise Visual-Linguistic Representation for LTR_第4张图片其中, S ′ S' S 为 CLIP 计算的余弦相似度 (CLIP 参数冻结,不进行训练)
  • 总的损失函数
    在这里插入图片描述其中, λ ∈ [ 0 , 1 ] \lambda\in[0,1] λ[0,1]

Language-Guided Recognition

  • 预训练结束后 text encoder 的参数就冻结了,下面只微调 image encoder 和 LGR Head
  • Anchor Sentence Selection (AnSS). 语料库中的大多数文本描述都是从网络爬取的 (mainly come fromWikipedia),可能有比较多的噪声,因此有必要为每个类别找到 the most discriminative sentences 用于后续的分类. 具体来说,作者先采样一个 image batch I ′ I' I,其中每个类别包含最多 50 张图像,然后对每个文本 T i T_i Ti,计算该文本和 I ′ I' I 之间的 L lin \mathcal L_{\text{lin}} Llin,选择 L lin \mathcal L_{\text{lin}} Llin 最小的 M M M 个文本作为该类别后续分类使用的 anchor sentences
  • Language-Guided Recognition (LGR) Head.
    [ECCV 2022] VL-LTR: Learning Class-wise Visual-Linguistic Representation for LTR_第5张图片其中, E I ∈ R D E^I\in\R^D EIRD 为 image embedding, E T ∈ R C × M × D E^T\in\R^{C\times M\times D} ETRC×M×D C C C 个类别的 anchor sentences, Q ∈ R D Q\in\R^D QRD K , V ∈ R C × M × D K,V\in\R^{C\times M\times D} K,VRC×M×D G ∈ R C × D G\in\R^{C\times D} GRC×D 为 gather of the M M M anchor sentence embeddings of each class,整个注意力机制就是用 image embed 作为 query 对每个类别的 M M M 个 anchor sentence embeddings 做了一个加权平均得到 C C C 个 class embed, σ \sigma σ 为 softmax,MLP 为 FC + ReLU + FC, P I , P T P^I,P^T PI,PT 分别为预测的两个分类概率. 损失函数
    在这里插入图片描述[ECCV 2022] VL-LTR: Learning Class-wise Visual-Linguistic Representation for LTR_第6张图片

Experiments

  • ImageNet-LT
    [ECCV 2022] VL-LTR: Learning Class-wise Visual-Linguistic Representation for LTR_第7张图片[ECCV 2022] VL-LTR: Learning Class-wise Visual-Linguistic Representation for LTR_第8张图片

baseline is only based on visual modality while keeping other settings exactly the same as our proposed method

  • Places-LT
    [ECCV 2022] VL-LTR: Learning Class-wise Visual-Linguistic Representation for LTR_第9张图片
  • iNaturalist 2018
    [ECCV 2022] VL-LTR: Learning Class-wise Visual-Linguistic Representation for LTR_第10张图片
  • Ablation Study.
    [ECCV 2022] VL-LTR: Learning Class-wise Visual-Linguistic Representation for LTR_第11张图片[ECCV 2022] VL-LTR: Learning Class-wise Visual-Linguistic Representation for LTR_第12张图片

References

  • Tian, Changyao, et al. “Vl-ltr: Learning class-wise visual-linguistic representation for long-tailed visual recognition.” ECCV 2022.
  • code: https://github.com/ChangyaoTian/VL-LTR

你可能感兴趣的:(长尾问题,ECCV,2022)