[论文笔记] A Survey on Vision Transformer 阅读笔记

A Survey on Vision Transformer 阅读笔记

  • A Survey on Vision Transformer(TPAMI 2022)
    • 摘要
    • Vision Transformer
      • Backbone
      • High/Mid-level Vision
      • Low-level Vision
      • Video Processing
      • Multi-Modal Task
      • Efficient Transformer
    • Conclusion and Disscussions
      • Challenges
      • Future Prospects
    • Self-attention for Computer Vision

A Survey on Vision Transformer(TPAMI 2022)

论文链接:论文链接
代码链接:无

摘要

  • 根据 transformer 不同应用场景进行了分类:
    • backbone
    • high/mid level vision
    • low level vision
    • 视频处理
  • 将高效 transformer 方法应用到实际设备中
  • self-attention
  • milestone

Vision Transformer

Backbone

  • 分类
    [论文笔记] A Survey on Vision Transformer 阅读笔记_第1张图片
  • 纯 Transformer
    • ViT
      [论文笔记] A Survey on Vision Transformer 阅读笔记_第2张图片
    • 其他变种
      • 增加 Transformer 提取局部信息的能力
      • 改进 self-attention 模块
      • 改进网络结构
  • Transformer 结合 CNN——这个方法能取得最好的效果
    • Transformer 的局部特征提取能力很差。和上面的“其他变种”中的方法不一样的是,这里的方法把 Transformer 和 CNN 直接结合到一起,CNN 提取局部特征的能力很强
    • Transformer 模型难以拟合数据。optimizer, hyper-parameter, the schedule of
      training 这些都需要精心设计,不然模型的效果就会非常差
  • Self-supervised Representation Learning
    自监督学习这一块不是很懂,暂时不看
  • 算法结果对比

    [论文笔记] A Survey on Vision Transformer 阅读笔记_第3张图片

High/Mid-level Vision

这一块的任务包括object detection, lane detection, segmentation, pose estimation

  • Generic Object Detection
    [论文笔记] A Survey on Vision Transformer 阅读笔记_第4张图片
    [论文笔记] A Survey on Vision Transformer 阅读笔记_第5张图片
    • Transformer-based set prediction
      • 例如 DETR 和 Deformable DETR。还可以参考 DETR 的改进:TSP-FCOS、Spatially
        Modulated Co-Attention、Adaptive Clustering
        Transformer、multi-task knowledge distillation、Efficient DETR
    • Transformer-based backbone
      • 用 Transformer 来设计 backbone
    • Pre-training for Transformer-based Object Detection
      • 例如 UP-DETR,YOLOS
  • Segmentation
  • Pose Estimation
  • Other Task
  • 讨论——需要思考
    • 应用 Transformer 的三个需要解决的问题: input embedding, position encoding, and prediction loss
    • 增强自注意力模块:例如使用 deformable attention,
      adaptive clustering, point transformer
    • 是否需要在 Transformer 之前使用 CNN 等特征提取模块?
    • 能不能使用 pre-trained 的数据集来充分利用 Transformer?
    • 能不能预训练一个模型,然后让其他下游任务进行 fine-tune?
    • 如何结合特定任务的先验知识来设计更强大的架构?

Low-level Vision

Video Processing

Multi-Modal Task

Efficient Transformer

Conclusion and Disscussions

Challenges

  • 专门用于 cv 任务的 Transformer 架构还需要开发
  • CV Transformer 的泛化和鲁棒性也具有挑战性。与cnn相比,Transformer 严重依赖大量的数据集来训练。因此,数据的质量对变压器的泛化和鲁棒性有显著的影响
  • 无法解释为什么 Transformer 可以在 CV 上有好的表现。CNN 效果好的原因是inductive biases,包括translation equivariance 和 locality。可能的解释就是大规模数据集可以替代 inductive biases
  • Transformer 需要的计算资源太大了

Future Prospects

  • Transformer 在 CV 中的效率和有效性
  • 一个 Transformer 模型如何应用到多种任务上
  • 既然 Transformer 不依赖 inductive biases,并且通过大规模的数据集就可以替代,那么如果数据集足够多,那么是不是一个很简单的 Transformer 也可以获得好的效果?

Self-attention for Computer Vision

  • self-attention 模块在大感受野中有着低尺度的特性(是否有利于小目标检测)
  • 全注意力检测器
  • 全局上下文建模
  • 跨尺度特征
  • 多种目标表示法(传统方法用角点或者 bbox 来表示目标,能否把这些表示法结合起来)

你可能感兴趣的:(论文笔记,论文阅读,transformer,深度学习)