Transformer+目标检测,这一篇入门就够了

Vision Transformer for Object Detection

  • 本文作者:
  • Encoder-Decoder 简介:
  • Encoder-Decoder 的缺陷:
  • Attention 机制:
  • Self-Attention 机制:
  • Multi-Head Attention:
  • Transformer 结构:
  • 图像分类之ViT:
  • 图像分类之Pyramid ViT:
  • 目标检测之DETR:
  • 目标检测之Deformable DETR:

Transformer+目标检测,这一篇入门就够了_第1张图片

本文作者:

BIT可达鸭

禁止转载

Encoder-Decoder 简介:

机器翻译是序列转换模型的一个核心问题,其输入和输出都是长度可变的序列。为了处理这种类型的输入和输出,我们可以设计一个包含两个主要组件的结构。第一个组件是一个 编码器(encoder):它接受一个长度可变的序列作为输入,并将其转换为具有固定形状的编码状态。第二个组件是 解码器(decoder):它将固定形状的编码状态映射到长度可变的序列。这被称为 编码器-解码器(encoder-decoder)结构:

Transformer+目标检测,这一篇入门就够了_第2张图片

同样我们可以将Encoder-Decoder结构类比到视觉算法中,例如FCN、UNet等语义分割模型中encoder对应卷积操作,而decoder则对应上采样操作:

你可能感兴趣的:(▶,深度学习-计算机视觉,transformer,深度学习,目标检测,计算机视觉,自然语言处理)