【论文视频】ViT论文逐段精读. ICLR 2021【论文精读】

【论文视频】ViT论文逐段精读. ICLR 2021【论文精读】_第1张图片

文章目录

  • 1. 四个问题
  • 2. 论文介绍
  • 3. 参考资料:

1. 四个问题

  1. 解决什么问题
    将Transformer架构 从 NLP 搬到 CV领域上来

  2. 用什么方法解决
    将图片打成patch,转换为token,其余同Transformer
    【论文视频】ViT论文逐段精读. ICLR 2021【论文精读】_第2张图片

  3. 效果如何
    小数据集上效果不及CNN,但数据量上来了超过CNN
    paperwithcode网站 霸榜 ImageNet (基于 ViT)和 COCO ,目标检测(Swin Transformer ICCV 21 best paper:多尺度的 ViT )的模型

  4. 还存在什么问题
    用ViT做其它任务,它只做了分类任务
    自监督的预训练方式
    ViT 和 contrastive pre-training 的结合: future work i.e., MOCOv3, DINO
    contrastive learning: 2020 年 CV 最火的 topic,是所有 自监督学习方法表现最好的。
    【论文视频】ViT论文逐段精读. ICLR 2021【论文精读】_第3张图片【论文视频】ViT论文逐段精读. ICLR 2021【论文精读】_第4张图片

2. 论文介绍

ViT 除了标准的 transformer,关键部分是 怎么对图片进行预处理 和 怎么对图片最后的输出进行后处理。

【论文视频】ViT论文逐段精读. ICLR 2021【论文精读】_第5张图片
【论文视频】ViT论文逐段精读. ICLR 2021【论文精读】_第6张图片
【论文视频】ViT论文逐段精读. ICLR 2021【论文精读】_第7张图片
归纳偏置
【论文视频】ViT论文逐段精读. ICLR 2021【论文精读】_第8张图片
ViT挖了一个大坑,CV和NLP的大一统?各种信号都可以拿来使用?
【论文视频】ViT论文逐段精读. ICLR 2021【论文精读】_第9张图片
【论文视频】ViT论文逐段精读. ICLR 2021【论文精读】_第10张图片
【论文视频】ViT论文逐段精读. ICLR 2021【论文精读】_第11张图片


Vision transform 过去一年 在CV领域最火

paperswithcode 这个网站,可以知道哪个领域或者数据集表现最好的方法有哪些

【论文视频】ViT论文逐段精读. ICLR 2021【论文精读】_第12张图片

【论文视频】ViT论文逐段精读. ICLR 2021【论文精读】_第13张图片

【论文视频】ViT论文逐段精读. ICLR 2021【论文精读】_第14张图片

3. 参考资料:

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale:https://arxiv.org/abs/2010.11929

语言过于流畅强推 - ViT论文逐段精读【论文精读】:https://www.bilibili.com/video/BV15P4y137jb?spm_id_from=333.999.0.0

文字参考1

文字复述-更详细版 | 续

你可能感兴趣的:(深度学习,CV)