分割一切:SAM, MobileSAM, Semantic-SAM系列

文章目录

  • SAM
    • 1.0. Summary
    • 1.1. Introduction


SAM

1.0. Summary

题目: Segment Anything
机构:Meta AI Research, FAIR
论文: https://arxiv.org/pdf/2304.02643.pdf
代码:
任务:
特点:
方法:
前置相关工作:CLIP, ALIGN
分割一切:SAM, MobileSAM, Semantic-SAM系列_第1张图片SAM论文针对分割这个问题主打的就是三个点:任务(promptable),模型,数据(10亿mask, 1100万图像,开源),zero shot能力强劲。

1.1. Introduction

通过web scale的数据集来预训练LLM,已经让NLP领域革命性地拥有了zero-shot和few-shot的能力。这些“foundation models"能够在训练之外的任务以及分布上具备泛化能力。这样一种能力往往是通过一种叫做“prompt engineering“的方式来实现的,即手工的文本用来prompt LM来立刻生成对任务有用的文本答复,当用足够的web数据来进行训练后,模型的zero-shot/few-shot的能力甚至在某些方面超过了finetuned models。

提到foundation model,在视觉领域绕不开的就是clip和align,它们用对比学习来训练文本和图像的encoder来实现图文两种模态的对齐。在文本中,主打的是针对分割这个任务建立一个foundation model。这样一个模型,能够用prompt engineering的方式,在新的数据分布上也能有很好的分割表现。

主要解决关于分割的下面三个问题:

  1. 什么任务能够具备zero-shot的泛化性?
  2. 与之适配的模型结构是怎样设计的?
  3. 什么样的数据能够支持这样的任务以及模型?

这些问题彼此是交错的,因此需要一个

你可能感兴趣的:(论文阅读,人工智能,深度学习,计算机视觉)