Diffuse, Attend, and Segment: Unsupervised Zero-Shot Segmentation using Stable Diffusion

本文是LLM系列文章,针对《Diffuse, Attend, and Segment: Unsupervised Zero-Shot Segmentation using Stable Diffusion》的翻译。

扩散、关注和分割:使用StableLM diffusion的无监督零样本分割

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 方法
  • 4 实验
  • 5 可视化
  • 6 结论

摘要

生成高质量的图像分割掩模是计算机视觉中的一个基本问题。最近的研究已经探索了大规模的监督训练,以实现对几乎任何图像风格的零样本分割,以及无监督训练,以便在没有密集注释的情况下实现分割。然而,构建一个能够在没有任何注释的情况下以零样本方式分割任何东西的模型仍然具有挑战性。在本文中,我们建议利用稳定扩散模型中的自注意层来实现这一目标,因为预先训练的稳定扩散模型已经学习了其注意层中对象的固有概念。具体来说,我们引入了一种简单而有效的迭代合并过程,该过程基于测量注意力图之间的KL散度,将它们合并为有效的分割掩码。所提出的方法不需要任何训练或语言依赖性来提取任何图像的质量分割。在COCO-Stuff-27上,我们的方法在像素精度和平均IoU上分别超过了先前的无监督零样本SOTA方法26%和17%。

1 引言

2 相关工作

3 方法

4 实验

5 可视化

6 结论

无监督和零样本分割是一个非常具有挑战性的设置,只有少数论文试图解决它。大多数现有工作要么需要无监督适应(而不是零样本),要么需要外部资源。在本文中,我们提出了DiffSeg,在没有任何先验知识或外部资源的情况下,使用预先训练的稳定扩散模型来分割图像,而不需要任何额外的训练。具体来说,该算法依赖于注意力内相似性和注意力间相似性来迭代地将注意力图合并到有效的分割掩码中。DiffSeg在流行的基准测试上实现了最先进的性能,并对不同风格的图像表现出了卓越的泛化能力。

你可能感兴趣的:(LLM,深度学习,人工智能)