图像分割1

GroupViT: Semantic Segmentation Emerges from Text Supervision

  • 前置知识
  • 摘要
  • 简介
    • 语义分割通常使用全卷积神经网络实现
    • GroupViT

前置知识

transformer
这一篇本质上来说是迁移学习,后置阅读

摘要

end-to-end deep learning 端对端的训练
将分组机制带回到深度学习网络(允许只有文本监督而无像素级标识)
使用了Transformer模型
zero-shot(零次训练迁移)本质上来说是迁移学习

简介

语义分割通常使用全卷积神经网络实现

存在两个缺点:

  • 打标签成本高昂
  • 学习模型仅限于标记标签

GroupViT

利用Transformer的全局自注意力机制可以将视觉标记按照非网格状组装。
因此将视觉标记分层分组成不规则形状的标记

你可能感兴趣的:(图像分割,transformer,深度学习,自然语言处理)