CVPR2022-CVPR-GroupVit:由文本监督的语义分割生成的

题目:GroupViT:Semantic Segmentation Emerges from Text Supervision

摆脱非常贵的手工标注,用文本进行监督

Group起名的由来:
无监督方法grouping:是早期的自下而上的方法,先得到聚类中心点,然后扩散,实现语义分割。本文借鉴grouping的思想。

输入说明:
假设输入为224x224的图片,patch embading 是16x16
196x384中的特征维度是384这是因为使用的是Vit-small
CVPR2022-CVPR-GroupVit:由文本监督的语义分割生成的_第1张图片

Group tokens说明:
group tokens的输入设置的是64x384,这是为了和196x384拼接,64是为了获得更多的聚类中心。<

你可能感兴趣的:(人工智能,深度学习)