Group ViT(Semantic Segmentation Emerges from Text Supervision)
GroupViT(SemanticSegmentationEmergesfromTextSupervision)CVPR2022来自文本的监督信号,并不依赖于Segmentationmask的手工标注。而是像CLIP一样利用图像文本对使用对比学习的方式进行无监督的训练。视觉方面做分割,grouping是一种常用的方法。如果有一些聚类的中心点,从这些中心点开始发散,把周围相似的点逐渐扩散成一个gro