Meta 推出 WebSSL 模型:探索 AI 无语言视觉学习,纯图训练媲美 OpenAI CLIP
Web-SSL探索了视觉自监督学习(SSL)在网络规模数据上的扩展潜力。通过调整模型大小和训练数据,我们证明了纯视觉模型可以与CLIP等语言监督方法相媲美,甚至超越它们,从而对"语言监督是学习多模态建模所需的强大视觉表征的必要条件"这一普遍假设提出了挑战。我们提出了Web-SSL:一个参数从0.3B到7B不等的纯视觉模型系列,它为多模态建模和经典视觉任务提供了CLIP的有力替代方案。主要发现:SS