万物识别RAM:图像识别模型,Zero-Shot超越有监督

文章目录

  • RAM的优势
  • RAM的创新点
  • 总结与展望
  • 参考文献

大语言模型(Large Language Models)已经给自然语言处理(NLP)领域带来了新的革命。在计算机视觉(CV)领域,Facebook近期推出的Segment Anything Model(SAM)工作,在视觉定位(Localization)任务上取得了令人振奋的结果。然而SAM作为一个极致的定位大模型,并没有识别(Recognition)能力,而识别是与定位同等重要的CV基础任务。现有的开放式检测、分割任务尝试同时做好识别和定位,却在两个任务上都不能达到极致。

万物识别RAM:图像识别模型,Zero-Shot超越有监督_第1张图片
我们推出视觉感知大模型Recognize Anything Model(RAM),提供最强的图像识别能力,RAM为图像识别领域提供了一种新的范式,使用海量无需人工标注的网络数据,可以训练出泛化能力强大的通用模型,甚至在垂域下可以超越人工标注训练的有监督模型。

RAM的优势

能力强且通用:RAM可识别任意常见类别,支持中英文,精度上其Zero-Shot能力超越了有监督模型,

你可能感兴趣的:(vision,/,segmentation,多模态,计算机视觉,大模型)