17、InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
简介github(a)表示传统的视觉基础模型,如对分类任务进行预训练的ResNet。(b)表示视觉语言基础模型,例如CLIP,对图像-文本对进行预训练。(c)InternVL,它提供了一种将大规模视觉基础模型(即InternViT-6B)与大型语言模型对齐的可行方法,并且对于对比和生成任务都是通用的。 比较各种通用视觉语言任务的结果,包括图像分类、视频分类、图像文本检索、图像字幕和多模态对话。In