多模态:CLIP 模型

CLIP(Contrastive Language-Image Pre-Training,以下简称 CLIP) 模型是 OpenAI 在 2021 年初发布的用于匹配图像和文本的预训练神经网络模型,可以说是近年来在多模态研究领域的经典之作。该模型直接使用大量的互联网数据进行预训练,在很多任务表现上达到了目前最佳表现(SOTA) 。

本次我们尝试使用 Google 开源的 Conceptual Captions 数据集来训练 CLIP 模型,并对其效果进行一定的验证。

模型实践| CLIP 模型 - 知乎

超越CLIP的多模态模型,只需不到1%的训练数据,南加大最新研究来了 

CLIP - 图像文本多模态模型 - AI备忘录 

你可能感兴趣的:(AI多模态,深度学习,人工智能)