CLIP: Learning Transferable Visual Models From Natural Language Supervision学习笔记
文章目录1.预训练阶段2.zero-shot推理阶段3.模型整体结构的伪代码4.训练AlecRadford,JongWookKimet.al.PMLR,2021.(Citations6185)CLIP(ContrastiveLanguage-ImagePretraining)是一种基于对比学习的模型,由OpenAI提出。它是一种多模态模型,旨在将自然语言和图像进行联合建模,实现图像和文本之间的语义