VLM (MLLM)系列——论文解读总结

建议
以下几篇都看一下吧,因为这几篇相对出发点都有新意,并且也都在同期的思南评测中有排名。
CLIP
*数据:用了4亿的互联网自有图文对数据。
*模型:由一个视觉编码器、一个文本编码器
*训练:一阶段预训练,在 32768 的batch size 下做的对比学习。
中文CLIP
*数据:由LAION 5B等构成一个2亿的图文对数据。
*模型:整体和CLIP类似,由一个视觉编码器、一个文本编码器。
*训练:两阶段预训练,权重来自CLIP等。第一阶段32768的batch size下冻结图像编码器,训练文本编码器;第二阶段,训练图像和文本编码器,batch size 和学习率降低。
BLIP 
*1数据:4M的混合数据,coco、LAION等。数据清洗流程capFlit。
*模型:统一了文本生成任务和图文检索任务。整体由图像编码器、bert 增加了cross attention、因果attention等。有ITC、ITM、ITG三个loss构成。
*训练:一阶段预训练,ITC仿照moco用了队列扩展大小,ITM采用了困难样本

你可能感兴趣的:(AIGC算法,深度学习,人工智能,计算机视觉,AIGC,图像处理,算法)