【AIGC】9、BLIP-2 | 使用 Q-Former 连接冻结的图像和语言模型 实现高效图文预训练
文章目录一、背景二、方法2.1模型结构2.2从frozenimageencoder中自主学习Vision-LanguageRepresentation2.3使用FrozenLLM来自主学习Vision-to-Language生成2.4Modelpre-training三、效果四、局限性论文:BLIP-2:BootstrappingLanguage-ImagePre-trainingwithFroz