笔记:BLIP源码之(1)数据集预处理【仅考虑Image-Text Retrieval on COCO】
BLIP:BootstrappingLanguage-ImagePre-trainingforUnifiedVision-LanguageUnderstandingandGenerat论文的两个贡献如下:从模型的角度:提出了Encoder-Decoder(MED)的多模态混合AnMEDcanoperateeitherasaunimodalencoder,oranimage-groundedtext