PAMI2023: VLT: Vision-Language Transformer and Query Generation for Referring Segmentation
文章目录1、Abstract2、整体架构3、Spatial-DynamicMulti-ModalFusion4、QueryGenerationModule5、QueryBalanceModule6、MaskDecoder7、MaskedContrastiveLearning8、可视化结果1、Abstract提出了VLT框架,以促进多模态信息之间的深度交互,并增强对视觉语言特征的整体理解。为了应对语