ICCV 2019 image-text相关论文总结

ICCV 2019 image-text相关论文总结

1. Local Relation Networks for Image Recognition

issue: CNN用固定的filters来提取image feature,但image的空间分布是多变的,不能很好的满足image不同的空间分布。
method: 提出local relation layer,用于改进CNN。通过局部区域的关系(relationship)来计算每个local的权重,从而来融合特征。

2. Visual Semantic Reasoning for Image-Text Matching

issue: image-text matching的语义gap问题,image的表示缺乏全局的语义内容信息。
ICCV 2019 image-text相关论文总结_第1张图片
mehtod: 利用reason model来生成包含关键object和语义信息的visual representation。先建立image regions之间的关系,之后利用GCN生成语义关系的特征,在此基础上利用门机制和memory机制来生成全局的语义特征。如图,这样提取的特征即包含了key object(caption中的框框部分)又包含语义信息(caption中的highlight)。

你可能感兴趣的:(论文研读,计算机视觉)