VSE++: Improving Visual-Semantic Embeddings with Hard Negatives
一、前言1.论文要解决的问题:输入:MSCOCO,Flickr30K输出:imagetotext(texttoimage):rank2,本文的方法创新:提出了一种新的计算loss的方案,主要针对与hardnegtive,加大样本与hardnegtive的距离二、论文方法Embedding1)图像采用VGG19或者ResNet152进行特征提取2)文本描述采用GRU将文本与图像映射到同一个子空间通过