VSE++: Improving Visual-Semantic Embeddings with Hard Negatives

一、前言

1.论文要解决的问题:
输入: MSCOCO,Flickr30K
输出: image to text (text to image):rank

2, 本文的方法创新:
提出了一种新的计算loss的方案,主要针对与hard negtive,加大样本与hard negtive 的距离

二、论文方法

Embedding

1) 图像采用VGG19或者ResNet152进行特征提取
2) 文本描述采用GRU将文本与图像映射到同一个子空间

通过卷积网络与序列网络分别得到图像和文本的特征:
VSE++: Improving Visual-Semantic Embeddings with Hard Negatives_第1张图片
二者相似度度量采用二者的内积进行计算:
在这里插入图片描述

Loss

在近来的多模态检索、图文匹配、文本描述与图像检索等问题中大多采用triplet loss:
在这里插入图片描述
其中 α \alpha α代表margin

你可能感兴趣的:(论文阅读)