Probabilistic Embeddings for Cross-Modal Retrieval

题目:Probabilistic Embeddings for Cross-Modal Retrieval
作者:Sanghyuk Chun
不确定估计
hedged instance embedding
对比损失
变分自编码

一、要解决的问题(研究动机)
确定的函数不能很好地捕获一对多的对应关系。
Probabilistic Embeddings for Cross-Modal Retrieval_第1张图片

二、研究目标
提出PCME(跨模态概率嵌入),将不同模态下的样本表示为同一嵌入空间下的概率分布。

三、技术路线
Probabilistic Embeddings for Cross-Modal Retrieval_第2张图片
1、视觉-文本联合嵌入
(1)视觉编码器fv
输入图片i,得到经过GAP之前的输出:
在这里插入图片描述
经过GAP,预测得到一个分布,而不是一个点:
在这里插入图片描述
(2)文本编码器ft
输入标题c,通过预训练的GloVe得到单词级描述符,其中L为标题中词的个数:
在这里插入图片描述
输入GloVe的顶层特征,通过双向循环门控单元得到语句级特征t:
在这里插入图片描述
(3)损失
嵌入特征通常用对比损失和三元组损失来学习。
(4)Polysemous visual-semantic embeddings (PVSE)
多义视觉-语义嵌入
运用多头注意力,为每个模态编码K个可能的嵌入(图像、文本形式相似):
在这里插入图片描述

2、概率嵌入
(1)单域HIB
HIB是对比损失的概率模拟,训练的概率匹配模块既可以保留成对的语义相似度,而且还可以表示数据固有的不确定性。组成部分如下:
(i)Soft contrastive loss(样本):约束编码器,令编码器提取产生的特征嵌入更好
Probabilistic Embeddings for Cross-Modal Retrieval_第3张图片
(ii)分解匹配概率(从嵌入分布中采样)
Probabilistic Embeddings for Cross-Modal Retrieval_第4张图片
(iii)用距离衡量匹配概率
在这里插入图片描述
(2)跨域PCME
Probabilistic Embeddings for Cross-Modal Retrieval_第5张图片
(i)模型结构
局部注意力支路
包含基于空间特征集合的自注意力和一个sigmoid激活函数层。

跨模态软对抗损失
匹配损失与单模态下类似,并根据公式(4)的分布计算:
在这里插入图片描述

衡量实例级不确定性
为每个输入预测的协方差矩阵表示了数据固有的不确定性。
为了定量衡量不确定性,采用方差矩阵的行列式或方差的几何平均。

(ii)对多样性的处理
通过梯度分析得知公式(1)的损失如何处理多样性与学习不确定性。
Probabilistic Embeddings for Cross-Modal Retrieval_第6张图片
w给正确预测匹配的采样对一个更高的权重,因此,只要有正确的匹配预测,错误的匹配预测就不会被过分惩罚,这样有助于更丰富的采样。

四、提出方案的依据
概率分布可以产生更丰富的嵌入空间;
概率匹配可以表示数据固有的不确定性;
通过在分布中采样可以产生更多的匹配结果。

五、实验结果
Probabilistic Embeddings for Cross-Modal Retrieval_第7张图片

你可能感兴趣的:(笔记,行人重识别)