《MHTN: Modal-Adversarial Hybrid Transfer Network for Cross-Modal Retrieval》论文学习

摘要

本文提出了一种新的方法 modal-adversarial hybrid transfer network (MHTN),它提出的主要目的是:实现知识从单模态源域向目标源域进行转移,并学习跨模态的公共表示。
它有端到端两个子网络结构,第一是提出了一种模态共享知识转移子网络,以星型网络结构将知识从源域中的单个模态共同转移到目标域中的所有模态,从而散布与模态无关的补充知识以促进交叉模态共同表示学习。
第二提出了一种模态对抗式语义学习子网,在公共表示生成器与模态鉴别器之间构建对抗训练机制,使通用表示形式对语义具有判别性,而对模态则是无区别的,从而在传输过程中增强了跨模态语义的一致性。

跨模式的主要挑战是异质性差距,跨模式检索的主流是用通用表示法表示不同模式的数据。

Overview of the MHTN

《MHTN: Modal-Adversarial Hybrid Transfer Network for Cross-Modal Retrieval》论文学习_第1张图片

MODAL-ADVERSARIAL HYBRID TRANSFER NETWORK

MHTN的主要目的是学习一种公共表示R={{RI, RT, RA, RV, RM},对于所有模态,R中的特征维都是相同的,因此可以通过直接计算它们之间的距离来获得跨模态相似性。

1 Modal-Sharing Knowledge Transfer Subnetwork

执行从单模式源域到跨模式目标域的知识转移,每次所输入的样本实例是密切相关的,每个交叉模式文档中的实例将并行输入到网络中。
the structure of this subnetwork
《MHTN: Modal-Adversarial Hybrid Transfer Network for Cross-Modal Retrieval》论文学习_第2张图片
1)Single-Modal Knowledge Transfer
它是由单模式和跨模式传输部分组成的混合传输结构。采用特征自适应方法,以最小化两个域之间的图像的最大平均差异(MMD),
《MHTN: Modal-Adversarial Hybrid Transfer Network for Cross-Modal Retrieval》论文学习_第3张图片
这儿在网络图中有fc6-fc7,所以loss为
在这里插入图片描述
通过最小化MMD,模型将被引导以匹配目标域的分布,以便源域中的知识可以有效地转移到目标。

1.1 )source domain supervision loss
并保留源域中的语义约束,以避免因域差异而过度拟合。
《MHTN: Modal-Adversarial Hybrid Transfer Network for Cross-Modal Retrieval》论文学习_第4张图片
通过最小化LossST和LossSDS,域差异可以有效地减少,并且可以将源域中的补充语义信息转移到目标域中,以指导网络培训。
2)Cross-Modal Knowledge Transfer
旨在对齐他们的代表并实现知识共享,因此,每一对都可以表示为(dIIj,dXl j),其中为了表示交叉模态成对的差异,采用图像的特定表示层与其他模态之间的欧几里得距离,从而形成星形网络结构(dIlj,dXlj)的跨模态成对差异表示为
《MHTN: Modal-Adversarial Hybrid Transfer Network for Cross-Modal Retrieval》论文学习_第5张图片
通过优化LossCT,可以减少跨模式的成对差异,以实现跨模式的知识转移。我们将该子网的输出表示为Zc = {(zIlj,zTl j,zA1 j,zVl j,zMl j)} j = 1,这将进一步输入到模态对抗语义学习子网络中。

2 Modal-Adversarial Semantic Learning Subnetwork

《MHTN: Modal-Adversarial Hybrid Transfer Network for Cross-Modal Retrieval》论文学习_第6张图片
1) Semantic Consistency Learning
该子网的结构如图4所示。Zc将被馈送到共享的完全连接的层(公共表示层)以生成公共表示。 然后有两个损失分支机构来推动网络培训。由于所有模态共享相同的公共表示层,因此可以在目标域中的监督信息的指导下确保跨模态的语义一致性。 为了实现这一目标,我们采用完全连接的层作为具有softmax损失函数的通用分类层。 语义一致性损失定义如下:
《MHTN: Modal-Adversarial Hybrid Transfer Network for Cross-Modal Retrieval》论文学习_第7张图片
2) Modal-Adversarial Consistency Learning
模态鉴别器旨在区分不同的模态,而通用表示生成器则减少了跨模态表示差异,以混淆模态鉴别器,作为一种对抗训练风格。
《MHTN: Modal-Adversarial Hybrid Transfer Network for Cross-Modal Retrieval》论文学习_第8张图片
《MHTN: Modal-Adversarial Hybrid Transfer Network for Cross-Modal Retrieval》论文学习_第9张图片

3. Optimization

《MHTN: Modal-Adversarial Hybrid Transfer Network for Cross-Modal Retrieval》论文学习_第10张图片
有先最小化,然后最大化训练,有对抗训练的style
loss依次为
1.源image和目标image
2.源label
3.目标image和其他模态,相当于目标image当做了桥梁
4.对抗循环一致,经过生成器label一致
4.经过生成器,判别器依旧判别模态

总结
本文写的清晰透彻,是一篇好文,不过细节处还未深挖,所以决定跑一跑代码,再做理解笔记总结。

你可能感兴趣的:(java,机器学习,深度学习,计算机视觉,人工智能,python)