Dual Adversarial Networks for Zero-shot Cross-media Retrieval 阅读笔记

Dual Adversarial Networks for Zero-shot Cross-media Retrieval 阅读笔记_第1张图片

 

Dual Adversarial Networks for Zero-shot Cross-media Retrieval (DANZCR):由两个GAN组成,分别用于共同表示生成与原始表示重建,它们捕获底层数据结构,并加强输入数据和语义空间之间的关系,以概括已见和未见类别。DANZCR通过对抗学习方法,利用词嵌入来学习语义空间的共同表示。该方法保留了固有的跨媒体相关性,并提高了知识迁移到新类别的能力。

 

introduction

 

采用词嵌入作为语义空间,通过对抗性学习框架将不同媒体类型的数据转换到语义空间。具体地,该方法在双重结构中建立GAN,其中前向GAN从输入图像和文本中学习以在语义空间中生成共同表示;反向GAN使用生成的公共表示来重建输入图像和文本以保留原始数据结构。DANZCR方法同时执行零样本学习和相关学习,可以生成共同表示来进行零样本跨媒体检索。

主要贡献:

  • 提出对偶GANs结构,用于零样本跨媒体检索。两个GAN协作相互促进,捕获底层数据结构,并加强输入数据和语义空间之间的关系,以概括已知和未知的类别。
  • 针对零样本跨媒体检索提出了一种对抗性训练方法,该方法通过从媒体类型和类别中区分生成的共同表达 学习共同表达,以保留固有的跨媒体相关性。利用词嵌入来生成共同表示,通过对抗性训练,建模语义信息,从而增强知识向未知类别转移的能力。

 

related work

 

  • 跨媒体检索。。。
  • 零样本学习。。。
  • GAN:受图像翻译工作的启发,将零样本跨媒体检索视为输入空间和语义空间之间的域变换问题。将GAN用作每种媒体类型的双重结构的基本模块,并在多路径网络中为跨媒体数据生成通用语义表示。

 

approach

 

问题定义:

数据集:D=\left \{ D_{UD},D_{UQ},D_{SD},D_{SQ} \right \}

其中:D_{UD}:未知类数据集,D_{UQ}:未知类查询集,D_{SD}:已知类数据集,D_{SQ}:已知类查询集。

D_{UD}=\left \{{i_n,t_n,l_n} \right \}^{N_{UD}}_{n=1} ,第n个实例的图像,文本,相关类别标签。

D_{SD}训练,对于零样本检索用D_{UQ}测试,对于传统场景用D_{SQ}测试。

 

Architecture of DANZCR:

Dual Adversarial Networks for Zero-shot Cross-media Retrieval 阅读笔记_第2张图片

对每一个媒体类型,首先生成 original representation ,然后前向GAN从original representation生成 common representation,反向GAN将common representation转变为original representation,这是一个对偶的过程。

每个GAN都由一个生成模型和一个判别模型组成,详细的网络结构如下

1)前向GAN:类别词嵌入作为监督信息,生成语义共同表达,以建模不同媒体类型和不同类别的相关性。

         G_{FI}D_{FI}:图像的前向生成模型,判别模型;

         G_{FT}D_{FT}:文本的前向生成模型,判别模型。

  • 前向生成模型:用一些全连接层,从原始表达中生成共同表达。图像实例:i_n,图像的原始表达:f^i_n,共同表达:s^i_n;文本:t_nf^t_ns^t_n;所以有:s^i_n=G_{FI}(f^i_n),s^i_t=G_{FT}(f^t_n)(图像、文本原始表达经过前向生成模型变为图像、文本的共同表达)
  • 前向判别模型:一些全连接层,判别生成的共同表达属于哪一个媒体类型和类别。将原始表达和共同表达的连接作为输入,输出是单个值,用于预测生成的公共表示是否真实,以及判别公共表示和数据表示之间的语义相关性。D_{FI}D_{FT})试图判别相关类别的词嵌入s^l_n是真实的数据,生成的共同表达s^i_ns^t_n以及不相关类别的词嵌入s^{l'}_n是假的。

Dual Adversarial Networks for Zero-shot Cross-media Retrieval 阅读笔记_第3张图片

 

(2)反向GAN:用来重构输入数据的原始表达,这使得公共表示保留数据原始结构,并且增强输入数据和语义空间之间的关系。

         G_{RI}D_{RI}G_{RT}D_{RT}

  • 反向生成模型:一些全连接层,学习common representation,以重构输入数据的原始表示(reconstruction representations )。reconstruction representation:r^i_nr^t_n,所以r^i_n=G_{RI}(G_{FI}({f^i_n}))=G_{RI}(s^i_n).(先由正向生成模型生成common representation s^i_n,再由反向生成模型生成reconstruction representation r^i_n
  • 反向判别模型::一些全连接层。输入数据表示,输出单个值来预测数据表示是否真实。D_{RI}D_{RT})试图判别图像原始表示f^i_n是真实的,reconstruction representation 是假的。

 

由于只有少量已知类别的数据,为了进一步加强相关学习,提出了一种基于L2范数的恢复目标函数:

 

DANZCR方法的全部目标函数是:

 

优化过程:

 

(1)生成共同表达:提取图像/文本原始表示,前向生成模型生成共同表达。

(2)前向判别模型的优化:对图像和文本分别采用上升随机梯度对前向判别模型进行训练。

(3)表示重构:反向生成模型从共同表达生成重构表示(reconstruction representation)。

(4)反向判别模型的优化:通过定义随机梯度方程。

(5)前向生成模型的优化

(6)前向和反向生成模型的优化

 

Experiments 

Dual Adversarial Networks for Zero-shot Cross-media Retrieval 阅读笔记_第4张图片

 

 

 

 

 

 

 

你可能感兴趣的:(Dual Adversarial Networks for Zero-shot Cross-media Retrieval 阅读笔记)