Cross-domain Human Parsing via Adversarial Feature and Label Adaptation

通过对抗的特征和标签自适应的跨领域人体解析

摘要:

因为在很多重要场景的广泛应用,人体解析近来被广泛研究。主流时兴的模型(比如说解析器)集中在解析高分辨率并且清晰的图片。然而,将这些在高质量样本的基准上训练的解析器直接应用于比如餐厅,机场或者工厂等自然环境中的特殊应用场景下,通常因为领域变动而不会得到满意的表现。在本文中,我们探索了一个新的具有挑战性的跨领域人体解析问题:将有大量单像素标签的基准数据库作为源领域,怎样在不需要任何额外的人工标签的情况下获得在新的目标领域中一个令人满意的解析器?为此,我们提出了一种新的并且高效的跨领域人体解析模型,以弥合跨领域在外观和环境条件方面的差异,并充分利用了跨领域的共同特征。我们提出的模型显式地学习了一个特征补偿网络,这个网络专门用来降低跨领域的差别。有分辨能力的特征对抗网络被引入用来监督特征补偿,从而高效地降低两个领域特征分布之间的差异。除此之外,我们提出的模型也引入了结构化的标签对抗网络来引导目标领域的解析结果遵照跨领域共享结构化标签的高阶关系。提出的框架是端到端可训练的,使用的,并且在实际应用中可扩展。在将LIP数据集作为源领域,以及4个不同的没有任何标注的包含监控视频,电影和时装秀的数据集被当做目标领域的情况下,进行了大量的实验。所有结果一致地确定了提出方法在具有挑战的跨领域人体解析问题上的数据高效性和表现优势。
全文:https://arxiv.org/abs/1801.01260

文本解决的问题是,源领域有大量有标签数据,而目标领域的标签数据很少甚至没有,在这种情况下,如果获取在目标领域中表现较好的人体解析器。

文中提出的整体模型架构如下:



一般的人体解析的解析器分为特征提取和逐像素标记器两个部分,本文新提出的架构主要增加了三个部分,一个是特征补偿网络,一个是特征对抗网络,一个是结构化标签对抗网络(图中被记做Structure Adversarial Network)。

特征补偿网络:

特征补偿网络用于减小两个领域之间的差异,将特征补偿网络记做C(·),然后将特征提取器记做E(·),那么对于源领域数据Sx提取的特征为E(Sx)+C(E1(Sx)),这里的加法就是逐像素的加法,E1(·)表示的是特征提取器的第一层(包含pooling部分),训练的时候使得补偿后的特征更接近目标领域。

特征对抗网络:

特征补偿网络的目标就是使得补偿后的源领域提取的特征,更接近目标领域的特征,但是如何判定接近,本文采用了GAN的思想,用一个特征对抗网络来辨别,其实等同于GAN的discriminator,而前面的特征补偿网络加上本身的特征提取网络就是GAN中的Generator,这个discriminator就是要分辨输入的特征向量是否来自目标领域。

这样的情况下,对于特征对抗网络的训练loss就设计如下:



而对应的特征补偿网络的loss设计如下,就是尽可能的使其被认为是目标领域的特征值(以减少源领域特征与目标领域特征之间的差别)



这样用一个对抗的学习方式,达到了减小差别的目的(其实对抗生成网络,本身就是拉近两分布之间的距离,也就是意味着减小差异)

结构化对抗标签网络

上述的一组对抗用于的特征提取,文中的另一组对抗用于了标签预测上,结构化对抗标签网络也类似于GAN中的一个discriminator,其分辨的是输入的标签是否来自源领域。

因为在人体解析中有三个特点:1.标签本身都有非常强的空间先验知识(比如头一般在上面,鞋子一般在下面);2.标签的相对位置在不同领域中都是一致的(比如受一般在身体两侧,头在身体上面);3.标签的部分形状在不同领域也类似(比如脸一般是圆或椭圆)

将结构化对抗标签网络记做Al(·),特征提取网络记做E(·),标签器记做L(·),那么训练结构化对抗标签网络的loss设计如下,其中Sy是源领域的标签



与此同时,特征提取和标签网络的训练loss对应如下:



除了上述的这个loss,E和L网络训练的loss还包含了源领域标签的交叉熵的loss,除了E(Sx)和Sy之间的交叉熵P(E,L)1,还有E(Sx)+C(E1(Sx))和Sy之间的交叉熵P(E,L)2,整个网络优化的过程如下:

每次迭代更新第一组对抗都会更新,固定步长下,更新第二个标签对抗网络。

而在训练完成后,实际使用到的,只有特征提取网络和标签网络。

这篇文章其实也是利用GAN优化的一种用途,只是Dual-Agent GANs for Photorealistic and Identity Preserving Profile Face Synthesis那篇文章中是用GAN优化生成的图片,而这边利用GAN,优化生成的特征和进行的标签结果。这就引入了GAN的新应用思路,并非生成数据,而是优化数据。

你可能感兴趣的:(Cross-domain Human Parsing via Adversarial Feature and Label Adaptation)