论文标题:Multimodal Conditional Image Synthesis with Product-of-Experts GANs
论文链接:http://arxiv.org/abs/2112.05130
论文代码:https://deepimagination.cc/PoE-GAN/
发表时间:2021年12月
现有的条件图像合成框架基于单一模态中的用户输入生成图像,例如文本、分割、草图或样式参考。它们通常无法在可用时利用多模式用户输入,这降低了它们的实用性。为了解决这一限制,我们提出了专家产品生成对抗网络 (PoE-GAN) 框架,该框架可以合成以多种输入模式或其任何子集为条件的图像,甚至是空集。 PoE-GAN 由专家产品生成器和多模态多尺度投影鉴别器组成。通过我们精心设计的训练方案,PoE-GAN 学会了合成高质量和多样性的图像。除了提高多模态条件图像合成的最新技术水平外,PoE-GAN 在单模态条件下进行测试时也优于现有的最佳单模态条件图像合成方法。
1、PoE-GAN架构输入Text、Segmentation、Sketch、Style四种模态的数据
2、进入Global PoE-Net网络进行融合
3、融合输出的特征向量,语义分割特征向量,草图特征向量作为解码器的输入,生成图片
4、生成的图片进入判别器,进行判别
1、先进行四种模态的特征提取,以下为四种模态的特征提取方法
Text:预训练---MLP MLP可以理解为全连接层,主要解决非线性问题。
Segmentation:卷积操作。
Sketch:卷积操作。
Style:残差。
2、对这四种模态的特征向量,进行预处理
为什么要进行预处理,这里举个例子,苹果和iphone手机就是两种不同的事物,毫无关联,但是真的没有联系么?答案是否定的,它们之间一定有内在联系,(比如说,人吃苹果补充能量,有能量才有精力使用手机,进行工作。)这个例子,不太恰当,但是足够理解我讲的上句话,作者使用MLP架构寻找非线性关系,就是将四种模态的数据,转换成同一种模态,进行融合。
四个MLP架构处理这四个模态的特征向量,为什么输出是µ和ó呢?因为还是GAN生成器架构构建决定的,小白同学自己补一下知识点,如果有时间会详细出一篇,GAN架构的理解。
3、预处理之后的特征向量
预处理之后的特征向量正式进入了PoE-Net进行融合操作,这里的融合可以理解成乘法操作,具体操作是经过一系列的数学公式推导
这是原文,有想要详细了解的大佬,还是自己看以下原文最好。这里提供个人简单理解
PoE-Net使用4个MLP中提取的特征向量预测了高斯分布,然后计算高斯数的乘积z0,然后在使用另一个MLP将z0转换成特征向量w
经过PoE-Net的特征向量输出,µ和ó拼接成特征向量 z0, z0在进入MLP中进行非线性变换,输出的特征向量w,最终成为编码器的输出。
这里有个小知识点,问什么是直接拼接成z0,还是上文提到的,这个是GAN网络生成器的架构搭建决定的,不懂的同学,补充一下知识点,这里就可以看懂了。
4、使用特征向量w,生成器输出一张图片
5、这张图片送到判别器,进行判别
解码器主要有四部分构成:Upsample、卷积、LG-AdalN、Local PoE-Net
Upsample和卷积就不多说了
判别器有三个输入,分别是生成器的输出previous output、Segmentation和Sketch的features
previous output---Upsample---Conv---LG-AdalN---Conv---LG-AdalN---Add
Segmentation和Sketch features进入Local PoE-Net
看架构图还是很清晰的
LG-AdalN架构如图:
Instance Norm(IN)属于一种正则化方式,很适用于GAN
Local Affine和Global Affine是一种仿射关系
Local PoE-Net架构如图:
这里的Product-of-Experts架构和编码器的融合是一样的,只不过参数是另外一组参数,寻找高斯数乘积。
后面就是一些实验部分了,效果是目前最好的,就不介绍实验部分了,有兴趣的同学可以自己查看原文。
我认为这篇文章最重要的一句话就是:
PoE-GAN 在单模态条件下进行测试时也优于现有的最佳单模态条件图像合成方法