读InfoGan文章

    InfoGan,是在GAN是用到了信息论的算法,能够通过非监督的方式学习到特征的含义。非监督学习是ill-posed(解是不唯一的),因为在训练的时候,下游的任务是未知的,如果能从数据样本的找到代表的特征,那么对于那些位置的任务也是非常有帮助的,例如对在一些人脸的数据集上,有用的disentagled representation可能会有不同的维度来表示人脸,眼睛的颜色,发型,是否带眼镜等。我们希望一个好的生成模型能够自动的学习到disentagled representation。最重要的生成模型是VAE 和 GAN。这篇文章,我们在GAN的目标函数上做了简单的修改去学习有可解释性、有意义的representation 。 通过最大化一部分噪音输入变量和观察值的互信息。

读InfoGan文章_第1张图片   如果能学习到c1,c2,c3,c4表示某些有意义的特征,那么就是disentagled representation

 

   GAN中的G的输入是噪音z,z中的每个维度和数据的特征不相关,所以这篇文章提出,将输入的z拆分成两部分,第1部分z就是噪音数据,第2部分c 是一个潜在的编码可以对应到某些数据特征 。

读InfoGan文章_第2张图片

那么如何度量c 和 G(z,c) 之间的关系呢,我们利用mutual information,和信息增益是一样的,即可以衡量Y对于减少X不确定的大小,如果X和Y是独立的话,那么I(X;Y)=0 ,我们希望mutual information越小越好,即PG(c|x)越小越好,换句话说,生成的数据不丢失c的信息,也就是x 与 c 越像越好。

所以InfoGan的目标函数转换为

但是上述公式第二项难以直接最大化,所以可以定义一个下界来转换下

其中L1 有如下表示:

读InfoGan文章_第3张图片

 

 

~ 其他待补充

 

 

 

 

refer:https://arxiv.org/pdf/1606.03657.pdf

Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets

你可能感兴趣的:(深度学习)