最近读了InfoGAN的论文,其中公式5我一直不是很理解,但在网上搜索也没搜到类似的问题。现记录一下个人对公式5的理解,如有错误恳请指正。
InfoGAN: https://arxiv.org/pdf/1606.03657.pdf
论文在公式4中给出了 I(c;G(x,z)) I ( c ; G ( x , z ) ) 的下界
I(c;G(x,z))≥Ex∼G(z,c)[Ec′∼P(c′|x)[logQ(c′|x]]+H(c) I ( c ; G ( x , z ) ) ≥ E x ∼ G ( z , c ) [ E c ′ ∼ P ( c ′ | x ) [ l o g Q ( c ′ | x ] ] + H ( c )
但是该下界仍然涉及到后验概率
P(c′|x) P ( c ′ | x ) ,这里的x指的就是生成器
G G 生成的图片而
c′ c ′ 则是Latent code。这个概率是无法直接估计的,因此文章中使用引理5.1对该下界进行了一个变换。
引理5.1:
For random variables X, Y and function f(x, y) under suitable regularity conditions:
Ex∼X,y∼Y|x[f(x,y)]=Ex∼X,y∼Y|x,x′∼X|y[f(x′|y)] E x ∼ X , y ∼ Y | x [ f ( x , y ) ] = E x ∼ X , y ∼ Y | x , x ′ ∼ X | y [ f ( x ′ | y ) ]
该定理证明见原论文附录。
下面给出公式5的个人理解, 关键在于如何理解 G(z,c) G ( z , c ) , 若 G(z,c)=∫cP(c)PG(x|c) G ( z , c ) = ∫ c P ( c ) P G ( x | c ) , 则
L1(G,Q)=Ex∼G(z,c)[Ec′∼P(c′|x)[logQ(c′|x]]+H(c)=Ec∼P(c),x∼PG(x|c),c′∼P(c′|x)[logQ(c′|x)]+H(c)=Ec∼P(c),x∼PG(x|c)[logQ(c|x)]+H(c) L 1 ( G , Q ) = E x ∼ G ( z , c ) [ E c ′ ∼ P ( c ′ | x ) [ l o g Q ( c ′ | x ] ] + H ( c ) = E c ∼ P ( c ) , x ∼ P G ( x | c ) , c ′ ∼ P ( c ′ | x ) [ l o g Q ( c ′ | x ) ] + H ( c ) = E c ∼ P ( c ) , x ∼ P G ( x | c ) [ l o g Q ( c | x ) ] + H ( c )
这里第二步到第三部的变换使用了引理5.1。
这里的 PG(x|c) P G ( x | c ) 对应的是原论文中的式5第一行的G(z, c), 实际上这里的G(z, c)已经是一个条件概率了(与论文中式4(本文中的第一个公式中)的 G(z,c) G ( z , c ) 其实并不是同一个东西),代表在给定c的条件下生成器产生图片x的概率。因此接下来可以用蒙特卡洛来对 L1(G,Q) L 1 ( G , Q ) 进行估计。
以上只是我个人的理解,数学水平着实有限,如有错误恳请指正!