深度学习GAN

GAN基本原理

image.png
  • 生成器(Generator):通过机器生成数据(大部分情况下是图像),目的是“骗过”判别器
  • 判别器(Discriminator):判断这张图像是真实的还是机器生成的,目的是找出生成器做的“假数据”

下面介绍一下基本思想及其过程:

一、第一阶段:

1、第一阶段:固定「判别器D」,训练「生成器G」
2、我们使用一个判别器,让一个「生成器G」不断生成“假数据”,然后给这个「判别器D」去判断。
3、一开始,「生成器G」还很弱,所以很容易被「判别器D」识别。
4、但是随着不断的训练,「生成器G」技能不断提升,最终骗过了「判别器D」。

一、第二阶段:

1、固定「生成器G」,训练「判别器D」
2、当通过了第一阶段,继续训练「生成器G」就没有意义了。这个时候我们固定「生成器G」,然后开始训练「判别器D」。
3、「判别器D」通过不断训练,提高了自己的鉴别能力,最终他可以准确的判断出所有的假图片。
4、到了这个时候,「生成器G」已经无法骗过「判别器D」。

三、第三阶段

1、循环阶段一和阶段二
2、通过不断的循环,「生成器G」和「判别器D」的能力都越来越强。
3、最终我们得到了一个效果非常好的「生成器G」,我们就可以用它来生成我们想要的图片了。

GAN的缺点

  1. 训练不稳定,不容易收敛,其结果并不是恒定,而是一个在其周围振荡的过程,不够稳定。这一点使用paddleGan进行过验证,在一个线性函数中,即便使用相同的数据,每次生成的结果都不一致,结果会在一个大概值附近上下波动,输入的数据量越大波动率越小。
  2. 在视频合成应用场景中,视频生成质量不高。

paddleGAN

介绍

PaddleGAN图像生成模型库覆盖当前主流的GAN算法,可简单上手各类GAN任务

实践基于paddleGAN扩展发现的问题

  • 功能包括图像唇语合成,视频图像合成
  • 实现方式是图片加语音合成,经过测试有三个问题。问题一是无法实时输入语音,导出视频流,只能合成一段完整视频导出,这个问题在github提过issue,暂时是技术上还未实现。问题二是生成的视频如果是高分辨率视频,在嘴唇周边会有明显的长方形合成痕迹,低分辨率看起来比较自然,这个问题在网上的案例包括官方的demo都会出现。问题三是在使用普通开发机的条件下,从数据输入模型到生成视频时间较长,在使用10s的语音大概需要10几秒才能合成一段视频

你可能感兴趣的:(深度学习GAN)