[AAAI2017]SeqGAN:Sequence Generative Adversarial Nets with Policy Gradient

断断徐徐终于把源码看完啦,果然paper+code才是正确的阅读paper方式呀
预训练生成器:用真实数据训练
预训练判别器:真实数据+生成器生成虚假数据混合后训练
对于Generator来说,预训练和对抗过程中使用的损失函数是不一样的,在预训练过程中,Generator使用的是交叉熵损失函数,而在对抗过程中,我们使用的则是Policy Gradient中的损失函数,即对数损失*奖励值。

而对Discriminator来说,两个过程中的损失函数都是一样的,即我们前面介绍的对数损失函数。
之后就是生成器和判别器的对抗训练过程了:

关于本文解析的非常好的几篇博文:
https://www.jianshu.com/p/de4e913e0580
https://www.colabug.com/2639033.html
https://www.colabug.com/2639033.html
https://blog.csdn.net/Mr_tyting/article/details/80269143
https://www.jianshu.com/p/45d45b8541f0

详解GAN在自然语言处理中的问题:原理、技术及应用:
http://www.360doc.com/content/17/0210/18/32056199_628087216.shtml

你可能感兴趣的:(PaperNotes)