GAN(9)——sequence generation

GAN(9)——sequence generation_第1张图片

seq2seq的模型训练

GAN(9)——sequence generation_第2张图片

传统方法的问题——RL中不存在标准回答,用Reward标识每个样本的权重,迭代更新

两者其实不是矛盾的,maximum likelihold 作为判别器,RL本身作为生成器?  

GAN(9)——sequence generation_第3张图片

GAN(9)——sequence generation_第4张图片

GAN(9)——sequence generation_第5张图片

GAN(9)——sequence generation_第6张图片

GAN(9)——sequence generation_第7张图片

on policy就是训练学生 off policy就是训练老师

GAN(9)——sequence generation_第8张图片

GAN(9)——sequence generation_第9张图片

GAN(9)——sequence generation_第10张图片

GAN(9)——sequence generation_第11张图片

强化学习的一大难点就是:需要大量的对当前训练样本的reward的计算

比如定义,evalucation function代替reward——这个evalucation function就可以引入GAN的判别器概念

GAN(9)——sequence generation_第12张图片

GAN(9)——sequence generation_第13张图片

与原本强化学习的区别在于,reward的计算由判别器代替,也是可以训练的

用GAN做没有reward函数的情况下的强化学习的任务

GAN(9)——sequence generation_第14张图片

RNN中的GAN架构

GAN(9)——sequence generation_第15张图片

应用第二种,不做采样的过程,直接把网络输出的概率分布输给判别器

GAN(9)——sequence generation_第16张图片

由于判别器很容易区分

应用wGAN给判别器绑上手脚,会有帮助

GAN(9)——sequence generation_第17张图片

细致到每个step

回答用“I”开头应该没问题,概率不应该降低,除非采样够多

GAN(9)——sequence generation_第18张图片

GAN(9)——sequence generation_第19张图片

你可能感兴趣的:(GAN)