李宏毅:RL and GAN for sentence generation and chat-bot

1、review

1)chat-bot

李宏毅:RL and GAN for sentence generation and chat-bot_第1张图片

2)encoder

把之前的information另做encoder,目前的这句话单独做encoder,再把两者合并,放入generator。

李宏毅:RL and GAN for sentence generation and chat-bot_第2张图片

3)generator

李宏毅:RL and GAN for sentence generation and chat-bot_第3张图片

4)training generator

训练的时候input的是reference。condition from encoder不是decoder

李宏毅:RL and GAN for sentence generation and chat-bot_第4张图片

李宏毅:RL and GAN for sentence generation and chat-bot_第5张图片

2、RL(reinforcement learning强化学习) for sentence generation

李宏毅:RL and GAN for sentence generation and chat-bot_第6张图片

李宏毅:RL and GAN for sentence generation and chat-bot_第7张图片

θ其实隐含了。

李宏毅:RL and GAN for sentence generation and chat-bot_第8张图片

李宏毅:RL and GAN for sentence generation and chat-bot_第9张图片

某一个response是对的,我们就增加这件事发生的几率,如果这个response是错的,我们就减少这件事发生的几率。比如:说这个response比较好,那我们给的reward就高一点(假设4分),如果response很一般就给低一点的分数(假设1分),那我们在training的时候就可以把拥有比较好response的duplicate 4次,比较差的response duplicate 1次。

李宏毅:RL and GAN for sentence generation and chat-bot_第10张图片

李宏毅:RL and GAN for sentence generation and chat-bot_第11张图片

李宏毅:RL and GAN for sentence generation and chat-bot_第12张图片

可能会导致有一个case(h,x1)没有被sample到,导致它的reward会下降(因为他们的概率值之和要为1),解决方法:就是把你的reward减去一个正值b,让这一项是有正有负的。

李宏毅:RL and GAN for sentence generation and chat-bot_第13张图片

因为(h,x2)的reward是比较小的,加了baseline以后,它的值会下降。

李宏毅:RL and GAN for sentence generation and chat-bot_第14张图片

3、alpha go style training

李宏毅:RL and GAN for sentence generation and chat-bot_第15张图片

李宏毅:RL and GAN for sentence generation and chat-bot_第16张图片

李宏毅:RL and GAN for sentence generation and chat-bot_第17张图片

4、sequence GAN

1)basic idea:sentence generation

李宏毅:RL and GAN for sentence generation and chat-bot_第18张图片

李宏毅:RL and GAN for sentence generation and chat-bot_第19张图片

2)basic idea:chat bot

李宏毅:RL and GAN for sentence generation and chat-bot_第20张图片

李宏毅:RL and GAN for sentence generation and chat-bot_第21张图片

用一般的GAN没法做backpropogation。

李宏毅:RL and GAN for sentence generation and chat-bot_第22张图片

用WGAN:

李宏毅:RL and GAN for sentence generation and chat-bot_第23张图片

用reinforcement learning

李宏毅:RL and GAN for sentence generation and chat-bot_第24张图片

李宏毅:RL and GAN for sentence generation and chat-bot_第25张图片

李宏毅:RL and GAN for sentence generation and chat-bot_第26张图片

本来是对每一句话一个reward,现在是对每一句话的每一个word一个reward。

李宏毅:RL and GAN for sentence generation and chat-bot_第27张图片

李宏毅:RL and GAN for sentence generation and chat-bot_第28张图片

李宏毅:RL and GAN for sentence generation and chat-bot_第29张图片

teacher forcing

李宏毅:RL and GAN for sentence generation and chat-bot_第30张图片

3)seqGAN的应用

李宏毅:RL and GAN for sentence generation and chat-bot_第31张图片

李宏毅:RL and GAN for sentence generation and chat-bot_第32张图片

 

 

 

你可能感兴趣的:(学习笔记)