GAN学习笔记-李宏毅:GAN Lecture 9 (2018): Sequence Generation

李宏毅老师讲解的 GAN Lecture 9 (2018): Sequence Generation

Conditional Sequence Generation

GAN学习笔记-李宏毅:GAN Lecture 9 (2018): Sequence Generation_第1张图片

用maximize likelihood(也可以称为minimize cross entropy)训练seq2seq model 的问题是training criterion很难选到合适的

GAN学习笔记-李宏毅:GAN Lecture 9 (2018): Sequence Generation_第2张图片

by RL improving

GAN学习笔记-李宏毅:GAN Lecture 9 (2018): Sequence Generation_第3张图片

GAN学习笔记-李宏毅:GAN Lecture 9 (2018): Sequence Generation_第4张图片

GAN学习笔记-李宏毅:GAN Lecture 9 (2018): Sequence Generation_第5张图片

policy gradeint
GAN学习笔记-李宏毅:GAN Lecture 9 (2018): Sequence Generation_第6张图片

GAN学习笔记-李宏毅:GAN Lecture 9 (2018): Sequence Generation_第7张图片

与普通Gradient更新(更新一次参数,再求一个gradient,再更新…)的不同,在这里更新参数后需要返回互动,需要重新互动N收集数据,然后再求gradient,再更新参数…
GAN学习笔记-李宏毅:GAN Lecture 9 (2018): Sequence Generation_第8张图片

  • comprasion: RL每个training data有自己的weight
    GAN学习笔记-李宏毅:GAN Lecture 9 (2018): Sequence Generation_第9张图片
    对于R(c,x)恒为正的情况,通常处理是一起减掉一个threshold,让它变得有正有负
  • RL的困难是:机器需要跟人/环境互动很多次,在真实情境很难实现 -> alpha GO style-让两个机器自己互动,在这种方法中的问题是evaluation function是人定的,而定义出合适的evaluation function其实是很难的-> use GAN to improving
    GAN学习笔记-李宏毅:GAN Lecture 9 (2018): Sequence Generation_第10张图片

use GAN to improving

GAN学习笔记-李宏毅:GAN Lecture 9 (2018): Sequence Generation_第11张图片

  • 难点:seq2seq model + discriminator是没有办法做微分的(因为token是通过sampling的方式获得的,当整个network中有一个sampling process时,是没有办法进行微分的,基于微分的定义(输出的改变除以输入的改变)因为对分布修改参数后sampling出来的token其实是不一样的,对output的影响是不确定的)
    GAN学习笔记-李宏毅:GAN Lecture 9 (2018): Sequence Generation_第12张图片
  • 解决方法
    GAN学习笔记-李宏毅:GAN Lecture 9 (2018): Sequence Generation_第13张图片
    continuous Input for discriminator
    GAN学习笔记-李宏毅:GAN Lecture 9 (2018): Sequence Generation_第14张图片

problem:real is one-hot, fake is not one-hot
解决方法:考虑WGAN
GAN学习笔记-李宏毅:GAN Lecture 9 (2018): Sequence Generation_第15张图片

reinforcement learning
GAN学习笔记-李宏毅:GAN Lecture 9 (2018): Sequence Generation_第16张图片
R -> D
用GAN来train seq2seq model
GAN学习笔记-李宏毅:GAN Lecture 9 (2018): Sequence Generation_第17张图片
在实做上会有一点问题:I下降
GAN学习笔记-李宏毅:GAN Lecture 9 (2018): Sequence Generation_第18张图片
解决方法:对每一个time step做generation
GAN学习笔记-李宏毅:GAN Lecture 9 (2018): Sequence Generation_第19张图片

  • 试验结果:一般方法会比较常出现 I’m sorry / I don’t know, GAN 则趋向于产生更长的句子
    GAN学习笔记-李宏毅:GAN Lecture 9 (2018): Sequence Generation_第20张图片

unsupervised conditional sequence generation

  • text style transfer
    GAN学习笔记-李宏毅:GAN Lecture 9 (2018): Sequence Generation_第21张图片

GAN学习笔记-李宏毅:GAN Lecture 9 (2018): Sequence Generation_第22张图片

  • unsupervised abstractive summarization(摘要生成)

硬train需要大量的训练样本(百万级)
GAN学习笔记-李宏毅:GAN Lecture 9 (2018): Sequence Generation_第23张图片

GAN学习笔记-李宏毅:GAN Lecture 9 (2018): Sequence Generation_第24张图片

unsupervised 应用

两个不相关的domain数据,没有对应的关系,用circle GAN硬做

  • 英文转中文、法文。。。。
  • 语音转文本。。。

你可能感兴趣的:(阅读笔记,深度学习,GAN)