【论文笔记】Multi-task Sequence to Sequence Learning

Multi-task Sequence to Sequence Learning

作者表明,通过同时训练其他任务(例如图像标题生成或解析)以及反之亦然,我们可以提高参考任务(例如翻译)的性能。作者评估了3种MLT(多任务学习)方案:一对多,多对一和多对多。作者还发现,使用跳过思维的无监督训练可以很好地改善翻译性能,但是序列自动编码器却不能。

关键点

  • 4层seq2seq LSTM,每层和嵌入1000维单元,批处理大小128,落差0.2,SGD与LR 0.7和衰减。
  • 作者定义了针对参考任务定义的参数更新的混合比率。选择正确的混合比例是一个超参数。
  • 一对多实验:翻译(EN-> GER)+解析(EN)。改善两个任务的结果。令人惊讶的是,即使是非常少量的解析更新也可以显着改善MT结果。
  • 多对一实验:字幕+翻译(GER-> EN)。改善两个任务的结果(写入参考任务)
  • 多对多实验:翻译(EN <-> GER)+自动编码器或跳过思想。跳思想向量可改善结果,但自动编码器会使结果更糟。
  • 没有注意机制

问题/注释

  • 我认为这是非常有前途的工作。它可能使我们能够为许多任务构建通用系统,即使不是严格seq2seq的任务也是如此。我们可以轻松地替代分类。
  • 作者如何选择参数更新的混合比例,结果对这些比例有多敏感?这是一个新的超参数,我希望看到这些图形。我想知道他们是否选择了“恰到好处”的比例以使结果看起来不错,或者这些体系结构是否健壮。
  • 作者发现seq2seq自动编码器不能改善翻译,但可以跳过。实际上,自动编码器使翻译性能明显变差。这背后有什么直觉吗?

你可能感兴趣的:(【论文笔记】Multi-task Sequence to Sequence Learning)