【Deep Learning】Skip-Thought Vectors

Skip-Thought Vectors

这组作者将“skip-gram” word2vec模型应用于句子级别,训练了预测前一句话和下一句话的自动编码器。 所得的通用矢量表示形式称为“skip-though vectors”(跳空矢量)。 作者将这些向量的性能作为语义相关性和分类任务的特征进行评估,获得了差不多的结果,但没有击败微调的模型。

Key Points

  • 代码位于https://github.com/ryankiros/skip-thoughts
  • 训练采用大型书籍语料库(74M句子,1B token),需要2周。
  • 两种版本:双向编码器和单向编码器,每个编码器分别具有1200和2400个单位。 GRU单元,Adam优化器,梯度剪切范数10。
  • 可以通过学习从较大的word2vec语音符号到较小的跳过思想的语音符号的映射来扩展词汇。 在训练较大的vocab或训练角色时,也可以使用采样/分层softmax。

Questions/Notes

  • 作者清楚地指出,这不是本文的目标,尽管我很好奇如何用跳思想向量执行更复杂的(非线性)分类器。 作者可能尝试过此方法,但效果不佳 ;)
  • 故事生成似乎无法正常运行的事实表明,该模型在学习或理解长期依赖性方面存在问题。 我想知道这是否可以通过更深入的编码器或注意力解决。

你可能感兴趣的:(深度学习,神经网络,自然语言处理)