【人工智能与深度学习】自然语言处理中的深度学习

【人工智能与深度学习】自然语言处理中的深度学习

    • 综述
    • 语言模型
    • 神经语言模型
      • 卷积语言模型
      • 循环语言模型
      • Transformer语言模型
  • 多头注意力机制
    • 一些使用技巧 (适用于多头注意力机制和位置信息嵌入) 以及如何从语言模型中解码
      • 技巧1: 利用层标准化来稳定训练
      • 技巧2: 学习率预热(Warmup)和逆方差学习率调整
      • 技巧3: 谨慎初始化参数
      • 技巧4: 标签平滑化
      • 以下是我们之前讨论的方法的结果. 在右面列出的"ppl"代表困惑度(perplexity, 交叉熵的指数形式). ppl越低越好.
    • 关于transformer语言模型的重要知识点
      • 自注意力机制是平方时间复杂度的(任意词可以访问到其他所有词), 我们需要限制输入序列的最大长度.
      • Transformer有很好的扩展性

你可能感兴趣的:(Python实战教程,人工智能与机器学习教程,深度学习,自然语言处理,机器学习)