基于深度学习的自然语言处理——介绍

基于深度学习的自然语言处理——介绍

  • 介绍
    • 自然语言处理的挑战
    • 神经网络与深度学习
    • 自然语言中的深度学习
            • 参考文献

介绍

自然语言处理的挑战

  • 语言不能被形式化地描述和理解;
  • 使用不明确规则集处理歧义和多样输入;
  • 自然语言存在的特性:离散性、组合性、稀疏性,使得自然语言处理更困难;
  • 语言存在组合性;

以上性质的组合导致了数据稀疏性。(单词组合是无限的、合法句子是无限的)

神经网络与深度学习

  • 神经网络是机器学习的一个分支,是神经网络的重命名
  • 不仅学习预测,而且要学习正确地表示数据,使其更有助于预测;

自然语言中的深度学习

  • 将神经网络用于语言的主要组件是嵌入层将离散的符号映射为相对较低维度的连续向量
  • 主要使用的两个神经网络结构
    • 前馈网络(MLP)
      • 特点
        • 输入大小固定
        • 对于变化的输入长度,可以忽略元素的顺序
        • 线性模型所能应用的地方都可以使用前馈网络
      • 卷积前馈网络
        • 特点
          • 善于抽取数据中有意义的局部模式,这些模式对词序敏感,但忽略出现的位置;
          • 适合识别长句子或文本
    • 循环神经网络
      • 特点
        • 适合于序列数据
        • 可将输出喂给前馈网络
      • 贡献
        打破自然语言中的马尔可夫假设,能依赖整个句子的模型,在需要的情况下考虑词序,不太受数据稀疏的影响。
参考文献

《基于深度学习的自然语言处理》

你可能感兴趣的:(自然语言处理)