NLP概述

一,NLP问题的提出

语言是思维的载体,是人类交流思想、表达情感最自然、最直接、最方便的工具。

人类历史上以语言文字形式记载和流传的知识占知识总量的80%上。

全世界正在使用的语言有1900多种。

所以,如何让计算机自动地理解人类的语言是极其重要的。

二,基本概念

  • HLT:人类语言技术
  • NLU:自然语言理解
  • CL:自然语言学
  • NLP:自然语言处理

它们之间的关系如下:
NLP概述_第1张图片

三,研究内容

  • 机器翻译
  • 信息检索
  • 自动文摘
  • 问答系统
  • 信息过滤
  • 信息抽取
  • 知识图谱
  • 文档分类
  • 情感分类
  • 文字编辑与自动校对
  • 语言教学
  • 文字识别
  • 语音识别
  • 文语转换/语音合成
  • 说话人识别/认同/验证

四,基本问题和主要困难

1,基本问题

  • 形态学问题
  • 句法问题
  • 语义问题
  • 语用学问题
  • 语音学问题

2,主要困难

  • 词法歧义
  • 词性歧义
  • 结构歧义
  • 语义歧义
  • 语音歧义
  • 多音字及韵律等歧义
  • 未知语言现象:新词、新含义、新用法、新句型等等

3,所面临的挑战

  • 普遍存在的不确定性:词法、句法、语义、语用和语音各个层面
  • 未知语言现象的不可预测性:新的词汇、新的术语、新的语义和语法无处不在
  • 始终面临的数据不充分性:有限的语言集合永远无法涵盖开放的语言现象
  • 语言知识表达的复杂性:语义知识的模糊性和错综复杂的关联性难以用常规方法有效地描述,为语义计算带来了极大的困难
  • 机器翻译中映射单元的不对等性:词法表达不相同、句法结构不一致、语义概念不对等

五,基本研究方法

1,理性主义

思路:基于规则的分析方法建立符号处理系统。

  • 规则库开发
  • 词典标注
  • 推导算法设计

    NLP概述_第2张图片

2,经验主义

  • 大规模真实数据的收集与标注
  • 建立统计模型
    2

3,两种方法融合起来

NLP概述_第3张图片

你可能感兴趣的:(自然语言处理)