自然语言处理 1.基本概念

基本概念

常用术语与概念

自然语言处理(NLP,Nature Language Processing): 通过算法、统计或常识专门处理语言和各种方法的学科。

自然语言理解(NLU,Nature Language Understanding): 对某种自然语言的文本的真正理解。

计算语言学(Computational Linguistic): 从语言学的角度来分析、处理自然语言,试图通过计算机来模拟人的语言能力。目前来看,计算机语言学和自然语言处理方向一致,两者可以看作同一事物的不同名称。

语言处理层次

  1. 形态分析 (Morphological Analysis)
  2. 句法分析 (Syntax)
  3. 语义分析 (Semantic)
  4. 语用分析 (Pragmatics)
  5. 篇章分析 (Discourse)
  6. 世界知识分析 (World)

1.形态分析

  形态分析(Morphological Analysis)又称词汇分析,是指从完整的书写的词形式中识别出词干,词形式有时也包括词干的句法类别识别,即词性分析。例如,英语中单词cowardly =coward (词干)+ ly (后缀),ly将名词变为形容词。

  汉语或者大多数东亚语言中的形态或词汇分析与英语有所不同,汉语是词汇间无间隔的句子书写方式,所以这就要求,从句子(也就是字的序列)中切分出词,这个处理称做中文分词。

  大多数自然语言分析系统通常首先需要将文本分割为有语言学意义的符号单元。广义上来说,这个过程包括分词(切分)、词原型提取、词性标注以及命名实体/短语识别等一大类词法处理任务。

2.句法分析

  句法和语义是关联的两个语言层次的概念。句法有时候也不够严格地被称为语法或文法(grammer)。 严格来说,语法 = 句法 + 语义。

  句法指定义了句子内部各成分之间的形式化的相对位置关系。通常来说,句法 = 词典 + 规则。句法分析的目标是给各句子成份分配句法类别标签,并确定各成份之间的句法关系。

3.语义分析

  语义分析的目的是为意义完整的话语(utterances)赋予意义,包括词义及词义组合,这是一种与上下文无关的意义。上下文相关的语义分析包括:

  1. 句子层面的语义角色标注任务:给出句子内部的谓词-论元结构。
  2. 词义消歧
  3. 指代消解

4. 语用分析

  指文本符号或会话与会话生产者/用户之间的关系。他对不同的情境上下文背景中,对话语的解释重大影响。这部分工作困难重重,目前还没有在此方面取得突破性进展。

5. 篇章分析

  针对文本整体论述结构的分析,同时,还负责分析文本句子之间的关系。

6. 世界知识分析

  世界知识是指不受限制的常识知识,这个任务是负责推断出每个语言用户必须具备的一般世界知识。例如,用户在对话中的目的和价值观。从词汇、句法直到世界知识,下一层就是上一层的基础,当下一层表述不合理时,上一层也无法实现正确表达。

你可能感兴趣的:(自然语言处理,nlp,自然语言处理)