第1章 NLP基础

这是涂铭的书-python自然语言处理实战的笔记,后续章节也会持续更新。
代码,数据集资料:Python自然语言处理实战
NLP可分成两个部分:

  1. 自然语言理解
  2. 自然语言生成

语言理解包括很多学科:

  1. 音系学:发音的系统化组织
  2. 词态学:单词构成和相互关系
  3. 句法学:语法正确
  4. 语义学:什么意思
  5. 语用学:说了干嘛

语言生成包含三个阶段:

  1. 文本规划
  2. 语句规划
  3. 实现

NLP的用途:

  1. 机器翻译
  2. 情感分析
  3. 智能问答
  4. 文摘生成
  5. 文本分类(分类辣鸡邮件)
  6. 舆论分析
  7. 知识图谱(知识域可视化)

NLP相关知识的构成

基本术语

  • 分词(segment):最小的有意义的语言成分。英语用空格分割,而汉语会存在歧义问题。例如:美/国会/通过对台售武法案,美国/会/通过对台售武法案。
  • 词性标注(part-of-speech tagging):基于机器学习的方法里往往需要对词性进行标注。例如:我/r爱/v北京/ns天安门/ns。ns名词,v动词。
  • 命名实体识别(NER,Named Entity Recognition):文本中识别特定实体,例如:人名、地名、机构名、专有名词。
  • 句法分析(syntax parsing):往往是基于规则的专家系统,分析句子主从依赖关系。例如:小李是小杨的班长 和 小样是小李的班长,主从不同。
  • 指代消解(anaphora resolution):中文中代词比较多。例如:小明是条狗,它会咬人。我们用它代表小明却不会再把小明重复说一遍。
  • 情感识别(emotion recognition):本质上是分类问题。一般用于舆论分析。
  • 纠错(correction)自动纠错技术,例如:搜索或我们用的输入法中。
  • 问答系统(QA system)类似机器人的只能系统,例如:siri,cortana。

语料库

  • 中文维基百科
  • 搜狗新闻语料库
  • IMDB情感分析语料库

NLP的几个层面

  • 第一层面:词法分析
  • 第二层面:句法分析
  • 第三层面:语义分析

和编译原理差不多,本书主要讲了第一和第二部分。

你可能感兴趣的:(第1章 NLP基础)