NLP系列——NLP基础

NLP系列——NLP基础

NLP基础部分包括基础术语、知识结构、语料库等部分内容。


文章目录

  • NLP系列——NLP基础
  • 一、基础术语
    • 1.1 分词(segment)
    • 1.2 词性标注(part-of-speach tagging)
    • 1.3 命名实体识别(NER,Named Entity Recognition)
    • 1.4 句法分析(syntax parsing)
    • 1.5 指代消解(anaphora resolution)
    • 1.6 情感识别(emotion recognition)
    • 1.7 纠错(correction)
    • 1.8 问答系统(QA system)
  • 二、语料库
    • 2.1 中文维基百科
    • 2.2 搜狗新闻语料库
    • 2.3 IMDB情感分析语料库
  • 3 NLP知识结构
    • 3.1 词法分析
    • 3.2 句法分析
    • 3.3 语义分析
  • 总结


一、基础术语

基础专业词汇包括:分词(segment)、词性标注(part-of-speach tagging)、命名实体识别(NER,Named Entity Recognition)、句法分析(syntax parsing)、指代消解(anaphora resolution)、情感识别(emotion recognition)、纠错(correction)、问答系统(QA system)等。

1.1 分词(segment)

英文:由空格分隔
中文:最常用的手段是基于字典的最长串匹配

1.2 词性标注(part-of-speach tagging)

对词的词性进行标注:动词、名词、形容词
目的:表征词的一种隐藏状态,隐藏状态构成的转移就构成了状态转移序列

1.3 命名实体识别(NER,Named Entity Recognition)

命名实体:从文本中识别具有特定类别的实体(通常是名词),例如人名、地名、机构名、专有名词等。

1.4 句法分析(syntax parsing)

内涵:一种基于规则的专家系统
目的:解析句子中各个成分的依赖关系,解决传统词袋模型不考虑上下文的问题
结果:一般是一颗句法分析树

1.5 指代消解(anaphora resolution)

将代词替换成指代的内容

1.6 情感识别(emotion recognition)

本质是分类问题,经常用于舆情分析等领域
方法:
1)基于词袋模型+分类器
2)词向量模型+RNN

1.7 纠错(correction)

搜索技术和输入法中

1.8 问答系统(QA system)

二、语料库

2.1 中文维基百科

中文维基百科是最常用且权威的开放网络数据集之一。

2.2 搜狗新闻语料库

搜狗新闻语料库

2.3 IMDB情感分析语料库

IMDB情感分析语料库

3 NLP知识结构

3.1 词法分析

词法分析包括汉语的分词和词性标注这两部分内容。

3.2 句法分析

句法分析是对输入的文本以句子为单位,进行分析以得到句子的句法结构的处理过程。
一方面能够帮助理解句子含义,另一方面也为更高级的自然语言处理任务提供支持(机器翻译、情感分析等)。

目前业界存在三种比较主流的句法分析方法:
1)短语结构:识别句子中的短语结构以及短语之间的层次句法关系;
2)依存结构:识别句子中词语词之间的相互依赖关系;
3)深层文法:利用深层文法(词汇化树邻接文法、组合范畴文法等)对句子进行深层的句法及语义分析;

3.3 语义分析

目的:理解句子表达的真实语义;

总结

提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

你可能感兴趣的:(NLP技术,自然语言处理,机器学习,大数据)