NLP学习路径(一):NLP基础知识

1、基本术语:
(1)分词
分词常用手段:基于字典的最长串匹配,但歧义分词很难。比如:美国/会/通过法案。美/国会/通过法案。
(2)词性标注
词性:动词、名词、形容词等
目的:表征词的一种隐藏状态,隐藏状态构成的转移就构成了状态转移序列。比如:我/r爱/v中国/ns。其中,ns代表名词,v是动词,ns,v都是标注。
(3)命名实体识别
指从文本中识别具有特定类别的实体(通常是名词),例如人名、地名、机构名、专有名词等。
(4)句法分析
基于规则的专家系统。
目的:解析句子中各个成分的依赖关系。比如:小明是小张的老师。小张是小明的老师。这两句话的词袋模型一样,但是主从关系不同。
(5)指代消解
中文中代词出现的频率很高,通常用来表征前文出现过得人名,地名等。
(6)情感识别
情感识别是分类问题,通常应用在舆情分析方向。一般分为正面与负面情感。比如可以运用在商品评价,作为下一次评判的依据。
方法:基于词袋模型+分类器;词向量模型+RNN
(7)纠错
有时候用户会把内容输错,所以需要一个纠错系统。
方法:基于N-Gram;字典树;有限状态机
(8)问答系统
类似siri

2、语料库
(1)中文维基百科
(2)搜狗新闻语料库
(3)IMDB情感分析语料库

3、NLP层面
(1)词法分析
汉语的分词和词性标注。首先要做的是将输入的文本切分为单独的词语,然后在此技术上进行更高的分析。
(2)句法分析
对输入的文本以句子为单位,进行分析以得到句子的句法结构的处理过程。
方法:
1)短语结构句法体系
作用:识别出句子中的短语结构以及短语之间的层次句法关系
2)依存结构句法体系(浅层句法分析)
作用:识别句子中词与词之间的相互依赖关系
3)深层文法句法分析
作用:词汇化树邻接文法,组合范畴文法等对句子进行深层的句法及语义分析
(3)语义分析
方法:语义角色标注;基于逻辑表达的语义分析

NLP目前普遍主要采用级联方式:分词、词性标注、句法分析、语义分析分别训练模型。实际使用时,给定输入句子,逐一使用各个模块进行分析,最终得到结果。
NLP也可以用联合模型,将多个任务俩安和学习和解码,比如:分词与词性结合,词性与句法结合等。

参考:《python自然语言处理实战 核心技术与算法》

你可能感兴趣的:(学习笔记,NLP)