NLP基础知识(一)

NLP基础知识(一)_第1张图片
NLP基础知识(一)_第2张图片
中文分词 (Word Segmentation, WS) 指的是将汉字序列切分成词序列。 因为在汉语中,词是承载语义的最基本的单元。分词是信息检索、文本分类、情感分析等多项中文自然语言处理任务的基础。
NLP基础知识(一)_第3张图片
词性标注(Part-of-speech Tagging, POS)是给句子中每个词一个词性类别的任务。 这里的词性类别可能是名词、动词、形容词或其他。
下面的句子是一个词性标注的例子。 其中,v代表动词、n代表名词、c代表连词、d代表副词、wp代表标点符号。
在这里插入图片描述
词性作为对词的一种泛化,在语言识别、句法分析、信息抽取等任务中有重要作用。

NLP基础知识(一)_第4张图片
命名实体识别 (Named Entity Recognition, NER) 是在句子的词序列中定位并识别人名、地名、机构名等实体的任务。
如之前的例子,命名实体识别的结果是:
在这里插入图片描述
NLP基础知识(一)_第5张图片
句法分析是自然语言处理领域的一个关键问题,如能将其有效解决:
一方面,可对相应树库构建体系的正确性和完善性进行验证;
另一方面,也可直接服务于各种上层应用,比如搜索引擎用户日志分析和关键词识别,比如信息抽取、自动问答、机器翻译等其他自然语言处理相关的任务。
短语结构和依存结构是目前句法分析中研究最广泛的两类文法体系。
与短语结构语法比较起来,依存语法没有词组这个层次,每一个结点都与句子中的单词相对应,它能直接处理句子中词与词之间的关系。
一般而言,短语结构语法是与依存语法等价的。因此,如果我们在短语结构分析之后得到了短语结构树,可以自动地把这样的短语结构树转换为依存树。
NLP基础知识(一)_第6张图片
NLP基础知识(一)_第7张图片
NLP基础知识(一)_第8张图片
依存句法最早由法国语言学家L.Tesniere在其著作《结构句法基础》(1959年)中提出,对语言学的发展产生了深远的影响,特别是在计算语言学界备受推崇。
所谓依存句法,需要理解的关键概念在于依存。
泰斯尼耶尔认为句子中各个成分间都存在着支配与从属的关系。
处于支配地位的词成为支配词,也称为核心词;处于被支配地位的词称为从属词。
中心节点在绝大多数情况下是动词,也就是说,动词是句子的中心。这种思想显然来源于配价理论。
配价理论
语言学中的“价”是借用化学中的“价”概念, 化学课中讲元素用提出的“价”它表示分子结构中各元素原子数目之间的比例关系。 最早把化学中的“价”引入语法研究中的是法国语言学家 Lucicen Tesniere。
Tesniere引进“价”这个概念, 主要是针对动词, 是为说明一个动词能支配多少种性质的名词性词语。
动词的“价”就决定于动词所支配的不同性质的名词性词语的数目, 一个动词如果能支配一种性质的名词性词语, 那它就是一价动词, 一个动词如果能支配两种性质的名词性词语, 那它就是二价动词, 一个动词如果能支配三种性质的名词性词语, 那它就是三价动词。
哈工大的Ltp 平台在依存理论的基础上,将依存句法分析定义为识别句子中的“主谓宾”、“定状补”这些语法成分,并分析各成分之间的关 系。仍然是上面的例子,其分析结果为:
NLP基础知识(一)_第9张图片
从分析结果中我们可以看到,句子的核心谓词为“提出”,主语是“李克强”,提出的宾语是“支持上海…”,“调研…时”是“提出”的 (时间) 状语,“李克强”的修饰语是“国务院总理”,“支持”的宾语是“探索 新机制”。
有了上面的句法分析结果,我们就可以比较容易的看到,“提出者”是“李克强”,而不是“上海”或“外高桥”,即使它们都是名词,而且距离“提出”更近。
在这里插入图片描述
NLP基础知识(一)_第10张图片
NLP基础知识(一)_第11张图片
NLP基础知识(一)_第12张图片
NLP基础知识(一)_第13张图片
在这里插入图片描述
NLP基础知识(一)_第14张图片
对于自然语言处理是否依赖于树结构这一问题,综合上面一系列的研究工作,我们目前能够获得的结论是:对于那些较依赖于长距离语义关系的任务,在没有充足训练数据的情况下,使用树结构模型能够获得更好的效果。当然,我们还可以从两个相反的角度来描述这一结论,即在以下两种情况下,我们无需使用树结构模型:
1、我们面对的是简单问题,其较少考虑长距离的语义依赖关系;
2、即使面对的是复杂问题,只要我们能够获得足够的训练数据。

你可能感兴趣的:(自然语言处理)