python自然语言处理之spacy详解

spaCy简介

spaCy号称工业级Python自然语言处理(NLP)软件包,可以对自然语言文本做词性分析、命名实体识别、依赖关系刻画,以及词嵌入向量的计算和可视化等。

spaCy模块有4个非常重要的类:

Doc:Doc对象由Tokenizer构造,然后由管道的组件进行适当的修改。doc对象包含Token的序列和Token的注释(Annotation);
Span:Span对象是Doc对象的一个切片;
Token:在自然语言处理中,把一个单词、一个标点符号、一个空格等叫做一个token;
Vocab(vocabulary):存储词汇表和语言共享的数据。词汇表使用Lexeme对象和StringStore对象来表示。
具体参考:https://www.cnblogs.com/ljhdo/p/10777246.html

spaCy工作处理流程(spaCy的处理管道)

使用spaCy时,文本字符串的第一步是将其传递给NLP对象。这个对象本质上是由几个文本预处理操作组成的管道(什么是Pipeline),输入文本字符串必须通过这些操作。当你在一个文本上调用nlp时,spaCy首先通过Tokenizer(分词器)进行分词并生成一个doc对象,然后doc会经过几个不同的步骤进行处理。Pipeline通常包括一个标记器(tagger)、一个词法器(lemmatizer)、一个解析器(parser)和一个实体识别器(entity recognizer)。每个流水线组件都会返回经过处理的doc,然后将其传递给下一个组件,最后形成最终doc。
python自然语言处理之spacy详解_第1张图片
创建nlp对象:

import spacy
nlp = spacy.load('en_core_web_sm')

# 创建nlp对象
doc = nlp("he eat an apple.")

spaCy实践

前面说了,spaCy是Python自然语言处理(NLP)软件包,下面进行几个流行的NLP任务,包括词性标记、依存分析和命名实体识别。

(一)词性标记

词性标记小示例

(二)依存分析

详情见:什么是依存句法分析?

(三)命名实体识别

命名实体识别小示例及相关说明

其余待补充>>>

参考:
《数亦有道:python数据科学指南》
https://www.cnblogs.com/panchuangai/p/13695902.html
https://zhuanlan.zhihu.com/p/405071894
https://www.cnblogs.com/ljhdo/p/10777246.html

你可能感兴趣的:(python基础入门,自然语言处理,python,人工智能)