python自然语言处理工具包“spaCy”安装教程

spaCy简介

1、spaCy简单教程

spaCy 是一个Python自然语言处理工具包,诞生于2014年年中,号称“Industrial-Strength Natural Language Processing in Python”,是具有工业级强度的Python NLP工具包。spaCy里大量使用了 Cython 来提高相关模块的性能,这个区别于学术性质更浓的Python NLTK,因此具有了业界应用的实际价值。

spaCy是隶属于NLP(自然语言处理)的python组件。

官方介绍:spaCy excels at large-scale information extraction tasks. It's written from the ground up in carefully memory-managed Cython. Independent research has confirmed that spaCy is the fastest in the world. If your application needs to process entire web dumps, spaCy is the library you want to be using.

spaCy擅长于大规模的信息提取任务。独立研究证实,spaCy是世界上最快的。如果应用程序需要处理整个web转储,则spaCy是要使用的库。)

实际应用中:Spacy支持多语言,提供相对完善的已有模型,做分词,实体识别非常好用,而且效率很高。

2、Spacy的功能

spaCy的功能很多,从最简单的词性分析,到高阶的神经网络模型,五花八门。

以下为5个常见用途

    • 词性分析
    • 命名实体识别
    • 依赖关系刻画
    • 词嵌入向量的近似度计算
    • 词语降维和可视化

3、spaCy下载与安装

      1spaCy包原镜像网站是国外服务器,由于下载速度过慢,提示错误,导致下载失败,无法成功下载。

      2、在百度查找国内镜像,然后在进行下载,下载成功,完成下载,安装spaCy

      dos命令:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -U spacy

python自然语言处理工具包“spaCy”安装教程_第1张图片

      3、查看spaCy是否安装成功。

      dos命令:pip show spaCy

python自然语言处理工具包“spaCy”安装教程_第2张图片

      4、欲完成spaCy Python包的下载与安装调试需要下载自然语言处理库,出现同样的问题,寻找国内镜像,直接下载自然语言处理库的安装包,使用百度云网盘进行离线下载。

       百度网盘链接:链接:https://pan.baidu.com/s/1KitmmxL07lyrcjaErRQeRA    提取码:4aar 
 

4、安装和编译 spaCy

ubuntu环境下,直接用pip安装即可:

sudo apt-get install build-essential python-dev git

sudo pip install -U spacy

不过安装完毕之后,需要下载相关的模型数据,以英文模型数据为例,可以用"all"参数下载所有的数据:

sudo python -m spacy.en.download all

或者可以分别下载相关的模型和用glove训练好的词向量数据:

# 这个过程下载英文tokenizer,词性标注,句法分析,命名实体识别相关的模型

python -m spacy.en.download parser

# 这个过程下载glove训练好的词向量数据

python -m spacy.en.download glove

下载好的数据放在spacy安装目录下的data

可以用如下命令检查模型数据是否安装成功:

textminer@textminer:~$ python -c "import spacy; spacy.load('en'); print('OK')"

OK

也可以用pytest进行测试:

首先找到spacy的安装路径:

python -c "import os; import spacy; print(os.path.dirname(spacy.__file__))"

/usr/local/lib/python2.7/dist-packages/spacy

再安装pytest:  sudo python -m pip install -U pytest

最后进行测试

你可能感兴趣的:(python,自然语言处理)