安装 en_core_web_sm-3.0.0

最近要使用一下 spacy 库,安装版本为 spacy 3.0.6。
其他环境版本为, torch 版本为 1.8.1+cu111,torchtext 0.9.1.

但是,装完 spacy库后却一直无法安装 en_core_web_sm,一开始使用的以下官方给的安装命令

python -m spacy download en_core_web_sm

但是却半天没有反应,可能是网络问题?不清楚到底什么原因。

后来,看到 这篇博客 后改为使用本地安装:

  1. 先去官网下载 en_core_web_sm-3.0.0 ; (其他版本同理)
  2. 然后,将下载好的文件通过 xftp 上传到服务器;
  3. 最后,在指定虚拟环境下执行命令:
    pip install 存放位置/en_core_web_sm-2.1.0.tar.gz

终于安装成功啦!
在这里插入图片描述

到这里,en_core_web_sm-3.0.0 安装是完成了,但是使用 torchtext 下载 IMDB 数据集时又出现错误:

from torchtext.legacy import datasets

train_data, test_data = datasets.IMDB.splits(TEXT, LABEL) # 使用 torchtext 下载 IMDB 数据集

第一次运行报错如下:
blog.csdnimg.cn/20210514173607152.png)
应该是网络的问题?英语不好也没看太懂。

第二次再运行,虽然没报错了,但是数据集没下载下载,加载数据集为空,如下图:
在这里插入图片描述

然后参考这位dalao的博客 torchtext-IMDB数据集下载过慢解决了。

思路还是同上安装 en_core_web_sm-3.0.0 一样,先去官网下载文件(IMDB 数据集),然后上传到服务器并解压。

安装 IMDB 数据集,两点注意:

  1. 先运行代码,程序会在当前目录下生成一个 .data/imdb 的隐藏文件夹;
  2. 然后将下载的 aclImdb_v1.tar.gz 文件,放到(mv)隐藏文件夹 .data/imdb中,不是自己新建 data/imdb
    (一开始我就是傻乎乎的这样,后来还是torchtext-IMDB数据集下载过慢博主dalao帮忙解决的),万分感谢。
  3. 使用 ls -a 可以查看当前目录所有文件(包括隐藏文件夹 .data)
  • linux 解压 "*.tar.gz"文件 命令 : tar -zxvf 压缩文件名.tar.gz

你可能感兴趣的:(nlp,linux,nlp)