斯坦福大学Stanza的使用

斯坦福大学自然语言处理组最新上线了新的Stanza系统,以Python包的方式发布,提供预先训练好的66种自然语言的模型。

介绍在这里:https://stanfordnlp.github.io/stanza/index.html#about

Stanza没有提供直接的语言模型下载通道,本文说明如何解决使用download()下载异常的问题。

=========================

Stanza模型下载一览表

一、获取模型链接

import stanza
stanza.download('en')

二、模型存放位置

Windows系统:C:\Users\*Administrator*你的用户名\stanza_resources

三、模型的使用

模型下载完成后是压缩文件,需先解压。形如:
C:\Users\*Administrator*你的用户名\stanza_resources\en\tokenize
使用download()命令会自动解压。

四、已知模型的下载链接

英语
http://nlp.stanford.edu/software/stanza/1.0.0/en/default.zip
汉语
http://nlp.stanford.edu/software/stanza/1.0.0/zh-hans/default.zip

=================

Windows下pip安装stanza时可能会出现错误,需自行先安装PyTorch。

看官网的说明:https://pytorch.org/

或者使用以下命令:

pip install torch===1.4.0 torchvision===0.5.0 -f https://download.pytorch.org/whl/torch_stable.html

===================

五、模型文件路径的自定义

可以将模型文件存放在自定义路径下,下载时使用stanza.download模块的第二个参数,形如:

stanza.download('en', "D:/LanguageModel/stanza_resources") 

加载时使用stanza.Pipeline模块的第二个参数,形如:

nlp = stanza.Pipeline('en', "D:/LanguageModel/stanza_resources")

你可能感兴趣的:(斯坦福大学Stanza的使用)