仅供安装 HanLP1.x版本的用户参考,若要安装2.0版本的HanLP,额外需要2.x的TensorFlow等,不适用此方法。
pyhanlp 环境要求:
平台:平台不限 ;Python版本:3.6以上 ;JDK版本:随pyhanlp版本变化(后面会解释怎么得知版本对应关系,无须网上查)
环境:
平台:win10 ;Python版本:3.7 ;JDK版本:还没配置JDK环境
步骤一:安装pyhanlp
通过 pip install pyhanlp 安装即可,若本地没有jpype1会自动安装。
若提示Microsoft C++没有安装,单独安装即可,这点很多安装教程有细讲,不展开。
步骤二:下载Data数据包
1、访问GitHub项目地址
GitHub地址:https://github.com/hankcs/HanLP/releases
2、找到最新的发行版本,下载2个文件(如下图红框):
(1)hanlp-1.7.x-release.zip文件
(2)data-for-1.7.5.zip文件
3、下载完后把2个文件都放到本地pyhanlp库的static文件夹内,不需要解压缩
示例路径: F:\Anaconda\Lib\site-packages\pyhanlp\static
4、在IDE内执行一段pyhanlp库的示例代码,例如以下这段:
from pyhanlp import *
string = "你好,欢迎在Python中调用HanLP的API"
# 分词
words = [_.toString() for _ in HanLP.segment(string)]
然后pyhanlp会自动下载与刚从GitHub下载的发行版本相对应的Data数据包。(这步若下载慢或失败需要科学上网,或者停止下载重新多尝试几次)
步骤三:验证JDK环境
1、再次执行那段示例代码
若能出结果,则JDK环境已配置好,安装顺利完成。
若提示需要安装某个版本的Java SE (8u251或其他版本,这是当前pyhanlp对应的JDK版本,该安装方式可避免再去查找版本对应关系,比其他安装方式更简便),说明JDK环境是没有配置好,参考下一步
2、安装JDK
JDK下载地址:https://www.oracle.com/
具体安装教程很多,安装基本不会有障碍,不展开,但需要记住JDK的安装路径。
3、配置环境变量
进入JDK的安装路径,将目录下的bin文件夹和jre/bin文件夹的路径添加到环境变量中。否则会执行示例代码时会提示:
JVM DLL not found 或者 No JVM shared library file (jvm.dll) found.
4、重启IDE
重启IDE后应该可以顺利运行示例代码,代表安装完成。
注意:其余问题如numpy版本不符合要求,按照报错提示逐一升级即可。