python调用中科院分词器进行中文分词之前一直使用python自带的jieba分词来进行中文分词,但是慢慢感觉分词效果不是很好,所以想用中科院的分词器进行分词。先看一下jieba分词效果
import jieba
str1='张三是我的老师'
str2='我是张三的学生'
seg_list1=jieba.cut(str1)
seg_list2=jieba.cut(str2)
print( ", ".join(seg_list1))
print( ", ".join(seg_list2))
结巴分词详细用法参考:jieba分词快速入门、结巴分词学习大全、结巴分词词性标注
用python调用中科院分词器
参考博客:http://blog.csdn.net/hongliryan/article/details/54577670
NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。官网地址
首先 在cmd 中运行命令:pip install pynlpir进行下载
下载之后进行测试
import pynlpir
pynlpir.open()
str = '张三是我的老师'
print(pynlpir.segment(str))
print(pynlpir.segment(str, pos_english=False)) # 把词性标注语言变更为汉语
print(pynlpir.segment(str, pos_tagging=False)) # 使用pos_tagging来关闭词性标注
进行运行出现错误:
pynlpir.LicenseError: Your license appears to have expired. Try running "pynlpir update".
参考该博客:http://blog.csdn.net/fontthrone/article/details/72692691
该博客说是你的NLPIR授权过期了,这个时候需要到github的license地址下载新的NLPIR.user
然后覆盖DATA文件夹中的原文件(NLPIR.user)即可。
如果不知道pynlpir安装地址在哪,可以在cmd里运行pip install pynlpir,然后出现
然后NLPIR.user文件就在C:\Users\Administrator\Anaconda3\Lib\site-packages\pynlpir\Data\NLPIR.user,然后替换就好了。可是再次运行又出现了错误: