NLP之分词jieba、HanLP、中科院nlpir

目前主流的分词有jieba、哈工大LTP、中科院计算所NLPIR、清华大学THULAC和FoolNLTK、HanLP

jieba分词目前是最主流的python中文分词组件,包括精确模式,在jieba分词中需要加载自定义词库(特殊领域)和使用正则表达式做过滤

 

1、对命名实体识别要求较高的可以选择HanLP,根据说明其训练的语料比较多,载入了很多实体库,通过测试在实体边界的识别上有一定的优势

2、可以看出平均耗时最短的是中科院nlpir分词,最长的是thulac,时间的差异还是比较大的。

3、发现HanLP的分词粒度比较大,fool分词粒度较小,导致fool分词在上有较大的误差。在人名识别上没有太大的差异,在组织机构名上分词,分词的颗粒度有一些差异,Hanlp在机构名的分词上略胜一筹。

4、中科院的分词,是学术界比较权威的,对比来看哈工大的分词器也具有比较高的优势。同时这两款分词器的安装虽然不难,但比较jieba的安装显得繁琐一点,代码迁移性会相对弱一点。哈工大分词器pyltp安装配置模型教程

5、jieba因为其安装简单,有三种模式和其他功能,支持语言广泛,流行度比较高,且在操作文件上有比较好的方法好用

 

 

 

 

 

 

你可能感兴趣的:(NLP)