目前知道的几个汉语分词工具

1、结巴分词

https://pypi.org/project/jieba/
是我之前工程上用的分词工具,因为之前工程紧急,所以当时只知道这个,现在闲下来一些时间,才有时间了解更多分词工具。
python语言,个人觉得用户使用度上比较方便,容易理解。分词效果也比较好,加停词表,加字典也比较容易。可以过滤词性、统计词频(tf-idf),功能完整,效果不错,用起来简单。

2、HanLP

http://hanlp.linrunsoft.com/
全称Han Language Processing
我没用过,不知道效果。
Java语言,看过官网的示例,觉得是因为语言的关系,所以导致用起来会比较麻烦(或者说,看起来要写更多的语句,这样比较准确)。
有时间了可以写一个简单的小demo试一下

3、pynlpir分词

中科院计算所
python语言
https://github.com/NLPIR-team/NLPIR

image.png

今天大概学习了一下,找了网上的几个容易产生歧义的几个测试语句。
感觉没有结巴分词效果好。
image.png

image.png

这是一个代表,我在网上找到的一些容易歧义的测试语句,结巴总体效果比pynlpir分词效果好多了

4、snownlp

python语言
直接用pip安装,比较简单
下面看一下测试用例下,几种分词方式的表现。
还是结巴最好。


image.png

5、ansj分词器

Java语言
https://github.com/NLPchina/ansj_seg

6、LTP

哈工大
有Java也有python
需要Visual C++


image.png

7、thulac分词

清华大学
python语言,Java语言也有


image.png

这个效果还是不如结巴。

8、还有一些分词的算法,参照下面的博客

https://blog.csdn.net/m0_37710823/article/details/76064408

9、补充一个

老公一直让我看N-Gram算法,烦人不,这个是按照字数分词,所以不能单独作为分词存在,只能用作计算词频或者相似度的辅助。
行了吧,真烦人。

10、再来更新一波(pkuseg-python)

https://github.com/lancopku/PKUSeg-python
上面是GitHub的网址
北京大学
python语言

image.png

下面是机器之心对pkuseg的简介
https://www.jiqizhixin.com/articles/2019-01-09-12
image.png

下面是安装方法,真的超级人性化,好安装。

你可能感兴趣的:(目前知道的几个汉语分词工具)