分词练习

1、现有的分词工具
中科院计算所NLPIR
ansj分词器
哈工大的LTP
清华大学THULAC
斯坦福分词器
Hanlp分词器
结巴分词
KCWS分词器(字嵌入+Bi-LSTM+CRF)
ZPar
IKAnalyzer
2、MLPIR与jieba的对比
首先,用MLPIR进行线上的分词分析。

分词分析的内容为:
分词练习_第1张图片
原版文字.png

而用MLPIR分词得出的结果为:
分词练习_第2张图片
MLPIR分词png

然后用jieba分词的结果为:
分词练习_第3张图片
jieba源码.png
分词练习_第4张图片
jieba分词.png

可以看出,MLPIR在分词的同时,把分词结果的词性也同时分离出来,而jieba的分词结果只是单纯的进行了分词;同时,MLPIR与jieba的分词结果也显示了两个分词工具有着不同的词库,例如“六道”在MLPIR的词库中是不存在的,所以它分出了“六”“道”,而jieba这是直接分出了“六道”这个词。
3、jieba分词练习
3.1关键词的提取

源码为:
分词练习_第5张图片
关键词提取源码.png

运行结果为:
分词练习_第6张图片
关键词提取结果.png

你可能感兴趣的:(分词练习)