Python--Jieba进行中文分词(附代码)

Python–Jieba进行中文分词(附代码)

相信学习过python的人一定知道中文分词工具Jieba。在Jieba中,我们最熟悉的应该就是分词了,其实,除了分词之外,Jieba还有词性标注,提取关键词等功能。在这里,我要介绍的就是Jieba的分词功能和应用。
(jieba分词官方下载地址:https://github.com/fxsjy/jieba)
(jieba官方网站下载速度可能较慢,可获取百度网盘链接进行下载。)

Jieba分词是结合了基于规则和基于统计两类方法的分词。它具有三种分词模式:
(1)精确模式:能够将句子精确的分开,适合做文本分析
(2)全模式:把句子中所有可能的词语都扫描出来,无法解决歧义问题
(3)搜索引擎模式:在精确模式的基础中,对长词再次进行切分,可以有效提高召回率。

三种模式的使用方法如下:

import jieba

sentence="你需要羽毛球拍吗?"

seg_list = jieba.cut(sentence,cut_all=True)
print("全模式:","/".join(seg_list))

seg_list = jieba.cut(sentence,cut_all=False)
print("精确模式:","/".join(seg_list))

seg_list = jieba.cut_for_search(sentence)
print("搜索引擎模式:","/".join(seg_list))

seg_list = jieba.cut(sentence)
print("默认模式:","/".join(seg_list))

运行结果如下:
Python--Jieba进行中文分词(附代码)_第1张图片

你可能感兴趣的:(python,自然语言处理,编程语言)