python jieba分词_Python入门:jieba库的使用

jieba库是一款优秀的 Python 第三方中文分词库,jieba 支持三种分词模式:精确模式、全模式和搜索引擎模式,下面是三种模式的特点。

精确模式:试图将语句最精确的切分,不存在冗余数据,适合做文本分析

全模式:将语句中所有可能是词的词语都切分出来,速度很快,但是存在冗余数据

搜索引擎模式:在精确模式的基础上,对长词再次进行切分

一、jieba库的安装

因为 jieba 是一个第三方库,所有需要我们在本地进行安装。

Windows 下使用命令安装:在联网状态下,在命令行下输入 pip install jieba 进行安装,安装完成后会提示安装成功。

python jieba分词_Python入门:jieba库的使用_第1张图片

在 pyCharm 中安装:打开 settings,搜索 Project Interpreter,在右边的窗口选择 + 号,点击后在搜索框搜索 jieba,点击安装即可。

二、jieba三种模式的使用

python jieba分词_Python入门:jieba库的使用_第2张图片

分词效果:

83532c9e9d34f171496dc7f1514be314.png

三、jieba 分词简单应用

需求:使用 jieba 分词对一个文本进行分词,统计次数出现最多的词语,这里以三国演义为例。

python jieba分词_Python入门:jieba库的使用_第3张图片

统计结果:

5f80e901fd558463616d0064378806b8.png

四、扩展:英文单词统计

上面的例子统计实现了中文文档中出现最多的词语,接着我们就来统计一下一个英文文档中出现次数最多的单词。原理同上

python jieba分词_Python入门:jieba库的使用_第4张图片

统计结果:

8fa6f8f12efab58b40be220523886e79.png

编辑整理 丨王田浩

python jieba分词_Python入门:jieba库的使用_第5张图片

你可能感兴趣的:(python,jieba分词)