Python jieba库简介和使用

今天继续给大家介绍Python相关知识,本文主要内容是Python jieba库简介和使用。

一、jieba库概述

jieba库是Python的一个第三方库,该库常用于中文分词。所谓分词,就是给定一段中文文本,然后将这一段中文文本分成单个的词语。jieba库使用简单,分词效率和准确性较好。jieba基于中文词库进行分词,也可以使用HMM(隐马尔可夫模型)对新词进行处理。

二、jieba库安装

由于jieba是Python的第三方库,因此我们需要额外安装jieba库后才可以使用,执行命令:

pip isntall jieba

即可完成jieba库的安装。

三、jieba库分词的三种模式

jieba库的分词支持三种模式,即精确模式全模式以及搜索引擎模式。这三种模式功能和效果如下所示:
1、精确模式
精确模式可以把文本精确的且分开,并且不存在冗余单词。
2、全模式
全模式可以返回文本中所有可能的词语,但是会存在冗余单词。
3、搜索引擎模式
搜索引擎模式可以在精确模式的基础上,对长单词继续进行切分。

四、jieba库常用函数和示例

jieba库的三种匹配模式函数如下表所示:

jieba库函数 函数作用
jieba.lcut(str) 该函数表示对中文字符串str进行精确模式分词
jieba.lcut(str,cut_all=True) 该函数表示对中文字符串str进行全模式分词
jieba.lcut_for_search(str) 该函数表示对中文字符串str进行搜索引擎模式分词

上述jieba库三种函数和匹配示例如下所示:
Python jieba库简介和使用_第1张图片
原创不易,转载请说明出处:https://blog.csdn.net/weixin_40228200

你可能感兴趣的:(Python,python,jieba,中文分词,编程,开发)