Jieba库使用和好玩的词云

Python jieba库的使用说明

1、jieba库基本介绍

(1)、jieba库概述

     jieba是优秀的中文分词第三方库 

     - 中文文本需要通过分词获得单个的词语
     - jieba是优秀的中文分词第三方库,需要额外安装

     - jieba库提供三种分词模式,最简单只需掌握一个函数 

(2)、jieba分词的原理
Jieba分词依靠中文词库

     - 利用一个中文词库,确定汉字之间的关联概率
     - 汉字间概率大的组成词组,形成分词结果

     - 除了分词,用户还可以添加自定义的词组

2、jieba库使用说明

(1)、jieba分词的三种模式

     精确模式、全模式、搜索引擎模式 

     - 精确模式:把文本精确的切分开,不存在冗余单词
     - 全模式:把文本中所有可能的词语都扫描出来,有冗余

     - 搜索引擎模式:在精确模式基础上,对长词再次切分 

(2)、jieba库常用函数
Jieba库使用和好玩的词云_第1张图片

3.安装jieba库

在这里插入图片描述

4.jieba应用实例

Jieba库使用和好玩的词云_第2张图片

5.用jieba库统计文本的词频

《三体3:死神永生》是刘慈欣创作的系列长篇科幻小说地球往事三部曲的第三部作
品,该部作品于2010年11月首次出版。该书主要讲述了文革期间一次偶然的星际通讯引发的三体世界对地球的入侵以及之后人类文明与三体文明三百多年的恩怨情仇。
现统计其文本中出现次数最多的是个词语,源代码如下:

import jieba
txt = open("C:\\Users\\moyulin\\Desktop\\三体死神永生.txt", "r", encoding='utf-8').read()
words  = jieba.lcut(txt)
counts = {}
for word in words:
    if len(word) == 1:  #排除单个字符的分词结果
        continue
    else:
        counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True) 
for i in range(10):
    word, count = items[i]
    print ("{0:<10}{1:>5}".format(word, count))

结果如下:
Jieba库使用和好玩的词云_第3张图片

你可能感兴趣的:(Jieba库使用和好玩的词云)