大数据基础-词云jieba分词

cut用法

"""
词云就是对网络上的出现频率较高的“关键词”予以视觉上的突出。形成关键词云层,关键渲染层,
从而过滤掉大量的文本信息,通过浏览图层就可以浏览文本的主旨
词云需要安装两个库:jieba和wordcloud
    pip install jieba
    pip install wordcloud

"""

"""
中文分词介绍:
    中文分词就是将一个汉字序列切分成一个单独的词,分词就是将连续的文本序列按照一定的规范重新组合成词序列的过程。
    jieba的用法:
    cut用法:
    jieba.cut(s,cut_all=False)
    s:表示需要分词的字符串
    cut_all:表示是否采用全模式    
"""
import jieba
str="我来自北方民族大学";
seg_list=jieba.cut('我来自北方民族大学',cut_all=True)#全模式
print("切分前的字符串为:{}".format(str))
print('-----------------------------')
print("切分后的字符串为:",'/'.join(seg_list));
seg_list1=jieba.cut('我来自北方民族大学',cut_all=False)#精确模式
print('-------------------------------')
print("精确切分后的字符串为:",'/'.join(seg_list1));
print('-------------------------------')
seg_list2=jieba.cut('我来到北京清华大学',cut_all=True)#全模式
print("精确切分后的字符串为:",'/'.join(seg_list2));
print('-------------------------------')
seg_list3=jieba.cut('我来到北京清华大学',cut_all=False)#精确模式
print("精确切分后的字符串为:",'/'.join(seg_list3));
'''
jieba.cut_for_search(s)方法是接收一个参数s:需要被分词的字符串,该方法适合于搜索引擎构
建倒排序索引的分词,粒度比较细。
'''
print('-------------------------------')
seg_list11=jieba.cut_for_search('此前,媒体介绍了这名云南“地下组织部长”的真面目:'
                                '他把自己包装成手眼通天、法力无边、无所不能的人物,在两任'
                                '云南省委书记白恩培、秦光荣面前左右逢源,被奉为座上宾,甚至'
                                '敢在白恩培家拍桌子。')
print('/'.join(seg_list11))
'''
jieba.cut和jieba.cut_for_search返回的结构都是一个迭代的对象,可以使用for循环来遍历每一个词组,
也可以使用list(jieba.cut())转换成列表。
'''


大数据基础-词云jieba分词_第1张图片

词频与分词字典

'''
词频与分词字典:
    在一个给定的字典中,词频(TF)指的是摸一个给定的词云在该文件中出现的次数
'''
import jieba
from collections import Counter
content=open(r'pachong.txt',encoding='utf-8').read();
print(content)
print('-------------------------')
new_content=Counter(content).most_common(10)#查询词频数前10的词频
print(new_content)
print('------------------------')
'''
但是会出现一些无用的内容,如标点符号等。因此需要对其进行过滤
'''
connet_new1=[x for x in jieba.cut(content) if len(x)>=2];
print(connet_new1)
print('------------------------')
connet_new12=Counter(connet_new1).most_common(10);
print(connet_new12)
print('-----------------------')
'''
但是有时候会有许多的名词、地名等是不可分的"赵州桥"不可以分为'赵','州','桥',因此我们需要自己定义一个分词字典
以防止jieba分词中没有词,虽然jieba中有新词的识别能力,但是自己添加的字典会保证准确率
导入分词字典的命令为:
          jieba.load_userdict(file)
          file:表示一个文件对象户自定义的一个路径
          词典格式:
                一个词占一行;每一行分为词语、词频(可以省略)、词性(可以省略)三部分,用空格隔开
'''
txt='欧阳建国是创新办主任也是欢聚时代公司云计算方面的专家';
print('/'.join(jieba.cut(txt)));
#导入分词字典
jieba.load_userdict('user_dict.txt');
print('/'.join(jieba.cut(txt)))

大数据基础-词云jieba分词_第2张图片

你可能感兴趣的:(python大数据分析基础)