jieba
三种分词方式
精确模式:把文本精确的切分开,不存在冗余单词
全模式:把文本中所有可能的词语都扫描出来,有冗余
搜索引擎模式:在精确模式基础上,对长词再次切分
jieba.lcut(s) 精确模式,返回一个列表类型的分词结果
jieba.lcut(s,cut_all=False) 全模式
jieba.lcut_for_search(s) 搜索引擎模式
jieba.add_word(w) 将一个词语加入到jieba库中
import jieba
sentence = open('mydata.txt', 'rb').read()
jieba.enable_parallel(4) # 开启并行分词
将目标文本按行分隔后,把各行文本分配到多个 Python 进程并行分词, 然后归并结果,从而获得分词速度的可观提升. 基于 python 自带的 multiprocessing 模块,目前暂不支持 Windows 用法:
jieba.enable_parallel(4) # 开启并行分词模式,参数为并行进程数
jieba.disable_parallel() # 关闭并行分词模式
# words = jieba.cut(sentence=sentence, cut_all=True) # 全模式分词
words = jieba.cut(sentence=sentence, cut_all=False) # 精确分词
# words = jieba.cut_for_search(sentence=sentence, HMM=True) # 搜索引擎分词
print('/'.join(words))
time函数
time.time() 获取当前时间戳,即计算机内部的时间值,浮点数,表示从1970年到当前时刻秒为单位的一个数字
time.ctime() 获取当前时间并以易读方式表示,返回字符串
time.gmtime() 获取当前时间,表示为计算机可处理的时间格式
时间格式化 将时间以合理方式展示出来,按展示模板展示出来
strftime(tpl.ts) tpl是格式化模板字符串,用来定义输出效果 ts是计算机内部时间类型变量
t=time.gmtime()
time.strfttime("%Y-%m-%d %H-%M-%S",t)
worldcloud词云 pip install worldcloud
worldcloud.WorldCloud()代表一个文本对应的词云
w=worldcloud.WorldCloud()方法
w.genetate(txt) 向WorldCloud对象w中加载文本txt, w.generate("python and wordcloud")
w.to_file(filename) 将词云输出为图像文件,.png或jpg格式 w.to_file("outfile.png")
wordcloud库常规方法
步骤1:配置对象参数
步骤2:加载词云文本
步骤3:输出图云文件
import wordcloud
c=wordcloud.WordCloud()
c.generate("wordcloud by Python")
c.to_file("pycloud.png")
1分割:以空格分割单词
2统计:单词出现次数并过滤
3字体:根据统计配置字号
4布局:颜色环境尺寸
配置参数 width、height、min_font_size、max_font_size、font_step、font_path、max_words、stop_words
mask 指定词云形状,默认为长方形,需要引用imread()函数
from scipy.misc import imread
mk=imread("pic.png")
w=wordcloud.WordCloud(mask=mk)
background_color 默认为黑色
例
import wordcloud
txt="lift is short,you need python"
w=wordcloud.WordCloud(background="white")
w.generate(txt)
w.to_file("pycloud.png")
中文
import jieba
import wordcloud
txt="程序设计语言是计算机能够理解和"
ls=jieba.lcut(txt)
w=wordcloud.WordCloud(background="white")
w.generate(" ".join(ls))
w.to_file("pycloud.png")