欣一2002

数据科学 | Python酷炫词云图原来可以这么玩

↑↑↑↑↑点击上方蓝色字关注我们！

『运筹OR帷幄』转载

作者：费弗里

编者按

词云图是文本挖掘中用来表征词频的数据可视化图像，通过它可以很直观地展现文本数据中的高频词。词云图过滤掉大量的低频低质的文本信息，使得浏览者只要一眼扫过文本就可领略文本的主旨。很多文章都会用词云图来直观的表示数据分析结果，词云图是如果制作的就在这篇文章中寻找答案吧。

本文对应脚本及数据在后台领取，回复【词云图】

简介

词云图是文本挖掘中用来表征词频的数据可视化图像，通过它可以很直观地展现文本数据中地高频词：

图1 词云图示例

在Python中有很多可视化框架可以用来制作词云图，如pyecharts，但这些框架并不是专门用于制作词云图的，因此并不支持更加个性化的制图需求，要想创作出更加美观个性的词云图，需要用到一些专门绘制词云图的第三方模块，本文就将针对其中较为优秀易用的wordcloud以及stylecloud的用法进行介绍和举例说明。

利用wordcloud绘制词云图

wordcloud是Python中制作词云图比较经典的一个模块，赋予用户高度的自由度来创作词云图：

图2 wordcloud制作词云图示例

2.1从一个简单的例子开始

这里我们使用到来自wordcloud官方文档中的constitution.txt来作为可视化的数据素材：

图3 constitution.txt

首先我们读入数据并将数据清洗成空格分隔的长字符串：

import re

with open('constitution.txt') as c:
    '''抽取文本中的英文部分并小写化，并将空格作为分隔拼接为长字符串'''
    text = ' '.join([word.group().lower() for word in re.finditer('[a-zA-Z]+', c.read())])

'''查看前100个字符'''
text[:500]

图4 清洗后的片段文本

接着使用wordcloud中用于生成词云图的类WordCloud配合matplotlib，在默认参数设置下生成一张简单的词云图：

from wordcloud import WordCloud
import matplotlib.pyplot as plt
%matplotlib inline

'''从文本中生成词云图'''
wordcloud = WordCloud().generate(text)
plt.figure(figsize=[12, 10])
plt.imshow(wordcloud)
plt.axis('off')
plt.show()

生成的词云图:

图5 默认参数下的词云图

毕竟是在默认参数下生成的词云图，既丑陋又模糊，为了绘制好看的词云图，接下来我们来对wordcloud绘制词云图的细节内容进行介绍，并不断地对图5进行升级改造。

2.2wordcloud

作为wordcloud绘制词云图最核心的类，WordCloud的主要参数及说明如下：

font_path：字符型，用于传入本地特定字体文件的路径（ttf或otf文件）从而影响词云图的字体族
width：int型，用于控制词云图画布宽度，默认为400
height：int型，用于控制词云图画布高度，默认为200
prefer_horizontal：float型，控制所有水平显示的文字相对于竖直显示文字的比例，越小则词云图中竖直显示的文字越多
mask：传入蒙版图像矩阵，使得词云的分布与传入的蒙版图像一致
contour：float型，当mask不为None时，contour参数决定了蒙版图像轮廓线的显示宽度，默认为0即不显示轮廓线
contour_color：设置蒙版轮廓线的颜色，默认为'black'
scale：当画布长宽固定时，按照比例进行放大画布，如scale设置为1.5，则长和宽都是原来画布的1.5倍
min_font_size：int型，控制词云图中最小的词对应的字体大小，默认为4
max_font_size：int型，控制词云图中最大的词对应的字体大小，默认为200
max_words：int型，控制一张画布中最多绘制的词个数，默认为200
stopwords：控制绘图时忽略的停用词，即不绘制停用词中提及的词，默认为None，即调用自带的停用词表（仅限英文，中文需自己提供并传入）
background_color：控制词云图背景色，默认为'black'
mode：当设置为'RGBA'且background_color设置为None时，背景色变为透明，默认为'RGB'
relative_scaling：float型，控制词云图绘制字的字体大小与对应字词频的一致相关性，当设置为1时完全相关，当为0时完全不相关，默认为0.5
color_func：传入自定义调色盘函数，默认为None
colormap：对应matplotlib中的colormap调色盘，默认为viridis，这个参数与参数color_func互斥，当color_func有函数传入时本参数失效
repeat：bool型，控制是否允许一张词云图中出现重复词，默认为False即不允许重复词
random_state：控制随机数水平，传入某个固定的数字之后每一次绘图文字布局将不会改变

了解了上述参数的意义之后，首先我们修改背景色为白色，增大图床的长和宽，加大scale以提升图片的精细程度，并使得水平显示的文字尽可能多：

'''从文本中生成词云图'''
wordcloud = WordCloud(background_color='white', # 背景色为白色
                      height=400, # 高度设置为400
                      width=800, # 宽度设置为800
                      scale=20, # 长宽拉伸程度设置为20
                      prefer_horizontal=0.9999).generate(text)
plt.figure(figsize=[8, 4])
plt.imshow(wordcloud)
plt.axis('off')
'''保存到本地'''
plt.savefig('图6.jpg', dpi=600, bbox_inches='tight', quality=95)
plt.show()

图6

可以看到相较于图5，在美观程度上有了很大的进步，接下来，我们在图6的基础上添加美国本土地图蒙版：

图7 美国本土地图蒙版

利用PIL模块读取我们的美国本土地图蒙版.png文件并转换为numpy数组，作为WordCloud的mask参数传入：

from PIL import Image
import numpy as np

usa_mask = np.array(Image.open('美国本土地图蒙版.png'))

'''从文本中生成词云图'''
wordcloud = WordCloud(background_color='white', # 背景色为白色
                      height=4000, # 高度设置为400
                      width=8000, # 宽度设置为800
                      scale=20, # 长宽拉伸程度程度设置为20
                      prefer_horizontal=0.9999,
                      mask=usa_mask # 添加蒙版
                     ).generate(text)
plt.figure(figsize=[8, 4])
plt.imshow(wordcloud)
plt.axis('off')
'''保存到本地'''
plt.savefig('图8.jpg', dpi=600, bbox_inches='tight', quality=95)
plt.show(

图8

可以看到图8在图6的基础上进一步提升了美观程度，接下来我们利用wordcloud中用于从图片中提取调色方案的类ImageColorGenerator来从下面的星条旗美国地图蒙版中提取色彩方案，进而反馈到词云图上：

图9 美国地图蒙版_星条旗色

from PIL import Image
import numpy as np
from wordcloud import ImageColorGenerator

usa_mask = np.array(Image.open('美国地图蒙版_星条旗色.png'))
image_colors = ImageColorGenerator(usa_mask)

'''从文本中生成词云图'''
wordcloud = WordCloud(background_color='white', # 背景色为白色
                      height=400, # 高度设置为400
                      width=800, # 宽度设置为800
                      scale=20, # 长宽拉伸程度程度设置为20
                      prefer_horizontal=0.2, # 调整水平显示倾向程度为0.2
                      mask=usa_mask, # 添加蒙版
                      max_words=1000, # 设置最大显示字数为1000
                      relative_scaling=0.3, # 设置字体大小与词频的关联程度为0.3
                      max_font_size=80 # 缩小最大字体为80
                     ).generate(text)

plt.figure(figsize=[8, 4])
plt.imshow(wordcloud.recolor(color_func=image_colors), alpha=1)
plt.axis('off')
'''保存到本地'''
plt.savefig('图10.jpg', dpi=600, bbox_inches='tight', quality=95)
plt.show()

图10

2.3中文词云图

相较于英文文本语料，中文语料处理起来要麻烦一些，我们需要先进行分词等预处理才能进行下一步的处理，这里我们使用某外卖平台用户评论数据，先读取进来看看：

import pandas as pd
import jieba

'''读入原始数据'''
raw_comments = pd.read_csv('waimai_10k.csv');raw_comments.head()

图11

接下来我们利用re、jieba以及pandas中的apply对评论列进行快速清洗：

'''导入停用词表'''
with open('stopwords.txt') as s:
    stopwords = set([line.replace('\n', '') for line in s])

'''传入apply的预处理函数，完成中文提取、分词以及多余空格剔除'''
def preprocessing(c):
    
    c = [word for word in jieba.cut(' '.join(re.findall('[\u4e00-\u9fa5]+', c))) if word != ' ' and word not in stopwords]

    return ' '.join(c)

'''将所有语料按空格拼接为一整段文字'''
comments = ' '.join(raw_comments['review'].apply(preprocessing));comments[:500]

得到的结果如图12：

图12

这时我们就得到所需的文本数据，接下来我们用美团外卖的logo图片作为蒙版绘制词云图：

图13 美团外卖logo蒙版

from PIL import Image
import numpy as np
from wordcloud import ImageColorGenerator

waimai_mask = np.array(Image.open('美团外卖logo蒙版.png'))
image_colors = ImageColorGenerator(waimai_mask)

'''从文本中生成词云图'''
wordcloud = WordCloud(background_color='white', # 背景色为白色
                      height=400, # 高度设置为400
                      width=800, # 宽度设置为800
                      scale=20, # 长宽拉伸程度程度设置为20
                      prefer_horizontal=0.2, # 调整水平显示倾向程度为0.2
                      mask=waimai_mask, # 添加蒙版
                      max_words=1000, # 设置最大显示字数为1000
                      relative_scaling=0.3, # 设置字体大小与词频的关联程度为0.3
                      max_font_size=80 # 缩小最大字体为80
                     ).generate(comments)

plt.figure(figsize=[8, 4])
plt.imshow(wordcloud.recolor(color_func=image_colors), alpha=1)
plt.axis('off')
'''保存到本地'''
plt.savefig('图14.jpg', dpi=600, bbox_inches='tight', quality=95)
plt.show()

这时我们会发现词云图上绘制出的全是乱码，这是因为matplotlib默认字体是不包含中文的：

图14 中文乱码问题

这时我们只需要为WordCloud传入font_path参数即可，这里我们选择SimHei字体：

from PIL import Image
import numpy as np
from wordcloud import ImageColorGenerator

waimai_mask = np.array(Image.open('美团外卖logo蒙版.png'))
image_colors = ImageColorGenerator(waimai_mask)

'''从文本中生成词云图'''
wordcloud = WordCloud(font_path='SimHei.ttf', # 定义SimHei字体文件
                      background_color='white', # 背景色为白色
                      height=400, # 高度设置为400
                      width=800, # 宽度设置为800
                      scale=20, # 长宽拉伸程度程度设置为20
                      prefer_horizontal=0.2, # 调整水平显示倾向程度为0.2
                      mask=waimai_mask, # 添加蒙版
                      max_words=1000, # 设置最大显示字数为1000
                      relative_scaling=0.3, # 设置字体大小与词频的关联程度为0.3
                      max_font_size=80 # 缩小最大字体为80
                     ).generate(comments)

plt.figure(figsize=[8, 4])
plt.imshow(wordcloud.recolor(color_func=image_colors), alpha=1)
plt.axis('off')
'''保存到本地'''
plt.savefig('图15.jpg', dpi=600, bbox_inches='tight', quality=95)
plt.show()

图15

利用stylecloud绘制词云图

stylecloud是一个较为崭新的模块，它基于wordcloud，添加了一系列的崭新特性譬如渐变颜色等，可以支持更为个性化的词云图创作：

图16 styleword制作词云图示例

3.1从一个简单的例子开始

这里我们沿用上一章节中使用过的处理好的text来绘制词云图：

import stylecloud
from IPython.display import Image # 用于在jupyter lab中显示本地图片

'''生成词云图'''
stylecloud.gen_stylecloud(text=text, 
                          size=512,
                          output_name='图17.png')

'''显示本地图片'''
Image(filename='图17.png')

图17

可以看出，styleword生成词云图的方式跟wordcloud不同，它直接就将原始文本转换成本地词云图片文件，下面我们针对其绘制词云图的细节内容进行介绍。

3.2 gen_stylecloud

在stylecloud中绘制词云图只需要gen_stylecloud这一个函数即可，其主要参数及说明如下：

text：字符串，格式同WordCloud中的generate()方法中传入的text
gradient：控制词云图颜色渐变的方向，'horizontal'表示水平方向上渐变，'vertical'表示竖直方向上渐变，默认为'horizontal'
size：控制输出图像文件的分辨率（因为stylecloud默认输出方形图片，所以size传入的单个整数代表长和宽），默认为512
icon_name：这是stylecloud中的特殊参数，通过传递对应icon的名称，你可以使用多达1544个免费图标来作为词云图的蒙版，点击这里查看你可以免费使用的图标蒙版样式，默认为'fas fa-flag'
palette：控制调色方案，stylecloud的调色方案调用了palettable，这是一个非常实用的模块，其内部收集了数量惊人的大量的经典调色方案，默认为'cartocolors.qualitative.Bold_5'
background_color：字符串，控制词云图底色，可传入颜色名称或16进制色彩，默认为'white'
max_font_size：同wordcloud
max_words：同wordcloud
stopwords：bool型，控制是否开启去停用词功能，默认为True，调用自带的英文停用词表
custom_stopwords：传入自定义的停用词List，配合stopwords共同使用
output_name：控制输出词云图文件的文件名，默认为stylecloud.png
font_path：传入自定义字体*.ttf文件的路径
random_state：同wordcloud

对上述参数有所了解之后，下面我们在图17的基础上进行改良，首先我们将图标形状换成炸弹的样子，接着将配色方案修改为scientific.diverging.Broc_3：

'''生成词云图'''
stylecloud.gen_stylecloud(text=text, 
                          size=1024,
                          output_name='图18.png',
                          palette='scientific.diverging.Broc_3', # 设置配色方案
                          icon_name='fas fa-bomb' # 设置图标样式
                         )

'''显示本地图片'''
Image(filename='图18.png')

图18

3.3绘制中文词云图

在wordcloud中绘制中文词云图类似wordcloud只需要注意传入支持中文的字体文件即可，下面我们使用一个微博语料数据weibo_senti_100k.csv来举例：

weibo = pd.read_csv('weibo_senti_100k.csv')
weibo_text = [word for word in jieba.cut(' '.join(re.findall('[\u4e00-\u9fa5]+', ' '.join(weibo['review'].tolist())))) if word != ' ' and word not in stopwords]
weibo_text[:10]

图19

接着我们将蒙版图标样式换成新浪微博，将色彩方案换成colorbrewer.sequential.Reds_3：

'''生成词云图'''
'''生成词云图'''
stylecloud.gen_stylecloud(text=' '.join(weibo_text), 
                          size=1024,
                          output_name='图20.png',
                          palette='colorbrewer.sequential.Reds_3', # 设置配色方案为https://jiffyclub.github.io/palettable/colorbrewer/sequential/#reds_3
                          icon_name='fab fa-weibo', # 设置图标样式
                          gradient='horizontal', # 设置颜色渐变方向为水平
                          font_path='SimHei.ttf',
                          collocations=False
                         )

'''显示本地图片'''
Image(filename='图20.png')

图20

以上就是本文的全部内容，如有笔误望指出！

作者：费弗里

出处：https://www.cnblogs.com/feffery/p/11842798.html

版权：本文采用「署名-非商业性使用-相同方式共享 4.0 国际」知识共享许可协议进行许可。

HISTORY

往期推荐

20+Pandas文本数据处理，干货多多

7000字整理: 全网最详细Pandas合并数据集操作总结

肝了3天，整理了50个Pandas高频使用技巧，强烈建议收藏！

干货分享 | 用Pyecharts制作炫酷的可视化大屏

分享、收藏、点赞、在看安排一下？

【机器学习BDT】python代码实现(下) mcoc132 Python 机器学习机器学习 python 人工智能
文章目录BDT(BootstrapDecisionTree)python实现导入库分类树主体代码回归树主体代码输出函数完整代码后续可能添加的功能BDT(BootstrapDecisionTree)python实现代码仅供参考导入库importCART树_自己写importnumpy其中一个库之前写的分类树主体代码在原始数据权重基础上使用更新的数据权重以更新BDT模型.def分类树(self,BDT
nios ii FIFO读取FPGA数据交互实验1 尼德兰的喵 FPGA相关 EDA工具使用笔记 NiOS ii altera quartus 硬件 fpga
实验所用板子为altera经典的DE2板子，FPGA为CycloneII:EP2C35F672C6，quartus版本为13.01.建立工程，导入管脚图DE2_pin_assignments.csv文件，写入硬件代码并编译。最终的硬件verilog代码如下（部分代码需要在生成Qsys文件之后才能编译通过）：modulework(CLOCK_50,KEY,SW,LEDR);inputCLOCK_50
如何在OpenCV Python中对图像执行位异或操作？勤奋的可乐 Opencv opencv python 人工智能计算机视觉机器学习神经网络深度学习
彩色图像（RGB）有三个通道：红色、蓝色和绿色。图像表示为3维numpy数组。图像的像素值使用8位无符号整数（uint8）存储，范围为“0到255”。对两个图像执行位异或运算是在相应图像的像素值的二进制表示上执行的。以下是执行两个图像的位异或操作的语法–cv2.bitwise_xor（img1，img2，mask=None）这里，img1和img2是两个输入图像，mask是一个掩码操作。步骤要计算
Robyn与FastAPI全面对比：选择最适合你的Python Web框架我就是全世界 fastapi python 前端
引言1.1背景介绍在当今的软件开发领域，选择合适的Web框架对于项目的成功至关重要。Python作为一种广泛使用的编程语言，其生态系统中涌现出了众多优秀的Web框架，如FastAPI和Robyn。FastAPI自发布以来，因其高性能、易用性和自动生成API文档的特性，迅速成为开发者的首选。而Robyn，作为一个结合了Python和Rust优势的新兴框架，以其异步处理能力和简洁的API设计，也吸引了
Python中的多线程实现与GIL（全局解释器锁）的影响清水白石008 Python题库 python 开发语言 python 服务器开发语言
Python中的多线程实现与GIL（全局解释器锁）的影响在Python编程中，多线程是一种常见的并发编程技术，它允许程序同时执行多个任务。然而，Python的全局解释器锁（GIL）对多线程的性能和并发性有着显著的影响。本文将深入探讨如何在Python中实现多线程，并详细解释GIL的影响，以及如何在实际编程中应对其带来的挑战。一、引言Python的多线程编程允许我们在一个进程中同时执行多个线程，从而
python GIL 全局解释器锁嘉嘉嘉Jessie Python python 开发语言后端
GIL的历史由来：python中的GIL详解-可可的私房菜-博客园(cnblogs.com)总结：Python的多线程在多核CPU上，只对于IO密集型计算产生正面效果；而当有至少有一个CPU密集型线程存在，那么多线程效率会由于GIL而大幅下降。个人理解：GIL只是CPython的产物（参考：python解释器）GIL：创建python时只考虑到单核，为了解决多线程数据的完整性和同步状态的一把全局排
python中如何判断一个键是否在一个字典中，如果在打印输出在，用代码示例？神笔馬良 python linux 前端
问题描述：python中如何判断一个键是否在一个字典中，如果在打印输出在，用代码示例？问题解答：在Python中，你可以使用in关键字来判断一个键是否存在于字典中。这个操作会返回一个布尔值，如果键存在于字典中则为True，否则为False。my_dict={'a':1,'b':2,'c':3}#判断键'a'是否在字典中if'a'inmy_dict:print("'a'存在于字典中")else:pr
Python GIL 全局解释器锁详解实相无相 python教程 python GIL 全局解释器锁
PythonGIL详解在Python的多线程编程中，一个常被提及的概念是全局解释器锁（GIL，GlobalInterpreterLock）。它是Python解释器设计中的一个重要特性，对多线程应用的性能和行为产生了深远影响。在这篇文章中，我们将深入探讨GIL的工作原理、影响、以及如何在Python编程中应对这一限制。什么是GIL？GIL是Python解释器的一种锁机制，主要用于保护对Python对
Python ORM svygh123 python 编程 python 开发语言
Python中的ORM（Object-RelationalMapping）框架，其中最著名和广泛使用的两个是SQLAlchemy和DjangoORM。1.SQLAlchemySQLAlchemy是Python中功能最强大的SQL工具库之一，它不仅提供了ORM功能，还提供了核心的数据库SQL工具。它允许你用Python类来表示数据库表，并且可以使用Python代码而不是直接写SQL查询语句来操作数据
python-orm框架暮鼓晨钟nbv python orm 框架
首先见代码：#!/usr/bin/envpython3#encoding:utf-8#@File:__init__.py.py#@Author:LeonChu#@Time:2019-03-1515:45classField(object):def__init__(self,name,column_type):self.name=nameself.column_type=column_typedef
python orm框架有哪些 hakesashou python基础知识 python 数据库 sqlite
ORM概念ORM（ObjectRalationalMapping，对象关系映射）用来把对象模型表示的对象映射到基于SQL的关系模型数据库结构中去。这样，我们在具体的操作实体对象的时候，就不需要再去和复杂的SQL语句打交道，只需简单的操作实体对象的属性和方法。ORM技术是在对象和关系之间提供了一条桥梁，前台的对象型数据和数据库中的关系型的数据通过这个桥梁来相互转化。Python中常用的ORMSQLO
python：如何播放 .spx 声音文件 belldeep python python pyaudio ffmpeg
FFmpeg可以将.spx文件转码成.wav文件，基于pyaudio和wave实现播放.wav声音文件。whereffmpegD:\FFmpeg\64\ffmpeg.exepipinstallpyaudiopipinstallwave编写play_spx.py如下#-*-coding:utf-8-*-"""播放*.spx音频文件"""importosimportsysimporttimefromt
在Python中使用“判断字典键是否存在的方法“进行键的查找代码之旅创造者 python 开发语言 Python
在Python编程中，经常需要在字典中查找某个特定的键是否存在。字典是Python中常用的数据结构之一，它由一系列键-值对组成，每个键都是唯一的。为了判断一个键是否存在于字典中，我们可以使用in关键字或has_key()方法。下面将介绍如何使用in关键字和has_key()方法来判断键是否存在，并提供相应的源代码示例。使用in关键字判断键是否存在在Python中，使用in关键字可以判断一个键是否存
商品价格跟踪爬虫：监控多个电商网站的商品价格波动 Python爬虫项目 2025年爬虫实战项目爬虫 python 开发语言
1.引言在当前的电商环境中，商品价格变化快速且频繁。对于消费者而言，能够实时跟踪商品价格的波动是一项非常实用的功能。而对于商家来说，了解竞争对手的价格走势也是一种重要的商业策略。因此，开发一个商品价格跟踪爬虫，能够帮助我们及时掌握价格动态。本文将详细介绍如何使用Python实现一个高效的商品价格跟踪爬虫，并对多个电商网站进行价格监控。2.爬虫概述爬虫的作用是模拟浏览器向目标网站发送请求，获取商品页
Python字典的键是否可以相同？雪域Code python linux 开发语言 Python
解密Python字典的键是否可以相同的疑问，带你深入了解字典的特性。在Python中，字典是一种无序的数据结构，它由键值对组成，其中键是唯一的。这意味着每个键只能在字典中出现一次。当尝试使用相同的键插入或更新字典时，后面的键值对会覆盖前面的。让我们通过源代码来验证这一点：my_dict={'key1':'value1','key2':'value2','key1':
[python]判断键是否在字典中 FL1623863129 Python python 开发语言
在Python中，检查字典中是否存在某个键可通过以下方法实现：使用in关键字：最常用且直接，检查键是否存在于字典的键集合中。my_dict={'a':1,'b':2}if'a'inmy_dict:print("Key'a'exists.")else:print("Key'a'doesnotexist.")使用get()方法：尝试获取键对应的值，若键不存在则返回默认值（默认为None）。通过返回值是
Python 魔法学院 - 第32篇：Python ORM框架 ⭐⭐⭐ 星核日记《Python 魔法学院》python 数据库 pycharm 开发语言 windows
目录引言1.ORM框架概述1.1什么是ORM？比喻：ORM就像一位翻译官1.2ORM的优势2.[SQLAlchemy](https://docs.sqlalchemy.org.cn/en/20/intro.html)2.1SQLAlchemy简介2.2SQLAlchemy的核心组件2.3SQLAlchemy示例2.3.1安装SQLAlchemy2.3.2定义模型2.3.3插入数据2.3.4查询数据
【os】os.path.join 资源存储库 python 笔记 python
目录【os】os.path.join函数签名参数返回值特点示例1.拼接文件路径2.自动处理路径分隔符3.忽略多余的分隔符4.绝对路径的优先级5.拼接路径到当前工作目录小结【os】os.path.joinos.path.join是Python标准库os.path模块中的一个函数，用于智能地连接一个或多个路径组件（如文件夹路径或文件名）为一个完整的路径。它根据不同的操作系统（如Windows或类Uni
python 图像特征提取_python实现LBP方法提取图像纹理特征实现分类的步骤 weixin_39969060 python 图像特征提取
题目描述这篇博文是数字图像处理的大作业.题目描述:给定40张不同风格的纹理图片,大小为512*512,要求将每张图片分为大小相同的9块,利用其中的5块作为训练集,剩余的4块作为测试集,构建适当的模型实现图片的分类.图片如下图所示:分析:由于数据集太小,所以神经网络模型并不适合此类的图像处理.就需要寻找方法提取图像的纹理信息.本文采用LBP的方法提取图像的纹理信息,然后转化成直方图作为图像的特征,然
纯Python环境(CPython)的安装与使用薯仔的土小豆 Python python 人工智能数据分析
WhylearnPython?WebandInternetDevelopmentScientificandNumericPythoniswidelyusedinscientificandnumericcomputing:SciPyisacollectionofpackagesformathematics,science,andengineering.Pandasisadataanalysisand
python中什么意思_#python3type(1)为什么和python核心编程里的不一样？... weixin_39906245 'int'>什么意思
补充一点，type是个对象，type(1)也是个对象在交互环境下输出type(1)或者print(type(1))相当于type.__repr__(int)和type.__str__(int)下面说的“统一”，我想说的是python2里type的输出会有和两种情况，这应该是由于历史原因吧(旧式类和新式类，下面的引用和链接里也有相关的内容)，然后python3里没有了旧式类，就达成了统一classF
c与python-Python与Cpython weixin_37988176
甚至我在理解CPython，JPython，IronPython，PyPy之间的区别时也遇到了相同的问题。因此，在开始解释之前，我愿意清除三件事：Python：这是一门语言，它仅说明/描述如何向解释器（接受您的python代码的程序）传达/表达自己。实施：这完全与解释器的编写方式有关，特别是有关哪种语言以及最终使用的语言。字节码：它是由程序（通常称为虚拟机）而不是"真实”计算机（即硬件处理器）处理
【Python 笔记2】os.path.join() 挪威的深林 Python笔记 python
0.前言os.path.join()函数是Python中处理文件和目录路径的非常重要和常用的方法。它可以自动处理不同操作系统之间在路径分隔符方面的差异，从而使代码更加可移植和易于维护。下面我将详细解释每个用法，并提供示例代码。1.合并路径组件基本用法是将多个路径组件合并成一个完整的路径。这个方法会根据你的操作系统选择正确的路径分隔符。importospath=os.path.join("path"
理解 Python 解释器：CPython 与 IPython 的比较及选择指南 YRr YRr python python ipython 开发语言
理解Python解释器：CPython与IPython的比较及选择指南在选择适合自己需求的Python解释器时，理解CPython和IPython之间的主要差异至关重要。本文将详细解释CPython和IPython的特性、优势和适用场景，以帮助用户做出明智的选择。1.CPython:Python的默认解释器特点官方标准：CPython是Python语言的官方参考实现，由Python软件基金会维护。
Python 03-变量和数据类型 hitzsf Python
文章目录1、Python变量2、数据类型2.1、基本类型：2.2、数据容器或者数据结构2.3、其他类型3、整数类型---classint3.1、进制转换的函数3.2、字面值表示4、小数类型---classfloat4.1、字面值表示4.2、相关的函数5、bool类型---classboolPython03-变量和数据类型1、Python变量变量就是数据的名称，变量可以指定不同的数据类型，这些变量可
Python、CPython、Pythonnet、IronPython QQ_370566617 python 语言 .net shell 脚本扩展
最近抽空看点python的东西，原本是打算用来无界面的在部署机器上调试程序。因为部署机器上装VS不现实，装个小巧的Python到是可以。后来发现Python也Shell一样，如此的强大，真的是“人不可以貌相”。现在批处理一些东西，再也不用打开VS编译调试半天了，可以做到边调试边修改，方便！Python是一种脚本语言。通常说的Python是CPython，采用C++实现的运行环境。Pythonnet
【基础教程】Python整数类型（int）详解 SAPmatinal Python
整数就是没有小数部分的数字，Python中的整数包括正整数、0和负整数。有些强类型的编程语言会提供多种整数类型，每种类型的长度都不同，能容纳的整数的大小也不同，开发者要根据实际数字的大小选用不同的类型。例如C语言提供了short、int、long、longlong四种类型的整数，它们的长度依次递增，初学者在选择整数类型时往往比较迷惑，有时候还会导致数值溢出。而Python则不同，它的整数不分类型，
Python中os.path模块的使用详解幻想世界中的绚丽色彩 python 开发语言 Python
os.path模块是Python标准库中的一个模块，提供了用于处理文件路径和名称的函数。它是处理操作系统相关的路径的理想选择，无论是在Windows、Linux还是其他操作系统上。本文将详细介绍os.path模块的常用函数及其用法，并提供相应的源代码示例。获取文件名和目录名os.path模块提供了一些函数来获取文件路径的各个部分，如目录名、文件名和扩展名等。importospath='/path/
深度学习目标检测中的_单目测距原理与实现关键点及改进建议 QQ_767172261 单目测距深度学习目标检测人工智能
深度学习目标检测中的_单目测距原理与实现关键点及改进建议文章目录单目测距的进一步解释1.焦距的确定2.物体宽度$W$的获取3.图像处理技巧4.提高性能的建议5.实现代码中的注释添加一、前言单目视觉测距：网上有很多关于单目测距的文章，主要借鉴的是OpenCV学习笔记（二十一）——简单的单目视觉测距尝试和单目摄像机测距（python+opencv）两篇文章，在这里特别作出说明。工作环境：Ubunt
Python 图像处理进阶：特征提取与图像分类极客代码玩转Python 玩转AI 开发语言 python 图像处理人工智能
特征提取特征提取是计算机视觉中的一个重要环节，它可以从图像中提取出有助于后续处理的特征，比如用于识别和分类的关键点、纹理等。常见的特征提取方法包括SIFT、SURF和ORB等。SIFT（尺度不变特征变换）SIFT是一种用于检测图像中的关键点及其描述符的方法。SIFT特征具有尺度不变性和旋转不变性，适用于图像匹配和识别。原理：SIFT通过在不同尺度的空间内寻找极值点来检测关键点，并利用梯度方向的直方
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，

数据科学 | Python酷炫词云图原来可以这么玩

你可能感兴趣的:(可视化,python,数据分析,数据可视化,csv)