Python数据可视化的例子——气泡图(bubble)

(关系型数据的可视化)
气泡图是散点图中的一种类型,可以展现三个数值变量之间的关系
之前的文章有介绍过一般的散点图都是反映两个数值型变量的关系,所以如果还想通过散点图添加第三个数值型变量的信息,一般可以使用气泡图。
气泡图的实质就是通过第三个数值型变量控制每个散点的大小,点越大,代表的第三维数值越高,反之亦然。接下来将会介绍如何通过Python绘制气泡图。

1、matplotlib模块

在上一篇散点图文章中,应用matplotlib模块中的scatter函数绘制了散点图,本文将继续使用该函数绘制气泡图。要实现气泡图的绘制,关键的参数是s,即散点图中点的大小,如果将数值型变量传递给该参数,就可以轻松绘制气泡图了。如果读者对该函数的参数含义还不是很了解,可以下面的参数含义说明:

lmplot(x, y, data, hue=None, col=None, row=None, palette=None, col_wrap=None, size=5, 
	   aspect=1, markers='o', sharex=True, sharey=True, hue_order=None, col_order=None, row_order=None, 
	   legend=True, legend_out=True, scatter=True, fit_reg=True, ci=95, n_boot=1000, order=1, 
	   logistic=False, lowess=False, robust=False, logx=False, x_partial=None, y_partial=None, 
	   truncate=False, x_jitter=None, y_jitter=None, scatter_kws=None, line_kws=None)
  • x,y:指定x轴和y轴的数据。
  • data:指定绘图的数据集。
  • hue:指定分组变量。
  • col,row:用于绘制分面图形,指定分面图形的列向与行向变量。
  • palette:为hue参数指定的分组变量设置颜色。
  • col_wrap:设置分面图形中每行子图的数量。
  • size:用于设置每个分面图形的高度。
  • aspect:用于设置每个分面图形的宽度,宽度等于size*aspect。
  • markers:设置点的形状,用于区分hue参数指定的变量水平值。
  • sharex,sharey:bool类型参数,设置绘制分面图形时是否共享x轴和y轴,默认为True。
  • hue_order,col_order,row_order:为hue参数、col参数和row参数指定的分组变量设值水平值顺序。
  • legend:bool类型参数,是否显示图例,默认为True。
  • legend_out:bool类型参数,是否将图例放置在图框外,默认为True。
  • scatter:bool类型参数,是否绘制散点图,默认为True。
  • fit_reg:bool类型参数,是否拟合线性回归,默认为True。
  • ci:绘制拟合线的置信区间,默认为95%的置信区间。
  • n_boot:为了估计置信区间,指定自助重抽样的次数,默认为1000次。
  • order:指定多项式回归,默认指数为1。
  • logistic:bool类型参数,是否拟合逻辑回归,默认为False。
  • lowess:bool类型参数,是否拟合局部多项式回归,默认为False。
  • robust:bool类型参数,是否拟合鲁棒回归,默认为False。
  • logx:bool类型参数,是否对x轴做对数变换,默认为False。
  • x_partial,y_partial:为x轴数据和y轴数据指定控制变量,即排除x_partial和y_partial变量的影响下绘制散点图。
  • truncate:bool类型参数,是否根据实际数据的范围对拟合线做截断操作,默认为False。
  • x_jitter,y_jitter:为x轴变量或y轴变量添加随机噪声,当x轴数据与y轴数据比较密集时,可以使用这两个参数。
  • scatter_kws:设置点的其他属性,如点的填充色、边框色、大小等。
  • line_kws:设置拟合线的其他属性,如线的形状、颜色、粗细等。

下面以某超市的商品类别销售数据为例,绘制销售额、利润和利润率之间的气泡图,探究三者之间的关系:
Python数据可视化的例子——气泡图(bubble)_第1张图片
绘图代码如下:

import pandas as pd
import matplotlib.pyplot as plt

#设置绘图风格
plt.style.use('ggplot')
#处理中文乱码
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
#坐标轴负号的处理
plt.rcParams['axes.unicode_minus']=False
# 读取数据
Prod_Category = pd.read_excel(r'某超市的商品类别销售数据.xlsx')
# 将利润率标准化到[0,1]之间(因为利润率中有负数),然后加上微小的数值0.001
range_diff = Prod_Category.Profit_Ratio.max()-Prod_Category.Profit_Ratio.min()
Prod_Category['std_ratio'] = (Prod_Category.Profit_Ratio-Prod_Category.Profit_Ratio.min())/range_diff + 0.001

# 绘制办公用品的气泡图
plt.scatter(x = Prod_Category.Sales[Prod_Category.Category == '办公用品'],
           y = Prod_Category.Profit[Prod_Category.Category == '办公用品'],
           s = Prod_Category.std_ratio[Prod_Category.Category == '办公用品']*1000,
           color = 'steelblue', label = '办公用品', alpha = 0.6
            )
# 绘制技术产品的气泡图
plt.scatter(x = Prod_Category.Sales[Prod_Category.Category == '技术产品'],
           y = Prod_Category.Profit[Prod_Category.Category == '技术产品'],
           s = Prod_Category.std_ratio[Prod_Category.Category == '技术产品']*1000,
           color = 'indianred' , label = '技术产品', alpha = 0.6
          )
# 绘制家具产品的气泡图
plt.scatter(x = Prod_Category.Sales[Prod_Category.Category == '家具产品'],
           y = Prod_Category.Profit[Prod_Category.Category == '家具产品'],
           s = Prod_Category.std_ratio[Prod_Category.Category == '家具产品']*1000,
           color = 'green' , label = '家具产品', alpha = 0.6
          )
# 添加x轴和y轴标签
plt.xlabel('销售额')
plt.ylabel('利润')
# 添加标题
plt.title('销售额、利润及利润率的气泡图')
# 添加图例
plt.legend()
#设置纵坐标的刻度范围
plt.ylim((-120000, 350000))
# 显示图形
plt.show()

结果:
Python数据可视化的例子——气泡图(bubble)_第2张图片
如上图所示,应用scatter函数绘制了分组气泡图,从图中可知,办公用品和家具产品的利润率波动比较大(因为这两类圆点大小不均)。从代码角度来看,绘图的核心部分是使用三次scatter函数,而且代码结构完全一样,如果读者对for循环掌握得比较好,完全可以使用循环的方式替换三次scatter函数的重复应用。
需要说明的是,如果s参数对应的变量值小于等于0,则对应的气泡点是无法绘制出来的。这里提供一个解决思路,就是先将该变量标准化为[0,1],再加上一个非常小的值,如0.001。如上代码所示,最后对s参数扩大500倍的目的就是凸显气泡的大小。
遗憾的是,pandas模块和seaborn模块中没有绘制气泡图的方法或函数,故这里就不再衍生了。如果读者确实需要绘制气泡图,又觉得matplotlib模块中的scatter函数用起来比较灿琐,可以使用Python的bokeh模块,有关该模块的详细内容,可以查看官方文档。

你可能感兴趣的:(数据挖掘与数据分析,python,数据分析,可视化)