Python数据可视化的例子——热力图(heatmap)

(关系型数据的可视化)
热力图体现了两个离散变量之间的组合关系
热力图,有时也称之为交叉填充表。该图形最典型的用法就是实现列联表的可视化,即通过图形的方式展现两个离散变量之间的组合关系。读者可以借助于seaborn模块中的heatmap函数,完成热力图的绘制。按照惯例,首先对该函数的用法及参数含义做如下解释:

heatmap(data, vmin=None, vmax=None, cmap=None, center=None, annot=None, fmt='.2g',
     	annot_kws=None, linewidths=0, linecolor='white', cbar=True, cbar_kws = None,
     	square=False, xticklabels='auto', yticklabels='auto', mask=None, ax=None)
  • data:指定绘制热力图的数据集。
  • vmin,vmax:用于指定图例中最小值与最大值的显示值。
  • cmap:指定一个colormap对象,用于热力图的填充色。
  • center:指定颜色中心值,通过该参数可以调整热力图的颜色深浅。
  • annot:指定一个bool类型的值或与data参数形状一样的数组,如果为True,就在热力图的每个单元上显示数值。
  • fmt:指定单元格中数据的显示格式。
  • annot_kws:有关单元格中数值标签的其他属性描述,如颜色、大小等。
  • linewidths:指定每个单元格的边框宽度。
  • linecolor:指定每个单元格的边框颜色。
  • cbar:bool类型参数,是否用颜色条作为图例,默认为True。
  • square:bool类型参数,是否使热力图的每个单元格为正方形,默认为False。
  • cbar_kws:有关颜色条的其他属性描述。
  • xticklabels,yticklabels:指定热力图x轴和y轴的刻度标签,如果为True,则分别以数据框的变量名和行名称作为刻度标签。
  • mask:用于突出显示某些数据。
  • ax:用于指定子图的位置。

接下来,以某服装店的交易数据为例,统计2009—2012年每个月的销售总额:
Python数据可视化的例子——热力图(heatmap)_第1张图片
然后运用如上介绍的heatmap函数对统计结果进行可视化展现,具体代码如下:

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

#设置绘图风格
plt.style.use('ggplot')
#处理中文乱码
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
#坐标轴负号的处理
plt.rcParams['axes.unicode_minus']=False
# 读取数据
Sales = pd.read_excel(r'服装店的交易数据.xlsx')
# 根据交易日期,衍生出年份和月份字段
Sales['year'] = Sales.Date.dt.year
Sales['month'] = Sales.Date.dt.month
# 统计每年各月份的销售总额
Summary = Sales.pivot_table(index = 'month', columns = 'year', values = 'Sales', aggfunc = np.sum)
#打印销售额的列联表格式
print(Summary.head(13))
# 绘制热力图
sns.heatmap(data = Summary, # 指定绘图数据
            cmap = 'PuBuGn', # 指定填充色
            linewidths = .1, # 设置每个单元格边框的宽度
            annot = True, # 显示数值
            fmt = '.1e' # 以科学计算法显示数据
            )
#添加标题
plt.title('每年各月份销售总额热力图')
# 显示图形
plt.show()

结果:

year          2009         2010         2011         2012
month                                                    
1      520452.5595  334535.0605  255919.2030  341339.2470
2      333909.5565  271881.9480  299890.1410  281270.1790
3      411628.7290  217808.0065  296151.7510  387093.7650
4      406848.7620  266968.5890  290384.4670  278402.9940
5      228025.5680  287796.5150  264673.6260  384588.0615
6      273758.8780  293600.7750  196918.1455  316775.7855
7      412797.4600  240297.1585  287905.1865  275160.0495
8      329754.7150  205789.6440  275211.3295  306671.2835
9      325292.3145  419689.7785  278230.1660  319675.1765
10     347173.8005  368544.9250  305660.4510  351438.0925
11     253867.1960  295010.9555  385452.7300  261206.4290
12     420420.2355  368093.9540  328898.4945  351756.4180

它是列联表的格式,反映的是每年各月份的销售总额。很显然,通过肉眼是无法迅速发现销售业绩在各月份中的差异的,如果将数据表以热力图的形式展现,问题就会简单很多。
Python数据可视化的例子——热力图(heatmap)_第2张图片
如上图呀所示就是将表格进行可视化的结果,每个单元格颜色的深浅代表数值的高低,通过颜色就能迅速发现每年各月份销售情况的好坏。

你可能感兴趣的:(数据挖掘与数据分析,python,数据分析,数据可视化)