数据可视化(五):如何选择图表(常用图表对比)——学习笔记

前面几篇文档,我们已经学习了时序型数据、对比型数据、对比型数据、分布型数据、区间型数据、关系型数据、地理型数据的可视化方式,这次,我们针对几种常见的图表,根据不同数据集以及可视化的目的,对比相似图表的差别和适用的数据集,从而总结出根据可视化目的、数据集特征,去选择图表类型的一般套路。

1.柱状图vs条形图

1.1可视化目标

首先明确可视化的目的是要展示什么,比如:展示销售额TOP5的产品二级大类?

1.2数据集

其次准备所需要的数据集(这里需要汇总各类的销售额):

销售额 产品二级子类别
110071.02 办公机器
84453.586 电话通信产品 
68514.348 桌子 
42704.19 容器,箱子
24924.98 椅子 

1.3图形可视化对比

                                                                                条形图vs柱状图

                                                                        销售额TOP5的产品二级大类

数据可视化(五):如何选择图表(常用图表对比)——学习笔记_第1张图片               数据可视化(五):如何选择图表(常用图表对比)——学习笔记_第2张图片

这里的柱状图和条形图可以互换。

1.4总结

(1)相同点:

  • 两者数据结构相同,都是类别加上对应的离散数值;
  • 当数据的记录数不大于12条,分类字段的字符长度小于5时,此时柱状图和条形图可以互换。

(2)不同点:

  • 柱状图:如果分类的类目,恰好是时间序列,此时建议使用柱状图,因为柱状图能更好地体现数据随时间的变化情况;
  • 条形图:当分类的类名长度大于5时,用条形图能更加美观地显示。

2.柱状图vs直方图

2.1可视化目标

明确可视化目标,需要展示什么东西。

  • 展示订单中,不同产品一级类别的商品销售数量;
  • 已知商品定价范围在[1.68,3511.68]之间,现需展示订单数据中商品的价格分布,要求每10元作为一个区间。

2.2数据集

整理出来可视化展示所需的数据集:

数据集1:

产品一级类别 商品数量
办公用品 4188
技术产品 1817
家具产品 1531

数据集2:

单价区间 商品数量
1.68-11.68 3043
11.68-21.68 1002
21.68-31.68 485
31.68-41.68 481
41.68-51.68 224
51.68-61.68 146
61.68-71.68 432
71.68-81.68 84
81.68-91.68 68
91.68-101.68 182
101.68-111.68 116
111.68-121.68 116
121.68-131.68 224
131.68-141.68 85
141.68-151.68 112
151.68-161.68 34
171.68-181.68 61
191.68-201.68 84
201.68-211.68 121
211.68-221.68 34
231.68-241.68 29
241.68-251.68 2
281.68-291.68 13
301.68-311.68 23
341.68-351.68 3
361.68-371.68 37
371.68-381.68 29
391.68-401.68 45
411.68-421.68 3
421.68-431.68 37
491.68-501.68 82
501.68-511.68 18
691.68-701.68 19
801.68-811.68 38
891.68-901.68 14
1491.68-1501.68 4
2031.68-2041.68 3
3501.68-3511.68 3

2.3可视化展示

选择合适的图表可视化展示:

数据可视化(五):如何选择图表(常用图表对比)——学习笔记_第3张图片

数据可视化(五):如何选择图表(常用图表对比)——学习笔记_第4张图片

2.4总结

(1)相同点:

  • 两者数据结构类似,都为一个类别字段/分组字段+数值字段;
  • 都是由柱形条构成。

(2)不同点:

  • 两者的分析目的和适用场景不同。柱状图主要是比较不同类别数据的大小,直方图表示数据分布情况;
  • X轴上的数据属性不同,柱状图的为不同分类,直方图为连续的分组数据;
  • 宽度代表的实际意义不同。柱状图中柱形条的宽度没有实际意义,一般宽度相同,直方图中柱形条宽度为组距,区间不同的话柱形条宽度也会不同;
  • 表示数据大小的方式不同。柱状图,是通过柱形条的高度,来映射数据的大小,且柱子之间有间隔;直方图,是通过高度(频数直方图)或面积(频率直方图)来表示数据的大小,且柱子之间没有间隔。

3.堆叠柱状图vs百分比堆叠柱状图

3.1可视化目的

  • 不同年份的商品的销售数量趋势,及其不同年份三种运输方式的数量趋势;
  • 不同年份的商品的销售三种运输方式占比趋势。

3.2数据准备

数据集1:

不同年份不同运输方式运输的商品数量

年份 大卡 火车 空运
2009 214 1299 105
2010 288 1753 419
2011 142 1387 214
2012 328 1244 143

数据集2:

不同年份不同运输方式运输的商品数量占比

年份 大卡 火车 空运
2009 13.23% 80.28% 6.49%
2010 11.71% 71.26% 17.03%
2011 8.15% 79.58% 12.28%
2012 19.13% 72.54% 8.34%

 

3.3可视化 

                                                                   不同年份不同运输方式运输的商品数量

                                                                    

数据可视化(五):如何选择图表(常用图表对比)——学习笔记_第5张图片

数据可视化(五):如何选择图表(常用图表对比)——学习笔记_第6张图片

3.4总结

 (1)相同点:

  • 堆叠柱状图和百分比堆叠柱状图,都适合用来展示分类数据的构成对比或构成随时间的变化趋势;
  • 当映射到X轴上的数据为时间序列时,此时可以用堆叠面积图或者百分比堆叠面积图来代替。

(2)不同点:

  • 堆叠柱状图既可以对比各构成部分的数值差异,还可以观测各组数据的整体差距,而百分比堆叠柱状图只能对比整体中的各构成部分的占比差异,无法对比不同整体的差异。

4.折线图vs面积图

4.1可视化目标

  • 按月份展示商品的销售数量趋势;
  • 展示不同月份的三种商品不同运输方式运输的商品数量趋势。

4.2数据集

数据集1:

不同月份的商品销售数量

订单日期 (月) 商品数量
2009年1月 192
2009年2月 64
2009年3月 131
2009年4月 183
2009年5月 25
2009年6月 230
2009年7月 174
2009年8月 131
2009年9月 213
2009年10月 84
2009年11月 71
2009年12月 120
2010年1月 255
2010年2月 87
2010年3月 148
2010年4月 29
2010年5月 131
2010年6月 298
2010年7月 318
2010年8月 331
2010年9月 159
2010年10月 195
2010年11月 173
2010年12月 336
2011年1月 75
2011年2月 212
2011年3月 124
2011年4月 98
2011年5月 217
2011年6月 85
2011年7月 215
2011年8月 99
2011年9月 140
2011年10月 295
2011年11月 141
2011年12月 42
2012年1月 91
2012年2月 122
2012年3月 186
2012年4月 214
2012年5月 95
2012年6月 37
2012年7月 83
2012年8月 93
2012年9月 71
2012年10月 260
2012年11月 241
2012年12月 222

 

数据集2:

订单日期 大卡 火车 空运
2009年1月 23 156 13
2009年2月 39 21 4
2009年3月 0 111 20
2009年4月 18 125 40
2009年5月 0 25 0
2009年6月 0 202 28
2009年7月 26 148 0
2009年8月 0 131 0
2009年9月 0 213 0
2009年10月 12 72 0
2009年11月 0 71 0
2009年12月 96 24 0
2010年1月 63 192 0
2010年2月 31 56 0
2010年3月 35 113 0
2010年4月 18 11 0
2010年5月 0 38 93
2010年6月 30 229 39
2010年7月 15 151 152
2010年8月 7 242 82
2010年9月 33 81 45
2010年10月 0 195 0
2010年11月 49 124 0
2010年12月 7 321 8
2011年1月 28 47 0
2011年2月 0 172 40
2011年3月 0 75 49
2011年4月 33 38 27
2011年5月 0 169 48
2011年6月 0 85 0
2011年7月 62 153 0
2011年8月 0 61 38
2011年9月 0 128 12
2011年10月 19 276 0
2011年11月 0 141 0
2011年12月 0 42 0
2012年1月 35 56 0
2012年2月 31 62 29
2012年3月 82 104 0
2012年4月 0 214 0
2012年5月 0 52 43
2012年6月 0 37 0
2012年7月 0 53 30
2012年8月 0 93 0
2012年9月 0 71 0
2012年10月 61 199 0
2012年11月 69 172 0
2012年12月 50 131 41

4.3可视化

数据可视化(五):如何选择图表(常用图表对比)——学习笔记_第7张图片

不同月份的三种商品不同运输方式运输的商品数量趋势:

数据可视化(五):如何选择图表(常用图表对比)——学习笔记_第8张图片

4.4总结

 (1)相同点:

  • 折线图和面积图展示的是数据随时间的变化趋势,因此映射到X轴的数据类型一般为时间/日期;
  • 二者均可以展现一个或多个变量和时间的关系,这种关系包括,周期性变化、季节性变化、异常波动等;
  • 在大部分情况下,折线图和面积图可以互换。

(2)不同点:

  • 折线图是通过数据点的纵坐标来映射数值的大小,一般只用来表示数据的趋势,而面积图用面积映射数值大小,除了可以表示数据趋势,还可以用来表示整体及其构成部分随时间的变化趋势。

5.堆叠面积图 VS 百分比堆叠面积图

5.1可视化目标

  • 展示2009到2012年,火车、大卡、空运三种运输方式的运输量趋势;
  • 展示2009到2012年,火车、大卡、空运三种运输方式的运输量占比情况;

5.2数据集

数据采用3.堆叠柱状图vs百分比堆叠柱状图的数据集。

5.3可视化

堆叠面积图:

数据可视化(五):如何选择图表(常用图表对比)——学习笔记_第9张图片

百分比堆叠面积图:

数据可视化(五):如何选择图表(常用图表对比)——学习笔记_第10张图片

5.4总结

(1)相同点:

  • 堆叠面积图和百分比堆叠面积图,映射到X轴的均为时间序列。

  • 两者都可以展示各构成部分随时间的变化趋势,只不过堆叠面积图的是构成部分的实际值随时间的变化趋势,百分比堆叠面积图展示的是构成部分的占比随时间的变化趋势。

(2)不同点: 

  • 堆叠面积图除了可以展示各构成部分随时间的变化趋势,还可以展示整体随时间的变化趋势。

  • 百分比堆叠面积图只能展示各构成部分占总体的比例随时间的变化,无法观测总体随时间的变化趋势。此外,从任何一个时间节点纵切下来,各部分占比之和必须为100%,即必须等于该节点的整体。

6.堆叠面积图 VS 堆叠柱状图

6.1可视化目标

  • 展示不同种类的商品用火车、大卡、空运三种运输方式的数量;
  • 展示2009到2012年,火车、大卡、空运三种运输方式的运输量趋势。

6.2数据集

数据集1:

产品一级类别 大卡 火车 空运
办公用品 106 3452 630
技术产品 217 1465 135
家具产品 649 766 116

数据集2:

年份 大卡 火车 空运
2009 214 1299 105
2010 288 1753 419
2011 142 1387 214
2012 328 1244 143

 

6.3可视化

可视化1:

数据可视化(五):如何选择图表(常用图表对比)——学习笔记_第11张图片

可视化2:

5的堆叠面积图显示。

6.4总结

(1)相同点:

  • 两者的数据结构都为分类字段加上多个连续值字段;
  • 两者都可以观测某一节点的总体数值和各组成部分的具体数值,都有数据对比的功能。

(2)不同点:

  • 堆叠面积图的分类字段,一般是时间序列。当既需要分析整体随时间的变化趋势,又要了解整体的各构成项随时间的变化情况时,应该使用堆叠面积图;
  • 堆叠柱状图的分类字段,一般是非时间类型的分类数据。当既要对比不同整体的数据大小,又要观测整体各构成项的数据大小时,应该使用堆叠柱状图。

7.散点图vs气泡图

7.1可视化目标

  • 每笔订单的销售额和利润额分布;
  • 每笔订单的销售额、利润额和对应的数量;

7.2数据准备

数据集1:(显示部分)

销售额 利润额 顾客姓名
12805.25 5065.51 谢国平
3610.85 2235.37 许磊明
5677.609 1680.79 徐艳
6168.07 1542 赵若男
3832.37 1322.07 赵磊华
4815.862 1316.79 赵磊华
4158.1235 1228.89 赵伟
4359 907.67 周智宇
3077.731 745.48 周雨生
2251.9135 655.91 张子强
2568.71 590.77 谢若愚
1186.06 511.69 展大鹏
1516.13 493.03 杨子梅
6375.28 489.02 谢中明
1435.32 485.95 郑则强
10123.02 457.81 谢浩谦
15897.01 455.02 谢子扬
1041.72 437.61 谢平安
6483.26 341.98 杨子梅

 

数据集2:

销售额 利润额 顾客姓名 商品数量
12805.25 5065.51 谢国平 14
3610.85 2235.37 许磊明 36
5677.609 1680.79 徐艳 47
6168.07 1542 赵若男 12
3832.37 1322.07 赵磊华 36
4815.862 1316.79 赵磊华 47
4158.1235 1228.89 赵伟 37
4359 907.67 周智宇 41
3077.731 745.48 周雨生 31
2251.9135 655.91 张子强 41
2568.71 590.77 谢若愚 43
1186.06 511.69 展大鹏 42
1516.13 493.03 杨子梅 22
6375.28 489.02 谢中明 35
1435.32 485.95 郑则强 49
10123.02 457.81 谢浩谦 49
15897.01 455.02 谢子扬 37
1041.72 437.61 谢平安 29
6483.26 341.98 杨子梅 29

 

7.3可视化

                                                               每笔订单的销售额和利润额分布情况

 

数据可视化(五):如何选择图表(常用图表对比)——学习笔记_第12张图片

                                                                每笔订单的销售额、利润额和对应的数量

数据可视化(五):如何选择图表(常用图表对比)——学习笔记_第13张图片

7.4总结

 (1)相同点:

  • 两者都是用来展示数据分布情况;

  • 两者都是将两个字段映射到x,y轴的位置上,(x,y)的取值确定一个圆点或气泡在直角坐标系中的位置。

(2)不同点:

  • 散点图一般是用来展示二维数据(x,y)的分布,侧重于研究二维数据的两个变量x,y之间的相关性,如身高和体重之间的相关关系;

  • 气泡图一般用来展示三维数据(x,y,z)的分布情况,气泡图增加了一个维度的数据展示,且将其数值映射到气泡的大小上。

8.可视化实践

8.1想了解一下全部发货物品的单价的分布情况,每10元作为一个区间?

回答:如上2中直方图展示。

8.2展示销售额TOP5的产品二级大类?

回答:上1中直方图或条形图都是。

8.3按月份展示商品的销售数量趋势?

回答:上4折线图所示。

8.4展示不同年份的商品的销售数量,及其不同年份三种运输方式的数量占比?

回答:上5堆叠面积图所示。

9.总结概括

总之,可视化的实现主要分以下几个步骤:

  • 分析明确可视化的目的;
  • 准备实现可视化目的所需要的数据集;
  • 选择合适的图表实现。

常用图表对比的概括如下:(图片来源为微信公众号:数据科学家联盟)

数据可视化(五):如何选择图表(常用图表对比)——学习笔记_第14张图片

你可能感兴趣的:(数据可视化(五):如何选择图表(常用图表对比)——学习笔记)