0x00 目标
对比可视化中最常用的几种图表,区分它们的异同点及其适用的场景。
0x01 常用图表对比
以例子「可视化目标→数据集准备→图表选择和对比→经验总结」的方式做对比。
1.1.柱状图 VS 条形图
相同点:
柱状图和条形图的数据结构都是由「一个分类字段+一个连续数值字段」构成。
当数据记录数不大于12条,分类字段的字符长度小于5时,柱状图和条形图可以互换。
不同点:
柱状图:若分类字段是「时间序列」,此时建议使用柱状图,因为柱状图能更好地体现数据随时间的变化情况。
条形图:若分类字段的字符较长,且记录数大于12,建议使用条形图。一方面,斜置的文字和用户阅读的习惯相悖,同时也占用页面空间,影响可视化图表的美感。
1.2.柱状图 VS 直方图
相同点:
柱状图和直方图的数据结构都是柱形条构成,有「一个分类/分组字段+一个连续数值字段」。
不同点:
分析目的和适用场景不同。「柱状图」主要是比较数据的大小,「直方图」是用来展示数据的分布。
映射到X轴上的数据属性不同。柱状图中,X轴上的变量是分类数据;直方图中,X轴上是连续的分组区间,这些区间通常表现为数字,且一般情况下组距是相同的。
宽度代表的意义不同:在柱状图中,柱子的宽度没有实际的含义,会要求宽度相同;在直方图中,柱子的宽度代表了区间的长度(即组距),根据区间的不同,柱子的宽度可以不同,但其宽度原则上应该为组距的整倍。
表示数据大小的方式不同:柱状图,是通过柱形条的高度,来映射数据的大小,柱子之间有间隔;直方图,是通过高度(频数直方图)或面积(频率直方图)来表示数据的大小,且柱子之间紧密相连,没有间隔。
1.3.堆叠柱状图 VS 百分比堆叠柱状图
相同点:
堆叠柱状图和百分比堆叠柱状图,都适合用来展示分类数据的构成对比或构成随时间的变化趋势。
当映射到X轴上的数据为时间序列时,此时可以用堆叠面积图or百分比堆叠面积图来代替。
不同点:
堆叠柱状图:既可以对比各构成部分的数值差异,还可以观测各组数据的整体差距。
百分比堆叠柱状图:只能对比整体中的各构成部分的占比差异,无法对比不同整体的差异。
1.4.折线图 VS 面积图
折线图和面积图不能互换的情况:显示构成或占比时,应使用面积图☞堆叠面积图or百分比堆叠面积图。
相同点:
折线图和面积图展示的是数据随时间的变化趋势,因此映射到X轴的数据类型一般为「时间/日期」。二者均可以展现一个或多个变量和时间的关系,这种关系包括,周期性变化、季节性变化、异常波动等。在大部分情况下,折线图和面积图是可以互换的。
不同点:
折线图:通过数据点的纵坐标来映射数值的大小,一般只用来表示数据的趋势。
面积图:通过面积来映射数值的大小,「面积图」除了可以替换折线图外,还可以用来表示整体及其构成部分随时间的变化趋势。
注意:使用面积图表示多系列的趋势时,需要对代表不同系列的面积区块颜色设置透明度,透明度可以减少不同系列之间的遮盖,帮助我们看到不同序列之间的重叠关系和更多信息。当一个图表中,系列值过多时,折线图会比面积图更直观,因为减少了系列的覆盖和重叠,能更清晰的看看到各个系列的趋势变化。
1.5.堆叠面积图 VS 百分比堆叠面积图
相同点:
堆叠面积图和百分比堆叠面积图,映射到X轴的均为【时间序列】。
都可以展示各构成部分,随时间的变化趋势,只不过「堆叠面积图」的是构成部分的实际值随时间的变化趋势,「百分比堆叠面积图」展示的是构成部分的占比随时间的变化趋势。
不同点:
堆叠面积图:除了可以展示各构成部分随时间的变化趋势,还可以展示整体随时间的变化趋势。
百分比堆叠面积图:只能展示各构成部分占总体的比例随时间的变化,无法观测总体随时间的变化趋势。从任何一个时间节点纵切下来,各部分占比之和为100%,即等于该节点的整体。
1.6.堆叠面积图 VS 堆叠柱状图
相同点:
堆叠面积图和堆叠柱状图的数据集格式类似,都是由「一个分类字段+多个连续数值字段」构成,且多个连续数值字段,是一个整体的各组成部分。
两者都可以观测某一节点的总体数值和各组成部分的具体数值,都有数据对比的功能。
不同点:
堆叠面积图:堆叠面积图的分类字段,一般是时间序列。当既需要分析整体随时间的变化趋势,又要了解整体的各构成项随时间的变化情况时,应该使用【堆叠面积图】。从其目的可以看出,堆叠面积图的分类字段(即时间序列),是按照时间的先后顺序排列的。
堆叠柱状图:堆叠柱状图的分类字段,一般是非时间类型的分类数据。当既要对比不同整体的数据大小,又要观测整体各构成项的数据大小时,应该使用【堆叠柱状图】。若整体的构成项过多,为了突出重点,需要对构成项进行重新归类,展示TOP5的分类,剩下则归为「其他」。
1.7.散点图 VS 气泡图
相同点:
散点图和气泡图,均是用来展示数据分布情况的一种图形。
散点图和气泡图,都是将两个字段映射到x,y轴的位置上,(x,y)的取值确定一个圆点或气泡在直角坐标系中的位置。
不同点:
散点图:一般用来展示二维数据(x,y)的分布,侧重于研究二维数据的两个变量x,y之间的相关性。散点图中,还可以展示多组数据系列的对比,比如分布规律的对照。
气泡图:一般用来展示三维数据(x,y,z)的分布情况,相较于散点图,气泡图增加了一个维度的数据展示,且将数值映射到气泡的大小上。气泡图,也可以展示多组数据系列的分布,以发现不同系列的分布规律和差异。
注意点:
一般来说,散点图主要是用于研究数据集的分布规律和相关性,并不是很侧重去看每个数据点的具体取值。当数据集数量过大时,不适合将全部数据点展示在散点图中,此时需要对总体进行抽样显示,通常采用分层抽样的方法进行,但是分层抽样的依据和影响因素需要依据具体的业务场景而定。
相较于散点图,气泡图不太适合过多数据容量的情况,气泡太多会使图表难以阅读。此外,对于气泡图中隐藏的一些数据信息,通常可以使用交互来辅助图标信息的阅读,如悬停显示详细数据、缩放观测被遮盖的数据点等。
0x02 案例练习
1.想了解一下全部发货物品的单价的分布情况,每10元作为一个区间?
因为是(单价的)分布情况所以考虑采用散点图,但因为物品项目过多进行归类(采用子类),纵轴采用对数比例解决价格分布不平均的情况。
2.展示销售额TOP5的产品二级大类?
通过在二级大类中筛选出TOP5,普通柱状图展示即可。
3.按月份展示商品的销售数量趋势?
因为是展示趋势,所以选择折线图。
4.展示不同年份的商品的销售数量,及其不同年份三种运输方式的数量占比?
因为需展示数量及占比,所以选择饼图。
0xFF 总结
可视化之前,需要清楚可视化目的,期望展示或探索数据的规律。这决定了应该选择什么类型的图表,如何统计和组装你的数据集,也决定了可视化出来的效果能否达到预期目标。
参考阅读:
1.《如何优雅地选择数据图表:常用图表对比》