2019独角兽企业重金招聘Python工程师标准>>>
当数据通过散点图显示时,数据通常是不会做任何汇总的。这样我们可以看到数据点的发布,进而从中找到相互的关系。但当数据量大到一定程度,在数据点集中的部分,可能会出现大量的重叠,以至于读者将很难判断数据的真实发布情况。
在下图中,大量数据点集中在图表的左侧。因为它们互相重叠,读者没有办法判断在重叠的部分数据点的集中程度。
我们可以考虑几个方案。大部分的图表软件都支持对点的形状的控制。在数据量不是特别大的情况下,我们可以考虑把点的形状改变成只有边框而没有填充的状态。这样可以降低重叠的显示密度。从而减轻数据重叠所引起的辨别困难。
在点被改为圆圈后,我们可以看到数据的重叠程度以左下角最重。但因为数据量太大,在左下角部位我们仍不能很清楚地知道数据最集中的地方。
另外一个有效的处理方式是减小点的大小。因为点的大小减低后,重复显示的情况也得到了改善。
在重复严重的部位,我们可以看到更密集的小点。但是这两种方法都没有完全解决一个问题。如果有大量的点同时画在一个完全相同的地点,因为它们完全重叠,无论是通过改变形状,还是减小大小,这些点都会被画在一个点。读者完全没有办法发出一个点和多个点的差别。
在一些专业软件里,在点图里可以增加一个摇动的参数。就是在图表生成过程中,我们人为地加入一点随机的移动。那些完全落在同一地点的点,就被强迫散开一些。
下图是把点摇动后生成的。(因为数据关系,总体差别不大,但数据的集中更明显地向左下角偏移。)
这些方法之外,还有一个更简单的手段。如果图表软件支持,我们可以把点的颜色改为半透明。这样我们可以通过颜色的深浅判断重叠的程度。
(所有图表皆由StyleScope绘制)