对比型数据:对比两组或两组以上数据的差异
常用图表及其视觉通道:
高度差异:柱形图
宽度差异:条形图
面积差异:面积图/气泡图
字号差异:单词云图
形状差异:雷达图/星状图
柱状图可大概分为单一柱状图,重叠型柱状图,并列柱状图和堆叠柱状图4种。
适合单一类别的数据对比,也适合表示离散型时序数据的趋势
适合两个类别的数据对比
适合两个或三个数据类别的数据,若数据类别超出3个,则不建议使用
适合既要对比总体的数据,又要对比总体各构成项的数据,但是总构成项一般不要大于5个,如果超过5个,可按占总体的比例进行归类,展示Top5,其余归入“其他”
条形图在大部分情况下,是可以互换的,但有些情况下,条形图会比柱形图更好的展示数据:
面积图,是折线图的一种延伸,其实就是折线图和折线图投影到X轴的直线所围成的面积
按对比方式的不同,面积图可以分为重叠对比型面积图和堆砌对比型面积图
气泡图和散点图的区别是,气泡图一般用于三维数据的可视化,而散点图适用于二维数据的可视化。气泡图除了与散点图一样反映坐标点X,Y的相关关系,还可以将一个维度的数据映射到气泡的面积大小或者颜色深浅上。
如果需要展示三维数据信息,可使用气泡图;而如果需要展示二维数据信息,可使用散点图。当需要展示多个系列的数据时,可以使用多种颜色表示不同系列
单词云图,通过单词的字号大小来反映词频的大小,字号越大,词频越高。通常,为了达到贴合主体的特征,以及视觉美观的目的,用户可以自定义单词云的配色方案,背景形状等设计层面的个性化。
单词云图,主要是用于文本数据中词频数据的可视化。
单次云图只适合表示一组文本数据的对比,不适合多个类别的文本数据之间的比较。
雷达图是一体多维的数据,即可视化的对象是一个主题,只是这个主体具有多个维度上的数据特征。对比的是,同一个主体,在不同维度上的数值,可以看出主体在不同维度上的偏向;
星状图是多体多维的数据,即可视化的对象是多个主体,且多个主体维度相同,且单个主体具有多个维度上的数据特征。对比的是,多个主体,在同一纬度上的数值,可以看出不同主体之间的差异和侧重点。
简单理解就是,雷达图可以视为是星状图中的一行记录。
研究数据分布的集中趋势,离散程度,偏态和峰度等
我们常用的直方图,主要有频数直方图和频率直方图,它们都是用于展示离散型分组数据的分布情况。
首先,对数据进行分组,然后统计每个分组内数据的频数和频率。
其次,在平面直角坐标系中,横轴标出每个组数据的下限和上限。
最后,纵轴表示频数或频率,每个矩形的高代表对应的频数或频率。
注:在频数分布直方图中,频数乘以组距得出每个分组的数量,可以看出频数分布直方图是用面积来映射每个分组频率的大小,矩形高是映射频率/组距的数值,和柱状图(条形图)用长方形的高度(宽度)表示数量是有本质性区别的。
茎叶图一般适合数据为整数的数据的可视化
茎叶图的原理是,将一组数据按照数据位数进行比较,将数据中的高位数作为树茎,低位数作为树叶。
茎叶图使用较少,因为一般而言,可以用条形图或其他图表替代使用,所以此处不详细展开。
箱线图可以展示一组数据的下四分位数Q1,中位数,上四分位数Q3,最大值和最小值。
用于描述连续型随机变量其分布规律。通过图形化的方式,我们可以清楚的看到随机变量分布的对称性情况,以及随机变量取值是集中还是分散,这些可以通过偏态系数和峰度系数来度量。
可以参照对比型数据中相应介绍,此处不详细描述
通过密度函数进行可视化,用于表示地图中点的密度的热图使用颜色的深浅来表示数据密度的大小,通过查看颜色的“深浅”获取数据密度的分布。
目前热力图在地图,网页分析,业务数据分析等领域有比较广泛的应用。
当数据带有地理型信息属性时,首选的可视化图表为地图。地图可表达整体数据在各区域的分布情况以及具体到某个地理区域的数据情况。
我们首先需要确定我们需要使用数据表达的目的,有了目的,再看数据的类型,特征及数据间的相互关系,有了这些准备,我们再根据这些信息去选择合适的图表,图表的选择是为更好更准确的传达数据背后的信息而服务的。
思路1:目的是对比三家评分,所以选择柱形图,另外有4个系列的评分,所以选择并列柱形图
思路2:目的是比较三个主体的不同维度上的数值大小,可以选择星型图
并列柱形图:
思路:目的是看分布,而且需要显示三个维度的数据,选择气泡图。选择月度成本和月度收入作为X,Y轴,评分以颜色深浅作为视觉通道。
阅读文章:《七天数据可视化之旅》第三天:数据图表的选择(中)