数据可视化之旅(三)对比型和分布型数据图表

对比型数据可视化

要展现对比型数据之间的差异,通常是通过不同的标记和视觉通道展现出来的。

  • 高度差异/宽度差异:柱状图、条形图。
  • 面积差异:面积图、气泡图。
  • 字号差异:单词云图。
  • 形状差异:星状图、雷达图。

柱状图、条形图

柱状图是离散时间数据可视化的方式之一,只不过这里的系列值的数据类型是「时间」而已。
柱状图除了可以用于离散时间数据的可视化,更多的是用于比较不同分类数据的可视化,且柱状图的数据条数,最好不要超过12条。

  • 单一柱状图:适合单一类别的数据比对,也适合表示离散型时序数据的趋势。
  • 重叠型柱状图:适合两个类别的数据对比,半透明柱形条,代表某项指标的「目标值」,内部偏窄且不透明的柱形条表示某项指标的「实际完成情况」。通常会搭配折线图使用,折线图则表示目标完成率。
  • 并列柱状图:适合两个或三个数据类别的对比,若数据类别超出3个,不建议使用并列柱状图。
  • 堆叠柱状图:适合既要对比总体的数据,又要对比总体各构成项的数据,但是总体各构成项一般不要大于5个,若大于5个,可按占总体的比例进行归类,展示TOP5的分类,剩下则归为「其他」。

*图片来自"数据科学家联盟"公众号
数据可视化之旅(三)对比型和分布型数据图表_第1张图片

面积图、气泡图

一般来说,折线图表达的思想是研究某个时间序列的趋势。往往一条折线图可以根据某个分组变量进行拆分,比如今年的销售额可以拆分成各个事业线的贡献;流量可以拆分为各个渠道;物流总量可以拆分为公路运输、铁路运输、海运和空运。按照这个思路可以将一条折线图拆分成多条折线图,直观的发现各个折线图的趋势,但遗憾的是不能得知总量的趋势。为了解决这个问题我们可以使用面积图
数据可视化之旅(三)对比型和分布型数据图表_第2张图片
数据可视化之旅(三)对比型和分布型数据图表_第3张图片
气泡图
X轴表示年龄,Y轴表示体重,Z轴即气泡的大小,表示的是身高。所以,相较于散点图而言,气泡图除了可以展示X、Y两个变量间的相关关系,同时还可以对比主体另一个维度的数据,并且这个数据是映射到气泡的大小上的。
当只有一个系列时,只需要一种气泡图只需要一种颜色即可。当有多个系列时,不同系列之间可以用颜色来区别。
数据可视化之旅(三)对比型和分布型数据图表_第4张图片

单词云图

单词云图,也叫文字云。“词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览者只要一眼扫过文本就可以领略文本的主旨。
简单来说,就是词语出现频率越高的,词语字号就越大越突出,反之词语出现频率越低,字号就越小。主要是用于网络文本中词频数据的可视化,如关键词搜索,文章高频词,热点事件关键词等。用户可以自定义单词云的配色方案、背景形状等设计层面的个性化。
数据可视化之旅(三)对比型和分布型数据图表_第5张图片

星状图、雷达图

雷达图也称为网络图,蜘蛛图,星图,蜘蛛网图,不规则多边形,极坐标图或Kiviat图。它相当于平行坐标图,轴径向排列。雷达图是以从同一点开始的轴上表示的三个或更多个定量变量的二维图表的形式显示多变量数据的图形方法
雷达图和星状图的区别是:

  • 雷达图是一体多维的数据,即可视化的对象是一个主体,只是这个主体具有多个维度上的数据特征。对比的是,同一个主体,在不同维度上的数值,可以看出主体在不同维度上的偏向。
  • 星状图是多体多维的数据,即可视化的对象是多个主体,且多个主体维度相同,且单个主体具有多个维度上的数据特征。对比的是,多个主体,在同一维度上的数值,可以看出不同主体之间的差异和侧重点。

简单理解就是,雷达图可以视为是星状图中的一行记录。
数据可视化之旅(三)对比型和分布型数据图表_第6张图片
数据可视化之旅(三)对比型和分布型数据图表_第7张图片

分布型数据可视化

直方图

我们常用的直方图,主要有「频数直方图」和「频率直方图」

某公司销售量(频数)分布直方图
数据可视化之旅(三)对比型和分布型数据图表_第8张图片
制作直方图就四个关键步骤
1.求极差。 2.求组距组数。 3.列频数分布表。 4.绘制直方图。

茎叶图

茎叶图的思路是将数组中的数按位数进行比较,将数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶),列在主干的后面,这样就可以清楚地看到每个主干后面的几个数,每个数具体是多少 [2] 。
在这里插入图片描述

箱线图

一组数据中的四分位数,加上这组数据的最大值、最小值,这5个特征值,就可以绘制一个箱线图。

箱线图常用的场景有如下几类:
(1)对比多组数据的分布情况。
(2)检测数据中的异常值或离群点。

数据可视化之旅(三)对比型和分布型数据图表_第9张图片

概率密度图

若要描述连续型随机变量其分布规律,概率密度图是一种很直观表现形式。
在数学中,连续型随机变量的概率密度函数是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数,简单理解就是,连续型随机变量取值某个确定数值的概率,即为纵切直线与概率密度函数交点的纵坐标的值。而随机变量的取值落在某个区域之内的概率则为概率密度函数在这个区域上的积分,也就是区间的上下限与概率密度曲线围成的面积。

*图片来自"数据科学家联盟"公众号
数据可视化之旅(三)对比型和分布型数据图表_第10张图片

热力图

热力图,是通过密度函数进行可视化,用于表示地图中点的密度的热图。现阶段,热力图在地图、网页分析、业务数据分析等其他领域也有较为广泛的应用。
数据可视化之旅(三)对比型和分布型数据图表_第11张图片

地图

当数据带有地理型信息属性时,首选的可视化图表为地图。按照展示的数据空间划分,地图可以分为二维平面地图和三维立体地图。

实战

数据可视化之旅(三)对比型和分布型数据图表_第12张图片

数据可视化之旅(三)对比型和分布型数据图表_第13张图片

数据可视化之旅(三)对比型和分布型数据图表_第14张图片

数据可视化之旅(三)对比型和分布型数据图表_第15张图片

你可能感兴趣的:(学习心得,可视化)