目录
1 时间数据在大数据中的应用
1.1 时间的概念
1.2 时间型数据的概念
2 离散型时间数据可视化
2.1 离散型数据的概念
2.2 离散型数据的可视化
3 连续型时间数据可视化
3.1 连续型数据的概念
3.2 连续型数据的可视化
4 其他可视化表达方式
4.1 点线图
4.2 极区图
4.3 时钟图表
4.4 网格图
4.5 螺旋图
4.6 热图
1 时间数据在大数据中的应用
1.1 时间的概念
•对于数据来说,时间是数据非常重要的维度和属性
•应用:历史数据的积累是数据“大”的一个重要原因
1.2 时间型数据的概念
• 按时 间顺序排列的一系列数据 值
• 与一般的定量数据不同,时间型数据包含时间 属性
• 时间 数据可以分为连续型时间数据和离散型时间数据 两种
2 离散型时间数据可视化
2.1 离散型数据的概念
• 数据来源于具体的时间点或者时间 段
• 时间 数据的可能取值是 有限的
• 例如 :奥运会奖牌的 总数
2.2 离散型数据的可视化
(1)散点图
定义: 由一些散乱的点组成的图表。
应用场景:对于处理值的分布和数据点的分簇,散点图都很理想。如果数据集中包含非常多的点,那么散点图便是最佳图表类型。
(2)单一柱状图
定义:柱形图又称条形图、直方图,是以宽度相等的条形高度或长度的差异来显示统计指标数值多少或大小的一种图形。
适用场景:
Ø适合表示离散时间数据的趋势,且数据条个数一般不超过12条。
Ø适用于单类别数据的时间趋势表示,即系列值单一的数据。
不适用场景:
Ø不适合展示连续时间的变化趋势。
Ø不适合数据条过多的离散时间的趋势展示。
(3)并列柱状图
当需要对比某一离散时间上的多个系列,以及展示随时间的变化趋势时,并列柱状图是一种选择。
但是要注意一点,并列柱状图的属性系列,通常不能超过3条,否则图表横向空间会比较拥挤,展示的效果也不好。
(4)堆叠柱状图
反映各个离散时间点总体的构成部分是如何随着时间而变化的
堆叠柱状图,按照堆叠的部分,展示的是实际体量还是相对体量,可以分为两类:
Ø普通堆叠柱状图:展示实际体量
Ø百分比堆叠柱状图:展示相对体量
3 连续型时间数据可视化
3.1 连续型数据的概念
• 连续型数据就是指任意两个数据点之间可以细分出无限多个数值,它表现的是不断变化的现象。
• 例如,温度、股市 实时 行情 ……
• 连续时间数据的可视化和离散时间数据的可视化相似。因为就算数据是连续的,我们采集的数据大部分还是离散且有限的。
3.2 连续型数据的可视化
(1)阶梯图
• 某两个相邻的时间节点,后一个节点的数据相对于前一个节点数据的升降变化,常用于商品价格 变动、 税率变化等场景中 。
(2)折线图
• 折线图是用直线段将各数据点连接起来而组成的图形,以折线方式显示数据的变化趋势 。适用于 趋势类的需求,人口增长趋势,书籍 销售量 …
• 点线图:当 数据集中的数据项有限,不超过 12 个时,采用此种点线图比较合适。有时候,对应日期的数据点上方,会直接显示数值。
• 折 线图 :当数据集中的数据项比较多,大于 12 条时,采用点线图,会让整条线上的点很密集,影响看数据的趋势 ,此时折线图 是不错的选择。
• 曲线图:相比于折线图,曲线图相邻节点的连线更加平滑,可视化效果也更加美观。
(3)拟合曲线图
• 根据 所给定的离散数据点绘制的曲线,称为不规则曲线。
• 应场景 有 :获取 的数据很多,或者数据很杂乱,可能很难甚至无法辨认出其中的发展趋势和模式
• 若我们想要研究数据随时间的变化所表现出来的整体趋势时,可以根据多个离散点( T1,D1 )、( T2,D2 ) …. 、( Tn,Dn ),拟合一个最接近的一个连续函数关系。
4 其他可视化表达方式
4.1 点线图
• 点 线图是离散型数据可视化的一种形式。
• 可以说点线图是柱形图的一种变形,但更令人聚焦到端点。
• 股市中有一种特殊的点线图。
Ø 一条线表示一个交易时段
Ø 一个点表示收市价
Ø 线高低点表示最高价及最低价
Ø 可以让投资者了解市价与当时交易时段高低价的关系,代表市场气氛倾向乐观或悲观
4.2 极区图
• 又名南丁格尔玫瑰图
• 一 种圆形的直方图,传达士兵的死亡 情况。
•
• 浅灰:死于可预防的 疾病
• 红色:死于枪伤
• 褐色:死于其他原因
• 按月划分
4.3 时钟图表
• 一 格: 1 小时
• 白色:睡眠
• 绿色:主要工作
• 土黄 色:社交及用餐
• 蓝色:运动
• 灰色:从事其他工作
4.4 网格图
• 和日历相对应
• 一般采用表格映射的方式
•
• 红色:股指下跌
• 绿色:股票上涨
4.5 螺旋图
• 也称为时间系列螺旋图。沿阿基米德螺旋线画上基于时间的数据。
• 图表从螺旋形的中心点开始往外发展 。
• 螺旋形式多变 ,可使用条形、线条或数据 点,沿着 螺旋路径显示。
适合用来显示大型数据集,通常显示长时间段内的数据趋势,因此能有效显示周期形性的模式
4.6 热图
• 热图通过色彩变化来显示数据,当应用于表格时,热图适合用来交叉检查多变量的数据 .
• 热图不局限于时间数据的可视化,适用于显示多个变量之间的差异,显示是否有彼此相似的变量以及彼此之间是否有相关性。
• 由于热图依赖颜色来表达数值,难以提取特定数据点或准确指出色块间的差异。