时间数据概念
-我们常说的时间数据(time data),有时也称时态数据(temporal data),简单来说就是指随时间变化的数据
-时间戳(time stamp)数据表示在某个时间点状态的数据,是大数据时代的典型特征之一,比如网站的网页日志就是典型的时间戳数据
-时间序列(time series)数据,指按照时间顺序把事物的变化发展记录下来的数据,研究随时间变化发展的规律,常用于金融建模和预测
本节重点介绍时间序列数据的可视化
时间序列数据:随着时间变化,带有时间属性
顺序型数据:不以时间为变量,但是有内在的排列顺序
趋势性(Trend)
有时也称作是变化方向,指在较长一段时间上数据呈现上升或下降的规律
季节性(Seasonal)
当时间序列受季节性因素影响时会呈现季节性模式,季节性指固定且已知的频率,可以是一年中的变化,也可以指或一周中的变化
图为1949年至1960年月度国际航班人数折线图,我们可以发现,从趋势性上看,国际航班人数持续增长;从季节性看,每年的情况呈现类似的模式,前三季度国际航班人数持续增加,但在最后一季度都会迎来大幅下降。
周期性(Cyclic)
当数据不是以固定频率上升或下降时,就会发生一个周期,周期的持续时间通常至少为2年
图为1973至1995年美国月度家庭新房销售情况,我们可以发现,该时间序列无明显趋势性;从季节性看,每年的情况呈现类似的模式;从周期性看,每6-10年呈现类似的模式。
许多人将周期性与季节性混为一谈,但它们其实完全不同:如果波动不是固定频率,则它们是周期性的; 如果频率不变并且与日历的某些方面相关联,则该模式是季节性的
通常,周期的平均长度比季节的长度长
随机波动(Random fluctuations)
如果时间序列数据没有呈现明显的趋势性、季节性或周期性,则可以认为数据是随机波动的
时间序列分解
许多时间序列同时包括趋势性、季节性和周期性
可使用局部加权回归LOESS的方法,对时间序列数据进行STL(Seasonal-Trend decomposition procedure based on Loess)分解,将时间序列数据分解成趋势性、季节性和余项(随机波动)三个部分,并以折线图进行展示,以更清晰的探索和描述时间序列数据
1949年至1960年月度国际航班人数时间序列分解图:
1973至1995年美国月度家庭新房销售时间序列分解图:
季节特征
如前所述,时间序列数据可能呈现季节性特征,可绘制季节图(seasonal plot)进行探索和展示
季节子序列图(seasonal subseries plot)也是探索季节特征的可视化图形之一
能够识别潜在的季节性模式,并显示季节特征随时间的变化情况
能够检测不同季节之间的变化,以及特定季节内随时间的变化
x轴为季节区间,y轴为因变量,水平蓝线代表各年度均值
要求必须明确季节区间,如月度、季度等
周期特征
差分
差分(difference)指的是时间序列 t 时刻与 t-1 时刻观测值的差值
差分处理非常重要的作用就在于将非平稳时间序列转换成为平稳时间序列
平稳时间序列:时间序列的行为并不随时间改变。平稳时间序列粗略地讲,一个时间序列,如果均值没有系统的变化(无趋势)、方差没有系统变化,且严格消除了周期性变化,就称之是平稳的
在时间序列分析中,往往通过差分把时间序列数据转化成为平稳时间序列的形态,排除趋势、季节或周期性的影响,之后再使用回归等方法进行建模
相关性
不同时间序列之间的相关性,可通过相关系数衡量,对应的可视化图形即散点图
自相关性(autocorrelation)
用来判断观测与滞后项之间的关系,从而进一步探索时间序列的模式
当数据具有某种趋势且滞后距离较小时,自相关系数为正数且相对较大
当数据具有季节性时,以季节频率倍数为间隔的滞后项与观测之间自相关系数相对较大
表达维度
线性:典型的阅读方向
径向:将时间序列编码成弧形,适合展现周期性变化的数据
网格:和日历相对应,一般用表格映射的方式
螺旋
随机
比例维度
按时间顺序,可以被用来表示事件之间的距离,事件的持续时间
相对顺序:存在一个基线事件在时间零点,可以被用在多时间线的对比
对数:对数的比例从按时间的前后顺序排列的比例转换而来,强调了最早或最近事件,对数比例适用于长范围或者不均匀的时间布局。
次序:按次序的比例中连续事件之间的距离是相等的,只表达事件的顺序
次序+中间时长:用来表达长时间和不均匀分布的事件
布局维度
分段时间线:一个时间段被有意义的进行划分,进行另一种形式的比较
多个时间线+分段时间线:指不同属性的时间线加上分割的时间段,可以进行多种形式的比较
离散时间数据可视化
-不同时间点的图形比较
-柱形图
-堆积或分组柱形图
-散点图
连续时间数据可视化
-连续时间的图形变化
-折线图
-面积图
-流式图
-热图
离散时间数据
来自于具体某个时间点或时间段,可能的数值也是有限的,着重表现不同时间点的比较
如北京信息科技大学历年高考录取平均成绩就是离散时间数据,高考有具体的日期,过去的分数就确定了,也不能再发生改变
连续时间数据
在一段时间当中任何时刻都可以测量,着重表现的是不断发展变化的现象
如温度就是连续时间数据,在任何时刻的温度都会发生变化,把这些变化记录下来,以连续的、动态的眼光观察温度的变化情况
不同时间点的图形比较
如果关注的是某个事物经过一段时间发展之后的结果,而并不关心事物发展变化的过程,此时的目标就是静态比较几个离散时间点的可视化图形
柱形图
如果着重比较不同时间点或时间段的情况,使用柱形图进行可视化表示
可绘制正负柱形图用以表示正负状态时间序列数据的情况
分组、堆积柱形图
在时间序列数据上增加一个分类变量时,可考虑使用分组或堆积柱形图进行可视化展示
散点图
表示时间序列数据,并使用LOESS方法拟合数据,帮助辨认趋势或模式
如果关注的是某个事物随时间变化发展的过程,此时往往需要结合可视化的交互或动态特性来进行展示
连续时间的图形变化
折线图
当表示事物随时间推移而变化发展的情况时,多使用折线图
面积图
多个类别时间序列数据可堆叠在一起,并以色调或饱和度进行区分
流式图(Streamgraph)
是面积图的一种变体,围绕中心水平轴排布,看起来像流水,因此得名
热图
热图适用于两个时间范围,例如,一年52周中每周7天,或者30天中每天24小时等等
其限制是只能展示一个变量, 两个或多个变量之间的关系难以表示