时间序列数据补全任务——ST-MVL

ST-MVL: Filling Missing Values in Geo-sensory Time Series Data阅读笔记

文章目录

  • ST-MVL: Filling Missing Values in Geo-sensory Time Series Data阅读笔记
  • 摘要
  • 一、方法
    • 1. 全局空间视图-IDW
    • 2. 全局时间视图-SES
    • 3. 局部空间视角-UCF
    • 4. 局部空间视图-ICF
    • 5. 多视图学习
  • 二、实验
  • 总结


摘要

许多传感器已在物理世界中部署,生成了大量的地理标签时间序列数据。 实际上,由于传感器或通信错误,传感器的读数通常会在各种意外时刻丢失。 那些缺少读数不仅会影响实时监控,而且会影响进一步数据分析的性能。
因此,本文提出一个基于多视图的空间-时间学习方法ST-MVL,其在填补数据下考虑到了:
(1)同一序列中不同时间戳的读数之间的相关性;
(2)不同时间序列之间的空间相关性。
在北京空气质量和气象数据集上做实验验证。`

一、方法

填补地理传感器时间序列读数存在着两个挑战:
(1)数据可能会出现传感器数据在某一时间段产生连续缺失,如下图A),t_2全部缺失。文中称这种缺失情况为块缺失。现有模型不能处理某一行或某一列的数据完全缺失;
时间序列数据补全任务——ST-MVL_第1张图片

(2)在数据的填补过程中,有时候距离近的不一定比距离远的更相似。如图B),S_1与S_3相比和S_2的距离更近,而S_3的传感器读数更接近S_2读数。这不满足地理第一定律:Everything is related to everything else, but near
things are more related than distant things(一切都与其他一切有关,但是近事物比遥远的事物更相关)。
时间序列数据补全任务——ST-MVL_第2张图片
而本文提出的模型可以解决上述两个难题。
ST-MVL模型将从四个视角进行填补缺失值:空间视图、时间视图、全局视图、局部视图。

1. 全局空间视图-IDW

采用统计学模型IDW填补符合地理第一定律的缺失数据。
在这里插入图片描述

2. 全局时间视图-SES

采用同一传感器中的不同时间进行预测,时间阈值设为12小时。
在这里插入图片描述
归一化权重:
在这里插入图片描述

3. 局部空间视角-UCF

UCF是一种数据驱动的算法,已被广泛用于推荐系统中。它背后的一般想法是类似的用户对类似的项目做出类似的评价。处理经验空间相关性不成立的特殊情况(也就是不符合地理第一定律的情况)。
根据局部数据矩阵中的读数来测量两个传感器之间的相似性:
时间序列数据补全任务——ST-MVL_第3张图片
然后,我们使用相似性作为权重来计算加权平均值:
在这里插入图片描述

4. 局部空间视图-ICF

通过两个时间间隔间的相似度去计算缺失值(NS为有t1与t2两个时间点数据的传感器数量):
在这里插入图片描述
我们以相似性为重量来计算加权平均值:
时间序列数据补全任务——ST-MVL_第4张图片

5. 多视图学习

ST-MVL通过多视图学习算法整合了上述四个观点的预测,以生成最终结果:
在这里插入图片描述
当数据集遇到块缺失情况时,用ICF和UCF填补效果不太好时,利用IDW和SES为那些缺少的条目生成初始值(请参阅第3行)。 然后,分别使用ICF,UCF,IDW和SES(第4-9行)预测每个丢失的条目,并基于基于线性内核的多视图学习框架组合了四个预测(请参阅第10行和Equa-Tion 8)。分别通过在预测和ground truth之间最大程度地培训每个传感器的模型。
时间序列数据补全任务——ST-MVL_第5张图片

二、实验

我们基于两个真实的数据集来评估我们的模型:2014/05/01至2015/04/30的北京空气质量和气象数据,这两个数据分别有8759个时间步。证明模型的有效性。

总结

在本文,提出一种基于多视图学习的方法来填补地理感觉时间序列数据的缺失值,同时考虑空间、时间、全局和局部视图。

你可能感兴趣的:(数据挖掘,数据分析,人工智能)