Time Series Data Augmentation for Deep Learning: A Survey

Time Series Data Augmentation for Deep Learning: A Survey

1、Introduction

深度学习近年来也被广泛地应用到 时间序列分类(time series classification)、时间序列预测( time series forecasting )、时间序列异常监测(time series anomaly detection)。深度学习的成功很大程度上依赖于大量的训练数据来避免过度拟合。不幸的是,许多时间序列任务没有足够的标记数据。
数据增强(Data augmentation )作为提高训练数据规模和质量的有效工具,是深度学习模型成功应用的关键。The basic idea of data augmentation is to generate synthetic dataset covering unexplored input space while maintaining correct labels.
然而,关于时序数据的数据增强方式并没有引起很大的注意。时序数据数据增强的挑战有:
1)现有的数据增强方法没有充分利用时间序列数据的内在特性。
时间序列数据的一个独特特性就是 temporal dependency,与图像数据不同,时序数据可以在频域和时域进行变换,变换后的空间域设计有效的数据增强方法。所以当我们为多元时间序列建模的时候,我们还需要考虑这些变量在时间上的 potentially complex dynamics,这比图像数据增强要复杂的多。
单纯的应用图像和语音处理中的数据增强方法,可能无法得到有效的合成数据。
2)数据增强方法需要依赖于任务。
例如,用于时间序列分类的数据增强方法可能对时间序列异常检测无效。
此外,在许多涉及时间序列数据的分类问题中,经常会出现类不平衡现象。
在这种情况下,如何以较少的样本有效地生成大量的标签合成数据是一个挑战。
文章架构:
Time Series Data Augmentation for Deep Learning: A Survey_第1张图片

2、Basic Data Augmentation Methods

2.1 Time Domain

时域变换是时间序列数据最直接的数据增强方法。它们大多直接作用在原始输入时间序列上,如加入高斯噪声(或其他更复杂的噪声)。接下来我们介绍一种常用的用于时间序列异常检测的数据增强方法,例如 label expansion in the time domain。
Window cropping or slicing:类似于CV的cropping。它是一个从原始时间序列数据中随机抽取continuous slices的subsample method。片段的长度是一个可调节的参数。对于分类问题,切片样本的标签与原始时间序列相同。在测试的时候,从测试时间序列中截取片段,用学习到的分类器和多数投票原则生成预测标签。对于异常检测问题,将异常标签与时间序列数据一起切片。
Window warping:类似于dynamic time warping (DTW)。
Flipping:也是一个生成新序列 x 1 ′ , . . . , x N ′ x'_1,...,x'_N x1,...,xN 的方法,通过flipping原始的时间序列数据 x 1 , . . . , x N x_1,...,x_N x1,...,xN,其中 x t ′ = − x t x'_t=-x_t xt=xt。对于异常检测和分类,我们假设上下方向是对称的,所以标签相同。
perturbation and also ensemble based method:该方法利用DTW生成新的时间序列,并采用加权的DBA算法进行集成。它显示了在一些UCR数据集中分类的改进。

你可能感兴趣的:(深度学习)