关于时间序列训练集与验证集的构建

将时间序列预测问题处理成标准的分类与回归问题进行处理,在划分训练集与测试集时不能够随机划分,因为在构造样本时选取的时间步长一般很短,那么某些样本之间的差异会很小,如果随机划分会导致验证集的结果过于乐观。

时间序列数据交叉验证的方式一般有两种:
(1)如果时间序列数据存在明显的趋势或者周期性的话,一般采用forward chain方法,如下所示:
关于时间序列训练集与验证集的构建_第1张图片
但是这种方法其实也存在问题,因为每次交叉训练集的大小都不一样,可能使最终的泛化误差依赖于样本大小。

为了使每次交叉验证时训练集的样本都一样,可以采用如下方式:
train[1,2], test[3]
train[2,3], test[4]
train[3,4],test[5]
train[4,5],test[6]

(2) 如果时间序列数据沿着时间轴没有明显的周期和趋势的话,即该时间序列是稳态的,那么其实是可以使用hv交叉验证方法的,如下:
关于时间序列训练集与验证集的构建_第2张图片

你可能感兴趣的:(笔记杂)