时间序列分析

常用数据集

在这里插入图片描述

2.monash数据集
官网链接
我们的存储库包含30个数据集,包括公开可用的时间序列数据集(不同格式)和由我们管理的数据集。

Dataset Domain No: of Series Min. Length Max. Length Competition Multivariate Download Source
M1 Multiple 1001 15 150 Yes No Yearly Quarterly Monthly Yearly Athanasopoulos et al., 2011
M3 Multiple 3003 20 144 Yes No Quarterly Monthly Other Makridakis and Hibon, 2000
M4 Multiple 100000 19 9933 Yes No Yearly Quarterly Monthly Weekly Daily Hourly Makridakis et al., 2020
Tourism Tourism 1311 11 333 Yes No Yearly Quarterly Monthly Athanasopoulos et al., 2011
CIF 2016 Banking 72 34 120 Yes No Monthly Stepnicka and Burda, 2017
London Smart Meters Energy 5560 288 39648 No No W Missing W/O Missing Jean-Michel, 2019
Aus. Electricity Demand Energy 5 230736 232272 No No Half Hourly Curated by us
Wind Farms Energy 339 6345 527040 No No W Missing W/O Missing Curated by us
Dominick Sales 115704 28 393 No No Weekly James M. Kilts Center, 2020
Bitcoin Economic 18 2659 4581 No No W Missing W/O Missing Curated by us
Pedestrian Counts Transport 66 576 96424 No No Hourly City of Melbourne, 2020
Vehicle Trips Transport 329 70 243 No No W Missing W/O Missing fivethirtyeight, 2015
KDD Cup 2018 Nature 270 9504 10920 Yes No W Missing W/O Missing KDD Cup, 2018
Weather Nature 3010 1332 65981 No No Daily Sparks et al., 2020
NN5 Banking 111 791 791 Yes Yes Daily W Missing Daily W/O Missing Weekly Ben Taieb et al., 2012
Web Traffic Web 145063 803 803 Yes Yes Daily W Missing Daily W/O Missing Weekly Google, 2017
Solar Energy 137 52560 52560 No Yes 10 Minutes Weekly Solar, 2020
Electricity Energy 321 26304 26304 No Yes Hourly Weekly UCI, 2020
Car Parts Sales 2674 51 51 No Yes W Missing W/O Missing
FRED-MD Economic 107 728 728 No Yes Monthly McCracken and Ng, 2016
San Francisco Traffic Transport 862 17544 17544 No Yes Hourly Weekly Caltrans, 2020
Rideshare Transport 2304 541 541 No Yes W Missing W/O Missing Curated by us
Hospital Health 767 84 84 No Yes Monthly Hyndman, 2015
COVID Deaths Nature 266 212 212 No Yes Daily Johns Hopkins University, 2020
Temperature Rain Nature 32072 725 725 No Yes W Missing W/O Missing Curated by us
Sunspot Nature 1 73931 73931 No No W Missing W/O Missing Sunspot, 2015
Saugeen River Flow Nature 1 23741 23741 No No Daily McLeod and Gweon, 2013
US Births Nature 1 7305 7305 No No Daily Pruim et al., 2020
Solar Power Energy 1 7397222 7397222 No No 4 Seconds Curated by us
Wind Power Energy 1 7397147 7397147 No No 4 Seconds Curated by us

常用指标

MSE(mean square error)均方误差
RMSE(root mean square error) 均方根误差
MAE(mean absolute error) 平均绝对误差
MAPE(mean absolute percentage error) 平均绝对百分比误差
SMAPE(Symmetric Mean Absolute Percentage Error) 对称平均绝对百分比误差

对比:先对比有平方操作和没有平方操作的,平方操作会放大单个点的误差,对误差的惩罚更大,因此有平方操作的对异常点更加明显,没有平方的操作对所有误差一视同仁,对异常点不敏感。

MSE和RMSE: RMSE 的值可以更直观地解释为与目标变量相同单位的标准差。这使得 RMSE 更容易理解,因为它具有与数据相同的度量单位。

SMAPE vs MAPE:SMAPE 在处理分母为零的情况时更稳健,因为分母考虑了真实值与预测值的绝对值的和。

MAE vs MAPE:MAE: MAE 的单位与原始数据的单位相同,因为它是误差的平均绝对值。
MAPE: MAPE 的结果是以百分比形式表示的,不受原始数据单位的影响。它以百分比来度量相对误差。

均方误差(Mean Absolute Error,MAE)和平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)在不同的应用场景中可能更适用,取决于对误差度量的不同关注点。以下是它们适用场景的一些特点:

MAE 的适用场景:

误差大小关键: 当关注模型预测的绝对误差的大小时,MAE 是一个合适的选择。它直接度量了预测误差的平均绝对值,对于业务问题中误差的实际大小提供了直观的度量。

MAPE 的适用场景:

相对误差关键: 当关注模型预测的相对误差的大小时,MAPE 是更合适的选择。它将每个样本的绝对误差与相应的真实值的百分比进行比较,更强调相对误差的百分比。

数据具有不同尺度: MAPE 在处理具有不同尺度的数据时可能更为合适,因为它以百分比形式提供了一个相对的度量,不受原始数据单位的影响。MAPE因此可以适用于不同数据集之间的比较。

常用方法

统计方法
机器学习方法
深度学习方法
基于transformer的方法
基于预训练大模型的方法

实验设计

1.不同时间序列任务:预测、分类、异常检测
2.不同类型任务:监督、自监督、迁移
3.数据集:zero-shot,one-shot,all
4.变量:多预测多,多预测单、单预测单、部分变量预测
5.训练方法:fine-tuning, linear probing, and supervising from scratch
6.消融实验:w/o replace 超参数
LookbackWindow(seq_len)
pred_len
patch_len
patch_num
关于超参数的实验往往使用图来展示
7.指标:性能相关:mse、mae;效率:时间;体量:参数量

实验分析

CKA相似度
SHAP
除了SHAP之外,还有一些其他用于解释机器学习模型的方法。这些方法各有特点,适用于不同类型的模型和任务。以下是一些常见的模型解释方法:

1.LIME(Local Interpretable Model-agnostic Explanations): LIME是一种模型无关的局部解释方法,它通过在局部生成一个简单的可解释模型来解释黑盒模型的预测。LIME通过在输入空间中生成随机样本,观察它们的模型输出,然后拟合一个简单的解释模型,以近似原始模型在该点的行为。
2.Feature Importance(特征重要性): 这是一种简单但常用的解释方法,通过分析模型中各个特征对于输出的相对重要性。随机森林、决策树等模型通常提供特征重要性的直接输出。
3.Partial Dependence Plots(偏依赖图): 偏依赖图显示模型输出与某个特征之间的关系,保持其他特征不变。通过观察这些图表,可以了解模型是如何对单个特征进行响应的。
4.Shapley Regression Values(SRV): 类似于SHAP值,SRV是一种基于博弈论的解释方法,用于解释回归模型的预测。它提供了每个特征对于整体预测的贡献。
5.TreeInterpreter: 针对树模型(如决策树和随机森林),TreeInterpreter可以解释单个预测是如何通过模型的各个树来形成的。
6.LASSO Regression: 在线性回归中,使用LASSO(Least Absolute Shrinkage and Selection Operator)进行特征选择,可以得到一个稀疏模型,从而识别对输出有重要贡献的特征。
7.Global Surrogate Models: 这是一种通过在原始模型周围训练一个可解释的替代模型来解释复杂模型的方法。例如,用一个简单的线性模型来近似复杂的深度学习模型。

选择合适的解释方法取决于具体的问题、模型和数据。通常,结合多种解释方法可以提供更全面的理解。值得注意的是,不同的解释方法对于不同类型的模型和任务可能具有不同的适用性和可解释性。

你可能感兴趣的:(深度学习,论文笔记,深度学习)