时间序列数据简介

前言

由于研究方向是时间序列预测,对时间序列数据也颇感兴趣,特此简单记录学习过程。

参考文章:

  1. 时间序列数据分析101 - (1) 一份全面详尽的时间序列入门教程

1. 引言

1.1 时间序列

  • 定义:按照一定的时间间隔排列的一组数据,其时间间隔可以是任意的时间单位,如小时、日、周月等。
    比如,每天某产品的用户数量,每个月的销售额,这些数据形成了以一定时间间隔的数据。
  • 时间序列分析:指从按时间排序的数据点中抽取有价值的总结和统计信息的行为。
    时间序列分析既包含了对过去数据的诊断,也包括对未来数据的预测

时间序列可以分为平稳序列和非平稳序列两大类

  • 平稳序列
    序列中的各观察值基本上在某个固定的水平上波动,虽然在不同的时间段波动的程度不同,但并不存在某种规律,波动可以看成是随机的
  • 非平稳序列
    包含趋势、季节性或周期性的序列,它可能只含有其中一种成分,也可能含有几种成分。

1.2 应用场景

  • 医学
  • 天气
  • 经济学
  • 天文学
  • 海洋学

落地场景:预测、异常检测和动态时间规整等

1.3 研究方法的递进

  • 统计学方法 :
  • 传统时序方法:AR、ARMA、ARIMA
  • 机器学习模型:ANN、XGBoost、RF
  • 深度学习模型:LSTM、Transformer、Bert

时间序列分析的主要任务之一是要建立时间序列适合的模型,通过建立模型来描述现象、事物随时间推移的变化规律性;并常常借助于模型进行预测。

2. 时间序列数据

2.1 数据的获取

  • 开源数据仓库

开源时间序列数据集

  - 音乐库数据
  - 服务监控数据集
  - 国家经济数据
  - 政府开放数据
  - 数据竞赛网站
  • 从非显式数据中构造时间特征,创造时间序列数据

2.2 数据时间轴的确定

有时候在数据存储时并没有一列显式存在的时间列,这时候就需要我们去人为寻找和构造。

  • 以事件记录的时间构造时间列
  • 以另一个和时间相关的元素构造时间列,例如在一个数据集中行驶距离和时间是正相关的,此时就可以以距离来构造时间列
  • 以物理轨迹的顺序作为时间列,例如在医学,天气等领域有些数据是以图片的形式存储的,此时可以从图像中提取时间列

2.3 时间序列遇到问题

  • 时间值是在哪个过程产生的,以及何时产生的。通常事件发生的时间和事件被记录的时间往往是不一致的。
  • 处理历史遗留数据,并没有清洗记录的文档说明,也无法找到处理数据流的人来确认时间戳产生的方式。
  • 时间分辨率,这对于后续特征构造和模型有效性都有很大的影响。
  • 数据缺失值处理以及可靠性

你可能感兴趣的:(时间序列预测,时间序列,python,数据结构)