时间序列模型的选择思路——学习笔记

本文大量参考了预测类问题与时间序列

时间序列的四个特性

时间序列:某个物理量对时间的函数。

拿到一个时间序列,可以从四个角度去认识和挖掘它:

1:随机vs确定

可由外界的变化而确定,也可以是因为有复杂的原因,结果不确定。要先想想时间序列是否可以重复。有概率空间的概念。

2:无记忆vs历史依赖

无记忆:只和上一时刻相关,没有复杂记忆(马尔科夫过程);有记忆:与之前很多的时刻都相关,有复杂的历史依赖。

3:线性vs非线性

影响序列的因素之间是否相互独立。若独立,则可以拆分为各因素的叠加,称之为线性;若不独立,相互之间有影响,则为非线性,问题会复杂的多。

4.问题的维度

时间序列的观测值的维度。高维时是否该降维,低维时是否该投影到高维。


选用预测模型的方向

考虑完以上几个特性之后,可以考虑选用相应的模型。

比如:若线性,则各因素可以叠加,选用LR就不错;若无记忆,则HMM就很好。若有记忆、非线性、纬度高,那么可以考虑用神经网络。


举例

1.股市预测

巨大的随机性(因素太多,很难考虑全)、很强的历史依赖、非线性、单维度的时间序列。

2.备件预测

备件的需求量(在保期内的损坏量)是随机的、历史依赖的、线性的(多个电脑机型的该备件的在保损坏量的时间序列的叠加。它与电脑的在保量序列(电脑销售量结合保期转换为在保量序列)密切相关)、一维向量。这就需要对与该备件相关的每款电脑的销售量做预测。每款电脑的销售量序列是一个随机的、历史依赖的、非线性的(销售趋势,产品阶段,季节影响,随机波动等因素。因素间并不独立,会有影响,不能直接叠加)、一维度向量(是否降维或者投影到高维)。

总结

电脑销量预测是随机、历史依赖强、可以假设成线性的、单维度。可以试试分解、ARIMA两种方式建模。预测效果应该还可以。或者用点神经网络模型,也不是不可以。但如果直接对在保期内的损坏量直接进行这两种方式的建模,我认为很难保证效果。因为不知道每一时刻参与备件的机型有几种,所以找出来的模式可能很难在后续中重现。如果模型能准确的把某一时刻各个机型的量分解开来(一维变成多维),不用我自己去找有几台相应的机型,再去分别预测,那就太好了,这种傻瓜式模型估计就只有神经网络能办到吧。至于是否能很好的分解,是否需要大量的数据,目前还不了解,这个坑先留着吧。

综上所以比较靠谱的方案是:先对几个电脑销量做预测(做一个转换 得到在保量的数量),再对这几个型号的数据做线性回归(找出损坏率的因素)。或者上神经网络模型,但是个人感觉要确定在历史和将来的时间段中,参与进来的机型个数是不变的,这样效果才能稳定吧。

你可能感兴趣的:(时间序列预测)