作者丨梅子
来源丨医数思维云课堂(ID:Datamedi)
时间序列预测分析就是利用过去一段时间内某事件时间的特征来预测未来一段时间内该事件的特征。这是一类相对比较复杂的预测建模问题,和回归分析模型的预测不同,时间序列模型是依赖于事件发生的先后顺序的,同样大小的值改变顺序后输入模型产生的结果是不同的。
这一章节我们重点看以下几个部分:
01选插入符合国标的中文文献
时间序列分析方法分为描述性时序分析和统计时序分析。
描述性时序分析方法是人们在认识自然、改造自然的过程中发现的实用方法。只要人们观察时间足够长,就能运用描述性时序分析发现蕴涵在时间里的自然规律。早期的时序分析通常都是通过直观的数据比较或绘图观测,寻找序列中蕴涵的发展规律,这种方法就称为描述性时序分析方法。
最早的时间序列分析可以追溯到7000年前的古埃及。当时,为了发展农业生产,古埃及人一直在密切关注尼罗河泛滥的规律。把尼罗河涨落的情况逐天记录下来,就构成了所谓的时间序列。对这个时间序列长期的观察使他们发现尼罗河的涨落非常有规律。天狼星第一次和太阳同时升起的那一天之后,再过200天左右,尼罗河就开始泛滥,泛滥期将持续七八十天,洪水过后,土地肥沃,随意播种就会有丰厚的收成。由于掌握了尼罗河泛滥的规律,古埃及的农业迅速发展,解放初大批的劳动力去从事非农业生产,从而创建了古埃及灿烂的史前文明。
缺陷:随着社会的进步和研究领域的不断拓展,人们发现在金融、保险、法律、人口、心理学等社会科学研究领域,随机变量的发展通常会呈现出非常强的随机性,想通过对序列简单的观察和描述总结出随机变量发展变化的规律,并准确预测出它们未来的走势通常是非常困难的。
为了更准确的估计随机序列发展变化的规律,从20世纪20年代开始,学术界利用数理统计学原理分析时间序列。研究的重心从总结表面现象转移到分析序列值内在的相关关系上,由此开辟了一条应用统计学科——时间序列分析。
纵观时间序列分析方法的发展历史可以将时间序列分析方法分为两大类:频域分析方法、时域分析方法。由于谱分析过程一般比较复杂,不易于进行直观解释,所以谱分析方法的实用具有很大的局限性。
时域(time domain)分析方法主要是从序列自相关的角度揭示时间序列的发展规律。目前它已广泛应用于自然科学和社会科学的各个领域,成为时间序列分析的主流方法。时域分析方法的基本思想是事件的发展通常都具有一定的惯性,这种相关关系具有某种统计规律。我们分析的重点就是寻找这种规律,并拟合出适当的数学模型来描述这种规律,进而利用这个拟合模型来预测序列未来的趋势。
1. 时域分析方法最早产生于1927年,英国统计学G.U.Yule 提出的自回归模型(autoregressive , AR)
2. 英国数学家、天文学家G.T.Walker爵士在分析印度大气规律是使用了移动平均模型(moving average ,MA)和自回归移动平均模型(autoregressive moving average ,ARMA)
3. 美国统计学家G.E.P.Box和英国统计学家G.M.Jenkins提出了求和自回归移动平均模型(autoregressive integtated moving average, ARIMA).这是时域分析方法的核心内容。为了纪念Box和Jenkins,人们把ARIMA模型称为Box-Jenkins模型。
4. Box-Jenkins模型主要运用单变量、同方差场合的线性模型。
在异方差场合,美国统计学家、计量经济学家Robert F.Engle提出了自回归条件异方差模型 (ARCH),用以研究英国通货膨胀率的建模问题。为了进一步放宽ARCH模型的约束条件,Bollerslov提出了指数广义自回归条件异方差模型(EGARCH)、方差无穷广义自回归条件异方差模型(IGARCH)和依均值广义自回归条件异方差模型(GARCH-M)。
在非线性场合,各种新的模型层出不穷。
Granger和Andersen提出了双线性模型;
Howell Tong 提出了门限自回归模型;
Priestley 提出了状态相依模型;
Hamilton 提出了马尔科夫转移模型;
Lewis和Stevens提出了多元适应回归条方法;
Carlin提出了非线性状态空间建模的方法;
Chen和Tsay 提出了非线性可加自回归模型。
02什么是可以预测的
预测在很多情况都是需要的,对于超市每件产品的销量进行预测可以帮助超市很好的对特定产品进行库存的管理,对某些地区未来五年的用电情况的使用进行预测可以为是否需要建立一家供电站提供很重要的参考意见等等。
不过是否所有的事情都可以预测呢?很明显是需要不同情况不同分析 的,我们可以很容易地预测明天太阳上升的时间,但是我们却往往很难预测明天的彩票的结果,那么一件事情预测的质量依赖于那些因素呢?
1. 因素如何影响我们的结果(How well we understand the factors that contribute to it);
2. 我们拥有多少数据 (How much data are available);
3. 我们的预测是否会影响我们预测的结果(Whether the forecasts can affect the thing we are trying to forecast)
03决定预测什么
预测在整个建模过程中是不可或缺的一部分。从预测的时间跨度来看,我们可以将我们的预测模型初步划分为:短期,中期和长期预测。 其中短期预测常常用来安排人员调度,交通等;中期预测则往往被用来确定下一阶段的资源需求,例如是否需要购买原材料机器设备等.而长期预测更多的出现在公司的策略决定当中,这样的决定经常要考虑市场的机会环境因素以及内部资源等各种因素。
明确预测的目标,是长期预测还是短期预测,是所有的产品预测还是单个产品预测.多久需要进行预测。一旦决定要预测什么,然后就可以针对性的进行数据的收集。
04时序预测分析步骤
1. 问题定义
2. 信息收集
3. 探索性分析
4. 模型识别并且拟合模型
5. 模型诊断
值得注意的是,我们预测的变量是一个随机变量:我们预测的东西往往是未知的,所以我们往往会将其看作是一个随机变量,例如下一个月的总的销量会有很多值,直到下个月我们才会知道。如果预测的是明年该月的销量,则销量可能的空间会更大,则预测将更为不确定。
到这里,时间序列预测分析先导篇的分享就结束了。梅子也知道,由于时间的原因,还有很多细节没有给大家演示到。更精彩的内容将会不断更新,一起期待下一期时间序列的分享呀!
最后,衷心祝愿大家再科研的道路上越走越远,越走越顺!