时间序列与因素回归的区别

浅谈时间序列与因素回归

这篇想谈谈时间序列和因素回归的关系,什么时候两个可以相互替代,什么时候不能相互替代。

什么是时间序列?时间序列(或称动态数列)是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。时间序列分析的主要目的是根据已有的历史数据对未来进行预测。
先上个时间序列的图来帮助理解

时间序列与因素回归的区别_第1张图片

该图是某个产品指标在最近两年内每个月变化的趋势。图形能给出一个主观感受,尤其是加入目标线后,能知道产品指标是否符合要求,其趋势是上升(恶化)还是下降(优化)。

如果将指标泛化为Y,月份泛化为t,那可以使用函数形式来表达这条趋势线:Y=F(t)。为准确知道某个时间点上Y具体的值,甚至对未来做出预测,可以使用回归的方法将F求出来。该案例通过一个简单的一元线性回归得到结果,其结果如下图,黑色虚线代表了F,公式为:Y=-14.969*t+616.59。由于t的系数是负值,所以知道Y是下降(优化)趋势,通过R^2=0.2774知道,其预测的准确性不会很高。(这里暂不讨论如何提升预测精度(模型的优化程度)的方法,只是让大家理解时间序列是什么。)

时间序列与因素回归的区别_第2张图片

因素回归是指确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。按照因素的个数可以分为一元回归,多元回归;按照回归方法可以分为线性回归,Logistic回归,多项式回归等。

同样上个图来帮助理解

时间序列与因素回归的区别_第3张图片

该图是某产品的不平衡度与噪音的关系,理论分析已经告诉我们,不平衡度是造成噪音的一个影响因素。通常情况下,不平衡度越大,噪音也会越大。为了验证理论,收集了几组数据做出该图,通过趋势线能看出,的确不平衡度增大,噪音也随之增大。

将“噪音”泛化成为Y,“不平衡度”泛化成X,也可以使用函数Y=F(X)来表达蓝色的趋势线。为了准确知道X和Y的一一对应关系,经过简单的一元线性回归分析求出F,其结果如下图:黑色虚线代表了F,其公式为:Y= 0.455*X-2.745。由X的系数为正值可以导出“不平衡度”对“噪音”是正影响,且放大系数为0.455.而且由R^2=0.7882来看,简单的线性回归模型已经能很好的解释“不平衡度”和“噪音”之间的关系了。

时间序列与因素回归的区别_第4张图片

看大这里,大家可能会说,时间序列与因素回归不是一样的吗?也对,也不对!时间序列和因素回归都是利用的了回归分析的统计方法来参数化特征值,但是其本质的区别在于:时间序列中,时间t和结果Y没有必然的因果关系,而因素回归中,X和Y是有因果关系的。换一种描述方式:时间序列只是结果Y随时间变化而呈现了一定的趋势,直接使用t来预测结果Y,未必准确;因素回归则物理上X和Y有因果关系,只要选择了合适的回归模型后,一般都能准确的通过X来预测Y。(当然,时间序列除了回归分析,其也有一些高大上的、更符合的分析预测方法)在数据收集难易程度上,时间序列和因素回归也有差异:

时间序列:数据收集简单–只用收集结果数据,然后根据时间顺序排列配对数据即可用于分析

因素回归:数据收集–需要针对X的变化收集成对的X和Y的数据,才能做分析。
对于质量工程人员而言,预测和预测的合理性是永恒不变的任务和目标。理解了时间序列和因素回归的本质区别,就能明白什么时候使用时间序列来做预测是可以接受的,什么时候是不可以接受的。

如果某段时间内,影响因素的变化是随机的或者有简单的趋势化变化,用时间序列来预测是可以接受。这个时候,可以理解为Y=F(X),X = G(t) ;将X代入得到:Y=F(G(t)),所以可以理解为结果Y是与时间t相关的函数(随机变化和趋势化这个条件确保了X=G(t)能被找到并表达出来的必要条件)

如果某一时间段,影响因素有跳变,或者有新的影响因素加入,那还是得好好找到影响因素,通过数据的收集,使用因素回归来做预测吧(因为我们无法找到X=G(t)),切不可因为图省事,只收集一个结果数据,然后根据时间来做出时间序列预测。

转载:https://bbs.pinggu.org/thread-5935733-1-1.html

你可能感兴趣的:(机器学习)