数据分析 - 预测模型(学习笔记)

快速预测的方法,只用excel就能搞掂哦。大部分日常工作的预测,都是基于连续几个数据,比如:

  • 有今年1-5月销量,问6月销量咋样?
  • 有最近10周的新增用户,问第11周有多少?
  • 有过去30天的业绩,问今天业绩如何?

这种预测有个专业名词:时间序列预测

常见的数据走势有三种:

  1. 趋势型:连续发展的态势。(增长趋势/降低趋势)
  2. 躺平型:变动较少,一条直线。
  3. 周期型:有规律的周期性波动。

数据分析 - 预测模型(学习笔记)_第1张图片

1.趋势型

数据分析 - 预测模型(学习笔记)_第2张图片

数据分析 - 预测模型(学习笔记)_第3张图片

数据分析 - 预测模型(学习笔记)_第4张图片

数据分析 - 预测模型(学习笔记)_第5张图片

这里简单解释一下公式公式里Y就是要预测的用户量数据(因变量),X是自变量,也就是时间,X平方就是时间*时间,对应关系如下:

数据分析 - 预测模型(学习笔记)_第6张图片

其实,趋势线拟合的原理,就是假设数据随着时间变化而变化。因此因变量是数据指标,而自变量就是时间,以及时间的各种形态,比如时间的平方、对数、指数等等。 

数据分析 - 预测模型(学习笔记)_第7张图片

在实验这个方法的时候,会发现:很有可能好几种趋势线预测出来的结果,R平方都是接近1的,这时候该怎么选呢?可以计算平均平方差(MSE),哪个方法的MSE数值小,就用哪个。

数据分析 - 预测模型(学习笔记)_第8张图片

明显,2次拟合的MSE值更小,就用这个啦。

2.躺平型

可以用平均值来做预测值。还有专门的方法叫:移动平均值法,即把近N期的数据平均值,作为预测值。 高大上一点的叫指数平滑法来预测。

阻尼系数是一个0到1之间数字,可以简单理解成:

  • 阻尼越大,真实值权重越小,即历史情况参照意义越小;
  • 阻尼越小,真实值权重越大,即历史情况参照意义越大。

数据分析 - 预测模型(学习笔记)_第9张图片

数据分析 - 预测模型(学习笔记)_第10张图片

数据分析 - 预测模型(学习笔记)_第11张图片

 看图说话,阻尼系数0.8的时候MSE值最小,就它了,搞掂!

 3.周期型/季节型

数据分析 - 预测模型(学习笔记)_第12张图片

店铺业绩受双11、双12大促影响明显,4季度是旺季。这种走势也不能直接用趋势线来模拟,模拟出的趋势线R平方只有0.0几,完全不能用。但是,可以通过一个小技巧,把这个数据改造成可以用趋势线模拟的形式。 

第一步:先对数据做改造。改造方法如下图,通过数据处理,模拟出季节变化趋势,这种方法叫:季节多元回归

数据分析 - 预测模型(学习笔记)_第13张图片

第二步:进行回归分析。既然叫季节多元回归,自然要调用回归分析,在同样的路径:数据→数据分析里,找到回归分析方法,然后输入参数:

数据分析 - 预测模型(学习笔记)_第14张图片

第三步:解读分析数据。对大部分非数据分析专业的小伙伴,只要看几个关键数字就好了。

数据分析 - 预测模型(学习笔记)_第15张图片

从结果上看:

  1. R平方0.93,很好;
  2. 各个参数的P值,除了X1以外都很小,很好。

所以模型可用。还可以把X1:时间这个变量去掉。时间变量代表了长期发展趋势,本身这个数据几个周期也没有很大长期增长,所以去掉也是情理之中的。另外,做出来的模型为啥系数都是负的,真的没问题吗。没有,注意这个数据本身就是Q4数值很大,那Q1、Q2、Q3的参数肯定就是负的了。想预测下个季度,可以增加一行:2021年1季度,对应的参数,t是21,Q1=1,Q2、Q3都是0,然后代入公式即可。

总结

这种趋势拟合(又叫趋势外推),是解决趋势型预测的非常快捷的方法。

其优点,包括:

  • 需要的数据少,几个数也能预测。
  • 能模拟曲线走势,不会出现方向性错误。
  • 是个模型,充分满足领导对建模的憧憬但缺点也是很明显的。

领导一句话就能把它打败:“那你所说,这预测的134万用户,到底是哪些渠道做出来的?”

很遗憾,完全说不了。因为模型只是模拟了曲线的走势,并不能解释走势是怎么来的。

用数据分析的专业术语,叫:业务可解释程度差。这种可解释性差,有时候会引发很严重的问题。

比如小伙伴们看回上一张图,虽然2次拟合的MSE值更小,但是这个预测结果明显有问题:本来是连续10个月上涨,这个月居然变成下跌了!

很有可能引发领导连珠炮似的问题:

  • 为什么会下跌?
  • 是新增少还是流失多?
  • 运营不给力还是产品体验差?
  • 需要短期拉动还是长期拐点到了?

更加遗憾的是,模型本身更解释不了这些。

所以聪(jiao)明(hua)的小伙伴,会果断放弃二次拟合的结果,用线性拟合的结果。

因为这样更符合领导预期(少被人喷)。

那如果领导一定要解释到底新增的是从哪些渠道来的。该怎么办呢?这时候可以利用杜邦分析法,对用户量指标做拆解(如下图)。

数据分析 - 预测模型(学习笔记)_第16张图片

拆解完以后,我们一个个去找对应渠道负责的同学问:

  • 亲,这个A渠道,你们6月份还做不做?
  • 亲,如果做A渠道的话,你们准备投多少?
  • 亲,A渠道过去转化率为x%,你们准备做优化不?

问了一堆问题以后,把收集到的信息,做一张汇总表,把下个月为什么是这么多人,解释得明明白白(如下图)。

数据分析 - 预测模型(学习笔记)_第17张图片

这就是大名鼎鼎的业务预测模型,这种预测模型的可解释程度就高多了,可以明明白白地讲清楚:

  • 增长来自哪里
  • 为什么增长这么多
  • 如果不达标,还能做什么

但是这样的缺点也是很明显的:

  • 它没有让人看不懂的算法,显得不厉害
  • 需要运营的大量输入,而运营不见得想说话
  • 即使运营想说,也有可能在拍脑袋,很有可能拍得不准所以呢,世上没有两全法,只能看情况做预测咯

另外,以上讨论的都属于基础概率预测,还有一种是活动响应预测,数据混在一起的话要要区分开。

你可能感兴趣的:(分析方法,数据分析)