java求线性回归置信区间,线性回归分析详解9:总体回归、置信度、置信区间及其计算方法...

许栩原创专栏《从入门到高手:线性回归分析详解》第9章:总体回归、置信度、置信区间及其计算方法。

多元回归方程求解后,我们分别确认了回归方程的精度和进行了回归方程的显著性验证,接下来,我们需要计算置信区间。

置信区间是回归分析的一个重要概念,但是,将回归分析应用到需求预测,并不强求引入置信区间,也就是说,用回归分析做需求预测时,可以不进行置信区间的计算,而直接进行后续的预测步骤。所以,从这一点来说,大家可以跳过本章,直接进入第10章,用线性回归分析进行预测。

不过,我们做回归分析,非常有必要懂得相关置信区间的概念、逻辑和计算方法。所以,本章,我还是对此做些基础的介绍,主要内容如下。(本专栏总目录如下图。)

1、总体回归。

2、置信度与置信区间。

3、置信区间的计算。

一、总体回归。

要了解置信区间,我们需要先了解回归分析的另一个概念,总体回归。

我们先看总体,请看下图。

回归火锅店的这一组数据中,气温为6℃,没有折扣(即折扣为1)这种情况有3天,分别是1月8日、12日和16日。但是,这仅仅是14天的数据,如果将数据放大,那么,以前肯定也有“气温为6℃,没有折扣”这种情况,以后(即需要预测的未来)也同样会存在这种情况。我们可将“气温为6℃,没有折扣”这种情况认为是一个总体,而1月8日、12日和16日是从这个总体中抽出的三个个体。

总体回归表明的是因变量y的平均状态随自变量x变化的规律。

回归分析认为,气温为x1℃,折扣为x2的业绩服从平均值A1x1 A2x2 B、标准差为σ的正态分布。(这个原理比较复杂,这里就不展开,大家可以理解为这是回归分析的规定。)

我们将y=A1x1 A2x2 B称为总体回归。

我们可以这么简单的理解总体回归:我们所做的回归分析是在已知的部分数据的基础上进行的,我们所做的其实是样本回归;而总体回归是未知的,是对全部数据所进行的回归分析。

因为总体是未知的,我们进行回归分析(样本回归),事实上就是用样本回归去估算总体回归。

二、置信度与置信区间。

上一章我有提到过置信度,置信度可以粗暴的理解为对回归模型运行结果有把握的程度。

但要真正的理解置信度,就要先理解置信区间。

置信区间(Confidence interval)是指由样本统计量所构造的总体参数的估计区间。【引自百科定义】

因数据极为庞大,不管是回归分析,还是统计本身,我们都不可能去统计和分析全部数据,统计学上一般采取的做法是,用样本去估计总体,也就是用局部去估计全部。因为样本、局部毕竟是总体中的一部分,所以,用样本估算的总体数据存在一定不可靠性,但是,用样本估算的总体数据又在真正的数据一定的范围之内,这个一定的范围之内就是置信区间。

举个例子,天气预报,气象台发布气温时,一般播报多少度到多少度之间,比如明天气温20℃~30℃之间,这个20℃~30℃之间,就是置信区间。

但是,这个20℃~30℃的置信区间有多大的可信度呢?有多大的把握呢?一般用百分比来表示,比如明天气温有90%的可能在20℃~30℃之间,这个可信度,这个把握度,这个90%,就是置信度。

需要强调的一点是,置信度并不是在求出置信区间后判断出来的。实际上,置信度是在求解置信区间之前,同分析者自己“决定”的,即不同的的置信度,会带来不同的置信区间。。

通常情况下,95%是最常采用的置信度。置信度不是越高越好

你可能感兴趣的:(java求线性回归置信区间)