萨恩斯:回归分析不会做?一看全懂

回归分析不会做?一看就懂!


剑桥大学的高尔顿研究了1074对父母与每对父母的一个儿子(外国人是有多能生?)的身高关系,发现平均身高比较高的父母,儿子也相对比较高;平均身高比较低的父母,儿子也相对比较低。这是常识啊,小编动动小脚趾也能想到。不过他发现了一个有趣的现象,儿子身高(与儿子们的平均身高)的差距比父母身高(与父母们平均身高的)的差距要小,也就是说子代的身高会围绕平均身高进行一定程度的回归,以避免出现子代身高随父母身高而出现两端分化的情况。(小编爸爸身高165,妈妈身高162,但是小编身高178.哈哈,感谢回归定律)。打一个更为形象的比方,姚明和妻子叶莉都属于中国人身高里的异常值,我们可以断定他们的孩子肯定会比较高,但不大可能超过她俩的平均身高,而是会离同龄人身高的平均值更近。

大自然就是这么神奇与公平,所以父母平均身高比较矮的同学,也不要太担心自己会比较矮,父母平均身高比较高的同学,也不必沾沾自喜,你们的身高都会向平均身高来回归。天行有常,这就是自然规律吧。

好吧,小编啰嗦了半天,到底要告诉我们什么呢?

回归分析是量化分析的基石,不懂回归,犹如学音乐不懂音律。

自从高尔顿将回归分析引入统计学之后,这个概念便大行其道。其实在上面的例子中,我们已经提到了,子代身高既受到父母身高的影响,也有向平均值回归的趋势。如果我只让你猜,小明的身高是多少?你肯定觉得我在逗你玩,臣妾也不好猜啊。我如果告诉你,小明父母的身高,你就会有一个猜测的依据,我如果再告诉你小明班上同学的平均身高,你就会猜测的更准确一些。高尔顿最初就是发现了可以根据父母身高来预测子女身高,而回归分析指的就是用某一个变量(如父母身高)来预测另一个变量(如子代身高),以此来探索两个变量之间的关系。前面提到的身高现象,高尔顿称之为“向平均数方向的回归” (regression toward mediocrity),翻译为“线性回归”。从高尔顿起,“线形回归”的术语因此沿用下来,作为根据一种变量(如父母身高)预测另一种变量(如子女身高)或根据多个自变量(如受教育水平、父母受教育水平)来预测一个因变量(如收入水平)关系的统计方法。

我们在日常生活中很容易观察到这类变量关系,例如,父母如果受教育水平都比较高,那么其子女的受教育水平可能会比较高。于是,父母受教育水平为自变量,子女受教育水平为因变量。在学术研究上,这个被称为一元回归分析(即分析一个自变量对一个因变量的影响,在实际研究中很少见,但却是学习回归分析的基础)。我们可以根据父母的受教育水平来预测子女的受教育水平。

再比如,一个人的受教育程度越高,他的收入水平也可能越高。我们可以根据一个人的受教育程度来预测他的收入水平。

在现实生活中,一般很少有一个自变量影响一个因变量的情况,比方说,子女受教育水平高,既与父母受教育水平有关系,也与其它因素有关,比方说家庭年收入、父母陪伴孩子学习的时间、学校作业量等。也就是说,导致某一个结果的原因是多种的。在研究上称之为多个自变量对一个因变量的影响。这个称作多元回归分析(即多个自变量对一个因变量的影响,日常研究中最常见的就是这类分析,这也符合哲学关于万物是普遍联系的观点。不好意思,小编又开始卖瓜啦)。

一句话,回归是预测的学问,当我们通过自变量去预测因变量时,误差越小,预测就会越准。凡是预测必带来误差,因此,通过平均值来预测,能够有效较少误差。(例如上文,凭空猜小明身高为1.6米,当告诉你小明同学平均身高为1.75米时,你可能会重新猜他身高为1.72米,也就是会更靠近平均值。如果小明的真实身高为1.7米,那么,知道平均值和不知道平均值的情况下,误差减少了0.08米。)这也就是为什么说“平均值是预测”(李连江语),就是说当我们用平均值去预测时,可以极大减少误差。这也就是为什么在统计学及回归分析中如此看重平均值的原因。了解了平均值,才能明白什么是标准差,什么是方差,也才能明白什么叫T检验,什么叫方差分析,什么叫总变差(Total variation,SSt),什么叫剩余变差(或残差residual variation,未被解释的变差或组内变差——within group variation),什么叫模型变差(Model variation, SSm,是指被解释的变差,亦称为组间变差——between-group variation)。怎么样?是不是开始感觉有点蒙了,小编在听课的时候听到这里的时候也有点被吓尿了的感觉,谁让文科生天生对数字、对符号、对公式恐惧啊。不过,只要明白了,回归分析就是为了降低预测的误差,一切都起源于平均数,你就不会惧怕上面的术语了。某大神说过,文科生学统计,重在应用,那些公式,你一生只学一次就好了。

我们再举个栗子,看看如何理解回归分析。给大家看两张图,先看第一张:

萨恩斯:回归分析不会做?一看全懂_第1张图片

很熟悉的赶脚有没有?这不就是高中学的一元一次方程吗?方程式是Y = a + bX,a是截距,b是斜率。在这个数学关系中,所有的x和y即横轴和纵轴交叉的点(x,y),都会落在这条斜线上。这是堪称完美的线性关系。好吧,这只是数学公式上成立。真实世界的情况是什么样的呢?让我们看第二张图:

萨恩斯:回归分析不会做?一看全懂_第2张图片

我们会看到,很多真实观察到的点,并没有落在中间的直线上。这是因为真实世界中不存在完美相关,总是有一定的误差。这个误差来自实际观测值(图中蓝色点)与预测值(黑线与红线交叉的点)之间的差异,也就是e,也被称作残差(我们前面提到了,也叫做剩余变,即未被解释的变差)。所以,我们在建构回归方程时,就是要把所有的e变得最小,也就是让预测的误差最小。我们经常听到的最小二乘法就是干这个事的。当我们这么做的时候,就能出现一条直线,保证用这条直线来预测因变量时,误差最小。

当然,以上只是最基础的两个变量之间的回归,我们还会接触多个自变量与一个因变量之间的回归。包括其后要接触到的因变量为类别变量时的回归。见下图。如果学习回归分析,可以先从线性回归分析入手。

萨恩斯硕博团队写作指导专业范围:建筑、水利、教育、医学核心、医学业务报告、财会、金融、政治、行政、管理、社科、党建、经济、工商、税收、金融、环境等专业,博、硕士论文撰写指导服务,作图服务,英语翻译,博、硕士论文、SCI 论文排版,期刊论文辅修代发 联系方式:15871824794(微信同步) QQ:577705629

你可能感兴趣的:(萨恩斯:回归分析不会做?一看全懂)