Linear Regression——线性回归

本文所有内容来源于StatQuest

线性回归分析内容分为三个部分:
1.通过最小二乘法,拟合出一天直线
2.计算R2
3.计算R2的p值

上一节回归概述的内容中,已经简单介绍了如何通过最小二乘法拟合直线。
若不清楚的话,可以点击链接查看相关内容。
所以本节主要讲述R2及其p值计算。

R2计算

先回答一个两个问题,
R2是什么?为什么要平方?
R是相关系数,表示两个变量关系的紧密程度。
用R值比较两组变量关系紧密程度时,不是很方便。
例如很难直接看出R=7代表的相关性,是R=5的2倍,
但是可以直接看出R2=7是R2=5的1.4倍

接下来看看R2是如何计算的。

一元

假设现在我们已经通过最小二乘法拟合出一条直线,表示小鼠体重(weight)和小鼠体型(Size)的关系



image

首先在y轴方向上,计算数据点到均值(黑色实线)的总平方和SS(mean)(蓝色虚线)和方差Var(mean)

均值误差平方和
均值方差


然后计算出数据点到拟合直线的残差平方和和方差

那么

教材所写的和上面公式的一样的

R2告诉我们小鼠体重weight可以在多少程度上,解释体型size的差异变化。

如果拟合结果类似下图的话,Var(fit)=0,那么我们计算得到R2=100%,即表示小鼠的体型完全可以通过体重解释。
[图片上传失败...(image-d0d94-1556752719637)]
如果拟合结果类似下图的话,Var(fit)=Var(mean),R2=0%,小鼠体重和体型之间完全没有关系。

多元

现在我们希望通过小鼠体重和尾巴长度,来预估小鼠身体长度,
那么我们其实是根据体重和尾巴长度这两个变量预估出一个二维平面

同样的,我们可以根据真实值和预测值之间的残差计算R2

有一点需要说明的是,即使尾巴长度的这个变量对于小鼠体重预测完全没有用,
添加这个变量也不会导致预测结果更差,即SS(fit)变大。
因为在最小二乘法拟合的过程中,导致SS(fit)的变量都会忽略,
那么尾巴长度的系数为0,不会产生实际影响。


所以,即使我们故意添加一些看起来匪夷所思的变量,
例如丢硬币、喜欢的颜色、占星设计,
最终拟合出来的结果也不会更差


个人理解:它这里说的,应该不是通过丢硬币来随机选择样本;
应该还是针对所有样本进行拟合,然后添加硬币、颜色、占星这些乱七八糟的变量
但是下面这块内容就不是很能理解了,没看明白为什么体型小的老鼠频率高了后,SS(fit)会变小

根据上面所说,参数越多,我们获得较大值R2的概率就越大(还是没能理解)。
所以,人们通过对R2除以参数个数来对其进行修正,即修正R2(adjusted R2)。

F值

做完线性回归之后,并且计算出决定系数R2,接下来需要看一下是否具有统计学意义。
对于线性回归而言,是否具有显著性,即求P值,是通过F值计算的。
在这个线性回归过程中


R2表示,小鼠体型方差中,能够被体重解释的部分占总方差的比例
F值表示,小鼠体型方差中,能够被体重解释的部分占未能被体重解释的部分的比例

什么意思呢?解释一下
The variation in mouse size explained by weight 指的是样本点到y轴均值的距离(下图左)减去到回归直线的距离(下图右)的差值
The variation in mouse size not explained by weight 指的是样本点到回归直线的距离(下图右)
Variation in mouse size without takding weight into account 指的是样本点到y轴均值的距离(下图左)

具体计算公式如下图所示


F值的计算公式中分子少了括号吧
F=[(SS(mean)-SS(fit))/(pfit-pmean)]/[SS(fit)/(n-pfit)]

上面的公式中,(pfit-pmean)和(n-pfit)叫做自由度,其中
n是样本格式,
pfit是回归直线的参数个数,如下图



pmean是均值线的参数,如下图

只要最终回归直线公式的因变量只有一个,
例如或者通过体重(单变量)估计体型(因变量),
或者通过体重和尾巴长度(双变量)估计体长(因变量),
那么pmean都只会是1

P值

如何通过F值计算对应的P值呢?
假设我们创建了一组随机数据集,然后计算这个随机数据集的SS(mean)和SS(fit),
得到一个大小为2的F值,然后将F=2作为一个记录,绘制在直方图中


接下来创建另外一组随机数据集,然后计算F值,并且绘制在直方图中
image

那么最终我们会获得由很多随机数据集F值组成的直方图

然后我们计算得到原始数据集的F值,F=6,
那么对应的P值为2/23
2表示直方图中大于等于6的数据个数
23表示直方图中所有数据个数


实际上不会有人为了计算F值,每次都先去随机出一堆数据集,再画直方图
我们可以将每次随机出来的直方图通过光滑曲线记录下来



汇总许多数据集的结果之后,我们发现,根据直方图绘制的曲线仅和自由度相关
那么我们就可以直接通过自由度匹配对应的曲线,来计算p值了


申明

本文是根据StatQuest系列视频整理而来
已获得Josh Starmer授权说明
感谢久久琼殷不辞辛苦将视频转载至B站

Permmsion

你可能感兴趣的:(Linear Regression——线性回归)