Khan公开课 - 统计学学习笔记:(九)线性回归公式,决定系数和协方差

Khan公开课 - 统计学学习笔记:(九)线性回归公式,决定系数和协方差_第1张图片

线性回归公式推导

在坐标上分布很多点,这些点可以通过y=mx+b的直线进行近似模拟,如图。最合适的线性回归线(Best fitting regression)就是Error的方差最小,即Square error to the line: SEline最小。我们需要找寻SEline最小时m和b的值,即find the m & b that minimizes SEline

SEline=(y1-(mx1+b))2+(y2-(mx2+b))2+ … +(yn-(mxn+b))2 
     = y12-2y1(mx1+b)+(mx1+b)2+y22-2y2(mx2+b)+(mx2+b)2+ … +
yn2-2yn(mxn+b)+(mxn+b)2
    = y12 – 2y1mx1 – 2y1b + m2x12+2mx1b+b2+ … …
    = (y12+ y22+…+yn2) - 2m(x1y1+x2y2+…+xnyn) - 2b(y1+y2+…+yn) + m2(x12+x22+…+xn2) + 2mb(x1+x2+…+xn) + nb2


如果知道所有点的分布,即在x,y已知的情况下,不同的m和b,有不同的SEline,是一个三纬曲面,类似碗状,求最小SEline时m、b知,可通过对m和b求偏导获得。偏导就是对于某一个自变量进行求导。

Khan公开课 - 统计学学习笔记:(九)线性回归公式,决定系数和协方差_第2张图片

从第二的方程中可以知道x和y的均值位于该直线上,解方程得

决定系数r2

y=mx+b,使得SEline为最小,我们需要衡量这条回归线(regression line)和数据的吻合程度有多少。也就是How much (what %) of the total variation in y is described by the variation in x (or by the regression line) .

Total variation of y 也相当是square error of mean:

How much of total variation is NOT describe by the regression line:

SEline=(y1-f(x1))2+(y1-f(x2))2+ … + (yn-f(xn))2
               =(y1-(mx1+b))2+(y1-(mx2+b))2+ … + (yn-(mxn+b))2

What % variation is NOT described by the variation in x or by the regression line 。回归线y=mx+b,是用x来描述y。

What % of total variation is described by the variation in x:

R2: coefficient of determination决定系数。当SEline越小,越符合回归线,r2越接近1;相反当SEline越大,r2越接近0。R2可以视为衡量回归线符合情况的参数。

协方差Covariance

协方差Covariance,Cov(X,Y)=E[(X-E(X))(Y-E(Y))],观察X与其均值之差X-E(X)以及Y与其均值之差E(Y)之间的同步关系,是否X-E(X)上升,Y-E(Y)也上升,两者之间的关联。

Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=E[XY-XE(Y)-YE(X)+E(X)E(Y)]

由于E(X)是线性,有Cov(X,Y)= E[XY]-E[XE(Y)]-E[YE(X)]+E[E(X)E(Y)],这里暗红色部分是个常数,有

Cov(X,Y)= E[XY]-E(Y)E(X)-E(X)E(Y)+E(X)E(Y) = E(XY)-E(X)E(Y)

针对用采样样本进行估算,则有

重写regression line的斜率 ,当中Var(X)=E[(X-E(X))2]=Cov(X,X)

相关链接:我的四方书库

你可能感兴趣的:(四方书库)