一元线性回归个人梳理

一元线性回归

回归定义:

回归分析(regression analysis)用来建立方程模拟两个或者多个变量之间如何关联

被预测的变量叫做:因变量(dependent variable), 输出(output)

被用来进行预测的变量叫做: 自变量(independent variable), 输入(input)

一元线性回归包含一个自变量和一个因变量

以上两个变量的关系用一条直线来模拟

如果包含两个以上的自变量,则称作多元回归分析(multiple regression)

通俗来讲:就是通过建立一个方程,方程内有自变量和因变量(自变量叫做拿来做预测的量即已知量,因变量叫预测结果)

一元线性回归方程:

y = kx + b

x:自变量 y:因变量 k:斜率 b:截距 y在平面上是一条直线,这条线也就是回归线

正负相关:

k > 0 : 正相关 k > 0 : 负相关 k = 0 :不相关

代价函数:Cost Function

真实值:yture 预测值:ypredict

均方误差:mean squared error

mse = (yture - ypredict) ** 2

预测函数:ypredict_{i} = kx_{i} + b

代价函数公式:

cost(b, k) = \frac{1}{m}\sum_{i = 1}^{m}(yture_{i} - ypredict_{i})^{2}

其中我们可以通过相关系数来衡量相关性的强弱

r_{xy} = \frac{\sum (x_{i} - \bar{x})(y_{i} - \bar{y})}{\sqrt{\sum(x_{i} - \bar{x})^{2} - \sum{(y_{i} - \bar{y})^{2}}}}

x_{i}, y_{i}, \bar{x}, \bar{y}:分别表示 带测试的自变量, 自变量带入模型方程求得的因变量 即预测的值(因变量), 已知自变量的均值(平均值), 已知测试集数据实际的值(即实际的因变量)

相关系数R^{2} (coefficient of determination)是用来描述两个变量之间的线性关系的,但决定系数的适用范围更广,可以用于描述非线性或者有两个及两个以上自变量的相关关系。它可以用来评价模型的效果。

  总平方和(SST):\sum_{i = 1}^{n}(y_{i} - \bar{y})^{2}

总偏差平方和之简称,是指反映全部数据误差大小的平方和。

回归平方和(SSE):\sum_{i=1}^{n}(\hat{y} - \bar{y})^{2}

SSE越大说明多元线性回归线对样本观测值的拟合情况越好。

残差平方和(SSR):\sum_{i=1}^{n}(y_{i} - \hat{y})^{2}

总平方和是:(样本点与(样本点的平均值)的差值)的平方

回归平方和是:(回归线上的点 即预测点 与 (预测点的平均值)的差值)的平方

残差平方和是:(样本点 与 (回归线上的点 即预测点)的差值)的平方

把每个残差平方之后加起来 称为残差平方和,它表示随机误差的效应。一组数据的残差平方和越小,其拟合程度越好。

他们三者的关系为SST = SSR + SSE

决定系数:R^{2} = \frac{SSE}{SST} = 1 - \frac{SSR}{SST}

R^{2}一般用在回归模型用用于评估预测值和实际值的符合程度,同时一般用在线性模型中

个人感觉在相关系数这一块理解不到位,希望看见的评论讲解,我多学习,谢谢^_^

                                                                                                                           

                                                                                                                        【未完待续.........】

你可能感兴趣的:(一元线性回归,概率论,机器学习)