线性回归

[Chapter 3 - 线性回归]

简单线性回归

形如,其中 截距为 为斜率, 和 被称为系数或者参数

计算模型系数

计算 和 使得直线和点之间的距离之和最小
第回归值的残差为


则残差平方和为:

假设样本均值为


最小二乘法的的回归结果为:

评估系数准确性

对于模型和回归线
标准差为

其中 并且 与没有协相关关系.

残差标准差为:

其中 为残差方差之和.

标准差可以用来计算置信区间(在一定可信度下能够包含未知参数真实数值的区间)

简单的线性回归下 的95% 置信区间可以估计为

相似的可以估计为

当我们想计算单个响应值, 我们使用 预测区间;当我们想计算平均响应值,我们使用置信区间

假设检验:

对于以下两种假设:
: 和 不相关
: 和 相关
我们可以采用T-检验进行估计
T-statistic 计算为:

如果 和 无关, 自由度的t-分布将会获得。
那么我们可以计算当前模型得到的t计算数据对应的概率p-value,如果p-value足够小,我们就可以拒绝假设.

使用评估模型准确度

其中:


可以计算模型拟合后减少的数据的自由度,越接近1,那么模型拟合的就越好,具体需要的的数据需要依据实际情况进行判定。

协相关系数

多变量回归

形如:

F检验

对多变量提出以下假设:


F-检验可以检测哪种假设为真

F-statistic计算为:

如果为成立,

相反如果成立,

即F检验的数据会接近;相反, 如果成立,F值会大于

当 较大时, F-statistic稍大于就很可能拒绝. 如果比较小, 则需要较大的F值才行。

定性预测

通过编码

获得模型
\normalsize y_{i} = \beta_{0} + \beta_{1}X_{1} + \epsilon_{i} = \left\{ \begin{array}{cc} \beta_{0} + \beta_{1} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ A}\\ \beta_{0} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ B} \end{array} \right.
或者编码

获得模型
\normalsize y_{i} = \beta_{0} + \beta_{1}X_{1} + \epsilon_{i} = \left\{ \begin{array}{cc} \beta_{0} + \beta_{1} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ A}\\ \beta_{0} - \beta_{1}+ \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ B} \end{array} \right.

对于三变量的话:

\normalsize y_{i} = \beta_{0} + \beta_{1}X_{1} + \beta_{2}X_{2} + \epsilon_{i} = \left\{ \begin{array}{cc} \beta_{0} + \beta_{1} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ A}\\ \beta_{0} + \beta_{2} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ B}\\ \beta_{0} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ C} \end{array} \right. .

变量互作,非线性关系

形如

变量没有互作时:

加上互作后变为:

等价于:
\normalsize y_{i} = \left\{ \begin{array}{cc} (\beta_{0} + \beta_{2}) + (\beta_{1} + \beta_{3})X_{1}&\mathrm{if\ p_{i}\ =\ class\ A}\\ \beta_{0} + \beta_{1}X_{1}&\mathrm{if\ p_{i}\ \ne\ class\ A} \end{array} \right.

线性回归常见问题

  1. 非线性关系


    非线性关系

    左图为线性拟合的结果,右图加上了平方变量,显然右图更加符合标准

  2. 误差相关性(时间序列模型)


    误差相关性

    一图误差随机分布,二图则具有了一定的关联,在相近的地方,取值具有趋同性,这样误差皆为正或者负值,三图具有明显的时间序列模型的模式。

  3. 误差不为常量


    误差逐渐增大
  4. 离群值


    离群值
  1. 高杠杆率值


    高杠杆率值
  2. 共线性


    共线性

    共线性带来的数据预测区域过窄,如右图

你可能感兴趣的:(线性回归)