精通机器学习:基于R(二)

第二章 线性回归:机器学习基础技术

2.1单变量回归

线性回归必须通过假设检验,总结如下:

1)线性:预测变量与响应变量之间的关系是线性的。如果不是线性的要进行数据转换(对数转换、多项式转换、指数转换等)。

2)误差不相关:在时间序列和面板数据中,En=BETAn-1是一个常见的问题。

3)同方差性:误差是正态分布的,并具有相同的方差。即对于不同的输入值,误差的方差是一个固定值。

4)非共线性:两个预测变量之间不存在线性关系。即特征之间不存在相关性。

5)存在异常值:异常值会严重影响参数估计。理想情况下,必须在使用线性回归拟合模型之前就除去异常值。

2.2多变量线性回归

2.2.1业务理解

2.2.2数据理解和数据准备

2.2.3模型构建和模型评价

特征选择这里介绍最优子集回归和逐步回归方法。

前向逐步选择从一个零特征模型开始,然后每次添加一个特征,直到所有特征添加完毕。在这个过程中,被添加的选定特征建立的模型具有最小的RSS。所以理论上,第一个选定的特征应该能最好解释响应变量,依此类推。

后向逐步回归从一个包含所有特征的模型开始,每次删除一个起最小作用的特征。

最优子集回归是逐步回归一个可接受的替代方案。该算法使用所有可能的特征组合来拟合模型,所以如果有三个特征,将生成七个模型。然后和逐步回归一样,分析者需要应用自己的判断和统计分析来选择最优的模型。当特征数目非常多时,工作量非常大。

4种用于特征选择的统计方法:赤池信息量准则,马洛斯的Cp,贝叶斯信息量准则和修正R方。目标都是建立一个尽可能简约的模型,即对模型复杂度进行“惩罚”。

为了研究共线性问题,引入方差膨胀因子(VIF)。VIF是一个比率,分子为使用全部特征拟合模型时该特征的系数的方差,分母为仅使用该特征拟合模型时这个特征的系数的方差。VIF最小值是1,大于5一般认为是存在严重的共线性。

交叉验证

留一法交叉验证(LOOCV):检测预测误差平方和。

2.3线性模型中的其他问题

2.3.1定性特征

如果我们有一个具有两个水平的特征,比如性别,可以建立一个指标,或称“虚拟特征”。任意地将一个水平设为1,另一个水平设为0。如果特征的水平多于两个,可以建立n-1个指标。

2.3.2交互项

 

你可能感兴趣的:(机器学习,R)