机器学习常见回归方法汇总

1.线性回归(Linear Regression)
    通过最佳的拟合直线,建立因变量与一个或多个自变量间的关系
    表达式为:Y = a + b * X,a为直线截距,b为直线斜率。如果给出了自变量X,就能通过这个线性回归表达式算出预测值,即因变量Y。
    因变量是连续的,自变量可以是连续的也可以是离散的,回归的本质是线性的。一元线性回归和多元线性回归的区别是多元线性回归变量大于1,而一元线性回归只有1个自变量。
    线性回归通常使用最小二乘法拟合最佳拟合直线,因为计算的是误差平法昂和,所以,误差正负值之间没有相互抵消。
    要求自变量和因变量之间必须满足线性关系。
    多元回归存在多重共线性,自相关性和异方差性
    线性回归对异常值非常敏感,异常值会严重影响回归线和最终的预测值
    多重共线性会增加系数估计的方差,并且使得估计对模型中的微小变化非常敏感。
    在多个自变量的情况下,可以采用正向选择,向后消除和逐步选择的方法来选择最重要的自变量。

2.逻辑回归(Logistic regression):

    逻辑回归广泛用于分类问题,当因变量是二分类(0/1,True/False,Yes/No)时,应使用逻辑回归。
    因变量Y的取值范围为[0, 1],可以用公式表示Y = b0 + b1 * x1 + b2 * x2.......+bk * x* = ln(p / (1 - p)) = logit(p)
    其中p是事件发生的概率,因为因变量使用的是二项分布,所以需要一个合适的激活函数能够将输出映射到[0, 1]之间,logit函数满足要求。
    逻辑回归使用最大似然估计来得到最佳的参数,而不是线性回归最小化平方误差的方法。
    逻辑回归不要求因变量和自变量之间是线性关系,它可以处理多类型关系,因为它对预测输出进行了非线性log变换
    为了避免过拟合和欠拟合,使用时应该涵盖所有有用的变量,实际中确保这种情况的一个好的做法是用逐步筛选的方法来估计逻辑回归
    训练样本数量越大越好,如果样本数量太少,最大似然估计的效果就会比最小二乘法差。
    自变量不应该存在多重共线性
    如果因变量的值是序数,则称为序数逻辑回归
    如果因变量是多类别的,则成为多元逻辑回归

3.多项式回归(Polynomial Regression)
    如果自变量的指数大于1,则它就是多项式回归方程,如y = a + b * x ^ 2
    在多项式回归中,最佳的拟合线不是直线,而是拟合数据点的曲线
    更高阶的多项式可以减少误差,但是容易发生过拟合

4.逐步回归(Stepwise Regression)
    逐步回归用于处理多个独立变量
    逐步回归的做法是观察统计值,如R-square,t-stats,AIC指标来辨别重要的变量,基于特定的标准,通过增加/删除协变量来逐步拟合回归模型
    标准的逐步回归做两件事,每一步中增加或移除自变量
    前向选择从模型中最重要的自变量开始,然后每一步增加变量
    反向消除从模型所有的自变量开始,然后每一步中删除最小显著变量
    这种建模技术的目的是通过使用最少的自变量在得到最大的预测能力。它也是处理高维数据集的方法之一

5.岭回归(Ridge Regression)
    岭回归是当数据遭受多重共线性时使用的一种技术。在多重共线性中,即使最小二乘法(OLS)是无偏差的,但是方差很大,使得观察值远离真实值。岭回归通过给回归估计中增加额外的偏差度,能够有效减少方差。
    线性回归的方程为Y = a + b * x,岭回归有一个误差项,可表示为Y = a + b * x +e
    除了不假定正态性,岭回归与最小二乘法的所有假设是一样的
    这是一个正则化方法, 使用了L2正则化

6.套索回归(Lasso Regression)
    类似于岭回归,套索回归惩罚是回归系数的绝对值,此外它能够减少变异性和提高线性回归模型的准确性
    套索回归不同于岭回归,惩罚函数它使用的是系数的绝对值之和,而不是平方。使得一些回归系数估计恰好为0,施加的惩罚越大,估计就越接近0
    除了不假定正态性,套索回归与最小二乘法的所有假设是一样的
    套索回归将系数收缩到0,有助于特征选择
    这是一个正则化方法,使用了L1正则化
    如果一组自变量高度相关,那么套索回归指挥选择其中一个,而将其余的缩小为0

你可能感兴趣的:(机器学习常见回归方法汇总)