[转]你应该掌握的七种回归技术

原文链接:http://www.analyticsvidhya.com/blog/2015/08/comprehensive-guide-regression/
翻译链接:http://www.csdn.net/article/2015-08-19/2825492

一共有以下七种:
1. Linear Regression线性回归
2. Logistic Regression逻辑回归
3. Polynomial Regression多项式回归
4. Stepwise Regression逐步回归
5. Ridge Regression岭回归
6. Lasso Regression套索回归
7. ElasticNet回归

Stepwise Regression逐步回归

  • 感觉就是用各种指标,来逐个判断加入各个变量后的提升程度,超过阈值、最大的,就不断把变量添加进来;或者反过来,逐步把变量剔除掉
  • 然而感觉有点问题,比如RF这种,会多次抽样的,随机啊,没有办法的啊
  • sample:

Ridge Regression岭回归

  • 多重共线性(自变量高度相关)数据,就是各个变量相关,这时候,用最小二乘法就不太靠谱(有个前提条件是特定的行列式 |X’X| 不为零才适用)。这时,会可能是“病态矩阵”,即数据小的变动,会造成各项的参数的极大变化
  • 所以进行修正,“在自变量信息矩阵的主对角线元素上人为地加入一个非负因子,从而使回归系数的估计稍有偏差、而估计的稳定性却可能明显提高的一种回归分析方法,它是最小二乘法的一种补充,岭回归可以修复病态矩阵,达到较好的效果”
  • 为什么叫岭回归,就是上面的“非负因子”K,设置不同大小时,会导致函数效果的“岭迹”不同,根据图形来选择合适的K。在这篇文档里 http://www.analyticsvidhya.com/blog/2015/08/comprehensive-guide-regression/ 有详细的说明
    [转]你应该掌握的七种回归技术_第1张图片
  • 公式如下:
    [转]你应该掌握的七种回归技术_第2张图片

Lasso Regression套索回归

  • 这篇文档 http://wenku.baidu.com/link?url=Syah46q7ak6xp0BnQegyatdi9BIizpqmoZ8wDZsPmbhoS5PBS_0dXF-ogpOQtnQQb-uIKHgo1FzYem__6zVNOQGoOcA7euGlrBNzOum1HAO 有对比:
  • “为了提高最小二乘估计的两个技术标准,子集选择法和岭回归都有缺陷。子集选择法可以得出一个可以解释的模型,但是给出的模型过于多变,而回归过程本身是离散的——因变量既不能被保留,也不能从模型中剔除。数据中的小变动会影响由子集选择法得出的不同模型而且还会降低模型的预测精度。岭回归是一个连续的过程,由于其不断收缩系数,因此较平稳。然而,他并没有将任何系数收缩为0,因而这个方法不能给出一个简单的可解释的模型。在此,我们提出一个新的方法,成为LASSO,就是“绝对收缩和选择算子”。它使一些系数收缩并将其他的设为0,因此就是说它尝试保留了子集选择法和岭回归的好的性质。”
  • 公式如下:
    这里写图片描述
  • 跟上面的Ridge比较,“它使用的惩罚函数是绝对值,而不是平方。这导致惩罚(或等于约束估计的绝对值之和)值使一些参数估计结果等于零。使用惩罚值越大,进一步估计会使得缩小值趋近于零。这将导致我们要从给定的n个变量中选择变量。”然而并未很明白为何绝对值就能收缩┑( ̄Д  ̄)┍
  • 另一类文档里写的是:
    [转]你应该掌握的七种回归技术_第3张图片
    这里的理解就是,参数加起来要小于一个定值,所以会起到收缩的效果

ElasticNet回归

  • 看公式:
    这里写图片描述
  • 嗯,就是上面Ridge和Lasso两个的合成嘛,把两个都加进来的,摔
  • “ElasticNet是Lasso和Ridge回归技术的混合体。它使用L1来训练并且L2优先作为正则化矩阵。当有多个相关的特征时,ElasticNet是很有用的。Lasso 会随机挑选他们其中的一个,而ElasticNet则会选择两个。”

你可能感兴趣的:(┾算法┾)