L1,L2正则化

线性:两个变量之间的关系是一次函数关系的——图象是直线,叫做线性。
非线性:两个变量之间的关系不是一次函数关系的——图象不是直线,叫做非线性。

linear regression model 容易出现过拟合或者欠拟合的问题,解决方式是加正则化项:

  • L0范数指向量中非零元素的个数
  • L1范数:向量中每个元素绝对值的和
  • L2范数:向量元素绝对值的平方和再开平方

使用正则化项,也就是给loss function加上一个参数项,正则化项有L1正则化、L2正则化、ElasticNet。加入这个正则化项好处:

  • 控制参数幅度,不让模型“无法无天”。
  • 限制参数搜索空间
  • 解决欠拟合与过拟合的问题。

只要数据线性相关,用LinearRegression拟合的不是很好,需要正则化,可以考虑使用岭回归(L2),
如何输入特征的维度很高,而且是稀疏线性关系的话, 岭回归就不太合适,考虑使用Lasso回归(L1)。

有篇具体讲L1 和 L2正则化的文章不错

note:在用线性回归模型拟合数据之前,首先要求数据应符合或近似符合正态分布,否则得到的拟合函数不正确。

你可能感兴趣的:(机器学习)