L1 L2正则化解读

    在机器学习算法中,如果我们要寻找一个模型去尽量拟合所以训练数据,使误差最小,那么对于新的数据很可能就会出现预测准确率不高,也就是说模型的泛化能力较差,尤其在回归分类算法,比如线性回归,逻辑回归,神经网络等,由于模型尽量去拟合训练数据,对训练数据得拟合程度很高,但模型是用来做预测的,对新数据的预测能力才是评估一个模型的标准。比如两个模型 M1: 0.1x1+0.2w2+0.3w3=y M2: 10000x1+20000x2+30000x3=y ,假如新的数据中x1存在误差10,M1模型产生的累加误差为1,M2模型产生的误差为100000,显然模型M1的泛化能力更强。

   机器学习中在损失函数中添加额外的一项,以达到制约各个参数的目的,这就是我们通常说的L1,L2正则化,多元线性回归中的损失函数添加各个系数平方和称为Ridge Regression:


添加绝对值和称为Lasso Regression:

两项都添加称为elastic net:

其中系数的大小决定对正则化项的看重程度,越大模型的泛化能力越强,但是准确率会有所下降。

L1正则化可以产生稀疏权值矩阵,可以用于特征选择:

L1 L2正则化解读_第1张图片

椭圆部分为误差损失等高线,矩形为L1正则化图形,图中越往外等值线的损失值越大,w参数值越小,交点处w1或w2为0达到了特征选择的目的。

L2可以防止过拟合,L1在一定程度上也可以达到防止过拟合的作用。

L1 L2正则化解读_第2张图片

越往外误差损失越大,w值越小。但是不像L1正则化中w值为0的情况。



你可能感兴趣的:(L1 L2正则化解读)