文献阅读+L1正则和L2正则+softmaxL1正则

导入:

一般有两种,一般英文称作1-norm2-norm,中文称作L1正则化L2正则化,或者L1范数L2范数

对于线性回归模型,使用L1正则化的模型建叫做Lasso回归,使用L2正则化的模型叫做Ridge回归(岭回归)。

两者的比较:

正则化 L1正则 L2正则
形式不同:    
前面是否有系数 有系数 有系数

一、解决什么问题?(作用?应用场景?)

通常机器学习中特征数量很多,例如文本处理时,如果将一个词组(term)作为一个特征,那么特征数量会达到上万个(bigram)。在预测或分类时,那么多特征显然难以选择,但是如果代入这些特征得到的模型是一个稀疏模型,表示只有少数特征对这个模型有贡献,绝大部分特征是没有贡献的,或者贡献微小(因为它们前面的系数是0或者是很小的值,即使去掉对模型也没有什么影响),此时我们就可以只关注系数是非零值的特征。

稀疏矩阵指的是很多元素为0,只有少数元素是非零值的矩阵,即得到的线性回归模型的大部分系数都是0. 

稀疏矩阵和特征选择的关系:当特征特别多的时候,由特征构成的矩阵就非常的大。但是,实际情况是,只有部分特征对模型有影响,大部分的特征对模型没有影响,此时就可将这些没有影响,或者影响非常小的特征的值设为0.那么整个特征矩阵就是一个非常稀疏的矩阵了。

  • L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择
  • L2正则化可以防止模型过拟合(overfitting);一定程度上,L1也可以防止过拟合

二、为什么要使用L0范数、L1正则、L2正则和softmax L1正则?

三、L0范数

L0范数表示向量中非零元素的个数:
||x||0=#(i) with  xi0

          也就是如果我们使用L0范数,即希望w的大部分元素都是0. (w是稀疏的)所以可以用于ML中做稀疏编码,特征选择。通过最小化L0范数,来寻找最少最优的稀疏特征项。但不幸的是,L0范数的最优化问题是一个NP hard问题,而且理论上有证明,L1范数是L0范数的最优凸近似,因此通常使用L1范数来代替。

四、L1正则

L1正则化是指权值向量w中各个元素的绝对值之和,通常表示为||w||1

L1范数表示向量中每个元素绝对值的和:
||x||1=ni=1|xi|

L1范数的解通常是稀疏性的,倾向于选择数目较少的一些非常大的值或者数目较多的insignificant的小值。

L1正则怎么实现特征选择的?

文献阅读+L1正则和L2正则+softmaxL1正则_第1张图片

文献阅读+L1正则和L2正则+softmaxL1正则_第2张图片

文献阅读+L1正则和L2正则+softmaxL1正则_第3张图片

系数和特征选择中的矩形的关系?


关于α系数的问题:α越大,对原始模型中特征系数的惩罚作用(降低过拟合作用)越明显,黑色方框越小,此时才会使得最优解中的非零值越小,也就是起到了很好的惩罚作用;相反α越小,惩罚作用越不明显,黑色方框越大,最优解越大。其他方面具体大小根据具体需要分析。

通常,系数alfa越大,代价函数在参数为0时取到最小值。

四、L2正则

L2正则化是指权值向量w中各个元素的平方和然后再求平方根(可以看到Ridge回归的L2正则化项有平方符号)。

L2范数即欧氏距离:
||x||2=ni=1x2i

L2范数越小,可以使得w的每个元素都很小,接近于0,但L1范数不同的是他不会让它等于0而是接近于0.


L2正则化为什么不能实现稀疏化?


文献阅读+L1正则和L2正则+softmaxL1正则_第4张图片


L2正则化和过拟合之间的关系?

       拟合过程中通常都倾向于让权值尽可能小,最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单,能适应不同的数据集,也在一定程度上避免了过拟合现象。可以设想一下对于一个线性回归方程,若参数很大,那么只要数据偏移一点点,就会对结果造成很大的影响;但如果参数足够小,数据偏移得多一点也不会对结果造成什么影响,专业一点的说法是『抗扰动能力强』。?

那为什么L2正则化可以获得值很小的参数?

文献阅读+L1正则和L2正则+softmaxL1正则_第5张图片

六、L1、L2区别和联系?

文献阅读+L1正则和L2正则+softmaxL1正则_第6张图片

文献阅读+L1正则和L2正则+softmaxL1正则_第7张图片
但由于L1范数并没有平滑的函数表示,起初L1最优化问题解决起来非常困难,但随着计算机技术的到来,利用很多凸优化算法使得L1最优化成为可能。

七、从贝叶斯角度理解L1和L2?

贝叶斯先验

从贝叶斯先验的角度看,加入正则项相当于加入了一种先验。即当训练一个模型时,仅依靠当前的训练数据集是不够的,为了实现更好的泛化能力,往往需要加入先验项。

  • L1范数相当于加入了一个Laplacean先验;
  • L2范数相当于加入了一个Gaussian先验。
    如下图所示:
    文献阅读+L1正则和L2正则+softmaxL1正则_第8张图片

你可能感兴趣的:(目标检测)