Regularization term简述

因在做文本分类,最近重新研究了下Regularization term也就是规则项(正则项)的一些应用,与在实际工业相关的结合,搞了篇综述,方便以后回顾一下。

机器学习中,认为有监督的机器学习简单来说就是在规则化参数的同时,使得误差最小化。其中规则化参数目的为了防止模型过拟合,而最小化误差的目的在于让模型拟合成我们需要的训练数据。

然而在真实数据中,当参数更多时,模型复杂度增高,数据变容易出现过拟合的情况。过拟合很简单的解释就是训练样本的误差很小,而测试样本误差较大。因此我们训练模型的目的是保证模型“简单”基础上最小化误差,使得模型具有良好的泛化能力,而使得模型变得简单,就是通过规则化实现的。

以模型一般化为例:

其中为了衡量预测输出与真实输出之间的误差,我们拟合函数要求loss function项最少,而后半部分为了防止过拟合,并且使得模型更为简单。

前半部分loss function一般来说当为square loss时采用最小二乘法求解,当为Hinge loss时可看做svm模型,当为exp-loss时可以当做boosting模型,当为log-loss时可当做logistic模型。

规则项的作用可以简单整理成两大方面:

1,同上文叙述为了使得模型变得简单,

2,约束模型的特征,将人的先验知识融入的模型中,强行让模型具有一系列功能,比如洗属性,平滑,变量选择一致性等等等。

规则化符合奥卡姆剃刀原理,也与loss function加入规则化的初衷相似。


规则项的选择

规则化函数的选择一般为模型复杂的单调递增函数,模型越复杂,规则化的值就越大,比如规则化可以是模型参数向量的范数,一般对于参数“w”的约束不同,效果也不同。

采用模型参数向量的范数最直接反映了规则项的两大作用:简单,使其具有性质。

一般来说,规则项的选择聚集在零范数,一范数,二范数等等,一般paper采用了很多以L1,L2范数作为基准的研究(也就是一范数,二范数),在工业上L1,L2的应用也十分普遍,在硕士研究期间参与到新的规则项L1/2的研究中,L1/2在生物信息相关数据同样证明的自己独特的效果。

在读paper期间一直认为关于正则项的效果分类应该是在L0-L2期间,效果逐渐递减,也就是逼近L0时效果应该最好,其中为作为就基础的也就是L1,L2模型。后来一些E-Net,MCP,SCAD,Adaptive lasso等等方法都是基于L1,L2模型的改进,这些改进方法也一直很多学者在研究。


L1范数

先提L0范数,意思就是指向量中的非0的元素的个数,如果我们用L0范数规则化一个参数矩阵,我们是希望w的大部分元素都为0,也就是使其具有稀疏性。L1范数是指向量中的各个元素绝对值之和。

然后目前在大部分paper中,稀疏矩阵大量情况下都是通过L1规则化来实现。不采用L0的最主要原因就是L0规则化算子难以求得最优化求解,而L1范数是L0范数的最优凸近似,而且比L0更加容易求解。

L1方法的优点:
1)特征选择:
   一般来说,输入的大部分元素特征都是和最终输出Y时没有关系或者不提供任何信息的,在最小化目标函数的时候考虑输入的一些额外特征(全部特征),虽然可以获得更好的训练误差,但是在预测新样本时,这些没用的信息反而会被考虑,从而干扰了对正确输出的预测,稀疏规则化会去掉这些没有信息的特征,也就是把这些特征对应的权重置为0。

2)可解释性:
   也就是对于特征提取方面,以之前的研究为例,从10000个基因数据中(特征),选出500个特征,即认为这500个特征对于某些基因问题的重要性远大于其它基因特征。


L2范数:

L2范数是指向量个元素的平方和然后平方根,让L2范数的规则项最小,可以使得w的每个元素都很小,很接近于0但是与L1范数不同,它不会让它等于0而是接近与0,而越小的参数说明模型越简单。

L2范数优点:

1)从理论
L2可以防止过拟合,提升模型的泛化能力

2)从算法角度


L1/2规则项

研究生期间一直做这个研究,顾名思义模型与L1、L2类同。至于为什么在L0-L1之间选择L1/2作为代表,根据文献理论, L1/2规则项具有无偏性、稀疏性及Oracle等优良理论性质。给出一种重赋权迭代算法,将求解L_(1/2)正则子转化为一系列 L_1正则化子迭代求解。与经典的L0正则子相比,L1/2正则子更容易求解,而与当今流行的L1正则子相比,L1/2正则子产生更稀疏的解。

对于在生物方面的相关应用已经有多篇文章证明L1/2在实际中的应用可行,相比于之前的理论大大提升。应用的例子:

Application of L1/2 regularization logistic method in heart disease diagnosis. Bio-Medical Materials and Engineering, 24: 3447-3454, 2014.

L1/2的有点与L1类似,特别是在特征选择能力方面更强。


在实际工业化文本应用中,现实数据并没有实验数据的准确性,在“BOW模型+分类”的前提下,多次试验也无法证明变量选择能力强的归则化算子预测结果好,稳定性更强。更稀疏的解在“输入数据并不完美”的情况下,显示预测的准确率反而降低,数据清洗同样是重要研究课题。

你可能感兴趣的:(Regularization term简述)