http://blog.csdn.net/pipisorry/article/details/52108040
机器学习和深度学习常用的规则化方法之一:L范数正则化(规格化)。
一般来说,监督学习可以看做最小化下面的目标函数):
θ∗=argminθ1N∑i=1NL(yi,f(xi;θ))+λ Φ(θ)
loss项可参考[机器学习算法及其损失函数 ]。Note:似然函数(likelihood function)的负对数被叫做误差函数(error function)。
这里我们先把目光转向“规则项Ω(w)”。规则化函数Ω(w)也有很多种选择,一般是模型复杂度的单调递增函数,模型越复杂,规则化值就越大。比如,规则化项可以是模型参数向量的范数。然而,不同的选择对参数w的约束不同,取得的效果也不同,但我们在论文中常见的都聚集在:零范数、一范数、二范数、迹范数、Frobenius范数和核范数等等[矩阵论:向量范数和矩阵范数]。
这么多范数,到底它们表达啥意思?具有啥能力?什么时候才能用?什么时候需要用呢?
某小皮
L0范数是指向量中非0的元素的个数。如果我们用L0范数来规则化一个参数矩阵W的话,就是希望W的大部分元素都是0。换句话说,让参数W是稀疏的。看到了“稀疏”二字,大家都应该从“压缩感知”和“稀疏编码”中醒悟过来,原来用的“稀疏”就是通过它来实现的。可是看到的papers世界中,稀疏不是都通过L1范数||W||1来实现吗?这里把L0和L1放在一起的原因,因为他们有着某种不寻常的关系。
L1范数是指向量中各个元素绝对值之和,也有个美称叫“稀疏规则算子”(Lasso regularization)。
为什么L1范数会使权值稀疏?
1 有人可能会这样回答“它是L0范数的最优凸近似”。
2 实际上,还存在一个更美的回答:任何的规则化算子,如果他在Wi=0的地方不可微,并且可以分解为一个“求和”的形式,那么这个规则化算子就可以实现稀疏。这说是这么说,W的L1范数是绝对值,|w|在w=0处是不可微,但这还是不够直观,这里因为我们需要和L2范数进行对比分析,所以关于L1范数的直观理解,请待会看看第二节。
3 权值稀疏的推导
正则化的目标函数如下所示
相比 L2正则化, L1正则化会产生更 稀疏(sparse)的解。此处稀疏性指的是 最优值中的一些参数为 0。和 L2正则化相比, L1正则化的稀疏性具有本质的不同。由L1正则化导出的稀疏性质已经被广泛地用于特征选择机制。特征选择从可用的特征子集选择出有意义的特征,化简机器学习问题。
[深度学习]
个人理解,一是因为L0范数很难优化求解(NP难问题),二是L1范数是L0范数的最优凸近似,而且它比L0范数要容易优化求解。
1)特征选择(Feature Selection):
稀疏规则化关键原因在于它能实现特征的自动选择。一般来说,xi的大部分元素(特征)都是和最终的输出yi没有关系或者不提供任何信息的,在最小化目标函数的时候考虑xi这些额外的特征,虽然可以获得更小的训练误差,但在预测新的样本时,这些没用的信息反而会被考虑,从而干扰了对正确yi的预测。稀疏规则化算子的引入就是为了完成特征自动选择的使命,它会学习去掉这些没有信息的特征,把这些特征对应的权重置为0。
2)可解释性(Interpretability):
另一个好处是参数变少可以使整个模型获得更好的可解释性。
例如患某种病的概率是y,然后我们收集到的数据x是1000维的,也就是我们需要寻找这1000种因素到底是怎么影响患上这种病的概率的。假设我们这个是个回归模型:y=w1*x1+w2*x2+…+w1000*x1000+b(当然了,为了让y限定在[0,1]的范围,一般还得加个Logistic函数)。通过学习,如果最后学习到的w*就只有很少的非零元素,例如只有5个非零的wi,那么我们就有理由相信,这些对应的特征在患病分析上面提供的信息是巨大的,决策性的。也就是说,患不患这种病只和这5个因素有关,那医生就好分析多了。但如果1000个wi都非0,医生面对这1000种因素,累觉不爱。
L2范数在回归里面,它的回归叫“岭回归”(Ridge Regression),也叫它“权值衰减weight decay”。
向目标函数添加一个正则项使权重更加接近原点。更一般地,我们可以将参数正则化为接近空间中的任意特定点,令人惊讶的是这样也仍有正则化效果,但是特定点越接近真实值结果越好。当我们不知道正确的值应该是正还是负时,零是有意义的默认值。
模型具有以下总的目标函数
与之对应的梯度为
使用单步梯度下降更新权重,即执行以下更新:
换种写法就是:
\
只有在显著减小目标函数方向上的参数会保留得相对完好。在无助于目标函数减小的方向(对应~Hessian~矩阵较小的特征值)上改变参数不会显著增加梯度。这种不重要方向对应的分量会在训练过程中因正则化而衰减掉。
权重衰减的效果是沿着由 H 的特征向量所定义的轴缩放w∗。
单个步骤发生的变化:在每步执行通常的梯度更新之前先收缩权重向量(将权重向量乘以一个常数因子)。
训练的整个过程发生的变化
研究线性回归。线性回归的代价函数是平方误差之和。
[深度学习]
1)学习理论的角度:
从学习理论的角度来说,L2范数可以防止过拟合,提升模型的泛化能力。[Machine Learning - VII. Regularization规格化 (Week 3) ]
2)优化计算的角度:
从优化或者数值计算的角度来说,L2范数有助于处理条件数 condition number不好的情况下矩阵求逆很困难的问题(解释看下面)。[数值分析:矩阵求逆]
为什么越小的参数说明模型越简单?奥卡姆剃刀(Occam's razor)原理?
限制了参数很小,实际上就限制了多项式某些分量的影响很小。
所以为什么参数越小,说明模型越简单呢?这是因为越复杂的模型,越是会尝试对所有的样本进行拟合,甚至包括一些异常样本点,这就容易造成在较小的区间里预测值产生较大的波动,这种较大的波动也反映了在这个区间里的导数很大,而只有较大的参数值才能产生较大的导数。因此复杂的模型,其参数值会比较大。
拟合函数求导后,不同feature的求导后参数就对应着这个feature的波动大小,而在此feature上只有取值变化剧烈才会有很大的波动,所以就会产生过拟合。
一句话总结下:通过L2范数,我们可以实现了对模型空间的限制,从而在一定程度上避免了过拟合。
因为目标函数如果是二次的,对于线性回归来说,那实际上是有解析解的,求导并令导数等于零即可得到最优解为:
然而,如果当我们的样本X的数目比每个样本的维度还要小的时候(欠定方程),矩阵X'X将会不是满秩的( rank(X'X) = rank(X) ≤ min(m,n) = m,X'X是n*n矩阵,秩<=m
但如果加上L2规则项,就变成了下面这种情况,就可以直接求逆了:
这里面,专业点的描述是:要得到这个解,我们通常并不直接求矩阵的逆,而是通过解线性方程组的方式(例如高斯消元法)来计算。考虑没有规则项的时候,也就是λ=0的情况,如果矩阵X'X的 condition number 很大的话,解线性方程组就会在数值上相当不稳定,而这个规则项的引入则可以改善condition number。
[Machine Learning - IV. Linear Regression with Multiple Variables多变量线性规划 (Week 2) ]
另外,如果使用迭代优化的算法,condition number 太大仍然会导致问题:它会拖慢迭代的收敛速度,而规则项从优化的角度来看,实际上是将目标函数变成λ-strongly convex(λ强凸)的了。
当f满足:
时,我们称f为λ-stronglyconvex函数,其中参数λ>0。当λ=0时退回到普通convex 函数的定义。
在直观的说明强凸之前,我们先看看普通的凸是怎样的。假设我们让f在x的地方做一阶泰勒近似(一阶泰勒展开忘了吗?f(x)=f(a)+f'(a)(x-a)+o(||x-a||).):
直观来讲,convex 性质是指函数曲线位于该点处的切线,也就是线性近似之上,而 strongly convex 则进一步要求位于该处的一个二次函数上方,也就是说要求函数不要太“平坦”而是可以保证有一定的“向上弯曲”的趋势。专业点说,就是convex 可以保证函数在任意一点都处于它的一阶泰勒函数之上,而strongly convex可以保证函数在任意一点都存在一个非常漂亮的二次下界quadratic lower bound。当然这是一个很强的假设,但是同时也是非常重要的假设。可能还不好理解,那我们画个图来形象的理解下。
如果我们的函数f(w)如左图红色那个函数,我们取我们的最优解w*的地方都会位于蓝色虚线的那根二次函数之上,这样就算wt和w*离的比较近的时候,f(wt)和f(w*)的值差别还是挺大的,也就是会保证在我们的最优解w*附近的时候,还存在较大的梯度值,这样我们才可以在比较少的迭代次数内达到w*。但对于右图,红色的函数f(w)只约束在一个线性的蓝色虚线之上,假设是如右图的很不幸的情况(非常平坦),那在wt还离我们的最优点w*很远的时候,我们的近似梯度(f(wt)-f(w*))/(wt-w*)就已经非常小了,在wt处的近似梯度∂f/∂w就更小了,这样通过梯度下降wt+1=wt-α*(∂f/∂w),我们得到的结果就是w的变化非常缓慢,像蜗牛一样,非常缓慢的向我们的最优点w*爬动,那在有限的迭代时间内,它离我们的最优点还是很远。
所以仅仅靠convex 性质并不能保证在梯度下降和有限的迭代次数的情况下得到的点w会是一个比较好的全局最小点w*的近似点(插个话,有地方说,实际上让迭代在接近最优的地方停止,也是一种规则化或者提高泛化性能的方法)。正如上面分析的那样,如果f(w)在全局最小点w*周围是非常平坦的情况的话,我们有可能会找到一个很远的点。但如果我们有“强凸”的话,就能对情况做一些控制,我们就可以得到一个更好的近似解。至于有多好,这里面有一个bound,这个 bound 的好坏也要取决于strongly convex性质中的常数α的大小。
最简单的就是往里面加入一项(α/2)*||w||2。这里的alpha就是上式中的lambda???
实际上,在梯度下降中,目标函数收敛速率的上界实际上是和矩阵XTX的 condition number有关,XTX的 condition number 越小,上界就越小,也就是收敛速度会越快。
一句话总结:L2范数不但可以防止过拟合,还可以让我们的优化求解变得稳定和快速。
为什么一个让绝对值最小,一个让平方最小,会有那么大的差别呢?有两种几何上直观的解析:
我们知道,L1和L2都是规则化的方式,我们将权值参数以L1或者L2的方式放到代价函数里面去。然后模型就会尝试去最小化这些权值参数。个人理解:这个最小化就像一个下坡的过程,L1和L2的差别就在于这个“坡”不同,如下图:L1就是按绝对值函数的“坡”下降的,而L2是按二次函数的“坡”下降。所以实际上在0附近,L1的下降速度比L2的下降速度要快。所以会非常快得降到0。
实际上,对于L1和L2规则化的代价函数来说,我们可以写成以下形式:
也就是说,我们将模型空间限制在w的一个L1-ball 中。为了便于可视化,我们考虑两维的情况,在(w1, w2)平面上可以画出目标函数的等高线,而约束条件则成为平面上半径为C的一个 norm ball 。等高线与 norm ball 首次相交的地方就是最优解:
彩色线就是优化过程中遇到的等高线,一圈代表一个目标函数值,圆心就是样本观测值(假设一个样本),半径就是误差值,受限条件就是黑色边界(就是正则化那部分),二者相交处,才是最优参数。
可以看到,L1-ball 与L2-ball 的不同就在于L1在和每个坐标轴相交的地方都有“角”出现,而目标函数的测地线除非位置摆得非常好,大部分时候都会在角的地方相交。注意到在角的位置就会产生稀疏性,例如图中的相交点就有w1=0,而更高维的时候(想象一下三维的L1-ball 是什么样的?)除了角点以外,还有很多边的轮廓也是既有很大的概率成为第一次相交的地方,又会产生稀疏性。
相比之下,L2-ball 就没有这样的性质,因为没有角,所以第一次相交的地方出现在具有稀疏性的位置的概率就变得非常小了。这就从直观上来解释了为什么L1-regularization 能产生稀疏性,而L2-regularization 不行的原因了。
Note: 不少人会用“模型复杂度”替代上面的“模型空间”。但“模型复杂度”往往容易给人一个误解,认为是一个模型本身长得复杂。例如5次多项式就要比2次多项式复杂,这是错的。因此我更愿意用“模型空间”,强调“复杂度”是候选模型的“数量”,而不是模型本事的“长相”。
2范最优值不在坐标轴上,不稀疏
1范可能多个值,没有解,两线之间的所有梯度集合,图像都在线上面。使用次梯度subgradient解决?
[PRML前三章]
[大数据分析中的优化算法选讲 刘歆 (AMSS, CAS)]
一句话总结就是:L1会趋向于产生少量的特征,而其他的特征都是0,而L2会选择更多的特征,这些特征都会接近于0。Lasso在特征选择时候非常有用,而Ridge就只是一种规则化而已。
regularize这个词更多的意思是“使系统化”,“使体系化”,也就是说不要走极端。
监督机器学习问题无非就是“minimize your error while regularizing your parameters”,也就是在规则化参数的同时最小化误差。最小化误差是为了让我们的模型拟合我们的训练数据,而规则化参数是防止我们的模型过分拟合我们的训练数据。
因为参数太多,会导致我们的模型复杂度上升,容易过拟合,也就是我们的训练误差会很小。但训练误差小并不是我们的最终目标,我们的目标是希望模型的测试误差小,也就是能准确的预测新的样本。所以,我们需要保证模型“简单”的基础上最小化训练误差,这样得到的参数才具有好的泛化性能(也就是测试误差也小),而模型“简单”就是通过规则函数来实现的。另外,规则项的使用还可以约束我们的模型的特性,这样就可以将人对这个模型的先验知识融入到模型的学习当中,强行地让学习到的模型具有人想要的特性,例如稀疏、低秩、平滑等等。有时候人的先验是非常重要的。前人的经验会让你少走很多弯路,这就是为什么我们平时学习最好找个大牛带带的原因。对机器学习也是一样,如果被我们人稍微点拨一下,它肯定能更快的学习相应的任务。目前这个媒介只能由规则项来担当了。
规则化符合奥卡姆剃刀(Occam's razor)原理。它的思想很平易近人:在所有可能选择的模型中,我们应该选择能够很好地解释已知数据并且十分简单的模型。
从贝叶斯估计的角度来看,规则化项对应于模型参数w的先验概率。
从贝叶斯学派角度来看,是加上了一个(参数w的)先验,然后计算后验,形式与1中的完全相同。因为数据中所包含信息的不充足是无法通过各类优化算法弥补的,所以需要引入一些先验信息或者说假设。这些先验信息就体现在正则化项的范数上,L0 L1/2 L1 是稀疏的, L2是光滑的。
最小二乘回归问题:加2范数正则等价于加了高斯分布的先验,加1范数正则相当于加拉普拉斯分布先验。L1假设的是模型的参数取值满足拉普拉斯分布,L2假设的模型参数是满足高斯分布。简而言之就是:L1是假设参数服从双指数分布,利于保证权值向量的稀疏性;L2是假设参数服从高斯分布,利于防止过拟合。
Orangeprince 的回答非常学院派,也非常系统。 过拟合表现在训练数据上的误差非常小,而在测试数据上误差反而增大。其原因一般是模型过于复杂,过分得去拟合数据的噪声和outliers. 正则化则是对模型参数添加先验,使得模型复杂度较小,对于噪声以及outliers的输入扰动相对较小。 以正则化项和损失函数都是l_2 norm 为例,下面贴一张上课用的slide.
[机器学习中的范数规则化之(一)L0、L1与L2范数 ]
2范数正则示例
error func = -lg(p(D|w))
加先验p(w) = e^(-x^2)*常数
error func = -lg(p(D|w)p(w)) = -lg(p(D|w)) -lg(p(w)) = -lg(p(D|w)) + λ(x^2) 等价于-lg(p(D|w)) + λ||x||_2
Lasso(1范数正则)举例
其实就是如下概率模型的最大后验。
如果不对w加拉普拉斯分布的先验,最大后验得到的是
民间还有个说法就是,规则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项(regularizer)或惩罚项(penalty term)。统计学习理论的核心为泛化方程,也就是 ,其中左边表示期望风险,就是你在测试集上的错误率,右边第一项表示经验风险,就是你在训练集上的错误率,右边第二项称之为泛化复杂度,它取决于训练样本数和模型。我们知道一般情况下, 训练集上的损失一定小于测试集上的损失。所以,结合起来有:,如果此时泛化复杂度为0,那么测试集上的效果就和训练集上的效果一致,这时,学习机就具有了绝对的泛化能力。然而实际上,我们很难找到一个模型,其在训练集上损失小并且同时泛化复杂度也小。
言归正传,我们对于线性模型或者说更为广泛意义下的线性模型(比如前馈神经网络可以看做一种层叠的线性模型),有如下泛化方程:
经典的是bias-variance decomposition,这种解释更加倾向于直观理解;
传统的机器学习中的bias-variance trade-off的解释
考虑二值分类问题。
是特征集合,,是上的概率分布,记是所有的的可测函数的集合。
记是所有分类器中分类性能最好的一个。
称分类器的泛化误差
这里做一点解释,P是真实的数据生成机制,可测函数只是一个技术性条件,非数学系的可以无视,泛化误差代表分类器的预测能力,泛化误差越小越好。
我们希望找到一个分类函数使得泛化误差最小。
记中所有的线性函数。记是所有线性分类函数里泛化误差最小的。
对于任意线性分类函数它的泛化误差有如下分解
第一部分称模型的variance,反映的是算法性能的优劣,在线性模型里就是反应最小二乘估计量或者极大似然估计量的好坏。
第二部分称模型的bias,反映的是模型本身的优劣,即线性模型本身作为分类函数的好坏。
这样就很清楚了,若扩大我们搜索的分类函数的范围,bias这一部分会减小,但一般说来我们搜索到可能性会下降,这样就增大了variance。所以在搜索范围上我们需要做一种权衡,这种权衡就是bias-variance trade-off。正则化使我们减少搜索范围,这样variance的部分会减小,bias的部分又不会增大太快。这就是为什么正则化有可能会改善我们泛化误差。这是一个非常一般的框架。
这是高维统计学里最重要的发现之一。当维数大于等于3时
若则用均值估计居然不是最好的估计量。
即 对于取任何值都成立。
换句话说用Stein估计量去估计均值会比极大似然估计量要好。这个估计量看起来很复杂,大家先不用管他。Stein估计量有一种Shrinkage(数据收缩)的现象。这种Shrinkage导致的结果就是估计量的方差减小。虽然这个估计量是有偏的,但是由于方差减小可以补偿估计量的偏差。所以导致这个估计量比极大似然估计量要好。
我们可以构造一个广义 Lagrange 函数来最小化受约束的函数,即在原始目标函数加上一系列惩罚项。每个惩罚是一个系数之间的乘积,称为Karush– Kuhn– Tucker (Karush– Kuhn– Tucker) 乘子,以及一个表示约束是否满足的函数。 如果我们想约束 Ω(θ) 小于某个常数 k,我们可以构建广义 Lagrange 函数
解决这个问题需要同时改变 θ 和 α。
为了洞察约束的影响,我们可以固定 α∗,把这个问题看成只跟 θ 有关的函数:
使用惩罚强加约束
可以把参数范数惩罚看作对权重强加的约束。如果 Ω 是 L2 范数,那么权重就是被约束在一个 L2 球中。如果 Ω 是 L1 范数, 那么权重就是被约束在一个 L1 范数限制的区域中。通常我们不知道权重衰减系数 α∗ 约束的区域大小,因为 α∗ 的值不直接告诉我们 k 的值。
不使用惩罚强加约束的原因是惩罚可能导致非凸优化过程而陷入局部极小 (对应于小的 θ)。
显式约束和重投影
修改下降算法(如随机梯度下降算法),使其先计算 J(θ) 的下降步,然后将 θ 投影到满足 Ω(θ) < k 的最近点。如果我们知道什么样的 k 是合适的,而不想花时间寻找对应于此 k 处的 α 值。
重投影的显式约束还对优化过程增加了一定的稳定性。
Hinton et al. (2012b) 尤其推荐由Srebro and Shraibman (2005) 引入的策略:约束神经网络层的权重矩阵每列的范数,而不是限制整个权重矩阵的Frobenius范数。
[深度学习]
由于大部分场景下,我们都是对于单目标值进行训练,即求权值向量的L2值(权值向量的模的大小),然而在多目标值训练时,我们要求解权值矩阵的L2值,怎么求?意义是什么?
[关于线性模型你可能还不知道的二三事(三、特征值与奇异值的魔力)]
其它相关资料
[关于线性模型你可能还不知道的二三事(一、样本)
关于线性模型你可能还不知道的二三事(二、也谈民主)
关于线性模型你可能还不知道的二三事(三、特征值与奇异值的魔力)]
from: http://blog.csdn.net/pipisorry/article/details/52108040
ref: [wikipedia Regularization (mathematics)]