Regularization and Ridge Regression

对于线性回归中过拟合的问题,有一种叫做regularization的方法,将最小二乘改成了最小化如下式子:


首先想说的就是这个代价函数的由来,为什么又是2次?

要说清楚这个问题首先要知道贝叶斯的理论,就是

后验分布 成正比于 先验分布 * 似然函数

另外一个比较重要的假设是,这里我们不假设theta是一个固定的参数,而是假设它是满足一个均值为0的高斯分布,有先验分布:


似然函数:


然后通过 maximum posterior(MAP)法,求后验分布的最大,就是求先验分布和似然函数乘积的最大,求对数后分成两部分,将没有theta的式子去掉后得到:


要这个式子最大,都除以-beta后,要最小化如下的式子


这就是regularization法的式子,只是lambda=alpha/beta。

这种带二范数惩罚的代价函数也叫做Ridge Regression(岭回归),而regularization法求导后能得到theta的解为:

在回归分析中最小二乘法是最常用的方法,使用最小二乘法的一个前提是|X'X|不为零,即矩阵X'X非奇异,当所有变量之间有较强的线性相关性时,或者变量之间的数据变化比较小或者部分变量之间有线性相关性时,矩阵X'X的行列式比较小,甚至趋近于0,岭回归在矩阵的主对角线元素上人为地加入一个非负因子,从而使回归系数的估计稍有偏差、而估计的稳定性却可能明显提高的一种回归分析方法,它是最小二乘法的一种补充。

你可能感兴趣的:(优化,机器学习,贝叶斯,岭回归)