三种线性问题的优化

三种线性方法优化方法

有限记忆BFGS(L-BFGS)

       L-BFGS是拟牛顿方法家族里的一个优化算法,解决 形式的优化问题。L-BFGS方法以二次方程来逼近目标函数来构造黑塞矩阵,不考虑目标函数的二阶偏导数。黑塞矩阵由先前的迭代评估逼近,所以不像直接使用牛顿方法一样可垂直扩展(训练特征的数目)。所以L-BFGS通常比其他一阶优化方法能更快收敛。

      象限有限记忆拟牛顿(OWL-QN)算法是L-BFGS的扩展,它可以有效处理L1和弹性网格正则化。L-BFGSSpark MLlib中用于线性回归、逻辑回归、AFT生存回归和多层感知器的求解。

加权最小二乘法的正规方程求解器

      MLlib通过WeightedLeastSquares提供加权最小二乘法的正规方程求解器。

      给定n个加权观察值( 

       是第i个观察值的权重;

       是第i个观察值的特征向量; 

       是第i个观察值的标签。

      每个观察值有m个特征。我们使用下面的最小二乘法公式:

 

       其中 是正则化参数, 是标签的总体标准偏差, 是第j列特征的总体标准偏差。这个目标函数有一个解析解,它只需要一个收集数据的必要统计量。与原始数据需要呗存储在分布式系统中不同,如果特征数量相对较小,统计信息可以存储在单机中,然后我们可以通过Cholesky分解来解决目标函数。

      加权最小二乘仅支持L2正则化,提供选项启用或禁用正则化和标准化。为了使正则方程逼近是有效的,加权最小二乘要求特征的数量不超过4096个。对于规模更大的问题,是有L-BFGS

迭代加权最小二乘法(IRLS)

       迭代加权最小二乘法可以用来找到广义线性模型的极大似然估计,找到鲁棒回归和其他优化问题中的M估计。

      它通过下面的步骤迭代地解决具体的优化问题。

      1.线性化目标并更新相应的权重

      2.解决加权最小二乘问题

      3.重复上述步骤直至收敛

      因为在第二步中使用了加权最小二乘方法在每次迭代中,所以它同样要求特征数量不超过4096个。现在IRLS是广义线性回归的默认方法。

你可能感兴趣的:(Spark,MLlib)