google19890102

优化算法——OWL-QN

一、正则化(Regularization)

1、正则化的作用

在机器学习中，正则化是相对于过拟合出现的一种特征选择的方法。在机器学习算法中使用的Loss项为最小化误差，而最小化误差是为了让我们的模型拟合我们的训练数据，此时，若参数过分拟合我们的训练数据就会形成过拟合的问题，而规则化参数的目的就是为看防止我们的模型过分拟合我们的训练数据。此时，我们会在Loss项之后加上正则项以约束模型中的参数：

$f\left ( x \right )=l\left ( x \right )+r\left ( x \right )$

其中， $l\left ( x \right )$ 为损失函数项， $r\left ( x \right )$ 为正则项。

2、正则化的种类

正则化的方法主要有两种：

L1正则
L2正则

其中，L1正则和L2正则的形式如下：

L1正则：
L2正则：

其中，为大于0的常数。

3、两种正则化的区别

在很多讲解正则化的材料中都会有如下的一张图

(图片来自：http://www.zhihu.com/question/20700829)

左图是L2正则，右图为L1正则。当模型中只有两个参数，即和时，L2正则的约束空间是一个圆，而L1正则的约束空间为一个正方形，这样，基于L1正则的约束会产生稀疏解，如图所示，即图中某一维()为0。而L2正则只是将参数约束在接近0的很小的区间里，而不会正好为0。对于L1正则产生的稀疏解有很多的好处，如可以起到特征选择的作用，因为有些维的系数为0，说明这些维对于模型的作用很小。

二、OWL-QN算法的思想

1、L1正则的特点

对于带有L1正则的函数

$f\left ( x \right )=l\left ( x \right )+C\sum_{i}\left | x_i \right |$

对于

，若其符号确定后(即确定变量所在的象限(Orthant))，函数 $f\left ( x \right )$ 即为线性函数，此时的函数是可导的函数。

2、OWL-QN算法的思想

基于以上L1正则的特点，微软提出了OWL-QN(Orthant-Wise Limited-Memory Quasi-Newton)算法，该算法是基于L-BFGS算法的可用于求解L1正则的算法。简单来讲，OWL-QN算法是指假定变量

的象限确定的条件下使用L-BFGS算法来更新，同时，使得更新前后变量在同一个象限中(使用映射来满足条件)。

三、OWL-QN算法的具体过程

在OWL-QN算法中，为了使得更新前后的变量在同一个象限中，定义了一些特殊的函数，用于求解L1正则的问题。

1、伪梯度(pseudo-gradient)

$\lozenge _if\left ( x \right )=\begin{cases} \partial _i^{-}f\left ( x \right ) & \text{ if } \partial _i^{-}f\left ( x \right )> 0 \\ \partial _i^{+}f\left ( x \right ) & \text{ if } \partial _i^{+}f\left ( x \right )< 0 \\ 0 & otherwise \end{cases}$

其中，

$\partial _i^{\pm }f\left ( x \right )=\frac{\partial }{\partial x_i}l\left ( x \right )+\begin{cases} C\sigma \left ( x_i \right ) & \text{ if } x_i\neq 0 \\ \pm C & \text{ if } x_i=0 \end{cases}$

我们重新定义下上述的伪梯度函数：

$\lozenge _if\left ( x \right )=\begin{cases} \bigtriangledown _{x_i}l\left ( x \right )+C & \text{ if } x_i>0 \\ \bigtriangledown _{x_i}l\left ( x \right )-C & \text{ if } x_i<0 \\ \bigtriangledown _{x_i}l\left ( x \right )+C & \text{ if } x=0and\bigtriangledown _{x_i}l\left ( x \right )+C<0 \\ \bigtriangledown _{x_i}l\left ( x \right )-C & \text{ if } x=0and\bigtriangledown _{x_i}l\left ( x \right )-C>0 \\ 0 & \text{ if } x=0and\bigtriangledown _{x_i}l\left ( x \right )+C=0 \end{cases}$

其中， $\bigtriangledown _{x_i}l\left ( x \right )=\frac{\partial }{\partial x_i}l\left ( x \right )$ 。注意上述的伪梯度函数，有下式成立：

这样就保证了在

处取得的方向导数是最小的。

2、映射

有了函数的下降的方向，接下来必须对变量的所属象限进行限制，目的是使得更新前后变量在同一个象限中，定义函数：

$\pi _i\left ( x;y \right )=\begin{cases} x_i & \text{ if } \sigma \left ( x_i \right )=\sigma \left ( y \right ) \\ 0 & otherwise \end{cases}$

上述函数 $\pi$ 直观的解释是若

和

在同一象限则取

，若两者不在同一象限中，则取0。

3、线搜索

上述的映射是防止生成的新的点的坐标超出象限，而对坐标进行的一个约束，具体的约束的形式如下：

$x^{k+1}=\pi \left ( x^k+\alpha p^k;\; \xi \right )$

其中， $x^k+\alpha p^k$ 是更新的公式，表示的是

所在的象限，具体形式如下：

$\xi _i=\begin{cases} \sigma \left ( x_i^k \right ) & \text{ if } x_i^k\neq 0 \\ \sigma \left ( -\lozenge _if\left ( x^k \right ) \right ) & \text{ if } x_i^k= 0 \end{cases}$

表示的是伪梯度下降的方向，其具体形式为：

$p^k=\pi \left ( d^k;\; v^k \right )$

其中， $v^k=-\lozenge f\left ( x^k \right )$ ，

。选择 $\alpha$ 的方式有很多种，前面也介绍了一些，在OWL-QN中，使用了一种backtracking line search的变种，具体如下：选择常数，对于 $n=0,1,2,\cdots ,$ 使得 $\alpha =\beta ^n$ 满足：

$f\left ( \pi \left ( x^k+\alpha p^k;\; \xi \right ) \right )\leq f\left ( x^k \right )-\gamma v^T\left [ \pi \left ( x^k+\alpha p^k;\; \xi \right )-x^k \right ]$

4、算法流程

优化算法——OWL-QN_第2张图片

参考文献

[1] Scalable Training of L1-Regularized Log-Linear Models

你可能感兴趣的:(OWL-QN)

三种线性问题的优化 liulingyuan6 Spark MLlib
三种线性方法优化方法有限记忆BFGS(L-BFGS)L-BFGS是拟牛顿方法家族里的一个优化算法，解决形式的优化问题。L-BFGS方法以二次方程来逼近目标函数来构造黑塞矩阵，不考虑目标函数的二阶偏导数。黑塞矩阵由先前的迭代评估逼近，所以不像直接使用牛顿方法一样可垂直扩展（训练特征的数目）。所以L-BFGS通常比其他一阶优化方法能更快收敛。象限有限记忆拟牛顿(OWL-QN)算法是L-BFGS的扩展，
优化算法——OWL-QN zhiyong_will Optimization Algorithm 优化算法
一、正则化(Regularization)1、正则化的作用在机器学习中，正则化是相对于过拟合出现的一种特征选择的方法。在机器学习算法中使用的Loss项为最小化误差，而最小化误差是为了让我们的模型拟合我们的训练数据，此时，若参数过分拟合我们的训练数据就会形成过拟合的问题，而规则化参数的目的就是为看防止我们的模型过分拟合我们的训练数据。此时，我们会在Loss项之后加上正则项以约束模型中的参数：其中，为
计算广告干货整理雪伦_ 计算广告
序本文旨在整理、分享计算广告领域的一些干货，包括paper、dataset、slide、code、video（侵删），如果看到本文的你有什么好的干货可以留言给我，持续更新，欢迎学习交流！1.Paper2007(OWL-QN)ScalableTrainingofL1-RegularizedLog-LinearModels2010(FTRL)Follow-the-Regularized-Leadera
OWL-QN算法 GarfieldEr007 算法机器学习 OWL-QN
一、BFGS算法算法思想如下： Step1 取初始点，初始正定矩阵，允许误差，令； Step2 计算； Step3 计算，使得； Step4 令； Step5 如果，则取为近似最优解；否则转下一步；
机器学习笔记_回归_4: 最小二乘问题（3） mijian1207mijian
LARS回归引:LASSO:不等式约束的最小二乘方法：功能：收缩：对入选的少量参数计算；选择minx||y−y^||22subject.to||x||1=∑i=1n|xi|≤qLasso中需要计算不同λ的β^LASSO(λ):通过交叉验证,Cp统计量等方法选择参数λ计算方法(求解稀疏矩阵)shooting算法LARS(角回归修正)=>不合适大规模数据算法(paper：owl-qn)=>owl-qn
机器学习笔记_回归_4: 最小二乘问题（2） mijian1207mijian
subset的选择(特征选择)参看博客：http://m.blog.csdn.net/blog/xbinworld/44284293*lasso可以做特征选择(转化为求解次梯度:owl-qn)自变量选择对于估计和预测的影响全模型与选模型全模型：设因变量为m个：y=β0+β1x1,⋯,+βmxm+ε选模型：从m中选择p个模型y=β0p+β1px1,⋯,+βmpxp+εp=>性质（证明略）选模型预测值
OWL-QN算法算法
一、BFGS算法算法思想如下： Step1 取初始点，初始正定矩阵，允许误差，令； &n
优化算法——OWL-QN google19890102 OWL-QN
一、正则化(Regularization)1、正则化的作用在机器学习中，正则化是相对于过拟合出现的一种特征选择的方法。在机器学习算法中使用的Loss项为最小化误差，而最小化误差是为了让我们的模型拟合我们的训练数据，此时，若参数过分拟合我们的训练数据就会形成过拟合的问题，而规则化参数的目的就是为看防止我们的模型过分拟合我们的训练数据。此时，我们会在Loss项之后加上正则项以约束模型中的参数：其
OWL-QN算法：求解L1正则优化 hero_fantao
在机器学习模型中，比如监督学习中，我们设计模型，我们重要的的工作是如何求解这个模型的最优值，通常是如何求救损失函数的最小值。比如logisticregression中我们求解的是的lossfunction就是负log最大似然函数。logisticregression被广泛应用与互联网应用中，比如反欺诈，广告ctr。logisticregression是广义线性模型，优点是简单，实现容易，线上能
OWL-QN算法 mytestmy 优化算法 LBFGS OWL-QN算法次梯度 L1正则
OWL-QN算法转自：http://www.cnblogs.com/vivounicorn/archive/2012/06/25/2561071.html一、BFGS算法算法思想如下： Step1 取初始点，初始正定矩阵，允许误差，令； Step2 计算； Step3 计算，使得
OWL-QN算法--gongxue wangjinyu501
一、BFGS算法算法思想如下： Step1 取初始点，初始正定矩阵，允许误差，令； Step2 计算； Step3 计算，使得； Step4 令； Step5 如果，则取为近似最优解；否则转下一步
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他