伺服控制系统常用参数寻优算法

参数寻优——转自mishidemudong 

参数寻优背景

  参数寻优问题随处可见,举几个例子。 
  1. 小明假期结束回校,可以坐火车,可以坐汽车,可以坐飞机,还可以走着,小明从哪条路去学校更好呢? 
  2. 简单的数学,一元二次方程求根。 
  3. 高深的数学,七桥问题,怎么才能通过所有的桥各自一次走回七点所在的岸边。 
  4. 机器学习中,求代价函数在约束条件下的最优解问题。 
  其上四个问题,均是参数寻优问题。问题1中,小明可以通过试探法将所有的方式计算一下时间成本,经济成本,舒适程度,来选择一个性价比最合适的返校方式。问题2中,可以通过一元二次方程的求根公式直接求出解来。问题3中,七桥问题则是典型的图论问题,通过抽象为图,推理得出该题无解。问题4中,机器学习则是数值分析中方程的迭代解法

本文目标

  本文主要讲清楚梯度下降法、牛顿下降法是如何想到并引入参数寻优中的,以及他们为什么有效。

参数寻优的迭代法的基本原理

  

伺服控制系统常用参数寻优算法_第1张图片

  
图1 一维的二阶代价函数展示

  
伺服控制系统常用参数寻优算法_第2张图片

  
图2 二维的二阶代价函数展示

  通过 代价函数的形状 ,我们很自然地想到,如果我们从任意一个参数点出发,是否可以找到刚好是让代价下降的方向,沿着这个方向,一定能找到当前的极值点。 
  于是,迭代法参数寻优的基本原理有了: 沿着(代价)函数下降的方向寻找参数,能够找到极值点。

梯度下降法的引入

  在我们已经学过的数学知识中,导数和方向导数是能找到函数变化方向的。导数表示了曲线的斜率(倾斜度),方向导数表示了曲面沿着任意方向的斜率(倾斜度)。一维时,导数就足够了。但多维时,就需要借助方向导数了,而我们更希望能找到变化率最大的方向因此,多维下借用方向导数变化最大的情况:梯度,梯度的方向是函数某点增长最快的方向,梯度的大小是该点的最大变化率。 
  三维下,推导方向导数与梯度的关系 
  方向导数: 
  

fl=fxcos(α)+fycos(β)+fzcos(γ)

   方向 l=(cos(α),cos(β),cos(γ))  
   梯度 Grad=(fx,fx,fx)  
   fl=Gradl  
   fl=|Grad|1cos(Grad,l)  
  当两者方向相同时, cos(Grad,l)=1fl 取得最大值 |Grad| 。因此,梯度表示了函数增长最快的方向,和最大的增长率。

牛顿下降法的引入

牛顿法求解f(x)=0

  在讲牛顿下降法之前,先讲一下 f(x)=0 的求解 f(x) x0 处进行一阶泰勒展开: 
  

伺服控制系统常用参数寻优算法_第3张图片

  
图 3,牛顿法求解 f(x)=0

   f(x)=f(x0)+f(x0)1!(xx0)  
  则得到 f(x0)+f(x0)(xx0)=0  
  解得 x=x0f(x0)f(x0)=x1  
  从图中可以看出, x1x0 更靠近真实解。如果接下来在 x1 处一阶泰勒展开,会得到更靠近真实解的 x2 ,以此类推: 
   xn+1=xnf(xn)f(xn)  
   牛顿法具有天然的迭代性,可以不断逼近真实解。

牛顿下降法

  那么牛顿下降法是如何引入的呢?求解最优解 minx[Cost(x)] 等价于 找到 x 满足 f(x)=0 。对于 f(x)=0 的求解,就可以用上面的牛顿法来不断逼近真实解了。 
  对 f(x) x0 处一阶泰勒展开。 
   f(x)=f(x0)+(xx0)f′′(x0)  
  令 f(x)=0  
  得 x=x0f(x0)f′′(x0)=x1  
   xn+1=xnf(xn)f′′(xn)

牛顿下降法的几何意义

  一阶导数决定的函数当前是否增减,二阶则决定这当时是否凹凸。牛顿下降法用二次曲面去拟合当前所处位置的局部曲面,下降方向上的选择不仅考虑了坡度是否足够大,而且考虑了走了这一步之后,坡度是否会变得更大。所以,牛顿下降法比梯度下降法看得更远,能更快地走到局部的最底部。

牛顿下降法的局限性

  (1)收敛性对初始点的选取依赖性很大; 
  (2)每次迭代都要计算Hessian矩阵(二阶导数),计算量大; 
  (3)要求二阶可微分,计算Dk时,方程组有时非正定或者病态,无法求解Dk或者Dk不是下降方向。

阻尼牛顿法的引入

  对牛顿法局限性的不同改进,导致阻尼牛顿法和拟牛顿法的出现。 
  针对牛顿法,有时得到的牛顿方向不是下降的情况,提出了阻尼牛顿法。上升的情况,比如 f(x)<0,f′′(x)<0 。 
  解决方法是:在新的迭代之前,找到下降方向,且是下降最大的方向。 
  (1)先确定最优解的所在区间[a, b]。 
  (2)一维搜索。在解区间[a, b]内搜索使得目标函数下降最大的点。 
  其中(1)可以用进退法,找到三个点,使得 f(ah),f(a),f(a+h) 满足大小大的规律即可。 
  一维搜索方法主要分为试探法和插值法,试探法有黄金分割法、fibonacci法、平分法、格点法等;插值法有牛顿法、抛物线法等。判断解两边值的大小关系或者求导为0。 
  剩下的部分就是跟牛顿下降法一样了。(具体实现看前面的博客)

拟牛顿法的引入

  针对牛顿下降法hessian矩阵计算量大,需要正定矩阵的局限性,提出了拟牛顿法,拟牛顿法的核心是对Hessian矩阵的逆的估计。 
  根据不同的估计方法,分为DFP和BFGS。 
  

DFP

  
图 4 DFP

  
BFGS

  
图 5 BFGS


机器学习的一个重要组成部分是如何寻找最优参数解。本文就常见寻优方法进行总结,并给出简单python2.7实现,可能文章有点长,大家耐心些。 
  寻找最优参数解,就是在一块参数区域上,去找到满足约束条件的那组参数。形象描述,比如代价函数是个碗状的,那我们就是去找最底部(代价最小)的那个地方的对应的参数值作为最优解。那么,如何找到那个底部的最优参数解呢,如何由一个初始值,一步一步地接近该最优解呢。寻优方法,提供了靠近最优解的方法,其中涉及到的核心点,无外乎两点:靠近最优解的方向步幅(每步的长度)。 
  最优化,分为线性最优化理论和非线性最优化理论。其中线性最优化又称线性规划。目标函数和约束条件的表达是线性的, Y=aX ;非线性最优化理论,是非线性的。其中包括梯度法,牛顿法,拟牛顿法(DFP/BFGS),约束变尺度(SQP),Lagrange乘子法,信赖域法等。

算法原理及简单推导

最速下降法(梯度下降法)

  借助梯度,找到下降最快的方向,大小为最大变化率。 
   θnew=θoldαGradient  
  梯度:是方向导数中,变化最大的那个方向导数。 
  梯度方向:标量场中增长最快的方向。 
  梯度大小:最大变化率。 
  更新:沿着梯度的负向,更新参数(靠近最优解)。 
  ********************************************* 
   Algorithm:GradientDescent  
   Input:xData;yLabel;α;θ0;Iternum;  
   Output:θoptimal  
   Process:  
     1.   Initial   θ=θ0  
     2.   While   Loop<Iternum  
       H=f(x,θ);H  
       Compute   Gradient   According   to   f(x,θ)  
       Update   θ:=θαGradient  
       Loop=Loop+1  
     3.   Return   θ  
  ********************************************* 
  梯度下降法 
  优点:方便直观,便于理解。 
  缺点:下降速度慢,有时参数会震荡在最优解附近无法终止。

牛顿下降法

  牛顿下降法,是通过泰勒展开到二阶,推到出参数更新公式的。 
   f(x+Δ(x))f(x)+f(x)Δ(x)+12f′′(x)Δ2(x)  
  上式等价于  f(x)+f′′(x)Δ=0  
  从而得到更新公式: 
    xnewxold=f(x)f′′(x)=[f′′(x)]1f(x)  
  调整了参数更新的方向和大小(牛顿方向)。 
  ********************************************* 
   Algorithm:Newton   Descent  
   Input:xData;ylabel;θ0;ϵ;  
   Ouput:θoptimal  
   Process:  
     1.   Initial   θ=θ0  
     2.   Compute   f(x,θ)  
       if|f(x),θ)|ϵ  
         return   θoptimal=θ  
       else  
         Compute   H=f′′(x,θ)  
         Dk=[H]1f(x,θ)  
         Update   θ:=θ+Dk  
     3.   Return   step   2  
  ********************************************* 
  牛顿下降法 
  优点:对于正定二次函数,迭代一次,就可以得到极小值点。下降的目的性更强。 
  缺点:要求二阶可微分;收敛性对初始点的选取依赖性很大;每次迭代都要计算Hessian矩阵,计算量大;计算Dk时,方程组有时奇异或者病态,无法求解Dk或者Dk不是下降方向。

阻尼牛顿法

  这是对牛顿法的改进,在求新的迭代点时,以Dk作为搜索方向,进行一维搜索,求步长控制量 α ,使得 α=argminθ[f(θ+αDk)] 找到 f 下降的 α 且是 f 下降最大的 α ,然后令 θ=θ+αDk 克服了牛顿法的奇异和病态方程无解, Dk 非下降的缺点。 
  ********************************************* 
   Algorithm:Damped   Newton   Descent  
   Input:xData;ylabel;θ0;ϵ  
   Output:θoptimal  
   Process:  
     1.   Initial   θ=θ0  
     2.   Compute   f(x,θ)  
       if|f(x,θ)|ϵ  
         Return   θoptimal=θ  
       else  
         Compute   H=f′′(x,θ)  
         Dk=[H]1f(x,θ)  
         Compute   α   According   to:  
         α=argminθ[f(θ+αDk)]  
         Update   θ:=θ+αDk  
     3.   Return   step   2  
  ********************************************* 
  阻尼牛顿法 
  优点:修改了下降方向,使得始终朝着下降的方向迭代。 
  缺点:与牛顿法一样。

一维搜索方法简介

  一维无约束优化问题 minF(α) ,求解 F(α) 的极小值和极大值的数值迭代方法,即为一维搜索方法。常用的方法包括:试探法(黄金分割法,fibonacci方法,平分法,格点法);插值法(牛顿法,抛物线法)。 
  (1)确定最优解所在区间[a,b] (进退法) 
  思想:从初始点 α0 开始,以步长 h 前进或者后退,试出三个点 f(α0+h),f(α0),f(α0h) 满足大,小,大规律。 
  ********************************************* 
   Process:  
     1.   Initial   α1=α0;α2=α0+h;  
          f1=f(α1;f2=f(α2)  
     2.   if   f1>f2  
       forward,h=2h  
      else  
        backward,h=h;  
        swqp(α1,α2);  
        swap(f1,f2);  
     3.   Getthe   third   point,   α3=α2+h;f3=f(α3)  
       if   f3>f2  
         a=min(α1,α3)  
         b=max(α1,α3)  
         Return   [a,b]  
       if   f3<f2   :move   the   point  
         α1=α2;f1=f2;  
         α2=α3;f2=f3;  
     4.   Return   step   2  
  ********************************************* 
  (2)在[a, b]内,找到极小值(黄金分割法和平分法) 
  ********************************************* 
   Process:  
     1.   Initial   check   point  
       α1=a+0.382(ba);  
       α2=a+0.618(ba);  
       f1=f(α1);  
       f2=f(α2);  
     2.   Change   the   edge  
      if   f1>f2  
       a=α1;b=b;  
      else  
       a=a;b=α2  
     3.   Stop   condation  
       if   |ab|ϵ  
         Return   α=(b+a)/2  
       else  
         Return   step   1  
   Process:  
     1.   Initial   check   point  
       α=(b+a)/2  
     2.   Compute   gradient   f=f(α)  
       if   f=0,or   |f|<ϵ  
         Return   α  
       if   f>0   a=a;b=α;  
       if   f<0   a=α;b=b;  
       Return   step   1  
  ********************************************* 
  思考:如何在实际应用中,选择[a, b],函数 f 是什么样子的?这些问题需要讨论。整个优化的目标是:找到最优 θ ,使得代价 CostJ 最小。故此 f=CostJ

拟牛顿法 - DFP法

  由于牛顿法计算二阶导数,计算量大,故此用其他方法(一阶导数估计Hessian矩阵的逆 f(x) Xk+1 处,展开成二阶泰勒级数。 
   f(x)f(xk+1)+f(xk+1)(xxk+1)+12f′′(xk+1)(xxk+1)2  
   f(x)f(xk+1)f(xk+1)(xxk+1)+f′′(xk+1)(xxk+1)2  
  两侧同时除以 xxk+1 则得到: 
   f(x)=f(xk+1)+f′′(xk+1)(xxk+1)  
   f(xk+1)f(xk)f′′(xk+1)(xk+1x)  
  令 sk=xk+1xk;yk=f(xk+1)f(xk);  
  则 yk=f′′(xk+1)sk  
  且 sk=[f′′(xk+1)]1yk  
  用上式来估计Hessian的逆。设 H=[f′′(xk+1)]1  
  根据H的构造函数不同,分为不同的拟牛顿方法,下面为DFP方法: 
   Hk+1=Hk+DH  
   DH=skskskykHkykykHkykHkyk  
  ********************************************* 
   Algorithm:DFP   QuasiNewton   Method  
   Input:xData;yLabel;θ0;ϵ  
   Output:θoptimal  
   Process:  
     1.   Initial   paraments  
       θ=θ0;   H=I;   Dk=f(xk,θ)  
     2.   if   |f(xk,θ)|ϵ  
       Returnθoptimal=θ  
      else  
       Compute   α   according   to:  
       α=argminθ[f(θ+αDk)]  
       Update   θ:=θ+αDk  
       Update   H   as   follow:  
        sk=θk+1θk  
        yk=f(xk+1)f(xk)  
       DH=skskskykHykykHykHyk  
       H:=H+DH  
       Dk=Hf(xk,θ)  
     3.   Return   step   2  
  ********************************************* 
  拟牛顿法DFP: 
  优点:减少了二阶计算,运算量大大降低。 
  

拟牛顿法 - BFGS法

  若构造函数如下,则为BFGS法。 
   Hk+1=Hk+DH  
   DH=[1+ykHkykskyk]skskskykskykHkskyk  
  ********************************************* 
   Algorithm:   BFGS   QuasiNewton   Method  
   Input:xData;yLabel;θ0;ϵ  
   Output:θoptimal  
   Process:  
     1.   Initial   paraments  
       θ=θ0;H=I;Dk=f(xk,θ);  
     2.   if   |f(xk,θ)|ϵ  
       Return   θoptimal=θ  
      else  
       Compute   α   according   to:  
       α=argminα[f(θ+αDk)]  
       Update   θ:=θ+αDk  
       Update   H   as   follow:  
        sk=θk+1θk  
        yk=f(xk+1)f(xk)  
        DH=[1+ykHykskyk]skskskykskykHskyk  
        H:=H+DH  
        Dk=Hf(xk,θ)  
     3.   Return   step   2  
  ********************************************* 
  拟牛顿法是无约束最优化方法中最有效的一类算法。

算法的Python实现代码

  Python2.7需要安装pandas, numpy, scipy, matplotlib。 
  下面给出Windows7下exe方式按照上面模块的简单方法。 
  numpy–http://sourceforge.net/projects/numpy/files/ –这里面也可以找到较新的scipy – 
scipy–http://download.csdn.net/detail/caanyee/8241305 
pandas-https://pypi.python.org/packages/2.7/p/pandas/pandas-0.12.0.win32-py2.7.exe#md5=80b0b9b891842ef4bdf451ac07b368e5 
  test.py

# coding = 
utf-8
'''
time: 2015.06.03
author: yujianmin
objection: BGD / SGD / mini-batch GD / QNGD / DFP / BFGS 
实现了批量梯度下降、单个梯度下降; 最速下降法、牛顿下降法、阻尼牛顿法、拟牛顿DFP和BFGS
'''
import pandas as pd
import numpy as np
import scipy as sp
import matplotlib.pyplot as plt
data = pd.read_csv("C:\\Users\\yujianmin\\Desktop\\python\\arraydataR.csv")
print(data.ix[1:5, :])
dataArray = np.array(data)
'''
x = dataArray[:, 0]
y = dataArray[:, 1]
plt.plot(x, y, 'o')
plt.title('data is like this')
plt.xlabel('x feature')
plt.ylabel('y label')
plt.show()
'''
def Myfunction_BGD(data, 
alpha, numIter, eplise):
    ''' Batch Gradient Descent
    :type data: array  
    :param data: contain x and y(label)
    :type step: int/float numeric
    :param step: length of step when update the theta
    '''
    nCol = data.shape[1]-1
    nRow = data.shape[0]
    print nCol
    print nRow
    x = data[:, :nCol]
    print x[1:5, :]
    z = np.ones(nRow).reshape(nRow, 1)
    x = np.hstack((z, x))  ## vstack merge like rbind 
in R; hstack like cbind in R;
    y = data[:, (nCol)].reshape(nRow, 1)
    #theta = 
np.random.random(nCol+1).reshape(nCol+1, 1)
    theta = np.ones(nCol+1).reshape(nCol+1, 1)
    i = 0
    costJ = []
    #eplise = 0.4
    while i < numIter:
        H = np.dot(x,theta)
        J = (np.sum((y-H)**2))/(2*nRow)
        print('Itering %d ;cost is:%f' 
%(i+1,J))
        costJ.append(J)
        Gradient = (np.dot(np.transpose(y-H),x))/nRow
        Gradient = Gradient.reshape(nCol+1, 1)
        if 
np.sum(np.fabs(Gradient))<= eplise:
            return theta, costJ
        else:
            ## update
            theta = theta + alpha * Gradient
        i = i + 1
    return theta, costJ

def Myfunction_SGD(data, 
alpha, numIter, eplise):
    ''' Stochastic Gradient Descent
    :type data: array  
    :param data: contain x and y(label)
    :type step: int/float numeric
    :param step: length of step when update the theta
    '''
    nCol = data.shape[1]-1
    nRow = data.shape[0]
    print nCol
    print nRow
    x = data[:, :nCol]
    print x[1:5, :]
    z = np.ones(nRow).reshape(nRow, 1)
    x = np.hstack((z, x))  ## vstack merge like rbind 
in R; hstack like cbind in R;
    y = data[:, (nCol)].reshape(nRow, 1)
    #theta = 
np.random.random(nCol+1).reshape(nCol+1, 1)
    theta = np.ones(nCol+1).reshape(nCol+1, 1)
    Loop = 0
    costJ = []
    while Loop 2)/(2*nRow)
        print('Itering %d ;cost is:%f' 
%(Loop+1,J))
        costJ.append(J)
        i = 0
        while i 1, 1)
            theta = theta + alpha * Gradient
            i = i + 1
        #eplise = 0.4
        Gradient = (np.dot(np.transpose(y-H),x))/nRow
        if 
np.sum(np.fabs(Gradient))<= eplise:
            return theta, costJ
        Loop = Loop + 1
    return theta, costJ


def Myfunction_NGD1(data, 
alpha, numIter, eplise):
    ''' Newton Gradient Descent -- theta := 
theta - alpha*[f'']^(-1)*f'
    :type data: array  
    :param data: contain x and y(label)
    :type step: int/float numeric
    :param step: length of step when update the theta
    :reference:http://www.doc88.com/p-145660070193.html
    :hessian = transpos(x) * x 
    '''
    nCol = data.shape[1]-1
    nRow = data.shape[0]
    print nCol
    print nRow
    x = data[:, :nCol]
    print x[1:5, :]
    z = np.ones(nRow).reshape(nRow, 1)
    x = np.hstack((z, x))  ## vstack merge like rbind 
in R; hstack like cbind in R;
    y = data[:, (nCol)].reshape(nRow, 1)
    #theta = 
np.random.random(nCol+1).reshape(nCol+1, 1)
    theta = np.ones(nCol+1).reshape(nCol+1, 1)
    i = 0
    costJ = []
    while i < numIter:
        H = np.dot(x,theta)
        J = (np.sum((y-H)**2))/(2*nRow)
        ## update
        print('Itering %d ;cost is:%f' 
%(i+1,J))
        costJ.append(J)
        Gradient = (np.dot(np.transpose(y-H),x))/nRow
        Gradient = Gradient.reshape(nCol+1, 1)
        #eplise = 0.4
        if 
np.sum(np.fabs(Gradient))<=eplise:
            return theta, costJ
        Hessian = np.dot(np.transpose(x), x)/nRow
        theta = theta + alpha * np.dot(np.linalg.inv(Hessian), Gradient)
        #theta = theta + 
np.dot(np.linalg.inv(Hessian), Gradient)
        i = i + 1
    return theta, costJ


def Myfunction_NGD2(data, 
alpha, numIter, eplise):
    ''' Newton Gradient Descent -- theta := 
theta - [f'']^(-1)*f'
    :type data: array  
    :param data: contain x and y(label)
    :type step: int/float numeric
    :param step: length of step when update the theta
    :reference:http://www.doc88.com/p-145660070193.html
    :hessian = transpos(x) * x 
    '''
    nCol = data.shape[1]-1
    nRow = data.shape[0]
    print nCol
    print nRow
    x = data[:, :nCol]
    print x[1:5, :]
    z = np.ones(nRow).reshape(nRow, 1)
    x = np.hstack((z, x))  ## vstack merge like rbind 
in R; hstack like cbind in R;
    y = data[:, (nCol)].reshape(nRow, 1)
    #theta = 
np.random.random(nCol+1).reshape(nCol+1, 1)
    theta = np.ones(nCol+1).reshape(nCol+1, 1)
    i = 0
    costJ = []
    while i < numIter:
        H = np.dot(x,theta)
        J = (np.sum((y-H)**2))/(2*nRow)
        ## update
        print('Itering %d ;cost is:%f' 
%(i+1,J))
        costJ.append(J)
        Gradient = (np.dot(np.transpose(y-H),x))/nRow
        Gradient = Gradient.reshape(nCol+1, 1)
        #eplise = 0.4
        if np.sum(np.fabs(Gradient)) 
<= eplise:
            return theta, costJ
        Hessian = np.dot(np.transpose(x), x)/nRow
        theta = theta + np.dot(np.linalg.inv(Hessian), Gradient)
        i = i + 1
    return theta, costJ

def Myfunction_QNGD(data, 
alpha, numIter, eplise):
    ''' Newton Gradient Descent -- theta := 
theta - alpha* [f'']^(-1)*f'--
            alpha is search by ForwardAndBack method and huang jin fen 
ge 
    :type data: array  
    :param data: contain x and y(label)
    :type step: int/float numeric
    :param step: length of step when update the theta
    :reference:http://www.doc88.com/p-145660070193.html
    :hessian = transpos(x) * x 
    '''
    nCol = data.shape[1]-1
    nRow = data.shape[0]
    print nCol
    print nRow
    x = data[:, :nCol]
    print x[1:5, :]
    z = np.ones(nRow).reshape(nRow, 1)
    x = np.hstack((z, x))  ## vstack merge like rbind 
in R; hstack like cbind in R;
    y = data[:, (nCol)].reshape(nRow, 1)
    #theta = 
np.random.random(nCol+1).reshape(nCol+1, 1)
    theta = np.ones(nCol+1).reshape(nCol+1, 1)
    i = 0
    costJ = []
    #eplise = 0.4
    while i < numIter:
        H = np.dot(x,theta)
        J = (np.sum((y-H)**2))/(2*nRow)
        ## update
        print('Itering %d ;cost is:%f' 
%(i+1,J))
        costJ.append(J)
        Gradient = (np.dot(np.transpose(y-H),x))/nRow
        Gradient = Gradient.reshape(nCol+1, 1)
        if 
np.sum(np.fabs(Gradient))<= eplise:
            return theta, costJ
        else:
            Hessian = np.dot(np.transpose(x), x)/nRow
            Dk = - np.dot(np.linalg.inv(Hessian), Gradient)
            ## find optimal [a,b] which contain optimal 
alpha
            ## optimal alpha lead to min{f(theta + 
alpha*DK)}
            alpha0 = 0
            h = np.random.random(1)
            alpha1 = alpha0
            alpha2 = alpha0 + h
            theta1 = theta + alpha1 * Dk
            theta2 = theta + alpha2 * Dk
            f1 = (np.sum((y-np.dot(x, theta1))**2))/(2*nRow)
            f2 = (np.sum((y-np.dot(x, theta2))**2))/(2*nRow)
            Loop = 1
            a = 0
            b = 0
            while Loop >0:
                print(' find [a,b] loop is 
%d' %Loop)
                Loop = Loop + 1
                if f1 > f2:
                    h = 2*h
                else:
                    h = -h
                    (alpha1, alpha2) = (alpha2, alpha1)
                    (f1, f2) = (f2, f1)
                alpha3 = alpha2 + h
                theta3 = theta + alpha3 * Dk
                f3 = (np.sum((y-np.dot(x, theta3))**2))/(2*nRow)
                print('f3 - f2 is %f' 
%(f3-f2))
                if f3 > f2:
                    a = min(alpha1, alpha3)
                    b = max(alpha1, alpha3)
                    break
                if f3 <= f2:
                    alpha1 = alpha2
                    alpha2 = alpha3
                    f1 = f2 
                    f2 = f3
            ## find optiaml alpha in [a,b] using huang 
jin fen ge fa 
            e = 0.01
            while Loop >0:
                alpha1 = a + 0.382 * (b - 
a)
                alpha2 = a + 0.618 * (b - 
a)
                theta1 = theta + alpha1* Dk
                theta2 = theta + alpha2* Dk
                f1 = (np.sum((y-np.dot(x, theta1))**2))/(2*nRow)
                f2 = (np.sum((y-np.dot(x, theta2))**2))/(2*nRow)
                if f1 > f2:
                    a = alpha1
                if f1< f2:
                    b = alpha2
                if np.fabs(a-b) <= e:
                    alpha = (a+b)/2
                    break
            print('optimal alpha is %f' % 
alpha)
            theta = theta + alpha * Dk
        i = i + 1
    return theta, costJ


def Myfunction_DFP2(data, 
alpha, numIter, eplise):
    ''' DFP -- theta := theta + alpha * Dk 
              --alpha is searched by huangjin method 
              --satisfied argmin{f(theta+alpha*Dk)}##
    :type data: array  
    :param data: contain x and y(label)
    :type step: int/float numeric
    :param step: length of step when update the theta
    :reference:http://blog.pfan.cn/miaowei/52925.html
    :reference:http://max.book118.com/html/2012/1025/3119007.shtm ## 
important ##
    :hessian is estimated by DFP method.
    '''
    nCol = data.shape[1]-1
    nRow = data.shape[0]
    print nCol
    print nRow
    x = data[:, :nCol]
    print x[1:5, :]
    z = np.ones(nRow).reshape(nRow, 1)
    x = np.hstack((z, x))  ## vstack merge like rbind 
in R; hstack like cbind in R;
    y = data[:, (nCol)].reshape(nRow, 1)
    #theta = 
np.random.random(nCol+1).reshape(nCol+1, 1)
    theta = np.ones(nCol+1).reshape(nCol+1, 1)
    i = 0
    costJ = []
    Hessian = np.eye(nCol+1)
    H = np.dot(x,theta)
    J = (np.sum((y-H)**2))/(2*nRow)
    #costJ.append(J)
    Gradient = (np.dot(np.transpose(y-H),x))/nRow
    Gradient = Gradient.reshape(nCol+1, 1)
    Dk = - Gradient
    #eplise = 0.4
    while i < numIter:
        if(np.sum(np.fabs(Dk)) <= 
eplise ): ## stop condition ##
            return theta, costJ
        else:
            ## find alpha that min f(thetaK + alpha * 
Dk)
            ## find optimal [a,b] which contain optimal 
alpha
            ## optimal alpha lead to min{f(theta + 
alpha*DK)}
            alpha0 = 0
            h = np.random.random(1)
            alpha1 = alpha0
            alpha2 = alpha0 + h
            theta1 = theta + alpha1 * Dk
            theta2 = theta + alpha2 * Dk
            f1 = (np.sum((y-np.dot(x, theta1))**2))/(2*nRow)
            f2 = (np.sum((y-np.dot(x, theta2))**2))/(2*nRow)
            Loop = 1
            a = 0
            b = 0
            while Loop >0:
                print(' find [a,b] loop is 
%d' %Loop)
                Loop = Loop + 1
                if f1 > f2:
                    h = 2*h
                else:
                    h = -h
                    (alpha1, alpha2) = (alpha2, alpha1)
                    (f1, f2) = (f2, f1)
                alpha3 = alpha2 + h
                theta3 = theta + alpha3 * Dk
                f3 = (np.sum((y-np.dot(x, theta3))**2))/(2*nRow)
                print('f3 - f2 is %f' 
%(f3-f2))
                if f3 > f2:
                    a = min(alpha1, alpha3)
                    b = max(alpha1, alpha3)
                    break
                if f3 <= f2:
                    alpha1 = alpha2
                    alpha2 = alpha3
                    f1 = f2 
                    f2 = f3
            ## find optiaml alpha in [a,b] using huang 
jin fen ge fa 
            e = 0.01
            while Loop >0:
                alpha1 = a + 0.382 * (b - 
a)
                alpha2 = a + 0.618 * (b - 
a)
                theta1 = theta + alpha1* Dk
                theta2 = theta + alpha2* Dk
                f1 = (np.sum((y-np.dot(x, theta1))**2))/(2*nRow)
                f2 = (np.sum((y-np.dot(x, theta2))**2))/(2*nRow)
                if f1 > f2:
                    a = alpha1
                if f1< f2:
                    b = alpha2
                if np.fabs(a-b) <= e:
                    alpha = (a+b)/2
                    break
            print('optimal alpha is %f' % 
alpha)

            theta_old = theta
            theta = theta + alpha * Dk
            ## update the Hessian matrix ##
            H = np.dot(x,theta)
            J = (np.sum((y-H)**2))/(2*nRow)
            ## update 
            print('Itering %d ;cost is:%f' 
%(i+1,J))
            costJ.append(J)
            # here to estimate Hessian'inv 
#
            # sk = ThetaNew - ThetaOld = alpha * inv(H) *
 Gradient
            sk = theta - theta_old
            #yk = DelX(k+1) - DelX(k)
            DelXK = - (np.dot(np.transpose(y-np.dot(x, theta)),x))/nRow
            DelXk = - (np.dot(np.transpose(y-np.dot(x, 
theta_old)),x))/nRow
            yk = (DelXK - DelXk).reshape(nCol+1, 1)
            #z1 = (sk * sk') # a matrix
            #z2 = (sk' * yk) # a value
            z1 = sk * np.transpose(sk)
            z2 = np.dot(np.transpose(sk),yk)
            #z3 = (H * yk * yk' * H) # a 
matrix
            #z4 = (yk' * H * yk) # a value
            z3 = np.dot(np.dot(np.dot(Hessian, yk), np.transpose(yk)), 
Hessian)
            z4 = np.dot(np.dot(np.transpose(yk), Hessian),yk)
            DHessian = z1/z2 - z3/z4
            Hessian = Hessian + DHessian
            Dk = - np.dot(Hessian, DelXK.reshape(nCol+1,1))


        i = i + 1
    return theta, costJ

def Myfunction_DFP1(data, 
alpha, numIter, eplise):
    ''' DFP -- theta := theta + alpha * Dk
               alpha is fixed ##
    :type data: array 
    :param data: contain x and y(label) 
    :type step: int/float numeric
    :param step: length of step when update the theta
    :reference:http://blog.pfan.cn/miaowei/52925.html
    :reference:http://max.book118.com/html/2012/1025/3119007.shtm ## 
important ##
    :hessian is estimated by DFP method.
    '''
    nCol = data.shape[1]-1
    nRow = data.shape[0]
    print nCol
    print nRow
    x = data[:, :nCol]
    print x[1:5, :]
    z = np.ones(nRow).reshape(nRow, 1)
    x = np.hstack((z, x))  ## vstack merge like rbind 
in R; hstack like cbind in R;
    y = data[:, (nCol)].reshape(nRow, 1)
    #theta = 
np.random.random(nCol+1).reshape(nCol+1, 1)
    theta = np.ones(nCol+1).reshape(nCol+1, 1)
    i = 0
    costJ = []
    Hessian = np.eye(nCol+1)
    H = np.dot(x,theta)
    J = (np.sum((y-H)**2))/(2*nRow)
    #costJ.append(J)
    Gradient = (np.dot(np.transpose(y-H),x))/nRow
    Gradient = Gradient.reshape(nCol+1, 1)
    Dk = - Gradient
    #eplise = 0.4
    while i < numIter:
        if(np.sum(np.fabs(Dk)) <= 
eplise ): ## stop condition ##
            return theta, costJ
        else:
            ## find alpha that min f(thetaK + alpha * 
Dk)
            ## here for simple alpha is parameter 
'alpha'
            alpha = alpha
            theta_old = theta
            theta = theta + alpha * Dk
            ## update the Hessian matrix ##
            H = np.dot(x,theta)
            J = (np.sum((y-H)**2))/(2*nRow)
            ## update 
            print('Itering %d ;cost is:%f' 
%(i+1,J))
            costJ.append(J)
            # here to estimate Hessian'inv 
#
            # sk = ThetaNew - ThetaOld = alpha * inv(H) *
 Gradient
            sk = theta - theta_old
            #yk = DelX(k+1) - DelX(k)
            DelXK = - (np.dot(np.transpose(y-np.dot(x, theta)),x))/nRow
            DelXk = - (np.dot(np.transpose(y-np.dot(x, 
theta_old)),x))/nRow
            yk = (DelXK - DelXk).reshape(nCol+1, 1)
            #z1 = (sk * sk') # a matrix
            #z2 = (sk' * yk) # a value
            z1 = sk * np.transpose(sk)
            z2 = np.dot(np.transpose(sk),yk)
            #z3 = (H * yk * yk' * H) # a 
matrix
            #z4 = (yk' * H * yk) # a value
            z3 = np.dot(np.dot(np.dot(Hessian, yk), np.transpose(yk)), 
Hessian)
            z4 = np.dot(np.dot(np.transpose(yk), Hessian),yk)
            DHessian = z1/z2 - z3/z4
            Hessian = Hessian + DHessian
            Dk = - np.dot(Hessian, DelXK.reshape(nCol+1,1))
            i = i + 1
    return theta, costJ

def Myfunction_BFGS1(data, alpha, numIter, 
eplise):
    ''' BFGS 
    :type data: array  
    :param data: contain x and y(label)
    :type step: int/float numeric
    :param step: length of step when update the theta
    :reference:http://blog.pfan.cn/miaowei/52925.html
    :reference:http://max.book118.com/html/2012/1025/3119007.shtm ## 
important ##
    :hessian is estimated by BFGS method.
    '''
    nCol = data.shape[1]-1
    nRow = data.shape[0]
    print nCol
    print nRow
    x = data[:, :nCol]
    print x[1:5, :]
    z = np.ones(nRow).reshape(nRow, 1)
    x = np.hstack((z, x))  ## vstack merge like rbind 
in R; hstack like cbind in R;
    y = data[:, (nCol)].reshape(nRow, 1)
    #theta = 
np.random.random(nCol+1).reshape(nCol+1, 1)
    theta = np.ones(nCol+1).reshape(nCol+1, 1)
    i = 0
    costJ = []
    Hessian = np.eye(nCol+1)
    H = np.dot(x,theta)
    J = (np.sum((y-H)**2))/(2*nRow)
    #costJ.append(J)
    Gradient = (np.dot(np.transpose(y-H),x))/nRow
    Gradient = Gradient.reshape(nCol+1, 1)
    Dk = - Gradient
    #eplise = 0.4
    while i < numIter:
        if(np.sum(np.fabs(Dk)) <= 
eplise ): ## stop condition ##
            return theta, costJ
        else:
            ## find alpha that min J(thetaK + alpha * 
Dk)
            ## here for simple alpha is parameter 
'alpha'
            alpha = alpha
            theta_old = theta
            theta = theta + alpha * Dk
            ## update the Hessian matrix ##
            H = np.dot(x,theta)
            J = (np.sum((y-H)**2))/(2*nRow)
            ## update 
            print('Itering %d ;cost is:%f' 
%(i+1,J))
            costJ.append(J)
            # here to estimate Hessian #
            # sk = ThetaNew - ThetaOld = alpha * inv(H) *
 Gradient
            sk = theta - theta_old
            #yk = DelX(k+1) - DelX(k)
            DelXK = - (np.dot(np.transpose(y-np.dot(x, theta)),x))/nRow
            DelXk = - (np.dot(np.transpose(y-np.dot(x, 
theta_old)),x))/nRow
            yk = (DelXK - DelXk).reshape(nCol+1, 1)
            #z1 = yk' * H * yk # a value
            #z2 = (sk' * yk) # a value
            z1 = np.dot(np.dot(np.transpose(yk), Hessian), yk)
            z2 = np.dot(np.transpose(sk),yk)
            #z3 = sk * sk' # a matrix
            #z4 = sk * yk' * H # a matrix
            z3 = np.dot(sk, np.transpose(sk))
            z4 = np.dot(np.dot(sk, np.transpose(yk)), Hessian)
            DHessian = (1+z1/z2) * 
(z3/z2) - z4/z2
            Hessian = Hessian + DHessian
            Dk = - np.dot(Hessian, DelXK.reshape(nCol+1,1))
            i = i + 1
    return theta, costJ


def Myfunction_BFGS2(data, alpha, numIter, 
eplise):
    ''' BFGS 
    :type data: array  
    :param data: contain x and y(label)
    :type step: int/float numeric
    :param step: length of step when update the theta
    :reference:http://blog.pfan.cn/miaowei/52925.html
    :reference:http://max.book118.com/html/2012/1025/3119007.shtm ## 
important ##
    :hessian is estimated by BFGS method.
    '''
    nCol = data.shape[1]-1
    nRow = data.shape[0]
    print nCol
    print nRow
    x = data[:, :nCol]
    print x[1:5, :]
    z = np.ones(nRow).reshape(nRow, 1)
    x = np.hstack((z, x))  ## vstack merge like rbind 
in R; hstack like cbind in R;
    y = data[:, (nCol)].reshape(nRow, 1)
    #theta = 
np.random.random(nCol+1).reshape(nCol+1, 1)
    theta = np.ones(nCol+1).reshape(nCol+1, 1)
    i = 0
    costJ = []
    Hessian = np.eye(nCol+1)
    H = np.dot(x,theta)
    J = (np.sum((y-H)**2))/(2*nRow)
    #costJ.append(J)
    Gradient = (np.dot(np.transpose(y-H),x))/nRow
    Gradient = Gradient.reshape(nCol+1, 1)
    Dk = - Gradient
    #eplise = 0.4
    while i < numIter:
        if(np.sum(np.fabs(Dk)) <= 
eplise ): ## stop condition ##
            return theta, costJ
        else:
            ## find alpha that min J(thetaK + alpha * 
Dk)
            alpha = alpha
            ## find optimal [a,b] which contain optimal 
alpha
            ## optimal alpha lead to min{f(theta + 
alpha*DK)}
            '''
            alpha0 = 0
            h = np.random.random(1)
            alpha1 = alpha0
            alpha2 = alpha0 + h
            theta1 = theta + alpha1 * Dk
            theta2 = theta + alpha2 * Dk
            f1 = (np.sum((y-np.dot(x, theta1))**2))/(2*nRow)
            f2 = (np.sum((y-np.dot(x, theta2))**2))/(2*nRow)
            Loop = 1
            a = 0
            b = 0
            while Loop >0:
                print(' find [a,b] loop is %d' %Loop)
                Loop = Loop + 1
                if f1 > f2:
                    h = 2*h
                else:
                    h = -h
                    (alpha1, alpha2) = (alpha2, alpha1)
                    (f1, f2) = (f2, f1)
                alpha3 = alpha2 + h
                theta3 = theta + alpha3 * Dk
                f3 = (np.sum((y-np.dot(x, theta3))**2))/(2*nRow)
                print('f3 - f2 is %f' %(f3-f2))
                if f3 > f2:
                    a = min(alpha1, alpha3)
                    b = max(alpha1, alpha3)
                    break
                if f3 <= f2:
                    alpha1 = alpha2
                    alpha2 = alpha3
                    f1 = f2 
                    f2 = f3
            ## find optiaml alpha in [a,b] using huang jin fen ge fa 
            e = 0.01
            while Loop >0:
                alpha1 = a + 0.382 * (b - a)
                alpha2 = a + 0.618 * (b - a)
                theta1 = theta + alpha1* Dk
                theta2 = theta + alpha2* Dk
                f1 = (np.sum((y-np.dot(x, theta1))**2))/(2*nRow)
                f2 = (np.sum((y-np.dot(x, theta2))**2))/(2*nRow)
                if f1 > f2:
                    a = alpha1
                if f1< f2:
                    b = alpha2
                if np.fabs(a-b) <= e:
                    alpha = (a+b)/2
                    break
            print('optimal alpha is %f' % alpha)
            '''
            ## Get Dk and update Hessian
            theta_old = theta
            theta = theta + alpha * Dk
            ## update the Hessian matrix ##
            H = np.dot(x,theta)
            J = (np.sum((y-H)**2))/(2*nRow)
            ## update 
            print('Itering %d ;cost is:%f' 
%(i+1,J))
            costJ.append(J)
            # here to estimate Hessian #
            # sk = ThetaNew - ThetaOld = alpha * inv(H) *
 Gradient
            sk = theta - theta_old
            #yk = DelX(k+1) - DelX(k)
            DelXK = - (np.dot(np.transpose(y-np.dot(x, theta)),x))/nRow
            DelXk = - (np.dot(np.transpose(y-np.dot(x, 
theta_old)),x))/nRow
            yk = (DelXK - DelXk).reshape(nCol+1, 1)
            #z1 = yk' * H * yk # a value
            #z2 = (sk' * yk) # a value
            z1 = np.dot(np.dot(np.transpose(yk), Hessian), yk)
            z2 = np.dot(np.transpose(sk),yk)
            #z3 = sk * sk' # a matrix
            #z4 = sk * yk' * H # a matrix
            z3 = np.dot(sk, np.transpose(sk))
            z4 = np.dot(np.dot(sk, np.transpose(yk)), Hessian)
            DHessian = (1+z1/z2) * 
(z3/z2) - z4/z2
            Hessian = Hessian + DHessian
            Dk = - np.dot(Hessian, DelXK.reshape(nCol+1,1))
            i = i + 1
    return theta, costJ



## test ##

num = 10000
#theta, costJ = Myfunction_BGD(dataArray, alpha=0.0005, 
numIter=num, eplise=0.4) ##
#theta, costJ = Myfunction_SGD(dataArray, alpha=0.00005,
 numIter=num, eplise=0.4)
#theta, costJ = Myfunction_NGD1(dataArray, alpha=0.0005,
 numIter=num, eplise=0.4) ## alpha is fixed ##
#theta, costJ = Myfunction_NGD2(dataArray, alpha=0.0005,
 numIter=num, eplise=0.4) ## alpha is 1 ##
#theta, costJ = Myfunction_QNGD(dataArray, alpha=0.0005,
 numIter=num, eplise=0.4) ## alpha is searched ##
#theta, costJ = Myfunction_DFP1(dataArray, alpha=0.0005,
 numIter=num, eplise=0.4) ## alpha is fixed ##
#theta, costJ = Myfunction_DFP2(dataArray, alpha=0.0005,
 numIter=num, eplise=0.4) ## alpha is searched ##
theta, costJ = Myfunction_BFGS1(dataArray, alpha=0.0005, numIter=num, eplise=0.4) ## alpha is 
fxied ##
print theta
klen = len(costJ)
leng = np.linspace(1, klen, klen)
plt.plot(leng, costJ)
plt.show()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
  • 66
  • 67
  • 68
  • 69
  • 70
  • 71
  • 72
  • 73
  • 74
  • 75
  • 76
  • 77
  • 78
  • 79
  • 80
  • 81
  • 82
  • 83
  • 84
  • 85
  • 86
  • 87
  • 88
  • 89
  • 90
  • 91
  • 92
  • 93
  • 94
  • 95
  • 96
  • 97
  • 98
  • 99
  • 100
  • 101
  • 102
  • 103
  • 104
  • 105
  • 106
  • 107
  • 108
  • 109
  • 110
  • 111
  • 112
  • 113
  • 114
  • 115
  • 116
  • 117
  • 118
  • 119
  • 120
  • 121
  • 122
  • 123
  • 124
  • 125
  • 126
  • 127
  • 128
  • 129
  • 130
  • 131
  • 132
  • 133
  • 134
  • 135
  • 136
  • 137
  • 138
  • 139
  • 140
  • 141
  • 142
  • 143
  • 144
  • 145
  • 146
  • 147
  • 148
  • 149
  • 150
  • 151
  • 152
  • 153
  • 154
  • 155
  • 156
  • 157
  • 158
  • 159
  • 160
  • 161
  • 162
  • 163
  • 164
  • 165
  • 166
  • 167
  • 168
  • 169
  • 170
  • 171
  • 172
  • 173
  • 174
  • 175
  • 176
  • 177
  • 178
  • 179
  • 180
  • 181
  • 182
  • 183
  • 184
  • 185
  • 186
  • 187
  • 188
  • 189
  • 190
  • 191
  • 192
  • 193
  • 194
  • 195
  • 196
  • 197
  • 198
  • 199
  • 200
  • 201
  • 202
  • 203
  • 204
  • 205
  • 206
  • 207
  • 208
  • 209
  • 210
  • 211
  • 212
  • 213
  • 214
  • 215
  • 216
  • 217
  • 218
  • 219
  • 220
  • 221
  • 222
  • 223
  • 224
  • 225
  • 226
  • 227
  • 228
  • 229
  • 230
  • 231
  • 232
  • 233
  • 234
  • 235
  • 236
  • 237
  • 238
  • 239
  • 240
  • 241
  • 242
  • 243
  • 244
  • 245
  • 246
  • 247
  • 248
  • 249
  • 250
  • 251
  • 252
  • 253
  • 254
  • 255
  • 256
  • 257
  • 258
  • 259
  • 260
  • 261
  • 262
  • 263
  • 264
  • 265
  • 266
  • 267
  • 268
  • 269
  • 270
  • 271
  • 272
  • 273
  • 274
  • 275
  • 276
  • 277
  • 278
  • 279
  • 280
  • 281
  • 282
  • 283
  • 284
  • 285
  • 286
  • 287
  • 288
  • 289
  • 290
  • 291
  • 292
  • 293
  • 294
  • 295
  • 296
  • 297
  • 298
  • 299
  • 300
  • 301
  • 302
  • 303
  • 304
  • 305
  • 306
  • 307
  • 308
  • 309
  • 310
  • 311
  • 312
  • 313
  • 314
  • 315
  • 316
  • 317
  • 318
  • 319
  • 320
  • 321
  • 322
  • 323
  • 324
  • 325
  • 326
  • 327
  • 328
  • 329
  • 330
  • 331
  • 332
  • 333
  • 334
  • 335
  • 336
  • 337
  • 338
  • 339
  • 340
  • 341
  • 342
  • 343
  • 344
  • 345
  • 346
  • 347
  • 348
  • 349
  • 350
  • 351
  • 352
  • 353
  • 354
  • 355
  • 356
  • 357
  • 358
  • 359
  • 360
  • 361
  • 362
  • 363
  • 364
  • 365
  • 366
  • 367
  • 368
  • 369
  • 370
  • 371
  • 372
  • 373
  • 374
  • 375
  • 376
  • 377
  • 378
  • 379
  • 380
  • 381
  • 382
  • 383
  • 384
  • 385
  • 386
  • 387
  • 388
  • 389
  • 390
  • 391
  • 392
  • 393
  • 394
  • 395
  • 396
  • 397
  • 398
  • 399
  • 400
  • 401
  • 402
  • 403
  • 404
  • 405
  • 406
  • 407
  • 408
  • 409
  • 410
  • 411
  • 412
  • 413
  • 414
  • 415
  • 416
  • 417
  • 418
  • 419
  • 420
  • 421
  • 422
  • 423
  • 424
  • 425
  • 426
  • 427
  • 428
  • 429
  • 430
  • 431
  • 432
  • 433
  • 434
  • 435
  • 436
  • 437
  • 438
  • 439
  • 440
  • 441
  • 442
  • 443
  • 444
  • 445
  • 446
  • 447
  • 448
  • 449
  • 450
  • 451
  • 452
  • 453
  • 454
  • 455
  • 456
  • 457
  • 458
  • 459
  • 460
  • 461
  • 462
  • 463
  • 464
  • 465
  • 466
  • 467
  • 468
  • 469
  • 470
  • 471
  • 472
  • 473
  • 474
  • 475
  • 476
  • 477
  • 478
  • 479
  • 480
  • 481
  • 482
  • 483
  • 484
  • 485
  • 486
  • 487
  • 488
  • 489
  • 490
  • 491
  • 492
  • 493
  • 494
  • 495
  • 496
  • 497
  • 498
  • 499
  • 500
  • 501
  • 502
  • 503
  • 504
  • 505
  • 506
  • 507
  • 508
  • 509
  • 510
  • 511
  • 512
  • 513
  • 514
  • 515
  • 516
  • 517
  • 518
  • 519
  • 520
  • 521
  • 522
  • 523
  • 524
  • 525
  • 526
  • 527
  • 528
  • 529
  • 530
  • 531
  • 532
  • 533
  • 534
  • 535
  • 536
  • 537
  • 538
  • 539
  • 540
  • 541
  • 542
  • 543
  • 544
  • 545
  • 546
  • 547
  • 548
  • 549
  • 550
  • 551
  • 552
  • 553
  • 554
  • 555
  • 556
  • 557
  • 558
  • 559
  • 560
  • 561
  • 562
  • 563
  • 564
  • 565
  • 566
  • 567
  • 568
  • 569
  • 570
  • 571
  • 572
  • 573
  • 574
  • 575
  • 576
  • 577
  • 578
  • 579
  • 580
  • 581
  • 582
  • 583
  • 584
  • 585
  • 586
  • 587
  • 588
  • 589
  • 590
  • 591
  • 592
  • 593
  • 594
  • 595
  • 596
  • 597
  • 598
  • 599
  • 600
  • 601
  • 602
  • 603
  • 604
  • 605
  • 606
  • 607
  • 608
  • 609
  • 610
  • 611
  • 612
  • 613
  • 614
  • 615
  • 616
  • 617
  • 618
  • 619
  • 620
  • 621
  • 622
  • 623
  • 624
  • 625
  • 626
  • 627
  • 628
  • 629
  • 630
  • 631
  • 632
  • 633
  • 634
  • 635
  • 636
  • 637
  • 638
  • 639
  • 640
  • 641
  • 642
  • 643
  • 644
  • 645
  • 646
  • 647
  • 648
  • 649
  • 650
  • 651
  • 652
  • 653
  • 654
  • 655
  • 656
  • 657
  • 658
  • 659
  • 660
  • 661
  • 662
  • 663
  • 664
  • 665
  • 666
  • 667

实验数据和结果展示

数据csv格式

0   28.22401669
1   33.24921693
2   35.82084277
3   36.87096878
4   30.98488531
5   38.78221296
6   38.46753324
7   41.96065845
8   36.82656413
9   35.5081121
10  35.74647181
11  36.17110987
12  37.51165999
13  41.27109257
14  44.03842677
15  48.03001705
16  45.50401843
17  45.02635608
18  51.70574034
19  46.76359881
20  52.6487595
21  48.81383593
22  50.69451254
23  55.54200403
24  54.55639586
25  53.19036223
26  58.89269091
27  54.78884251
28  57.9033951
29  62.21114967
30  64.51025468
31  62.20710537
32  62.94736304
33  60.30447933
34  65.32044406
35  65.82903452
36  66.37872216
37  69.75640553
38  66.02112594
39  65.87119039
40  74.27209751
41  67.57661628
42  73.19444088
43  69.4533117
44  74.91129817
45  71.21187609
46  77.0962545
47  81.95066837
48  78.04636838
49  83.42842526
50  80.40217563
51  78.68650206
52  82.91395215
53  85.09663115
54  88.71540907
55  87.73955
56  89.18654776
57  91.09337441
58  83.95614422
59  93.30683179
60  93.27618596
61  88.07859238
62  89.10667856
63  95.61443666
64  93.39899106
65  94.38258758
66  96.87641802
67  96.87896946
68  97.0094412
69  100.076115
70  104.7619905
71  100.7917093
72  99.85523362
73  106.9018494
74  103.6061063
75  103.4105058
76  106.4304576
77  110.7357249
78  107.0420455
79  107.2834221
80  113.9299496
81  111.2187627
82  116.4100596
83  108.0237256
84  112.7773592
85  117.3464957
86  117.1976807
87  120.0538521
88  114.4584964
89  122.2860022
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
  • 66
  • 67
  • 68
  • 69
  • 70
  • 71
  • 72
  • 73
  • 74
  • 75
  • 76
  • 77
  • 78
  • 79
  • 80
  • 81
  • 82
  • 83
  • 84
  • 85
  • 86
  • 87
  • 88
  • 89
  • 90

结果展示

横轴是迭代次数,纵轴是代价 


Batch Gradient Descent

Batch Gradient Descent- 批量梯度下降法


Stochastic Gradient Descent

Stochastic Gradient Descent- 随机梯度下降法


Newton固定alpha=1

Newton下降法,固定alpha=1


Newton固定alpha=0.0005

Newton下降法,固定alpha=0.0005


DFP,alpha是自适应的

DFP,alpha是一维搜索得到的


阻尼牛顿法,alpha是自适应的

阻尼牛顿法,alpha是一维搜索得到的

总结

  不管什么最优化方法,都是试图去寻找代价下降最快的方向和合适的步幅。



前面介绍了参数寻优的传统方法,梯度下降,牛顿下降等,传统的参数寻优方法,都是提供了下降的方向和大小参考。如果参数非常多,成千上万个参数,很多峰谷时,有没有较好的方法去估计最优解呢。本文介绍的方法就是在没有下降参考的情况下,如何去估计最优解,其中包括遗传算法,粒子群算法,蚁群算法,都是仿生物学算法。

启发式搜索

  启发式搜索就是在状态空间中的搜索对每一个搜索的位置进行评估,得到最好的位置,再从这个位置搜索直到目标。由部分信息对计算产生推理,个体能够基于经验或者个体经验交流改变搜索方式。不同于穷举搜索(网格法)和随机搜索(模拟退火算法)。

遗传算法

  遗传算法(GA)的思想来自于进化论,生物种群具有自我进化的能力,能够不断适应环境,优势劣汰之后得到最优的种群个体。进化的行为主要有选择,遗传,变异,遗传算法希望能够通过将初始解空间进化到一个较好的解空间。 
  遗传算法的大体步骤: 
  1. 初始化候选参数集,并编码为基因序列{ 初始化种群,一组参数编码为一个种群个体,共M个种群个体 }。设定进化代数T。 
  2. 个体评估,计算各个种群个体的适应度{ 适应度描述了该个体对自然环境的适应能力,表征了其个体存活能力和生殖机会}。 
  3. 选择运算,选择是模拟自然选择,把优秀的个体选择出来{基于适应度},以进行后续的遗传和变异。 
  4. 交叉运算,交叉是模拟繁殖后代的基因重组。 
  5. 变异运算,变异是模拟基因突变。 
  6. 经过选择,交叉,变异,生产下一代群体,重复此过程,直到停止条件。 
  适应度函数的设计要求(由目标函数而来): 
  1. 单值,连续,非负,最大化; 
  2. 合理,一致性; 
  3. 计算量小。 
  将目标函数,或者线性变化 Fitness(x)=αF(x)+β ,或者幂函数变换 Fitness(x)=F(x)k ,或者指数变换 Fitness(x)=eαF(x) ,或者Goldbery线性拉伸变换 Fitness(x)=(Cmult1)FavgFmaxFavgF(x)+FmaxCmultFavgFmaxFavgFavg ,或者 Fitness(x)=nmF(x),m=1+lnT,n,  
  遗传算法的优缺点: 
  1. 通用性强,且简单易于理解。 
  2. 潜在的并行性。 
  3. 参数选择经验居多。 
  4. 搜索速度慢。

粒子群算法

  粒子群算法(Particle Swarm Optimization, PSO),是在研究复杂适应系统(Complex Adaptive System, CAS)-鸟群觅食的过程中提出的。 
  CAS系统的主体(系统成员)具有4个基本特点:(这些特点是粒子群算法发展变化的依据) 
  1. 主体是主动的,活动的。 
  2. 主体与环境及其他主体是相互影响、相互作用的,这种影响是系统发展变化的主要动力。 
  3. 环境的影响是宏观的,主体之间的影响是微观的,宏观与微观要有机结合。 
  4. 整个系统可能还要受一些随机因素的影响。 
  鸟群觅食场景:一群鸟随机地找食物,只有一小片区域是有食物的。每个鸟在自己周边蹦跳,然后叫几声,跟同伴交流食物情况。有个鸟说“哎,我这里有吃的”,然后其他鸟都朝着它所在的方向飞,中间停下来再找。重复上面的过程,最后鸟儿都会集中到有食物的地方。其搜索策略是所有参数都向着当前最优参数的区域搜索(搜索目前离食物最近的鸟的周围区域)。 
  粒子群算法的大体步骤: 
  1. 初始化参数集 θi=(θi,1,θi,2,...,θi,n) ,初始速度 Vi ,权重 C1,C2  
  2. 分别搜索各个参数附近的局部最优解 pbest ,选择历史最好的局部最优解作为当前的全局最优解 gbest 。 
  3. 更新速度: 
   Vk+1=WVk+C1rand()(pbestθ)+C2rand()(gbestθ)  
   更新位置(参数): θk+1=θk+rVk+1  
  4. 判断终止条件,不符合则否则重复2,3,4步骤。 
  其中 W 是惯性权重,表示保持原来速度的惯性。 
   C1 是跟踪自己历史最优值的权重系数,表示对自身的认识。 
   C2 是跟踪群体最优的权重系数,表示对整个群体的认识。 
   rand() 是[0,1]内均匀分布的随机数,表示系统受到的随机影响。 
   r 是速度的约束系数。 
  粒子群算法的优缺点: 
  1. 算法规则简单,容易实现。 
  2. 收敛速度快,有很多措施避免陷入局部最优。 
  3. 可调参数少,参数选择有理论支持(Eberhart-A modified particle swarm optimizer)。

蚁群算法

  蚁群算法(ACO)是一种模拟蚂蚁觅食行为的模拟优化算法,其基本思想是:当蚂蚁沿着一条路径到达终点以后会马上返回来,这样,短的路径蚂蚁往返一次的时间就短,意味着重复频率快,因而在单位时间内走过的蚂蚁数量就多,洒下的信息素也就多,自然会有更多的蚂蚁被吸引过来,从而洒下更多的信息素;而长路径则相反,因此最后越来越多的蚂蚁集中到了较短的路径上,最短路径也就近似找到了。 
  信息素:蚂蚁留在路径上用于间接交流的物质,可挥发,。信息素多的地方显然经过的蚂蚁多,也会吸引更多的蚂蚁过来。 
  正反馈:在某一路径走过的蚂蚁越多,信息素越多,蚂蚁选择该路径的概率越大。 
  例子:由蚁群算法解决TSP(Traveling Salesman Problem)问题。TSP问题,在多个城市中,找到访问完所有城市的最短路径。设 C=c1,c2,...cn n 个城市的集合; L=lij|ci,cjC C 中元素两两连接的集合,代表城市之间的路径; dij 表示城市 ci,cj 之间的距离。 G=(C,L) 是一个结构图。 
  蚂蚁系统中的人工蚂蚁特点: 
  1. 蚂蚁依据某一概率函数选择下一步要到的城市,该概率函数是城市间距离 dij 和边上的信息素 τij(t) 的函数。 τij(t) 表示 t 时刻在边 lij 上的信息素。 
  2. 每只蚂蚁只允许走合法路径(除非是一次周游,返回起点),不允许走已经访问过的城市。该过程由禁忌表 tabuk 来控制,蚂蚁 k 经过城市 ci 后,将其加入到禁忌表中,下次走时不能走禁忌表中的城市。 tabuk(s) 表示蚂蚁所走过的第 s 个城市。 
  3. 完成一次周游后,蚂蚁在其访问过的每一条边上留下相应的信息素。 
  蚁群算法解决TSP问题的大体步骤: 
  1. 初始化 
   1.1 位置初始化,将 m 只蚂蚁随机地放到 n 个城市每只蚂蚁的禁忌表的第一个元素设置为其当前所在城市。 
   1.2 信息素初始化,信息素量设为 τij(0)= 。 
  2. 路径查找 
   2.1 下一步路径查找,根据概率 pkij(t) 计算下一步城市,概率 pkij(t) 表示 t 时刻,蚂蚁 k 从城市 ci 转移到城市 cj 的概率。 
  

pkij(t)=[τij(t)]α[ηij(t)]βsJk(i)[τis(t)]α[ηis(t)]β0jJk(i)jJk(i)
   
   其中 Jk(i)=[1,2,3,...,n]tabuk 表示蚂蚁 k 下一步允许选择的城市。当所有 n 个城市都在禁忌表中后,则蚂蚁 k 完成了一次周游,其所走过的路径 tabuk 是一个可行解。 ηij=1/dij 表示蚂蚁从城市 ci 转移到城市 cj 的期望程度。 αβ 分别分别表示信息素和其的相对重要程度。 
   2.2 所有蚂蚁查找完一次周游路径。 
   3. 更新信息素  
  
τij(t+1)=(1ρ)τij(t)+Δτij

  
Δτij=mk=1Δτkij

  
Δτkij={QLk0klij

   其中, ρ(0<ρ<1) 表示边上信息素的蒸发系数, 1ρ 表示信息素的持久系数。 Δτkij 表示第 k 只蚂蚁在本次迭代中留在边 lij 上的信息素。 Q 为正常数, Lk 表示第 k 只蚂蚁在本次周游中所经过的路径的长度。 
   4. 是否符合终止条件 (迭代次数),若不满足,则清空禁忌表(保留第一个值),保留信息素。返回第2步。 
   
   Δτkij 的另外几种形式。 
   Δτkij=Qdij0klij  
   Δτkij={Q0klij  
  包括上面那种,分别称为 antcycle;antquantity;antdensity .信息素与目标函数息息相关,其中 Δτij 表征了代价的大小。 
   蚁群算法的优缺点:  
  1. 蚁群算法是一种自组织算法,基于简单规则(多样性和正反馈规则,前者表现创造力,后者是学习强化能力)。 
  2. 并行性。 
  3.  正反馈 ,引导系统向着最优解方向进化。 
  4. 对初始路线要求不高。 
  5. 参数初始选择原则暂无理论支持。 
  6. 搜索时间较长。 
  7. 会陷入局部解,停滞现象。 
   http://blog.163.com/ykn_2010/blog/static/1420333362012111411258466/  一个蚁群算法的介绍博客。 
   http://www.ailab.cn/algorithm/ant/201110015765.html  蚁群算法的一些文献资源。

免疫算法

  免疫算法是改进了遗传算法的退化问题,因为遗传算法的交叉和变异算子是固定的。

小结

  仿生学。 
  应用广泛。 
  初始集为解集合,而不是单个解。 
  复杂系统,由简单规则支配。

你可能感兴趣的:(自整定,伺服控制,参数寻优,参数整定)