于建民

寻优方法总结：最速下降法，牛顿下降法，阻尼牛顿法，拟牛顿法DFP/BFGS

　　机器学习的一个重要组成部分是如何寻找最优参数解。本文就常见寻优方法进行总结，并给出简单python2.7实现，可能文章有点长，大家耐心些。
　　寻找最优参数解，就是在一块参数区域上，去找到满足约束条件的那组参数。形象描述，比如代价函数是个碗状的，那我们就是去找最底部（代价最小）的那个地方的对应的参数值作为最优解。那么，如何找到那个底部的最优参数解呢，如何由一个初始值，一步一步地接近该最优解呢。寻优方法，提供了靠近最优解的方法，其中涉及到的核心点，无外乎两点：靠近最优解的方向和步幅（每步的长度）。
　　最优化，分为线性最优化理论和非线性最优化理论。其中线性最优化又称线性规划。目标函数和约束条件的表达是线性的， Y=aX ；非线性最优化理论，是非线性的。其中包括梯度法，牛顿法，拟牛顿法（DFP/BFGS），约束变尺度（SQP），Lagrange乘子法，信赖域法等。

算法原理及简单推导

最速下降法（梯度下降法）

　　借助梯度，找到下降最快的方向，大小为最大变化率。
　　 θnew=θold−α∗Gradient
　　梯度：是方向导数中，变化最大的那个方向导数。
　　梯度方向：标量场中增长最快的方向。
　　梯度大小：最大变化率。
　　更新：沿着梯度的负向，更新参数（靠近最优解）。
　　*********************************************
　　 Algorithm:GradientDescent
　　 Input:x−Data;y−Label;α−调节步幅;θ0;Iternum;
　　 Output:θoptimal
　　 Process:
　　　　 1. Initial θ=θ0
　　　　 2. While Loop<Iternum
　　　　　　 H=f(x,θ);模型函数H
　　　　　　 Compute Gradient According to f(x,θ)
　　　　　　 Update θ:=θ−α∗Gradient
　　　　　　 Loop=Loop+1
　　　　 3. Return θ
　　*********************************************
　　梯度下降法
　　优点：方便直观，便于理解。
　　缺点：下降速度慢，有时参数会震荡在最优解附近无法终止。

牛顿下降法

　　牛顿下降法，是通过泰勒展开到二阶，推到出参数更新公式的。
　　 f(x+Δ(x))≈f(x)+f′(x)∗Δ(x)+12∗f′′(x)∗Δ2(x)
　　上式等价于 f′(x)+f′′(x)∗Δ=0
　　从而得到更新公式:
　　 xnew−xold=−f′(x)f′′(x)=−[f′′(x)]−1∗f′(x)
　　调整了参数更新的方向和大小（牛顿方向）。
　　*********************************************
　　 Algorithm:Newton Descent
　　 Input:x−Data;y−label;θ0;ϵ−终止条件;
　　 Ouput:θoptimal
　　 Process:
　　　　 1. Initial θ=θ0
　　　　 2. Compute f′(x,θ)
　　　　　　 if|f′(x),θ)|⩽ϵ
　　　　　　　　 return θoptimal=θ
　　　　　　 else
　　　　　　　　 Compute H=f′′(x,θ)
　　　　　　　　 Dk=−[H]−1∗f′(x,θ)
　　　　　　　　 Update θ:=θ+Dk
　　　　 3. Return step 2
　　*********************************************
　　牛顿下降法
　　优点：对于正定二次函数，迭代一次，就可以得到极小值点。下降的目的性更强。
　　缺点：要求二阶可微分；收敛性对初始点的选取依赖性很大；每次迭代都要计算Hessian矩阵，计算量大；计算Dk时，方程组有时奇异或者病态，无法求解Dk或者Dk不是下降方向。

阻尼牛顿法

　　这是对牛顿法的改进，在求新的迭代点时，以Dk作为搜索方向，进行一维搜索，求步长控制量 α ，使得 α=argminθ[f(θ+α∗Dk)] ，找到 f 下降的 α ，且是 f 下降最大的 α ，然后令 θ=θ+α∗Dk 。克服了牛顿法的奇异和病态方程无解， Dk 非下降的缺点。
　　*********************************************
　　 Algorithm:Damped Newton Descent
　　 Input:x−Data;y−label;θ0;ϵ
　　 Output:θoptimal
　　 Process:
　　　　 1. Initial θ=θ0
　　　　 2. Compute f′(x,θ)
　　　　　　 if|f′(x,θ)|⩽ϵ
　　　　　　　　 Return θoptimal=θ
　　　　　　 else
　　　　　　　　 Compute H=f′′(x,θ)
　　　　　　　　 Dk=−[H]−1∗f′(x,θ)
　　　　　　　　 Compute α According to:
　　　　　　　　 α=argminθ[f(θ+α∗Dk)]
　　　　　　　　 Update θ:=θ+α∗Dk
　　　　 3. Return step 2
　　*********************************************
　　阻尼牛顿法
　　优点：修改了下降方向，使得始终朝着下降的方向迭代。
　　缺点：与牛顿法一样。

一维搜索方法简介

　　一维无约束优化问题 minF(α) ，求解 F(α) 的极小值和极大值的数值迭代方法，即为一维搜索方法。常用的方法包括：试探法（黄金分割法，fibonacci方法，平分法，格点法）；插值法（牛顿法，抛物线法）。
　　（1）确定最优解所在区间[a,b] （进退法）
　　思想：从初始点 α0 开始，以步长 h 前进或者后退，试出三个点 f(α0+h),f(α0),f(α0−h) ，满足大，小，大规律。
　　*********************************************
　　 Process:
　　　　 1. Initial α1=α0;α2=α0+h;
　　　　　　　　　 f1=f(α1;f2=f(α2)
　　　　 2. if f1>f2
　　　　　　 forward,h=2h
　　　　　 else
　　　　　　　 backward,h=−h;
　　　　　　　 swqp(α1,α2);
　　　　　　　 swap(f1,f2);
　　　　 3. Getthe third point, α3=α2+h;f3=f(α3)
　　　　　　 if f3>f2
　　　　　　　　 a=min(α1,α3)
　　　　　　　　 b=max(α1,α3)
　　　　　　　　 Return [a,b]
　　　　　　 if f3<f2 :move the point
　　　　　　　　 α1=α2;f1=f2;
　　　　　　　　 α2=α3;f2=f3;
　　　　 4. Return step 2
　　*********************************************
　　（2）在[a, b]内，找到极小值（黄金分割法和平分法）
　　*********************************************
　　 Process:黄金分割法
　　　　 1. Initial check point
　　　　　　 α1=a+0.382∗(b−a);
　　　　　　 α2=a+0.618∗(b−a);
　　　　　　 f1=f(α1);
　　　　　　 f2=f(α2);
　　　　 2. Change the edge
　　　　　 if f1>f2
　　　　　　 a=α1;b=b;
　　　　　 else
　　　　　　 a=a;b=α2
　　　　 3. Stop condation
　　　　　　 if |a−b|⩽ϵ
　　　　　　　　 Return α=(b+a)/2
　　　　　　 else
　　　　　　　　 Return step 1
　　 Process:平分法（需要求导数）
　　　　 1. Initial check point
　　　　　　 α=(b+a)/2
　　　　 2. Compute gradient f′=f′(α)
　　　　　　 if f′=0,or |f′|<ϵ
　　　　　　　　 Return α
　　　　　　 if f′>0 a=a;b=α;
　　　　　　 if f′<0 a=α;b=b;
　　　　　　 Return step 1
　　*********************************************
　　思考：如何在实际应用中，选择[a, b]，函数 f 是什么样子的？这些问题需要讨论。整个优化的目标是：找到最优 θ ，使得代价 CostJ 最小。故此， f=CostJ 。

拟牛顿法 - DFP法

　　由于牛顿法计算二阶导数，计算量大，故此用其他方法（一阶导数）估计Hessian矩阵的逆。 f(x) 在 Xk+1 处，展开成二阶泰勒级数。
　　 f(x)≈f(xk+1)+f′(xk+1)∗(x−xk+1)+12∗f′′(xk+1)∗(x−xk+1)2
　　 f(x)−f(xk+1)≈f′(xk+1)∗(x−xk+1)+f′′(xk+1)∗(x−xk+1)2
　　两侧同时除以 x−xk+1 则得到：
　　 f′(x)=f′(xk+1)+f′′(xk+1)∗(x−xk+1)
　　 f′(xk+1)−f′(xk)≈f′′(xk+1)∗(xk+1−x)
　　令 sk=xk+1−xk;yk=f′(xk+1)−f′(xk);
　　则 yk=f′′(xk+1)∗sk
　　且 sk=[f′′(xk+1)]−1∗yk
　　用上式来估计Hessian的逆。设 H=[f′′(xk+1)]−1
　　根据H的构造函数不同，分为不同的拟牛顿方法，下面为DFP方法：
　　 Hk+1=Hk+DH
　　 DH=sk∗sk′sk′∗yk−Hk∗yk∗yk′∗Hkyk′∗Hk∗yk
　　*********************************************
　　 Algorithm:DFP Quasi−Newton Method
　　 Input:x−Data;y−Label;θ0;ϵ
　　 Output:θoptimal
　　 Process:
　　　　 1. Initial paraments
　　　　　　 θ=θ0; H=I; Dk=−f′(xk,θ)
　　　　 2. if |f′(xk,θ)|⩽ϵ
　　　　　　 Returnθoptimal=θ
　　　　　 else
　　　　　　 Compute α according to:
　　　　　　 α=argminθ[f(θ+α∗Dk)]
　　　　　　 Update θ:=θ+α∗Dk
　　　　　　 Update H as follow:
　　　　　　　 sk=θk+1−θk
　　　　　　　 yk=f′(xk+1)−f′(xk)
　　　　　　 DH=sk∗sk′sk′∗yk−H∗yk∗yk′∗Hyk′∗H∗yk
　　　　　　 H:=H+DH
　　　　　　 Dk=−H∗f′(xk,θ)
　　　　 3. Return step 2
　　*********************************************
　　拟牛顿法DFP：
　　优点：减少了二阶计算，运算量大大降低。
　　

拟牛顿法 - BFGS法

　　若构造函数如下，则为BFGS法。
　　 Hk+1=Hk+DH
　　 DH=[1+yk′∗Hk∗yksk′∗yk]∗sk∗sk′sk′∗yk−sk∗yk′∗Hksk′∗yk
　　*********************************************
　　 Algorithm: BFGS Quasi−Newton Method
　　 Input:x−Data;y−Label;θ0;ϵ
　　 Output:θoptimal
　　 Process:
　　　　 1. Initial paraments
　　　　　　 θ=θ0;H=I;Dk=−f′(xk,θ);
　　　　 2. if |f′(xk,θ)|⩽ϵ
　　　　　　 Return θoptimal=θ
　　　　　 else
　　　　　　 Compute α according to:
　　　　　　 α=argminα[f(θ+α∗Dk)]
　　　　　　 Update θ:=θ+α∗Dk
　　　　　　 Update H as follow:
　　　　　　　 sk=θk+1−θk
　　　　　　　 yk=f′(xk+1)−f′(xk)
　　　　　　　 DH=[1+yk′∗H∗yksk′∗yk]∗sk∗sk′sk′∗yk−sk∗yk′∗Hsk′∗yk
　　　　　　　 H:=H+DH
　　　　　　　 Dk=−H∗f′(xk,θ)
　　　　 3. Return step 2
　　*********************************************
　　拟牛顿法是无约束最优化方法中最有效的一类算法。

算法的Python实现代码

　　Python2.7需要安装pandas, numpy, scipy, matplotlib。
　　下面给出Windows7下exe方式按照上面模块的简单方法。
　　numpy–http://sourceforge.net/projects/numpy/files/ –这里面也可以找到较新的scipy –
scipy–http://download.csdn.net/detail/caanyee/8241305
pandas-https://pypi.python.org/packages/2.7/p/pandas/pandas-0.12.0.win32-py2.7.exe#md5=80b0b9b891842ef4bdf451ac07b368e5
　　test.py

# coding = utf-8
'''
time: 2015.06.03
author: yujianmin
objection: BGD / SGD / mini-batch GD / QNGD / DFP / BFGS 
实现了批量梯度下降、单个梯度下降； 最速下降法、牛顿下降法、阻尼牛顿法、拟牛顿DFP和BFGS
'''
import pandas as pd
import numpy as np
import scipy as sp
import matplotlib.pyplot as plt
data = pd.read_csv("C:\\Users\\yujianmin\\Desktop\\python\\arraydataR.csv")
print(data.ix[1:5, :])
dataArray = np.array(data)
'''
x = dataArray[:, 0]
y = dataArray[:, 1]
plt.plot(x, y, 'o')
plt.title('data is like this')
plt.xlabel('x feature')
plt.ylabel('y label')
plt.show()
'''
def Myfunction_BGD(data, alpha, numIter, eplise):
    ''' Batch Gradient Descent
    :type data: array  
    :param data: contain x and y(label)
    :type step: int/float numeric
    :param step: length of step when update the theta
    '''
    nCol = data.shape[1]-1
    nRow = data.shape[0]
    print nCol
    print nRow
    x = data[:, :nCol]
    print x[1:5, :]
    z = np.ones(nRow).reshape(nRow, 1)
    x = np.hstack((z, x))  ## vstack merge like rbind in R; hstack like cbind in R;
    y = data[:, (nCol)].reshape(nRow, 1)
    #theta = np.random.random(nCol+1).reshape(nCol+1, 1)
    theta = np.ones(nCol+1).reshape(nCol+1, 1)
    i = 0
    costJ = []
    #eplise = 0.4
    while i < numIter:
        H = np.dot(x,theta)
        J = (np.sum((y-H)**2))/(2*nRow)
        print('Itering %d ;cost is:%f' %(i+1,J))
        costJ.append(J)
        Gradient = (np.dot(np.transpose(y-H),x))/nRow
        Gradient = Gradient.reshape(nCol+1, 1)
        if np.sum(np.fabs(Gradient))<= eplise:
            return theta, costJ
        else:
            ## update
            theta = theta + alpha * Gradient
        i = i + 1
    return theta, costJ

def Myfunction_SGD(data, alpha, numIter, eplise):
    ''' Stochastic Gradient Descent
    :type data: array  
    :param data: contain x and y(label)
    :type step: int/float numeric
    :param step: length of step when update the theta
    '''
    nCol = data.shape[1]-1
    nRow = data.shape[0]
    print nCol
    print nRow
    x = data[:, :nCol]
    print x[1:5, :]
    z = np.ones(nRow).reshape(nRow, 1)
    x = np.hstack((z, x))  ## vstack merge like rbind in R; hstack like cbind in R;
    y = data[:, (nCol)].reshape(nRow, 1)
    #theta = np.random.random(nCol+1).reshape(nCol+1, 1)
    theta = np.ones(nCol+1).reshape(nCol+1, 1)
    Loop = 0
    costJ = []
    while Loop 2)/(2*nRow)
        print('Itering %d ;cost is:%f' %(Loop+1,J))
        costJ.append(J)
        i = 0
        while i 1, 1)
            theta = theta + alpha * Gradient
            i = i + 1
        #eplise = 0.4
        Gradient = (np.dot(np.transpose(y-H),x))/nRow
        if np.sum(np.fabs(Gradient))<= eplise:
            return theta, costJ
        Loop = Loop + 1
    return theta, costJ


def Myfunction_NGD1(data, alpha, numIter, eplise):
    ''' Newton Gradient Descent -- theta := theta - alpha*[f'']^(-1)*f'
    :type data: array  
    :param data: contain x and y(label)
    :type step: int/float numeric
    :param step: length of step when update the theta
    :reference:http://www.doc88.com/p-145660070193.html
    :hessian = transpos(x) * x 
    '''
    nCol = data.shape[1]-1
    nRow = data.shape[0]
    print nCol
    print nRow
    x = data[:, :nCol]
    print x[1:5, :]
    z = np.ones(nRow).reshape(nRow, 1)
    x = np.hstack((z, x))  ## vstack merge like rbind in R; hstack like cbind in R;
    y = data[:, (nCol)].reshape(nRow, 1)
    #theta = np.random.random(nCol+1).reshape(nCol+1, 1)
    theta = np.ones(nCol+1).reshape(nCol+1, 1)
    i = 0
    costJ = []
    while i < numIter:
        H = np.dot(x,theta)
        J = (np.sum((y-H)**2))/(2*nRow)
        ## update
        print('Itering %d ;cost is:%f' %(i+1,J))
        costJ.append(J)
        Gradient = (np.dot(np.transpose(y-H),x))/nRow
        Gradient = Gradient.reshape(nCol+1, 1)
        #eplise = 0.4
        if np.sum(np.fabs(Gradient))<=eplise:
            return theta, costJ
        Hessian = np.dot(np.transpose(x), x)/nRow
        theta = theta + alpha * np.dot(np.linalg.inv(Hessian), Gradient)
        #theta = theta + np.dot(np.linalg.inv(Hessian), Gradient)
        i = i + 1
    return theta, costJ


def Myfunction_NGD2(data, alpha, numIter, eplise):
    ''' Newton Gradient Descent -- theta := theta - [f'']^(-1)*f'
    :type data: array  
    :param data: contain x and y(label)
    :type step: int/float numeric
    :param step: length of step when update the theta
    :reference:http://www.doc88.com/p-145660070193.html
    :hessian = transpos(x) * x 
    '''
    nCol = data.shape[1]-1
    nRow = data.shape[0]
    print nCol
    print nRow
    x = data[:, :nCol]
    print x[1:5, :]
    z = np.ones(nRow).reshape(nRow, 1)
    x = np.hstack((z, x))  ## vstack merge like rbind in R; hstack like cbind in R;
    y = data[:, (nCol)].reshape(nRow, 1)
    #theta = np.random.random(nCol+1).reshape(nCol+1, 1)
    theta = np.ones(nCol+1).reshape(nCol+1, 1)
    i = 0
    costJ = []
    while i < numIter:
        H = np.dot(x,theta)
        J = (np.sum((y-H)**2))/(2*nRow)
        ## update
        print('Itering %d ;cost is:%f' %(i+1,J))
        costJ.append(J)
        Gradient = (np.dot(np.transpose(y-H),x))/nRow
        Gradient = Gradient.reshape(nCol+1, 1)
        #eplise = 0.4
        if np.sum(np.fabs(Gradient)) <= eplise:
            return theta, costJ
        Hessian = np.dot(np.transpose(x), x)/nRow
        theta = theta + np.dot(np.linalg.inv(Hessian), Gradient)
        i = i + 1
    return theta, costJ

def Myfunction_QNGD(data, alpha, numIter, eplise):
    ''' Newton Gradient Descent -- theta := theta - alpha* [f'']^(-1)*f'--
            alpha is search by ForwardAndBack method and huang jin fen ge 
    :type data: array  
    :param data: contain x and y(label)
    :type step: int/float numeric
    :param step: length of step when update the theta
    :reference:http://www.doc88.com/p-145660070193.html
    :hessian = transpos(x) * x 
    '''
    nCol = data.shape[1]-1
    nRow = data.shape[0]
    print nCol
    print nRow
    x = data[:, :nCol]
    print x[1:5, :]
    z = np.ones(nRow).reshape(nRow, 1)
    x = np.hstack((z, x))  ## vstack merge like rbind in R; hstack like cbind in R;
    y = data[:, (nCol)].reshape(nRow, 1)
    #theta = np.random.random(nCol+1).reshape(nCol+1, 1)
    theta = np.ones(nCol+1).reshape(nCol+1, 1)
    i = 0
    costJ = []
    #eplise = 0.4
    while i < numIter:
        H = np.dot(x,theta)
        J = (np.sum((y-H)**2))/(2*nRow)
        ## update
        print('Itering %d ;cost is:%f' %(i+1,J))
        costJ.append(J)
        Gradient = (np.dot(np.transpose(y-H),x))/nRow
        Gradient = Gradient.reshape(nCol+1, 1)
        if np.sum(np.fabs(Gradient))<= eplise:
            return theta, costJ
        else:
            Hessian = np.dot(np.transpose(x), x)/nRow
            Dk = - np.dot(np.linalg.inv(Hessian), Gradient)
            ## find optimal [a,b] which contain optimal alpha
            ## optimal alpha lead to min{f(theta + alpha*DK)}
            alpha0 = 0
            h = np.random.random(1)
            alpha1 = alpha0
            alpha2 = alpha0 + h
            theta1 = theta + alpha1 * Dk
            theta2 = theta + alpha2 * Dk
            f1 = (np.sum((y-np.dot(x, theta1))**2))/(2*nRow)
            f2 = (np.sum((y-np.dot(x, theta2))**2))/(2*nRow)
            Loop = 1
            a = 0
            b = 0
            while Loop >0:
                print(' find [a,b] loop is %d' %Loop)
                Loop = Loop + 1
                if f1 > f2:
                    h = 2*h
                else:
                    h = -h
                    (alpha1, alpha2) = (alpha2, alpha1)
                    (f1, f2) = (f2, f1)
                alpha3 = alpha2 + h
                theta3 = theta + alpha3 * Dk
                f3 = (np.sum((y-np.dot(x, theta3))**2))/(2*nRow)
                print('f3 - f2 is %f' %(f3-f2))
                if f3 > f2:
                    a = min(alpha1, alpha3)
                    b = max(alpha1, alpha3)
                    break
                if f3 <= f2:
                    alpha1 = alpha2
                    alpha2 = alpha3
                    f1 = f2 
                    f2 = f3
            ## find optiaml alpha in [a,b] using huang jin fen ge fa 
            e = 0.01
            while Loop >0:
                alpha1 = a + 0.382 * (b - a)
                alpha2 = a + 0.618 * (b - a)
                theta1 = theta + alpha1* Dk
                theta2 = theta + alpha2* Dk
                f1 = (np.sum((y-np.dot(x, theta1))**2))/(2*nRow)
                f2 = (np.sum((y-np.dot(x, theta2))**2))/(2*nRow)
                if f1 > f2:
                    a = alpha1
                if f1< f2:
                    b = alpha2
                if np.fabs(a-b) <= e:
                    alpha = (a+b)/2
                    break
            print('optimal alpha is %f' % alpha)
            theta = theta + alpha * Dk
        i = i + 1
    return theta, costJ


def Myfunction_DFP2(data, alpha, numIter, eplise):
    ''' DFP -- theta := theta + alpha * Dk 
              --alpha is searched by huangjin method 
              --satisfied argmin{f(theta+alpha*Dk)}##
    :type data: array  
    :param data: contain x and y(label)
    :type step: int/float numeric
    :param step: length of step when update the theta
    :reference:http://blog.pfan.cn/miaowei/52925.html
    :reference:http://max.book118.com/html/2012/1025/3119007.shtm ## important ##
    :hessian is estimated by DFP method.
    '''
    nCol = data.shape[1]-1
    nRow = data.shape[0]
    print nCol
    print nRow
    x = data[:, :nCol]
    print x[1:5, :]
    z = np.ones(nRow).reshape(nRow, 1)
    x = np.hstack((z, x))  ## vstack merge like rbind in R; hstack like cbind in R;
    y = data[:, (nCol)].reshape(nRow, 1)
    #theta = np.random.random(nCol+1).reshape(nCol+1, 1)
    theta = np.ones(nCol+1).reshape(nCol+1, 1)
    i = 0
    costJ = []
    Hessian = np.eye(nCol+1)
    H = np.dot(x,theta)
    J = (np.sum((y-H)**2))/(2*nRow)
    #costJ.append(J)
    Gradient = (np.dot(np.transpose(y-H),x))/nRow
    Gradient = Gradient.reshape(nCol+1, 1)
    Dk = - Gradient
    #eplise = 0.4
    while i < numIter:
        if(np.sum(np.fabs(Dk)) <= eplise ): ## stop condition ##
            return theta, costJ
        else:
            ## find alpha that min f(thetaK + alpha * Dk)
            ## find optimal [a,b] which contain optimal alpha
            ## optimal alpha lead to min{f(theta + alpha*DK)}
            alpha0 = 0
            h = np.random.random(1)
            alpha1 = alpha0
            alpha2 = alpha0 + h
            theta1 = theta + alpha1 * Dk
            theta2 = theta + alpha2 * Dk
            f1 = (np.sum((y-np.dot(x, theta1))**2))/(2*nRow)
            f2 = (np.sum((y-np.dot(x, theta2))**2))/(2*nRow)
            Loop = 1
            a = 0
            b = 0
            while Loop >0:
                print(' find [a,b] loop is %d' %Loop)
                Loop = Loop + 1
                if f1 > f2:
                    h = 2*h
                else:
                    h = -h
                    (alpha1, alpha2) = (alpha2, alpha1)
                    (f1, f2) = (f2, f1)
                alpha3 = alpha2 + h
                theta3 = theta + alpha3 * Dk
                f3 = (np.sum((y-np.dot(x, theta3))**2))/(2*nRow)
                print('f3 - f2 is %f' %(f3-f2))
                if f3 > f2:
                    a = min(alpha1, alpha3)
                    b = max(alpha1, alpha3)
                    break
                if f3 <= f2:
                    alpha1 = alpha2
                    alpha2 = alpha3
                    f1 = f2 
                    f2 = f3
            ## find optiaml alpha in [a,b] using huang jin fen ge fa 
            e = 0.01
            while Loop >0:
                alpha1 = a + 0.382 * (b - a)
                alpha2 = a + 0.618 * (b - a)
                theta1 = theta + alpha1* Dk
                theta2 = theta + alpha2* Dk
                f1 = (np.sum((y-np.dot(x, theta1))**2))/(2*nRow)
                f2 = (np.sum((y-np.dot(x, theta2))**2))/(2*nRow)
                if f1 > f2:
                    a = alpha1
                if f1< f2:
                    b = alpha2
                if np.fabs(a-b) <= e:
                    alpha = (a+b)/2
                    break
            print('optimal alpha is %f' % alpha)

            theta_old = theta
            theta = theta + alpha * Dk
            ## update the Hessian matrix ##
            H = np.dot(x,theta)
            J = (np.sum((y-H)**2))/(2*nRow)
            ## update 
            print('Itering %d ;cost is:%f' %(i+1,J))
            costJ.append(J)
            # here to estimate Hessian'inv #
            # sk = ThetaNew - ThetaOld = alpha * inv(H) * Gradient
            sk = theta - theta_old
            #yk = DelX(k+1) - DelX(k)
            DelXK = - (np.dot(np.transpose(y-np.dot(x, theta)),x))/nRow
            DelXk = - (np.dot(np.transpose(y-np.dot(x, theta_old)),x))/nRow
            yk = (DelXK - DelXk).reshape(nCol+1, 1)
            #z1 = (sk * sk') # a matrix
            #z2 = (sk' * yk) # a value
            z1 = sk * np.transpose(sk)
            z2 = np.dot(np.transpose(sk),yk)
            #z3 = (H * yk * yk' * H) # a matrix
            #z4 = (yk' * H * yk) # a value
            z3 = np.dot(np.dot(np.dot(Hessian, yk), np.transpose(yk)), Hessian)
            z4 = np.dot(np.dot(np.transpose(yk), Hessian),yk)
            DHessian = z1/z2 - z3/z4
            Hessian = Hessian + DHessian
            Dk = - np.dot(Hessian, DelXK.reshape(nCol+1,1))


        i = i + 1
    return theta, costJ

def Myfunction_DFP1(data, alpha, numIter, eplise):
    ''' DFP -- theta := theta + alpha * Dk
               alpha is fixed ##
    :type data: array 
    :param data: contain x and y(label) 
    :type step: int/float numeric
    :param step: length of step when update the theta
    :reference:http://blog.pfan.cn/miaowei/52925.html
    :reference:http://max.book118.com/html/2012/1025/3119007.shtm ## important ##
    :hessian is estimated by DFP method.
    '''
    nCol = data.shape[1]-1
    nRow = data.shape[0]
    print nCol
    print nRow
    x = data[:, :nCol]
    print x[1:5, :]
    z = np.ones(nRow).reshape(nRow, 1)
    x = np.hstack((z, x))  ## vstack merge like rbind in R; hstack like cbind in R;
    y = data[:, (nCol)].reshape(nRow, 1)
    #theta = np.random.random(nCol+1).reshape(nCol+1, 1)
    theta = np.ones(nCol+1).reshape(nCol+1, 1)
    i = 0
    costJ = []
    Hessian = np.eye(nCol+1)
    H = np.dot(x,theta)
    J = (np.sum((y-H)**2))/(2*nRow)
    #costJ.append(J)
    Gradient = (np.dot(np.transpose(y-H),x))/nRow
    Gradient = Gradient.reshape(nCol+1, 1)
    Dk = - Gradient
    #eplise = 0.4
    while i < numIter:
        if(np.sum(np.fabs(Dk)) <= eplise ): ## stop condition ##
            return theta, costJ
        else:
            ## find alpha that min f(thetaK + alpha * Dk)
            ## here for simple alpha is parameter 'alpha'
            alpha = alpha
            theta_old = theta
            theta = theta + alpha * Dk
            ## update the Hessian matrix ##
            H = np.dot(x,theta)
            J = (np.sum((y-H)**2))/(2*nRow)
            ## update 
            print('Itering %d ;cost is:%f' %(i+1,J))
            costJ.append(J)
            # here to estimate Hessian'inv #
            # sk = ThetaNew - ThetaOld = alpha * inv(H) * Gradient
            sk = theta - theta_old
            #yk = DelX(k+1) - DelX(k)
            DelXK = - (np.dot(np.transpose(y-np.dot(x, theta)),x))/nRow
            DelXk = - (np.dot(np.transpose(y-np.dot(x, theta_old)),x))/nRow
            yk = (DelXK - DelXk).reshape(nCol+1, 1)
            #z1 = (sk * sk') # a matrix
            #z2 = (sk' * yk) # a value
            z1 = sk * np.transpose(sk)
            z2 = np.dot(np.transpose(sk),yk)
            #z3 = (H * yk * yk' * H) # a matrix
            #z4 = (yk' * H * yk) # a value
            z3 = np.dot(np.dot(np.dot(Hessian, yk), np.transpose(yk)), Hessian)
            z4 = np.dot(np.dot(np.transpose(yk), Hessian),yk)
            DHessian = z1/z2 - z3/z4
            Hessian = Hessian + DHessian
            Dk = - np.dot(Hessian, DelXK.reshape(nCol+1,1))
            i = i + 1
    return theta, costJ

def Myfunction_BFGS1(data, alpha, numIter, eplise):
    ''' BFGS 
    :type data: array  
    :param data: contain x and y(label)
    :type step: int/float numeric
    :param step: length of step when update the theta
    :reference:http://blog.pfan.cn/miaowei/52925.html
    :reference:http://max.book118.com/html/2012/1025/3119007.shtm ## important ##
    :hessian is estimated by BFGS method.
    '''
    nCol = data.shape[1]-1
    nRow = data.shape[0]
    print nCol
    print nRow
    x = data[:, :nCol]
    print x[1:5, :]
    z = np.ones(nRow).reshape(nRow, 1)
    x = np.hstack((z, x))  ## vstack merge like rbind in R; hstack like cbind in R;
    y = data[:, (nCol)].reshape(nRow, 1)
    #theta = np.random.random(nCol+1).reshape(nCol+1, 1)
    theta = np.ones(nCol+1).reshape(nCol+1, 1)
    i = 0
    costJ = []
    Hessian = np.eye(nCol+1)
    H = np.dot(x,theta)
    J = (np.sum((y-H)**2))/(2*nRow)
    #costJ.append(J)
    Gradient = (np.dot(np.transpose(y-H),x))/nRow
    Gradient = Gradient.reshape(nCol+1, 1)
    Dk = - Gradient
    #eplise = 0.4
    while i < numIter:
        if(np.sum(np.fabs(Dk)) <= eplise ): ## stop condition ##
            return theta, costJ
        else:
            ## find alpha that min J(thetaK + alpha * Dk)
            ## here for simple alpha is parameter 'alpha'
            alpha = alpha
            theta_old = theta
            theta = theta + alpha * Dk
            ## update the Hessian matrix ##
            H = np.dot(x,theta)
            J = (np.sum((y-H)**2))/(2*nRow)
            ## update 
            print('Itering %d ;cost is:%f' %(i+1,J))
            costJ.append(J)
            # here to estimate Hessian #
            # sk = ThetaNew - ThetaOld = alpha * inv(H) * Gradient
            sk = theta - theta_old
            #yk = DelX(k+1) - DelX(k)
            DelXK = - (np.dot(np.transpose(y-np.dot(x, theta)),x))/nRow
            DelXk = - (np.dot(np.transpose(y-np.dot(x, theta_old)),x))/nRow
            yk = (DelXK - DelXk).reshape(nCol+1, 1)
            #z1 = yk' * H * yk # a value
            #z2 = (sk' * yk) # a value
            z1 = np.dot(np.dot(np.transpose(yk), Hessian), yk)
            z2 = np.dot(np.transpose(sk),yk)
            #z3 = sk * sk' # a matrix
            #z4 = sk * yk' * H # a matrix
            z3 = np.dot(sk, np.transpose(sk))
            z4 = np.dot(np.dot(sk, np.transpose(yk)), Hessian)
            DHessian = (1+z1/z2) * (z3/z2) - z4/z2
            Hessian = Hessian + DHessian
            Dk = - np.dot(Hessian, DelXK.reshape(nCol+1,1))
            i = i + 1
    return theta, costJ


def Myfunction_BFGS2(data, alpha, numIter, eplise):
    ''' BFGS 
    :type data: array  
    :param data: contain x and y(label)
    :type step: int/float numeric
    :param step: length of step when update the theta
    :reference:http://blog.pfan.cn/miaowei/52925.html
    :reference:http://max.book118.com/html/2012/1025/3119007.shtm ## important ##
    :hessian is estimated by BFGS method.
    '''
    nCol = data.shape[1]-1
    nRow = data.shape[0]
    print nCol
    print nRow
    x = data[:, :nCol]
    print x[1:5, :]
    z = np.ones(nRow).reshape(nRow, 1)
    x = np.hstack((z, x))  ## vstack merge like rbind in R; hstack like cbind in R;
    y = data[:, (nCol)].reshape(nRow, 1)
    #theta = np.random.random(nCol+1).reshape(nCol+1, 1)
    theta = np.ones(nCol+1).reshape(nCol+1, 1)
    i = 0
    costJ = []
    Hessian = np.eye(nCol+1)
    H = np.dot(x,theta)
    J = (np.sum((y-H)**2))/(2*nRow)
    #costJ.append(J)
    Gradient = (np.dot(np.transpose(y-H),x))/nRow
    Gradient = Gradient.reshape(nCol+1, 1)
    Dk = - Gradient
    #eplise = 0.4
    while i < numIter:
        if(np.sum(np.fabs(Dk)) <= eplise ): ## stop condition ##
            return theta, costJ
        else:
            ## find alpha that min J(thetaK + alpha * Dk)
            alpha = alpha
            ## find optimal [a,b] which contain optimal alpha
            ## optimal alpha lead to min{f(theta + alpha*DK)}
            '''
            alpha0 = 0
            h = np.random.random(1)
            alpha1 = alpha0
            alpha2 = alpha0 + h
            theta1 = theta + alpha1 * Dk
            theta2 = theta + alpha2 * Dk
            f1 = (np.sum((y-np.dot(x, theta1))**2))/(2*nRow)
            f2 = (np.sum((y-np.dot(x, theta2))**2))/(2*nRow)
            Loop = 1
            a = 0
            b = 0
            while Loop >0:
                print(' find [a,b] loop is %d' %Loop)
                Loop = Loop + 1
                if f1 > f2:
                    h = 2*h
                else:
                    h = -h
                    (alpha1, alpha2) = (alpha2, alpha1)
                    (f1, f2) = (f2, f1)
                alpha3 = alpha2 + h
                theta3 = theta + alpha3 * Dk
                f3 = (np.sum((y-np.dot(x, theta3))**2))/(2*nRow)
                print('f3 - f2 is %f' %(f3-f2))
                if f3 > f2:
                    a = min(alpha1, alpha3)
                    b = max(alpha1, alpha3)
                    break
                if f3 <= f2:
                    alpha1 = alpha2
                    alpha2 = alpha3
                    f1 = f2 
                    f2 = f3
            ## find optiaml alpha in [a,b] using huang jin fen ge fa 
            e = 0.01
            while Loop >0:
                alpha1 = a + 0.382 * (b - a)
                alpha2 = a + 0.618 * (b - a)
                theta1 = theta + alpha1* Dk
                theta2 = theta + alpha2* Dk
                f1 = (np.sum((y-np.dot(x, theta1))**2))/(2*nRow)
                f2 = (np.sum((y-np.dot(x, theta2))**2))/(2*nRow)
                if f1 > f2:
                    a = alpha1
                if f1< f2:
                    b = alpha2
                if np.fabs(a-b) <= e:
                    alpha = (a+b)/2
                    break
            print('optimal alpha is %f' % alpha)
            '''
            ## Get Dk and update Hessian
            theta_old = theta
            theta = theta + alpha * Dk
            ## update the Hessian matrix ##
            H = np.dot(x,theta)
            J = (np.sum((y-H)**2))/(2*nRow)
            ## update 
            print('Itering %d ;cost is:%f' %(i+1,J))
            costJ.append(J)
            # here to estimate Hessian #
            # sk = ThetaNew - ThetaOld = alpha * inv(H) * Gradient
            sk = theta - theta_old
            #yk = DelX(k+1) - DelX(k)
            DelXK = - (np.dot(np.transpose(y-np.dot(x, theta)),x))/nRow
            DelXk = - (np.dot(np.transpose(y-np.dot(x, theta_old)),x))/nRow
            yk = (DelXK - DelXk).reshape(nCol+1, 1)
            #z1 = yk' * H * yk # a value
            #z2 = (sk' * yk) # a value
            z1 = np.dot(np.dot(np.transpose(yk), Hessian), yk)
            z2 = np.dot(np.transpose(sk),yk)
            #z3 = sk * sk' # a matrix
            #z4 = sk * yk' * H # a matrix
            z3 = np.dot(sk, np.transpose(sk))
            z4 = np.dot(np.dot(sk, np.transpose(yk)), Hessian)
            DHessian = (1+z1/z2) * (z3/z2) - z4/z2
            Hessian = Hessian + DHessian
            Dk = - np.dot(Hessian, DelXK.reshape(nCol+1,1))
            i = i + 1
    return theta, costJ



## test ##

num = 10000
#theta, costJ = Myfunction_BGD(dataArray, alpha=0.0005, numIter=num, eplise=0.4) ##
#theta, costJ = Myfunction_SGD(dataArray, alpha=0.00005, numIter=num, eplise=0.4)
#theta, costJ = Myfunction_NGD1(dataArray, alpha=0.0005, numIter=num, eplise=0.4) ## alpha is fixed ##
#theta, costJ = Myfunction_NGD2(dataArray, alpha=0.0005, numIter=num, eplise=0.4) ## alpha is 1 ##
#theta, costJ = Myfunction_QNGD(dataArray, alpha=0.0005, numIter=num, eplise=0.4) ## alpha is searched ##
#theta, costJ = Myfunction_DFP1(dataArray, alpha=0.0005, numIter=num, eplise=0.4) ## alpha is fixed ##
#theta, costJ = Myfunction_DFP2(dataArray, alpha=0.0005, numIter=num, eplise=0.4) ## alpha is searched ##
theta, costJ = Myfunction_BFGS1(dataArray, alpha=0.0005, numIter=num, eplise=0.4) ## alpha is fxied ##
print theta
klen = len(costJ)
leng = np.linspace(1, klen, klen)
plt.plot(leng, costJ)
plt.show()

实验数据和结果展示

数据csv格式

0   28.22401669
1   33.24921693
2   35.82084277
3   36.87096878
4   30.98488531
5   38.78221296
6   38.46753324
7   41.96065845
8   36.82656413
9   35.5081121
10  35.74647181
11  36.17110987
12  37.51165999
13  41.27109257
14  44.03842677
15  48.03001705
16  45.50401843
17  45.02635608
18  51.70574034
19  46.76359881
20  52.6487595
21  48.81383593
22  50.69451254
23  55.54200403
24  54.55639586
25  53.19036223
26  58.89269091
27  54.78884251
28  57.9033951
29  62.21114967
30  64.51025468
31  62.20710537
32  62.94736304
33  60.30447933
34  65.32044406
35  65.82903452
36  66.37872216
37  69.75640553
38  66.02112594
39  65.87119039
40  74.27209751
41  67.57661628
42  73.19444088
43  69.4533117
44  74.91129817
45  71.21187609
46  77.0962545
47  81.95066837
48  78.04636838
49  83.42842526
50  80.40217563
51  78.68650206
52  82.91395215
53  85.09663115
54  88.71540907
55  87.73955
56  89.18654776
57  91.09337441
58  83.95614422
59  93.30683179
60  93.27618596
61  88.07859238
62  89.10667856
63  95.61443666
64  93.39899106
65  94.38258758
66  96.87641802
67  96.87896946
68  97.0094412
69  100.076115
70  104.7619905
71  100.7917093
72  99.85523362
73  106.9018494
74  103.6061063
75  103.4105058
76  106.4304576
77  110.7357249
78  107.0420455
79  107.2834221
80  113.9299496
81  111.2187627
82  116.4100596
83  108.0237256
84  112.7773592
85  117.3464957
86  117.1976807
87  120.0538521
88  114.4584964
89  122.2860022

结果展示

横轴是迭代次数，纵轴是代价

Batch Gradient Descent- 批量梯度下降法

Stochastic Gradient Descent- 随机梯度下降法

Newton下降法，固定alpha=1

Newton下降法，固定alpha=0.0005

DFP，alpha是一维搜索得到的

阻尼牛顿法，alpha是一维搜索得到的

总结

　　不管什么最优化方法，都是试图去寻找代价下降最快的方向和合适的步幅。

你可能感兴趣的:(技术博客)

走进Java：JDK和JRE分别是什么？它们有什么区别？老鼠只爱大米 java Java面试 Java面试攻略 Java高频面试题 JRE JDK
目录引言一、概述二、JRE（JavaRuntimeEnvironment）三、JDK（JavaDevelopmentKit）四、安装和配置五、区别和联系六、总结引言 Java是一门非常流行的编程语言，被广泛应用于各个领域的软件开发。在Java开发中，JRE和JDK是两个重要的概念，它们有着不同的作用和功能。本篇技术博客将会介绍JRE和JDK的概念、组成部分、安装和配置、以及它们之间的区别和联系。
一周掌握 Java 入门知识 bavDHAUO java
学习目标：提示：这里可以添加学习目标例如：一周掌握Java入门知识学习内容：提示：这里可以添加要学的内容例如：搭建Java开发环境掌握Java基本语法掌握条件语句掌握循环语句学习时间：提示：这里可以添加计划学习的时间例如：周一至周五晚上7点—晚上9点周六上午9点-上午11点周日下午3点-下午6点学习产出：提示：这里统计学习计划的总量例如：技术笔记2遍CSDN技术博客3篇习的vlog视频1个
一周掌握 Java 入门知识 scaFHIO java
学习目标：提示：这里可以添加学习目标例如：一周掌握Java入门知识学习内容：提示：这里可以添加要学的内容例如：搭建Java开发环境掌握Java基本语法掌握条件语句掌握循环语句学习时间：提示：这里可以添加计划学习的时间例如：周一至周五晚上7点—晚上9点周六上午9点-上午11点周日下午3点-下午6点学习产出：提示：这里统计学习计划的总量例如：技术笔记2遍CSDN技术博客3篇习的vlog视频1个
一周掌握 Java 入门知识 eahba java
学习目标：提示：这里可以添加学习目标例如：一周掌握Java入门知识学习内容：提示：这里可以添加要学的内容例如：搭建Java开发环境掌握Java基本语法掌握条件语句掌握循环语句学习时间：提示：这里可以添加计划学习的时间例如：周一至周五晚上7点—晚上9点周六上午9点-上午11点周日下午3点-下午6点学习产出：提示：这里统计学习计划的总量例如：技术笔记2遍CSDN技术博客3篇习的vlog视频1个
安全研究员职业提升路径 rockmelodies 人工智能 deepseek
阶段一：基础能力沉淀期（0-3年）目标薪资：15-30万/年（国内）核心技能掌握渗透测试全流程（Web/App/内网）熟练使用BurpSuite、Metasploit、IDAPro等工具理解漏洞原理（如OWASPTop10、CVE漏洞复现）获得OSCP认证（实战渗透黄金标准）变现策略参与众测平台（HackerOne/Bugcrowd），积累漏洞奖金撰写技术博客，建立个人技术品牌参与企业红队外包项目
10年Android经验老程序员浅谈职业发展：非科班出身程序员如何弥补技术差距进入好公司？ 2401_86964502 android
依靠书本进行深入学习尽管技术博客或者社区论坛上的大神很多，但阅读一本书仍是系统习得知识的最好途径转型要趁早对程序员这份工作而言，越晚转型的代价越大Android进阶学习资源分享总而言之，成功是留给准备好的人的。之前为了跳槽大厂花半年时间从各路大佬那里整理了一份大厂的《Android开发2020年度面试真题合集》，深入学习源码底层，架构设计。而已也刷了很多大厂面试真题。也切身体会到了一分耕耘一分收获
转换树结构数据 keep one's resolveY Java基础知识 java
java中把一个list转tree的三种方法——工具类_javalist转tree-CSDN博客java如何将一个list转换为树形结构javalist转tree_jiecho的技术博客_51CTO博客
技术人如何利用 github+Jekyll ，搭建一个独立免费的技术博客琅琊閣的小法師 github
上次有人留言说，技术博客是程序员的标配，但据我所知绝大部分技术同学到现在仍然没有自己的技术博客。原因有很多，有的是懒的写，有的是怕写不好，还有的是一直想憋个大招，幻想做到完美再发出来，结果一直胎死腹中。但其实更多程序员是不知道如何去搭建一个博客，其实如今搭建一个个人技术博客非常简单，其中最简单搭建方式莫属使用GitHubPages+Jekyll了，我的博客就是使用这种技术。GitHubPagesG
技术博客架构升级：解锁高效写作新体验 github-pages
最近我对自己的技术博客架构做了一次重要升级，实现了文章内容与静态网站生成器的完全解耦。这个方案让写作回归纯粹，同时保持了自动化部署的优势。以下是具体的实现方案：️方案架构主仓库：flowstone/flowstone.github.io主仓库仅保留静态网站生成器的相关配置，果断移除了所有文章内容。如此一来，主仓库更加简洁，专注于网站生成的核心配置工作，为后续的自动化部署奠定坚实基础。文章仓库：fl
Ubuntu20.04安装python2和python3及版本配置朋也透william python 开发语言
Ubuntu20.04安装python2和python3及版本配置_ubuntu20.04python3-CSDN博客https://blog.csdn.net/pangc2014/article/details/117407413>>>ubuntu安装源码python2_mob649e8161c39d的技术博客_51CTO博客https://blog.51cto.com/u_16175489/7
构建一个写作助手Agent：提升创作效率的实践人工智能机器学习
在上一篇文章中,我们讨论了如何构建一个翻译助手Agent。今天,我想分享另一个实际项目:如何构建一个写作助手Agent。这个项目源于我们一个内容团队的真实需求-提升创作效率,保障内容质量。从创作痛点说起记得和内容团队讨论时的场景：小王：每天要写很多文章,有时候会卡壳小李：是啊,而且要保持文风一致也很难我：主要是哪些写作场景？小王：技术博客、产品文案、运营文章这些我：这些场景很适合用AIAgent来
【Rust日报】2021-12-21 Embark Studio 使用 Rust 进行本地渲染 Rust语言中文社区游戏 java python 编程语言人工智能
EmbarkStudio使用Rust进行本地渲染作为Rust的忠实拥护者，EmbarkStudio的工程师们正在使用Rust开发渲染引擎和游戏，并且贡献了rust-gpu这个项目。在这篇技术博客中，一位来自Embark的工程师讲述了如何处理用户创建的世界的3D渲染，以及Rust如何帮助他们更好地实现这个目标。原文链接:https://medium.com/embarkstudios/homegro
Debezium系列之：基于Debezium JDBC connector消费Topic数据到Mysql数据库快乐骑行^_^ debezium Debezium系列 JDBC connector 消费Topic数据 Mysql数据库
Debezium系列之：基于DebeziumJDBCconnector消费Topic数据到Mysql数据库一、需求背景二、相关技术博客三、创建表四、使用Debezium2.Xmysqlconnector采集数据五、数据库插入数据和查看Topic数据六、DebeziumJDBCconnector完整配置七、DebeziumJDBCconnector参数详解八、源库插入数据，查看debeziumjdb
基于Tomcat构建LNMT架构的网站并实现Session保持 weixin_33795833 后端 java 前端 ViewUI
基于Tomcat构建LNMT架构的网站并实现Session保持-小小忍者-51CTO技术博客简介LNMT=Linux+Nginx+MySQL+Tomcat；Tomcat服务器是一个免费的开放源代码的Web应用服务器，属于轻量级应用服务器；在中小型系统和并发访问用户不是很多的场合下被普遍使用，是开发和调试JSP程序的首选；架构需求Tomcat实现JSP动态请求解析的基本架构说明：由后端Tomcat负
信息学/计算机系各种网站（学习资源、常用工具及其他）一只贴代码君命令大全-干货合集学习 dubbo java 开发语言算法 c++
大学指南上海交通大学生存手册中国科学技术大学人工智能与数据科学学院本科进阶指南USTC不完全入学指南大学生活质量指北科研论信息搜集AI信息搜集USTC飞跃网站计算机保研技术新闻HackerNewsTheHackerNewsTechCrunchArsTechnicaMITNews技术博客日更技术雷达学习资源CS清华计算机系学生科协技能引导文档菜鸟教程北大CS自学指南OpenSourceSociety
从零开始:在服务器上部署大模型并集成到 vscode +Cline使用一个正经的AI 服务器 vscode 运维 AI编程
1.引言(Introduction)欢迎来到本篇技术博客！在本文中，我将引导你一步一步地在阿里云服务器上部署Qwen大模型，并将其集成到Cline插件中。我们将从零开始，详细介绍每个步骤，确保即使是初学者也能轻松上手。近年来，大型语言模型（LLMs）展现出了强大的自然语言处理能力，吸引了越来越多的关注。Qwen系列模型是阿里巴巴开源的一系列强大的大语言模型，具有优秀的性能和广泛的应用场景。Olla
Python 实现七大排序算法 weixin_30527323 python shell 数据结构与算法
技术博客：github.com/yongxinz/te…本文用Python实现了插入排序、希尔排序、冒泡排序、快速排序、直接选择排序、堆排序、归并排序。先整体看一下各个算法之间的对比，然后再进行详细介绍：排序算法平均时间复杂度最好情况最坏情况空间复杂度排序方式稳定性插入排序O(n²)O(n)O(n²)O(1)In-place稳定冒泡排序O(n²)O(n)O(n²)O(1)In-place稳定选择排
重新认识下：从程序员泥瓦匠到增长黑客子木程序员
Welcometo子木聊出海!从「程序员泥瓦匠」写技术博客，现在改到「子木聊出海」写一写以下相关的，欢迎阅读和交流～一、关于我我是子木，10年的SaaS、营销、电商和AI等领域经验，一路从技术开发到产品与增长负责人。在过去的职业生涯中，我的工作经历跨越了从编写代码、产品研发、到驱动增长的不同领域，尤其专注于工具类产品的设计、推广和用户增长策略二、我的职业旅程：从技术，到产品，再到增长驱动产品我的职
小北的技术博客：探索华为昇腾CANN训练营与AI技术创新——Ascend C算子开发能力认证考试（初级） Stitch . C语言 HUAWEI 算法人工智能华为大数据 HUAWEI AScend c语言 NPU
前言哈喽哈喽友友们，这里是zyll~（小北）智慧龙阁的创始人及核心技术开发者。在技术的广阔天地里，我专注于大数据与全栈开发，并致力于成为这一领域的新锐力量。通过智慧龙阁这个平台，我期望能与大家分享我的技术心得，共同探索技术的无限可能。AscendC编程：小北的技术之旅近期，我深入研究了AscendC编程，并整理了一系列关于AscendC算子开发能力认证考试（初级）的题目及其答案。我希望这些内容能为
202501015 C18298182575 数据库
为什么不遵循最左匹配原则会导致索引失效最左匹配原则原因为什么不遵循最左匹配原则会导致索引失效最左匹配原则原因_mob6454cc7a6087的技术博客_51CTO博客java事物失效原因Spring事务@Transactional常见的8种失效场景（通俗易懂）_事务失效的8大场景-CSDN博客sql优化方案sql优化的15个小技巧（必知五颗星），面试说出七八个就有了_sql优化常用的15种方法-C
关于Redis集群同步/持久化/淘汰机制的详解尾巴尖上的阳光大数据 redis 数据库
Redis是非常常用的KV数据库,使用内存以及HashMap进行存储的特点带来了高效的查询.本文将围绕Redis的常见开发使用场景,阐述在Redis集群中各个节点是如何进行数据同步,每个节点如何进行持久化以及在长期使用中如何对数据进行更新和淘汰.如果对Redis有更多的兴趣,可以查看我的技术博客:https://dingyuqi.com下面是Redis在开发过程中常用的几种使用场景.集群Redis
动态生成的html元素绑定click事件 .NET跨平台 Jquery及其组件 html jquery
第一篇博客，开启技术博客的生涯，欢迎大家批评指教（坚信妹子也可以做好程序猿）今天想说帮公司做项目的时候遇到的一个小问题，动态添加html元素以后再去事件监听出问题。在实际开发中会遇到要给动态生成的html元素绑定触发事件的情况。就是上面的一张表格要动态实现添加行，然后序列号还要随着增加，当删除的时候序列号依旧是按顺序排列。刚开始使用jQuery的on方法来解决，但是发现一个问题会出现事件绑定很多次
博客园好还是csdn 耄先森吖
两者都是中国的博客平台，根据个人喜好和需求选择即可。如果您对技术博客更感兴趣，那么CSDN可能更适合您；如果您更喜欢个人博客风格，那么博客园可能更适合您。
oracle 扩容undo,【案例】Oracle RAC数据库undo使用率较高的解决思路办法南门居士-杜锦刚 oracle 扩容undo
天萃荷净Oracle研究中心案例分析：运维DBA反映Oracle数据库undo使用较大，结合案例分析undo使用问题。本站文章除注明转载外，均为本站原创：转载自lovewife&lovelife—Roger的Oracle技术博客本文链接地址:aboutUndoTablespaceusedHigh今天有朋友在问关于undo使用很高的问题,这个问题其实很常见了,上次也正好处理过一起,客户的3节点rac
Metasploit技术博客：全面指南 Hello.Reader 渗透测试安全测试安全性测试安全架构 web安全安全安全威胁分析
一、概述Metasploit是一款功能强大的渗透测试框架，在网络安全领域中扮演着关键角色。无论你是初学者还是经验丰富的渗透测试专家，Metasploit都提供了一整套工具，用于发现、利用和验证系统中的安全漏洞。本文将详细探讨Metasploit的基础知识、常用模块、实战案例、高级功能、最佳实践以及未来发展趋势，为您提供全面的技术指南。二、什么是Metasploit？Metasploit由Rapid
我的创作纪念日喵喵的柠檬汁笔记其他经验分享
机缘怎么说呢，我的第一篇博客是《HTML5的web工作线程》，当时看完《HeadFirstHTML5Programming》就在想，要是我当时在社团学习的时候碰到这本书，那不是嘎嘎乱杀，登上老大宝座，不得不说，我被这本书代入式的情景教学和幽默风趣的语言风格所深深吸引了，这里也要感谢幕后的翻译工作者。当时的这篇博客更像是一篇简单学习笔记，根本谈不上是技术博客，但那时动手实践和发第一篇博客的激动，却为
毕业一年感想~微思顾轻展望雪糕0-0 毕业感想
懒懒的我，早在四五月份就萌生了回顾这毕业一年感想的小念头了，但终究是被我拖延到几个月。究其原因的话，对于我来说，写感想这种东西确实是看心情的吧，或许正如道上所说的那样：感性而走心。另外一点就是，为何把这样的毕业感想首发到CSDN个人博客，而不是某讯的QQ空间呢？还是考虑了一下，毕竟是毕业一年也工作一年多了，想以此小小的感想作为技术博客的开篇，坚定一下后面多写写技术学习上的点点滴滴吧。（其实也不得不
dex加密汤米粥 dex加密
dex放在assets目录下还是被jadx读出来,看来dex还需要加密啊https://juejin.cn/post/7255483407559442491androidaabdex加密_mob649e8158a948的技术博客_51CTO博客
【技术博客】生成式对抗网络模型综述 MomodelAI
34-生成式对抗网络模型综述作者：张真源GANGAN简介生成式对抗网络(Generativeadversarialnetworks,GANs)的核心思想源自于零和博弈，包括生成器和判别器两个部分。生成器接收随机变量并生成“假”样本，判别器则用于判断输入的样本是真实的还是合成的。两者通过相互对抗来获得彼此性能的提升。判别器所作的其实就是一个二分类任务，我们可以计算他的损失并进行反向传播求出梯度，从而
JavaScript数组的常用算法小五丶_
版权声明：本文为博主原创文章，遵循CC4.0BY-SA版权协议，转载请附上原文出处链接和本声明。欢迎大家去我的个人技术博客看看，点赞收藏注册的都是好人哦~https://xiaowu.xyz一、数组的常见算法由于算法的性能要从时间复杂度和空间复杂度两个方面考虑，所以这里不做性能的研究，仅仅为了理解1、冒泡排序：假设有数组[54,68,46,75,36,20,65,11,79,45]varlist=
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring