机器学习--随机梯度下降算法

对于样本数量额非常之多的情况,Batch Gradient Descent(批量梯度下降)算法会非常耗时,因为每次迭代都要便利所有样本,可选用Stochastic Gradient Descent 算法,需要注意外层循环Loop,因为只遍历一次样本,不见得会收敛。


743682-20151126140949671-555319333.png

随机梯度算法就可以用作在线学习了,但是注意随机梯度的结果并非完全收敛,而是在收敛结果处波动的,可能由非线性可分的样本引起来的:

可以有如下解决办法:

1. 动态更改学习速率a的大小,可以增大或者减小

2. 随机选样本进行学习

代码:


import numpyas np

__author__ ='liyan'

X =2 * np.random.rand(100, 1)

y =4 +3 * X + np.random.randn(100, 1)

X_b = np.c_[np.ones((100, 1)), X]

# print(X_b)

n_epochs =500

t0,t1 =5,50

m =100#100个样本

def learning_schedule(t):#学习率逐渐减少

        return t0/(t+t1)

theta = np.random.randn(2,1)

for epochin range(n_epochs):

for iin range(m):#100条数据随机抽取一条

        random_index = np.random.randint(m)# 随机返回0~99数

        xi = X_b[random_index:random_index+1]

        yi = y[random_index:random_index+1]

        gradients =1*xi.T.dot(xi.dot(theta)-yi)#梯度

        #1/m*xi.T.dot(xi.dot(theta)-yi)

        learning_rate = learning_schedule(epoch*m+i)#学习率逐渐减少

        theta = theta-learning_rate*gradients

print(theta)

运行代码,计算得到的结果如下:

image

总结:

  1. 概念:随机梯度下降(sgd)
    什么是随机梯度下降,怎么随机的呢?
    其实就是在求梯度的时候,不再用所有的m个样本数据来计算,而是随机的选择一条数据来计算梯度!

  2. 随机梯度下降的好处是什么?缺点是什么?
    在求梯度的时候快,迭代次数有可能更多,最终可能落不到全局最优解上

  3. Mini-Batch GD是什么?
    就是在求梯度的时候做了一个折中,不用所有的数据,而是随机选择一部分数据来求梯度!

  4. 上面代码里面除了随机抽取一条数据来求解梯度,还随着迭代次数的增多,不断减小步长!learning_rate

  5. 为什么要不断的调整步长?
    就是为了让越接近最优解的时候,调整的幅度越小,避免来回震荡!

  6. 如果我们不人为的调小步长,会不会随着迭代的次数增多,调整的幅度自动减小?
    调整的幅度取决于谁?却决于学习率和梯度,梯度事实上越接近最优解,梯度的绝对值越小

你可能感兴趣的:(机器学习--随机梯度下降算法)