深度学习讲稿(27)

5.5 瀑布下降法

我们在没有讲述瀑布下降法（即完全梯度下降法）之前就比较了这个方法和随机梯度下降法的优劣。很多人会觉得丈二金刚摸不着头脑。但是这其实是很必要的。因为其实本质上算法是很严谨细致的东西，其中精妙之处往往隐藏很深，所以就需要细细体会才能理解其中的思想。我们先讲其优劣和应用，再来看算法本身，就会站在上帝视角来看待算法的全貌。否则一旦落入算法代码的汪洋大海，就变成盲人摸象，只能看到算法的某一个角。弱水三千，只取一瓢。至少你要知道三千弱水的不同，然后才能选最喜欢的那一瓢。

下面我们进入瀑布下降法的代码环节。

数据处理部分就不再详述了，这一步和之前的随机梯度下降法是一样的。我们需要用到矩阵按列求平均值的函数，下面就是这个函数的代码：

def matrix_column_avg(mat):
    row,column = mat.shape
    result = np.zeros(column)
    for col in range(column):
        for item in range(row):
            result[col] += mat[item,col]
    result /= row
    return result

它输入一个矩阵，输出一行的向量，向量中的每一个元素都是输入矩阵的列平均值。另外，我们将每一次的全部数据的梯度下降都打包成一个函数，让它对所有的数据点做一次梯度下降。输出是梯度下降的引擎，梯度下降乘子（它是一个对角矩阵）以及对应于每条数据的误差列表。代码如下：

def excute_grad_desc(data,real_value,weights):
    weight_matrix = np.empty((len(raw_data),len(weights)))
    error_list = []
    for item_index in range(len(data)): 
        # 每个数据条都做一次梯度下降
        # 从第一条数据条开始循环
        inputs = data[item_index]
        outputs = real_value[item_index]
        engine = rand_grad(inputs,outputs,weights)
        gdm = list(engine.grad_descent_multiplier())
        if min(np.abs(gdm)) > max(np.abs(weights)):
            gdm /= 10*min(np.abs(gdm))/max(np.abs(weights))
        # 下降因子相对于权重过大，此时应将它缩小，否则极易引起误差发散。
        factor = np.diag(gdm)
        error_list.append(engine.error_function())
    return engine, factor, error_list

最后是执行整体梯度下降，用单步梯度下降操作之后得到的值计算出平均权重，然后用平均权重当作新的起点进行下一步的梯度下降。这样就可以用一个循环来执行，即：

for t in range(100): # 梯度下降的下降次数
    engine, factor, error_list = excute_grad_desc(raw_data,sell_price,weights)
    weights -= np.matmul(learning_rate,factor)
    weight_matrix[item_index] = weights
    # 求平均值，并把它看作是新的权重
    weights = matrix_column_avg(weight_matrix)

print("最终的权重：", weights)
# 验证权重的有效性, 再执行一次
engine, factor, error_list = excute_grad_desc(raw_data,sell_price,weights)
print("误差列表：", error_list)

最终我们会看到如下的结果：

最终的权重： [1.46239029 0.51211936 1.39663107 1.10692271]
误差列表： [8.17836538021409e-05, 0.0044868083148646085, 0.0037373692234452895, 0.007409998180022533, 0.0014975302720826947, 0.0076731972041592005]

深度学习讲稿(27)

5.5 瀑布下降法

你可能感兴趣的:(深度学习讲稿(27))