optimizer.minimize(loss, var_list)
loss = ...
opt = tf.tf.train.GradientDescentOptimizer(learning_rate=0.1)
train_op = opt.minimize(loss)
init = tf.initialize_all_variables()
with tf.Seesion() as sess:
sess.run(init)
for step in range(10):
session.run(train_op)
其中 minimize() 实际上包含了两个步骤,即 compute_gradients 和 apply_gradients,前者用于计算梯度,后者用于使用计算得到的梯度来更新对应的variable。下面对这两个函数做具体介绍。
computer_gradients(loss, val_list)
该函数就是用于计算loss对于指定val_list的导数的,最终返回的是元组列表,即[(gradient, variable),...]。
返回了一个list,list中的元素是元组。第一个元组第一个元素,表示∂y/∂w的计算结果,第二个元素表示w。第二个元组同理。
import tensorflow as tf
import numpy as np
x = tf.Variable(initial_value=50., dtype='float32')
w = tf.Variable(initial_value=10., dtype='float32')
y = w*x
opt = tf.train.GradientDescentOptimizer(0.1)
grad = opt.compute_gradients(y, [w, x])
with tf.Session() as sess:
sess.run(tf.global_variables_initializer())
print(sess.run(grad))
#运行结果如下
[(50.0, 10.0), (10.0, 50.0)]
tf.clip_by_norm
tf.clip_by_norm(
t,
clip_norm,
axes=None,
name=None
)
指对梯度进行裁剪,通过控制梯度的最大范式,防止梯度爆炸的问题,是一种比较常用的梯度规约的方式。
t: 输入tensor,也可以是list
clip_norm: 一个具体的数,如果 l2norm(t) ≤ clip_norm, 则t不变化;否则 t = t∗clip_norm / l2norm(t)
import tensorflow as tf
import numpy as np
a = np.array([2., 5.])
# clip_by_norm表示5是clip_norm,若tf.norm(a) <= 5,
# 则a不变化,否则a=a*clip_norm / tf.norm(a),
# 其中,tf.norm(a)=np.sqrt(2*2+5*5)
b = tf.clip_by_norm(a, 5)
with tf.Session() as sess:
# tf.norm(a) 表示计算向量,矩阵的范数,np.sqrt(2*2+5*5)
print(sess.run(tf.norm(a)))
print(sess.run(b))
#运行结果如下
5.385164807134504
[1.85695338 4.64238345]
apply_gradients(grads_and_vars, global_step=None, name=None)
该函数的作用是将 compute_gradients() 返回的值作为输入参数对variable进行更新。
那为什么 minimize() 会分开两个步骤呢?是因为在某些情况下我们需要对梯度做一定的修正,例如为了防止梯度消失(gradient vanishing)或者梯度爆炸(gradient explosion),我们需要事先干预一下以免程序出现Nan的尴尬情况;有的时候也许我们需要给计算得到的梯度乘以一个权重或者其他乱七八糟的原因,才分开了两个步骤。
import tensorflow as tf
import numpy as np
with tf.Graph().as_default():
x = tf.Variable(initial_value=10., dtype='float32')
w = tf.Variable(initial_value=5., dtype='float32')
y = w * x
opt = tf.train.GradientDescentOptimizer(0.1)
# grads_vals计算结果为[(10.0, 5.0), (5.0, 10.0)]
grads_vals = opt.compute_gradients(y, [w, x])
for i, (g, v) in enumerate(grads_vals):
if g is not None:
grads_vals[i] = (tf.clip_by_norm(g, 6), v)
train_op = opt.apply_gradients(grads_vals)
with tf.Session() as sess:
sess.run(tf.global_variables_initializer())
print(sess.run(grads_vals))
print(sess.run([x, w, y]))
#运行结果
[(6.0, 5.0), (5.0, 10.0)]
[10.0, 5.0, 50.0]