RL进阶 | TensorFlow熟悉

RL进阶 | TensorFlow熟悉_第1张图片
image.png
  • tensorflow首先要定义神经网络的结构,也就是数据流图, 然后再把数据(张量tensor)放入结构当中去运算和 training。tensor在训练时不断的在节点之间流动
  • 零阶张量为 纯量或标量 (scalar) 也就是一个数值. 比如 [1]
  • 一阶张量为 向量 (vector), 比如 一维的 [1, 2, 3]
  • 二阶张量为 矩阵 (matrix), 比如 二维的 [[1, 2, 3],[4, 5, 6],[7, 8, 9]],以此类推

一个简单的小栗子

# -*- coding: utf-8 -*-
import tensorflow as tf
import numpy as np

# 创建训练数据
x_data = np.random.rand(100).astype(np.float32) # 随机生成100个数,且用TensorFlow里常用的数据类型
y_data = x_data*0.1 + 0.3

# 搭建模型,用 tf.Variable 来创建描述 y 的参数
Weights = tf.Variable(tf.random_uniform([1], -1.0, 1.0))
biases = tf.Variable(tf.zeros([1]))
y = Weights*x_data + biases


loss = tf.reduce_mean(tf.square(y-y_data)) # 计算误差
optimizer = tf.train.GradientDescentOptimizer(0.5) # 使用「梯度下降法」反向传递误差给optimizer
train = optimizer.minimize(loss) # 然后交给optimizer去优化

init = tf.global_variables_initializer() # 初始化神经网络结构里所有定义的变量
sess = tf.Session() # 创建session
sess.run(init)      # 初始化session,Very important

for step in range(201):
    sess.run(train) # 开启训练
    if step % 20 == 0: # 每隔20次打印一次日志
        print(step, sess.run(Weights), sess.run(biases))
        # 用session来执行每一次数据的训练,可以把session看做是记录进会话的一个指针,指到哪里就执行哪里

tensorflow 1.6/1.5和CUDA 9.0对应,1.4/1.3和CUDA 8.0对应

用conda安装cuda8和cudnn6,参考《文章》

//先添加conda国内镜像
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda config --set show_channel_urls yes

//安装cuda
conda install cudatoolkit=8.0 -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/linux-64/
//安装cudnn
conda install cudnn=6.0.0 -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/linux-64/

调参感想

batch_size

  • 随着 Batch_Size 增大,处理相同数据量的速度越快。
  • 随着 Batch_Size 增大,达到相同精度所需要的 epoch 数量越来越多。
  • 由于上述两种因素的矛盾, Batch_Size 增大到某个时候,达到时间上的最优。

隐藏层数量

参数初始化方式

权值和偏置值,用正态分布

激活函数

交叉熵
二次

loss的优化方式

RL进阶 | TensorFlow熟悉_第2张图片
  • 梯度下降
    (1)标准梯度下降法:计算所有样本汇总误差,根据总误差来更新神经网络里的权值。

    (2)随机梯度下降法SGD:随机抽取一个样本来计算误差,根据这个误差更新权值。

    (3)批量梯度下降法:折中方案,随机选取一个batch的样本,根据这批(多个)样本的总误差来更新权值
  • Momentum:当前权值改变会受到上一次权值改变的影响,就像小球带上了惯性(陡的地方走的快,缓的地方走的慢),缺点是容易冲过头,优点是收敛快,容易跳出局部最优解。
    RL进阶 | TensorFlow熟悉_第3张图片
  • NAG(Nesterov Accelerated Gradient):在TensorFlow中和Momentum合并在同一个函数tf.train.MomentumOptimizer中,通过参数配置启用。比Momemtum更聪明,提前计算小球要到达的位置来提前放慢速度,避免冲过头。
  • Adagrad:是SGD的一种算法。对比较常见的数据使用较小的学习率去调整,对于比较罕见的学习率使用较大的学习率去调整。适合数据比较稀疏的数据集,数据样本出现的次数越多,学习率就越低。优点是不需要人为的调整学习率,可以自动调整,缺点在于迭代的次数越多,学习率可能会越来越低,趋近于零。
    RL进阶 | TensorFlow熟悉_第4张图片
  • RMSprop(Root Mean Square 均方根):借鉴了Adagrad的思想,只不过用到的是「前t-1次的梯度的平方的均值+现在梯度的平方值」的开平方作为学习率的分母,这样不会出现学习率越来越低的情况,t是一个固定值,比如一直取前10次。
    RL进阶 | TensorFlow熟悉_第5张图片
  • Adadelta:可以甚至不需要一个学习率,也能自动调节。
    RL进阶 | TensorFlow熟悉_第6张图片
  • Adam:会存储之前衰减的平方梯度vt,同时保存之前衰减的梯度mt,经过一些处理之后再用类似于Adadelta和RMSprop。
    RL进阶 | TensorFlow熟悉_第7张图片
  • tensorflow把对应的优化方式

optimizer = tf.train.GradientDescentOptimizer(0.5)

训练次数

有时候收敛速度比较慢,就需要加大训练次数才能到比较好的准确率

你可能感兴趣的:(RL进阶 | TensorFlow熟悉)