基础
TensorFlow 基础
TensorFlow 模型建立与训练
基础示例:多层感知机(MLP)
卷积神经网络(CNN)
循环神经网络(RNN)
深度强化学习(DRL)
Keras Pipeline
自定义层、损失函数和评估指标
常用模块 tf.train.Checkpoint :变量的保存与恢复
常用模块 TensorBoard:训练过程可视化
常用模块 tf.data :数据集的构建与预处理
常用模块 TFRecord :TensorFlow 数据集存储格式
常用模块 tf.function :图执行模式
常用模块 tf.TensorArray :TensorFlow 动态数组
常用模块 tf.config:GPU 的使用与分配
部署
TensorFlow 模型导出
TensorFlow Serving
TensorFlow Lite
大规模训练与加速
TensorFlow 分布式训练
使用 TPU 训练 TensorFlow 模型
扩展
TensorFlow Hub 模型复用
TensorFlow Datasets 数据集载入
附录
强化学习基础简介
本章介绍如何使用 TensorFlow 快速搭建动态模型。
tf.keras.Model
和 tf.keras.layers
tf.keras.losses
tf.keras.optimizer
tf.keras.metrics
在 TensorFlow 中,推荐使用 Keras( tf.keras
)构建模型。Keras 是一个广为流行的高级神经网络 API,简单、快速而不失灵活性,现已得到 TensorFlow 的官方内置和全面支持。
Keras 有两个重要的概念: 模型(Model) 和 层(Layer) 。层将各种计算流程和变量进行了封装(例如基本的全连接层,CNN 的卷积层、池化层等),而模型则将各种层进行组织和连接,并封装成一个整体,描述了如何将输入数据通过各种层以及运算而得到输出。在需要模型调用的时候,使用 y_pred = model(X)
的形式即可。Keras 在 tf.keras.layers
下内置了深度学习中大量常用的的预定义层,同时也允许我们自定义层。
Keras 模型以类的形式呈现,我们可以通过继承 tf.keras.Model
这个 Python 类来定义自己的模型。在继承类中,我们需要重写 __init__()
(构造函数,初始化)和 call(input)
(模型调用)两个方法,同时也可以根据需要增加自定义的方法。
class MyModel(tf.keras.Model):
def __init__(self):
super().__init__() # Python 2 下使用 super(MyModel, self).__init__()
# 此处添加初始化代码(包含 call 方法中会用到的层),例如
# layer1 = tf.keras.layers.BuiltInLayer(...)
# layer2 = MyCustomLayer(...)
def call(self, input):
# 此处添加模型调用的代码(处理输入并返回输出),例如
# x = layer1(input)
# output = layer2(x)
return output
# 还可以添加自定义的方法
继承 tf.keras.Model
后,我们同时可以使用父类的若干方法和属性,例如在实例化类 model = Model()
后,可以通过 model.variables
这一属性直接获得模型中的所有变量,免去我们一个个显式指定变量的麻烦。
上一章中简单的线性模型 y_pred = a * X + b
,我们可以通过模型类的方式编写如下:
import tensorflow as tf
X = tf.constant([[1.0, 2.0, 3.0], [4.0, 5.0, 6.0]])
y = tf.constant([[10.0], [20.0]])
class Linear(tf.keras.Model):
def __init__(self):
super().__init__()
self.dense = tf.keras.layers.Dense(
units=1,
activation=None,
kernel_initializer=tf.zeros_initializer(),
bias_initializer=tf.zeros_initializer()
)
def call(self, input):
output = self.dense(input)
return output
# 以下代码结构与前节类似
model = Linear()
optimizer = tf.keras.optimizers.SGD(learning_rate=0.01)
for i in range(100):
with tf.GradientTape() as tape:
y_pred = model(X) # 调用模型 y_pred = model(X) 而不是显式写出 y_pred = a * X + b
loss = tf.reduce_mean(tf.square(y_pred - y))
grads = tape.gradient(loss, model.variables) # 使用 model.variables 这一属性直接获得模型中的所有变量
optimizer.apply_gradients(grads_and_vars=zip(grads, model.variables))
print(model.variables)
这里,我们没有显式地声明 a
和 b
两个变量并写出 y_pred = a * X + b
这一线性变换,而是建立了一个继承了 tf.keras.Model
的模型类 Linear
。这个类在初始化部分实例化了一个 全连接层 ( tf.keras.layers.Dense
),并在 call
方法中对这个层进行调用,实现了线性变换的计算。如果需要显式地声明自己的变量并使用变量进行自定义运算,或者希望了解 Keras 层的内部原理,请参考 自定义层。
全连接层 (Fully-connected Layer,tf.keras.layers.Dense
)是 Keras 中最基础和常用的层之一,对输入矩阵 A A A 进行 f ( A W + b ) f(AW + b) f(AW+b) 的线性变换 + 激活函数操作。如果不指定激活函数,即是纯粹的线性变换 A W + b AW + b AW+b。
具体而言,给定输入张量 input = [batch_size, input_dim]
,该层对输入张量首先进行 tf.matmul(input, kernel) + bias
的线性变换( kernel
和 bias
是层中可训练的变量),然后对线性变换后张量的每个元素通过激活函数 activation
,从而输出形状为 [batch_size, units]
的二维张量。
其包含的主要参数如下:
units
:输出张量的维度;activation
:激活函数,对应于 f ( A W + b ) f(AW + b) f(AW+b) 中的 f f f ,默认为无激活函数( a(x) = x
)。常用的激活函数包括 tf.nn.relu
、 tf.nn.tanh
和 tf.nn.sigmoid
;use_bias
:是否加入偏置向量 bias
,即 f ( A W + b ) f(AW + b) f(AW+b) 中的 b b b。默认为 True
;kernel_initializer
、 bias_initializer
:权重矩阵 kernel
和偏置向量 bias
两个变量的初始化器。默认为 tf.glorot_uniform_initializer
1 。设置为 tf.zeros_initializer
表示将两个变量均初始化为全 0;该层包含权重矩阵 kernel = [input_dim, units]
和偏置向量 bias = [units]
2 两个可训练变量,对应于 f(AW + b) 中的 W 和 b。
call()
方法而不是 __call__()
方法?在 Python 中,对类的实例 myClass
进行形如 myClass()
的调用等价于 myClass.__call__()
。那么看起来,为了使用 y_pred = model(X)
的形式调用模型类,应该重写 __call__()
方法才对呀?原因是 Keras 在模型调用的前后还需要有一些自己的内部操作,所以暴露出一个专门用于重载的 call()
方法。 tf.keras.Model
这一父类已经包含 __call__()
的定义。 __call__()
中主要调用了 call()
方法,同时还需要在进行一些 keras 的内部操作。这里,我们通过继承 tf.keras.Model
并重载 call()
方法,即可在保持 keras 结构的同时加入模型调用的代码。
Keras 中的很多层都默认使用 tf.glorot_uniform_initializer
初始化变量,关于该初始化器可参考 https://www.tensorflow.org/api_docs/python/tf/glorot_uniform_initializer 。 ↩︎
tf.matmul(input, kernel)
的结果是一个形状为 [batch_size, units]
的二维矩阵,这个二维矩阵要如何与形状为 [units]
的一维偏置向量 bias
相加呢?事实上,这里是 TensorFlow 的 Broadcasting 机制在起作用,该加法运算相当于将二维矩阵的每一行加上了 Bias 。Broadcasting 机制的具体介绍可见 https://www.tensorflow.org/xla/broadcasting 。 ↩︎