目的:当模型训练过程中,服务器宕机了,这个时候为了不浪费之前训练过的次数得到的权重和偏置值(这里用线性回归模型举例),需要的到最近时间点的一个权重和偏置,然后开始继续训练。
var_list:指定要保存和还原的变量。它可以作为一个dict或一个列表传递
max_to_keep:指定要保存的最近检查点文件(检查点文件就是checkpoint文件)的最大数量。创建新文件时,会删除较旧的文件。如果无或0,则保留所有检查点文件,默认为5(即保留最新的5个检查点文件)
模型保存:
saver.save(sess, '/tmp/ckpt/test/model') 路径为保存模型的名字的路径(而事件文件只需要传入文件的父目录路径)
模型加载:
saver.restore(sess, '/tmp/ckpt/test/model')
保存文件格式:
checkpoint文件
代码展示:
模型保存需要在session之前先定义op
# 定义一个保存模型的实例
saver = tf.train.Saver()
然后在session中进行保存。(model不是文件夹目录名)
saver.save(sess, "./ckpt/model")
生成的文件如下:
其次,运行一次保存后会生成checkpoint文件,下次可以用来加载模型,以便可以继续上次得训练工作。加载代码可以写在session内外都可
# 加载模型,覆盖模型当中随机定义得参数,从上次训练得参数结果开始
if os.path.exists("./ckpt/checkpoint"):
saver.restore(sess, "./ckpt/model")
完整得代码如下所示:
#! /usr/bin/env python
# -*- coding:utf-8 -*-
import tensorflow as tf
import os
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2' # 设置告警级别
def myregression():
"""
自实现一个线性回归预测
数据是随机给出的x和y,x和y的权重和偏置固定,通过梯度下降预测选择最优权重和偏置
学习率和步数的设置
添加权重参数、损失值等在tensorboard观察的情况: 步骤1:收集变量 步骤2:合并变量写入事件文件
:return: None
"""
# with tf.variable_scope() 作用:方便观察
with tf.variable_scope("data"):
# 1、准备数据 x 特征值[100, 1] y 目标值[100]
x = tf.random_normal([100, 1], mean=1.75, stddev=0.5, name="x_data")
# 矩阵相乘必须是二维的
y_true = tf.matmul(x, [[0.7]]) + 0.8
with tf.variable_scope("model"):
# 2、建立线性回归模型 数据有一个特征,就是一个权重,还有一个偏置 y = x*w + b
# 随机给一个权重和偏置的值,让它去计算损失,然后在当前状态下优化
# 用变量定义才能优化 特征值只有一个,所以需要一个权重,如果十多个权重,那么就是[n, 1]
weight = tf.Variable(tf.random_normal([1, 1], mean=0.0, stddev=1.0, name="w"))
bias = tf.Variable(0.0, name="b")
y_predict = tf.matmul(x, weight) + bias
with tf.variable_scope("loss"):
# 3、建立损失函数,均方误差
loss = tf.reduce_mean(tf.square(y_true - y_predict))
with tf.variable_scope("optimizer"):
# 4、梯度下降优化损失 leaning_rate: 0~1,2,3,5,7,10 学习率:GradientDescentOptimizer 最小化优化损失:minimize
train_op = tf.train.GradientDescentOptimizer(0.1).minimize(loss)
# 步骤1:收集tensor,以便在tensorboard观察
tf.summary.scalar("losses", loss)
tf.summary.histogram("weights", weight)
# 步骤2:定义合并tensor的op
merged = tf.summary.merge_all()
# 定义一个初始化变量的op
init_op = tf.global_variables_initializer()
# 定义一个保存模型的实例
saver = tf.train.Saver()
# 通过会话运行程序
with tf.Session() as sess:
# 初始化变量
sess.run(init_op)
# 打印随机最先初始化的权重和偏置 op是没有结果的,要run或者eval
print("随机初始化的参数权重为:%f, 偏置为:%f" % (weight.eval(), bias.eval()))
# 建立事件文件
filewriter = tf.summary.FileWriter("./summary/test", graph=sess.graph)
# 加载模型,覆盖模型当中随机定义得参数,从上次训练得参数结果开始
if os.path.exists("./ckpt/checkpoint"):
saver.restore(sess, "./ckpt/model")
# 循环训练 运行优化
for i in range(200):
sess.run(train_op)
# 步骤3:运行合并的tensor
summary = sess.run(merged)
# 步骤4:添加到事件文件
filewriter.add_summary(summary, i)
print("第%d次优化的参数权重为:%f, 偏置为:%f" % (i+1, weight.eval(), bias.eval()))
saver.save(sess, "./ckpt/model")
if __name__ == '__main__':
myregression()
先保存一次模型(保存时把加载模型的代码注释),然后运行上述代码,即可基于上次训练结果继续训练
红框中为第一次训练保存后训练出的参数值,然后再次运行的训练的结果为下图红框中的值。