import tensorflow as tf
from tensorflow.keras import layers,optimizers,datasets,Sequential
import os
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'
tf.random.set_seed(2345)
conv_layers = [
layers.Conv2D(64,kernel_size = [3,3],padding = "same",activation = tf.nn.relu),
layers.Conv2D(64,kernel_size = [3,3],padding = "same",activation = tf.nn.relu),
layers.MaxPool2D(pool_size=[2,2],strides = 2,padding = 'same'),
layers.Conv2D(128,kernel_size = [3,3],padding = "same",activation = tf.nn.relu),
layers.Conv2D(128,kernel_size = [3,3],padding = "same",activation = tf.nn.relu),
layers.MaxPool2D(pool_size=[2,2],strides = 2,padding = 'same'),
layers.Conv2D(256,kernel_size = [3,3],padding = "same",activation = tf.nn.relu),
layers.Conv2D(256,kernel_size = [3,3],padding = "same",activation = tf.nn.relu),
layers.MaxPool2D(pool_size=[2,2],strides = 2,padding = 'same'),
layers.Conv2D(512,kernel_size = [3,3],padding = "same",activation = tf.nn.relu),
layers.Conv2D(512,kernel_size = [3,3],padding = "same",activation = tf.nn.relu),
layers.MaxPool2D(pool_size=[2,2],strides = 2,padding = 'same'),
layers.Conv2D(512,kernel_size = [3,3],padding = "same",activation = tf.nn.relu),
layers.Conv2D(512,kernel_size = [3,3],padding = "same",activation = tf.nn.relu),
layers.MaxPool2D(pool_size=[2,2],strides = 2,padding = 'same'),
]
def preprocess(x,y):
x = tf.cast(x,dtype = tf.float32) / 255.
y = tf.cast(y,dtype = tf.int32)
return x,y
(x,y),(x_test,y_test) = datasets.cifar100.load_data()
train_db = tf.data.Dataset.from_tensor_slices((x,y))
train_db = train_db.shuffle(1000).map(preprocess).batch(64)
test_db = tf.data.Dataset.from_tensor_slices((x_test,y_test))
test_db = test_db.map(preprocess).batch(64)
def main():
conv_net = Sequential(conv_layers)
fc_net = Sequential([
layers.Dense(256,activation = tf.nn.relu),
layers.Dense(128,activation = tf.nn.relu),
layers.Dense(100,activation = None)
])
conv_net.build(input_shape = [None,32,32,3])
fc_net.build(input_shape = [None,512])
optimizer = optimizers.Adam(lr = 1e-4)
variables = conv_net.trainable_variables + fc_net.trainable_variables
for epoch in range(50):
for step,(x,y) in enumerate(train_db):
with tf.GradientTape() as tape:
out = conv_net(x)
out = tf.reshape(out,[-1,512])
logits = fc_net(out)
y_onehot = tf.one_hot(y,depth = 100)
loss = tf.reduce_mean(tf.losses.MSE(y_onehot,logits))
grads = tape.gradient(loss,variables)
optimizer.apply_gradients(zip(grads,variables))
if step % 100 == 0:
print(epoch,step,'loss: ',float(loss))
total_num = 0
total_correct = 0
for x,y in test_db:
out = conv_net(x)
out = tf.reshape(out,[-1,512])
logits = fc_net(out)
prob = tf.nn.softmax(logits,axis = 1)
pred = tf.argmax(prob,axis=1)
pred = tf.cast(pred,dtype = tf.int32)
correct = tf.cast(tf.equal(pred,y),dtype=tf.int32)
correct = tf.reduce_sum(correct)
total_num += x.shape[0]
total_correct += int(correct)
acc = total_correct / total_num
print(epoch,'acc: ',acc)
if __name__ == '__main__':
main()
import tensorflow as tf
导入 TensorFlow 库,以便使用 TensorFlow 的功能。
from tensorflow.keras import layers, optimizers, datasets, Sequential
从 TensorFlow 的 keras 模块中导入 layers、optimizers、datasets 和 Sequential 等子模块和类,以便使用其中的函数和类。
import os
导入 Python 的 os 模块,用于操作操作系统相关的功能。
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'
设置环境变量,将 TensorFlow 的日志级别设置为 2,表示只显示部分信息,不显示全部日志信息。
tf.random.set_seed(2345)
设置 TensorFlow 的随机种子为 2345,以确保每次运行的结果一致性。
conv_layers = [ ... ]
定义了一个列表 conv_layers,用于存储卷积层和池化层。列表中的每个元素都是一个卷积层或池化层的配置。
def preprocess(x, y): ...
定义了一个名为 preprocess 的函数,用于对输入的图像数据 x 和标签数据 y 进行预处理。在函数中,将图像数据转换为浮点型并进行归一化处理,将标签数据转换为整型,并返回处理后的结果。
(x, y), (x_test, y_test) = datasets.cifar100.load_data()
使用 datasets.cifar100.load_data() 函数加载 CIFAR-100 数据集,并将训练集的图像数据、标签数据分别赋值给变量 (x, y),将测试集的图像数据、标签数据分别赋值给变量 (x_test, y_test)。
train_db = tf.data.Dataset.from_tensor_slices((x, y))
使用 tf.data.Dataset.from_tensor_slices() 函数从张量创建一个训练数据集 train_db,将训练集的图像数据 x 和标签数据 y 切片组合成一个数据集。
train_db = train_db.shuffle(1000).map(preprocess).batch(64)
对训练数据集进行处理:首先使用 shuffle() 方法对数据集进行随机打乱,参数 1000 表示打乱时的缓冲区大小;然后使用 map() 方法对数据集应用预处理函数 preprocess;最后使用 batch() 方法指定批量大小为 64。
test_db = tf.data.Dataset.from_tensor_slices((x_test, y_test))
使用 tf.data.Dataset.from_tensor_slices() 函数从张量创建一个测试数据集 test_db,将测试集的图像数据 x_test 和标签数据 y_test 切片组合成一个数据集。
test_db = test_db.map(preprocess).batch(64)
对测试数据集进行处理:使用 map() 方法对数据集应用预处理函数 preprocess;然后使用 batch() 方法指定批量大小为 64。
def main(): ...
定义了一个名为 main 的主函数,用于定义和训练卷积神经网络模型。
conv_net = Sequential(conv_layers)
创建一个序列模型 conv_net,将之前定义的卷积层和池化层配置 conv_layers 作为参数传入。
fc_net = Sequential([ ... ])
创建一个序列模型 fc_net,将全连接层的配置作为参数传入。其中包括了三个全连接层,分别具有不同的输入特征维度和激活函数。
conv_net.build(input_shape=[None, 32, 32, 3])
使用 build() 方法构建卷积神经网络模型 conv_net,指定输入数据的形状为 (None, 32, 32, 3),其中 None 表示批量大小可以是任意值。
fc_net.build(input_shape=[None, 512])
使用 build() 方法构建全连接网络模型 fc_net,指定输入数据的形状为 (None, 512),其中 None 表示批量大小可以是任意值。
optimizer = optimizers.Adam(lr=1e-4)
创建一个 Adam 优化器 optimizer,学习率设置为 1e-4。
variables = conv_net.trainable_variables + fc_net.trainable_variables
将卷积网络的可训练变量和全连接网络的可训练变量合并到一个列表 variables 中,以便在训练过程中更新所有的可训练参数。
for epoch in range(50): ...
进行 50 个周期的循环训练。每个周期中,遍历训练数据集的每个批次,并在 tf.GradientTape() 上下文中计算损失值及其关于参数的梯度。
for x, y in test_db: ...
遍历测试数据集的每个批次,通过卷积网络和全连接网络计算出预测结果,并计算准确率。
if __name__ == '__main__': main()
判断是否为主程序运行,如果是,则调用 main() 函数开始进行模型的训练和测试。