Python数据开发

【推荐收藏】三万字详解 TensorFlow 深度学习必备知识点（下）

各位同学好，之前跟大家分享了这篇: 【推荐收藏】三万字详解 TensorFlow 深度学习必备知识点（上）

今天我们继续讲 TensorFlow 深度学习必备知识点，目录如下：

文章目录

解惑答疑
keras
- 1、metrics 性能指标
- - 1.1 新建一个 metrics 指标
  - 1.2 向metrics添加数据
  - 1.3 从metrics中取出数据
  - 1.4 清空缓存
- 2、compile 模型配置
- 3、fit 模型训练
- 4、evaluate 模型评估
- 5、predict 预测
- 6、sequential
- 7、自定义层构建网络
交叉验证、正则化，自定义网络
- 1、交叉验证
- - 划分方法
  - （1）构造数据集时划分
  - （2）使用训练函数fit()中的参数划分
- 2、正则化
- 3、自定义网络
- - 3.1 数据获取
  - 3.2 数据预处理
  - 3.3 自定义网络
  - 3.4 网络配置
学习率衰减策略
- 1、多项式衰减
- - 1.1 方法介绍
  - 1.2 代码展示
- 2、单周期的余弦退火衰减
- - 2.1 方法介绍
  - 2.2 代码展示
- 3、多周期余弦退火衰减
- - 3.1 方法介绍
- 4、实践验证

解惑答疑

学了忘了、技术点不能吃透，可以加入技术交流，添加时最好的备注方式为：来源+兴趣方向，方便找到志同道合的朋友

方式①、添加微信号：mlc2060，备注：来自CSDN+加群
方式②、微信搜索公众号：机器学习社区，后台回复：加群

keras

主要内容有：

1.metrics指标
2.compile模型配置
3.fit模型训练
4.evaluate模型评估
5.predict预测
6.自定义网络

1、metrics 性能指标

加权平均值：tf.keras.metrics.Mean
预测值和真实值的准确度： tf.keras.metrics.Accuracy

1.1 新建一个 metrics 指标

准确度指标 metrics.Accuracy() 一般用于训练集，加权平均值 metrics.Mean() 一般用于测试集

# 新建准确度指标
acc_meter = metrics.Accuracy() 
# 新建平均值指标
mean_meter = metrics.Mean()

1.2 向metrics添加数据

添加数据：update_state()。每一次迭代，都向准确率指标中添加测试数据的真实值和测试数据的预测值，将准确率保存在缓存区，需要时取出来。向平均损失指标中添加每一次训练产生的损失，每添加进来一个值就计算加权平均值，sample_weight指定每一项的权重，将结果保存在缓存区，需要时取出来。

# 计算真实值和预测值之间的准确度
acc_meter.update_state(y_true, predict) 
# 计算平均损失
mean_meter = mean_meter.update_state(loss, sample_weight=None)

1.3 从metrics中取出数据

取出数据：result().numpy()。result()返回tensor类型数据，转换成numpy()类型的数据。

# 取出准确率
acc_meter.result().numpy() 
# 取出训练集的损失值的均值
mean_meter.result().numpy()

1.4 清空缓存

清空缓存：reset_states()。每一次循环缓存区都会将之前的数据保存，在开始第二次循环之前，应该把缓存区清空，重新读入数据。

# 清空准确率的缓存
acc_meter.reset_states()
# 清空加权均值的缓存
mean_meter.reset_states()

2、compile 模型配置

compile(optimizer, loss, metrics, loss_weights)

参数设置：

optimizer： 用来配置模型的优化器，可以调用tf.keras.optimizers API配置模型所需要的优化器。

loss： 用来配置模型的损失函数，可以通过名称调用tf.losses API中已经定义好的loss函数。

metrics： 用来配置模型评价的方法，模型训练和测试过程中的度量指标，如accuracy、mse等

loss_weights： float类型，损失加权系数，总损失是所有损失的加权和，它的元素个数和模型的输出数量是1比1的关系。

# 选择优化器Adam，loss为交叉熵损失，测试集评价指标accurancy
network.compile(optimizer=optimizers.Adam(lr=0.01), #学习率0.01
    loss = tf.losses.CategoricalCrossentropy(from_logits=True),
    metrics = ['accuracy'])

3、fit 模型训练

fit(x, y, batch_size, epochs, validation_split, validation_data, shuffle,validation_freq)

参数：

x：训练集的输入数据，可以是array或者tensor类型。

y：训练集的目标数据，可以是array或者tensor类型。

batch_size： 每一个batch的大小，默认32

epochs： 迭代次数

validation_split： 配置测试集数据占训练数据集的比例，取值范围为0～1。

validation_data： 配置测试集数据(输入特征及目标)。如果已经配置validation_split参数，则可以不配置该参数。如果同时配置validation_split和validation_data参数，那么validation_split参数的配置将会失效。

shuffle： 配置是否随机打乱训练数据。当配置steps_per_epoch为None时，本参数的配置失效。

validation_freq： 每多少次循环做一次测试

# ds为包含输入特征及目标的数据集
network.fit(ds, eopchs=20, validation_data=ds_val, validation_freq=2)
# validation_data给定测试集，validation_freq每多少次大循环做一次测试，测试时自动计算准确率

4、evaluate 模型评估

evaluate(x, y, batch_size, sample_weight, steps)

返回模型的损失及准确率等相关指标

参数：

x：输入测试集特征数据

y：测试集的目标数据

batch_size： 整数或None。每个梯度更新的样本数。如果未指定，batch_size将默认为32。如果数据采用数据集，生成器形式，则不要指定batch_size。

sample_weight： 测试样本的可选Numpy权重数组，用于加权损失函数。

steps： 整数或None。宣布评估阶段结束之前的步骤总数。

5、predict 预测

predict(x, batch_size, steps)

参数：

x： numpy类型，tensor类型。预测所需的特征数据

batch_size： 每个梯度更新的样本数。如果未指定，batch_size将默认为32

steps： 整数或None，宣布预测回合完成之前的步骤总数（样本批次）。

等同于：

sample = next(iter(ds_pred)) # 每次从验证数据中取出一组batch
x = sample[0] # x 保存第0组验证集特征值
pred = network.predict(x)  # 获取每一个分类的预测结果
pred = tf.argmax(pred, axis=1) # 获取值最大的所在的下标即预测分类的结果
print(pred)

6、sequential

Sequential模型适用于简单堆叠网络层，即每一层只有一个输入和一个输出。

# ==1== 设置全连接层
# [b,784]=>[b,256]=>[b,128]=>[b,64]=>[b,32]=>[b,10]，中间层一般从大到小降维
network = Sequential([
    layers.Dense(256, activation='relu'), #第一个连接层，输出256个特征
    layers.Dense(128, activation='relu'), #第二个连接层
    layers.Dense(64, activation='relu'), #第三个连接层
    layers.Dense(32, activation='relu'), #第四个连接层
    layers.Dense(10), #最后一层不需要激活函数，输出10个分类
    ])
# ==2== 设置输入层维度
network.build(input_shape=[None, 28*28])
# ==3== 查看网络结构
network.summary()
# ==4== 查看网络的所有权重和偏置
network.trainable_variables
# ==5== 自动把x从第一层传到最后一层
network.call()

7、自定义层构建网络

通过对 tf.keras.Model 进行子类化并定义自己的前向传播模型。在 __init__ 方法中创建层并将它们设置为类实例的属性。在 call 方法中定义前向传播。

# 自定义Dense层
class MyDense(layers.Layer): #必须继承layers.Layer层，放到sequential容器中
    # 初始化方法
    def __int__(self, input_dim, output_dim):
        super(MyDense, self).__init__() # 调用母类初始化，必须
        
        # 自己发挥'w''b'指定名字没什么用，创建shape为[input_dim, output_dim的权重
        # 使用add_variable创建变量
        self.kernel = self.add_variable('w', [input_dim, output_dim])
        self.bias = self.add_variable('b', [output_dim])
    
    # call方法，training来指示现在是训练还是测试
    def call(self, inputs, training=None):
        out = inputs @ self.kernel + self.bias
        return out


# 自定义层来创建网络
class MyModel(keras.Model):  # 必须继承keras.Model大类，才能使用complie、fit等功能
    # 
    def __init__(self):
        super(MyModel, self).__init__() # 调用父类Mymodel
        # 使用自定义层创建5层
        self.fc1 = MyDense(28*28,256) #input_dim=784，output_dim=256
        self.fc2 = MyDense(256,128)
        self.fc3 = MyDense(128,64)
        self.fc4 = MyDense(64,32)
        self.fc5 = MyDense(32,10)

    def call(self, inputs, training=None):
        # x从输入层到输出层
        x = self.fc1(inputs)
        x = tf.nn.relu(x)
        x = self.fc2(x)
        x = tf.nn.relu(x)        
        x = self.fc3(x)
        x = tf.nn.relu(x)
        x = self.fc4(x)
        x = tf.nn.relu(x)
        x = self.fc5(x) #logits层
        return x

各位同学好，今天和大家分享一下TensorFlow2.0深度学习中的交叉验证法和正则化方法，最后展示一下自定义网络的小案例。

交叉验证、正则化，自定义网络

1、交叉验证

交叉验证主要防止模型过于复杂而引起的过拟合，找到使模型泛化能力最优的参数。我们将数据划分为训练集、验证集、测试集。训练集用于输入网络模型作为样本进行学习。验证集是在迭代过程中对模型进行评估，寻找最优解。测试集是在整个网络训练完成后进行评估。

K折交叉验证，就是将训练集数据等比例划分成K份，以其中的1份作为验证数据，其他的K-1份数据作为训练数据。每次迭代从都是从K个部分选取一份不同的数据部分作为测试数据，剩下的K-1个当作训练数据，最后把得到的K个实验结果进行平分。

划分方法

（1）构造数据集时划分

首先导入训练集(x,y)和测试集(x_test, y_test)，K折交叉验证是对测试集的划分，指定迭代500次，每次迭代都从训练集中选出一部分作为验证数据ds_val，剩下的作为训练数据ds_train。使用 tf.random.shuffle() 随机打乱索引顺序，不影响x和y之间的对应关系。tf.gather() 根据索引来选取值。

# 以手写数字为例，获取训练集和测试集
(x,y),(x_test,y_test) = datasets.mnist.load_data()

# 预处理函数
def processing(x,y): 
    # 从[0,255]=>[-1,1]
    x = 2 * tf.cast(x, dtype=tf.float32) / 255.0 - 1
    y = tf.cast(y, dtype=tf.int32)
    return(x,y)

# 交叉验证K=500
for epoch in range(500):

    idx = tf.range(60000) # 假设training数据一共有60k张图象，生成索引
    idx = tf.random.shuffle(idx) # 随机打乱索引
    
    # 利用随机打散的索引来收集数据，不改变xy之间的关联
    x_train, y_train = tf.gather(x, idx[:50000]), tf.gather(y, idx[:50000])
    x_val, y_val = tf.ga，ther(x, idx[-10000:]), tf.gather(y, idx[-10000:])
    
    # 构建训练集
    ds_train = tf.data.Dataset.from_tensor_slices((x_train, y_train))  # 自动将输入的xy转变成tenosr类型
    ds_train = ds_train.map(processing).shuffle(10000).batch(128) # 对数据集中的所有数据使用预处理函数
    
    # 构建验证集
    ds_val = tf.data.Dataset.from_tensor_slices((x_val, y_val))  
    ds_val = ds_test.map(processing).batch(128) # 每次迭代取128组数据，验证不需要打乱数据

（2）使用训练函数fit()中的参数划分

如果嫌使用上面的方法构造数据集太麻烦的话，可以在模型训练函数fit()中指定划分方式validation_split=0.1，每次迭代取0.1倍的训练数据作为验证集，剩下的作为训练集。ds_train_val 要求是没有被划分过的训练集数据。这样的话就不需要再指定validation_data验证集数据了，在划分时自动生成。

# ds_train_val指没有划分过的train和val数据集，validation_split=0.1动态切割，0.1比例的数据分给val
network.fit(ds_train_val, epochs=6, validation_split=0.1, validation_freq=2)
# 不需要再指定validation_data，已经在被包含在validation_split中了

在模型迭代过程中使用验证集来查看什么时候模型效果最优，找到最优的就跳出循环。验证集在挑选模型参数的时候，先保存误差极小值对应的权重，如果后面检测到的误差都大于它，就使用当前这个权重。

2、正则化

当采用比较复杂的模型，去拟合数据时，很容易出现过拟合现象，这会导致模型的泛化能力下降，对模型添加正则化项可以限制模型的复杂度，使得模型在复杂度和性能达到平衡。

L1正则化是在原来的损失函数基础上加上权重参数的绝对值。L1可以产生0解，L1获得稀疏解。
$J( \theta )= J(w,x,y)+\lambda \sum_{i=1}^{n}\left | w_{i} \right |$

L2正则化是在原来的损失函数基础上加上权重参数的平方和。L2可以产生趋近0的解，L2获得非零稠密解。

$J( \theta )= J(w,x,y)+\lambda \sum_{i=1}^{n} w_{i}^{2}$

在构建网络层时指定正则化参数kernel_regularizer，使用二范数的方法keras.regularizers.l2，惩罚系数0.01。

# 使用二范数正则化，loss = loss + 0.001*regularizer，指定正则化的权重
model = keras.Sequential([
    keras.layers.Dense(16, kernel_regularizer=keras.regularizers.l2(0.001), activation=tf.nn.relu),
    keras.layers.Dense(16, kernel_regularizer=keras.regularizers.l2(0.001), activation=tf.nn.relu),
    keras.layers.Dense(1, activation=tf.nn.sigmoid)])

3、自定义网络

3.1 数据获取

首先导入我们需要的库文件，从系统中导入图片数据，划分测试集和训练集。

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import datasets, layers, optimizers, Sequential, metrics
import os
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2' # 输出框只输出有意义的信息

#（1）数据获取
(x,y),(x_test,y_test) = datasets.cifar10.load_data() #获取图像分类数据
# 查看数据信息
print(f'x.shape: {x.shape}, y.shape: {y.shape}')  #查看训练集的维度信息
print(f'x_test.shape: {x_test.shape}, y_test.shape: {y_test.shape}')  #测试集未读信息
print(f'y[:5]: {y[:5]}')  #查看训练集目标的前5项
# 绘图展示
import matplotlib.pyplot as plt
for i in range(10): # 展示前10张图片
    plt.subplot(2,5,i+1)  # 2行5列第i+1个位置
    plt.imshow(x[i])
    plt.xticks([]) # 不显示x和y轴坐标刻度
    plt.yticks([])

# 输入的图像形状
# x.shape: (50000, 32, 32, 3), y.shape: (50000, 1)
# x_test.shape: (10000, 32, 32, 3), y_test.shape: (10000, 1)

需要训练的图片如下，图片本身不清晰，这里只说一下基本的自定义网络的构造，最多只有80%准确率，模型优化到卷积神经网络章节再谈。

3.2 数据预处理

由于导入的目标值y的shape时二维[50k,1]，需要将axis=1的轴压缩掉，变成一个一维的向量[50k]，使用**tf.squeeze()**压缩指定轴，对目标值one-hot编码对应索引的值变为1，其他索引对应的值变为0，shape变为[b,10]。把特征值x的范围映射到[-1,1]之间。

#（2）数据预处理
# 定义预处理函数
def processing(x,y): 
    # 由于目标数据是而二维的，把shape=1的轴删除，从向量变成标量
    y = tf.squeeze(y)  # 默认压缩所有维度为1的轴，shape为[50k]
    y = tf.one_hot(y, depth=10) # one-hot编码，分成10个类别，shape为[50k,10]，对应下标所在的值为1
    # 每个像素值的范围在[-1,1]之间，从[0,255]=>[-1,1]
    x = 2 * tf.cast(x, dtype=tf.float32) / 255.0 - 1
    y = tf.cast(y, dtype=tf.int32)
    return(x,y)

# 构建训练集数据集
ds_train = tf.data.Dataset.from_tensor_slices((x, y))  # 自动将输入的xy转变成tenosr类型
ds_train = ds_train.map(processing).batch(128).shuffle(10000)  # 对数据集中的所有数据使用预处理函数

# 构建测试集数据集
ds_test = tf.data.Dataset.from_tensor_slices((x_test, y_test))  
ds_test = ds_test.map(processing).batch(128) # 每次迭代取128组数据，测试不需要打乱数据

# 构造迭代器，查看数据集是否正确
sample = next(iter(ds_train))  # 每次运行从训练数据集中取出一组xy
print('x_batch.shape', sample[0].shape, 'y_batch.shape', sample[1].shape)
# x_batch.shape (128, 32, 32, 3)   y_batch.shape (128, 10)

3.3 自定义网络

#（3）构造网络
class MyDense(layers.Layer): #必须继承layers.Layer层，放到sequential容器中
    # 代替layers.Dense层
    def __init__(self, input_dim, output_dim):
        super(MyDense, self).__init__()   # 调用母类初始化，必须

        # 自己发挥'w''b'指定名字没什么用，创建shape为[input_dim, output_dim的权重
        # 使用add_variable创建变量        
        self.kernel = self.add_variable('w',[input_dim, output_dim])
        self.bias = self.add_variable('b', [output_dim])

    # call方法，training来指示现在是训练还是测试         
    def call(self, inputs, training=None):
        
        x = inputs @ self.kernel + self.bias
        
        return x

# 自定义网络层
class MyNetwork(keras.Model):  # 必须继承keras.Model大类，才能使用complie、fit等功能
    
    def __init__(self):
        super(MyNetwork, self).__init__()  # 调用父类Mymodel
        # 新建五个层次
        self.fc1 = MyDense(32*32*3, 256)  #input_dim=784，output_dim=256
        self.fc2 = MyDense(256, 128)
        self.fc3 = MyDense(128, 64)
        self.fc4 = MyDense(64, 32)        
        self.fc5 = MyDense(32, 10)
  
    def call(self, inputs, training=None):
        # 前向传播，可以接收四维的tensor
        x = tf.reshape(inputs, [-1,32*32*3]) # 改变输入特征的形状
        x = self.fc1(x) #第一层[b,32*32*3]==>[b,256]
        x = tf.nn.relu(x) #激活函数
        x = self.fc2(x)
        x = tf.nn.relu(x)
        x = self.fc3(x)
        x = tf.nn.relu(x)
        x = self.fc4(x)
        x = tf.nn.relu(x)
        x = self.fc5(x)  #logits层
        return x

3.4 网络配置

#（4）网络配置
network = MyNetwork()       
network.compile(optimizer = optimizers.Adam(lr=0.001),  # 指定优化器
                loss = tf.losses.CategoricalCrossentropy(from_logits=True), #交叉熵损失
                metrics = ['accuracy'])  # 测试指标     

#（5）网络训练，输入训练数据，循环5次，验证集为ds_test，每一次大循环做一次测试
network.fit(ds_train, epochs=5, validation_data=ds_test, validation_freq=1)

# 循环5次后的结果为
Epoch 5/5
391/391 [==============================] - 3s 8ms/step - loss: 1.2197 - accuracy: 0.5707 - val_loss: 1.3929 - val_accuracy: 0.5182

学习率衰减策略

如何使用 TensorFlow 构建 多项式学习率衰减策略、单周期余弦退火学习率衰减策略、多周期余弦退火学习率衰减策略，并使用Mnist数据集来验证构建的方法是否可行。

下面创建的自定义学习率的类，都继承** tf.keras.optimizers.schedules.LearningRateSchedule

1、多项式衰减

1.1 方法介绍

学习率的多项式有两种情况，如下图所示。首先设置学习率的最高值和最低值，当学习率从最高点下降到最低点后。（1）cycle==False，接下去的所有学习率都保持最低值；（2）cycle==True，学习率从最低点上升到一个新的较高的值，并重新开始下降，以固定周期的形式，下降到最低点后又再次上升。

（1）cycle==False 的衰减公式

首先判断当前的 step 是否处于衰减周期 decay_period 中。如果在这个周期中，让用于计算的当前步数 current_step = step，表明学习率处于衰减过程之中；如果不在这个周期中，即已经下降到最低值，让用于计算当前步数 current_step = decay_period，表明已经结束了衰减过程。

计算公式如下：

lr 代表调整后的学习率；initial_lr 代表初始学习率，即最大学习率；min_lr 代表最小学习率；power 代表多项式的幂；其余同上

lr = (initial_lr - min_lr) * (1 - current_step / decay_period) ** (power) + min_lr

（2）cycle==True 的衰减公式

首先判断当前 step 处于第几个周期，计算公式如下。current_period 代表当前 step 处于第几个周期内；decay_period 代表一个衰减周期的 step 数；ceil 代表向上取整

current_period = decay_period * ceil(step / decay_period)

接下来就是计算衰减后的学习率，lr 代表调整后的学习率；initial_lr 代表初始学习率，即最大学习率；min_lr 代表最小学习率；power 代表多项式的幂

公式中的 step / current_period 一定是一个大于0小于1的数，随着 step 增加，step越来越接近当前周期的step数，这一项就越来越接近1，那么整个 lr 就越来越接近0

lr = (initial_lr - min_lr) * (1 - step / current_period) ** (power) + min_lr

1.2 代码展示

这里的 cycle==True 衰减方式的计算，有一点和公式中不一样，在分母 current_period 后面增加了一项无限接近于0的数 keras.backend.epsilon()，防止分母为0，整个学习率变成无穷大。

lr = (initial_lr - min_lr) * (1 - step / (current_period + keras.backend.epsilon())) ** (power) + min_lr

# ----------------------------------------------------------------------- #
# 学习率多项式衰减
# ----------------------------------------------------------------------- #
# eager模式防止graph报错
tf.config.experimental_run_functions_eagerly(True)
# ----------------------------------------------------------------------- #
# 继承自定义学习率的类
class PolynomialDecay(keras.optimizers.schedules.LearningRateSchedule):
    '''
    initial_lr: 初始的学习率
    decay_period: 一次多项式衰减的周期
    power: 多项式的幂
    min_lr: 学习率的最小值
    cycle: 是否进行多个多项式衰减
    print_step: 训练时多少个step打印一次学习率
    '''
    # 初始化
    def __init__(self, initial_lr, decay_period, power, min_lr, cycle, print_step):
        # 继承父类的初始化方法
        super(PolynomialDecay, self).__init__()
        
        # 属性分配
        self.initial_lr = tf.cast(initial_lr, dtype=tf.float32)
        self.decay_period = tf.cast(decay_period, dtype=tf.float32)
        self.power = power
        self.min_lr = tf.cast(min_lr, dtype=tf.float32)
        self.cycle = cycle
        self.print_step = print_step
        
        # 保存每个step的学习率
        self.learning_rate_list = []
        
        
    # 前向传播
    def __call__(self, step):
        
        #（1）学习率达到最低学习率后，就一直保持最低学习率
        if self.cycle is False:
            
            # 比较找出当前step是否超出了一个周期
            current_step = tf.where(step<self.decay_period, step, self.decay_period)
            
            # 计算衰减后的学习率
            decayed_learning_rate = (self.initial_lr - self.min_lr) *                            \
                                    (1 - current_step / self.decay_period) ** (self.power) +     \
                                    self.min_lr
            
            # 保存每个step的学习率
            self.learning_rate_list.append(decayed_learning_rate.numpy().item())
                        
            # 训练时每个epoch打印一次学习率
            if step % self.print_step == 0:
                # 打印当前epoch的学习率
                print('learning_rate has changed to: ', decayed_learning_rate.numpy().item())
                
            # 返回调整后的学习率
            return decayed_learning_rate


        #（2）学习率达到最低后，再上升一个较高的学习率再下降
        if self.cycle is True:
            
            # 计算目前处于第几个周期, tf.math.ceil向上取整
            current_period = self.decay_period * tf.math.ceil(step / self.decay_period)
            
            # 计算衰减后的学习率, 分母加上一个很小的数keras.backend.epsilon()防止分母为0
            decayed_learning_rate = (self.initial_lr - self.min_lr) *                                \
                                    (1 - step / (current_period + keras.backend.epsilon())) **       \
                                    (self.power) + self.min_lr
            
            
            # 保存每个step的学习率
            self.learning_rate_list.append(decayed_learning_rate.numpy().item())
                        
            
            # 训练时每个epoch打印一次学习率
            if step % self.print_step == 0:
                # 打印当前epoch的学习率
                print('learning_rate has changed to: ', decayed_learning_rate.numpy().item())


            return decayed_learning_rate

2、单周期的余弦退火衰减

2.1 方法介绍

在传统的训练过程中，设置学习率的策略往往是阶梯式的或者指数衰减式的。若要是使用恒定的学习率进行训练，会使得模型在临近最优解的时候开始震荡，进而无法达到损失函数最低点的最优解。故而使用衰减的学习率，在靠近最优解的附近，梯度逐渐减小，对应减小学习率，使得模型能够顺利收敛到正确的期望位置。

然而在实际过程中，由于模型的复杂，很难正确的描述最优解位置以及损失函数的结构，这使得模型往往会收敛到一个局部的最优解。最终由于学习率的衰减，使得模型最终陷入一个局部的最优解，而非全局的最优解。

而对训练过程的学习率使用余弦退火方法则是通过不断的调整学习率，在衰减到一定值之后，重新调整恢复学习率，跳出当前的局部最优解而重新去寻找全局的最优解。

单周期余弦退火图像如下：

余弦曲线部分的计算公式如下，其中 initial_lr 代表最大学习率，min_lr 代表最小学习率，step_warmup 代表线性上升部分需要对step，total_step 代表一个周期的step

lr = min_lr + 0.5 * (initial_lr - min_lr) * (1 + cos(pi * (step-warmup_step) \ (total_step-warmup_step)))

该计算公式得出的结果在可视化后的曲线图如下，余弦曲线峰值点的位置就是线性上升部分的终点。

线性上升部分的计算公式如下，可理解为 y=kx+b 的形式。然后以 warmup 为界限，左侧为线性上升部分，右侧为余弦下降部分

# 增长系数k
k = (initial_lr - min_lr) / warmup_step 
# 增长线段 y=kx+b
warmup = k * step + min_lr

2.2 代码展示

重点的计算公式我已经在上面说明了，这里需要注意的就是 tf.where(step 这个函数的目的就是，如果当前step处于warmup阶段，那么就取线性部分，如果step超出了warmup阶段，就取余弦衰减部分。最终以warmup作为两种学习率的分界。

我自定义的类，是继承至 keras.optimizers.schedules.LearningRateSchedule 自定义学习率调度器。为了清晰的展示训练过程中学习率的变化，如果当前的 step 是外部指定的 print_step 的整数倍，就打印一次学习率。并且使用列表 self.learning_rate_list 保存训练过程中每个 step 的学习率，训练完成之后，可调用查看。

# ----------------------------------------------------------------------- # # 单周期余弦退火衰减 # ----------------------------------------------------------------------- # # eager模式防止graph报错 tf.config.experimental_run_functions_eagerly(True) # ------------------------------------------------ # import math # 继承自定义学习率的类 class CosineWarmupDecay(keras.optimizers.schedules.LearningRateSchedule): ''' initial_lr: 初始的学习率, 即最大学习率 min_lr: 学习率的最小值 warmup_step: 线性上升部分需要的step total_step: 整个余弦退火需要对总step print_step: 多少个step打印一次学习率 ''' # 初始化 def __init__(self, initial_lr, min_lr, warmup_step, total_step, print_step): # 继承父类的初始化方法 super(CosineWarmupDecay, self).__init__() # 属性分配 self.initial_lr = tf.cast(initial_lr, dtype=tf.float32) self.min_lr = tf.cast(min_lr, dtype=tf.float32) self.warmup_step = warmup_step self.total_step = total_step self.print_step = print_step # 保存训练过程中每个step的学习率 self.learning_rate_list = [] # 前向传播 def __call__(self, step): # 余弦曲线计算公式 decayed_learning_rate = self.min_lr + 0.5 * (self.initial_lr - self.min_lr) * \ (1 + tf.math.cos(math.pi * (step-self.warmup_step) / \ (self.total_step-self.warmup_step))) # 线性上升线段计算公式 # 增长系数k k = (self.initial_lr - self.min_lr) / self.warmup_step # 增长线段 y=kx+b warmup = k * step + self.min_lr # 将余弦部分和增长线段组合，以warmup_step为界限 decayed_learning_rate = tf.where(step<self.warmup_step, warmup, decayed_learning_rate) # 保存每个step的学习率 self.learning_rate_list.append(decayed_learning_rate.numpy().item()) # 训练时每个epoch打印一次学习率 if step % self.print_step == 0: # 打印当前epoch的学习率 print('learning_rate has changed to: ', decayed_learning_rate.numpy().item()) # 返回更新后的学习率 return decayed_learning_rate

3、多周期余弦退火衰减

3.1 方法介绍

在看多周期之前，请先把上面的单周期掌握了。

这可以理解为是一种带重启的随机梯度下降算法。在网络模型更新时，由于存在很多局部最优解，这就导致模型会陷入局部最优解，即优化函数存在多个峰值。这就要求，当模型陷入局部最优解时，能够跳出去，并且继续寻找下一个最优解，直到找到全局最优解。要使得模型跳出局部最优解，就需要在模型陷入局部最优解时突然提高学习率，即重启学习率。

多周期的余弦退火衰减示意图如下：

多周期余弦退火算法的公式和单周期的一样，只需要在代码中稍做改动就可以了。改动的地方，新增了一个变量 self.step，并且在 __call__() 方法中，我增加了一个 if 条件判断。

我的思路是，如果当前的 step 到达了一个周期末尾的 step，那么就将当前 step 重置为 0，重新开始线性上升，并增加 warmup 段长度和整个周期的长度。如果有更好的方法，请大家在评论区指出来。

# ----------------------------------------------------------------------- # # 多周期余弦退火衰减 # ----------------------------------------------------------------------- # # eager模式防止graph报错 tf.config.experimental_run_functions_eagerly(True) # ------------------------------------------------ # import math # 继承自定义学习率的类 class CosineWarmupDecay(keras.optimizers.schedules.LearningRateSchedule): ''' initial_lr: 初始的学习率 min_lr: 学习率的最小值 max_lr: 学习率的最大值 warmup_step: 线性上升部分需要的step total_step: 第一个余弦退火周期需要对总step multi: 下个周期相比于上个周期调整的倍率 print_step: 多少个step并打印一次学习率 ''' # 初始化 def __init__(self, initial_lr, min_lr, warmup_step, total_step, multi, print_step): # 继承父类的初始化方法 super(CosineWarmupDecay, self).__init__() # 属性分配 self.initial_lr = tf.cast(initial_lr, dtype=tf.float32) self.min_lr = tf.cast(min_lr, dtype=tf.float32) self.warmup_step = warmup_step # 初始为第一个周期的线性段的step self.total_step = total_step # 初始为第一个周期的总step self.multi = multi self.print_step = print_step # 保存每一个step的学习率 self.learning_rate_list = [] # 当前步长 self.step = 0 # 前向传播, 训练时传入当前step，但是上面已经定义了一个，这个step用不上 def __call__(self, step): # 如果当前step达到了当前周期末端就调整 if self.step>=self.total_step: # 乘上倍率因子后会有小数，这里要注意 # 调整一个周期中线性部分的step长度 self.warmup_step = self.warmup_step * (1 + self.multi) # 调整一个周期的总step长度 self.total_step = self.total_step * (1 + self.multi) # 重置step，从线性部分重新开始 self.step = 0 # 余弦部分的计算公式 decayed_learning_rate = self.min_lr + 0.5 * (self.initial_lr - self.min_lr) * \ (1 + tf.math.cos(math.pi * (self.step-self.warmup_step) / \ (self.total_step-self.warmup_step))) # 计算线性上升部分的增长系数k k = (self.initial_lr - self.min_lr) / self.warmup_step # 线性增长线段 y=kx+b warmup = k * self.step + self.min_lr # 以学习率峰值点横坐标为界，左侧是线性上升，右侧是余弦下降 decayed_learning_rate = tf.where(self.step<self.warmup_step, warmup, decayed_learning_rate) # 每个epoch打印一次学习率 if step % self.print_step == 0: # 打印当前step的学习率 print('learning_rate has changed to: ', decayed_learning_rate.numpy().item()) # 每个step保存一次学习率 self.learning_rate_list.append(decayed_learning_rate.numpy().item()) # 计算完当前学习率后step加一用于下一次 self.step = self.step + 1 # 返回调整后的学习率 return decayed_learning_rate

4、实践验证

下面以Mnist手写数据集为例，来验证一下上面定义的多周期余弦退火学习率衰减能不能用。预处理和网络构建我就不讲了，都比较基础，我们直接看到下面代码中的第（6）部分。

首先对我们自定义的学习率类实例化，传入必要的初始化参数 cosinewarmupdecay = CosineWarmupDecay(…)，然后将我们定义的学习率方法传入至Adam优化器中，keras.optimizers.Adam(cosinewarmupdecay)，那么在训练时，每次都会给这个类方法传入一个当前 step 值，经过计算学习率后，将调整后的学习率返回给模型。

import tensorflow as tf from tensorflow import keras from tensorflow.keras import layers import matplotlib.pyplot as plt # 调用GPU加速 gpus = tf.config.experimental.list_physical_devices(device_type='GPU') for gpu in gpus: tf.config.experimental.set_memory_growth(gpu, True) # ----------------------------------------------------------------------- # # （1）fashion_mnist数据预加载及预处理 # ----------------------------------------------------------------------- # (x_train, y_train), (x_test, y_test) = keras.datasets.fashion_mnist.load_data() print('x_train.shape:', x_train.shape, 'y_train.shape:', y_train.shape) # (60000, 28, 28) , (60000,) print('x_test.shape:', x_test.shape) # (10000, 28, 28) # 记录训练集的数量 total_train_num = x_train.shape[0] # ----------------------------------------------------------------------- # # 学习率多周期余弦退火衰减 # ----------------------------------------------------------------------- # # eager模式防止graph报错 tf.config.experimental_run_functions_eagerly(True) # ------------------------------------------------ # import math # 继承自定义学习率的类 class CosineWarmupDecay(keras.optimizers.schedules.LearningRateSchedule): ''' initial_lr: 初始的学习率 min_lr: 学习率的最小值 max_lr: 学习率的最大值 warmup_step: 线性上升部分需要的step total_step: 第一个余弦退火周期需要对总step multi: 下个周期相比于上个周期调整的倍率 print_step: 多少个step并打印一次学习率 ''' # 初始化 def __init__(self, initial_lr, min_lr, warmup_step, total_step, multi, print_step): # 继承父类的初始化方法 super(CosineWarmupDecay, self).__init__() # 属性分配 self.initial_lr = tf.cast(initial_lr, dtype=tf.float32) self.min_lr = tf.cast(min_lr, dtype=tf.float32) self.warmup_step = warmup_step # 初始为第一个周期的线性段的step self.total_step = total_step # 初始为第一个周期的总step self.multi = multi self.print_step = print_step # 保存每一个step的学习率 self.learning_rate_list = [] # 当前步长 self.step = 0 # 前向传播, 训练时传入当前step，但是上面已经定义了一个，这个step用不上 def __call__(self, step): # 如果当前step达到了当前周期末端就调整 if self.step>=self.total_step: # 乘上倍率因子后会有小数，这里要注意 # 调整一个周期中线性部分的step长度 self.warmup_step = self.warmup_step * (1 + self.multi) # 调整一个周期的总step长度 self.total_step = self.total_step * (1 + self.multi) # 重置step，从线性部分重新开始 self.step = 0 # 余弦部分的计算公式 decayed_learning_rate = self.min_lr + 0.5 * (self.initial_lr - self.min_lr) * \ (1 + tf.math.cos(math.pi * (self.step-self.warmup_step) / \ (self.total_step-self.warmup_step))) # 计算线性上升部分的增长系数k k = (self.initial_lr - self.min_lr) / self.warmup_step # 线性增长线段 y=kx+b warmup = k * self.step + self.min_lr # 以学习率峰值点横坐标为界，左侧是线性上升，右侧是余弦下降 decayed_learning_rate = tf.where(self.step<self.warmup_step, warmup, decayed_learning_rate) # 每个epoch打印一次学习率 if step % self.print_step == 0: # 打印当前step的学习率 print('learning_rate has changed to: ', decayed_learning_rate.numpy().item()) # 每个step保存一次学习率 self.learning_rate_list.append(decayed_learning_rate.numpy().item()) # 计算完当前学习率后step加一用于下一次 self.step = self.step + 1 # 返回调整后的学习率 return decayed_learning_rate # ----------------------------------------------------------------------- # # （3）参数设置 # ----------------------------------------------------------------------- # # 每个step处理多少张图像 batch_size = 32 # 迭代次数 num_epochs = 15 # 初始学习率 initial_lr = 0.001 # 学习率下降的最小值 min_lr = 1e-7 # 余弦退火的周期调整倍率 multi = 0.25 # 一个epoch包含多少个batch也是多少个steps, 即1875 one_epoch_batchs = int(total_train_num / batch_size) # 第一个余弦退火周期需要的总step，以三个epoch为一个周期 total_step = one_epoch_batchs * 3 # 线性上升部分需要的step, 一个周期的四分之一的epoch用于线性上升 warmup_step = int(total_step * 0.25) # 多少个step打印一次学习率, 一个epoch打印一次 print_step = one_epoch_batchs # ----------------------------------------------------------------------- # # （4）划分数据集 # ----------------------------------------------------------------------- # # 预处理 def preprocessing(x, y): x = tf.cast(x, dtype=tf.float32) / 255.0 # 像素归一化 x = tf.expand_dims(x, axis=-1) # 增加通道维度 y = tf.cast(y, dtype=tf.int32) # 标签转为tensor类型 return x,y # 训练集 train_ds = tf.data.Dataset.from_tensor_slices((x_train, y_train)) train_ds = train_ds.map(preprocessing).batch(batch_size).shuffle(10000) # 测试集 test_ds = tf.data.Dataset.from_tensor_slices((x_test, y_test)) test_ds = test_ds.map(preprocessing).batch(batch_size) # 迭代器查看数据是否正确 sample = next(iter(train_ds)) print('x_batch:', sample[0].shape, 'y_batch:', sample[1].shape) # (32, 28, 28, 1), (32,) # ----------------------------------------------------------------------- # # （5）网络构建 # ----------------------------------------------------------------------- # inputs = keras.Input(sample[0].shape[1:]) # 构造输入层 # [28,28,1]==>[28,28,32] x = layers.Conv2D(32, kernel_size=3, padding='same', activation='relu')(inputs) # [28,28,32]==>[14,14,32] x = layers.MaxPool2D(pool_size=(2,2), strides=2, padding='same')(x) # [14,14,32]==>[14,14,64] x = layers.Conv2D(64, kernel_size=3, padding='same', activation='relu')(x) # [14,14,64]==>[7,7,64] x = layers.MaxPool2D(pool_size=(2,2), strides=2, padding='same')(x) # [7,7,64]==>[None,7*7*64] x = layers.Flatten()(x) # [None,7*7*64]==>[None,128] x = layers.Dense(128)(x) # [None,128]==>[None,10] outputs = layers.Dense(10, activation='softmax')(x) # 构建模型 model = keras.Model(inputs, outputs) # ------------------------------------------------------------------ # # （6）模型训练 # ------------------------------------------------------------------ # # 接收学习率调整方法 cosinewarmupdecay = CosineWarmupDecay(initial_lr=initial_lr, # 初始学习率，即最大学习率 min_lr=min_lr, # 学习率下降的最小值 warmup_step=warmup_step, # 线性上升部分的step total_step=total_step, # 训练的总step multi=multi, # 周期调整的倍率 print_step=print_step) # 每个epoch打印一次学习率值 # 设置adam优化器，指定学习率 opt = keras.optimizers.Adam(cosinewarmupdecay) # 网络编译 model.compile(optimizer=opt, # 学习率 loss='sparse_categorical_crossentropy', # 损失 metrics=['accuracy']) # 监控指标 # 网络训练 model.fit(train_ds, epochs=num_epochs, validation_data=test_ds) # 绘制学习率变化曲线 plt.plot(cosinewarmupdecay.learning_rate_list) plt.xlabel("Train step") plt.ylabel("Learning_Rate") plt.title('cosinewarmupdecay') plt.grid() plt.show()

我设置了在训练过程中，每个epoch打印一次学习率，训练过程如下：

Epoch 1/15 learning_rate has changed to: 1.0000000116860974e-07 1875/1875 [==============================] - 27s 14ms/step - loss: 0.9364 - accuracy: 0.6849 - val_loss: 0.3792 - val_accuracy: 0.8629 Epoch 2/15 learning_rate has changed to: 0.0009698210633359849 1875/1875 [==============================] - 25s 13ms/step - loss: 0.3030 - accuracy: 0.8920 - val_loss: 0.2907 - val_accuracy: 0.8989 ------------------------------------------------------------ ------------------------------------------------------------ Epoch 14/15 learning_rate has changed to: 0.0009987982921302319 1875/1875 [==============================] - 29s 15ms/step - loss: 0.1430 - accuracy: 0.9470 - val_loss: 0.2871 - val_accuracy: 0.9107 Epoch 15/15 learning_rate has changed to: 0.0008539927075617015 1875/1875 [==============================] - 29s 15ms/step - loss: 0.1213 - accuracy: 0.9563 - val_loss: 0.2902 - val_accuracy: 0.9156

我设置了在训练过程中每一个step都保存一次当前学习率值，保存于 self.learning_rate_list ，训练完成之后可以通过 cosinewarmupdecay.learning_rate_list 读取这个列表，绘制学习率变化曲线

使用余弦退火学习率衰减方法和传统的学习率连续衰减方法的对比图

Python 3 介绍（二十二）--mysql-connector-python 小蘑菇二号零基础学 Python--快速入门 Python 快速入门 adb
目录安装mysql-connector-python基本使用示例1.连接到数据库2.插入数据3.更新数据4.删除数据进阶功能1.使用事务2.批量插入数据3.使用字典游标错误处理总结mysql-connector-python是一个用于Python的MySQL数据库驱动程序，它允许Python应用程序与MySQL数据库进行交互。这个驱动程序提供了高级别的API，支持多种Python版本，并且兼容多种
TensorFlow和Pytorch在功能上的区别以及优势 Honeysea_70 #算法 tensorflow pytorch 人工智能
功能上的区别1.计算图TensorFlow：使用静态计算图（StaticGraph）。在运行模型之前，需要先构建完整的计算图，然后通过会话（Session）运行图。优点是性能优化更高效，适合大规模分布式训练和生产环境部署。缺点是调试相对复杂，因为计算图的构建和运行是分离的。PyTorch：使用动态计算图（DynamicGraph）。计算图是动态构建和执行的，每次迭代都会重新构建图。优点是调试方便，
Python - 爬虫；爬虫-网页抓取数据-工具curl MinggeQingchun Python 爬虫 curl python
一、爬虫关于爬虫的合法性通用爬虫限制：Robots协议【约定协议robots.txt】robots协议：协议指明通用爬虫可以爬取网页的权限robots协议是一种约定，一般是大型公司的程序或者搜索引擎等遵守几乎每一个网站都有一个名为robots.txt的文档，当然也有部分网站没有设定robots.txt。对于没有设定robots.txt的网站可以通过网络爬虫获取没有口令加密的数据，也就是该网站所有页
Python爬虫：数据抓取工具及类库详解 2401_84692751 程序员 python 爬虫开发语言
wget也是一个利用URL语法在命令行环境下进行文件传输的工具,其基本用法为wget[URL地址][参数],如:wgethttps://www.baidu.com其常用参数如下:下面例子演示如何使用wget镜像一个网站到本地并启动:使用wget--mirror命令将整个网站的镜像下载到本地wget--mirror-p--convert-linkshttp://www.httpbin.org切换到下
大语言模型学习路线：从入门到实战大模型官方资料语言模型学习人工智能产品经理自然语言处理搜索引擎
大语言模型学习路线：从入门到实战在人工智能领域，大语言模型（LargeLanguageModels,LLMs）正迅速成为一个热点话题。本学习路线旨在为有基本Python编程和深度学习基础的学习者提供一个清晰、系统的大模型学习指南，帮助你在这一领域快速成长。本学习路线更新至2024年02月，后期部分内容或工具可能需要更新。适应人群已掌握Python基础具备基本的深度学习知识学习步骤本路线将通过四个核
深度学习与目标检测系列(六) 本文约(4.5万字) | 全面解读复现ResNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch 人工智能 ResNet 残差连接残差网络
文章目录解读Abstract—摘要翻译精读主要内容Introduction—介绍翻译精读背景RelatedWork—相关工作ResidualRepresentations—残差表达翻译精读主要内容ShortcutConnections—短路连接翻译精读主要内容DeepResidualLearning—深度残差学习ResidualLearning—残差学习翻译精读ResNet目的以前方法本文改进本质
深度学习与目标检测系列(三) 本文约(4万字) | 全面解读复现AlexNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch AlexNet 人工智能
文章目录解读Abstract-摘要翻译精读主要内容1.Introduction—前言翻译精读主要内容：本文主要贡献：2.TheDataset-数据集翻译精读主要内容：ImageNet简介：图像处理方法：3.TheArchitecture—网络结构3.1ReLUNonlinearity—非线性激活函数ReLU翻译精读传统方法及不足本文改进方法本文的改进结果3.2TrainingonMultipleG
python arm64_PyTorch-aarch64 人类0663号 python arm64
PyTorch源码编译步骤：1、源码编译环境：操作系统：debian9.12交换空间：1GPython版本：3.5硬件：CPU：RK3399(aarch64)内存：4G2、下载依赖包：下载pytorch及其依赖包时，默认从github上下载，如果网络不好、容易断开时，可在gitee上找到对应包克隆链接，然后修改对应配置文件，进行下载。需要细致耐心。3、编译主要参数：设置最大作业数：exportMA
交叉编译python3.8 岁月金刀 python linux 开发语言
参考链接：交叉编译移植Python到arm架构下的Linux系统-白菜没我白-博客园Python3交叉编译步骤（二）-三方库的交叉编译-秀才哥哥-博客园一、先安装Ubantu虚拟机上的python：1，下载python3.8安装包2，安装依次执行如下步骤：./configureprefix=/usr/local/python3//prefix是指定安装目录，你可以自己新建目录安装到那里makema
31天Python入门——第10天:深入理解值传递·引用传递以及深浅拷贝问题安然无虞 Python手把手教程 python 开发语言后端 pyqt
你好，我是安然无虞。文章目录1.什么是对象2.对象类型3.引用传递3.1基本概念3.2不可变对象和可变对象的引用传递不可变对象可变对象3.3函数参数传递中的引用传递不可变对象作为参数可变对象作为参数3.4如何避免可变对象引用传递带来的问题3.5总结:值传递和引用传递4.深浅拷贝问题4.1浅拷贝4.2深拷贝4.3使用场景1.什么是对象如果你学过驾驶，八成被教练骂过吧？可能你的脑海中现在还回荡着教练粗
定时任务调度框架xxl-job与quartz的区别 java程序员CC java
XXL-Job和Quartz都是Java项目中常用的定时任务框架，它们有以下几点区别：xxl-job和Quartz都是用于任务调度的开源框架，它们之间有一些区别，主要体现在以下几个方面：语言支持：Quartz主要是基于Java的任务调度框架，支持Java语言。xxl-job是一个分布式任务调度平台，它提供了Java版本的调度中心，同时还提供了Python、PHP等语言的任务执行器，因此支持多种语言
python科学绘图-matplotlib绘制三维函数图像，并且在函数底部绘制等值线 zhan114514 python科学绘图 python matplotlib 开发语言
python使用matplotlib库绘制三维函数图像，并且在底部绘制等值线。三维图像函数surface=ax.plot_surface(X,Y,zss,camp=色带)等值线函数contour=ax.contour(xs,ys,zss,zdir=在哪个轴绘制,offset=在该轴什么位置绘制,camp=色带,zorder=图层位置)颜色条函数plt.colorbar(surface,shrink
python使用matplotlib库绘制饼图 zhan114514 python科学绘图 python matplotlib 开发语言
使用python的matplotlib库绘制饼图，包括普通饼图、堆叠饼图、嵌套饼图，并一一封装成了方法，直接调用使用。先安装matplotlib库，pipinstallmatplotlib代码如下：fromtypingimportSequenceimportmatplotlib.pyplotaspltimportmatplotlibimportnumpyasnpmatplotlib.rcParam
python科学绘图-matplotlib中标记marker的使用方法 zhan114514 python科学绘图 python matplotlib 开发语言
python使用matplotlib库，在绘制点图、线图的时候，标记初始的数据用图标记所有标记，可以拿出来对比使用代码：importmatplotlibimportnumpyasnpfrommatplotlibimportpyplotaspltimportmatplotlib.linesasmlinesmatplotlib.use("TkAgg")plt.rcParams['font.sans-s
python：@classmethod zcxvdzv python
python提供了@classmethod和@staticmethod来定义静态方法1、实例方法，该实例属于对象，该方法的第一个参数是当前实例，拥有当前类以及实例的所有特性。2、@classmethod类方法，该实例属于类，该方法的第一个参数是当前类，可以对类做一些处理，如果一个静态方法和类有关但是和实例无关，那么使用该方法。3、@staticmethod静态方法，该实例属于类，但该方法没有参数，
Tinyflow AI 工作流编排框架 v0.0.7 发布自不量力的A同学人工智能
目前没有关于TinyflowAI工作流编排框架v0.0.7发布的相关具体信息。Tinyflow是一个轻量的AI智能体流程编排解决方案，其设计理念是“简单、灵活、无侵入性”。它基于WebComponent开发，前端支持与React、Vue等任何框架集成，后端支持Java、Node.js、Python等语言，助力传统应用快速AI转型。该框架代码库轻量，学习成本低，能轻松应对简单任务编排和复杂多模态推理
Linux内核学习之 -- epoll()一族系统调用分析笔记 lagransun linux 学习笔记
背景linux4.19epoll()也是一种I/O多路复用的技术，但是完全不同于select()/poll()。更加高效，高效的原因其他博客也都提到了，这篇笔记主要是从源码的角度来分析一下实现过程。作为自己的学习笔记，分析都在代码注释中，后续回顾的时候看注释好一点。相关链接：Linux内核学习之–ARMv8架构的系统调用笔记Linux内核学习之–系统调用open()和write()的实现笔记Lin
Python classmethod函数晓之以理的喵~~ Python python 开发语言
在Python编程中，classmethod()函数是一个内置函数，用于定义类方法。类方法是绑定到类而不是实例的方法，可以通过类名直接调用，并且可以访问类的属性和方法。本文将深入探讨Python中的classmethod()函数，包括基本用法、与实例方法的区别、应用场景，并提供丰富的示例代码来帮助更好地理解和使用classmethod()函数。什么是classmethod()函数？classmet
python画图怎么调色_Python气象数据处理与绘图(19)：如何使用NCL色板(调色盘思路相同)... weixin_39710295 python画图怎么调色
一、使用NCL色板(使用调色盘文件思路相同)NCL的色板十分丰富，几乎可以涵盖平常所需。详见：传送门那么我们能否将NCL的色板用在python中呢？答案当然是可以的。我在气象家园发现了个帖子，楼主自己封装了一个包，可以在python中调用NCL的色板，详见：传送门，一般来说这个包足够大家日常使用了。一些想进一步了解原理并且进行扩展应用的朋友，可以接着往下看。其基本原理就是读取NCL色板的.rgb文
python中的@classmethod 无脑敲代码，bug漫天飞编程 python
@classmethod是一个装饰器，用于指示一个方法是一个类方法;类方法是通过类本身来调用的，而不是通过类的实例来调用。类方法接收的第一个参数是类本身（通常命名为cls），而不是类的实例。用处：创建类的实例。使用类方法作为工厂函数，可以隐藏对象的创建细节，并在创建对象时执行一些额外的逻辑.由于类方法接收的是类本身作为第一个参数，因此它们可以用于修改类级别的状态或属性。代码案例：classMyCl
PYQT5的UI转换报错：fatal python error: _pyinterpreterstate_get(): no current thread state解决办法 QX大黄蜂 python ui qt python
使用QT可视化工具设计界面，在将UI文件转换为py文件的时候报错：fatalpythonerror:_pyinterpreterstate_get():nocurrentthreadstatepythonrun原因可能是python版本与QT不兼容，具体原因不知道解决办法：使用以下配置将UI转换为py，再将py文件给其它程序调用python版本：3.7.1pyqt5版本：5.11.3pyqt5-t
Python 数据分析实战：宠物经济行业发展洞察萧十一郎@ python python 数据分析宠物
目录一、案例背景二、代码实现2.1数据收集2.2数据探索性分析2.3数据清洗2.4数据分析2.4.1宠物用品用户满意度分析2.4.2宠物用品销售与价格关系分析2.4.3宠物经济行业未来发展预测三、主要的代码难点解析3.1数据收集3.2数据清洗-销售数据处理3.3数据分析-宠物用品用户满意度分析3.4数据分析-宠物用品销售与价格关系分析3.5数据可视化四、可能改进的代码4.1数据收集改进4.2数据清
一文搞懂python中常用的装饰器（@classmethod、@property、@staticmethod、@abstractmethod......） NosONE python python
本文分为两部分，第一部分是介绍python中常见的装饰器。另一部分是自定义装饰器，包括了一些非常好用的自定义装饰器。一文搞懂python中常用的装饰器常见的几个装饰器介绍及示例@classmethod装饰器基本用法@property、@setter装饰器基本用法@staticmethod装饰器基本用法@abstractmethod装饰器基本用法自定义装饰器类装饰器非常好用的自定义装饰器常见的几个装
python @classmethod Mmnnnbb123 python java 开发语言
1..什么是classmethodclassmethod是用来指定一个类的方法为类方法长的像下面这个样子123classcc:@classmethoddeff(cls,arg1,arg2,...):...cls通常用作类方法的第一参数跟self有点类似（__init__里面的slef通常用作实例方法的第一参数)。即通常用self来传递当前类对象的实例，cls传递当前类对象。self和cls没有特别
Fatal Python error: init_stdio_encoding: failed to get the Python codec name of the stdio encoding CCLZMY python 开发语言后端
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML图表FLowchart流程图导出与导入导出导入D:\Metag
【收藏】如何优雅的在 Python matplotlib 中可视化矩阵，以及cmap色带设置 Think Spatial 空间思维 Python骚操作合集 python matplotlib 可视化矩阵 cmap
有时需要将numpy矩阵绘制出来看趋势，这时候可以使用plt.imshow()方法来可视化同时还需要对cmap进行设置，使用不同的色带，达到更好的可视化效果。代码importnumpyasnpfrommatplotlibimportpyplotaspltdata2D=np.random.random((50,50)
如何在 virtualenv 中从 python scipt 运行 Tensorboard? 潮易 python virtualenv 开发语言
如何在virtualenv中从pythonscipt运行Tensorboard?要在virtualenv中从Pythonscript运行TensorBoard，你需要遵循以下步骤：1.安装TensorBoard：确保你已经安装了TensorBoard。如果还没有安装，可以通过pip安装：```bashpipinstalltensorboard```2.在你的项目目录下创建一个日志目录（logdir
使用 Milvus 进行向量数据库管理与实践 qahaj milvus 数据库 python
技术背景介绍在当今的AI与机器学习应用中，处理和管理大量的嵌入向量是一个常见的需求。Milvus是一个开源向量数据库，专门用于存储、索引和管理深度神经网络以及其他机器学习模型生成的大规模嵌入向量。它的高性能和易用性使其成为处理向量数据的理想选择。核心原理解析Milvus的核心功能体现在其强大的向量索引和搜索能力。它支持多种索引算法，包括IVF、HNSW等，使其能够高效地进行大规模向量的相似性搜索操
外星人入侵-Python-二 Java版蜡笔小新 Python python pygame 开发语言
武装飞船开发一个名为《外星人入侵》的游戏吧！为此将使用Pygame，这是一组功能强大而有趣的模块，可用于管理图形、动画乃至声音，让你能够更轻松地开发复杂的游戏。通过使用Pygame来处理在屏幕上绘制图像等任务，可将重点放在程序的高级逻辑上。你将安装Pygame，再创建一艘能够根据用户输入左右移动和射击的飞船。在接下来的两章，你将创建一群作为射杀目标的外星人，并改进该游戏：限制可供玩家使用的飞船数，
物理学不存在了？诺贝尔物理学奖颁给了人工智能资讯新鲜事人工智能
2024年10月8日，瑞典皇家科学院宣布，将2024年诺贝尔物理学奖授予美国普林斯顿大学教授约翰·J·霍普菲尔德（JohnJ.Hopfield）和加拿大多伦多大学教授杰弗里·E·辛顿（GeoffreyE.Hinton），以表彰他们“在人工神经网络机器学习方面的基础性发现和发明”。辛顿在接受电话采访时表示：“完全没想到”。实话实说，在结果出来前，大家也都没想到。因为在外界预测里，今年的诺贝尔物理学奖
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen

【推荐收藏】三万字详解 TensorFlow 深度学习必备知识点（下）

文章目录

解惑答疑

keras

1、metrics 性能指标

1.1 新建一个 metrics 指标

1.2 向metrics添加数据

1.3 从metrics中取出数据

1.4 清空缓存

2、compile 模型配置

3、fit 模型训练

4、evaluate 模型评估

5、predict 预测

6、sequential

7、自定义层构建网络

交叉验证、正则化，自定义网络

1、交叉验证

划分方法

（1）构造数据集时划分

（2）使用训练函数fit()中的参数划分

2、正则化

3、自定义网络

3.1 数据获取

3.2 数据预处理

3.3 自定义网络

3.4 网络配置

学习率衰减策略

1、多项式衰减

1.1 方法介绍

1.2 代码展示

2、单周期的余弦退火衰减

2.1 方法介绍

2.2 代码展示

3、多周期余弦退火衰减

3.1 方法介绍

4、实践验证

你可能感兴趣的:(学习笔记,机器学习,深度学习,tensorflow,python)