克里斯大炮

（tensorflow笔记）神经网络中的一些关键概念（学习率、激活函数、损失函数、欠拟合和过拟合、正则化和优化器）

1.神经网络复杂度
- 空间复杂度
- 时间复杂度
2.学习率策略
- 指数衰减学习率
- 分段常数衰减
3.激活函数
- sigmoid
- tanh
- ReLU
- Leaky ReLU
- 建议
4.损失函数
- 均方误差损失函数
- 交叉熵损失函数
- 自定义损失函数
5.欠拟合与过拟合
6.正则化减少过拟合
- 概念
- 可视化
7.优化器更新网络参数
- SGD
- - vanilla SGD
  - SGD with Momentum (SGDM)
  - SGD with Nesterov Acceleration（NAG）
- AdaGrad
- RMSProp
- AdaDelta
- Adam
- 优化器算法可视化
- 优化器选择
- 优化算法的常用tricks

1.神经网络复杂度

神经网络的复杂度，多用神经网络的层数和神经网络中待优化参数的个数表示。以下图为例说明

空间复杂度

神经网络的层数=隐藏层的层数+1个输出层
统计神经网络的层数时，只统计具有运算能力的层，输入层仅把数据传输过来，没有运算，不算到神经网络的层数中。输入层和输出层之间的所有层都叫做隐藏层。上图有2层神经网络
总参数=总w + 总b
（第一层）3×4+4 + （第二层）4×2+2 = 26

时间复杂度

神经网络中乘加运算的次数表示。有几条权重线，就有几次乘加运算
（第一层）3×4 + （第二层）4×2 = 20

2.学习率策略

参数更新公式如下，公式中的lr即为学习率，表示参数每次更新的幅度。

当学习率设置过小时，更新过慢，当学习率设置过大时，不收敛，那么学习率设置多少合适

指数衰减学习率

可以先用较大的学习率，快速得到较优解，然后逐步减小学习率，使模型在训练后期稳定

可使用此公式实现指数衰减学习率，根据当前迭代次数，动态改变学习率的值。指数型学习率衰减法是最常用的衰减方法，在大量模型中都广泛使用.此公式中，绿色的文字为超参数，当前轮数一般为epoch或者是当前迭代的batch数global_step表示
TensorFlow API: tf.keras.optimizers.schedules.ExponentialDecay

分段常数衰减

TensorFlow API: tf.optimizers.schedules.PiecewiseConstantDecay

分段常数衰减可以让调试人员针对不同任务设置不同的学习率，进行精细调参，在任意步长后下降任意数值的learning rate，要求调试人员对模型和数据集有深刻认识，一般用的不多。

3.激活函数

激活函数是用来加入非线性因素的，因为线性模型的表达能力不够。引入非线性激活函数，可使深层神经网络的表达能力更加强大
优秀的激活函数应满足：

非线性：激活函数非线性时，多层神经网络可逼近所有函数
可微性：优化器大多使用梯度下降来更新参数
单调性：当激活函数是单调的，能保证单层网络的损失函数是凸函数
近似恒等性：f(x)约等于x。当参数初始化为随机小值时，神经网络更稳定

简单看下凸函数，比如这就是一个凸函数的图像，像一个大碗一样

与刚才的图有些相反，这是非凸函数，因为它是非凸的并且有很多不同的局部最小值

激活函数输出值的范围：
激活函数输出为有限值时，基于梯度的优化方法更稳定
激活函数输出为无限值时，建议调小学习率

sigmoid

可以看到，sigmoid函数将输入值变换到0-1之间的值输出，若输入值是非常大的负数，则输出为0；若输入值是非常大的正数，则输出值为1，相当于对输入进行归一化。
现在sigmoid函数用的很少，主要的原因是，深层神经网络更新参数时，需要从输出层到输入层，逐层进行链式求导，而sigmoid函数的导数输出是0-0.25之间的小数，链式求导需要多层导数连续相乘，会出现多个0-0.25之间的小数连续相乘，结果将趋于0，产生梯度消失，使得参数无法继续更新
我们希望输入每层神经网络的特征是以0为均值的小数值，但是过sigmoid激活函数后的数据都是正数，会使收敛变慢。而且sigmoid函数存在幂运算，计算复杂度大，计算时间长

TensorFlow API: tf.math.sigmoid

优点：

输出映射在(0,1)之间，单调连续，输出范围有限，优化稳定，可用作输出层；
求导容易

缺点：

易造成梯度消失；
输出非0均值，收敛慢；
幂运算复杂，训练时间长。

sigmoid函数可应用在训练过程中。然而，当处理分类问题作为输出时，sigmoid却无能为力。简单地说，sigmoid函数只能处理两个类，不适用于多分类问题。而softmax可以有效解决这个问题，并且softmax函数大都运用在神经网路中的最后一层网络中，使得值得区间在（0,1）之间，而不是二分类的。

tanh

从函数图像看，tanh函数的输出为0均值了，但是依旧存在梯度消失和幂运算问题
TensorFlow API: tf.math.tanh

优点：

比sigmoid函数收敛速度更快。
相比sigmoid函数，其输出以0为中心

缺点：

易造成梯度消失；
幂运算复杂，训练时间长。

ReLU

relu函数非常符合好的激活函数应该具有近似恒等性这一要求，
TensorFlow API: tf.nn.relu

优点：

解决了梯度消失问题(在正区间)；
只需判断输入是否大于0，计算速度快；
收敛速度远快于sigmoid和tanh，因为sigmoid和tanh涉及很多expensive的操作；
提供了神经网络的稀疏表达能力。

缺点：

输出非0均值，收敛慢；
Dead ReLU问题：某些神经元可能永远不会被激活，导致相应的参数永远不能被更新。即送入激活函数的特征是负数时，激活函数输出是0，反向传播得到的梯度是0，导致参数无法更新，造成神经元死亡

其实，导致神经元死亡的根本原因是送入神经元的负数特征过多导致的，我们可以改进随机初始化，避免过多的负数特征送入relu函数，可以通过设置更小的学习率，减少参数分布的巨大变化，避免训练中产生过多负数特征进入relu函数

Leaky ReLU

Leaky ReLU是为解决relu负区间为0，引起神经元死亡问题而设计的，Leaky ReLU的负区间引入了一个固定的斜率a，使得Leaky ReLU的负区间不再恒等于0
理论上来讲，Leaky ReLU有ReLU的所有优点，外加不会有Dead ReLU问题，但是在实际操作当中，并没有完全证明Leaky ReLU总是好于ReLU。实际使用中，大部分仍然选用relu
TensorFlow API: tf.nn.leaky_relu

建议

首选ReLU激活函数；
学习率设置较小值；
输入特征标准化，即让输入特征满足以0为均值，1为标准差的正态分布；
初始化问题：初始参数中心化，即让随机生成的参数满足以0为均值，以
为标准差的正态分布。

4.损失函数

损失函数：预测值(y)与已知答案(y_)的差距。神经网络的优化目标，就是找到某套参数，使得计算出来的结果y与已知答案y_无限接近，也即它们的差距loss值最小
神经网络模型的效果及优化的目标是通过损失函数来定义的。回归和分类是监督学习中的两个大
类。主流的loss有三种计算方法，均方误差、交叉熵和自定义。下面用一个预测酸奶日销量的例子，来理解损失函数

均方误差损失函数

均方误差（Mean Square Error）是回归问题最常用的损失函数。回归问题解决的是对具体数值的预测，比如房价预测、销量预测等。这些问题需要预测的不是一个事先定义好的类别，而是一个任意实数。均方误差定义如下：

TensorFlow API: tf.keras.losses.MSE

预测酸奶日销量y， x1、 x2是影响日销量的因素。
建模前，应预先采集的数据有：每日x1、 x2和销量y_（即已知答案，知道了销量，就可以建议产量了，这里假定，最佳的情况：产量=销量）
拟造数据集X,Y_： y_ = x1 + x2 噪声： -0.05 ~ +0.05 拟合可以预测销量的函数
构建一个一层的神经网络，将这套构建的数据集喂入其中

import tensorflow as tf
import numpy as np

SEED = 23455

rdm = np.random.RandomState(seed=SEED)  # 生成[0,1)之间的随机数
x = rdm.rand(32, 2) #此即x1和x2
y_ = [[x1 + x2 + (rdm.rand() / 10.0 - 0.05)] for (x1, x2) in x]  # 生成噪声[0,1)/10=[0,0.1); [0,0.1)-0.05=[-0.05,0.05)
x = tf.cast(x, dtype=tf.float32)

w1 = tf.Variable(tf.random.normal([2, 1], stddev=1, seed=1))
b1 = tf.Variable(tf.random.normal([1], stddev=1, seed=1))

epoch = 30000
lr = 0.003

for epoch in range(epoch):
    with tf.GradientTape() as tape: #用with结构计算前向传播结构y和loss
        y = tf.matmul(x, w1) + b1
        loss_mse = tf.reduce_mean(tf.square(y_ - y))

    grads = tape.gradient(loss_mse, [w1,b1])
    w1.assign_sub(lr * grads[0])
    b1.assign_sub(lr * grads[1])

    if epoch % 2000 == 0:
        print("After %d training steps,w1 and b1 are " % (epoch))
        print(w1.numpy())
        print(b1.numpy(), "\n")
print("Final w1 is: ", w1.numpy())
print("Final b1 is: ", b1.numpy())


Final w1 is:  [[0.9900439]
 			   [0.983632 ]]
Final b1 is:  [0.01385183]

运行代码可以看到，随着迭代轮次的上升，w1的两个元素值不断趋近于1，而偏置项b1不断趋近于0，这符合我们制造数据集的公式y=x1+x2，说明神经网络拟合正确

交叉熵损失函数

交叉熵（Cross Entropy）表征两个概率分布之间的距离，交叉熵越小说明二者分布越接近，是分类问题中使用较广泛的损失函数

其中y_代表数据的真实值，y代表神经网络的预测值。对于多分类问题，神经网络的输出一般不是概率分布，因此需要引入softmax层，使得输出服从概率分布。TensorFlow中可计算交叉熵损失函数的API有
TensorFlow API: tf.keras.losses.categorical_crossentropy

loss_ce1 = tf.losses.categorical_crossentropy([1, 0], [0.6, 0.4])
loss_ce2 = tf.losses.categorical_crossentropy([1, 0], [0.8, 0.2])
print("loss_ce1:", loss_ce1)
print("loss_ce2:", loss_ce2)

loss_ce1: tf.Tensor(0.5108256, shape=(), dtype=float32)
loss_ce2: tf.Tensor(0.22314353, shape=(), dtype=float32)

TensorFlow API: tf.nn.softmax_cross_entropy_with_logits
解决分类问题，通常先用softmax函数，使输出结果符合概率分布，再求交叉熵损失函数，tensorflow给出了一个可以同时计算softmax和交叉熵的函数tf.nn.softmax_cross_entropy_with_logits

y_ = np.array([[1, 0, 0], [0, 1, 0], [0, 0, 1], [1, 0, 0], [0, 1, 0]])
y = np.array([[12, 3, 2], [3, 10, 1], [1, 2, 5], [4, 6.5, 1.2], [3, 6, 1]])
y_pro = tf.nn.softmax(y)
loss_ce1 = tf.losses.categorical_crossentropy(y_,y_pro)
loss_ce2 = tf.nn.softmax_cross_entropy_with_logits(y_, y)

#即loss_ce2这一句可以替换y_pro和loss_ce1这两句，一次完成概率分布和交叉熵的计算
print('分步计算的结果:\n', loss_ce1)
print('结合计算的结果:\n', loss_ce2)

分步计算的结果:
 tf.Tensor(
[1.68795487e-04 1.03475622e-03 6.58839038e-02 2.58349207e+00
 5.49852354e-02], shape=(5,), dtype=float64)
结合计算的结果:
 tf.Tensor(
[1.68795487e-04 1.03475622e-03 6.58839038e-02 2.58349207e+00
 5.49852354e-02], shape=(5,), dtype=float64)

TensorFlow API: tf.nn.sparse_softmax_cross_entropy_with_logits

tf.nn.softmax_cross_entropy_with_logits(
	labels, logits, axis=-1, name=None	
)	#在机器学习中，对于多分类问题，把未经softmax归一化的向量值称为logits

前面的标签y_已经符合了one-hot编码，若是标签y_还没有经过one-hot编码，则使用tf.nn.sparse_softmax_cross_entropy_with_logits函数，使labels经过one-hot编码，logits经过softmax，两者再进行交叉熵计算，sparse可理解为对labels进行稀疏化处理(即进行one-hot编码)。

labels = [0 , 1]
logits = [[4.0,2.0,1.0] , [0.0,5.0,1.0]]

loss = tf.nn.sparse_softmax_cross_entropy_with_logits(labels , logits)
print(loss)

tf.Tensor([0.16984604 0.02474492], shape=(2,), dtype=float32)

自定义损失函数

根据具体任务和目的，可设计不同的损失函数，损失函数的定义能极大影响模型预测效果。好的损失函数设计对于模型训练能够起到良好的引导作用。
前面使用均方误差作为损失函数，默认认为，销量预测的多了或者少了，损失是一样的，然而真实情况是，预测多了，损失的是成本；预测少了，损失的是利润。若是利润 ≠ 成本，则mse产生的loss无法实现利益最大化。
这时候我们可以使用自定义的损失函数，计算每一个预测结果y与标准答案y_产生的损失累积和，而将具体的损失定义为一个分段函数：

代码为：

loss = tf.reduce_sum(tf.where(tf.greater(y, y_), (y - y_) * COST, (y_ - y) * PROFIT))

预测酸奶销量，酸奶成本（COST） 1元，酸奶利润（PROFIT） 99元
预测少了损失利润99元，大于预测多了损失成本1元
显然预测少了损失大，希望生成的预测函数往多了预测。和上面的代码相比，这里干脆去掉偏置项b1，改了下epoch和lr

import tensorflow as tf
import numpy as np


# 自定义损失函数
# 酸奶成本1元， 酸奶利润99元
# 成本很低，利润很高，人们希望多预测些，生成模型系数大于1，往多了预测
SEED = 23455
COST = 1
PROFIT = 99

rdm = np.random.RandomState(SEED)
x = rdm.rand(32, 2)
y_ = [[x1 + x2 + (rdm.rand() / 10.0 - 0.05)] for (x1, x2) in x]  # 生成噪声[0,1)/10=[0,0.1); [0,0.1)-0.05=[-0.05,0.05)
x = tf.cast(x, dtype=tf.float32)

w1 = tf.Variable(tf.random.normal([2, 1], stddev=1, seed=1))

epoch = 10000
lr = 0.002

for epoch in range(epoch):
    with tf.GradientTape() as tape:
        y = tf.matmul(x, w1)
        loss = tf.reduce_sum(tf.where(tf.greater(y, y_), (y - y_) * COST, (y_ - y) * PROFIT))

    grads = tape.gradient(loss, w1)
    w1.assign_sub(lr * grads)

    if epoch % 500 == 0:
        print("After %d training steps,w1 is " % (epoch))
        print(w1.numpy(), "\n")
print("Final w1 is: ", w1.numpy())


Final w1 is:  [[1.1626335]
 			   [1.1191947]]

可以看到，预测的系数都大于1，系数都偏大，都大于用均方误差做损失函数时的系数，模型的确在尽量往多了预测，这是因为，成本cost远小于利润profit，而预测多了损失的是成本，预测少了损失的是利润，所以往多了预测的损失值会远小于往少了预测的损失值，所以模型会尽量往多了预测
将cost改为99，而profit改为1，再运行一遍代码

COST = 1
PROFIT = 99

Final w1 is:  [[0.9205433]
 			   [0.9186459]]

可以看到预测的两个参数均小于1，模型在尽量往小的预测，原因同上

5.欠拟合与过拟合

欠拟合，是模型不能有效拟合数据集，是对现有数据集学习得不够彻底
过拟合，是模型对当前数据拟合得太好了，但对从未见过的新数据，却难以进行判断，模型缺乏泛化力

欠拟合的解决方法：

增加输入特征项：给网络更多维度的输入特征
增加网络参数：扩展网络规模，增加网络深度，提升模型的表达力
减少正则化参数

过拟合的解决方法：

数据清洗：减少数据集中的噪声，使数据集更纯净
增大训练集
采用正则化
增大正则化参数

6.正则化减少过拟合

概念

在缓解过拟合的方法中，正则化是一种通用的，有效的方法
正则会就是在损失函数中引入模型复杂度指标，利用给w加权值（一般不正则化b），弱化了训练数据的噪声
使用了正则化后，损失函数loss变成了两部分的和

第一部分即为以前求的loss，描述了预测结果与正确结果之间的差距
第二部分是参数的权重，用超参数REGULARIZER给出参数w在总loss中的比例，即正则化的权重
loss(w)的计算，可以使用两种方法，这两种方法又被称为L1正则化和L2正则化

L1正则化大概率会使很多参数变为0，因此该方法可通过稀疏参数来减少参数的数量，降低模型复杂度。
L2正则化会使参数很接近0但不为0，因此该方法可通过减少参数的大小降低复杂度，可有效缓解数据集中因噪声引起的过拟合
通过实例感受下正则化的作用

可视化

生成一个有两个特征x1x2和一个标签的数据集，让神经网络拟合输入特征x1和x2与标签的关系，模型训练好之后，有数据送入神经网络，神经网络通过前向传播输出预测值，自动判断是1的可能性大还是0的可能性大。将x1和x2分别作为横纵坐标将数据可视化出来，所有标签为1的点标为红色，为0的点标为蓝色，让神经网络画出一条线区分红色点和蓝色点。

画线方法：先让神经网络拟合出x1和x2与标签的函数关系，然后生成密密麻麻的网格覆盖这些点，将这些网格的交点的横纵坐标作为输入送入训练好的神经网络，神经网络会为每个坐标生成一个预测值，要区分输出是偏向1还是偏向0，可以将输出网络预测值为0.5线用不同颜色画出来，这条线也就是红点和蓝点的区分线了

准备数据：

# 读入数据/标签 生成x_train y_train
df = pd.read_csv("dot.csv")
x_data = np.array(df[["x1" , "x2"]])  #x_data = np.array(df.iloc[: , df.columns != "y_c"])这样也可以
y_data = np.array(df["y_c"])

x_train = np.vstack(x_data).reshape(-1,2)
y_train = np.vstack(y_data).reshape(-1,1)

Y_c = [["red" if y else "blue"] for y in y_train]	#为后面画散点图scatter做准备

x_train = tf.cast(x_train , tf.float32)
y_train = tf.cast(y_train , tf.float32)

#生成数据集，使输入特征和标签值一一对应
train_db = tf.data.Dataset.from_tensor_slices((x_train , y_train)).batch(32)

搭建网络：
搭建二层神经网络，神经元的个数均设置为11个

# 生成神经网络的参数，输入层为2个神经元，隐藏层为11个神经元，1层隐藏层，输出层为1个神经元
w1 = tf.Variable(tf.random.normal([2, 11]), dtype=tf.float32)
b1 = tf.Variable(tf.random.normal([11]) , dtype=tf.float32)

w2 = tf.Variable(tf.random.normal([11, 1]), dtype=tf.float32)
b2 = tf.Variable(tf.random.normal([1]) , dtype=tf.float32)

参数优化：（进行训练，更新参数）

# 训练部分
for epoch in range(epoch):  #epoch是对数据集的循环计数
    for step, (x_train, y_train) in enumerate(train_db):    #step是对batch的循环计数
        with tf.GradientTape() as tape:  # 记录梯度信息

            y = tf.matmul(x_train, w1) + b1 
            y = tf.nn.relu(y)
            y = tf.matmul(y, w2) + b2
			#注意，这里不需要转换独热码，因为是二分类，y_train已经是独热码的形式了，直接求mseloss即可
            loss = tf.reduce_mean(tf.square(y_train - y))

        # 计算loss对各个参数的梯度
        grads = tape.gradient(loss, [w1 , b1 , w2 , b2])
        w1.assign_sub(lr * grads[0])
        b1.assign_sub(lr * grads[1])
        w2.assign_sub(lr * grads[2])
        b2.assign_sub(lr * grads[3])

    # 每20个epoch，打印loss信息
    if epoch % 20 == 0:
        print('epoch:', epoch, 'loss:', float(loss))

测试效果：预测部分
先生成网格点，附上生成网格点每一步的输出结果

# xx在-3到3之间以步长为0.01，yy在-3到3之间以步长0.01,生成间隔数值点
xx, yy = np.mgrid[-3:3:.1, -3:3:.1]
# print(xx)
# [[-3.  -3.  -3.  ... -3.  -3.  -3. ]
#  [-2.9 -2.9 -2.9 ... -2.9 -2.9 -2.9]
#  [-2.8 -2.8 -2.8 ... -2.8 -2.8 -2.8]
#  ...
#  [ 2.7  2.7  2.7 ...  2.7  2.7  2.7]
#  [ 2.8  2.8  2.8 ...  2.8  2.8  2.8]
#  [ 2.9  2.9  2.9 ...  2.9  2.9  2.9]]

# print(yy)
# [[-3.  -2.9 -2.8 ...  2.7  2.8  2.9]
#  [-3.  -2.9 -2.8 ...  2.7  2.8  2.9]
#  [-3.  -2.9 -2.8 ...  2.7  2.8  2.9]
#  ...
#  [-3.  -2.9 -2.8 ...  2.7  2.8  2.9]
#  [-3.  -2.9 -2.8 ...  2.7  2.8  2.9]
#  [-3.  -2.9 -2.8 ...  2.7  2.8  2.9]]

# 将xx , yy拉直，并合并配对为二维张量，生成二维坐标点
grid = np.c_[xx.ravel(), yy.ravel()]
# print(xx.ravel())
# [-3.  -3.  -3.  ...  2.9  2.9  2.9]

# print(yy.ravel())
# [-3.  -2.9 -2.8 ...  2.7  2.8  2.9]

# print(grid)
# [[-3.  -3. ]
#  [-3.  -2.9]
#  [-3.  -2.8]
#  ...
#  [ 2.9  2.7]
#  [ 2.9  2.8]
#  [ 2.9  2.9]]
grid = tf.cast(grid, tf.float32)
# print(grid)
# tf.Tensor(
# [[-3.  -3. ]
#  [-3.  -2.9]
#  [-3.  -2.8]
#  ...
#  [ 2.9  2.7]
#  [ 2.9  2.8]
#  [ 2.9  2.9]], shape=(3600, 2), dtype=float32)

将网格坐标点喂入神经网络，进行预测，probs为输出，记录每一个网格点的预测结果

probs = []
for x_test in grid :
    y = tf.matmul([x_test] , w1) + b1
    y = tf.nn.relu(y)
    y = tf.matmul(y , w2) + b2
    probs.append(y)

可视化：

# 取第0列给x1，取第1列给x2
x1 = x_data[:, 0]
x2 = x_data[:, 1]
plt.scatter(x1, x2, color=np.squeeze(Y_c)) #squeeze去掉维度是1的维度,相当于去掉[['red'],[''blue]],内层括号变为['red','blue']
# probs的shape调整成xx的样子
probs = np.array(probs).reshape(xx.shape)
# 把坐标xx yy和对应的值probs放入contour<[‘kɑntʊr]>函数，给probs值为0.5的所有点上色  plt点show后 显示的是红蓝点的分界线
plt.contour(xx, yy, probs, levels=[0.5])
plt.show()

可明显的观察到，轮廓不够平滑，存在过拟合现象
加上L2正则化后：

			#在上面的代码的基础上，仅改动了损失函数部分，加上了l2正则化
			loss_mse = tf.reduce_mean(tf.square(y_train - y))
            #添加l2正则化
            loss_regularization = []
            loss_regularization.append(tf.nn.l2_loss(w1))
            loss_regularization.append(tf.nn.l2_loss(w2))
            #求和
            loss_regularization = tf.reduce_sum(loss_regularization)
            loss = loss_mse + 0.03 * loss_regularization    #这里超参数REGULARIZER取0.03

从图片可以看出，加入了l2后的曲线更平缓，有效缓解了过拟合现象

7.优化器更新网络参数

神经网络是基于连接的人工智能，当网络结构固定后，不同参数选取对模型的表达力影响很大，更新模型参数的过程，仿佛是在教一个孩子理解世界，达到学龄的孩子，脑神经元的结构、规模是相似的，他们都具备了学习的潜力，但是不同的引导方法，会让孩子具备不同的能力，达到不同的高度，优化器就是引导神经网络更新参数的工具

优化算法可以分成一阶优化和二阶优化算法，其中一阶优化就是指的梯度算法及其变种，而二阶优化一般是用二阶导数（Hessian 矩阵）来计算，如牛顿法。由于需要计算Hessian阵和其逆矩阵，计算量较大，因此没有流行开来。这里主要总结一阶优化的各种梯度下降方法

深度学习优化算法经历了SGD -> SGDM -> NAG ->AdaGrad -> AdaDelta -> Adam -> Nadam这样的发展历程

定义：
待优化参数w，损失函数loss，学习率lr，每次迭代一个batch，为了提高效率，数据集中的数据并不是一次仅喂入一组，而是以batch为单位，批量喂入神经网络，每个batch通常包含2的n次方组数据，t表示当前batch迭代的总次数：

步骤3，4对于各算法都是一致的，主要差别体现在步骤1和2上。
一阶动量：与梯度相关的函数
二阶动量：与梯度平方相关的函数
不同的优化器，实质上只是定义了不同的一阶动量和二阶动量公式

SGD

vanilla SGD

朴素 SGD (Stochastic Gradient Descent) 最为简单，没有动量的概念，即
一阶动量定义为梯度，二阶动量恒等于1

前面用的更新参数的方法，都是用的vanilla SGD

#vanilla SGD
w1.assign_sub(learning_rate * grads[0])
b1.assign_sub(learning_rate * grads[1])

SGD 的缺点在于收敛速度慢，很可能在鞍点处震荡。并且，如何合理的选择学习率是SGD的一大难点

鞍点：

下图中平面的高度为损失函数。在图中似乎各处都分布着局部最优。我们可能会想，梯度下降法或者某个算法可能困在一个局部最优中，而不会抵达全局最优。但是这些理解并不正确，这些低维的图影响了我们的理解，事实上，如果我们要创建一个神经网络，通常梯度为零的点并不是这个图中的局部最优点，实际上成本函数的零梯度点，通常是鞍点，即图中标出来的点。
鞍点是某一个维度有着向上梯度，而另一个维度却是向下的梯度

a point where one dimension has a positive slope, while the other dimension has a negative slope

一个具有高维度空间的函数，如果梯度为 0，那么在每个方向，它可能是凸函数，也可能是凹函数。如果在 2 万维空间中，那么想要得到局部最优，则要求这个局部最优点的所有的方向都向上弯曲，这样发生的机率极小，因此在高维度空间，你更可能碰到鞍点，就是下面这种

而对于鞍点来说，我们可以观察到，SGD，Momentum和NAG都容易陷入震荡，而剩下的三个优化器能较好的”逃离“鞍点，朝着梯度下降的方向走

SGD with Momentum (SGDM)

图a这种上下波动减慢了梯度下降法的速度，无法使用更大的学习率，如果你要用较大的学习率，结果可能会偏离函数的范围，为了避免摆动过大，得用一个较小的学习率
在纵轴上，我们希望学习慢一点，因为不想要这些摆动，但是在横轴上，希望加快学习，希望快速从左向右移，移向最小值，所以我们需要使用动量法。动量法是一种使梯度向量向相关方向加速变化，抑制震荡，最终实现加速收敛的方法。
SGD 在遇到沟壑时容易陷入震荡。为此，可以为其引入动量 Momentum，加速 SGD 在正确方向的下降并抑制震荡。即SGDM认为梯度下降过程可以加入惯性，下坡的时候，如果发现是陡坡，那就利用惯性跑的快一些。

SGDM就是在SGD的基础上增加了一阶动量mt，mt这个公式表示各时刻梯度方向的指数滑动平均值，与SGD相比，一阶动量的公式多了mt-1这一项，mt-1表示上一时刻的一阶动量，且上一时刻的一阶动量在这个公式里占大头，因为β是个超参数，是个接近1的数值，通常取0.9左右，这就意味着下降方向主要偏向此前累积的下降方向，并略微偏向当前时刻的下降方向，即使得参数中那些梯度方向变化不大的维度可以加速更新，并减少梯度方向变化较大的维度上的更新幅度。由此产生了加速收敛和减小震荡的效果。二阶动量在SGDM中仍恒等于1

# sgd-momentun
beta = 0.9
m_w = beta * m_w + (1 - beta) * grads[0]
m_b = beta * m_b + (1 - beta) * grads[1]
w1.assign_sub(learning_rate * m_w)
b1.assign_sub(learning_rate * m_b)

SGD with Nesterov Acceleration（NAG）

NAG全称Nesterov Accelerated Gradient，是在SGD、SGDM的基础上的进一步改进，改进点在于步骤1（计算t时刻损失函数关于当前参数的梯度）。
我们知道在时刻t的主要下降方向是由累积动量决定的，自己的梯度方向说了也不算，那与其看当前梯度方向，不如先看看如果跟着累积动量走了一步，那个时候再决定怎么走。因此，NAG在步骤1不计算当前位置的梯度方向，而是计算如果按照累积动量走了一步，考虑这个新地方的梯度方向。此时的梯度就变成了：

我们用这个梯度带入 SGDM 中计算mt的式子里去，然后再计算当前时刻应有的梯度并更新这一次的参数。其基本思路如下图：

首先，按照原来的更新方向更新一步（棕色线），然后计算该新位置的梯度方向（红色线），然后用这个梯度方向修正最终的更新方向（绿色线）。上图中描述了两步的更新示意图，其中蓝色线是标准
momentum更新路径。

AdaGrad

TensorFlow API: tf.keras.optimizers.Adagrad

上述SGD算法一直存在一个超参数（Hyper-parameter），即学习率。超参数是训练前需要手动选择的参数，学习率可以理解为参数w沿着梯度g反方向变化的步长。
SGD、SGDM 和 NAG 均是以相同的学习率去更新各个分量，即对所有的参数使用统一的、固定的学习率，一个自然的想法是对每个参数设置不同的学习率，这是因为不同参数的更新频率往往有所区别。对于更新不频繁的参数（典型例子：更新 word embedding 中的低频词），我们希望单次步长更大，多学习一些知识；对于更新频繁的参数，我们则希望步长较小，使得学习到的参数更稳定，不至于被单个样本影响太多。
然而在大型网络中这是不切实际的。因此，为解决此问题，AdaGrad算法被提出，其做法是给学习率一个缩放比例，从而达到了自适应学习率的效果（Ada = Adaptive）。其思想是：对于频繁更新的参数，不希望被单个样本影响太大，我们给它们很小的学习率；对于偶尔出现的参数，希望能多得到一些信息，我们给它较大的学习率
那怎么样度量历史更新频率呢？为此引入二阶动量，即AdaGrad是在SGD的基础上引入二阶动量（注意，前面的SGD,SGDM和NAG，其二阶动量均为1），这样我们就可以对模型中的每个参数分配自适应学习率了

AdaGrad 在稀疏数据场景下表现最好。因为对于频繁出现的参数，其二阶动量的对应分量较大，学习率衰减得快；对于稀疏的参数，学习率衰减得更慢。然而在实际很多情况下，二阶动量呈单调递增，累计从训练开始的梯度，学习率会很快减至 0 ，导致参数不再更新，训练过程提前结束

# adagrad
v_w += tf.square(grads[0])
v_b += tf.square(grads[1])
w1.assign_sub(learning_rate * grads[0] / tf.sqrt(v_w))
b1.assign_sub(learning_rate * grads[1] / tf.sqrt(v_b))

RMSProp

TensorFlow API: tf.keras.optimizers.RMSprop

RMSProp算法的全称叫 Root Mean Square Prop，由于 AdaGrad 的学习率衰减太过激进，二阶动量单调递增，使得学习率逐渐递减至 0，可能导致训练过程提前结束。考虑改变二阶动量的计算策略：不累计全部梯度，只关注过去某一窗口内的梯度。修改的思路很直接，指数滑动平均值大约是过去一段时间的平均值，反映“局部的”参数信息，因此我们用这个方法来计算二阶累积动量。超参数β与SGDM中的参数类似，通常取0.9左右

# RMSProp
beta = 0.9
v_w = beta * v_w + (1 - beta) * tf.square(grads[0])
v_b = beta * v_b + (1 - beta) * tf.square(grads[1])
w1.assign_sub(learning_rate * grads[0] / tf.sqrt(v_w))
b1.assign_sub(learning_rate * grads[1] / tf.sqrt(v_b))

AdaDelta

TensorFlow API: tf.keras.optimizers.Adadelta
为解决AdaGrad的学习率递减太快的问题，RMSProp和AdaDelta几乎同时独立被提出。而AdaDelta与RMSprop仅仅是分子项不同
RMSProp：

AdaDelta：

# AdaDelta
beta = 0.999
v_w = beta * v_w + (1 - beta) * tf.square(grads[0
v_b = beta * v_b + (1 - beta) * tf.square(grads[1
delta_w = tf.sqrt(u_w) * grads[0] / tf.sqrt(v_w)
delta_b = tf.sqrt(u_b) * grads[1] / tf.sqrt(v_b)
u_w = beta * u_w + (1 - beta) * tf.square(delta_w
u_b = beta * u_b + (1 - beta) * tf.square(delta_b
w1.assign_sub(delta_w)
b1.assign_sub(delta_b)

Adam

TensorFlow API: tf.keras.optimizers.Adam

Adam，同时引入了SGDM的一阶动量和RMSProp的二阶动量，并在此基础上增加了两个修正项，把修正后的一阶动量和二阶动量，也就是说，Adam融合了Adagrad和RMSprop的思想。其实说到这里，Adam的出现就很自然而然了——它们是前述方法的集大成者。我们看到，SGDM在SGD基础上增加了一阶动量，AdaGrad、RMSProp和AdaDelta在SGD基础上增加了二阶动量。把一阶动量和二阶动量结合起来，再修正偏差，就是Adam了
SGDM的一阶动量：

加上RMSProp的二阶动量：

其中，参数经验值是β1=0.9，β2=0.999
一阶动量和二阶动量都是按照指数移动平均值进行计算的。初始化m0 = 0，V0 = 0，在初期，迭代得到的mt，Vt会接近于0。我们可以通过对mt，Vt进行偏差修正来解决这一问题：

再进行更新：

# adam
m_w = beta1 * m_w + (1 - beta1) * grads[0]
m_b = beta1 * m_b + (1 - beta1) * grads[1]
v_w = beta2 * v_w + (1 - beta2) * tf.square(grads[0])
v_b = beta2 * v_b + (1 - beta2) * tf.square(grads[1])
m_w_correction = m_w / (1 - tf.pow(beta1, int(global_step)))
m_b_correction = m_b / (1 - tf.pow(beta1, int(global_step)))
v_w_correction = v_w / (1 - tf.pow(beta2, int(global_step)))
v_b_correction = v_b / (1 - tf.pow(beta2, int(global_step)))
w1.assign_sub(learning_rate * m_w_correction / tf.sqrt(v_w_correction))
b1.assign_sub(learning_rate * m_b_correction / tf.sqrt(v_b_correction))

优化器算法可视化

两张动图直观的展现了不同算法的性能
An overview of gradient descent optimization algorithms
Visualizing Optimization Algos

我们可以看到不同算法在损失面等高线图中的学习过程，它们均同同一点出发，但沿着不同路径达到最小值点。其中 Adagrad、Adadelta、RMSprop 从最开始就找到了正确的方向并快速收敛；SGD 找到了正确方向但收敛速度很慢；SGDM 和 NAG 最初都偏离了航道，但也能最终纠正到正确方向，SGDM 偏离的惯性比 NAG 更大

前面讲解鞍点的时候展示了此图，这里再展现一次。此图展现了不同算法在鞍点处的表现。这里，SGD、SGDM、NAG 都受到了鞍点的严重影响，尽管后两者最终还是逃离了鞍点，但是Adagrad、RMSprop、Adadelta都很快找到了正确的方向。

此图同样是鞍点附近各算法的表现

Behavior around a saddle point.
NAG/Momentum again like to explore around, almost taking a different path.
Adadelta/Adagrad/RMSProp proceed like accelerated SGD.

优化器选择

很难说某一个优化器在所有情况下都表现很好，我们需要根据具体任务选取优化器。一些优化器在计算机视觉任务表现很好，另一些在涉及RNN网络时表现很好，甚至在稀疏数据情况下表现更出色。

总结上述，基于原始SGD增加动量和Nesterov动量，RMSProp是针对AdaGrad学习率衰减过快的改进，它与AdaDelta非常相似，不同的一点在于AdaDelta采用参数更新的均方根（RMS）作为分子。Adam在RMSProp的基础上增加动量和偏差修正。如果数据是稀疏的，建议用自适用方法，即Adagrad, RMSprop, Adadelta, Adam。RMSprop, Adadelta, Adam 在很多情况下的效果是相似的。随着梯度变的稀疏，Adam 比 RMSprop 效果会好。总的来说，Adam整体上是最好的选择

然而很多论文仅使用不带动量的vanilla SGD和简单的学习率衰减策略。SGD通常能够达到最小点，但是相对于其他优化器可能要采用更长的时间。采取合适的初始化方法和学习率策略，SGD更加可靠，但也有可能陷于鞍点和极小值点。因此，当在训练大型的、复杂的深度神经网络时，我们想要快速收敛，应采用自适应学习率策略的优化器。
如果是刚入门，优先考虑Adam或者SGD+Nesterov Momentum。
算法没有好坏，最适合数据的才是最好的

优化算法的常用tricks

首先，各大算法孰优孰劣并无定论。刚入门，优先考虑SGD+Nesterov Momentum或者Adam.（Standford 231n : The two recommended updates to use are either SGD+Nesterov Momentum or Adam）
选择熟悉的算法——这样可以更加熟练地利用你的经验进行调参。
充分了解你的数据——如果模型是非常稀疏的，那么优先考虑自适应学习率的算法。
根据你的需求来选择——在模型设计实验过程中，要快速验证新模型的效果，可以先用Adam进行快速实验优化；在模型上线或者结果发布前，可以用精调的SGD进行模型的极致优化。
先用小数据集进行实验。有论文研究指出，随机梯度下降算法的收敛速度和数据集的大小的关系不大。因此可以先用一个具有代表性的小数据集进行实验，测试一下最好的优化算法，并通过参数搜索来寻找最优的训练参数。
考虑不同算法的组合。先用Adam进行快速下降，而后再换到SGD进行充分的调优。
充分打乱数据集（shuffle）。这样在使用自适应学习率算法的时候，可以避免某些特征集中出现，而导致的有时学习过度、有时学习不足，使得下降方向出现偏差的问题。在每一轮迭代后对训练数据打乱是一个不错的主意。
训练过程中持续监控训练数据和验证数据上的目标函数值以及精度或者AUC等指标的变化情况。对训练数据的监控是要保证模型进行了充分的训练——下降方向正确，且学习率足够高；对验证数据的监控是为了避免出现过拟合。
制定一个合适的学习率衰减策略。可以使用分段常数衰减策略，比如每过多少个epoch就衰减一次；或者利用精度或者AUC等性能指标来监控，当测试集上的指标不变或者下跌时，就降低学习率。
Early stopping。如Geoff Hinton所说：“Early Stopping是美好的免费午餐”。你因此必须在训练的过程中时常在验证集上监测误差，在验证集上如果损失函数不再显著地降低，那么应该提前结束训练。
算法参数的初始值选择。初始值不同，获得的最小值也有可能不同，因此梯度下降求得的只是局部最小值；当然如果损失函数是凸函数则一定是最优解。由于有局部最优解的风险，需要多次用不同初始值运行算法，关键损失函数的最小值，选择损失函数最小化的初值

主要参考：慕课北大Tensorflow2.0课程及其笔记

你可能感兴趣的:(tensorflow,深度学习,神经网络,人工智能,tensorflow,机器学习,python)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要

（tensorflow笔记）神经网络中的一些关键概念（学习率、激活函数、损失函数、欠拟合和过拟合、正则化和优化器）

目录

1.神经网络复杂度

空间复杂度

时间复杂度

2.学习率策略

指数衰减学习率

分段常数衰减

3.激活函数

sigmoid

tanh

ReLU

Leaky ReLU

建议

4.损失函数

均方误差损失函数

交叉熵损失函数

自定义损失函数

5.欠拟合与过拟合

6.正则化减少过拟合

概念

可视化

7.优化器更新网络参数

SGD

vanilla SGD

SGD with Momentum (SGDM)

SGD with Nesterov Acceleration（NAG）

AdaGrad

RMSProp

AdaDelta

Adam

优化器算法可视化

优化器选择

优化算法的常用tricks

你可能感兴趣的:(tensorflow,深度学习,神经网络,人工智能,tensorflow,机器学习,python)