Grateful_Dead424

Lesson 13.5 Xavier方法与kaiming方法（HE初始化）

在进行了一系列的理论推导和代码准备工作之后，接下来，我们介绍参数初始化优化方法，也就是针对tanh和Sigmoid激活函数的Xavier方法，以及针对ReLU激活函数的Kaiming方法（HE初始化）。当然，在经过漫长的准备工作之后，实际落地应用过程并不会太过于复杂。

一、Xavier方法

1.Xavier初始化参数方法基础理论

回顾Glorot条件，我们要求正向传播时候数据流经每一层前后的方差一致，并且反向传播时候数据流经每一层，该层梯度前后方差一致。我们将前者称为向前传播条件，后者称为反向传播条件。我们先看当向前传播条件成立时候，有如下计算过程。

首先，数据流至某一层时，该层神经元接收到的数据可以通过如下方法算得：
$z_j = \sum^n_{i=1}w_ix_i$
其中 $z_j$ 表示当前某层神经元接收到的数据， $x_i$ 表示上一层某神经元传出的数据， $w_i$ 代表连接对应两个神经元之间的权重，当然，如果我们将 $z_j$ 、 $x_i$ 、 $w_i$ 看成是随机变量，则上式就能够表示计算过程的一般情况。并且 $w_i$ 和 $x_i$ 的方差计算过程如下：
$Var(w_ix_i) = E[w_i]^2Var(x_i)+E[x_i]^2Var(w_i)+Var(w_i)Var(x_i)$

上述过程涉及基础数学知识，设X为随机变量， $D (X)$ 表示X方差， $E (X)$ 表示其期望，则有： $D(X)=E(X^2)-E(X)^2$
进一步，如果X、Y表示随机变量并且相互独立，则有： $D(XY)=E((XY)^2)-(E(XY))^2=E(X^2)E(Y^2)-(E(X)E(Y))^2$
并且对其进行简单变形，可以得出： $\begin{aligned} D(XY) &=E(X)^2D(Y)+E(Y)^2D(X)+D(X)D(Y) \\ &= E(X)^2[E(Y^2)-E(Y)^2]+E(Y)^2[E(X^2)-E(X)^2]+[E(X^2)-E(X)^2][E(Y^2)-E(Y)^2] \\ &= E(X)^2E(Y^2)-E(X)^2E(Y)^2+E(Y)^2E(X^2)-E(Y)^2E(X)^2+E(X^2)E(Y^2)-E(X)^2E(Y^2)-E(X^2)E(Y)^2+E(X)^2E(Y)^2 \\ &= E(X^2)E(Y^2)-E(X)^2E(Y)^2\\ \end{aligned}$

其中Var()表示方差计算，E()表示均值计算。由于我们假设参数是以0为均值的均匀分布或者0为均值的正态分布，因此 $E(w_i) = 0$ ，而此前我们介绍，假设输入数据是Zero-Centered的，因此 $E(x_i)=0$ ，所以上式可进一步简化为：
$Var(w_ix_i) = Var(w_i)Var(x_i)$
而对于z来说， $\sum^n_{i=1}w_ix_i$ ，其方差计算过程如下：
$\sum^n_{i=1} Var(w_ix_i) = \sum^n_{i=1} Var(w_i)Var(x_i)$

此处补充数学过程， $D (X + Y) = D (X) + D (Y) + C O V (X, Y)$
其中 $C O V (X, Y)$ 是二者的协方差，当 $X 、 Y$ 相互独立时， $C O V (X, Y) = 0$ 。

此时，我们可以认为x和w是独立同分布的（一个是采集处理后的数据，一个是随机生成的参数），因此每个 $Var(w_i)Var(x_i)$ 也是独立同分布的，因此所有的 $w_i$ 都可以用一个随机变量 $w$ 表示，所有的 $x_i$ 也可以用一个随机变量 $x$ 表示，上式可进一步简写为：
$\sum^n_{i=1} Var(w_i)Var(x_i) = nVar(w)Var(x)$
而我们希望线性变换不影响数据方差，因此有：
$V a r (z) = V a r (x)$
进一步可以算得：
$\frac{1}{n}$
其中，n是上一层神经元的个数。需要注意的是，上式只考虑了正向传播的情况，而实际在进行反向传播时候，上述过程正好相反。反向传播时z代表上一层神经元接收到的数据，而x则代表当前层传出的数据，虽然计算公式不变，但n的含义却发生了变化。为了进行区分，我们将正向传播时的n、也就是代表上一层神经元个数的变量，命名为 $n_{in}$ ，而在进行反向传播时的n、也就是代表当前层神经元个数的变量，命名为 $n_{out}$ 。为了同时兼顾向前传播和反向传播这两种情况，我们将w的最终方差取值为:
$\frac{1}{\frac{n_{in}+n_{out}}{2}} = \frac{2}{n_{in}+n_{out}}$

取为均值，也就是折中的方案

而此时，如果我们设置w服从均匀在[-a, a]区间内均匀分布，则w的方差为：
$\frac{(a+a)^2}{12} = \frac{4a^2}{12} = \frac{a^2}{3} = \frac{2}{n_{in}+n_{out}}$

注：服从在[a, b]区间上均匀分布的随机变量方差为 $\frac{(b-a)^2}{12}$

进而计算可得
$\sqrt{\frac{6}{n_{in}+n_{out}}}$

即w的是均匀分布在 $(-\sqrt{\frac{6}{n_{in}+n_{out}}}, \sqrt{\frac{6}{n_{in}+n_{out}}})$ 上的随机变量。

当然，如果我们假设w是服从正态分布的，则w服从 $\sqrt{\frac{2}{n_{in}+n_{out}}})$ 的随机变量。据此，我们就能设置每一层的初始参数了。当然，在PyTorch中，可以使用init方法进行初始化。

另外，一种更加严谨的、指代某一次传播过程上一层神经元数量和下一层神经元数量的叫法是扇入(fan in)和扇出(fan out)，由此Xavier方法中初始参数的方差也可写为 $\frac{2}{fan_{in}+fan_{out}}$ 。另外，Xavier在论文中所指出的，应该保持各层的激活值和梯度的方差在传播过程中保持一致，也被称为Glorot条件。

对于参数初始化计算过程，最重要的是确定参数的方差，如果是正态分布，由于均值是0，因此可以快速确定其分布，而如果是均匀分布，则可通过 $\sqrt{3var}$ 来确定分布区间 $[- b o u n d, b o u n d]$ 。而在Xavier初始化方法中， $\frac{1}{fan_{avg}}$ ，其中 $fan_{avg} = \frac{fan_{in}+fan_{out}}{2}$ 。

最关键的，我们需要知道，对于创建随机分布的初始参数来说，只要确定其方差，就能确定其均匀分布或者正态分布的分布形式。

2.Xavier初始化参数执行方法

2.1 PyTorch实现Xavier均匀分布的参数创建

我们可以使用torch.nn.init.xavier_uniform_进行初始化参数设置。

nn.init.xavier_uniform_?
# Signature: nn.init.xavier_uniform_(tensor, gain=1.0)
# Docstring:
# Fills the input `Tensor` with values according to the method
# described in `Understanding the difficulty of training deep feedforward
# neural networks` - Glorot, X. & Bengio, Y. (2010), using a uniform
# distribution. The resulting tensor will have values sampled from
# :math:`\mathcal{U}(-a, a)` where

# .. math::
#     a = \text{gain} \times \sqrt{\frac{6}{\text{fan\_in} + \text{fan\_out}}}

# Also known as Glorot initialization.

# Args:
#     tensor: an n-dimensional `torch.Tensor`
#     gain: an optional scaling factor

# Examples:
#     >>> w = torch.empty(3, 5)
#     >>> nn.init.xavier_uniform_(w, gain=nn.init.calculate_gain('relu'))
# File:      d:\users\asus\anaconda3\lib\site-packages\torch\nn\init.py
# Type:      function

当然，这里需要注意的是，函数处理的对象是张量，也就是说只要输入张量，就可以自动进行处理。其中 $fan_{in}$ 由张量的列决定， $fan_{out}$ 由张量的行数决定。（想想是为什么？）

从说明中我们能看到，此时均匀分布的边界为 $fan_in + fan_out a = \text{gain} \times \sqrt{\frac{6}{\text{fan\_in} + \text{fan\_out}}}$ 其中gain为增益系数，用于手动调整均匀分布的边界，暂时不建议调整。

t = torch.arange(8).reshape(2, 4).float()
t
#tensor([[0., 1., 2., 3.],
#        [4., 5., 6., 7.]])
nn.init.xavier_uniform_(t)
#tensor([[-0.2483, -0.8510,  0.0233, -0.9001],
#        [ 0.7834, -0.9809,  0.3314,  0.7942]])
t   # 该函数会在原对象基础上直接进行修改
#tensor([[-0.2483, -0.8510,  0.0233, -0.9001],
#        [ 0.7834, -0.9809,  0.3314,  0.7942]])

Sigmoid激活函数

接下来，在建模过程中使用Xavier初始化方法测试效果。首先是数据准备与核心参数定义。

# 设置随机数种子
torch.manual_seed(420)  

# 创建最高项为2的多项式回归数据集
features, labels = tensorGenReg(w=[2, -1], bias=False, deg=2)

# 进行数据集切分与加载
train_loader, test_loader = split_loader(features, labels)

# 初始核心参数
lr = 0.03
num_epochs = 20

然后实例化模型、调整模型初始参数，以及创建用于对比模型效果的模型容器，首先我们先创建一组相对简单的模型，也就是包含两个sigmoid隐藏层的神经网络模型，对比初始化效果

# 设置随机数种子
torch.manual_seed(420)  

# 实例化模型
sigmoid_model3 = Sigmoid_class3()                   # 保留原参数
sigmoid_model3_init = Sigmoid_class3()              # 使用Xavier初始化参数

# 修改init模型初始参数
for m in sigmoid_model3_init.modules():
    if isinstance(m, nn.Linear):
        nn.init.xavier_uniform_(m.weight)     #不用弄截距
#
#Parameter containing:
#tensor([[ 0.7995, -0.2561],
#        [-0.1097, -0.0529],
#        [-0.8137,  0.8860],
#        [-0.0984,  0.9770]], requires_grad=True)
#Parameter containing:
#tensor([[ 0.7130,  0.3764, -0.0196, -0.0096],
#        [ 0.0199, -0.8417, -0.2067, -0.4007],
#        [-0.0515,  0.1059, -0.6787,  0.6582],
#        [ 0.7072,  0.5386,  0.3889,  0.1370]], requires_grad=True)
#Parameter containing:
#tensor([[-0.6241,  0.3488,  0.3069,  0.8371],
#        [-0.8167,  0.7516,  0.6801,  0.1606],
#        [ 0.2885,  0.1036, -0.0692,  0.1744],
#        [ 0.5015,  0.0987, -0.0787, -0.0286]], requires_grad=True)
#Parameter containing:
#tensor([[-0.8437, -0.5244,  0.8917,  0.0646]], requires_grad=True)
        
# 创建模型容器
model_l = [sigmoid_model3, sigmoid_model3_init]           
name_l = ['sigmoid_model3', 'sigmoid_model3_init']

train_l, test_l = model_comparison(model_l = model_l, 
                                   name_l = name_l, 
                                   train_data = train_loader,
                                   test_data = test_loader,
                                   num_epochs = 2, 
                                   criterion = nn.MSELoss(), 
                                   optimizer = optim.SGD, 
                                   lr = lr, 
                                   cla = False, 
                                   eva = mse_cal)
weights_vp(sigmoid_model3, att="grad")

weights_vp(sigmoid_model3_init, att="grad")

我们发现，在num_epochs取值为2的时候（只迭代了一轮），经过Xavier初始化的模型梯度整体更加稳定，并且没有出现梯度消失的情况，反观原始模型sigmoid_model2，第一层的梯度已经非常小了，已经出现了梯度消失的倾向。而我们知道，各层梯度的情况就代表着模型学习的状态，很明显经过初始化的模型各层都处于平稳学习状态，此时模型收敛速度较快。我们也可以通过MSE曲线进行验证。

train_l, test_l = model_comparison(model_l = model_l, 
                                   name_l = name_l, 
                                   train_data = train_loader,
                                   test_data = test_loader,
                                   num_epochs = num_epochs, 
                                   criterion = nn.MSELoss(), 
                                   optimizer = optim.SGD, 
                                   lr = lr, 
                                   cla = False, 
                                   eva = mse_cal)
# 训练误差
for i, name in enumerate(name_l):
    plt.plot(list(range(num_epochs)), train_l[i], label=name)
plt.legend(loc = 1)
plt.title('mse_train')

# 测试误差
for i, name in enumerate(name_l):
    plt.plot(list(range(num_epochs)), test_l[i], label=name)
plt.legend(loc = 1)
plt.title('mse_test')

由此我们可知，Xavier初始化的作用核心在于保证各层梯度取值的平稳分布，从而确保各层模型学习的有效性，最终在模型结果的表现上，经过Xavier初始化参数的模型学习效率更高、收敛速度更快。上述结果也验证了Xavier初始化有效性。
当然，在一些极端情况下，Xavier初始化效果会更加明显。我们以四层sigmoid隐藏层的神经网络为例，观察Xavier初始化在规避梯度消失问题时的效果。

# 设置随机数种子
torch.manual_seed(24)  

# 实例化模型
sigmoid_model4 = Sigmoid_class4()                   # 保留原参数
sigmoid_model4_init = Sigmoid_class4()              # 使用Xavier初始化参数

# 修改init模型初始参数
for m in sigmoid_model4_init.modules():
    if isinstance(m, nn.Linear):
        nn.init.xavier_uniform_(m.weight)
#
#Parameter containing:
#tensor([[ 0.8858,  0.6076],
#        [ 0.7526,  0.3184],
#        [-0.2945,  0.9237],
#        [ 0.7596, -0.6387]], requires_grad=True)
#Parameter containing:
#tensor([[-0.0020, -0.2599, -0.8290,  0.0234],
#        [-0.5126, -0.1948, -0.2230,  0.7317],
#        [ 0.3355, -0.7767,  0.4933,  0.5650],
#        [ 0.3391,  0.3513,  0.3385,  0.0232]], requires_grad=True)
#Parameter containing:
#tensor([[-0.7911, -0.4265,  0.5541,  0.2841],
#        [ 0.6846,  0.2079,  0.8334, -0.3973],
#        [-0.4116,  0.3072, -0.4335,  0.3472],
#        [ 0.0940, -0.3414,  0.2058,  0.8155]], requires_grad=True)
#Parameter containing:
#tensor([[ 0.4660, -0.8182,  0.3571,  0.5147],
#        [ 0.6018, -0.2091,  0.7026,  0.6874],
#        [-0.0111, -0.1543,  0.6806,  0.1008],
#        [ 0.3697,  0.0858,  0.4200, -0.2422]], requires_grad=True)
#Parameter containing:
#tensor([[-0.6746,  0.9178,  0.5031,  0.2799]], requires_grad=True)# 训练误差

# 创建模型容器
model_l = [sigmoid_model4, sigmoid_model4_init]           
name_l = ['sigmoid_model4', 'sigmoid_model4_init']

# 核心参数
lr = 0.03
num_epochs = 40

# 模型训练
train_l, test_l = model_comparison(model_l = model_l, 
                                   name_l = name_l, 
                                   train_data = train_loader,
                                   test_data = test_loader,
                                   num_epochs = num_epochs, 
                                   criterion = nn.MSELoss(), 
                                   optimizer = optim.SGD, 
                                   lr = lr, 
                                   cla = False, 
                                   eva = mse_cal)
# 训练误差
for i, name in enumerate(name_l):
    plt.plot(list(range(num_epochs)), train_l[i], label=name)
plt.legend(loc = 1)
plt.title('mse_train')

# 测试误差
for i, name in enumerate(name_l):
    plt.plot(list(range(num_epochs)), test_l[i], label=name)
plt.legend(loc = 1)
plt.title('mse_test')

sigmoid_model4是Lesson 13.2中出现严重梯度消失的模型，由于前几层基本丧失学习能力，sigmoid_model4本身效果并不好。但加入Xavier初始化之后，我们发现，init模型能够极大程度规避梯度消失问题，从而获得更好的效果。

不过正如此前所说，相比于sigmoid激活函数，Xavier初始化方法更适用于tanh激活函数，核心原因在于tanh激活函数本身能够生成Zero-centered Data，配合Xavier初始化生成的参数，能够更好的确保各层梯度平稳、确保各层平稳学习。

tanh激活函数

我们以三层tanh激活函数隐藏层的神经网络为例，测试Xavier初始化效果。

# 设置随机数种子
torch.manual_seed(420)  

# 创建最高项为2的多项式回归数据集
features, labels = tensorGenReg(w=[2, -1], bias=False, deg=2)

# 进行数据集切分与加载
train_loader, test_loader = split_loader(features, labels)
# 设置随机数种子
torch.manual_seed(420)  

# 实例化模型
tanh_model3 = tanh_class3()                   # 保留原参数
tanh_model3_init = tanh_class3()              # 使用Xavier初始化参数
# 设置随机数种子
torch.manual_seed(420)  

# 修改init模型初始参数
for m in tanh_model3_init.modules():
    if isinstance(m, nn.Linear):
        nn.init.xavier_uniform_(m.weight)
#
#Parameter containing:
#tensor([[ 0.6107, -0.6019],
#        [ 0.9517, -0.7944],
#        [-0.3051, -0.6891],
#        [ 0.7712,  0.3751]], requires_grad=True)
#Parameter containing:
#tensor([[-0.4319, -0.6698, -0.5014, -0.1671],
#        [-0.4420,  0.6311, -0.3644, -0.5666],
#        [-0.2672, -0.8457, -0.4206, -0.4725],
#        [ 0.1864,  0.7043,  0.0935, -0.5047]], requires_grad=True)
#Parameter containing:
#tensor([[ 0.3565, -0.3687, -0.4099, -0.1660],
#        [-0.4519,  0.0952,  0.7030,  0.1181],
#        [ 0.5231, -0.7523, -0.6813, -0.1152],
#        [ 0.0008,  0.5406, -0.7617,  0.3613]], requires_grad=True)
#Parameter containing:
#tensor([[-0.9402,  0.1767,  0.7240,  0.1511]], requires_grad=True)
 
# 创建模型容器
model_l = [tanh_model3, tanh_model3_init]           
name_l = ['tanh_model3', 'tanh_model3_init']

# 核心参数
lr = 0.03
num_epochs = 20

# 模型训练
train_l, test_l = model_comparison(model_l = model_l, 
                                   name_l = name_l, 
                                   train_data = train_loader,
                                   test_data = test_loader,
                                   num_epochs = 2, 
                                   criterion = nn.MSELoss(), 
                                   optimizer = optim.SGD, 
                                   lr = lr, 
                                   cla = False, 
                                   eva = mse_cal)
weights_vp(tanh_model3, att="grad")

weights_vp(tanh_model3_init, att="grad")

同样，能够看出经过Xavier参数初始化后的模型梯度更加平稳，进而我们判断，经过初始化之后的模型初始迭代时收敛速度更快

# 设置随机数种子
torch.manual_seed(420)  

# 实例化模型
tanh_model3 = tanh_class3()                   # 保留原参数
tanh_model3_init = tanh_class3()              # 使用Xavier初始化参数

# 修改init模型初始参数
for m in tanh_model3_init.modules():
    if isinstance(m, nn.Linear):
        nn.init.xavier_uniform_(m.weight)
#
#Parameter containing:
#tensor([[ 0.7995, -0.2561],
#        [-0.1097, -0.0529],
#        [-0.8137,  0.8860],
#        [-0.0984,  0.9770]], requires_grad=True)
#Parameter containing:
#tensor([[ 0.7130,  0.3764, -0.0196, -0.0096],
#        [ 0.0199, -0.8417, -0.2067, -0.4007],
#        [-0.0515,  0.1059, -0.6787,  0.6582],
#        [ 0.7072,  0.5386,  0.3889,  0.1370]], requires_grad=True)
#Parameter containing:
#tensor([[-0.6241,  0.3488,  0.3069,  0.8371],
#        [-0.8167,  0.7516,  0.6801,  0.1606],
#        [ 0.2885,  0.1036, -0.0692,  0.1744],
#        [ 0.5015,  0.0987, -0.0787, -0.0286]], requires_grad=True)
#Parameter containing:
#tensor([[-0.8437, -0.5244,  0.8917,  0.0646]], requires_grad=True)
        
# 创建模型容器
model_l = [tanh_model3, tanh_model3_init]           
name_l = ['tanh_model3', 'tanh_model3_init']

# 核心参数
lr = 0.03
num_epochs = 40

# 模型训练
train_l, test_l = model_comparison(model_l = model_l, 
                                   name_l = name_l, 
                                   train_data = train_loader,
                                   test_data = test_loader,
                                   num_epochs = num_epochs, 
                                   criterion = nn.MSELoss(), 
                                   optimizer = optim.SGD, 
                                   lr = lr, 
                                   cla = False, 
                                   eva = mse_cal)

# 训练误差
for i, name in enumerate(name_l):
    plt.plot(list(range(num_epochs)), train_l[i], label=name)
plt.legend(loc = 1)
plt.title('mse_train')

# 测试误差
for i, name in enumerate(name_l):
    plt.plot(list(range(num_epochs)), test_l[i], label=name)
plt.legend(loc = 1)
plt.title('mse_test')

同样我们能够发现，模型收敛速度更快，迭代多轮之后也变得更加稳定。

2.2 PyTorch实现Xavier高斯分布的参数创建

类似的，我们可以使用torch.nn.init.xavier_normal_进行初始化参数设置。

torch.nn.init.xavier_normal_?
#Signature: torch.nn.init.xavier_normal_(tensor, gain=1.0)
#Docstring:
#Fills the input `Tensor` with values according to the method
#described in `Understanding the difficulty of training deep feedforward
#neural networks` - Glorot, X. & Bengio, Y. (2010), using a normal
#distribution. The resulting tensor will have values sampled from
#:math:`\mathcal{N}(0, \text{std}^2)` where
#
#.. math::
#    \text{std} = \text{gain} \times \sqrt{\frac{2}{\text{fan\_in} + \text{fan\_out}}}
#
#Also known as Glorot initialization.
#
#Args:
#    tensor: an n-dimensional `torch.Tensor`
#    gain: an optional scaling factor
#
#Examples:
#    >>> w = torch.empty(3, 5)
#    >>> nn.init.xavier_normal_(w)
#File:      d:\users\asus\anaconda3\lib\site-packages\torch\nn\init.py
#Type:      function

$fan_in + fan_out \text{std} = \text{gain} \times \sqrt{\frac{2}{\text{fan\_in} + \text{fan\_out}}}$
当然，修改参数的方法也是相同的，例如:

# 实例化模型
sigmoid_model2 = Sigmoid_class2()                  

# 修改init模型初始参数
for m in sigmoid_model2.modules():
    if isinstance(m, nn.Linear):
        nn.init.xavier_normal_(m.weight)
# Parameter containing:
# tensor([[-0.3229, -0.5913],
#         [ 0.2859, -0.0382],
#         [ 0.7426, -0.0482],
#         [-0.9737, -0.1796]], requires_grad=True)
# Parameter containing:
# tensor([[ 0.8277,  0.0731, -0.2164, -0.8359],
#         [-0.0992,  0.1425, -0.6378, -0.0512],
#         [-0.1305,  0.4111,  0.4144,  0.5496],
#         [ 0.8238, -0.3335, -0.4961,  0.5645]], requires_grad=True)
# Parameter containing:
# tensor([[-0.1274,  0.6312,  0.6152, -0.9861]], requires_grad=True)

其他测试初始化效果的相关实验和此前操作流程一致，同学们可以自行进行尝试。从理论上来说，均匀分布和高斯分布并没有根本性区别，二者任选其一使用即可。不过也有一些不是很严谨的实验证明了均匀分布比高斯分布能够产生相对较大的梯度，因而模型学习效果会更好。

二、Kaiming方法（HE初始化）

1.HE初始化基础理论

尽管Xavier初始化能够在Sigmoid和tanh激活函数叠加的神经网络中起到一定的效果，但由于ReLU激活函数属于非饱和类激活函数，并不会出现类似Sigmoid和tanh激活函数使用过程中可能存在的梯度消失或梯度爆炸问题，反而因为ReLU激活函数的不饱和特性，ReLU激活函数的叠加极有可能出现神经元活性消失的问题，很明显，该类问题无法通过Xavier初始化解决。
尽管如此，对参数的初始值进行合理设置，仍然是保证模型有效性的有效方法，同样也能一定程度上解决ReLU激活函数的神经元活性消失问题。目前通用的针对ReLU激活函数的初始化参数方法，是由何凯明在2015年的《Delving Deep into Rectifiers:
Surpassing Human-Level Performance on ImageNet Classification》一文中所提出的HE初始化方法，也被称为Kaiming方法。原文地址。

近一轮深度学习的兴起也就在十年间，我们接触到的很多算法和优化方法基本都是发表于10年内。

当然，He初始化也遵循Glorot条件，即参数初始化结果要求正向传播时各层接收到的数据方差保持一致、反向传播时各层参数梯度的方差保持一致，不过由于每一层的激活值（激活函数输出结果）均值不为0，因此Xavier的数学推导过程不再成立。关于HE初始化的数学推导此处不进行深入讲解，感兴趣的同学可自行参考论文中给出的推导过程。需要知道的是，经过一系列的推导和论证之后，HE初始化仍然是规定参数是满足均值为0的随机变量，并且仍然借助均匀分布和高斯分布进行随机变量创建，不同的是Xavier中参数方差为： $Var(w)_{Xavier} = \frac{2}{fan_{in}+fan_{out}}$ 而HE初始化过程中，参数方差为 $Var(w)_{HE} = \frac{2}{fan_{in}} 或 Var(w)_{HE} = \frac{2}{fan_{out}}$ 也就是分子不变，分母取某层扇入或扇出的神经元的数量，同时论文中给出论证二者没有明显区别，建模过程中任取其一即可。

当然，根据参数方差，我们就能确定参数满足均匀分布时的边界，以及满足高斯分布时的基本形态。均匀分布时 $\sqrt{3var}$ ，因此参数分布区间为: $(-\sqrt{\frac{6}{fan_{in}}}, \sqrt{\frac{6}{fan_{in}}})$

值得注意的是，HE初始化不仅针对ReLU激活函数，还可以对其变种激活函数使用，相关内容会在后续进行介绍。

后续还将介绍其他初始化方法，我们仍然可以从以下几个角度进行理解：
(1).为了满足或者更好的满足Glorot条件；
(2).数学理论推导出参数方差；
(3).方差由扇入和扇出神经元个数组成。

2.HE初始化在PyTorch中实现

2.1 PyTorch实现HE初始化的均匀分布参数创建

我们可以使用torch.nn.init.kaiming_uniform_进行初始化参数设置。

nn.init.kaiming_uniform_?
#Signature:
#nn.init.kaiming_uniform_(
#    tensor,
#    a=0,
#    mode='fan_in',
#    nonlinearity='leaky_relu',
#)
#Docstring:
#Fills the input `Tensor` with values according to the method
#described in `Delving deep into rectifiers: Surpassing human-level
#performance on ImageNet classification` - He, K. et al. (2015), using a
#uniform distribution. The resulting tensor will have values sampled from
#:math:`\mathcal{U}(-\text{bound}, \text{bound})` where
#
#.. math::
#    \text{bound} = \text{gain} \times \sqrt{\frac{3}{\text{fan\_mode}}}
#
#Also known as He initialization.
#
#Args:
#    tensor: an n-dimensional `torch.Tensor`
#    a: the negative slope of the rectifier used after this layer (only
#        used with ``'leaky_relu'``)
#    mode: either ``'fan_in'`` (default) or ``'fan_out'``. Choosing ``'fan_in'``
#        preserves the magnitude of the variance of the weights in the
#        forward pass. Choosing ``'fan_out'`` preserves the magnitudes in the
#        backwards pass.
#    nonlinearity: the non-linear function (`nn.functional` name),
#        recommended to use only with ``'relu'`` or ``'leaky_relu'`` (default).
#
#Examples:
#    >>> w = torch.empty(3, 5)
#    >>> nn.init.kaiming_uniform_(w, mode='fan_in', nonlinearity='relu')
#File:      d:\users\asus\anaconda3\lib\site-packages\torch\nn\init.py
#Type:      function

2.2 PyTorch实现HE初始化的正态分布参数创建

类似的，我们可以使用torch.nn.init.kaiming_normal_来进行满足正态分布的初始化参数设置。

nn.init.kaiming_normal_?
#Signature:
# nn.init.kaiming_normal_(
#     tensor,
#     a=0,
#     mode='fan_in',
#     nonlinearity='leaky_relu',
# )
# Docstring:
# Fills the input `Tensor` with values according to the method
# described in `Delving deep into rectifiers: Surpassing human-level
# performance on ImageNet classification` - He, K. et al. (2015), using a
# normal distribution. The resulting tensor will have values sampled from
# :math:`\mathcal{N}(0, \text{std}^2)` where

# .. math::
#     \text{std} = \frac{\text{gain}}{\sqrt{\text{fan\_mode}}}

# Also known as He initialization.

# Args:
#     tensor: an n-dimensional `torch.Tensor`
#     a: the negative slope of the rectifier used after this layer (only
#         used with ``'leaky_relu'``)
#     mode: either ``'fan_in'`` (default) or ``'fan_out'``. Choosing ``'fan_in'``
#         preserves the magnitude of the variance of the weights in the
#         forward pass. Choosing ``'fan_out'`` preserves the magnitudes in the
#         backwards pass.
#     nonlinearity: the non-linear function (`nn.functional` name),
#         recommended to use only with ``'relu'`` or ``'leaky_relu'`` (default).

# Examples:
#     >>> w = torch.empty(3, 5)
#     >>> nn.init.kaiming_normal_(w, mode='fan_out', nonlinearity='relu')
# File:      d:\users\asus\anaconda3\lib\site-packages\torch\nn\init.py
# Type:      function

同样，说明文档中的公式存在错误。以下是说明文档中的公式:
$fan_mode \text{std} = \frac{\text{gain}}{\sqrt{\text{fan\_mode}}}$ 实际上，PyTorch中所使用的HE初始化时，初始参数的方差为： $\frac{2}{(1+a^2)fan_{in}}$
其中a为ReLU变种激活函数的修正系数，需要配合ReLU变种激活函数共同使用，扇入神经元个数和扇出神经元个数等效，并且 $\sqrt{\frac{2}{(1+a^2)fan_{in}}}$ 接下来，简单实践测试效果：

# 设置随机数种子
torch.manual_seed(420)  

# 实例化模型
relu_model3 = ReLU_class3()                   # 保留原参数
relu_model3_init = ReLU_class3()              # 使用HE初始化参数

# 修改init模型初始参数
for m in relu_model3_init.modules():
    if isinstance(m, nn.Linear):
        nn.init.kaiming_normal_(m.weight)
# 
# Parameter containing:
# tensor([[ 0.4132,  1.2154],
#         [-0.0425, -1.3647],
#         [-0.5896,  2.1108],
#         [ 0.2548,  0.1661]], requires_grad=True)
# Parameter containing:
# tensor([[ 0.5093, -0.2730, -0.1495,  1.4481],
#         [ 1.5209,  1.1812,  0.8868, -0.7768],
#         [ 0.6132, -0.8655, -0.3035, -0.1526],
#         [ 0.2752, -0.5203, -0.7091, -0.5119]], requires_grad=True)
# Parameter containing:
# tensor([[ 0.7865, -0.0605,  0.6548, -0.9418],
#         [-1.1811,  0.8337,  0.5161, -0.8076],
#         [ 0.6926,  0.9038, -0.4330, -0.1764],
#         [-0.4042,  0.3451, -0.5829, -0.0914]], requires_grad=True)
# Parameter containing:
# tensor([[-0.7091,  0.1566, -0.7193, -0.9234]], requires_grad=True)       
# 创建模型容器
model_l = [relu_model3, relu_model3_init]           
name_l = ['relu_model3', 'relu_model3_init']

train_l, test_l = model_comparison(model_l = model_l, 
                                   name_l = name_l, 
                                   train_data = train_loader,
                                   test_data = test_loader,
                                   num_epochs = num_epochs, 
                                   criterion = nn.MSELoss(), 
                                   optimizer = optim.SGD, 
                                   lr = lr, 
                                   cla = False, 
                                   eva = mse_cal)
# 训练误差
for i, name in enumerate(name_l):
    plt.plot(list(range(num_epochs)), train_l[i], label=name)
plt.legend(loc = 1)
plt.title('mse_train')

# 测试误差
for i, name in enumerate(name_l):
    plt.plot(list(range(num_epochs)), test_l[i], label=name)
plt.legend(loc = 1)
plt.title('mse_test')

同样，经过HE初始化后的参数，模型收敛速度更快，也证明了HE初始化的有效性。

三、参数初始化的作用局限

截止目前，我们讨论了围绕Glorot条件进行的参数初始化方法，当然，合理的设置初始参数值能够一定程度上使得模型各层都得到有效的学习，模型训练过程更加平稳、收敛速度也更快。但由于我们设置的是初始条件，伴随着模型不断训练，由于受到激活函数导函数本身特性影响，仍然有可能在迭代过程中出现梯度不均衡的现象。
然而模型一旦开始训练，我们是不能手动参与修改模型参数的。那此时应该如何处理梯度不均衡的问题呢？我们知道，影响梯度计算的三个核心因素，分别是参数状态值、激活值和输入的数据，参数状态值由模型迭代的数学过程决定，激活值很大程度上由我们所选取的激活函数决定，如果从Glorot条件入手，我们就只剩下一个可以人工修改的选项：每一个线性层接收到的数据。

你可能感兴趣的:(深度学习——PyTorch,神经网络,batch,深度学习)

Linux部署模型报错OSError: Error no file named pytorch_model.bin, tf_model.h5, model.ckpt.index or flax_mod dkgee linux pytorch 运维
报错内容：OSError:Errornofilenamedpytorch_model.bin,tf_model.h5,model.ckpt.indexorflax_model.msgpackfoundindirectory主要原因是transformer版本不对，需要升级pipinstall--upgradehuggingface_hubpipinstalltransformers[torch]其
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
模型优化驱动产业应用创新智能计算研究中心其他
内容概要当前模型优化技术的迭代正沿着多维路径快速演进，其核心驱动力在于突破算法性能与产业需求间的适配瓶颈。以自适应学习机制与迁移学习框架为基础的优化策略，显著提升了模型在跨场景应用中的泛化能力，而超参数自动调优技术则通过PyTorch、TensorFlow等主流框架的接口标准化，降低了复杂模型的开发门槛。在部署层面，边缘计算与联邦学习的协同应用不仅缩短了金融预测、医疗影像分析等场景的响应延迟，更通
【第1章＞第6节】CMAC小脑模型神经网络的理论学习与MATLAB仿真 fpga和matlab #第1章·神经网络学习 matlab CMAC 小脑模型神经网络人工智能
目录1.使用软件和版本2.CMAC小脑模型神经网络概述2.1CMAC网络结构2.2CMAC地址映射2.3学习过程3.CMAC网络的MATLAB编程实现4.分辨率，重叠度，学习率对CMAC网络的训练性能影响分析4.1分辨率4.2重叠度4.3学习率5.视频操作步骤演示欢迎订阅FPGA/MATLAB/Simulink系列教程《★教程1:matlab入门100例》《★教程2:fpga入门100例》《★教程
基于roop/insightface将视频中包含指定人脸的视频片段提取并合并成新视频阆遤 python roop pytorch insightface
利用insightface.app.FaceAnalysis提最一个视频中包含指定人脸的视频片段，并将其合并成一个新视频，使用“buffalo_l”模型，模型需安装在代码当前目录下的.\models中。需要roop或其他支持pytorch、insightface、moviepy的环境。pytorch安装请见我其他文章。#cython:language_level=3str#-*-coding:ut
关于pytorch3d的安装诚威_lol_中大努力中人工智能 pytorch 人工智能 python
更新1：2025_2_04今天发现，原来的pytorch3d不见了，在我的aaa1环境中。重新安装，我发现最好用的还是去github下载最新的pytorch3d的zip，unzip之后，进去pipinstall-e.然后安装成功！1、参考文章1：windows安装PyTorch3D详细指南-哔哩哔哩(bilibili.com)这篇文章巨好2、参考文章2：pytorch3d/INSTALL.mdat
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
【零基础入门】一篇弄懂nn.Sequential以及ModuleList的使用（呕心沥血版）十二月的猫 PyTorch深度学习 pytorch 零基础入门
个人主页：十二月的猫-CSDN博客系列专栏：《PyTorch科研加速指南：即插即用式模块开发》CSDN博客十二月的寒冬阻挡不了春天的脚步，十二点的黑夜遮蔽不住黎明的曙光目录1.前言2.Sequential类的使用2.1序列容器简单注入2.2序列容器字典注入2.3序列容器函数注入2.4序列容器修改2.5序列容器删除3.nn.ModuleList()的使用3.1定义模型3.2使用模型4.总结1.前言《
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
深度学习篇---对角矩阵&矩阵的秩&奇异矩阵 Ronin-Lotus 程序代码篇深度学习篇深度学习矩阵人工智能线性代数
文章目录前言一、对角矩阵（DiagonalMatrix）1.1定义1.2特性行列式运算简化1.3应用领域深度学习信号处理量子力学经济学二、矩阵的秩（RankofaMatrix）2.1定义2.2特性满秩降秩影响2.3应用领域深度学习图像压缩推荐系统控制理论三、奇异矩阵（SingularMatrix）3.1定义3.2特性秩不足行列式为零3.3应用领域深度学习正则化损失函数结构工程统计学数值计算四、跨领
DeepSeek、Grok 与 ChatGPT 三巨头：技术架构与应用场景的全方位解析云策量化 Deepseek chatgpt deepseek grok
前言在当今人工智能领域，DeepSeek、Grok和ChatGPT作为语言模型的三巨头，各自凭借独特的技术架构和广泛的应用场景，在自然语言处理领域占据着重要地位。本文将对这三款模型的技术架构和应用场景进行全方位解析，以期为读者提供深入的了解和有价值的参考。一、技术架构（一）DeepSeekDeepSeek是由DeepSeek团队开发的一款大型语言模型，其技术架构基于深度学习中的Transforme
OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
OpenCV ML 模块使用指南 ice_junjun OpenCV opencv 人工智能计算机视觉
一、模块概述OpenCV的ML模块提供了丰富的机器学习算法，可用于解决各种计算机视觉和数据分析问题。本指南将详细介绍该模块中主要的机器学习算法，包括支持向量机（SVM）、K均值聚类（K-Means）和神经网络（ANN），并结合图像分类和聚类分析这两个典型应用场景进行代码实现与解释。二、主要函数及类详解（一）支持向量机（SVM）：cv.ml.SVM_create()功能支持向量机（SVM）是一种强大
强化学习中策略网络模型设计与优化技巧数字扫地僧计算机视觉深度学习
I.引言强化学习（ReinforcementLearning,RL）是一种通过与环境交互，学习如何采取行动以最大化累积奖励的机器学习方法。策略网络（PolicyNetwork）是强化学习中一种重要的模型，它直接输出动作的概率分布或具体的动作。本篇博客将深入探讨策略网络的设计原则、优化技巧，并结合具体实例展示其应用。II.策略网络的基本概念A.策略网络的定义策略网络是一种神经网络，它接受当前状态作为
介于YOLOv5的裂缝识别系统程序员～小强 YOLO
介于YOLOv5的裂缝识别系统在现代工业中，裂缝监测是的保障设施安全的重要环节。我们公司的新项目——基于YOLOv5的裂缝识别系统，将为您提供高效、精准的解决方案，助力各类工程项目的质量管理。系统优势我们的裂缝识别系统借助YOLOv5进行深度学习，经过精心训练，拥有强大的图像识别能力。只需简单的步骤，您就能将复杂的裂缝检测转化为轻松的操作，让分析变得更加简单、高效。核心功能图片上传与场景选择用户可
vLLM 部署大模型哦豁灬深度学习 LLM 人工智能 vLLM 大模型部署 LLM
1介绍vLLM是来自UCBerkeley的LMSYS在LLM推理方面的最新工作（没错就是搞出Vicuna的那个group），最大亮点是采用PagedAttention技术，结合ContinuousBatching，极大地优化了realtime场景下的LLMserving的throughput与内存使用。vllmgithub仓库1.1安装安装命令：pip3installvllm#vllm==0.2.
pytorch v1.4.0安装问题大柠丶 pytorch 人工智能 python
直接使用conda安装报错：(CenterNet)C:\Users\16323>condainstallpytorch==1.4.0torchvision==0.5.0cudatoolkit=10.1-cpytorch-cconda-forgeChannels:-pytorch-conda-forge-defaultsPlatform:win-64Collectingpackagemetadata
Vision mamba(mamba_ssm)安装踩坑指南 ggitjcg 深度学习 python
在这篇博客中，我将分享我在linux环境安装和使用VisionMamba（mamba_ssm）过程中遇到的一些问题和解决方法。前置检查：PyTorch和Python版本在安装mamba_ssm前，请确保你的PyTorch和Python环境版本正确。以下代码可用来检查环境信息：importtorchprint("PyTorchVersion:{}".format(torch.__version__)
关于forward函数 oioz 深度学习
定义forward函数是模型的核心前向传播逻辑，定义了输入数据如何在模型中传递和计算。它将输入数据通过模型的各层（如卷积层、全连接层等），计算出模型的输出。作用负责模型的主要计算逻辑。在训练和验证过程中都会被调用。特点必须实现：在PyTorch中，forward函数是模型的核心部分，必须显式定义。灵活性高：可以根据模型需要，自由定义forward函数的内容，包括各种计算操作。示例（PyTorch）
卷积神经网络Batch Normalization的作用 arron8899 cnn batch 人工智能
BatchNormalization的作用（通俗版）1.像“稳定器”一样校准每层输入想象你在烤多层蛋糕，每层蛋糕的烘烤温度不同（相当于神经网络的每一层数据分布不同）。没有BN时，烤箱温度忽高忽低，导致有的层烤焦（梯度爆炸），有的层不熟（梯度消失）。BN的作用相当于给每一层装了一个自动温度调节器，实时将输入数据调整到标准温度（均值为0，方差为1），保证每层都能均匀受热，训练更稳定。2.让模型训练“少
使用Dall-E生成图像：文本到图像的魔力 shuoac 计算机视觉人工智能 python
使用Dall-E生成图像：文本到图像的魔力技术背景介绍Dall-E是OpenAI开发的一个强大的文本到图像生成模型，它能够根据自然语言描述创造出全新的数字图像。这一技术基于深度学习的方法，使得创意与AI图像生成的结合更具可能性。本文将介绍如何调用Dall-EAPI来生成图像，从而使开发者能够将这一技术应用到自己的项目中。核心原理解析Dall-E利用大型语言模型（LLM）从用户提供的文本描述中提取详
【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。 985小水博一枚呀深度学习人工智能
【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。文章目录【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。1.滑坡灾害早期隐患的概念与特征概念主要特征2.通过光学
一切皆是映射：实现神经网络的硬件加速技术：GPU、ASIC（专用集成电路）和FPGA（现场可编程门阵列） AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
文章目录一切皆是映射：实现神经网络的硬件加速技术：GPU、ASIC（专用集成电路）和FPGA（现场可编程门阵列）1.背景介绍2.核心概念与联系3.核心算法原理&具体操作步骤3.1算法原理概述3.2算法步骤详解3.2.1GPU加速3.2.2ASIC加速3.2.3FPGA加速3.3算法优缺点GPUASICFPGA3.4算法应用领域4.数学模型和公式&详细讲解&举例说明4.1数学模型构建4.2公式推导过
给普通人看的深度学习说明书：用快递系统理解AI如何思考嵌入式Jerry Python AI 人工智能深度学习
第一章：理解AI的思维方式（快递版）1.1快递分拣站的故事假设你管理一个快递分拣站：传统方法：手动制定规则（比如根据邮编分拣）机器学习：观察老员工的分拣记录，总结规律深度学习：搭建自动分拣流水线，自主发现隐藏规则1.2神经网络就像智能分拣机传送带（输入层）：接收包裹信息（图片像素/文字等）#就像扫描快递单input_data=[0.2,0.7,0.1]#归一化后的特征数据分拣工人（隐藏层）：每个工
使用PyTorch搭建Transformer神经网络:入门篇 DASA13 pytorch transformer 神经网络
1.简介Transformer是一种强大的神经网络架构,在自然语言处理等多个领域取得了巨大成功。本教程将指导您使用PyTorch框架从头开始构建一个Transformer模型。我们将逐步解释每个组件,并提供详细的代码实现。2.环境设置首先,确保您的系统中已安装Python(推荐3.7+版本)。然后,安装PyTorch和其他必要的库:pipinstalltorchnumpymatplotlib3.P
解析大模型归一化：提升训练稳定性和性能的关键技术秋声studio 口语化解析深度学习人工智能大模型归一化
引言在深度学习领域，特别是在处理大型神经网络模型时，归一化（Normalization）是一项至关重要的技术。它可以提高模型的训练稳定性和性能，在加速收敛方面发挥了重要作用。本文将深入探讨大模型归一化的原理、常见方法及其应用场景，并结合实际案例和代码示例进行说明。一、归一化的作用与理论基础归一化的主要目的是为了提高模型的训练稳定性和性能。具体来说，归一化有以下几个关键作用：提高训练稳定性：在神经网
PyTorch数据归一化处理：transforms 2401_87555420 pytorch 人工智能 python
##1.数据归一化处理：transforms.Normalize###1.1理解torchvision*torchvision.transforms：常用的图像预处理方法*torchvision.datasets：常用的数据集Dataset实现*torchvision.models：常用的CV（预训练）模型实现torchvision.transforms:常用的数据预处理方法，提升泛化能力，包括：
小白零基础学数学建模系列-引言与课程目录川川菜鸟数学建模小白到精通系列数学建模
目录引言一、我们的专辑包含哪些内容？第一周：数学建模基础与工具第二周：高级数学建模技巧与应用第三周：机器学习基础与数据处理第四周：监督学习与无监督学习算法第五周：神经网络二、学完本专辑能收获到什么？三、适合什么样的人群学习？四、如何学习本专辑？课程目录第1周：数学建模基础与工具第1天：数学建模入门介绍第2天：数学建模工具介绍第3天：线性回归与曲线拟合第4天：线性规划第5天：动态规划第2周：高级数学
kafka生产消息失败 ...has passed since batch creation plus linger time Lichenpar #记录BUG解决 kafka 网络安全 java
背景：公司要使用华为云的kafka服务，我负责进行技术预研，后期要封装kafka组件。从华为云下载了demo，完全按照开发者文档来进行配置文件配置，但是会报以下错误。org.apache.kafka.common.errors.TimeoutException:Expiring10record(s)fortopic-0:30015mshaspassedsincebatchcreationplusl
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，