末流之人

黄金时代 —— 深度学习 (基础)

文章目录

1 优化方法
- 梯度下降
- - SGD
  - SGD+Momentum (动量项)
  - SGD+Nesterov (前瞻动量)
  - AdaGrad (梯度平方累计)
  - AdaDelta (梯度平方平均值+自适应学习率)
  - RMSprop (梯度平方平均值)
  - Adam (梯度平方平均值 + 动量项)
  - Adamax (学习率设上界 + Adam)
  - Nadam (NAG + Adam)
  - 合适的优化方法
  - Adam (Adaptive Moment Estimation)
  - - Adam 中使用的指数加权滑动平均法
    - - 偏差修正
    - Adam的原理机制
    - Adam参数和默认参数
- 二阶梯度方法
- - 牛顿法
  - 拟牛顿法
- 共轭梯度法
- - 问题模型
  - 解法
  - 推导（优化方向和步长确定）
  - 三个推论
  - 使用推论简化计算
  - 伪代码
2 网络参数初始化
- 相关概率公式
- Xavier 初始化 2010
- - 假设
  - 推导
- He Kaiming 初始化 2016 (MSRA)
- 网络参数不可以初始化为0
3 损失函数
- KL散度(相对熵)和交叉熵
- Smooth L1
- Focal Loss
- - 消除类别不平衡 & 挖掘难分类样本
  - 改进思路
- DR loss
- - 优化问题
  - 补充回归项的改进
  - DR loss 的检测器优化目标函数
- 平方误差和交叉熵误差损失
- - 误差项
  - 使用场景
- 交叉熵为什么用softmax归一化
- 训练的模型实际效果不错, 但是平方根误差一直很高
- IoU系列
- - GIoU 2019
  - DIoU 2019
  - CIoU 2020
4 激活函数
- 清单
- 为什么使用激活函数
- - 激活函数性质
- 为什么Sigmoid和Tanh导致梯度消失
- ReLU 系列相对于 Sigmoid 和 Tanh 的优势
- ReLU 有哪些局限性, 如何改进
- 各激活函数的优缺点和适用场景
- Sigmoid 和 Softmax
- Relu死亡问题
- 如何解决 ReLU 神经元死亡问题
- ReLU6
- 激活函数的使用原则
- 新的激活函数 Swich / Mish
- - Swich
  - Mish：
5 正则化
- L1和L2优缺点：
- L1和L2区别：
- L1正则化的原理是
- 为什么权值矩阵稀疏可以防止过拟合
- 为何权重参数 w 减小就可以防止过拟合
- 为什么稀疏化不选用L0,而选择L1
- 为什么说 L2 范式可以优化计算?
- 正则项如何确定
6 归一化
- Batch Normalization
- - BN层常放的位置
  - BN解决的问题
  - BN的好处
  - BN中batch大小
  - BN层中使用的均值和方差如何计算
  - BN层和多卡
  - BN在Inference阶段加速
  - BN层前面的卷积网络不需要偏置
- Group Normalization
- - GN 为什么效果好
  - BN, LN, IN, GN 的区别
- 归一化方法中的线性偏移个数
- Instance Normalization
- Layer Normalization
- Switchable Normalization
7 感受野
- 感受野计算公式
- 理论感受野和有效感受野的区别
- 不同因素对有效感受野的影响
- 目标检测的Anchor和感受野大小之间的关系
8 全连接层
- 作用
- 全连接转换为卷积层及好处
- - 全连接层转换为卷积层
  - 好处
- 两层全连接层的BP公式
- 全连接层失宠
9 卷积层
- 卷积层输出尺寸计算公式
- 1x1卷积层作用
- 卷积操作的特性
- 卷积核大小如何确定
- 卷积层的优化
- - Im2col 算法
  - 空间组合优化
  - 其他卷积计算加速方法
  - - 矩阵乘法的加速
10 池化层
- 什么是池化
- 池化层尺寸
- 池化层的作用
- 池化层的BP过程
- 最大池化和平均池化的异同和适用场景
- 全局平均池话（GAP）
- Ps RoI Pooling
- PrROI Pooling
- SPP 2014
- ASPP
11 反卷积层
- 矩阵乘法描述反卷积
- 反卷积和双线性插值(上采样)
- 反卷积尺寸计算公式
12 空洞卷积
13 训练问题
- 图像分类问题，数据量不足的问题核缓解
- - 处理方法
- 分类问题中的数据不均衡
- 训练不收敛
- Nan值原因
- 过拟合是什么
- 欠拟合
- Dropout
- - 实现方法
附录
- 反向传播推导
- - 平方误差损失函数
  - - 伪代码

1 优化方法


梯度下降	SGD, Momentum, Nesterov, Adagrad, Adadelta, RMSprop, Adam, Adamax
牛顿法
拟牛顿法
共轭梯度法

梯度下降

$\theta_{t}=\theta_{t-1}+\Delta \theta_{t}$

SGD

小批量随机梯度下降
$\begin{array}{c} g_{t}=\nabla_{\theta_{t-}} f\left(\theta_{t-1}\right) \\ \Delta \theta_{t}=-\eta \times g_{t} \end{array}$
每一次都计算mini-batch的梯度, 然后对参数进行更新. 公式中 $\eta$ 的是学习率, $g_{t}$ 是当前 batch 的梯度
优点 在合理的学习率和相应的衰减策略下, 通常能够优化到一个不错的点, 配合下面的 Momentum, 通常可以获得比自适应方法更优的点
缺点 (1) 因为要兼顾整个神经网络中所有参数的训练效果, 因此学习率敏感. (2) SGD 容易收敛到局部最优, 并且在某些情况下容易被困在鞍点( 这句话是不对的, 只有在特定的 inital point 时才会被困在鞍点, 通常情况下, 我们使用 random inital point, 被困在鞍点的概率非常小, 当使用合适的初始化和步长时, 几乎不会出现鞍点问题 ); (3) 参数的更新仅仅依赖于当前 batch 中的数据, 当数据分布波动较大时, 更新不稳定.

SGD+Momentum (动量项)

$\begin{array}{c} g_{t}=\nabla_{\theta_{t-}} f\left(\theta_{t-1}\right) \\ m_{t}=\mu \times m_{t-1}+g_{t} \\ \Delta \theta_{t}=-\eta \times m_{t} \end{array}$

$\mu$ 为动量因子，通常取值0.9或0.99
通过动量的积累来在相关方向上加速 SGD 优化速度, 抑制震荡, 同时有助于跳出局部最优, 进而加快收敛.
优点 (1) 下降初期, 动量因子可以加速网络的训练速度; (2) 当遇到鞍点时, 梯度虽然为零, 但是动量不为零, 可以跳出鞍点(局部最优) ; (3) 在梯度改变方向时, 能够降低更新幅度, 减小震荡, 加速网络收敛;
总之, momentum 项能够在相关方向加速 SGD, 抑制震荡, 从而加快收敛。
缺点 需要人工设置学习率

SGD+Nesterov (前瞻动量)

Nesterov Accelerated Gradient
$\begin{array}{c} g_{t}=\nabla_{\theta_{t-}} f\left(\theta_{t-1}-\eta \times \mu \times m_{t-1}\right) \\ m_{t}=\mu \times m_{t-1}+g_{t} \\ \Delta \theta_{t}=-\eta \times m_{t} \end{array}$
Nesterov 与 Momentum 公式的区别在于, 前者不是在当前的位置上求梯度, 而是根据本来计划要走的那一步提前前进一步以后, 再在新的位置上求梯度, 然后对这个新求得的梯度进行 Momentum 梯度下降计算
优点 (1) 先站在下一步的位置看看, 再进行更新, 使得梯度更新方向更具前瞻性; (2) 实际使用中, NAG 会比 Momentum 收敛的速度更快
缺点 需要人工设置学习率

AdaGrad (梯度平方累计)

$\begin{array}{c} n_{t}=n_{t-1}+g_{t}^{2} \\ \Delta \theta_{t}=-\frac{\eta}{\sqrt{n_{t}+\varepsilon}} \times g_{t} \end{array}$

学习率前面乘了一个约束项 $\frac{1}{\sqrt{n_{t}+\epsilon}},$
该约束项会随着算法的不断选代而增大, 那么对应学习率就会越来越小, Adagrad 算法在开始时是大步前进的, 而在后面则会减小步伐, 缓慢收敛
优点：(1) 更新期间学习率随着训练过程变化 (2) 适合面对稀疏梯度 (3) 对于每一个不同的参数, 其具有不同的学习率, 由梯度动态调节
缺点 (1) 依赖人工全局学习率; (2) 中后期, 分母上的梯度累加和会越来越大, 使得更新停滞, 训练提前结束

AdaDelta (梯度平方平均值+自适应学习率)

$\begin{array}{c} E g_{t}^{2}=\rho \times E g_{t-1}^{2}+(1-\rho) \times g_{t}^{2} \\ \Delta \theta_{t}=-\frac{\eta}{\sqrt{E g_{t}^{2}+\epsilon}} g_{t} \\ =-\frac{\eta}{R M S|g|_{t}} g_{t} \\ =-\frac{R M S|\Delta \theta|_{t-1}}{R M S|g|_{t}} g_{t} \\ R M S[\Delta \theta]_{t}=\sqrt{E\left[\Delta \theta^{2}\right]_{t}+\epsilon} \\ E\left[\Delta \theta^{2}\right]_{t}=\gamma E\left[\Delta \theta^{2}\right]_{t-1}+(1-\gamma) \Delta \theta_{t}^{2} \end{array}$

ρ 类似于冲量项, 其值在 0.9 附近. Adadelta是对Adagrad的扩展, 和 Adagrad 相比, 其改进是将分母约束项换成了过去的梯度平方的衰减平均值, 相当于梯度的均方根 (Root Mean Squared, RMS), 此外, 如果将学习率也换成 $S[\Delta \theta]_{t}$ 的话, 甚至可以不用设置学习率了
优点 (1) 对 Adagrad 的扩展, 约束项只计算梯度平方一段时间内的平均值, 而不是累计值, 不容易产生太大值而使得更新提早结束; (2) 无需人工设置学习率, 可以动态改变学习率的大小;
缺点 (1) 训练后期会反复在局部最小值附近抖动, 无法收敛到最优点, 这时候用 SGD+Momentum, 通常会有 2%~5% 的验证集正确率提升.

RMSprop (梯度平方平均值)

$\begin{array}{c} E g_{t}^{2}=\rho \times E g_{t-1}^{2}+(1-\rho) \times g_{t}^{2} \\ \Delta \theta_{t}=-\frac{\eta}{\sqrt{E g^{2}+\epsilon}} g_{t} \end{array}$

AdaDelta的特例,
优点 (1) Adadelta 的特例, 也是对学习率添加约束, 适合处理非平稳目标, 对 RNN 效果较好
缺点 RMSprop可以算作是Adadelta的一个特例, 可以看出 RMSprop 仍然需要设置全局学习率

Adam (梯度平方平均值 + 动量项)

$m_{t}=\beta_{1} \times m_{t-1}+\left(1-\beta_{1}\right) \times g_{t} \\ n_{t}=\beta_{2} \times n_{t-1}+\left(1-\beta_{2}\right) \times g_{t}^{2} \\ \hat{m}_{t}=\frac{m_{t}}{1-\beta_{1}^{t}} \\ \hat{n}_{t}=\frac{n_{t}}{1-\beta_{2}^{t}} \\ \Delta \theta_{t}=-\frac{\hat{m} t}{\sqrt{\hat{n}_{t}+\epsilon}} \times \eta$

利用修正后的梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率. $m_{t}, n_{t}$ 分别是对梯度的一阶矩估计和二阶矩估计, 可以看做是对期望 $E g_{t}, E g_{t}^{2}$ 的估计, $\hat{m}_{t}, \hat{n}_{t}$ 是对 $m_{t}, n_{t}$ 的校正, 这样可以近似为对期望的无偏估计.
优点 (1) 经过偏置校正后, 每一次迭代学习率都有一个确定的范围, 使得参数更新比较平稳; (2) 结合了动量 RMSprop 的优点; 既可以加速收敛, 又可以根据梯度的大小动态调节每个参数的学习步长 (3) 对内存需求 (偏置估计, 不用存储前几次梯度) 较小; (4) 适用于大多非凸优化, 适用于大数据集和高维空间; (5) 超参数可以比较直观的解释, 同时只需要极少量的调参
缺点 最终的收敛点通常比经过精心调参后的 SGD+Momentum 的收敛点差一些. 常取参数值:( $\beta_{1}=0.9, \beta_{2}=0.999, \epsilon=10^{-8}$ )

Adamax (学习率设上界 + Adam)

$n_{t}=\max \left(\nu \times n_{t-1}, a b s\left(g_{t}\right)\right) \\ \Delta x=-\frac{\hat{m}_{t}}{n_{t}+\epsilon} \times \eta$

Adamax 是 Adam 的一种变体, 此方法对学习率的上限提供了一个更简单的范围, 可以看出, 学习率的边界范围更加简单

Nadam (NAG + Adam)

$\hat{g}_{t}=\frac{g_{t}}{1-\Pi_{i=1}^{t} \mu_{i}} \\ m_{t}=\mu_{t} * m_{t-1}+\left(1-\mu_{t}\right) * g_{t} \\ \hat{m}_{t}=\frac{m_{t}}{1-\prod_{i=1}^{t+1} \mu_{i}} \\ n_{t}=\nu * n_{t-1}+(1-\nu) * g_{t}^{2} \\ \hat{n}_{t}=\frac{n_{t}}{1-\nu^{t}} \\ \bar{m}_{t}=\left(1-\mu_{t}\right) * \hat{g}_{t}+\mu_{t+1} * \hat{m}_{t} \\ \Delta \theta_{t}=-\eta * \frac{\bar{m}_{t}}{\sqrt{\hat{n}_{t}}+\epsilon}$

合适的优化方法

Adam, RMSprop 等算法, 使用的都是一阶原点矩和二阶原点矩. 并且是利用滑动平均法来对一阶矩和二阶矩进行估计.
SGD+Momentum 相比于自适应优化器通常训练时间长, 但在好的学习率和衰减方案的情况下结果更优
AdaGrad, RMSprop, Adam 等适合希望得到快速结果的情况下使用
- 在使用 RMSprop 和 Adam 的地方, 大多可以使用 Nadam 取得更好的效果.
在训练较深层的网络时, 也推荐先使用 Adam 方法进行正确性验证, 然后再使用SGD+Momentum 微调.
在实际训练中比较好的方法是: 先用 Adam 预训练一段时间, 然后使用 SGD+Momentum, 以达到最佳性能. Adam vs SGD 的表现通常如下图所示, 由于鲁棒性和自适应的学习速率, Adam 在一开始表现更好, 而 SGD 最终更容易达到全局最优.

Adam (Adaptive Moment Estimation)

Adam 中使用的指数加权滑动平均法

在数学中一般会以 1/e 来作为一个临界值, 小于该值的加权系数对应的值不作考虑. 因此, 当 β=0.9 时, 0.9^10 约等于 1e, 认为此时是约 10 个数值的加权平均.
偏差修正：由于初始化的值太小, 导致初期的滑动平均值偏小, 随着时间的增长, 初期的值影响减小, 滑动平均值才逐渐正常. 为了让初期的滑动平均值也相对正常，所以除以一个数进行修正！

偏差修正

令其在梯度变得稀疏时要比 RMSprop 算法更快速和优秀。
$n_0 = 0 \\ n_{t}=\beta_{2} \times n_{t-1}+\left(1-\beta_{2}\right) \times g_{t}^{2}=\left(1-\beta_{2}\right) \sum_{i=1}^{t} \beta_{2}^{t-i} \times g_{i}^{2} \\ E\left[n_{t}\right]=E\left[\left(1-\beta_{2}\right) \sum_{i=1}^{t} \beta_{2}^{t-i} \times g_{i}^{2}\right]=E\left[g_{t}^{2}\right] \times\left(1-\beta_{2}\right) \sum_{i=1}^{t} \beta_{2}^{t-i}+C= E\left[g_{t}^{2}\right] \times\left(1-\beta_{2}^{t}\right)+C^{\prime}$

Adam的原理机制

Adam 算法和传统的随机梯度下降不同。随机梯度下降保持单一的学习率更新所有的权重，学习率在训练过程中并不会改变。而 Adam 通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率。
本质上，Adam是AdaGrad和RMSprop的集合：适应性梯度算法（AdaGrad）为每一个参数保留一个学习率以提升在稀疏梯度（即自然语言和计算机视觉问题）上的性能；均方根传播（RMSprop）基于权重梯度最近量级的均值为每一个参数适应性地保留学习率。这意味着算法在非稳态和在线问题上有很有优秀的性能。

Adam参数和默认参数

$\alpha$ ：同样也称为学习率或步长因子，它控制了权重的更新比率（如 0.001）。较大的值（如 0.3）在学习率更新前会有更快的初始学习，而较小的值（如 1.0E-5）会令训练收敛到更好的性能。
$\beta_1$ ：一阶矩估计的指数衰减率（如 0.9）。
$\beta_2$ ：二阶矩估计的指数衰减率（如 0.999）。该超参数在稀疏梯度（如在 NLP 或计算机视觉任务中）中应该设置为接近 1 的数。
$\epsilon$ ：该参数是非常小的数，其为了防止在实现中除以零（如 10E-8）

二阶梯度方法

DL中一般只使用一阶梯度方法！

牛顿法

$f(x)=f\left(x^{(k)}\right)+\nabla f\left(x^{(k)}\right)^{T}\left(x-x^{(k)}\right)+\frac{1}{2}\left(x-x^{(k)}\right)^{T} H\left(x^{(k)}\right)\left(x-x^{(k)}\right)(\text) \\ \nabla f(x)=\nabla f\left(x^{(k)}\right)+H\left(x^{(k)}\right)\left(x-x^{(k)}\right) \\ 因为： \nabla f\left(x^{(k+1)}\right)=0 \\ 则： \nabla f\left(x^{k)}\right)+H\left(x^{(k)}\right)\left(x^{(k+1)}-x^{(k)}\right)=0 \\ x^{(k+1)}=x^{(k)}-H\left(x^{(k)}\right)^{-1} \nabla f\left(x^{(k)}\right) \\ 即：x^{(k+1)}=x^{(k)}-H_{k}^{-1} g_{k}$

拟牛顿法

牛顿法中海赛矩阵的逆矩阵计算复杂度高
拟牛顿的基本思路：考虑用一个正定矩阵替代海赛矩阵
$g_{k+1}-g_{k}=H\left(x^{(k)}\right)\left(x^{(k+1)}-x^{(k)}\right)$
得到拟牛顿条件： $y_{k}=H_{k} \delta_{k}$
如果 $H_{k}$ 是正定的 $H_{k}^{-1}$ 也是正定的, 那么可以保证牛顿法搜索方向 $p_{k}$ 是下降方向。这是因为搜索方向是 $p_{k}=-H_{k}^{-1} g_{k}$
如何找到和更新这个矩阵有DFP算法、BFGS算法和Broyden类算法 TODO … …
高斯牛顿法 TODO … …

共轭梯度法

共轭梯度法是介于最速下降法与牛顿法之间的一个方法，它仅需利用一阶导数信息，但克服了最速下降法收敛慢的缺点，又避免了牛顿法需要存储和计算Hesse矩阵并求逆的缺点
共轭梯度法不仅是解决大型线性方程组最有用的方法之一，也是解大型非线性最优化最有效的算法之一。
在各种优化算法中，共轭梯度法是非常重要的一种。其优点是所需存储量小，具有步收敛性，稳定性高，而且不需要任何外来参数。

问题模型

$\min _{x} f(x)=\frac{1}{2} x^{T} A x-b^{T} x$

A为半正定矩阵，x为优化变量，A和b为已知，负梯度如下：
$r_{k}=-\left(A x_{k}-b\right)$
其实就是求方程 $4 x^{*}=b$ 的解（通过迭代避免了求逆的难度），定义每次迭代和最优解的误差如下： $e_{k}=x^{*}-x_{k}$

解法

虽然梯度下降法的每一步都是朝着局部最优的方向前进的，但是它在不同的迭代轮数中会选择非常近似的方向，说明这个方向的误差并没通过一次更新方向和步长更新完，在这个方向上还存在误差，因此参数更新的轨迹是锯齿状。共轭梯度法的思想是，选择一个优化方向后，本次选择的步长能够将这个方向的误差更新完，在以后的优化更新过程中不再需要朝这个方向更新了。由于每次将一个方向优化到了极小，后面的优化过程将不再影响之前优化方向上的极小值，所以理论上对N维问题求极小只用对N个方向都求出极小就行了。为了不影响之前优化方向上的更新量，需要每次优化方向共轭正交。假定每一步的优化方向用 $p_k$ 表示，可得共轭正交：
$p_{i} A p_{j}=0 \quad i ≠ j$
则据上式，误差和优化方向:
$p_{k} A e_{k+1}=0$
若为N维空间优化问题, 则每次优化方向可以组成这个空间中的一组基底 $\left\{p_{1}, p_{2}, \ldots, p_{N}\right\}$

推导（优化方向和步长确定）

第一次优化方向为初始负梯度方向：
$p_{1}=r_{1}=b-A x_{1}$
使用施密特正交化，得到第k次优化方向为（对 $r_k$ 进行正交化）：
$p_{k}=r_{k}-\sum_{ipk=rk−i<k∑piTApipiTArkpi$
$\beta_{i}=\frac{p_{i}^{T} A r_{k}}{p_{i}^{T} A p_{i}}$
优化步长计算如下：
$\begin{aligned} p_{k}^{T} A e_{k+1} &=p_{k}^{T} A\left(x^{*}-x_{k+1}\right) \\ &=p_{k}^{T} A\left(x^{*}-x_{k}+x_{k}-x_{k+1}\right) \\ &=p_{k}^{T} A\left(e_{k}-\alpha_{k} p_{k}\right) \\ &=p_{k}^{T} A e_{k}-\alpha_{k} p_{k}^{T} A p_{k}=0 \end{aligned}$
$\begin{aligned} \alpha_{k} &=\frac{p_{k}^{T} A e_{k}}{p_{k}^{T} A p_{k}} \\ &=\frac{p_{k}^{T} A\left(x^{*}-x_{k}\right)}{p_{k}^{T} A p_{k}} \\ &=\frac{p_{k}^{T}\left(A x^{*}-A x_{k}\right)}{p_{k}^{T} A p_{k}} \\ &=\frac{p_{k}^{T}\left(b-A x_{k}\right)}{p_{k}^{T} A p_{k}} \\ &=\frac{p_{k}^{T} r_{k}}{p_{k}^{T} A p_{k}} \end{aligned}$

三个推论

第k步计算的梯度 $r_{k}$ 和前k-1步的优化向量 $\left\{p_{i}\right\}_{i=1}^{k-1}$ 正交。
- 证明: 当 $i < j i p i T r j = p i T ( A x j − b ) = p i T ( A x j − A x ∗ ) = p i T A e j = p i T A ( e i + 1 − ∑ k = 1 j − 1 β k p k ) = 0 \begin{aligned} p_{i}^{T} r_{j} &=p_{i}^{T}\left(A x_{j}-b\right) \\ &=p_{i}^{T}\left(A x_{j}-A x^{*}\right) \\ &=p_{i}^{T} A e_{j} \\ &=p_{i}^{T} A\left(e_{i+1}-\sum_{k=1}^{j-1} \beta_{k} p_{k}\right) \\ &=0 \end{aligned}$
第k步计算的梯度 $r_{k}$ 和前k-1步的梯度 $\left\{r_{i}\right\}_{i=1}^{k-1}$ 正交。
- 证明: 当 $i < j i r i T r j = ( p i + ∑ k = 1 i − 1 β k p k ) r j = 0 r_{i}^{T} r_{j}=\left(p_{i}+\sum_{k=1}^{i-1} \beta_{k} p_{k}\right) r_{j}=0$
第K步计算的梯度 $r_{k}$ 和前k-2步的优化向量 $\left\{p_{i}\right\}_{i=1}^{k-2}$ 共轭正交。
- 证明:
  $\begin{aligned} r_{j+1}^{T} r_{i} &=\left(b-A x_{j+1}\right)^{T} r_{i} \\ &=\left(b-A\left(x_{j}+\alpha_{j} p_{j}\right)\right)^{T} r_{i} \\ &=\left(b-A x_{j}-\alpha_{j} A p_{j}\right)^{T} r_{i} \\ &=\left(r_{j}-\alpha_{j} A p_{j}\right)^{T} r_{i} \\ &=r_{j}^{T} r_{i}-\alpha_{j} p_{j}^{T} A r_{i} \end{aligned}$
- 当 $j + 1 = i$ 时, $p_{j}^{T} A r_{i}≠0$
- 当 $j + 1 < i j+1 时, p j T A r i = 0 p_{j}^{T} A r_{i}=0$

使用推论简化计算

使用上述公式，每次迭代都要计算 $\beta$ ，现简化如下：

优化方向：（推论三）
$\begin{aligned} p_{k+1} &=r_{k+1}-\frac{p_{k}^{T} A r_{k+1}}{p_{k}^{T} A k_{k}} p_{k} \\ &=r_{k+1}-\frac{\left(A p_{k}\right)^{T} r_{k+1}}{\left(A p_{k}\right)^{T} p_{k}} p_{k} \\ &=r_{k+1}-\frac{\left(\frac{r_{k}-r_{k+1}}{\alpha}\right)^{T} r_{k+1}}{\left(\frac{r_{k}-r_{k+1}}{\alpha}\right)^{T} p_{k}} p_{k} \\ &=r_{k+1}-\frac{\left(\frac{r_{k}-r_{k+1}}{\alpha}\right)^{T} r_{k+1}}{\left(\frac{r_{k}-r_{k+1}}{\alpha}\right)^{T}\left(r_{k}-\beta_{k-1} p_{k-1}\right)} p_{k} \\ &=r_{t+1}+\frac{r_{k+1}^{T} r_{k+1}}{r_{k}^{T} r_{k}} p_{k} \end{aligned}$

优化步长：（推论一）
$\begin{aligned} \alpha_{k} &=\frac{p_{k}^{T} r_{k}}{p_{k}^{t} A p_{k}} \\ &=\frac{\left(r_{k}-\beta_{k-1} p_{k-1}\right)^{T} r_{k}}{p_{k}^{t} A p_{k}} \\ &=\frac{r_{k}^{T} r_{k}}{p_{k}^{T} A p_{k}^{T}} \end{aligned}$

最终梯度计算公式：
$\begin{aligned} r_{k+1} &=b-A x_{k+1} \\ &=b-A\left(x_{k}+\alpha_{k} p_{k}\right) \\ &=b-A x_{k}-\alpha_{k} A p_{k} \\ &=r_{k}-\alpha_{k} A p_{k} \end{aligned}$

伪代码

$r_{0} = b-A x_{0}$
$p_{0} = r_{0}$
$k = 0$
$\quad \alpha_{k}=\frac{r_{k}^{T} r_{k}}{p_{k}^{T} A p_{k}}$
$\qquad x_{k+1}=x_{k}+\alpha_{k} p_{k}$
$\qquad r_{k+1}=r_{k}-\alpha_{k} A p_{k}$
$\qquad if \quad r_{k+1}<\epsilon \quad break$
$\qquad \beta_{k+1}=\frac{r_{k+1}^{T} r_{k+1}}{r_{k}^{T} r_{k}}$
$\qquad p_{k+1}=r_{k+1}+\beta_{k} p_{k}$
$\qquad k=k+1$
$\quad x_{k+1}$

2 网络参数初始化

constant, uniform, gaussian, xavier, msra(kaiming), bilinear

均匀分布 … 将权值与偏置进行均匀分布的初始化

高斯分布 … 初始化为服从 $N\left(\mu, \sigma^{2}\right)$ 的高斯分布

Xavier $\sim U\left[-\frac{\sqrt{6}}{\sqrt{n_{j}+n_{j+1}}}, \frac{\sqrt{6}}{\sqrt{n_{j}+n_{j+1}}}\right]$ 服从均值为 0, 方差为 $\frac{2}{n_{i}+n_{i+1}}$ 的均匀分布公式中, $n_i$ 为本层输入的神经元个数, $n_{i+1}$ 为本层输出的神经元个数, 适合于线性激活函数(原文公式推导的假设)

MSRA(Kaiming) 基于均值为0, 方差为 $\sqrt{\frac{2}{\left(1+a^{2}\right) \times fan_{in}}}$ 的高斯分布它特别适合 ReLU 激活函数(非线性)

双线性初始化 … 常用在反卷积网络里的权值初始化

相关概率公式

推导时使用的現率公式：
$D(x)=E\left(x^{2}\right)-E^{2}(x) \\ D(x y)=E\left(x^{2} y^{2}\right)-E^{2}(x y) =E\left(x^{2}\right) E\left(y^{2}\right)-E^{2}(x) E^{2}(y)$
如果 $E (y) = 0,$ 则有：
$E\left(x^{2}\right)$
如果(x,y)是相互独立的，则有
$E (x y) = E (x) E (y)$

Xavier 初始化 2010

核心理念是: 优秀的初始化方法应该使得各层的激活值和状态梯度在传播过程中的方差保持一致

它为了保证前向传播和反向传播时每一层的方差一致:

在正向传播时，每层的激活值的方差保持不变；

在反向传播时，每层的梯度值的方差保持不变。

根据每层的输入个数和输出个数来决定参数随机初始化的分布范围，是一个通过该层的输入和输出参数个数得到的分布范围内的均匀分布。

假设

首先,输入数据来说,其均值和方差应满足: E(x)=0,Var(x)=1 (通过BN,较容易满足)

权重矩阵 $W$ 和网络输入 $x$ 互相独立

每层输入的每个特征方差一样

激活函数对称: 这主要是为了满足均值为0的假设

激活函数是线性的, 也就是说其导数为1

初始时, 状态值落在激活函数的线性区域, 即此时导数为1

推导

正向传播的推导过程
$Y=W_{1} X_{1}+W_{2} X_{2}+\ldots+W_{n} X_{n}$

方差
$\operatorname{Var}\left(W_{i} X_{i}\right)=E\left(X_{i}\right)^{2} \operatorname{Var}\left(W_{i}\right)+E\left(W_{i}\right)^{2} \operatorname{Var}\left(X_{i}\right)+\operatorname{Var}\left(X_{i}\right) \operatorname{Var}\left(W_{i}\right)$

当输入的 X 均值为 0 时(通过 BN, 较容易满足), 输出的方差就是：
$\operatorname{Var}\left(W_{i} X_{i}\right)=\operatorname{Var}\left(W_{i}\right) \ \operatorname{Var}\left(X_{i}\right)$

独立同分布
$\operatorname{Var}(Y)=n \times \operatorname{Var}\left(W_{i}\right) \operatorname{Var}\left(X_{i}\right)$

也就是说输出的方差跟输入的方差只是相差了一个倍数 $r\left(W_{i}\right),$ 因此, 为了保证前向传播和反向传播时每一层的方差一致, 则有下面的公式成立:
$\forall i, n_{i} \times \operatorname{Var}\left[W^{i}\right]=1$

同时考虑反向传播时输入输出刚好相反, 于是就有:
$\forall i, n_{i+1} \times \operatorname{Var}\left[W^{i}\right]=1$

权衡上述两个公式，可得方差为：
$\forall, \operatorname{Var}\left[W^{i}\right]=\frac{2}{n_{i}+n_{i+1}}\\$

取均匀分布 $U (a, b)$ 的方差为 $\frac{(b - a) ^ 2}{12}$ ，反推得到Xavier最终的初始化分布如下:
$\sim U\left[-\frac{\sqrt{6}}{\sqrt{n_{j}+n_{j+1}}}, \frac{\sqrt{6}}{\sqrt{n_{j}+n_{j+1}}}\right]$

而取正态分布，则有：
$\sim N(0.0, \sqrt{\frac{2}{n_{i n}+n_{\text {out}}}})$

对于权值的初始化，Glorot提出两个准则：

各个层激活值的方差保持不变（正向传播）

各个层的梯度值的方差保持不变（反向传播）

通常初始的权值矩阵的均值为0. 这这些条件的基础上，Glorot 使用(tanh)作为激活函数，并假设输入值的均值为0，提出了Xavier初始化的方法。

He Kaiming 初始化 2016 (MSRA)

链接

而Kaiming使用ReLU作为激活函数，就无法满足数值的均值为0的条件，因此使用Xavier来初始化ReLU作为激活函数的网络，效果也就不是那么理想。其提出了MSRA的初始化方法，来解决该问题

由于Xavier的假设条件是激活函数是关于0对称的，而常用的ReLU激活函数并不能满足该条件

正向传播：
$\mathbf{y}_{l}=\mathbf{W}_{l} \mathbf{x}_{l}+\mathbf{b}_{l}$

独立同分布
$\operatorname{Var}\left[y_{l}\right]=n_{l} \operatorname{Var}\left[w_{l} x_{l}\right]$

设w_的均值为0，即 $E\left(w_{l}\right)=0,$ 则有：
$\begin{aligned} \operatorname{Var}\left(y_{l}\right) =n_{l} \operatorname{Var}\left(w_{l}\right) \cdot E\left(x_{l}^{2}\right) \end{aligned}$

这里有和Xavier一个很大的不同是，这里没有假设输入的值的均值为0。这是由于，使用ReLU的激活函数, $x_{l}=\max \left(0, y_{l-1}\right)$ ,每层输出的值不可能均值为0

初始化时通常设, w的均值为0，偏置 $b = 0,$ 以及w和x是相互独立的，则有:
$\begin{aligned} \mathrm{E}\left(y_{l}\right) &=\mathrm{E}\left(w_{l} x_{l}\right) \\ &=\mathrm{E}\left(x_{l}\right) \cdot \mathrm{E}\left(w_{l}\right) \\ &=0 \end{aligned}$

再假设w是关于0对称分布的 (均匀分布，高斯分布都符合) ，则可以得到 $y_{l}$ 在0附近也是对称分布的。这样，使用ReLU作为激活函数，则有： $x_{l}=\max \left(0, y_{l-1}\right)$

由于只有当 $y_{l}-1>0$ 的部分， $x_{l}$ 才有值, 且 $y_{l}$ 在0附近也是对称分布的, 则可以得到：
$\begin{aligned} \mathrm{E}\left(x_{l}^{2}\right) &=\frac{1}{2} \mathrm{E}\left(y_{l-1}^{2}\right) \\ &=\frac{1}{2}\left(E\left(y_{l-1}^{2}\right)-E\left(y_{l-1}\right)\right),\left(\text { 由于 } E\left(y_{l-1}\right)=0\right) \\ &=\frac{1}{2} \operatorname{Var}\left(y_{l-1}\right) \end{aligned}$

带入到： $\operatorname{Var}\left(y_{l}\right)=n_{l} \operatorname{Var}\left(w_{l}\right) \cdot E\left(x_{l}^{2}\right)$

得到：
$\operatorname{Var}\left[y_{l}\right]=\frac{1}{2} n_{l} \operatorname{Var}\left[w_{l}\right] \operatorname{Var}\left[y_{l-1}\right]$

即：
$\operatorname{Var}\left[y_{L}\right]=\operatorname{Var}\left[y_{1}\right]\left(\prod_{l=2}^{L} \frac{1}{2} n_{l} \operatorname{Var}\left[w_{l}\right]\right)$

为了方差一致：
$\frac{1}{2} n_{l} \operatorname{Var}\left[w_{l}\right]=1, \quad \forall l$

即权值得方差应该是： $\sqrt{2 / n_{l}}$

取均匀分布，则有：
$\sim U[-\sqrt{\frac{6}{n_{l}}}, \sqrt{\frac{6}{n_{l}}}]$

取正态分布，则有：
$\sim N(0., \sqrt{\frac{2}{n_{l}}})$

网络参数不可以初始化为0

首先, 在神经网络中, 每一层中的任意神经元都是同构的, 它们拥有相同的输入, 如果再将参数全部初始化为同样的值(如0), 那么输出也就是相同的, 反过来它们的梯度也都是相同的. 那么无论是前向传播还是反向传播的取值都是完全相同的, 那么每一个神经元都是基于input做相同的事情, 这样一来, 不同的神经元根本无法学到不同的特征, 这样就失去网络学习特征的意义了

3 损失函数

01损失；L1损失；L2损失；

Softmax函数(用于分类)，常用类似于逻辑回归的对数似然函数 $y)=-\sum_{j} t_{j} \log y_{j}$

Softmax容易上溢下溢(指数容易数据溢出)，采用 $f (x - m a x (x))$ 替代 $f (x)$ (科大讯飞问到我了, 我竟然忘了)

KL散度(相对熵)和交叉熵

KL散度，值越小表示两个分布越接近：

p(x)常用于描述样本的真实分布且q(x)则常常用于表示预测的分布
$D_{K L}(p \| q)=\sum_{i=1}^{n} p\left(x_{i}\right) \log \frac{p\left(x_{i}\right)}{q\left(x_{i}\right)}$

KL散度和交叉熵只差一个常数项（数据样本的熵）：
$D_{K L}(p \| q)=\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(p\left(x_{i}\right)\right)-\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(q\left(x_{i}\right)\right) \\ =-H(p(x))+\left[-\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(q\left(x_{i}\right)\right)\right]$

交叉熵公式：
$b)=-\left[\frac{1}{m} \sum_{i=1}^{m}\left(y^{(i)} \log f^{(i)}+\left(1-y^{(i)}\right) \log \left(1-f^{(i)}\right)\right)\right] \\$

多分类
$b)=-\left[\frac{1}{m} \sum_{i=1}^{m} \sum_{k=1}^{n} y_{k}^{(i)} \log f_{k}^{(i)}\right]$

交叉熵和softmax的关系：crossentropy和softmax关系

Smooth L1

$\operatorname{smooth}_{L_{1}}(x)=\left\{\begin{array}{ll}0.5 x^{2} & |x|<1 \\ |x|-0.5 & \text { otherwise }\end{array}\right.$

优点：① smooth L1 损失是一种鲁棒性较强的 L1 损失, 相比于 R-CNN 和 SPPNet 中使用的 L2损失, 它对离异点的敏感度更低. 当回归目标趋于无限时, L2 损失需要很小心的处理学习率的设置以避免发生梯度爆炸, 而 smooth L1 损失则会消除这种敏感情况. ② 相比于 L2 损失, L1 损失对于离异值更加鲁棒, 当预测值与目标值相差很大时, 梯度很容易爆炸, 因为梯度里面包含了 $\left(t_{i}^{u}-v_{i}\right)$ 这一项, 而smooth L1 在值相差很大是, 其梯度为 ±1 ( L1 在 x 绝对值较大时, 是线性的, 而 L2 是指数的, 很容易爆炸).

Focal Loss

Focal Loss for Dense Object Detection

论文论点：1stage不如2stage效果好一个重要原因就是类别不平衡导致：① Two-Stage算法，在经过RPN，再通过score筛选和nms筛选过滤掉了大量的负样本，然后在分类、回归阶段又固定了正负样本比例（1:3），或者通过OHEM技巧使得前景和背景相对平衡。类别不平衡的问题并不明显，算法精度得以保证。② One-Stage算法需要产生超大量的预选框，训练被大量负样本所主导，Focal Loss对此种情况卓有成效。

即：① 无用的易分反例样本会使得模型的整体学习方向跑偏，导致无效学习，即只能分辨出没有物体的背景，而无法分辨具体的物体。② 负样本数量太大，占总的loss函数输入参数的大部分，而且多是容易分类的，因此使得模型的优化方向（即loss函数的梯度下降方向）并不是我们所希望的那样

消除类别不平衡 & 挖掘难分类样本

先前也有一些算法，如OHEM（online hard example mining）为解决类别不平衡(In OHEM each example is scored by its loss, non-maximum suppression (nms) is then applied, and a minibatch is constructed with the highest-loss examples)但是过分关注于错分类的正负样本，而忽视了容易分的正样本

提出Focal Loss:

在交叉熵损失函数基础上改的

改进思路

二分类交叉熵函数
$\mathrm{L}=-\mathrm{y} \log y^{\prime}-(1-y) \log \left(1-y^{\prime}\right)=\left\{\begin{array}{ll}-\log y^{\prime} & y=1 \\ -\log \left(1-y^{\prime}\right), & y=0\end{array}\right.$

缺点：此时的损失函数在大量简单样本的迭代过程中比较缓慢且可能无法优化至最优。

Focal Loss
$\mathrm{L}_{f l}=\left\{\begin{array}{ll}-\alpha\left(1-y^{\prime}\right)^{\gamma} \log y^{\prime} & y=1 \\ -(1-\alpha) y^{\prime \gamma} \log \left(1-y^{\prime}\right), & y=0\end{array}\right.$

① $\gamma>0$ 用途：挖掘难分类样本。使得减少易分类样本的损失，使得模型更关注于困难的、错分的样本。 2最好

② $\alpha>0$ 用途：平衡正负样本本身的数量比例不均（即类别不均衡） 0.25最好

多分类Focal Loss:
$L\left(y_{t}\right)=- \alpha_{t} *\left(1-\hat{y}_{t}\right)^{\gamma} * \log \left(\hat{y}_{t}\right)$

进一步提出 RetinaNet TODO

DR loss

DR Loss: Improving Object Detection by Distributional Ranking

也是类似于Focal Loss，解决One-Stage中的类别不平衡问题。将分类问题转换为排序问题，从而避免了正负样本不平衡的问题。同时针对排序，提出了排序的损失函数DR loss，并给出了可求导的解。

公式变形

原分类优化函数为，其中： $P_{i,j,k}$ 表示第i个图像中第j个候选对象第k类的估计概率！
$\min _{\theta} \sum_{i}^{N} \sum_{j, k} \ell\left(p_{i, j, k}\right) => \\ \min _{\theta} \sum_{i}^{N}\left(\sum_{j_{+}}^{n_{+}} \ell\left(p_{i, j_{+}}\right)+\sum_{j_{-}}^{n_{-}} \ell\left(p_{i, j_{-}}\right)\right)$

将其转换为排序配对问题（ $\gamma$ 表示margin）：
$\min _{\theta} \sum_{i}^{N} \sum_{j_{+}}^{n_{+}} \sum_{j_{-}}^{n_{-}} \ell\left(p_{i, j_{-}}-p_{i, j_{+}}+\gamma\right)$

每一幅图像可以写成：
$\frac{1}{n_{+} n_{-}} \sum_{j_{+}}^{n_{+}} \sum_{j_{-}}^{n_{-}} \ell\left(p_{i, j_{-}}-p_{i, j_{+}}+\gamma\right) \\ =E_{j_{+}, j_{-}}\left[\ell\left(p_{i, j_{-}}-p_{i, j_{+}}+\gamma\right)\right]$

进一步：(Distributional Ranking)
$\min _{\theta} \sum_{i}^{N} \ell\left(\max _{j_{-}} p_{i, j_{-}}-\min _{j_{+}} p_{i, j_{+}}+\gamma\right)$

将O( $n_＋$ $n_-$ )复杂度转换到O(1),但是max min 对Outier过于敏感!

进一步改进，选取正负样本中最具代表性的样本来排序！其中，sum(q) = 1，是概率分布
$P_{i,+}=\sum_{j_{+}}^{n_{+}} q_{i, j_{+}} p_{i, j_{+}} ; \quad P_{i,-}=\sum_{j=}^{n_{-}} q_{i, j_{-}} p_{i, j_{-}}$

当q为均匀分布，则上述的公式就是求期望！

求解q的公式：
$P_{i,+}=\min _{\mathbf{q} i,+\in \Delta} \sum_{j_{+}}^{n_{+}} q_{i, j_{+}} p_{i, j_{+}} ; \\ \quad P_{i,-}=\max _{\mathbf{q} i,-\in \Delta} \sum_{j_{-}}^{n_{-}} q_{i, j_{-}} p_{i, j_{-}}$


均匀分布	…	将权值与偏置进行均匀分布的初始化
高斯分布	…	初始化为服从 $N\left(\mu, \sigma^{2}\right)$ 的高斯分布
Xavier	$\sim U\left[-\frac{\sqrt{6}}{\sqrt{n_{j}+n_{j+1}}}, \frac{\sqrt{6}}{\sqrt{n_{j}+n_{j+1}}}\right]$ 服从均值为 0, 方差为 $\frac{2}{n_{i}+n_{i+1}}$ 的均匀分布	公式中, $n_i$ 为本层输入的神经元个数, $n_{i+1}$ 为本层输出的神经元个数, 适合于线性激活函数(原文公式推导的假设)
MSRA(Kaiming)	基于均值为0, 方差为 $\sqrt{\frac{2}{\left(1+a^{2}\right) \times fan_{in}}}$ 的高斯分布	它特别适合 ReLU 激活函数(非线性)
双线性初始化	…	常用在反卷积网络里的权值初始化

在线视频创作平台（Vidnami） deepdata_cn 视频生成视频剪辑视频创作
Vidnami是一款功能强大的在线视频创作平台，前身为ContentSamurai，于2015年推出，2020年更名为Vidnami。它运用人工智能技术，能够分析输入的文本，自动从大量素材中选取合适的图像和视频片段，将文字快速转化为具有专业外观的视频，无需用户具备视频编辑经验。该平台提供多种视频模板、全主题定制功能以及内置的免版权媒体库，包括3000万张图片和3万首音乐，还支持自动配音，用户可以录
C++20 新特性全面解析：从概念到协程的编程革命小乌龟登顶记 java 算法数据结构
一、引言：C++20的里程碑意义2020年发布的C++20标准被公认为继C++11之后最重要的版本更新，带来了4大核心特性和20+项重大改进。这些变革不仅提升了代码表达力，更从根本上改变了C++的编程范式。本文将深入解析C++20的关键特性，并通过实战代码示例演示其应用场景。二、四大核心特性详解2.1概念（Concepts）：模板编程的革命基本概念类型约束：通过requires子句限制模板参数类型
Camera常用算法介绍1 记录美好 android相机学习算法经验分享智能手机
Camera常用数据格式及算法介绍1二、Camera常用算法介绍2.1基础图像处理算法2.1.1HDR算法2.1.1.1HDR算法概述2.1.1.2发展历程2.1.1.2.1传统多帧合成阶段（2010年代初期）2.1.1.2.2.算法优化阶段（2016-2020年）2.1.1.2.3实时处理阶段（2020年至今）2.1.1.3技术原理2.1.1.3.1多帧采集2.1.1.3.2图像合成2.1.1.
【免费】1952-2020年全国人均GDP数据 2501_90487648 数据 #全国全国人均GDP
1952-2020年全国人均GDP数据1、时间：1952-2020年2、来源：国家统计局、统计年鉴3、指标：全国人均GDP4、范围：全国层面5、指标解释：人均GDP（GrossDomesticProductpercapita）是指一个国家或地区在一定时期内（通常为一年）创造的国内生产总值（GDP）与该地区人口总数的比值。它是衡量国家经济发展水平和居民生活水平的重要指标之一。6、下载链接：1952-
小米5miui10android,小米又一款手机适配Android 10！MIUI开发版暂停，米粉别着急！... weixin_39843677
2020年3月看到市场上的智能手机又要迎来一波新形势，更多厂家开始在手机的外观、形态、材质上下功夫。2月发布的小米10系列，几次开卖总是遇到抢购无货状态，看来雷军的高端手机市场卓有成效。除了硬件之外，手机系统其实还是挺重要的，日常体验才是王道。看到iOS最近几次测试版的更新不如人意，bug太多就是日常应用也会有适配兼容难的现象，卡顿闪退带来的效果总是不太好，影响用户去正常使用手机。再看看安卓阵营，
【数据分享】2000~2020年基于站点观测的中国1km土壤湿度日尺度数据集 GIS遥感数据处理应用人工智能大数据 arcgis 深度学习
各位同学们好，今天和大伙儿分享的是2000~2020年基于站点观测的中国1km土壤湿度日尺度数据集。如果大家有下载处理数据等方面的问题，您可以私信或评论。上官微,李清亮,石高松.(2022).基于站点观测的中国1km土壤湿度日尺度数据集（2000-2020）.国家青藏高原数据中心.1数据简介本研究提供了中国范围1km高质量的土壤湿度数据集-SMCI1.0(SoilMoistureofChinaby
数字孪生技术在工业制造中的应用探索知识产权13937636601 计算机制造人工智能
一、数字孪生：工业4.0的虚实纽带1.1技术定义与发展脉络数字孪生（DigitalTwin）通过实时数据映射，在虚拟空间构建物理实体的动态镜像。其演进历程：概念萌芽（2002年）：NASA首次提出用于航天器健康监测技术成型（2012年）：通用电气（GE）将其引入工业领域规模化应用（2020年至今）：全球市场规模达$86亿美元，年增速31%（Gartner数据）1.2工业场景的核心价值维度传统模式数
现代密码学 | 具有数字签名功能的安全方案 He_Donglin 密码学安全网络
1.案例背景1.1冒用签名触发信任危机，360安全大脑率先截杀解除警报2020年8月，360安全大脑独家发现冒用数字签名的网络攻击再度活跃，且继此前360安全大脑披露过的GoDaddy、StarfieldSecure、赛门铁克、Verisign和DigiCert等国际知名CA证书颁发机构，SectigoRSACodeSigningCA纷纷沦陷，成为不法攻击者冒用的新目标。与以往披露信息略显不同的是
10-30 查询平均成绩最高的同学(MSSQL) 拿下pta500题 sqlserver 数据库 sql mssql
本题目要求编写SQL语句，查询平均成绩最高的同学的学号，姓名，性别，年龄及平均成绩。注意：假设以当前系统时间为2020年来计算学生年龄。提示：MSSQLServer评测SQL语句。selectstu.snoas学号,stu.snameas姓名,stu.sexas性别,2020-year(stu.birdate)as年龄,a.pjas平均成绩fromstujoin(selectstu.sno,avg
MindSpore：华为全场景AI框架的技术全景与生态实践彩旗工作室人工智能人工智能
一、框架概述MindSpore（昇思）是华为自主研发的全场景AI计算框架，于2020年3月开源，旨在实现易开发、高效执行、灵活部署三大核心目标。作为华为昇腾AI生态的基石，MindSpore支持端、边、云全场景覆盖，并深度融合昇腾处理器的算力特性，提供从模型开发、训练到推理部署的端到端能力。截至2025年，其月度开发者访问量已突破12万，成为国内开源社区最活跃的AI框架之一。二、架构设计MindS
CentOS 6 YUM源切换成国内yum源 longerxin2020 Linux centos linux 运维
由于CentOS6已于2020年11月进入EOL（EndofLife），官方软件源已不再提供更新，因此你可能会遇到`yummakecache`命令失败的问题。以下是解决该问题的详细步骤：###解决方案1.**备份原有yum源文件**```bashsudomv/etc/yum.repos.d/CentOS-Base.repo/etc/yum.repos.d/CentOS-Base.repo.back
【数据分享】我国分省份的七普乡镇（街道）人口数据小鲨鱼-立方数据学社数据分享立方数据学社人口普查七普数据乡镇人口人口数据
人口数据是我们在各项研究中都经常使用的数据！人口数据的主要来源是人口普查，全国性的人口普查每十年进行一次。最近一次的人口普查是第七次全国人口普查，简称七普。七普统计的是2020年的人口数据。之前我们分享过省市县三个层级的七普的人口数据（可查看之前的文章获悉详情），很多小伙伴在咨询有没有到乡镇（城市地区对应街道）层级的七普人口数据！本次我们为大家分享的就是来自七普的乡镇（街道）人口数据，包括地区；总
JAVA从万级QPS到亿级吞吐，如何用非阻塞模型突破传统架构的性能瓶颈王大师王文峰 java 架构开发语言
本人详解作者：王文峰，参加过CSDN2020年度博客之星，《Java王大师王天师》公众号：JAVA开发王大师，专注于天道酬勤的Java开发问题中国国学、传统文化和代码爱好者的程序人生，期待你的关注和支持！本人外号：神秘小峯山峯转载说明：务必注明来源（注明：作者：王文峰哦）JAVA从万级QPS到亿级吞吐，如何用非阻塞模型突破传统架构的性能瓶颈学习教程（传送门）引言：当线程池成为瓶颈——某视频平台春节
YOLO V4（2020 CV）刘若里论文阅读 YOLO 人工智能计算机视觉学习笔记网络
论文标题YOLOv4:OptimalSpeedandAccuracyofObjectDetection论文作者AlexeyBochkovskiy,Chien-YaoWang,Hong-YuanMarkLiao发表日期2020年04月01日GB引用>AlexeyBochkovskiy,Chien-YaoWang,Hong-YuanMarkLiao.YOLOv4:OptimalSpeedandAccu
数据结构-栈基本运算的实现及其应用 Ssaty. 数据结构算法 c++
第1关：顺序栈的实现本关任务：实现顺序栈的入栈、出栈和取栈顶功能。/*************************************************************顺序存储的栈实现文件更新于2020年4月27日**************************************************************/#include#include#
软考高级架构师/分析师论文【论基于架构的软件设计方法/ABSD】 saikey0379 架构软考高级论文系统架构设计师系统分析师计算机软件资格考试 ABSD
一、摘要 2020年4月，某互联网公司开始了基础架构管理平台项目的实施，该项目主要为基础架构团队提供基础设施、中间件、负载均衡、任务管理等功能，我作为该项目的架构师，主要负责架构设计、架构评估等工作。本文以该项目为例，主要论述基于架构的软件设计方法在该项目中的具体应用与实现效果。在架构需求阶段，通过访谈、原型、JRP等方式获得了系统需求，并在标识构件后完成了需求评审。在架构设计阶段，对架构进行了
计算机考研408数据结构大题高频考点与真题解析竹木有心数据结构
一、线性表（顺序表与链表）1.1顺序表操作与算法设计高频考点：插入/删除操作的边界处理：检查下标越界与存储空间溢出子数组操作：合并、拆分、逆置等多数组综合问题：如寻找三元组最小距离真题示例：2020年408真题题目：给定三个升序数组S1、S2、S3，求所有可能的三元组(a,b,c)的最小距离D=|a−b|+|b−c|+|c−a|。解法：算法思想：三指针法遍历数组，每次移动当前最小元素的指针核心代码
美司法部考虑分拆谷歌：美国司法部在谷歌垄断在线搜索市场后，正在考虑的惩罚谷歌选择中，包括将谷歌分拆这种罕见的举措。百态老人笔记
1.案件背景与起因1.1美国司法部对谷歌提起诉讼美国司法部对谷歌提起诉讼的背景是该公司在在线搜索市场的主导地位引起了反垄断的担忧。司法部认为谷歌通过排他性协议和财务激励手段，限制了其他搜索引擎的发展空间，从而损害了市场竞争。诉讼时间：诉讼始于2020年，由美国司法部联合52个州及司法辖区的检察长共同发起。诉讼焦点：主要聚焦于谷歌与设备制造商、无线服务商等签订的独家协议，这些协议使谷歌搜索成为默认选
西方力推的5G O-RAN难以撼动传统通信设备商月光技术杂谈大模型初探 5G O-RAN 挑战互操作安全 AI
OpenRAN的兴衰历程初衷与愿景OpenRAN旨在打破传统RAN设备（如基站）软硬件一体化的“黑盒”模式，通过解耦硬件、软件和接口，实现模块化采购，降低运营商对单一设备商的依赖和成本。早期由O-RAN联盟推动（含中国移动、中兴等），技术逻辑符合“软件定义网络”趋势。政治化转向2020年美国成立OpenRAN政策联盟，以“国家安全”名义将华为、中兴排除在外，试图构建去中国化的5G供应链。联盟成员无
容器编排革命：从 Docker Run 到 Docker Compose 的进化之路20250309 Narutolxy 技术干货分享 docker java eureka
容器编排革命：从DockerRun到DockerCompose的进化之路一、容器化部署的范式转变在Docker生态系统的演进中，容器编排正从“手动操作”走向“自动化管理”。根据Docker官方2023年开发者调查报告，78%的开发者已采用DockerCompose，这一比例较2020年增长了32%。这背后不仅是容器化应用复杂度的提升，也是企业级运维需求驱动的必然趋势。然而，许多开发者仍然依赖doc
五大理由告诉你，软考为什么要趁早考！公众号-希赛网学习方法职场和发展
2025年上半年软考已经开始报名了，江苏、贵州、山西、大连、安徽、福建、澳门、兵团、四川、浙江等考区的报名入口已经开通。对于还在犹豫要不要报考的小伙伴们，小希建议趁早考软考。一、软考难度逐渐上升，越晚考越难拿证现在，软考的试题越来越注重考查考生的实践能力，且考得越来越细致。与前几年相比，软考的通过率有了很明显的下降。比如，2020年湖南考区软考的通过率约为23%，2021年上半年约为26%，到20
麻辣香锅病毒分析东方隐侠安全团队-千里【一】病毒木马·防护处置·蓝队安全病毒分析
一、简介SpicyHotPot浏览器劫持病毒（麻辣香锅病毒）从2020年初被安全公司监测到，因其病毒模块带有MLXG_KM被安全行业代称麻辣香锅病毒。目前通过各种激活工具传播，包括暴风激活、小马激活和KMS激活等诸多工具，疑似与下载站进行合作推广此类激活工具。SpicyHotPot是一个浏览器劫持Rootkit，它会将用户的主页更改为指向恶意软件操作员控制的页面，此外还会将内存转储从机器上传到预定
深挖JVM隐藏优化点与百万QPS系统调优【突破认知：JVM内存管理的9大反直觉真相】通过三个违背‘常识‘的调优策略，将GC停顿时间从1.2秒降至80ms，节省40%服务器成本王大师王文峰 jvm 服务器运维
本人详解作者：王文峰，参加过CSDN2020年度博客之星，《Java王大师王天师》公众号：JAVA开发王大师，专注于天道酬勤的Java开发问题中国国学、传统文化和代码爱好者的程序人生，期待你的关注和支持！本人外号：神秘小峯山峯转载说明：务必注明来源（注明：作者：王文峰哦）深挖JVM隐藏优化点与百万QPS系统调优【突破认知：JVM内存管理的9大反直觉真相】通过三个违背'常识'的调优策略，将GC停顿时
智能优化算法：海洋捕食者算法智能算法研学社（Jack旭）智能优化算法算法机器学习神经网络
智能优化算法：海洋捕食者算法文章目录智能优化算法：海洋捕食者算法1.算法原理2.实验结果3.参考文献4.Matlab代码摘要：海洋捕食者算法(MarinePredatorsAlgorithm，MPA)是AfshinFaramarzi等人于2020年提出的一种新型元启发式优化算法，其灵感来源于海洋适者生存理论，即海洋捕食者通过在Lévy游走或布朗游走之间选择最佳觅食策略。具有寻优能力强等特点。1.算
65%的家庭有人“啃老”，数据解读国内版巨婴是如何炼成的？永洪科技大数据啃老单身房价
近日，韩国“30-39岁的未婚人口中有54.8%变成啃老族；40-44岁的未婚人口中有44.1%变成啃老族”的数据在网上引发热议。而反观国内，2020年数据显示，中国的啃老族已经占据了中国超过60%的家庭，30%的年轻人靠“啃老”过活，65%以上的家庭存在“啃老”方面的问题。对此，很多80、90后纷纷表示不服。网友调侃：贵族的啃老叫继承家业，到了穷人就成了啃老了。其实，啃老现象在各国都存在，是全人
优酷 IPv6 演进和实践指南阿里巴巴终端技术网络 IPV6 移动开发客户端
作者：吴灵晓(盖优)演进路线阶段一（2020年末）本阶段完成线上所有服务的IPv6改造，全面支持IPv6双栈的访问支持；融入阿里云的IPv6生态体系，内网环境全面支持IPv4/IPv6双栈；提升用户端侧IPv6流量占比，IPv6流量占比不低于总量的40%。管：全面完成优酷主站广域网、集团级数据中心核心网络、互联网出口IPv6网络改造，IPv6在多地域多运营商开通。汰换无法通过升级支持IPv6的核心
PAT乙级(1111 对称日)C语言白羊不吃白菜 C语言机试合集 c语言算法开发语言
文章目录1111对称日输入格式输出格式输入样例：输出样例代码示例1111对称日央视新闻发了一条微博，指出2020年有个罕见的“对称日”，即2020年2月2日，按照年年年年月月日日格式组成的字符串20200202是完全对称的。给定任意一个日期，本题就请你写程序判断一下，这是不是一个对称日？输入格式输入首先在第一行给出正整数N（1#include//将月份缩写转换为数字intmonthToNum(ch
Vue 技术博客：从零开始构建一个 Vue Markdown 编辑器王大师王文峰 Java基础到框架 vue.js 编辑器前端
本人详解作者：王文峰，参加过CSDN2020年度博客之星，《Java王大师王天师》公众号：JAVA开发王大师，专注于天道酬勤的Java开发问题中国国学、传统文化和代码爱好者的程序人生，期待你的关注和支持！本人外号：神秘小峯山峯转载说明：务必注明来源（注明：作者：王文峰哦）学习教程（传送门）Vue技术博客：从零开始构建一个VueMarkdown编辑器前言环境准备实现步骤1.引入组件与库2.模板设计3
2020年精排模型调研 Marcus-Bao 机器不学习人工智能机器学习大数据算法
❝本文经作者同意转载自:https://zhuanlan.zhihu.com/p/335781101作者:Ruhjkg编辑:MarcusBao谢绝任何形式的二次转载！❞2020年精排模型调研前言最近由于工作需要调研了一下2020年关于精排模型的进展。在广告推荐领域的CTR预估问题上，早期以LR+人工特征工程为主的机器学习方法，但由于人工组合特征工程成本较高，不同任务难以复用。后面FM因子分解机提出
Python 版本变更历史及版本选择指南郝开 Python python 版本选择
Python版本变更历史及版本选择指南Python版本变更历史及版本选择指南1.Python3.13.1（2023年发布）主要特性适用场景2.Python3.12（2022年发布）主要特性3.Python3.11（2022年发布）主要特性4.Python3.10（2021年发布）主要特性5.Python3.9（2020年发布）主要特性6.Python3.8（2019年发布）主要特性7.Python
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla

黄金时代 —— 深度学习 (基础)

文章目录

1 优化方法

梯度下降

SGD

SGD+Momentum (动量项)

SGD+Nesterov (前瞻动量)

AdaGrad (梯度平方累计)

AdaDelta (梯度平方平均值+自适应学习率)

RMSprop (梯度平方平均值)

Adam (梯度平方平均值 + 动量项)

Adamax (学习率设上界 + Adam)

Nadam (NAG + Adam)

合适的优化方法

Adam (Adaptive Moment Estimation)

Adam 中使用的指数加权滑动平均法

偏差修正

Adam的原理机制

Adam参数和默认参数

二阶梯度方法

牛顿法

拟牛顿法

共轭梯度法

问题模型

解法

推导（优化方向和步长确定）

三个推论

使用推论简化计算

伪代码

2 网络参数初始化

相关概率公式

Xavier 初始化 2010

假设

推导

He Kaiming 初始化 2016 (MSRA)

网络参数不可以初始化为0

3 损失函数

KL散度(相对熵)和交叉熵

Smooth L1

Focal Loss

消除类别不平衡 & 挖掘难分类样本

改进思路

DR loss

你可能感兴趣的:(2020年,-,面试笔记)