Ziy.

【吴恩达】深度学习

参考资料：
deeplearning_ai_book
deeplearning.ai_JupyterNotebooks
GitHub另一个仓库

二、神经网络的编程基础(Basics of Neural Network programming)

2.1 二分类（Binary Classification）

例子：图片中是否有猫？

如果图片的大小为64x64像素，则 $n_x = 64*64*3 = 12288$

符号定义

其中 $x^{(n)},y^{(n)})$ 表示第n个样本（样本数从1开始计数）
将所有的输入向量整合为矩阵为 $X = \{x^{(1)},x^{(2)},...,x^{(m)}\}$ ，输入矩阵的shape为 $n_x$ 行 $m$ 列；同样的，输出矩阵 $Y= \{y^{(1)},y^{(2)},...,y^{(m)}\}$ 的shape为1行m列。一个好的符号约定能够将不同训练样本的数据很好地组织起来，使用这样的矩阵形式能够更容易实现一个神经网络。

2.2 逻辑回归（Logistic Regression）

构建“假设函数” $\hat y = wx+b$ 来预测图片中是否有猫，但 $\hat y \in (-\infin,+\infin)$ ，而真实值 $y = \{0,1\}$ ，故使用 $s i g m o i d$ 函数将其压缩至 $(0, 1)$
符号惯例，可以让参数 $w$ 和参数 $b$ 分开

2.3 逻辑回归的代价函数（Logistic Regression Cost Function）

为什么需要代价函数：

需要使用代价函数来得到使得预测结果最优的参数 $w$ 和 $b$
损失函数

又称误差函数，用于衡量算法的运行情况： $L(\hat y,y)$ ，常用形式：

为什么不用平方差或者平方差的一半？
推导：

损失函数是在单个训练样本中定义的，衡量的是算法在单个训练样本中表现如何。为了衡量算法在全部训练样本上的表现如何，我们需要定义一个算法的代价函数，算法的代价函数是对个样本的损失函数求和然后除以m

损失函数<—>单个训练样本；代价函数<—>参数总代价
训练逻辑回归模型时，需要找到合适的参数w和b使得代价函数J的总代价降到最低

2.4 梯度下降法（Gradient Descent）

梯度下降法可以做什么？
通过最小优化代价函数 $J = (w, b)$ 来训练参数 $w$ 和 $b$
梯度下降法的形象化说明

在实践中， $w$ 可以是更高的维度。为了更好地绘图，上图中定义 $w$ 和 $b$ 都为单一实数， $J (w, b)$ 是水平轴w和b上面的曲面。
必须定义代价函数是一个凸函数，由此可以找到最小值。

梯度下降法怎么走到凸函数最小值点
（1）当代价函数 $J (w)$ 只有一个参数 $w$ 时，此时可用一维曲线代替多维曲线

迭代公式： $\alpha\dfrac{dJ(w)}{dw}$

其中， $: =$ 表示更新参数； $\alpha$ 表示学习率，用来控制步长 $\dfrac{dJ(w)}{dw}$ ，步长 $\dfrac{dJ(w)}{dw}$ 即为函数 $J (w)$ 对 $w$ 的求导。

当初始化 $w_0$ 大于最优值 $w^*$ ：

此时函数 $J (w)$ 于 $w_0$ 处求导结果 $\dfrac{dJ(w)}{dw}$ 为正数（即该处函数曲线斜率为正值），而 $\alpha\dfrac{dJ(w)}{dw}$ ，即 $w$ 值变小，该点向左走，直至逼近最小点。
当初始化 $w_0$ 小于最优值 $w^*$ ：

此时函数 $J (w)$ 于 $w_0$ 处求导结果 $\dfrac{dJ(w)}{dw}$ 为负数（即该处函数曲线斜率为负值，而 $\alpha\dfrac{dJ(w)}{dw}$ ，即 $w$ 值变大，该点向右走，直至逼近最小点。

（2）当代价函数 $J (w, b)$ 有两个参数 $w, b$ 时

符号 $\partial$ 表示求偏导，在函数有两个及以上的参数时将使用该符号表示对某一参数求偏导
符号 $d$ 表示求导数，在函数仅有一个参数时使用该符号求参数导数。

2.5 计算图（Computation Graph）

计算图解释了为什么我们前向和反向传输的方式组织计算过程

在上图的例子中，我们确定了参数 $a, b, c$ 的值后，可得出中间值 $u, v$ 的值。

通过前向计算（蓝色箭头，从左往右），可计算出函数 $J (a, b, c)$ 的值；
通过反向计算（红色箭头，从右到左），可以计算中间值 $u, v$ 和参数 $a, b, c$ 的导数。

这里的计算过程也就是我们求多元函数偏导时所说的**“链式法则”**

代码中，使用变量 $d v a r$ 来表示导数值 $\dfrac{dJ}{dvar}$ 。比如上图中，可以用 $d c$ 表示导数值 $\dfrac{dJ}{dc}$

2.6 逻辑回归中的梯度下降（Logistic Regression Gradient Descent）

实现针对单个训练样本的逻辑回归的梯度下降算法：

使用 $d z = (a - y)$ 计算 $d z$ ，
使用 $dw_1 = x_1*dz$ 计算 $dw_1$ ， $dw_2 = x_2*dz$ 计算， $d b = d z$ 来计算 $d b$
然后使用 $w_1 := w_1-\alpha dw_1$ 更新 $w_1$ ，使用 $w_2 := w_1-\alpha dw_2$ 更新 $w_2$ ，使用 $b-\alpha db$ 更新 $b$ 。

但是，训练逻辑回归模型不仅仅只有一个训练样本，而是有个训练样本的整个训练集。

2.7 m 个样本的梯度下降(Gradient Descent on m Examples)

损失函数的定义：

即要对最后 $J,w_1,w_2,b$ 求平均：

代码流程：

J=0;dw1=0;dw2=0;db=0;	# 初始化都为0
for i = 1 to m
    z(i) = wx(i)+b;
    a(i) = sigmoid(z(i));
    J += -[y(i)log(a(i))+(1-y(i)）log(1-a(i));
    dz(i) = a(i)-y(i);
    dw1 += x1(i)dz(i);
    dw2 += x2(i)dz(i);
    db += dz(i);
J/= m;
dw1/= m;
dw2/= m;
db/= m;
w=w-alpha*dw
b=b-alpha*db

但其中的for循环会使得算法效率非常低，故使用特征向量化来提高算法效率。

2.8 向量化(Vectorization)

向量化和for循环效率对比

如上图所示，向量化版本花费了1.5毫秒，非向量化版本的for循环花费了大约几乎500毫秒，非向量化版本多花费了300倍时间。

当我们在写神经网络程序时，或者在写逻辑(logistic)回归，或者其他神经网络模型时，应该避免写循环(loop)语句。虽然有时写循环(loop)是不可避免的，但是我们可以使用比如numpy的内置函数或者其他办法去计算。当你这样使用后，程序效率总是快于循环(loop)。
例子（numpy中向量的相关操作）

两个向量乘积：r = np.dot(a,b)
对向量的每个元素做指数操作：r = np.exp(a)

2.9 向量化逻辑回归(Vectorizing Logistic Regression)

在同一时间内如何完成一个所有 m个训练样本的前向传播向量化计算：

对第 $i$ 个样本 $x^{(i)}$ ， $x^{(i)}$ 的shape为 $n_x,1)$ 。将m个样本的x横向堆叠一起组成输入矩阵 $X$ ， $X$ 的shape为 $n_x,m)$
我们需要先使用 $z^{(i)} = w^T x^{(i)}+b$ 得出第 $i$ 个样本的 $z^{(i)}$ ，其中 $w^T$ 的shape为 $1,n_x)$ ，故 $z^{(i)}$ 的shape为(1,1)，最后将m个z横向堆叠一起组成 $Z$ ， $Z$ 的shape为 $(1, m)$

代码：

import numpy as np

Z = np.dot(w.T,x)+b	# 此处 python 自动将 b 扩展为(1,m)的向量

最后再由 $a^{(i)} = \sigma(z^{(i)})$ 得出预测值 $a^{(i)}$ ，将m个a横向堆叠一起组成 $A$ ， $A$ 的shape为 $(1, m)$

2.10 向量化 logistic 回归的梯度输出（Vectorizing Logistic Regression’s Gradient）

在【2.6 逻辑回归中的梯度算法】中，我们知道其中的推导公式和计算步骤为：

使用 $d z = (a - y)$ 计算 $d z$ ，
使用 $dw_1 = x_1*dz$ 计算 $dw_1$ ， $dw_2 = x_2*dz$ 计算， $d b = d z$ 来计算 $d b$
然后使用 $w_1 := w_1-\alpha dw_1$ 更新 $w_1$ ，使用 $w_2 := w_1-\alpha dw_2$ 更新 $w_2$ ，使用 $b-\alpha db$ 更新 $b$ 。

那么向量化计算去掉for循环的计算为：

使用 $d z = (a - y)$ 计算 $d z$ ，
使用 $dw_1 = x_1*dz$ 计算 $dw_1$ ， $dw_2 = x_2*dz$ 计算， $d b = d z$ 来计算 $d b$

此处遍历训练集的循环需要去掉：

可发现 $db=\dfrac{1}{m}\displaystyle\sum_{i=1}^{m}dz^{(i)}$ ，使用代码实现：
```
db = (1/m) * np.sum(dZ)
```
而 $\dfrac{1}{m}*X*dz^T$ ，其中， $X$ 是一个行向量，即

使用代码实现：
```
dw = (1/m) * np.dot(X,dz.T)
```
然后使用 $w_1 := w_1-\alpha dw_1$ 更新 $w_1$ ，使用 $w_2 := w_1-\alpha dw_2$ 更新 $w_2$ ，使用 $b-\alpha db$ 更新 $b$ 。

此处对 $w, b$ 的更新仍需要for循环

2.11 Python 中的广播（Broadcasting in Python）

广播原理：
如果两个数组的后缘维度的轴长度相符或其中一方的轴长度为1，则认为它们是广播兼容的。广播会在缺失维度和轴长度为1的维度上进行。

如例：当 $m * n$ 的矩阵和 $1 * n$ 的矩阵相加。在执行加法操作时，其实是将 $1 * n$ 的矩阵复制成为 $m * n$ 的矩阵，然后两者做逐元素加法得到结果

2. Tips in coding：

但是当我们写代码时不确定矩阵维度的时候，通常会对矩阵进行重塑来确保得到我们想要的列向量或行向量。重塑操作reshape是一个常量时间的操作，时间复杂度是，它的调用代价极低。
尽量不将一维数组当作向量来运算

每次创建一个数组时，都让它成为一个列向量(n,1)或者行向量(1,n)，那么其后的向量运算行为更容易被理解，也不会出现向量运算上的奇怪bug。
当不完全确定一个向量的维度(dimension)时，扔进一个断言语句(assertion statement)。

这些断言语句实际上是要去执行的，并且它们也会有助于为你的代码提供信息。所以不论你要做什么，不要犹豫直接插入断言语句。

2.18 （选修）logistic 损失函数的解释（Explanation of logistic regression cost function）

暂时留白

其他：

注意np.dot和vector1*vector2的区别

np.dot(vector1*vector2)：即矩阵乘法，若vector1的shape为(x1*y1)，vector2的shape为(x2,y2)，则需要y1=x2才能进行运算（可广播的情况除外），否则报错。结果矩阵的shape为(x1,y2)
vector1*vector2：两个向量中每个元素对应相乘，需要两个向量的shape一模一样，若vector1的shape为(x1*y1)，vector2的shape为(x2,y2)，则需要x1=x2,y1=y2才能进行运算（可广播的情况除外）否则报错。最后得出的结果向量的shape与vector1和vector2的一样。

a = np.random.randn(4,3)
a
array([[ 0.76779236,  0.18444005,  1.21712122],
       [ 0.38977012, -0.56798278,  0.39299285],
       [ 0.04380387,  0.25158324,  0.225215  ],
       [-0.61341907,  0.74052763, -0.59685251]])
b = np.random.randn(3,2)
b
array([[-1.00104395,  0.26388446],
       [-0.26633242,  0.44364925],
       [ 0.40333879, -0.55962817]])
a*b
Traceback (most recent call last):
  File "", line 1, in <module>
ValueError: operands could not be broadcast together with shapes (4,3) (3,2) 


np.dot(a,b)	# 矩阵乘法
array([[-0.32680406, -0.39670016],
       [-0.08039554, -0.36906072],
       [-0.02001642, -0.00286278],
       [ 0.17609917,  0.50067824]])
c = np.random.randn(4,3)
a*c	# 按对应元素相乘
array([[-0.91545714,  0.15368263,  0.08580373],
       [-0.36117068,  0.0390558 ,  0.37478451],
       [-0.05269544, -0.09970869,  0.35626428],
       [-1.26493901,  0.87666868, -0.65915348]])
d = np.random.randn(4,1)
a*d	# 广播，d横向复制三次后shape为(4,3)
array([[-0.9078016 , -0.21807324, -1.43906692],
       [-0.07042533,  0.10262555, -0.07100762],
       [ 0.07332278,  0.42112225,  0.37698475],
       [ 0.35215146, -0.4251219 ,  0.34264093]])

softmax：You can think of softmax as a normalizing function used when your algorithm needs to classify two or more classes. You will learn more about softmax in the second course of this specialization.

3.1 神经网络概述（Neural Network Overview）

前向传播
layer1：输入值为特征向量x，参数w[1]和b[1]；结果为a[1]

layer2：输入值为a[1]和新参数w[2],b[2]；结果为最终输出a[2]，并得出损失函数L(a[2],y)

反向传播：计算倒数，更新参数

3.2 神经网络的表示（Neural Network Representation）

输入层：输入特征的堆叠。一般不将输入层算为神经网络的一层（或当作第0层）
隐藏层：在训练集中，这些中间结点的准确值我们是不知道到的，也就是说你看不见它们在训练集中应具有的值。你能看见输入的值，你也能看见输出的值，但是隐藏层中的东西，在训练集中你是无法看到的。
输出层：只有一个结点的层，负责产生预测值

3.3 计算一个神经网络的输出（Computing a Neural Network’s output）

神经网络的符号惯例： $x$ 表示输入特征， $a$ 表示每个神经元的输出( $a^{[0]}$ 则表示输入层)， $W$ 表示特征的权重，上标表示神经网络的层数（隐藏层为1），下标表示该层的第几个神经元。
神经网络的计算

神经网络的计算单元：

该神经元中的计算与逻辑回归一样，分为两步：
(1) 计算 $z_1^{[1]}$
(2) 通过激活函数计算 $a_1^{[1]}$
向量化计算

则第一层隐含层的四个神经元计算过程为：

将上面4个式子向量化：

总结

如上图左半部分所示为神经网络，把网络左边部分盖住先忽略，那么最后的输出单元就相当于一个逻辑回归的计算单元。注意 $a^{[1]}$ 的shape为(4,1), $a^{[2]} = \hat y（最后输出）$ 的shape为(1,1)
当你有一个包含一层隐藏层的神经网络，你需要去实现以计算得到输出的是右边的四个等式，并且可以看成是一个向量化的计算过程，计算出隐藏层的四个逻辑回归单元和整个隐藏层的输出结果，如果编程实现需要的也只是这四行代码。

3.4 多样本向量化（Vectorizing across multiple examples）

垂直方向：从上到下对应神经网络同一层的不同神经元。比如，逻辑回归的输出 $A^{[1]}$ 的第一列展开为 $a^{[1](1)} = [a^{[1](1)}_1,a^{[1](1)}_2,a^{[1](1)}_3,a^{[1](1)}_4]$
水平方向：从左到右对应第一个训练样本的值一直到第m个训练样本的值。比如，逻辑回归的输出 $A^{[1]} = [a^{[1](1)},a^{[1](2)},...,a^{[1](m)}]$

3.5 激活函数（Activation functions）

四种激活函数

sigmoid 函数：

$\sigma(z) = \dfrac{1}{1+e^{-z}}$ ，值域为(0,1)。

二分类问题中，因为预测值应为0或1，故需让输出值 $\hat y$ 数值介于0和1之间，此时需使用sigmoid函数。处理其他问题时，基本不用该函数。
tanh函数：

$\tan h(z) = \dfrac{e^z-e^{-z}}{e^z+e^{-z}}$ ，值域为(-1,1)。

事实上，tanh函数是sigmoid的向下平移和伸缩后的结果。在训练一个算法模型时，如果使用tanh函数代替sigmoid函数中心化数据，因为它的值域在-1和+1，这使得数据的平均值更接近0而不是0.5，故其效果总是优于sigmoid函数。

sigmoid函数和tanh函数两者共同的缺点：在 $z$ 特别大或者特别小的情况下，导数的梯度或者函数的斜率会变得特别小，最后就会接近于0，导致降低梯度下降的速度很慢

修正线性单元的函数（ReLu）：

$a = m a x (0, z)$

在该函数中，只要 $z$ 是正值，导数恒等于1，当 $z$ 是负值时，导数恒等于0。 $z$ 在ReLu的梯度一半都是0，但是，有足够的隐藏层使得z值大于0，所以对大多数的训练数据来说学习过程仍然可以很快。

一些选择激活函数的经验法则：如果输出是0、1值（二分类问题），则输出层选择sigmoid函数，然后其它的所有单元都选择Relu函数。

Leaky Relu：
$\begin{dcases} z &\text{if } z \geq 0 \\ \alpha z &\text{if } z \le 0 \end{dcases}, \alpha通常取值为0.01$

总结

在 $z$ 的区间变动很大的情况下，激活函数的导数或斜率都远大于0，在程序实现就是一个if-else语句，而sigmoid函数需要进行浮点四则运算，在实践中，使用ReLu激活函数神经网络通常会比使用sigmoid或者tanh激活函数学习的更快。
sigmoid和tanh函数的导数在正负饱和区的梯度都会接近于0，这会造成梯度弥散。而Relu和Leaky ReLu函数大于0的部分都为常数，不会产生梯度弥散现象。(同时应该注意到的是，Relu进入负半区的时候，梯度为0，神经元此时不会训练，产生所谓的稀疏性，而Leaky ReLu不会有这问题)
一般来说，如果不确定用哪个激活函数，就使用ReLu或者Leaky ReLu，但具体问题具体分析，这也不是绝对的。

3.6 为什么需要非线性激活函数？（why need a nonlinear activation function?）

如果你使用线性激活函数或者没有使用一个激活函数，那么无论你的神经网络有多少层一直在做的只是计算线性函数，所以不如直接去掉全部隐藏层。即非线性激活函数为神经网络带来非线性，否则堆多少层都与单个线性层无异。

线性两层： $f = W_2W_1x 可以等价为 f = W_3x(其中W_3=W_1W_2)$

总而言之，不能在隐藏层用线性激活函数，可以用ReLU或者tanh或者leaky ReLU或者其他的非线性激活函数，唯一可以用线性激活函数的通常就是输出层。

3.7 神经网络的梯度下降（Gradient descent for neural networks）

图解
公式：

3.8（选修）直观理解反向传播（Backpropagation intuition）

3.9 随机初始化（Random+Initialization）

逻辑回归：

权重可以初始化为0

神经网络：

对称问题：若将权重都初始化为0，则神经网络里所有的隐含单元计算的都是同一个函数，所有的隐含单元就会对输出单元有同样的影响，即隐含单元是对称的。不管训练网络多久时间隐含单元仍然计算的是相同的函数。
打破对称：随机初始化权重，使用np.random.randn(n,m)*0.01；偏移量b可以初始化为0，即np.zeros(n,1)
- 为什么权重初始化乘以的常数是0.01，而不是10或100：如果初始化常数太大，权重w就会很大或很小，那么激活值z就会很大或者很小，即停在激活函数（sigmoid或tanh）的平坦处，这些地方的梯度很小，也就意味着梯度下降会很慢，因此学习就会很慢。

测验：

The tanh activation is not always better than sigmoid activation function for hidden units because the mean of its output is closer to zero, and so it centers the data, making learning complex for the next layer.

4.1 深层神经网络（Deep L-layer neural network）

深度学习符号

4.2 前向传播和反向传播（Forward and backward propagation）

4.3 深层网络中的前向传播（Forward propagation in a Deep Network）

向量化实现：

4.4 核对矩阵的维数（Getting your matrix dimensions right）

向量化前：

$w^{[l]}.shape = dw^{[l]}.shape:(n^{[l]},n^{[l-1]})，即(该层维数，前一层维数)\\ b^{[l]}.shape = db^{[l]}.shape:(n^{[l]},1)，即(该层维数,1)\\ z^{[l]} = w^{[l]}a^{[l-1]}+b^{[l]},z^{[l]}.shape = dz^{[l]}.shape:(n^{[l]},1)\\ a^{[l]} = g^{[l]}(z^{[l]}),a^{[l]}.shape = da^{[l]}.shape:(n^{[l]},1)(输入x即为a^{[0]})$
向量化后： $w$ 和 $b$ 的维度不变， $z, a$ 的维度变化
$m为训练集大小:\\ Z^{[l]}.shape = dZ^{[l]}.shape : (n^{[l]},m),\\ A^{[l]}.shape = dA^{[l]}.shape : (n^{[l]},m),\\ A^{[0]} = X.shape: (n^{[l]},m)$

4.5 为什么使用深层表示？（Why deep representations?）

Small：隐藏单元的数量相对较少
Deep：隐藏层数目比较多

深层的网络隐藏单元数量相对较少，隐藏层数目较多，如果浅层的网络想要达到同样的计算结果则需要指数级增长的单元数量才能达到。

4.6 搭建神经网络块（Building blocks of deep neural networks）

第二门课改善深层神经网络：超参数调试、正则化以及优化(Improving Deep Neural Networks:Hyperparameter tuning, Regularization and Optimization)

第一周：深度学习的实践层面(Practical aspects of Deep Learning)

1.1 训练，验证，测试集（Train / Dev / Test sets）

在机器学习中，我们通常将样本分成训练集，验证集和测试集三部分，数据集规模相对较小，适用传统的划分比例（三七分或者60%+20%+20%）；数据集规模较大的（百万级），验证集和测试集要小于数据总量的20%或10%。
确保验证集和测试集的数据来自同一分布
就算没有测试集也不要紧，测试集的目的是对最终所选定的神经网络系统做出无偏估计，如果不需要无偏估计，也可以不设置测试集。如果只有验证集，没有测试集，我们要做的就是，在训练集上训练，尝试不同的模型框架，在验证集上评估这些模型，然后迭代并选出适用的模型。因为验证集中已经涵盖测试集数据，其不再提供无偏性能评估。

1.2 偏差，方差（Bias /Variance）

高偏差（high bias）：不能很好地拟合该数据，称为“欠拟合”（underfitting）。
适度拟合（just right）：复杂程度适中，数据拟合适度的分类器，这个数据拟合看起来更加合理，介于过度拟合和欠拟合中间的一类。
高方差（high variance）：数据过度拟合（overfitting）。采用曲线函数或二次元函数会产生高方差，因为它曲线灵活性太高以致拟合了这两个错误样本和中间这些活跃数据。

1.3 机器学习基础（Basic Recipe for Machine Learning）

怎么找到一个低偏差，低方差的框架？注意以下两点：

高偏差和高方差是两种不同的情况，所对应的解决方法也可能完全不同。通常可使用训练验证集来诊断是哪个问题。所以大家要清楚存在的问题是偏差还是方差，还是两者都有问题，明确这一点有助于我们选择出最有效的方法。
训练网络，选择网络或者准备更多数据。深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据。

1.4 正则化（Regularization）

$L_2$ 正则化（较 $L_1$ 正则化更常见）：
.

为什么只正则化w，而不正则化b？
- 可以正则化b(添加 $\dfrac{\lambda}{2m}b^2$ )，但没有太大影响，可以忽略不计。因为w通常是一个高位参数矢量，而b只是单个数字
λ是正则化参数，通常使用验证集或交叉验证集来配置这个参数，尝试各种各样的数据，要考虑训练集之间的权衡，把参数设置为较小值，这样可以避免过拟合，所以λ是另外一个需要调整的超级参数。另外，因为lambda在python中是一个关键字，所以编码时通常写作lambd，以避免冲突。

$L_1$ 正则化：

如果用的是 $L_1$ 正则化，最终w会是稀疏的，也就是说w向量中有很多0。但这并不能使得模型变得稀疏，并没有降低太多存储内存。

利用该范数实现梯度下降
backprop：J对W的偏导数 $\dfrac{\partial J}{\partial W^{[l]}}$
在更新参数W时带入：

具体展开可得：

可以看到，相较于之前的 $W^{[l]}:=W^{[l]}-\alpha dW^{[l]}$ ，W乘以小于1等于的数再减去学习率那一部分，所以 $L_2$ 正则化有时被称为 “权重衰减”。

1.5 为什么正则化有利于预防过拟合呢？（Why regularization reduces overfitting?）

从公式分析：
如果 $\lambda$ 设置得足够大，权重矩阵 $W$ 被设置为接近于0的值，直观理解就是把多隐藏单元的权重设为0，可近似为消除了这些隐藏单元的影响。此时被大大简化了的神经网络会变成一个很小的网络，小到如同一个逻辑回归单元（其实不然，实际上是该神经网络的所有隐藏单元依然存在，但是它们的影响变得更小了），可是深度却很大，它会使这个网络从过拟合的状态更接近左图的高偏差状态(high bias)。也就是说， $\lambda$ 的增大能带来方差减小的效果。
从激活函数角度分析：

λ变大 -> W变小 -> |Z|变小
如果|Z|始终在这个范围内，激活函数最后可近似为线性函数，整个神经网络会计算离线性函数近的值，这个线性函数非常简单，并不是一个极复杂的高度非线性函数，不会发生过拟合。
使用正则化函数时，损失函数应使用：

如果你用的是原损失函数J(也就是第一个项)，你可能看不到单调递减现象，为了调试梯度下降，请务必使用新定义的损失函数J(两项和)，它包含第二个正则化项，否则函数可能不会在所有调幅范围内都单调递减。

1.6 dropout 正则化（Dropout Regularization）

1. 工作原理：dropout（随机失活）会遍历网络的每一层，并设置消除神经网络中节点的概率，之后我们会消除一些节点，然后删除掉从该节点进出的连线，最后得到一个节点更少，规模更小的网络，然后用backprop方法进行训练。

每层每个节点以某一概率(这里以50%为例)被选中为需要删除的节点(如下图中标上X的节点)
被选中为删除的节点，不仅要删除节点，与之相连的线段也要删除
使用反向传播算法对精简后的神经网络进行权重更新计算
恢复被删节点，然后循环往复上面的步骤，直到得到我们想要的结果

2. inverted dropout（反向随机失活）-- 较为常用：

keep-prob：保留某个隐藏单元的概率，意味着消除任意一个隐藏单元的概率是1-(keep-prob)。作用就是生成随机矩阵
a3表示三层网络各节点的值, a3=[a[1],a[2],a[3]].
d3表示一个三层的dropout向量，其维度与a3相同，用python实现如下：

keepProb = 0.8
# d3元素值为True或False
d3 = np.random.rand(a3.shape[0], a3.shape[1]) < keepProb
# 在相乘运算时，python会自动将True转化为1，False转化为0
# 所以可以选出概率大于keepProb的节点继续留下来进行计算
a3 = np.multiply(a3, d3)
a3 /= keepProb

第四行代码：我们假设网络的隐藏层，即a[2]有50个units，那么按照keepProb=0.8可以知道需要删除10个units，也就是说a[2]会减少20%，那么我们在计算下一层，即 $z [3] = w [3] a [2] + b [3]$ 时就会使得z[3]的期望值(均值)发生变化，为了不影响z[3]的期望值，我们需要用 $w [3] a [2] \div 0.8$ 来修正或弥补我们所需的20%。

3. 补充说明

在测试阶段，我们不需要再使用dropout，而是像之前一样直接将各层的权重，偏差带入计算出预测值即可
keepProb也可以是跟着各层节点数变化的，以下面的神经网络为例

可知第二层的系数最多，所以最有可能造成过拟合，所以该层的keepProb应该取得比较小，如0.5而其他的层则可以取为0.8 ,对于完全不会产生过拟合的就可以取1.

1.7 理解 dropout（Understanding Dropout）

为什么dropout可以起到正则化的作用呢：

理解一：不要依赖于任何一个特征，因为该单元的输入可能随时被清除，因此该单元通过这种方式传播下去，并为单元的四个输入增加一点权重，通过传播所有权重，dropout将产生收缩权重的平方范数的效果，和 $L_2$ 正则化相似，但dropout更适用于不同的输入范围。与 $L_2$ 不同权重的衰减是不同的，它取决于倍增的激活函数的大小。
理解二：因为每个节点都有可能被消除，所以一般都不会给任何一个输入加给太多的权重。例如状态perfect的节点被随机消除后，其他节点就要更大的调节，慢慢优化整体的效果。

1.8 其他正则化方法（Other regularization methods）

数据扩增，即对原有数据集进行如下操作生成新一批数据集：

水平翻转
随意裁剪图片
添加数字
随意旋转
扭曲数字

early stopping

训练过程中在中间点就停下来。

缺点：early stopping的主要缺点就是你不能独立地处理这两个问题，因为提早停止梯度下降，也就是停止了优化代价函数，因为现在你不再尝试降低代价函数，所以代价函数的值可能不够小，同时你又希望不出现过拟合，你没有采取不同的方式来解决这两个问题
优点：只运行一次梯度下降，你可以找出 $w$ 的较小值，中间值和较大值，而无需尝试 $L_2$ 正则化超级参数的很多值。

1.9 归一化输入（Normalizing inputs）

应用情景与实施方法

应用情景：数据集有多维特征，而各个特征取值范围不同时，需要使用归一化加快算法运行。
实施步骤

如下例，假设数据集有两个特征x1,x2。其中 $x_1\in (0,5),x_2 \in (1,2)$
零均值化： $\mu$ ，即移动数据集。其中 $\mu = \dfrac{1}{m}\displaystyle\sum_{i=1}^{m}x^{(i)}$ 为一个向量。
归一化方差： $x_1$ 方差比 $x_2$ 的要大得多， $x:=x/\sigma^2$ ，其中 $\sigma = \dfrac{1}{m}\displaystyle\sum_{i=1}^{m}(x^{(i)})^2$

注意：用相同的 $\mu,\sigma$ 来归一化测试集和训练集

为什么归一化输入特征：
以二维特征为例：

不使用归一化：代价函数将会变得非常细长狭窄，因为输入特征值在不同范围，参数 $w_1,w_2$ 的范围或比率将会非常不同，那么在使用梯度下降法寻找最小值的时候，需要使用很小的步长，算法要反复执行才能找到最小值。
使用归一化：代价函数是一个匀称的球形轮廓，不论从那个位置开始，梯度下降法中可以使用较大步长，能更快地找到最小值。

1.10 梯度消失/梯度爆炸（Vanishing / Exploding gradients）

假设每个权重矩阵
$W^{[l]} = \begin{bmatrix} 1.5 & 0\\ 0 & 1.5 \end{bmatrix}$
最后计算结果就是 $\hat y = 1.5^{(L-1)}x$ ，对于一个深度网络来说， $L$ 值越大，最后 $\hat y$ 呈指数爆炸式增长，增长比率为 $1.5^L$
相反，假设每个权重矩阵
$W^{[l]} = \begin{bmatrix} 0.5 & 0\\ 0 & 0.5 \end{bmatrix}$
最后计算结果就是 $\hat y = 0.5^{(L-1)}x$ ，对于一个深度网络来说， $L$ 值越大，最后 $\hat y$ 以指数级递减，递减比率为 $0.5^L$ ，此时梯度下降算法的步长会非常非常小，梯度下降算法将花费很长时间来学习。

1.11 神经网络的权重初始化（Weight Initialization for Deep NetworksVanishing / Exploding gradients）

为了预防z值过大或过小，n越大则需要w越小

如果用的是Sigmoid激活函数，设置 $w_i = \dfrac{1}{n}$ ，即
如果用的是Relu激活函数，设置 $w_i = \dfrac{2}{n}$
如果用的是tanh激活函数，设置 $w_i = \sqrt\dfrac{1}{n^{[l-1]}}$

1.12 梯度的数值逼近（Numerical approximation of gradients）

预估梯度时，通过这个绿色大三角形同时考虑了这两个小三角形，所以我们得到的不是一个单边公差而是一个双边公差。
使用双边误差的方法更逼近导数，而且在梯度检验和反向传播中使用该方法时，它与运行两次单边公差的速度一样。所以在执行梯度检验时，我们使用双边误差，即 $\dfrac{f(\theta+\epsilon)-f(\theta-\epsilon)}{2\epsilon}$ ，而不使用单边公差，因为它不够准确。

1.13 梯度检验（Gradient checking/Grad check）

步骤：

将参数 $W^{[l]},b^{[l]},l \in (1,L)$ 转换为向量 $\theta$ ，那么代价函数就是关于 $\theta$ 的一个函数 $J(\theta)$
将参数 $dW^{[l]},db^{[l]},l \in (1,L)$ 转换为向量 $d\theta$ ，因为 $dW^{[l]}.shape = W^{[l]}.shape,db^{[l]}.shape = b^{[l]}.shape$ ，所以 $d\theta.shape = \theta.shape$
怎么检验神经网络的梯度实施是否正确？该问题等价于“ $d\theta$ 和代价函数 $J$ 的梯度或坡度有什么关系”
使用双边误差计算 $d\theta_{approx}[i]$ ：

理论来说， $d\theta_{approx}[i] \approx d\theta[i] = \dfrac{\partial J}{\partial \theta_i}$
验证这些向量是否彼此接近：

注意这里 $||d\theta_{approx}-d\theta||_2$ 没有平方，它是误差平方之和，然后求平方根，得到欧式距离，然后用向量长度归一化，使用向量长度的欧几里得范数。分母只是用于预防这些向量太小或太大，分母使得这个方程式变成比率。
取 $\epsilon = 10^{-7}$ 来计算上一步的式子。
- 若结果 $\le 10^{-7}$ 意味着梯度计算实施正确。
- 若结果在 $10^{-5}$ 范围内，就要小心了，也许这个值没问题，但Andrew Ng会再次检查向量 $\theta$ 的所有项，确保没有一项误差过大，可能这里有bug。
- 若结果在 $\ge10^{-3}$ 范围内，就要担心是否存在bug。这时应该仔细检查 $\theta$ 所有项，看是否有一个具体的 $i$ 值，使得 $d\theta_{approx}[i] 与 d\theta[i]$ 大不相同，并用它来追踪一些求导计算是否正确，经过一些调试，最终结果会是这种非常小的值（ $10^{-7}$ ），那么，你的实施可能是正确的。

1.14 梯度检验应用的注意事项（Gradient Checking Implementation Notes）

不要在训练中使用梯度检验，它只用于调试
如果算法的梯度检验失败，要检查所有项，检查每一项，并试着找出bug
在实施梯度检验时，如果使用正则化，请注意不要遗漏正则项
梯度检验不能与dropout同时使用，因为每次迭代过程中，dropout会随机消除隐藏层单元的不同子集，难以计算dropout在梯度下降上的代价函数。因此dropout可作为优化代价函数的一种方法，但是代价函数J被定义为对所有指数极大的节点子集求和。而在任何迭代过程中，这些节点都有可能被消除，所以很难计算代价函数。
当w和b接近0时，梯度下降的实施是正确的，在随机初始化过程中……，但是在运行梯度下降时，w和b变得更大。可能只有在w和b接近0时，backprop的实施才是正确的。但是当W和b变大时，它会变得越来越不准确。你需要做一件事，我(Andrew)不经常这么做，就是在随机初始化过程中，运行梯度检验，然后再训练网络，w和b会有一段时间远离0，如果随机初始化值比较小，反复训练网络之后，再重新运行梯度检验。

第二周：优化算法 (Optimization algorithms)

2.1 Mini-batch 梯度下降（Mini-batch gradient descent）

三种梯度下降算法

Batch Gradient Descent：同时处理整个训练集
Mini-Batch Gradient Descent：将训练集分批处理
Stochastic Gradient Descent：每次只处理一个数据集

Mini-Batch Gradient Descent

mini-batch（每批数据集大小）最好是2的次方
确保mini-batch大小与你使用的CPU/GPU大小相符

你可能感兴趣的:(深度学习,深度学习)

图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
目前市场上主流的机器视觉的框架有哪些？他们的特点及优劣 yuanpan 机器学习计算机视觉
目前市场上主流的机器视觉框架和工具可以分为商业软件、开源工具和深度学习框架三大类。以下是它们的总结及特点对比：1.商业软件(1)Halcon(MVTec)特点：专注于工业机器视觉，提供高精度、高效率的算法。支持复杂的工业应用，如缺陷检测、3D视觉、深度学习等。提供图形化开发工具HDevelop和多种编程接口。优势：算法优化好，适合实时工业应用。硬件兼容性强，支持多种工业相机和设备。劣势：商业软件，
1.1PaddleTS_环境配置：一个易用的深度时序建模的Python库 pythonQA python paddlepaddle
PaddleTS是一个易用的深度时序建模的Python库，它基于飞桨深度学习框架PaddlePaddle，专注业界领先的深度模型，旨在为领域专家和行业用户提供可扩展的时序建模能力和便捷易用的用户体验。PaddleTS的主要特性包括：设计统一数据结构，实现对多样化时序数据的表达，支持单目标与多目标变量，支持多类型协变量封装基础模型功能，如数据加载、回调设置、损失函数、训练过程控制等公共方法，帮助开发
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
代码逐行解析 | 教你在C++中使用深度学习提取特征点 3Ｄ视觉工坊 3D视觉从入门到精通 c++深度学习开发语言人工智能
点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达扫描下方二维码，加入3D视觉技术星球，星球内汇集了众多3D视觉实战问题，以及各个模块的学习资料：最新顶会论文、书籍、源码、视频（近20门系统课程[星球成员可免费学习]）等。想要入门3D视觉、做项目、搞科研，就加入我们吧。作者：泡椒味的口香糖|来源：3DCV添加微信：dddvision
深度学习-130-RAG技术之基于Anything LLM搭建本地私人知识库的应用策略问题总结(一) 皮皮冰燃深度学习深度学习人工智能 RAG
文章目录1AnythingLLM的本地知识库1.1本地知识库应用场景1.2效果对比及思考1.3本地体现在哪些方面1.3.1知识在本地1.3.2分割后的文档在本地1.3.3大模型部署运行在本地2问错问题带来的问题2.1常见的问题2.2原因分析3为什么LLM不使用我的文件？3.1LLM不是万能的【omnipotent】3.2LLM不会自省【introspect】3.3AnythingLLM是如何工作的
3DMAX点云算法：实现毫米级BIM模型偏差检测（附完整代码）夏末之花人工智能
摘要本文基于激光雷达点云数据与BIM模型的高精度对齐技术，提出一种融合动态体素化与多模态特征匹配的偏差检测方法。通过点云预处理、语义分割、模型配准及差异分析，最终实现建筑构件毫米级偏差的可视化检测。文中提供关键代码实现，涵盖点云处理、特征提取与深度学习模型搭建。一、核心算法流程点云预处理与特征增强去噪与下采样：采用统计滤波与体素网格下采样，去除离群点并降低数据量。语义分割：基于PointNet++
数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
Docker打包深度学习项目 FLY_LTL docker 深度学习容器
文章目录Docker打包深度学习项目1.Docker和NVIDIAContainerToolkit的安装1.Docker2.NVIDIAContainerToolkit3.添加国内镜像源2.使用Dockerfile打包并保存镜像1.Dockerfile2.通过Dockerfile生成镜像3.保存镜像和加载4.运行Docker并测试参考Docker打包深度学习项目本文来源于个人实践总结，供各位同学参
深度革命：ResNet 如何用 “残差连接“ 颠覆深度学习安意诚Matrix 机器学习笔记深度学习人工智能
一文快速了解ResNet创新点在深度学习的历史长河中，2015年或许是最具突破性的一年。这一年，微软亚洲研究院的何恺明团队带着名为ResNet（残差网络）的模型横空出世，在ImageNet图像分类竞赛中以3.57%的错误率夺冠，将人类视觉的识别误差（约5.1%）远远甩在身后。更令人震撼的是，ResNet将神经网络的深度推至152层，彻底打破了"深层网络无法训练"的魔咒。这场革命的核心，正是一个简单
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算【超级详细版】 AI筑梦师计算机视觉算法深度学习人工智能机器学习计算机视觉 python
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算1.引言1.1研究背景在计算机视觉、模式识别、医学影像分析和自动驾驶等领域，形状匹配是核心任务之一。然而，现实世界的形状往往存在可变性（Variability），主要体现在以下几个方面：形变（Deformation）：物体可能由于柔性材料、外力作用或生物运动发生非刚性形变。尺度变化（ScaleVariation）：目标形状在不同场景下可能大
Python 模拟鼠标轨迹算法 a485240 鼠标轨迹计算机外设
一.鼠标轨迹模拟简介传统的鼠标轨迹模拟依赖于简单的数学模型，如直线或曲线路径。然而，这种方法难以捕捉到人类操作的复杂性和多样性。AI大模型的出现，使得能够通过深度学习技术，学习并模拟更自然的鼠标移动行为。二.鼠标轨迹算法实现AI大模型通过学习大量的人类鼠标操作数据，能够识别和模拟出自然且具有个体差异的鼠标轨迹。以下是实现这一技术的关键步骤：数据收集：收集不同玩家在各种游戏环境中的鼠标操作数据，包括
什么是机器视觉3D引导大模型视觉人机器视觉机器视觉3D 3d 数码相机机器人人工智能大数据
机器视觉3D引导大模型是结合深度学习、多模态数据融合与三维感知技术的智能化解决方案，旨在提升工业自动化、医疗、物流等领域的操作精度与效率。以下从技术架构、行业应用、挑战与未来趋势等方面综合分析：一、技术架构与核心原理多模态数据融合与深度学习3D视觉引导大模型通常整合RGB图像、点云数据、深度信息等多模态输入，通过深度学习算法（如卷积神经网络、Transformer）进行特征提取与融合。例如，油田机
深度学习在医学影像分析中的应用：DeepSeek系统的实践与探索 Evaporator Core #深度学习 #DeepSeek快速入门 DeepSeek进阶开发与应用深度学习人工智能
随着人工智能技术的迅猛发展，深度学习在医学领域的应用逐渐成为研究热点。医学影像分析作为医疗诊断的重要组成部分，正受益于深度学习技术的突破。DeepSeek系统是一种基于深度学习的医学影像分析平台，旨在通过高效、精准的算法辅助医生进行疾病诊断和治疗决策。本文将深入探讨DeepSeek系统的技术原理、实现方法及其在医学影像分析中的实际应用，并结合代码示例展示其核心功能。1.DeepSeek系统的技术架
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割 985小水博一枚呀论文解读深度学习 transformer 人工智能网络 cnn
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割文章目录【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割2.Re
PyTorch 深度学习博客 Zoro｜ PyTorch Deep Learning 人工智能
PyTorch深度学习博客欢迎来到我的PyTorch深度学习博客！在这里，我将分享使用PyTorch学习和实践深度学习项目的点滴经验。本博客适用于初学者和有一定基础的开发者，旨在帮助大家快速搭建环境、掌握核心概念，并通过实例了解实际应用。环境配置为了确保项目的稳定性和兼容性，我选择了Python3.9环境，并在conda创建的虚拟环境中运行最新且稳定的PyTorch版本2.6.0。1.创建Pyth
深度学习五大模型：CNN、Transformer、BERT、RNN、GAN详细解析深度学习
卷积神经网络（ConvolutionalNeuralNetwork,CNN）原理：CNN主要由卷积层、池化层和全连接层组成。卷积层通过卷积核在输入数据上进行卷积运算，提取局部特征；池化层则对特征图进行下采样，降低特征维度，同时保留主要特征；全连接层将特征图展开为一维向量，并进行分类或回归计算。CNN利用卷积操作实现局部连接和权重共享，能够自动学习数据中的空间特征。适用场景：广泛应用于图像处理相关的
算力技术创新驱动多场景应用演进智能计算研究中心其他
内容概要算力技术创新正成为数字经济时代的基础性驱动力，从异构计算架构的多元融合到量子计算的颠覆性突破，技术演进不断突破物理与算法的双重边界。在工业互联网场景中，边缘计算通过分布式节点实现毫秒级响应，支撑智能制造产线的实时控制；智能安防系统依托深度学习模型与流计算技术，完成海量视频数据的动态解析；而科学计算领域通过分布式计算与模型压缩技术，将基因测序、气候模拟等复杂任务的效率提升至新量级。值得注意的
AI模型技术前沿与跨场景应用实践智能计算研究中心其他
内容概要当前AI模型技术正呈现多维度突破与跨领域融合的特征。从技术演进角度看，可解释性模型与量子计算框架的协同发展正在突破传统黑箱限制，而联邦学习、自适应优化等技术则为复杂场景建模提供了新的方法论支撑。应用层面，TensorFlow与PyTorch框架在医疗影像诊断、金融时序预测等领域的实战案例，验证了深度学习模型在垂直行业的泛化能力。值得关注的是，工具链整合已成为技术落地的关键环节，MXNet与
融合AMD与NVIDIA GPU集群的MLOps：异构计算环境中的分布式训练架构实践
在深度学习的背景下，NVIDIA的CUDA与AMD的ROCm框架缺乏有效的互操作性，导致基础设施资源利用率显著降低。随着模型规模不断扩大而预算约束日益严格，2-3年更换一次GPU的传统方式已不具可持续性。但是Pytorch的最近几次的更新可以有效利用异构计算集群，实现对所有可用GPU资源的充分调度，不受制于供应商限制。本文将深入探讨如何混合AMD/NVIDIAGPU集群以支持PyTorch分布式训
深度学习框架PyTorch——从入门到精通（4）数据转换 Fansv587 Torch框架学习深度学习 pytorch 人工智能 python 经验分享
转换（Transforms）很多时候，数据并不总是以训练机器学习算法所需的最终处理形式出现。所以我们需要使用变换对数据进行一些处理，使其适合训练。所有TorchVision数据集都有两个参数——transform来修改特征，target_transform来修改标签——接受包含转换逻辑的可调用项。torchvision.transform模块提供了几个开箱即用的转换。FashionMNIST数据集
深度学习框架PyTorch——从入门到精通（5）构建神经网络 Fansv587 Torch框架学习深度学习 pytorch 神经网络经验分享
构建神经网络获取训练设备定义类模型层nn.Flattennn.Linearnn.ReLUnn.Sequentialnn.Softmax模型参数补充说明argmax神经网络是由一些层或者模块组成的，这些层和模块会对数据进行各种操作。在PyTorch里，torch.nn这个命名空间提供了你搭建自己神经网络所需要的所有基础组件。PyTorch里的每一个模块都是nn.Module类的子类。一个神经网络本身
深度学习框架PyTorch——从入门到精通（5）自动微分 Fansv587 深度学习 pytorch 人工智能
使用torch.autograd自动微分张量、函数和计算图计算梯度禁用梯度追踪关于计算图的更多信息张量梯度和雅可比乘积在训练神经网络时，最常用的算法是反向传播。在该算法中，参数（模型权重）根据损失函数的梯度相对于给定参数进行调整。为了计算这些梯度，PyTorch有一个内置的微分引擎，名为torch.autograd。它支持为任何计算图自动计算梯度。考虑最简单的一层神经网络，具有输入x、参数w和b以
消融实验（Ablation Study） xwhking 深度学习机器学习深度学习消融实验
消融实验（AblationStudy）定义：消融实验是一种科学研究方法，通过逐步移除模型、算法或系统中的某个组件（如模块、层、特征、数据等），观察其对整体性能的影响，从而验证该组件的必要性和有效性。其名称来源于医学领域的“消融术”（切除部分组织以研究功能），在计算机视觉、机器学习和深度学习中被广泛用于分析模型设计。为什么要做消融实验？1.验证组件的有效性核心目的：确认模型中某个设计（如注意力机制、
数据集格式转换——json2txt、xml2txt、txt2json【复制就能用】 kay_545 YOLO11改进有效涨点 python 人工智能机器学习
秋招面试专栏推荐：深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转本专栏所有程序均经过测试，可成功执行专栏地址：YOLO11入门+改进涨点——点击即可跳转欢迎订阅目录json2txt脚本xml2txttxt2json
AI人工智能深度学习算法：在量子计算中的应用 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着科技的不断发展，人工智能和量子计算成为了当今世界的热门话题。人工智能的深度学习算法在处理大规模数据和复杂任务方面取得了显著的成果，而量子计算则具有强大的并行计算能力和高效的信息处理能力。将人工智能与量子计算相结合，为解决一些具有挑战性的问题提供了新的思路和方法。本文将探讨人工智能深度学习算法在量子计算中的应用，包括其背景、意义和应用场景。2.核心概念与联系在人工智能中，深度学习是一
还在为找图发愁？图生生AI以图生图，一键生成专属风格！图生生人工智能 ai AI作画图生生
你是否也遇到过这样的烦恼：想为文章配图，却找不到风格合适的图片？设计海报时，灵感枯竭，不知从何下手？看到喜欢的图片风格，却无法应用到自己的作品中？别担心，图生生AI生图来帮你！只需上传一张图片，AI就能自动生成相似风格的图片，让你轻松拥有专属图库！图生生AI生图是一款基于人工智能技术的图片生成工具，它能够深度学习和理解图片的风格、色彩、构图等元素，并以此为基础生成全新的图片。无论你是设计师、自媒体
深度学习中的Channel，通道数是什么？ %KT% 深度学习深度学习人工智能
参考文章：直观理解深度学习的卷积操作，超赞！-CSDN博客如何理解卷积神经网络中的通道（channel）_神经网络通道数-CSDN博客深度学习-卷积神经网络—卷积操作详细介绍_深度卷积的作用-CSDN博客正文：在跑深度学习代码的过程中，经常遇到的一个报错是：模型尺寸不匹配的问题。一般pytorch中尺寸/张量的表现方式是：torch.size([16,3,24,24])。这四个参数的含义如下：16
AI人工智能深度学习算法：搭建可拓展的深度学习模型架构 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
深度学习、模型架构、可拓展性、神经网络、机器学习1.背景介绍深度学习作为人工智能领域最前沿的技术之一，在图像识别、自然语言处理、语音识别等领域取得了突破性的进展。深度学习模型的成功离不开其强大的学习能力和可拓展性。本文将深入探讨深度学习算法的原理、模型架构设计以及可拓展性的关键要素，并通过代码实例和实际应用场景，帮助读者理解如何搭建可拓展的深度学习模型架构。2.核心概念与联系深度学习的核心概念是人
远程调试Python脚本之ptvsd 工头阿乐 PyTorch 深度学习 python 开发语言
深度学习文章目录深度学习前言前言有时候需要远程调试Python脚本，怎么办呢…以下这段代码用于远程调试Python脚本，特别是通过VisualStudioCode（VSCode）的远程调试功能。它会在指定的服务器IP和端口上等待调试器的连接。#检查是否提供了服务器IP和端口ifargs.server_ipandargs.server_port:#远程调试-参见https://code.visual
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那