solejay

吴恩达深度学习第一课笔记——神经网络和深度学习

文章目录

第一周：深度学习引言(Introduction to Deep Learning)

1.2 什么是神经网络？(What is a Neural Network)
1.4 为什么深度学习会兴起？(Why is Deep Learning taking off?)

“Scale drives deep learning progress”

1.5 总结

第二周：神经网络的编程基础(Basics of Neural Network programming)

2.1 二分类(Binary Classification)
2.2 逻辑回归(Logistic Regression)
2.3 逻辑回归的代价函数（Logistic Regression Cost Function）
2.4 梯度下降法（Gradient Descent）
2.5 导数（Derivatives）
2.7 计算图（Computation Graph）
2.9 逻辑回归中的梯度下降（Logistic Regression Gradient Descent）
2.10 m 个样本的梯度下降(Gradient Descent on m Examples)
2.11 向量化(Vectorization)
2.12 向量化的更多例子（More Examples of Vectorization）
2.13 向量化逻辑回归(Vectorizing Logistic Regression)
2.14 向量化 logistic 回归的梯度输出（Vectorizing Logistic Regression's Gradient）
2.15 Python 中的广播（Broadcasting in Python）
2.16 关于 python _ numpy 向量的说明（A note on python or numpy vectors）
2.18 logistic 损失函数的解释（Explanation of logistic regression cost function）

单个样本
m 个样本

2.19 总结

第三周：浅层神经网络(Shallow neural networks)

3.1 神经网络概述（Neural Network Overview）
3.2 神经网络的表示（Neural Network Representation）
3.3 计算一个神经网络的输出（Computing a Neural Network's output）
3.4 多样本向量化（Vectorizing across multiple examples）
3.5 向量化实现的解释（Justification for vectorized implementation）
3.6 激活函数（Activation functions）
3.7 为什么需要非线性激活函数？（why need a nonlinear activation function?）
3.8 激活函数的导数（Derivatives of activation functions）
3.9 神经网络的梯度下降（Gradient descent for neural networks）
3.11 随机初始化（Random+Initialization）
3.12 总结

第四周：深层神经网络(Deep Neural Networks)

4.1 深层神经网络（Deep L-layer neural network）
4.2 前向传播和反向传播（Forward and backward propagation）

前向传播
反向传播

4.4 核对矩阵的维数（Getting your matrix dimensions right）
4.5 为什么使用深层表示？（Why deep representations?）

提取特征复杂度
减少神经元个数以减少计算量

4.6 搭建神经网络块（Building blocks of deep neural networks）
4.7 参数VS超参数（Parameters vs Hyperparameters）
4.8 深度学习和大脑的关联性（What does this have to do with the brain?）
4.9 总结

第一周：深度学习引言(Introduction to Deep Learning)

1.2 什么是神经网络？(What is a Neural Network)

我们常常用深度学习这个术语来指训练神经网络的过程。有时它指的是特别大规模的神经网络训练。

神经网络就是多个神经元映射函数叠加形成的一个整体的映射。通过输入 x 即可得到输出 y

值得注意的是神经网络给予了足够多的关于 x 和 y 的数据，给予了足够的训练样本有关和。神经网络非常擅长计算从 x 到 y 的精准映射函数。

1.4 为什么深度学习会兴起？(Why is Deep Learning taking off?)

“Scale drives deep learning progress”

数据量和计算能力提升巨大

传统机器学习算法性能一开始在增加更多数据时会上升，但是一段变化后它的性能就会像一个高原一样，并且它们不知道如何处理规模巨大的数据。

神经网络随着规模和数据量的增大效果越来越好。

数据量少的时候看特征工程和算法处理，数据量大了神经网络的优势就体现出来了，传统算法对大数据量没有那么依赖，效果提升不明显。

如今最可靠的方法来在神经网络上获得更好的性能，往往就是要么训练一个更大的神经网络，要么投入更多的数据

在数据量小的时候，效果会取决于你的特征工程能力，那将决定最终的性能。在这个图形区域的左边，各种算法之间的优先级并不是定义的很明确，最终的性能更多的是取决于你在用工程选择特征方面的能力以及算法处理方面的一些细节，只是在某些大数据规模非常庞大的训练集，也就是在右边这个 m 会非常的大时，我们能更加持续地看到更大的由神经网络控制的其它方法。

算法创新提升速度

神经网络方面的一个巨大突破是从 sigmoid 函数转换到一个 ReLU 函数。**sigmoid **函数最左边的梯度会接近零，所以学习的速度会变得非常缓慢，因为当你实现梯度下降以及梯度接近零的时候，参数会更新的很慢。ReLU 它的梯度对于所有输入的负值斜率都是 0，仅仅通过将 Sigmod 函数转换成 ReLU 函数，便能够使得一个叫做梯度下降（gradient descent）的算法运行的更快，这就是一个或许相对比较简单的算法创新的例子

计算能力的提升（GPU）和算法的改进让验证想法的时间缩短，对于提升效率意义重大，也促进深度学习更快发展

1.5 总结

本节课的内容比较简单，主要对深度学习进行了简要概述。首先，我们使用房价预测的例子来建立最简单的但个神经元组成的神经网络模型。然后，我们将例子复杂化，建立标准的神经网络模型结构。接着，我们从监督式学习入手，介绍了不同的神经网络类型，包括 Standard NN，CNN 和 RNN。不同的神经网络模型适合处理不同类型的问题。对数据集本身来说，分为 Structured Data 和 Unstructured Data。近些年来，深度学习对 Unstructured Data 的处理能力大大提高，例如图像处理、语音识别和语言翻译等。最后，我们用一张对比图片解释了深度学习现在飞速发展、功能强大的原因。归纳其原因包含三点：Data，Computation和Algorithms。

第二周：神经网络的编程基础(Basics of Neural Network programming)

2.1 二分类(Binary Classification)

在神经网络的计算中，通常先有一个叫做前向暂停(forward pause)或叫做前向传播(foward propagation)的步骤，接着有一个叫做反向暂停(backward pause) 或叫做反向传播**(backward propagation**)的步骤。

2.2 逻辑回归(Logistic Regression)

$\hat y=w^{T}+b$

$\sigma (z)=\frac{1}{1+e^{-z}}$

线性回归加 sigmoid 函数作非线性变换，得到 0~1 之间的概率

2.3 逻辑回归的代价函数（Logistic Regression Cost Function）

单个代价函数 $L(\hat y,y)=-ylog(\hat y)-(1-y)log(1-\hat y)$

整体代价函数 $J(w,b)=\frac{1}{m}\sum_{i=1}^{m}L(\hat y^{(i)},y^{(i)})=\frac {1}{m}\sum_{i=1}^{m}(-y^{(i)}log\hat y^{(i)}-(1-y^{(i)}log(1-\hat y^{(i)}))$

2.4 梯度下降法（Gradient Descent）

找到损失函数的全局最小值（或接近最小值）

对应与对每个参数求偏导得到最优解

$w=w-\alpha \frac{\partial J(w,b)}{\partial w}$

$b=b-\alpha \frac{\partial J(w,b)}{\partial b}$

$\alpha$ 为学习率

2.5 导数（Derivatives）

第一点，导数就是斜率，而函数的斜率，在不同的点是不同的。

第二点，如果你想知道一个函数的导数，你可参考你的微积分课本或者维基百科，然后你应该就能找到这些函数的导数公式。

2.7 计算图（Computation Graph）

前向过程计算输出，反向过程计算梯度

可以说，一个神经网络的计算，都是按照前向或反向传播过程组织的。首先我们计算出一个新的网络的输出（前向过程），紧接着进行一个反向传输操作。后者我们用来计算出对应的梯度或导数。计算图解释了为什么我们用这种方式组织这些计算过程。

2.9 逻辑回归中的梯度下降（Logistic Regression Gradient Descent）

前向传播

反向传播

2.10 m 个样本的梯度下降(Gradient Descent on m Examples)

计算流程

J=0;dw1=0;dw2=0;db=0;
for i = 1 to m
    z(i) = wx(i)+b;
    a(i) = sigmoid(z(i));
    J += -[y(i)log(a(i))+(1-y(i)）log(1-a(i));
    dz(i) = a(i)-y(i);
    dw1 += x1(i)dz(i);
    dw2 += x2(i)dz(i);
    db += dz(i);
J/= m;
dw1/= m;
dw2/= m;
db/= m;
w=w-alpha*dw
b=b-alpha*db

这种计算中有两个缺点，也就是说应用此方法在逻辑回归上你需要编写两个 for 循环。第一个 for 循环是 1～m 样本数量的循环，第二个 for 循环是 x1～xn 特征数量的循环。

当你应用深度学习算法，你会发现在代码中显式地使用 for 循环使你的算法很低效。所以这里有一些叫做向量化技术,它可以允许你的代码摆脱这些显式的 for 循环。

2.11 向量化(Vectorization)

# for 循环方法
z=0
for i in range(n_x)
    z+=w[i]*x[i]
z+=b

# 向量化方法
z=np.dot(w,x)+b

CPU 和 GPU 都有并行化的指令，他们有时候会叫做 SIMD 指令，这个代表了一个单独指令多维数据，这个的基础意义是，如果你使用了 built-in 函数,像 np.function 或者并不要求你实现循环的函数，它可以让 python 的充分利用并行化计算，这是事实在 GPU 和 CPU 上面计算，GPU 更加擅长 SIMD 计算，但是 CPU 事实上也不是太差，可能没有 GPU 那么擅长吧。接下来的视频中，你将看到向量化怎么能够加速你的代码，经验法则是，无论什么时候，避免使用明确的 for 循环。

2.12 向量化的更多例子（More Examples of Vectorization）

虽然有时写循环(loop)是不可避免的，但是我们可以使用比如 numpy 的内置函数或者其他办法去计算。当你这样使用后，程序效率总是快于循环(loop)。

矩阵乘法时，np.dot() 好于两层 for 循环

善用 numpy 函数。当你想写循环时候，检查numpy是否存在类似的内置函数，从而避免使用循环(loop)方式。

np.exp()、np.log()、np.abs()、np.maximum()

通过 numpy 去掉一层 for 循环

2.13 向量化逻辑回归(Vectorizing Logistic Regression)

前向传播的计算，用 numpy 函数向量化计算替代一个 for 循环

Z = np.dot(w.T,X) + b

2.14 向量化 logistic 回归的梯度输出（Vectorizing Logistic Regression’s Gradient）

反向传播计算梯度，用矩阵运算替代另一个 for 数量循环

$Z=w^{T}X+b=np.dot(w.T, X)+b$

$A=\sigma (Z)$

$d Z = A - Y$

$dw=\frac{1}{m}*X*dz^{T}$

z 转置后才能和 X 相乘得到 dw

$db=\frac{1}{m}*np.sum(dZ)$

更新参数

$w=w-\alpha*dw$

$b=b-\alpha*db$

2.15 Python 中的广播（Broadcasting in Python）

numpy 广播机制

如果两个数组的维度其中一个维度相同，另一个维度有 1，即可进行广播

矩阵 $A_{m,n}$ 和矩阵 $B_{1,n}$ 进行四则运算，（m， n）和（1， n）可以广播， $B_{1,n}$ 广播成为 $B_{m,n}$

矩阵 $A_{m,n}$ 和矩阵 $B_{m,1}$ 进行四则运算，（m， n）和（m， 1）可以广播， $B_{m,1}$ 广播成为 $B_{m,n}$

2.16 关于 python _ numpy 向量的说明（A note on python or numpy vectors）

Python 广播功能既是优点也是缺点，通过技巧规避 bug

编写神经网络时，不要在它的 shape 是 $(n,)$ 或者一维数组时使用数据结构

a = np.random.randn(5, 1) 而不是 a = np.random.randn(5)

如果你每次创建一个数组，你都得让它成为一个列向量，产生一个向量或者你让它成为一个行向量，那么你的向量的行为可能会更容易被理解。

使用 assert 语句

assert(a.shape == (5, 1))

使用 reshape 确保维度正确

2.18 logistic 损失函数的解释（Explanation of logistic regression cost function）

为什么要用那个损失函数？因为选用的损失函数最优化效果等价于原始形式最优化效果，并且可能计算方面更为高效

极大似然估计的应用对应于假设变量独立同分布，联合概率等于概率乘积，损失函数才能对应的上

单个样本

令 $\hat y=p(y=1|x)$

输出概率 $P(y|x)=\hat y^{y}(1-\hat y)^{1-y}$

当 y=1 时，输出 $\hat y$

当 y=0 时，输出 $1-\hat y$

恰好对应 $p (y = 1 ∣ x)$ 的值

对 $P (y ∣ x)$ 变形，取对数不影响最优化，变形之后变成 $logP(y|x)=ylog\hat y+(1-y)log(1-\hat y)$ ，对应上损失函数的表达形式

m 个样本

独立同分布假设下概率乘积等价于对数求和，因此损失函数对应成 $J(w,b)=\frac{1}{m}\sum_{i=1}^{m}L(\hat y^{(i)},y^{(i)})=\frac {1}{m}\sum_{i=1}^{m}(-y^{(i)}log\hat y^{(i)}-(1-y^{(i)}log(1-\hat y^{(i)}))$

总结一下，为了最小化成本函数，我们从 logistic 回归模型的最大似然估计的角度出发，假设训练集中的样本都是独立同分布的条件下。

2.19 总结

介绍了神经网络的基础——逻辑回归。首先，我们介绍了二分类问题，以图片为例，将多维输入x转化为feature vector，输出y只有{0,1}两个离散值。接着，我们介绍了逻辑回归及其对应的Cost function形式。然后，我们介绍了梯度下降算法，并使用计算图的方式来讲述神经网络的正向传播和反向传播两个过程。最后，我们在逻辑回归中使用梯度下降算法，总结出最优化参数w和b的算法流程。

介绍了神经网络基础——python和向量化。在深度学习程序中，使用向量化和矩阵运算的方法能够大大提高运行速度，节省时间。以逻辑回归为例，我们将其算法流程包括梯度下降转换为向量化的形式。同时，我们也介绍了python的相关编程方法和技巧。

第三周：浅层神经网络(Shallow neural networks)

3.1 神经网络概述（Neural Network Overview）

逻辑回归模型

预测的输出就是 $\hat y=\sigma (w^{T}x+b)$

多个逻辑回归模型堆叠成为一层，多层堆叠形成神经网络。每个节点代表一次计算结果，前一层的计算结果又作为下一层的输入继续运算。

3.2 神经网络的表示（Neural Network Representation）

如上图所示，输入特征竖直堆叠作为输入层，中间三个结点竖直堆叠作为隐藏层，右边一个结点作为输出层。

隐藏层的含义：训练过程中中间结点准确值不知道，只能知道输入和输出，中间像是一个黑盒对外隐藏。

根据输入层算不算一层，可以叫做两层神经网络或三层神经网络。

$a$ 表示运算产生的结果数值， $a_{1}^{[1]}$ 右上角表示第一层的输出，右下角表示这是该层第一个结点。

3.3 计算一个神经网络的输出（Computing a Neural Network’s output）

神经网络的计算

逻辑回归的计算过程如下图所示，有两个步骤，先计算线性结果，再进行非线性变换。一个神经网络只是这样子做了好多次重复计算。

根据给出的一个单独的输入特征向量，运用四行代码计算出一个简单神经网络的输出。

$w$ 的形状（m， n）m 等于该层结点的个数，n 等于前一层输入的个数

3.4 多样本向量化（Vectorizing across multiple examples）

上面是一个样本输入计算的输出，当样本数为 m 个时，需要对 m 个样本都进行一次计算。为了不用 for 循环，使用向量化来进行计算。

对于一个样本的计算过程，输入层是列向量，隐藏层的输出是列向量，输出层还是列向量。把列向量堆叠起来组成矩阵，就可以一次对 m 个训练样本进行计算。

$x=\left[ \begin{array}{c} \vdots & \vdots & \vdots & \vdots\\ x^{(1)} & x^{(2)} & \cdots & x^{(m)}\\ \vdots & \vdots & \vdots & \vdots\\ \end{array} \right]$

$Z^{[1]}=\left[\begin{array}{c}\vdots & \vdots & \vdots & \vdots\\z^{[1](1)} & z^{[1](2)} & \cdots & z^{[1](m)}\\\vdots & \vdots & \vdots & \vdots\\\end{array}\right]$

$A^{[1]}\left[ \begin{array}{c} \vdots & \vdots & \vdots & \vdots\\ \alpha^{[1](1)} & \alpha^{[1](2)} & \cdots & \alpha^{[1](m)}\\ \vdots & \vdots & \vdots & \vdots\\ \end{array} \right]$

水平方向上，对应于不同的训练样本；竖直方向上，对应不同的输入特征，而这就是神经网络输入层中各个节点。

3.5 向量化实现的解释（Justification for vectorized implementation）

单个样本的计算 $z^{[1][i]}=W^{[1]}x^{(i)}+b^{(1)}$

整体样本的计算 $Z^{[1]}=W^{[1]}X+b^{(1)}$

理解了样本增加只是在横向堆叠列向量，就可以理解向量化实现了，只是从行列式的乘积转换为矩阵乘积

3.6 激活函数（Activation functions）

sigmoid 函数 $\sigma (z)=\frac{1}{1+e^{-z}}$
tanh 函数 $tanh(z)=\frac{e^{z}-e^{-z}}{e^{z}+e^{-z}}$

事实上，**tanh **函数是 sigmoid 的向下平移和伸缩后的结果。对它进行了变形后，穿过了点（0，0），并且值域介于+1和-1之间。**tanh **函数在所有场合都优于 sigmoid 函数。（例外：二分类问题输出介于 0～1 之间）

sigmoid 函数和 tanh 函数两者共同的缺点是，在特别大或者特别小的情况下，导数的梯度或者函数的斜率会变得特别小，最后就会接近于0，导致降低梯度下降的速度。

ReLu 函数 $r e l u (z) = m a x (0, z)$

$z = 0$ 导数没有定义，实际实现时假设一个导数是1或者0效果都可以。

选择激活函数的经验法则

如果输出是0、1值（二分类问题），则输出层选择sigmoid函数，然后其它的所有单元都选择Relu函数
这是很多激活函数的默认选择，如果在隐藏层上不确定使用哪个激活函数，那么通常会使用 Relu 激活函数。有时，也会使用 tanh 激活函数，但 Relu 的一个优点是：当是负值的时候，导数等于0
Leaky Relu 这个函数通常比 Relu 激活函数效果要好，尽管在实际中 Leaky ReLu 使用的并不多

Relu 和 Leaky ReLu 优点：

学习更快

在 $z$ 的区间变动很大的情况下，激活函数的导数或者激活函数的斜率都会远大于 0，在程序实现就是一个 if-else 语句，而 sigmoid 函数需要进行浮点四则运算，在实践中，使用 ReLu 激活函数神经网络通常会比使用 **sigmoid **或者 **tanh **激活函数学习的更快

不出现梯度弥散

sigmoid 和 tanh 函数的导数在正负饱和区的梯度都会接近于0，这会造成梯度弥散，而 Relu 和 Leaky ReLu 函数大于 0 部分都为常数，不会产生梯度弥散现象。(同时应该注意到的是，Relu 进入负半区的时候，梯度为 0，神经元此时不会训练，产生所谓的稀疏性，而 Leaky ReLu 不会有这问题)

选择建议

如果不确定哪一个激活函数效果更好，可以把它们都试试，然后在验证集或者发展集上进行评价。然后看哪一种表现的更好，就去使用它。

3.7 为什么需要非线性激活函数？（why need a nonlinear activation function?）

不使用非线性激活函数的话隐藏层就没有作用，和直接从输入层进行线性变换等价

如果你使用线性激活函数或者没有使用一个激活函数，那么无论你的神经网络有多少层一直在做的只是计算线性函数，所以不如直接去掉全部隐藏层。

3.8 激活函数的导数（Derivatives of activation functions）

sigmoid activation function

$\frac{d}{dz}g(z) = {\frac{1}{1 + e^{-z}} (1-\frac{1}{1 + e^{-z}})}=g(z)(1-g(z))$

Tanh activation function

$\frac{d}{{d}z}g(z) = 1 - (tanh(z))^{2}$

Rectified Linear Unit (ReLU)

$g(z)^{'}= \begin{cases} 0& \text{if z < 0}\\ 1& \text{if z > 0}\\ undefined& \text{if z = 0} \end{cases}$

注：通常在 z= 0 的时候给定其导数 1, 0；当然 z=0 的情况很少

Leaky linear unit (Leaky ReLU)

$g(z)=\max(0.01z,z) \\ \\ \\ g(z)^{'}= \begin{cases} 0.01& \text{if z < 0}\\ 1& \text{if z > 0}\\ undefined& \text{if z = 0} \end{cases}$ $

注：通常在 z=0 的时候给定其导数 1, 0.01；当然 z=0 的情况很少

3.9 神经网络的梯度下降（Gradient descent for neural networks）

梯度下降法的目的是优化损失函数，通过梯度下降更新 $w$ 和 $b$ 的值，找到损失函数的最优解。

总结一下，浅层神经网络（包含一个隐藏层），m个训练样本的正向传播过程和反向传播过程分别包含了6个表达式，其向量化矩阵形式如下图所示：

$dW^{[2]}=dz^{[2]}\cdot \frac{\partial z^{[2]}}{\partial W^{[2]}}=dz^{[2]}a^{[1]T}$ 中， $dW^{[2]}$ 表示 $\frac {dz^{[2]}}{dW^{[2]}}$ ， $dz^{[2]}$ 表示链式推导到 $z^{[2]}$ 的值，乘积就是链式推导到 $W^{[2]}$ 的值

$dW^{[2]}=dz^{[2]}\cdot \frac{\partial z^{[2]}}{\partial W^{[2]}}=dz^{[2]}a^{[1]T}$ 转置的问题现在可以用矩阵乘积维度分析理解，课上提到的 w 的行向量和列向量还没理解

3.11 随机初始化（Random+Initialization）

神经网络模型中的参数权重W是不能全部初始化为零的，若全部初始化为 0，隐藏层两个神经元对应的权重行向量 W 每次迭代更新都会得到完全相同的结果。这样隐藏层设置多个神经元就没有任何意义了。值得一提的是，参数 b 可以全部初始化为零，并不会影响神经网络训练效果。

W_1 = np.random.randn((2,2))*0.01
b_1 = np.zero((2,1))
W_2 = np.random.randn((1,2))*0.01
b_2 = 0

W2[1] 乘以0.01的目的是尽量使得权重W初始化比较小的值。之所以让W比较小，是因为如果使用sigmoid函数或者tanh函数作为激活函数的话，W比较小，得到的|z|也比较小（靠近零点），而零点区域的梯度比较大，这样能大大提高梯度下降算法的更新速度，尽快找到全局最优解。如果W较大，得到的|z|也比较大，附近曲线平缓，梯度较小，训练过程会慢很多。

当然，如果激活函数是ReLU或者Leaky ReLU函数，则不需要考虑这个问题。但是，如果输出层是sigmoid函数，则对应的权重W最好初始化到比较小的值。

3.12 总结

本节课主要介绍了浅层神经网络。首先，我们简单概述了神经网络的结构：包括输入层，隐藏层和输出层。然后，我们以计算图的方式推导了神经网络的正向输出，并以向量化的形式归纳出来。接着，介绍了不同的激活函数并做了比较，实际应用中根据不同需要选择合适的激活函数。激活函数必须是非线性的，不然神经网络模型起不了任何作用。然后，我们重点介绍了神经网络的反向传播过程以及各个参数的导数推导，并以矩阵形式表示出来。最后，介绍了权重随机初始化的重要性，必须对权重W进行随机初始化操作。

第四周：深层神经网络(Deep Neural Networks)

4.1 深层神经网络（Deep L-layer neural network）

逻辑回归和一个隐藏层的神经网络

对于任何给定的问题很难去提前预测到底需要多深的神经网络，所以先去尝试逻辑回归，尝试一层然后两层隐含层，然后把隐含层的数量看做是另一个可以自由选择大小的超参数，然后再保留交叉验证数据上评估，或者用你的开发集来评估。

深度学习的符号定义

$L = 4$ 、 $n^{[0]}=n_{x}=3$ 、 $n^{[1]}=5$ 、 $n^{[2]}=5$ 、 $n^{[3]}=3$ 、 $n^{[4]}=n^{[L]}=1$

$a^{[l]}$ 记作 $l$ 层激活后的结果

4.2 前向传播和反向传播（Forward and backward propagation）

前向传播

单个样本

$a^{[l]}=g^{[l]}(z^{[l]})$

m 个样本的向量化矩阵

$Z^{[l]}=W^{[l]}A^{[l-1]}+b^{[l]}$

$A^{[l]}=g^{[l]}(Z^{[l]})$

其中 $l = 1, \dots, L$

反向传播

单个样本

输入： $da^{[l]}$

输出： $da^{[l-1]}$ , $dW^{[l]}$ , $db^{[l]}$

步骤

$dz^{[l]}=da^{[l]}*g^{[l]^{'}}(z^{[l]})$
$dw^{[l]}=dz^{[l]}·a^{[l-1]}$
$db^{[l]}=dz^{[l]}$
$da^{[l-1]}=w^{[l]T}·dz^{[l]}$
$d{{z}^{[l]}}={{w}^{[l+1]T}}d{{z}^{[l+1]}}\cdot \text{ }{{g}^{[l]}}'( {{z}^{[l]}})~$

式子（5）由式子（4）带入式子（1）得到，前四个式子就可实现反向函数

m 个样本向量化实现

$d{{Z}^{[l]}}=d{{A}^{[l]}}*{{g}^{\left[ l \right]}}'\left({{Z}^{[l]}} \right)~~$
$d{{W}^{[l]}}=\frac{1}{m}\text{}d{{Z}^{[l]}}\cdot {{A}^{\left[ l-1 \right]T}}$
$d{{b}^{[l]}}=\frac{1}{m}\text{ }np.sum(d{{z}^{[l]}},axis=1,keepdims=True)$
$d{{A}^{[l-1]}}={{W}^{\left[ l \right]T}}.d{{Z}^{[l]}}$

4.4 核对矩阵的维数（Getting your matrix dimensions right）

对于单个训练样本

输入x的维度是 $n^{[0]},1)$

$dW^{[l]}=W^{[l]}:\ (n^{[l]},n^{[l-1]})$

$db^{[l]}=b^{[l]}:\ (n^{[l]},1)$

$dz^{[l]}=z^{[l]}:\ (n^{[l]},1)$

$da^{[l]}=a^{[l]}:\ (n^{[l]},1)$

对于m个训练样本

输入矩阵X的维度是 $n^{[0]},m)$

$dW^{[l]}=W^{[l]}:\ (n^{[l]},n^{[l-1]})$

$db^{[l]}=b^{[l]}:\ (n^{[l]},1)$

$dz^{[l]}=z^{[l]}:\ (n^{[l]},m)$

$da^{[l]}=a^{[l]}:\ (n^{[l]},m)$

$W^{[l]}$ 和 $b^{[l]}$ 维度与只有单个样本一致

$Z^{[1]}=W^{[1]}X+b^{[1]}$ 过程中

$Z^{[1]}$ 的维度为 $n^{[1]},n^{[0]})*(n^{[0]},m)=(n^{[1]},m)$

$b^{[1]}$ 由于 python 广播机制，会被当成 $n^{[1]},m)$ 进行计算

4.5 为什么使用深层表示？（Why deep representations?）

提取特征复杂度

从简单到复杂的金字塔状表示方法或者组成方法，深度神经网络的这许多隐藏层中，较早的前几层能学习一些低层次的简单特征，等到后几层，就能把简单的特征结合起来，去探测更加复杂的东西。

减少神经元个数以减少计算量

电路理论的解释

有一些函数你可以用一个小的L层深度神经网络来计算，而较浅的网络需要指数级更多的隐藏单元来计算。

处理同一逻辑问题，深层网络所需的神经元个数比浅层网络要少很多。这也是深层神经网络的优点之一。

尽管深度学习有着非常显著的优势，Andrew还是建议对实际问题进行建模时，尽量先选择层数少的神经网络模型，这也符合奥卡姆剃刀定律（Occam’s Razor）。对于比较复杂的问题，再使用较深的神经网络模型。

4.6 搭建神经网络块（Building blocks of deep neural networks）

对于第 l 层来说

正向传播过程中：

输入： $a^{[l-1]}$

输出： $a^{[l]}$

参数： $W^{[l]}, b^{[l]}$

缓存变量： $z^{[l]}$

反向传播过程中：

输入： $da^{[l]}$

输出： $da{[l-1]}, dW^{[l]}, db^{[l]}$

参数： $W^{[l]}, b^{[l]}$

对于神经网络所有层

4.7 参数VS超参数（Parameters vs Hyperparameters）

参数：神经网络中的参数就是我们熟悉的 $W^{[l]}$ 和 $b^{[l]}$

超参数：例如学习速率 α，训练迭代次数 N，神经网络层数 L，各层神经元个数 $n^{[l]}$ ，激活函数 g(z) 等。

超参数需要自己设置，这些超参数控制了最后参数的值

如何设置最优的超参数是一个比较困难的、需要经验知识的问题。通常的做法是选择超参数一定范围内的值，分别代入神经网络进行训练，测试 cost function 随着迭代次数增加的变化，根据结果选择 cost function 最小时对应的超参数值。这类似于 validation 的方法。

学习机器学习和深度学习有时候感觉就像是玄学，参数靠调，效果靠天。感觉很多时候都是在试，没有什么行之有效的指导手册。不过科学似乎也是这么发展的，很多成果都是人们试验并不断努力达到的。同样，可能很多研究方向穷尽了几代人的努力也没有什么成果，可能方向就是错误的。在不断尝试中不断前进，在不断试验中逐渐总结，这或许才应该是面对不确定性时的态度。

4.8 深度学习和大脑的关联性（What does this have to do with the brain?）

关联不大。

当你在实现一个神经网络的时候，那些公式是你在做的东西，你会做前向传播、反向传播、梯度下降法，其实很难表述这些公式具体做了什么。一个神经网络的逻辑单元可以看成是对一个生物神经元的过度简化，但迄今为止连神经科学家都很难解释究竟一个神经元能做什么，它可能是极其复杂的；它的一些功能可能真的类似logistic回归的运算，但单个神经元到底在做什么目前还没有人能够真正可以解释。

4.9 总结

本节课主要介绍了深层神经网络，是上一节浅层神经网络的拓展和归纳。首先，我们介绍了建立神经网络模型一些常用的标准的标记符号。然后，用流程块图的方式详细推导正向传播过程和反向传播过程的输入输出和参数表达式。我们也从提取特征复杂性和计算量的角度分别解释了深层神经网络为什么优于浅层神经网络。接着，我们介绍了超参数的概念，解释了超参数与参数的区别。最后，我们将神经网络与人脑做了类别，人工神经网络是简化的人脑模型。

红色石头笔记

黄海波笔记

b站视频

你可能感兴趣的:(深度学习,吴恩达学习笔记)

嵌入式AI必备技能2-模型的压缩与加速奥德彪123 嵌入式AI 人工智能嵌入式
嵌入式AI必备技能2-模型的压缩与加速引言随着嵌入式AI设备的广泛应用，模型的计算效率和存储需求成为核心挑战。由于嵌入式系统通常资源受限，传统的深度学习模型往往难以直接部署。因此，模型压缩和加速技术应运而生，旨在减少计算量、降低存储需求，同时尽可能保持模型的准确性。本文介绍几种常见的模型压缩与加速方法，包括剪枝、低秩分解、量化、权值共享、知识蒸馏等，并探讨如何综合应用这些技术来优化AI模型。1.常
吴恩达的翻译Agent项目，复现教程来了！ datawhale
原创郭才高DatawhaleDatawhale教程作者：郭才高，Datawhale创作者1.TranslationAgent复现效果展示#执行任务#调用编译后的工作流，传入初始状态字典result=app.invoke({ "source_lang": "English", #源语言为英语 "target_lang": "中文", #目标语言为中文 "source_text": ""
吴恩达机器学习笔记复盘（二）监督学习和无监督学习 wgc2k 机器学习机器学习笔记学习
监督学习经济价值以及定义监督学习是机器学习中创造了99%经济价值的类型，它是学习输入到输出映射的算法，关键在于给学习算法提供包含正确答案（即给定输入X的正确标签Y）的学习例子。生活中的例子邮件分类，输入是电子邮件，输出是判断邮件是否为垃圾邮件。语音识别，输入音频剪辑，输出文本记录。机器翻译，输入一种语言文本，输出其他语言的相应翻译。在线广告，输入广告和用户信息，预测用户是否点击广告，为公司带来大量
NVIDIA显卡型号有哪些？怎么知道自己电脑的型号？可靠的豆包蟹同志杂烩积累经验分享
NVIDIA显卡型号显卡分N卡和A卡，这个N卡指的是英伟达（NVIDIA），A卡之前是ATI（后来被AMD收购），现在的A卡指的就是AMD显卡。如果是为了玩游戏或者是学深度学习，选显卡肯定是要选N卡，因为A卡对于游戏优化的没有N卡好。（1）图中的GTX表示是英伟达的一个系列名称，全称叫GeForceGTX，GTX定位高端显卡系列，从低到高排名：GS/GT/GTS/GTX/RTX/Ultra，从20
英伟达系列显卡大解析B100、H200、L40S、A100 2301_78234743 java
家里有了变故。。。快手数分秋招一面面经我发现算法岗也不很难进啊(深度学习)算法想转数开…Java零基础校招学习路线突击版（吐血整理）等的花都谢了的华子最后给开了22k，武汉，应该是14a。不过在这几个月里我坚定了搞几年快钱回家和np朋友因骂了hr，boos被封了哈哈哈在央企想被开除需要做什么？2024小米分布式存储研发急招华为2012被毁意向我发现算法岗也不很难进啊(深度学习)在央企想被开除需要做
eBest AI Hub全场景接入Deepseek eBest数字化转型方案人工智能
一、技术赋能，智创未来Deepseek的强大基因将为eBest产品注入新的活力即时智能响应：融合海量行业智慧与互联网搜索精华，提供秒级智能建议；多模态理解能力：突破界限，无缝融合文本、代码与图像理解，精准解析用户的需求；进化式深度学习：不断学习，持续进化，为用户提供日益完善、超越期待的服务体验。二、全场景赋能，体验再次跃升1.智能报表-数据洞察，指尖掌控升级后的智能报表功能，能够根据查询和检
Prompt工程：大模型沟通指南（人工智能到大模型） Harry技术 AI prompt 人工智能
文章目录人工智能到大模型机器学习深度学习大模型Prompt工程：大模型沟通的桥梁在人工智能的广袤领域中，大模型无疑是最为璀璨的明珠之一。它仿佛是一座连接人类与人工智能的桥梁，让我们能够更加深入地探索和利用人工智能的强大能力。而要实现与大模型的高效沟通，Prompt工程扮演着至关重要的角色。让我们一起走进Prompt工程的奇妙世界，探寻大模型沟通的奥秘。人工智能到大模型“人工智能是一种模拟人类智能的
uCOS-II学习笔记(一) abc94 uCOS-II 任务 dos borland os 编译器数据结构
第一章：范例在这一章里将提供三个范例来说明如何使用µC/OS-II。这一章是为了让读者尽快开始使用µC/OS-II。1.00安装µC/OS-II1.01INCLUDES.H#include"includes.h"INCLUDE.H可以使用户不必在工程项目中每个*.C文件中都考虑需要什么样的头文件。换句话说，INCLUDE.H是主头文件。这样做唯一的缺点是INCLUDES.H中许多头文件在一些*.C
大模型生成人物关系思维导图的实战教程 herosunly 大模型生成人物关系生成思维导图实战教程
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了大模型生成人物关系思维导图的实战教程，希望对使用大语言模型的同学们有所帮
吴恩达出手，开源最新Python包，一个接口调用OpenAI等模型 Bryan Ding python
用相同的代码方式调用OpenAI、Anthropic、Google等发布的大模型，还能实现便捷的模型切换和对比测试。刚刚，AI著名学者、斯坦福大学教授吴恩达最新开源项目实现了。吴恩达在推文中宣布了这一好消息开源新的Python包：aisuite！这个工具可以让开发者轻松使用来自多个提供商的大型语言模型。在谈到为何构建这个项目时，吴恩达表示构建应用时，发现与多个提供商集成非常麻烦。aisuite正是
C语言数据结构——变长数组（柔性数组） Iawfy22 数据结构 c语言柔性数组
前言这是一位即将大二的大学生（卷狗）在暑假预习数据结构时的一些学习笔记，供大家参考学习。水平有限，如有错误，还望多多指正。本文主要介绍了如何手动实现一个变长数组，以及实现其部分功能（如删除、查找、添加、排序等）变长数组介绍变长数组又可以叫柔性数组，与一般数组不同，它是一个动态的数组，具体表现为可以根据数组里面元素个数的多少而自动的进行扩容，以便达到变长（柔性）的特点。预备知识为了实现自动边长扩容这
pytorch实现cifar10多分类总结 L_pyu 人工智能 pytorch 分类
cifar-10简介：CIFAR-10是一个常用的图像分类数据集，每张图片都是3×32×32，3通道彩色图片，分辨率32×32。它包含了10个不同类别，每个类别有6000张图像，其中5000张用于训练，1000张用于测试。这10个类别分别为：飞机、汽车、鸟类、猫、鹿、狗、青蛙、马、船和卡车。CIFAR-10分类任务是将这些图像正确地分类到它们所属的类别中。对于这个任务，可以使用深度学习模型，如卷积
C语言学习笔记-进阶（17）预处理详解 John.Lewis c语言学习笔记
1.预定义符号C语言设置了一些预定义符号，可以直接使用，预定义符号也是在预处理期间处理的。__FILE__//进⾏编译的源⽂件__LINE__//⽂件当前的⾏号__DATE__//⽂件被编译的⽇期__TIME__//⽂件被编译的时间__STDC__//如果编译器遵循ANSIC，其值为1，否则未定义举个例子：printf("file:%sline:%d\n",__FILE__,__LINE__);2
数据挖掘技术介绍柒柒钏数据挖掘数据挖掘人工智能
数据挖掘技术介绍分类聚类关联规则挖掘预测异常检测特征选择与降维文本挖掘序列模式挖掘深度学习集成学习数据挖掘（DataMining）是一种从大量数据中提取有用信息和模式的技术，旨在从数据中发现隐藏的规律、趋势或关系，从而为决策提供支持。分类定义：是一种监督学习方法，用于将数据分为不同的类别。功能：根据已标记的训练数据，学习一个模型，用于预测新数据的类别。方法：决策树、支持向量机、神经网络、逻辑回归、
深度学习在医疗影像诊断中的应用与实现 Evaporator Core #DeepSeek快速入门人工智能 #深度学习深度学习人工智能
引言随着人工智能技术的快速发展，深度学习在医疗领域的应用日益广泛，尤其是在医疗影像诊断方面。医疗影像数据量大、复杂度高，传统的诊断方法往往依赖于医生的经验，容易受到主观因素的影响。而深度学习通过自动学习特征，能够从海量数据中提取出有用的信息，辅助医生进行更精准的诊断。本文将探讨深度学习在医疗影像诊断中的应用，并通过代码示例展示如何实现一个简单的医疗影像分类模型。深度学习在医疗影像诊断中的应用1.图
图神经网络学习笔记—高级小批量处理（专题十四） AI专题精讲图神经网络入门到精通人工智能
小批量（mini-batch）的创建对于让深度学习模型的训练扩展到海量数据至关重要。与逐条处理样本不同，小批量将一组样本组合成一个统一的表示形式，从而可以高效地并行处理。在图像或语言领域，这一过程通常通过将每个样本缩放或填充为相同大小的形状来实现，然后将样本在一个额外的维度中分组。该维度的长度等于小批量中分组的样本数量，通常称为batch_size。由于图是能够容纳任意数量节点或边的最通用的数据结
每天五分钟玩转深度学习PyTorch：基于GoogLeNet完成CAFIR10分类每天五分钟玩转人工智能深度学习框架pytorch 深度学习 pytorch 分类 GoogLeNet 人工智能 CAFIR10
本文重点前面我们终于使用pytorch搭建了GoogLeNet，本文我们使用该网络模型解决一个实际问题，也就是使用它完成CAFIR10分类，其实就这些任务而言，我们只要搭建好模型，然后把数据喂进去就行了，其它的地方都是一样的，就是网络模型不一样。代码
Deepseek:物理神经网络PINN入门教程天一生水water 神经网络人工智能深度学习
一、物理信息网络（PINN）的概念与原理1.定义与来源物理信息网络（Physics-InformedNeuralNetworks,PINN）是一种将物理定律（如偏微分方程、守恒定律等）嵌入神经网络训练过程的深度学习方法。其核心思想是通过神经网络同时拟合观测数据并满足物理约束，从而解决传统数值方法难以处理的高维、噪声数据或复杂边界条件问题。来源：PINN起源于对传统数值方法局限性的改进需求（如网格生
深度学习项目--基于DenseNet网络的“乳腺癌图像识别”，准确率90%+，pytorch复现羊小猪~~ 深度学习网络 pytorch 人工智能 python 机器学习分类
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前言如果说最经典的神经网络，ResNet肯定是一个，从ResNet发布后，很多人做了修改，denseNet网络无疑是最成功的一个，它采用密集型连接，将通道数连接在一起；本文是基于上一篇复现DenseNet121模型，做一个乳腺癌图像识别，效果还行，准确率0.9+;CNN经典网络之“DenseNet”简介，源码研究与复现(pytorch)：
谈为什么KLA和Camtech公司为什么可以做到，半导体那边，晶圆，键合可以做到不管哪款新产品进来。编程2小时，上线后准确率可以直接做到99.9%、 *Major* 机器视觉
谈为什么KLA和Camtech公司为什么可以做到，半导体那边，晶圆，键合可以做到不管哪款新产品进来。编程2小时，上线后准确率可以直接做到99.9%、这么里面的AI原理没什么，还是这些公司把AI技术层面用出花了，一是他们有公司可能比较成立时间长，数据丰富。二是像AI深度学习网络冻结，或者自适应调参，都是一些AI技巧，他们用的比较好。三什么跨层特征解耦，实现的基础是他们对半导体理解比较深刻KLA和Ca
AI 之路——数据分析（1）Pandas小结与框架整理 Robin_Pi 机器学习之路数据分析数据分析 python 人工智能可视化
目录1.写在前面1.1AI之路：1.2工具/技能：2.数据分析2.1数据分析的流程2.2数据的基本操作方法2.2.1Pandas概览2.2.2使用Pandas操作数据的核心(1)选择数据(2)操作数据2.2.2数据详解3.写在最后1.写在前面主要是阶段性框架总结1.1AI之路：数据分析——机器学习——深度学习——CV/NLP1.2工具/技能：Python、NumPy、Pandas、Matplotl
简单了解WIndow和Linux的路径含义 alive903 Linux linux windows
目录1>路径概念2>绝对路径2.1>window绝对路径2.2>Linux绝对路径3>相对路径3.1>window相对路径3.2>Linux相对路径很高兴你能看到这篇文章，同时我的语雀文档也更新了许多嵌入式系列的学习笔记希望能帮到你：https://www.yuque.com/alive-m4b9n1>路径概念路径是用来描述一个文件或目录在文件系统中的位置的方式。路径可以是文件系统中的唯一标识符，
PyTorch 深度学习实战（13）：Proximal Policy Optimization (PPO) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们介绍了Actor-Critic算法，并使用它解决了CartPole问题。本文将深入探讨ProximalPolicyOptimization(PPO)算法，这是一种更稳定、更高效的策略优化方法。我们将使用PyTorch实现PPO算法，并应用于经典的CartPole问题。一、PPO算法基础PPO是OpenAI提出的一种强化学习算法，旨在解决策略梯度方法中的训练不稳定问题。PPO通过
人工智能概念 zhangpeng455547940 计算机人工智能
机器学习、深度学习、大模型机器学习提供框架，使得系统可以从数据中学习算法：线性回归、逻辑回归、支持向量机、决策树、随机森林、K近邻算法深度学习是实现这一目标的工具，模仿人脑，使用多层神经网络进行学习算法：多层感知器、卷积神经网络、循环神经网络、长短期记忆网络大模型指参数量巨大的深度学习模型人工智能应用：自然语言处理、图像识别与生成、语音识别、政务与企业服务...
机器学习(二) 本文(2.5万字) | KNN算法原理及Python复现 | 小酒馆燃着灯机器学习算法 k近邻算法
文章目录一KNN算法原理二KNN三要素三机器学习中标准化四KNN分类预测规则五KNN回归预测规则六KNN算法实现方式七KDTree7.1构造KDtree7.2KDtree查找最近邻八KNN特点九KNN算法实现案例一案例二1.机器学习2.深度学习与目标检测3.YOLOv54.YOLOv5改进5.YOLOv8及其改进6.Python与PyTorch7.工具8.小知识点9.杂记一KNN算法原理K近邻分类
WPF学习笔记04-控件Control_Part1 一只只对技术感兴趣的程序员 WPF学习 wpf 学习 ui
之前我们已经学习过WPF布局了，这节我们开始简单介绍下控件。熟悉Winform的应该对控件并不陌生。WPF和Winform的渲染也是不一样的一个是基于DirectX一个是基于GDI+。在WPF中，打交道最多的控件无非就那么几种。1）布局控件。之前介绍过的，可以容纳多个控件或嵌套其他布局控件，用于在UI上组织和排列控件。比如StackPanel、Grid等控件都属于此类控件，他们都拥有共同父类---
再添殊荣！移远通信工业智能品牌宝维塔™斩获AI创新应用奖移远通信算力人工智能工业智能
12月24日，2024中国物联网产业大会暨第21届慧聪品牌盛会在深圳圆满落幕。会上，移远通信凭借其工业智能品牌宝维塔™在推动AI技术落地与应用创新方面的卓越贡献，获颁“AI创新应用奖”。作为科技发展的前沿力量，AI技术正深刻改变着各行各业的生产模式和效率，尤其在工业领域，展现出了巨大潜力。宝维塔™是移远通信精心打造的工业智能品牌，专注于将人工智能、边缘计算、机器视觉、深度学习、软件算法平台等前沿技
【学习笔记】GitLab 使用技巧和说明和配置和使用方法铜锣烧1号 python git gitlab pycharm
GitLab使用技巧和说明1.注册账号和登录注册账号：访问GitLab官网，点击“Signup”按钮，填写必要的信息（如用户名、邮箱、密码）完成注册。普通用户注册后需要管理员审批，如果有管理员权限可以直接登录使用。登录：使用注册的账号和密码登录GitLab。2.创建项目创建项目：登录后，点击页面右上角的加号图标，选择“Newproject”创建新项目。在项目创建页面，填写项目名称、描述和可见性等信
验证码识别：使用OCR技术识别图形验证码详解数据知道 2025年爬虫和逆向教程 ocr python 爬虫 OCR识别验证码识别图片验证码
文章目录一、基本原理二、所需工具2.1Python环境2.2图像处理库2.3OCR引擎2.4Python接口三、实现步骤3.1获取验证码图像3.2图像预处理3.3使用OCR进行字符识别3.4基本OCR识别样例四、提高识别准确率的方法4.1字符分割4.2使用深度学习模型4.3数据增强4.4集成多个OCR引擎五、实际应用中的注意事项六、总结验证码（CAPTCHA）是一种用于区分人类用户和自动化程序的安
『FFmpeg学习笔记』MAC系统电脑安装FFmpeg以及使用 AI大模型前沿研究大模型笔记 macos ffmpeg M1
MAC系统电脑安装FFmpeg文章目录一.安装FFmpeg1.1.MACbrew安装FFmpeg1.2.MAC官网下载FFmpeg压缩包1.3.Windows安装1.4.Linux安装二.FFmpeg的使用2.1.音频操作2.1.1.如果不转换，直接输出aac2.1.2.将音频输出为wav2.1.3.将aac转换为wav2.1.4.双声道分离2.1.5.使用FFmpeg将音频和视频合并2.2.字幕
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite