布莱克1997

吴恩达深度学习系列笔记：第二课改善深层神经网络

第一周：深度学习的实用层面

本周主要讲解神经网络机器学习中的问题，学习一些能够确保神经网络正确运行的技巧。例如在配置训练、验证和测试集的过程中做出正确的决策会在很大程度上帮助大家创建高效的神经网络。训练神经网络时，我们常需要做出很多决策，例如神经网络分多少层；每层含有多少个隐藏单元；学习速率是多少；各层采取哪些激活函数等。

1.1 训练、开发、测试集

深度学习的数据一般有三种用途：训练集、交叉验证集和测试集。其中训练集用于训练模型，然后通过验证集或者简单交叉验证集来选择最好的模型，经过选择之后再在测试集上进行无偏估计，评估算法的运行情况。

在机器学习的小数据时代，人们通常的做法是将数据三七分，就是0.7的训练集和0.3的交叉验证集，没有设置单独的测试集，或者0.6的训练集，0.2的交叉验证集和0.2的测试集。

但是在如今的大数据时代，人们往往不需要那么大比例的交叉验证集和测试集，假如有100W条数据，那么只需要1万条作为验证集，1万条作为测试集即可，即0.98；0.01；0.01的分配比例。对于更大的数据量，比例可以占到0.995；0.0025；0.0025。

深度学习需要大量的数据，训练过程中应尽量确保验证集和测试集的数据来自同一分布，因为最后要用验证集来评估不同的模型，尽可能的优化性能，因此验证集和测试集来自同一个分布会更好。

测试集的存在只是用于进行无偏评估算法的性能，如果不需要评估算法性能的话，不设置测试集也是可以的。

2.2 偏差和方差

解释：

1.偏差：指的是数据真实值和预测值之间偏离的程度，偏差越大表示偏离真实值越大。

2.方差：指的是数据预测值的变化范围，离散程度，也就是离期望值的距离。方差越大，数据的分布越分散，对象是多个模型。如果均值是一样的，方差越大，则数据的离散程度就越大，数据就越分散。

在忽略噪声的情况下，泛化误差可分解为偏差、方差两部分。
偏差：度量学习算法的期望预测与真实结果的偏离程度，也叫拟合能力。
方差：度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动造成的影响。

高偏差，低方差--欠拟合--high bias--换一个更大的神经网络；试着评估训练集或训练数据的性能；或者花费更多的时间和尝试更先进的优化算法。

高方差，低偏差--过拟合--high variance--获取更多的数据；正则化；找更好的神经网络框架。

方差和偏差并不是会只有一个高，有可能存在既有高偏差又有高方差的情况。比如一个准确性为0.99的训练集，学习出的准确率仅为0.80，交叉验证为0.70，这两个误差都特别的高，便是上述的那种两种都高的情况。最优误差也成为贝叶斯误差，这是一个比较准确的误差。这里接近于0%。

3.正则化

正则化是抑制模型过拟合/减少网络误差的一个重要的方法。本节以逻辑回归为例讲解正则化的原理及作用。

在逻辑回归中，我们需要最小化代价函数：

$J(w,b) = \frac{1}{m}\sum\limits_{i = 1}^m {L({{\hat y}^{(i)}},{y^{(i)}})}$

正则化时我们需要最小化的代价函数形式为：

$J(w,b) = \frac{1}{m}\sum\limits_{i = 1}^m {L({{\hat y}^{(i)}},{y^{(i)}}) }+\frac{\lambda}{2m}\left \| w \right \|_2^{2}$

即加上了一个欧几里得范数的平方(所有平方的和):

$\left \| w \right \|_2^{2} = \sum_{j=1}^{n_x}w_j^2=w^Tw$

此方法成为L2正则化，因为这里用了欧几里得法线，被称为向量参数W的L2范数。

有人可能会好奇，为什么只正则化参数w呢？因为w一般是一个高维参数矢量，已经可以表达高偏差问题了，而b只是单个数字，因此加不加上b，其实对结果没有太大的影响.

L2正则化是最常见的正则化类型，此外还有一种L1正则化，L1正则化加的不是L2范数，而是L1范数，即：

$\frac{\lambda}{2m}\sum _{i=1}^{n_x}\left | w \right |=\frac{\lambda}{2m}\left \| w \right \|$

如果使用L1正则化，则W最终会是稀疏的，也就是说W中会有很多的0。lambda是正则化参数，通常使用验证集或交叉验证来配置这个参数。同时要考虑和训练集之间的均衡，把正则化参数正常值设置成较小值，可以避免过拟合。因此正则化参数是另一个需要调整的超参数。

在神经网络中应用正则化方法如下：

$J(w^{[1]},b^{[1]},...,w^{[L]},b^{[L]}) = \frac{1}{m}\sum\limits_{i = 1}^m {L({{\hat y}^{(i)}},{y^{(i)}}) }+\frac{\lambda}{2m}\sum_{l=1}^{L}\left \| w^{[l]} \right \|_F^{2}$ $\left \| w^{[l]} \right \|_F^{2}=\sum_{i=1}^{n^{[l-1]}}\sum_{j=1}^{n^{[l]}}(w_{ij})^2$

这个范数被称为‘Frobenius norm’(弗罗贝尼乌斯范数)，表示一个矩阵中所有参数的平方和。在进行参数更新时

$dw^{[l]} = ()+\frac {\lambda}{m} w^{[l]}$

$w^{[l]}:=w^{[l]}-\alpha dw^{[l]}$

因此正则化也被称为权重衰减。

4.为什么正则化可以抑制数据的过拟合，减小方差？

高偏差和高方差的直观数据体现如下：高偏差的的直观效果如左图所示，表现为预测的数据与真实数据相差太大，拟合能力较弱。高方差的效果如第三张图所示，表现为模型的预测值受数据干扰太大。

一个简单的深层神经网络示意图如下：假设现在这已经是一个过拟合的神经网络，通过添加一个正则项，可以避免数值权重矩阵过大。从公式上直观的理解就是添加了一个正则化参数，使得权重矩阵W中的很多元素变得特别小，相当于很多的神经元被消除，或者功能被减弱，最终使这个网络变得更加简单。实际上这些神经网络中的隐藏单元依然存在，只不过是对输出的影响变小了很多。

下面通过激活函数来直观的感受一下为什么正则化可以预防过拟合。假设我们用的是这样的激活函数：

当输出非常大的时候，其是一个比较复杂的非线性函数，在图中可以看出，当Z非常小的时候，我们可以利用双曲正切函数的线性状态。当Z变得更大或者更小的时候，激活函数便会变得非线性。因此只要Z保持在一个相对较小的范围内，这一层就大致呈线性关系，之前介绍过，如果每一层都大致呈线性关系，则这一个深层网络就是一个线性网络，因此他就不适合用于非常复杂的决策，便不会出现过拟合的问题。

5. dropout（随机失活）正则化

工作原理：假设在如下的神经网络中进行训练，存在过拟合的现象，dropout工作时便是给每一层的每一个节点设置一个概率，类似于抛硬币的方式，随机使某些节点失活，从而减小神经网络的复杂度，抑制过拟合现象。

实施dropout:

1.inverted dropout （反向随即失活）

用一个三层的神经网络为例，本文只举例在某一层中实施dropout。首先定义一个向量d，d3表示一个三层的dropout向量：

d3 = np.random.rand(a3.shape[0],a3.shape[1]) < keep_prob

其中keep_prob是人为设置的一个具体数字，表示保留某个隐藏单元的概率，例如前面介绍的是0.5，在本节中我们将其设置成0.8，意思是有80%的节点被保留下来，20%的节点被失活。如下图所示。

然后从第三层中获取激活函数，让激活函数a3与d3相乘，让d3中的0元素与a3中相对的元素归零。

a3 = np.multiply(a3,d3)

要注意d3中的元素都是布尔值，但是python在进行乘法操作时会自动的将其转化成数字0或者1。如果我们将keep_prob设为0.8，则会有20%的神经元被失活，其中 $Z^{[4]}=W^{[4]}a^{[3]}+b^{[4]}$ ,如今a3已经下降了20%，为了不影响Z4的期望值，所以反向随机失活（inverted dropout）通过在训练阶段除以keep_prob的值来保证期望值不变。类似的方法还有正向随机失活（dropout），区别就是正向随机失活是在测试阶段乘上keep_prob的值，来保证测试和训练阶段的Z的期望值不变。所以应用反向随机失活的完整步骤：

d3 = np.random.rand(a3.shape[0],a3.shape[1]) < keep_prob
a3 = np.multiply(a3,d3)
a3 /= keep_prob

在测试集中我们不使用dropout，测试的步骤跟普通的神经网络相同。

为什么dropout可以起作用呢？

在直观上，通过dropout，神经网络不再依赖任何一种特征，因为任何一个特征都有可能被失活，然后为了不影响最终输出的期望值，dropout会稍微增加一些权重的值，通过传播所有权重，dropout会产生收缩权重的平方范数的结果，与之前讲的L2正则化类似，实施dropout的结果是它会压缩权重，并完成一些预防过拟合的外层正则化；不同的是L2正则化对不同权重的衰减是不同的，它取决于激活函数倍增的大小。

dropout的功能类似于L2正则化,但与L2正则化不同的是，dropout更加的灵活，可以对不同的层应用不同的输入范围。

dropout通常应用与计算机视觉领域内，由于没有获得足够的数据，所以经常存在着过拟合的现象。但是不可避免的也存在着一个缺点:

由于使用了dropout，代价函数J 不再被明确定义，所以通常先不用dropout，当确定代价函数J单调递减之后，再打开dropout，其中并不会引入bug.

6.其他正则化方法

1. 增大数据集

通过旋转、裁剪、方法、反转等操作对原数据集进行处理，但是这些额外的假数据无法获得更多的信息，但是却更加的廉价，除了一些对抗性代价，其余代价几乎为零。以这种方式扩充数据集从而进行正则化的方法比较廉价。

2. early stopping

代表提早停止神经网络的训练，以防止过拟合。我们首先绘制出代价函数J的下降曲线，然后绘制出交叉验证集的误差，你会发现交叉验证集的误差通常会先成下降趋势，然后再某个节点处上升。early stopping 的作用是在中间点停止迭代过程，我们可以得到一个W值中等大小的弗罗贝尼乌斯范数，与L2正则化相似，选择参数范数较小的神经网络，就可以抑制过拟合。

机器学习可以看成是两个重要部分的组合，一是最小化代价函数J，例如梯度下降、Momentum、RMSprop、Adam等等；二是防止过拟合，例如前面所说的正则化，扩充数据集和early stopping等。在机器学习中，超参数数量剧增，导致选出合适的算法也变得越来越复杂，我们通常使用的是一种“正交化”的思想，就是同一时间只考虑一件事情。即在最小化代价函数的时候，我们只需要考虑w,b这两个参数，让代价函数J的值变得越小越好，其他的现象（比如是否发生了过拟合）都不需要考虑。然后再进行其他的任务，比如进行正则化来减小方差，抑制过拟合。

early stopping的主要缺点是不能独立的处理上述的两个问题，在抑制过拟合的过程中也停止了优化代价函数J，用一种方法考虑两种问题往往会使问题变得更加复杂。如果不使用early stopping的方法，那么另一种常见的方法就是正则化，然而，使用正则化往往会增加超参数的数量，增加神经网络训练的时间，尝试大量超参数的计算代价太高。

early stopping的优点便是，只运行一次梯度下降，就可以找出参数W的较小值、中间值和较大值，而无需尝试L2正则化参数的很多值。另外虽然L2正则化有很多的缺点，但是很多人仍然愿意去使用它。

7.归一化（Normalizing inputs）

训练神经网络其中一个加速训练的方法便是进行归一化输入。假设数据集有两个特征，输入特征为二维，如下图所示：

则归一化需要有两个步骤：

1. 零均值处理

对数据进行处理，使它们的均值为零，即关于x1，x2轴对称。具体的方法是令 $\mu=\frac{1}{m}\sum_{i=1}^{m}x^{(i)}$ ，然后让每一个x都减去u即可，向量化可表示为： $x = x- \mu$ 。完成零均值化后的效果如下：

2.归一化方差

由上图可见特征X1的方差要比X2的方差大很多，对方差执行归一化之后，使X1和X2分部的离散程度大致相同。我们要做的就是计算 $\sigma^2=\frac{1}{m}\sum_{i=1}^{m}(x^{(i)})^2$ ，由于我们已经完成了零均值处理，所以传统的方差计算公式也得到了简化，正如上面所示。然后将所有的X 都除以向量 $\sigma^2$ ，最后数据呈现下图形式：

要注意的是，测试集中使用的 $\sigma^2 \quad \mu$ 要和 训练集 保持一致，而不是在测试集中重新计算这两个参数。下图展示了应用归一化的好处：可以使用更大的学习率进行学习，并且不论从哪一点出发，下降速率都是相同的。

8. 梯度消失与梯度爆炸

训练神经网络尤其是深度神经网络常常面临的一个问题便是梯度消失和梯度爆炸。即训练神经网络时，导数或者坡度会变得非常的大或者非常的小，加大了训练的难度.产生的原因比较容易理解，假如有这样一个深度神经网络：

容易看出最终的输出： $\hat y=w^{[L]}w^{[L-1]}w^{[L-2]}...w^{[3]}w^{[2]}w^{[1]}x$ 。如果每一层的参数W都大于1，则梯度就会变得很大，反之梯度就会很小，这种现象称为梯度爆炸/梯度消失。这种现象在很长一段时间中是训练深度学习的一个障碍，虽然有一个不能彻底解决此问题的方案，但是在如何选择权重初始化问题上提供了很多帮助。

9.神经网络的权重初始化

实际上在第一周作业的博客中已经体现了这一章的内容，为了避免梯度消失与梯度爆炸，权重初始化是当前一个比较好的解决方法，所谓的权重初始化就是在初始化W的时候再乘上一个系数:

1.激活函数为tanh时，令W的方差为 $\frac{1}{n}$ ：

w[l] = np.random.randn(n[l],n[l-1])*np.sqrt(1/n[l-1])

2.激活函数是ReLU，权重w的初始化一般令其方差为 $\frac{2}{n}$ ：

w[l] = np.random.randn(n[l],n[l-1])*np.sqrt(2/n[l-1])

3.Yoshua Bengio提出一种初始化w的方法，令其方差为 $\frac{2}{n[l-1]+n[l]}$ ：

w[l] = np.random.randn(n[l],n[l-1])*np.sqrt(2/(n[l-1]+n[l]))

10.梯度检验和梯度中的数值逼近

双边误差比单边误差更加的精确，所以计算逼近值 $d\theta_{approx}$ 时用的就是双边误差。

梯度检验时用的方法是计算被检验向量的偏导数与与其逼近值之间的欧几里得范数，一般情况下取 $\varepsilon \approx 10^{-7}$ ，然后如果其欧几里得范数的值远小于 $10^{-7}$ ,则一般不会有问题。其中欧几里得范数计算方法如下：

$C_{check}=\frac{\left \| d\theta_{approx}-d\theta \right \|_2}{\left\| d\theta_{approx}\right\|_2 + \left\| d\theta \right\|_2}$

注意：

1. 训练时不要使用梯度检验。

2.如果采用了正则化处理，在进行梯度检验时也要加上相应的项。

3.进行梯度检验时不要使用dropout。

4.有可能在w和b非常接近于0的时候，梯度检验是正常的，增大之后就会出现错误。所以可以首先在参数初始化的时候进行梯度检验，然后在运行一段时间之后再重新运行梯度检验。

第二周优化算法

2.1 Mini-batch 梯度下降法

使用梯度下降法需要讲所有的数据集一次性加载完毕，但是当数据集非常大的时候，人们的电脑往往无法满足计算需求，而且执行效率也低，因此人们通常会采用小批量多次训练的方法，即设置很多的Mini-batch，每个Mini-batch中含有的样本数量被称为batch_size。

首先按照batch_size大小将X,Y划分成一个个的小的数据集，通过for循环对这些小的数据集进行运算，每一个小数据集之内的数据还是使用向量化的方式进行运算，相当于把一个500万的数据集分成5000份，每份包含1000个数据，分别计算这5000份数据集前向和后向传播的相关参数，然后更新每一个小数据集的权值：

$Z^{[1]}=W^{[1]}X^{t}+b^{[1]}$ $A^{[1]k}=g^{[1]}(Z^{[1]})$ 直到 $A^{[L]}=g^{[L]}(Z^{[L]})$

然后计算损失函数J：

$J=\frac{1}{batch\_size}L(\hat y^{(i)},y^{(i)})+\frac{1}{2*batch\_size}\left \| w^{[l]}\right \|^{2}_F$

最后更新权值：

$W^{[l]}:=W^{[l]}-adW^{[l]}$

$b^{[l]}:=b^{[l]}-adb^{[l]}$

执行完这5000个小的数据集称为程序运行了一步（1 epoch）。如果想让程序运行更多步可以在上述循环外面再加一层循环。但是之前介绍过用for循环的方式程序执行起来速度比较慢，因此当数据量比较小的时候还是还用batch进行梯度下降比较好。

此外还要注意两点：

1. 在Mini-batch中代价函数并不像在梯度下降中代价函数那样稳步下降，而是在不停的震荡，但是整体应该呈现下降趋势，如下图所示。

2.batch_size的大小一般可以选择为2的N次方，例如64,128,256,512,1024等。

2.2 指数加权平均

给定一些温度数据，如下图所示。

如果要用指数加权平均计算趋势的话，即计算温度的局部平均值，可以通过下列公式实现：

$v_t=0.9v_{t-1}+0. 1\theta_t$

就是0.9倍的前一天的温度加上0.1倍的今天的温度。同时这个系数也是可以变换的：

$v_t=\beta v_{t-1}+(1-\beta)\theta_t$

其中的系数 $\beta$ 比较值得关注，如果 $\beta$ =0.9，代表的就是过去十天的温度（这个结合公式就可以得出）

2.2 指数加权平均的偏差修正

首先我们看一下有偏差修正和无偏差修正的指数加权平均是如何工作的：

图中紫色的线是未经过偏差修正的，绿色的线是经过偏差修正的，同时 $\beta$ 比较大（即考虑前面的天数比较多），容易看出虽然后面的趋势几乎相同，但是前面未经过偏差修正的误差还是比较大的，不是很理想。因此进行偏差修正还是比较有必要的，进行偏差修正的过程如下：

将原来的参数Vt改为 $\frac{v_t}{1-\beta^t}$ 即可，可见在t比较小的时候，该值比较大，在后期分母几乎为一，与之前的没有什么差别。

吴恩达深度学习笔记（七）——机器学习策略子非鱼icon 深度学习自学笔记深度学习机器学习人工智能神经网络吴恩达
一、正交化通俗的理解就是：要能够诊断出系统性能瓶颈在哪里，以有策略刚好解决这个问题。一个“按钮”只负责解决一件事情。二、单一数字评估指标准确率（precision）：在分类器中标记为猫的例子中，有多少是真的猫召回率（recall）：对于所有的真猫图片，你的分类器正确识别了多少。但如果有两个评估指标，就很难去选择一个更好的分类器，如下图所示。所以有一个结合这两个指标的标准方法，也即F1分数，定义如下
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
吴恩达深度学习笔记(24)-为什么要使用深度神经网络？极客Array
为什么使用深层表示？（Whydeeprepresentations?）我们都知道深度神经网络能解决好多问题，其实并不需要很大的神经网络，但是得有深度，得有比较多的隐藏层，这是为什么呢？我们一起来看几个例子来帮助理解，为什么深度神经网络会很好用。首先，深度网络在计算什么？如果你在建一个人脸识别或是人脸检测系统，深度神经网络所做的事就是，当你输入一张脸部的照片，然后你可以把深度神经网络的第一层，当成一
吴恩达深度学习-L1 神经网络和深度学习总结向来痴_ 深度学习人工智能
作业地址：吴恩达《深度学习》作业线上版-知乎(zhihu.com)写的很好的笔记：吴恩达《深度学习》笔记汇总-知乎(zhihu.com)我的「吴恩达深度学习笔记」汇总帖（附18个代码实战项目）-知乎(zhihu.com)此处只记录需要注意的点，若想看原笔记请移步。1.1深度学习入门我们只需要管理神经网络的输入和输出，而不用指定中间的特征，也不用理解它们究竟有没有实际意义。1.2简单的神经网络——逻
神经网络与深度学习 Neural Networks and Deep Learning 课程笔记第一周林间得鹿吴恩达深度学习系列课程笔记深度学习神经网络笔记
神经网络与深度学习NeuralNetworksandDeepLearning课程笔记第一周文章目录神经网络与深度学习NeuralNetworksandDeepLearning课程笔记第一周深度学习简介什么是神经网络使用神经网络进行监督学习为什么神经网络会兴起本文是吴恩达深度学习系列课程的学习笔记。深度学习简介什么是神经网络深度学习一般是指训练神经网络。那么什么是神经网络？课程以房价预测的例子来说明
学习笔记1《吴恩达深度学习》Deep Learning 木懋懋深度学习
P11.1.1欢迎Welcome深度学习改变了传统互联网业务，例如网络搜索和广告，但是深度学习同时也使得许多新产品和企业以很多方式帮助人们，从获得更好的健康关注，深度学习做得非常好的一个方面就是读取X光图像，到生活中的个性化教育，到精准化农业，甚至到驾驶汽车以及其他一些方面。如果你想要学习深度学习的这些工具，并应用它们来做这些令人窒息的操作，就学习这门课程。在接下来的十年中，我认为我们所有人都有机
吴恩达深度学习-学习笔记p1-p6 丢了橘子的夏天深度学习学习笔记
哔哩哔哩网站视频-[双语字幕]吴恩达深度学习deeplearning.ai网站：up主：mHarvey，视频：[双语字幕]吴恩达深度学习deeplearning.ai一.p11.1欢迎二.p21.2什么是神经网络1.举例：根据面积预测房价假设有六个房子的房屋面积和价格，根据这个数据集，房屋面积预测房价的函数，这些是一个简单的神经网络神经元的功能就是输入面积完成线性运算，取不小于0的值，最后得到预测
吴恩达深度学习笔记(15）-浅层神经网络之神经网络概述极客Array
神经网络概述（NeuralNetworkOverview）从今天开始你将学习如何实现一个神经网络。这里只是一个概述，详细的在后面会讲解，看不懂也没关系，先有个概念，就是前向计算然后后向计算，理解了这个就可以了，有一些公式和表达在后面会详细的讲解。在我们深入学习具体技术之前，我希望快速的带你预览一下后续几天你将会学到的东西。现在我们开始快速浏览一下如何实现神经网络。之前我们讨论了逻辑回归，我们了解了
【吴恩达深度学习】— 参数、超参数、正则化 Sunflow007
32.jpg1.参数VS超参数1.1什么是超参数（Hyperparameters）？比如算法中的learningrate（学习率）、iterations(梯度下降法循环的数量)、L（隐藏层数目）、（隐藏层单元数目）、choiceofactivationfunction（激活函数的选择）都需要你来设置，这些数字实际上控制了最后的参数W和b的值，所以它们被称作超参数。实际上深度学习有很多不同的超参数，
交并比（Intersection over union）双木的木吴恩达深度学习笔记深度学习知识点储备笔记算法机器学习 python 深度学习计算机视觉
来源：Coursera吴恩达深度学习课程如何判断目标检测算法运作良好呢？接下来，你将了解到并交比（intersectionoverunion）函数，可以用来评价目标检测算法。交并比（loU）函数做的是计算两个边界框交集和并集之比。两个边界框的并集是这个区域，就是属于包含两个边界框区域（绿色阴影表示区域），而交集就是这个比较小的区域（橙色阴影表示区域），那么交并比就是交集的大小，这个橙色阴影面积，然
吴恩达深度学习笔记(82)-深度卷积神经网络的发展史极客Array
为什么要探索发展史(实例分析)？我们首先来看看一些卷积神经网络的实例分析，为什么要看这些实例分析呢？上周我们讲了基本构建，比如卷积层、池化层以及全连接层这些组件。事实上，过去几年计算机视觉研究中的大量研究都集中在如何把这些基本构件组合起来，形成有效的卷积神经网络。最直观的方式之一就是去看一些案例，就像很多人通过看别人的代码来学习编程一样，通过研究别人构建有效组件的案例是个不错的办法。实际上在计算机
吴恩达深度学习课程作业--C1W2 HELLOTREE1
1.3-Reshapingarraysv=v.reshape((v.shape[0]*v.shape[1],v.shape[2]))#v.shape[0]=a;v.shape[1]=b;v.shape[2]=c
吴恩达深度学习学习笔记-7建立神经网络猪猪2000 吴恩达深度学习学习笔记神经网络深度学习人工智能机器学习
1.训练神经网络训练神经网络时，需要做许多决策。例如，有多少层网络每层含有多少个隐藏单元学习率各层采用哪些激活函数…这些决策无法一次决定好，通常在项目启动时，我们会先有一个初步想法，然后编码，并尝试运行这些代码，再根据结果完善自己的想法，改变策略。2.train/dev/testsets通常把数据分为训练集，验证集，测试集。我们用训练集数据训练模型，用验证集做holdoutcrossvalidat
【吴恩达深度学习】Keras tutorial - the Happy House 深海里的鱼(・ω<)★ 人工智能机器学习深度学习 keras 深度学习 tensorflow
Kerastutorial-theHappyHouseWelcometothefirstassignmentofweek2.Inthisassignment,youwill:LearntouseKeras,ahigh-levelneuralnetworksAPI(programmingframework),writteninPythonandcapableofrunningontopofsever
吴恩达深度学习第二课-第一周笔记及课后编程题 Giraffeee_ 吴恩达深度学习深度学习人工智能机器学习
笔记训练_开发_测试集小数据时代训练集/测试集的分配比例大致遵循70%/30%或训练集/开发集（或crossvalidationset）/测试集的分配比例大致遵循60%/20%/20%大数据时代只要开发集能够确定哪一个算法/模型有更好的表现，测试集能够无偏评估模型的性能，就称赋予了开发集、测试集足够的数据量了；训练集将被赋予更大比重的数据量。如：训练集/开发集/测试集的比率为98%/2%/2%注：
吴恩达深度学习--神经网络的优化(1) Kangrant 吴恩达深度学习
1.训练集，验证集，测试集选择最佳的Train/Dev/Testsets非常重要。除此之外，构建神经网络时，需要设置的参数很多：神经网络层数，神经元个数，学习率的大小。激活函数的选择等等。实际上很难第一次就确定好这些参数，大致过程是：先确定初始参数，构建神经网络模型，然后通过代码实现该模型，之后进行试验确定模型的性能。根据性能再不断调整参数，重复上述过程，直到让神经网络模型最优。由上述可知，深度学
计划1 JLcucumber
1.吴恩达DL2021(强推|双字)2021版吴恩达深度学习课程Deeplearning.ai_哔哩哔哩_bilibiliPart1神经网络与深度学习（6+19+12+8）共45Part2训练、开发、测试集（14+10+11）共35Part3机器学习策略（13+11）共24Part4计算机视觉（11+14+14+(5+6)）共50Part5序列模型（12+10+15）共372.经典网络模型论文ht
吴恩达深度学习笔记(50)-超参数训练的实践极客Array
超参数训练的实践：PandasVSCaviar（Hyperparameterstuninginpractice:Pandasvs.Caviar）到现在为止，你已经听了许多关于如何搜索最优超参数的内容，在结束我们关于超参数搜索的讨论之前，我想最后和你分享一些建议和技巧，关于如何组织你的超参数搜索过程。如今的深度学习已经应用到许多不同的领域，某个应用领域的超参数设定，有可能通用于另一领域，不同的应用领
2019年上半年收集到的人工智能迁移学习干货文章城市中迷途小书童
2019年上半年收集到的人工智能迁移学习干货文章迁移学习全面指南：概念、项目实战、优势、挑战迁移学习：该做的和不该做的事深度学习不得不会的迁移学习TransferLearning谷歌最新的PlaNet对强化学习以及迁移学习的意义及启发迁移学习时间序列分类如何提高强化学习的可靠性？迁移学习之最大分类器差异的无监督域适应吴恩达深度学习笔记(67)-迁移学习（Transferlearning)深度学习不
吴恩达深度学习intuition Karen_Yu_ 机器学习
这里是看吴恩达课程的一些记录和联想（因为以前听过，因此不会很细致，只做个人记录）课程链接首先提到trainingset,validationset(devset)，testset的分割问题。老师提到，最常用的划分方法传统方法是三七分（也就是training70%，validation+test30%，一般而言validation20%test10%），同时，这也是应对数据集不太大的时候的方法。也可
吴恩达深度学习笔记（2）-什么是神经网络（Neural Network）极客Array
什么是神经网络？(WhatisaNeuralNetwork)我们常常用深度学习这个术语来指训练神经网络的过程。有时它指的是特别大规模的神经网络训练。那么神经网络究竟是什么呢？在这个视频中，会讲解一些直观的基础知识。首先，让我们从一个房价预测的例子开始讲起。假设你有一个数据集，它包含了六栋房子的信息。所以，你知道房屋的面积是多少平方英尺或者平方米，并且知道房屋价格。这时，你想要拟合一个根据房屋面积预
吴恩达深度学习笔记(28)-网络训练验证测试数据集的组成介绍极客Array
从今天开始我们进入新的一个大方向了，改善深层神经网络：超参数调试、正则化以及优化，首先进入深度学习的一个新层面，先认识下在深度学习中的数据集的分类。之前可能大家已经了解了神经网络的组成的几个部分，那么我们将继续学习如何有效运作神经网络，内容涉及超参数调优，如何构建数据，以及如何确保优化算法快速运行，从而使学习算法在合理时间内完成自我学习。训练，验证，测试集（Train/Dev/Testsets）在
吴恩达深度学习-序列模型 3.10触发字监测 + 课程总结 prophet__
今天学习的是触发字检测，这个说起来可能有点学术，但是简单来说就是。hey,siri!然后你的手机就会亮起来，这就是触发字检测。首先，关于触发字检测还处于发展阶段，并没有一个以绝对优势取胜的算法。如果我们想建立一个算法，那么我们首先要知道数据集如何进行标记，如果从简单的结果来想，我们可以在每次完成一次触发字之后的那个时间设置为1，其他时间设置为0。但这样做是有一些问题的，因为大部分时间是不会触发的，
深度学习记录--矩阵维数蹲家宅宅深度学习记录深度学习矩阵人工智能
如何识别矩阵的维数如下图矩阵的行列数容易在前向和后向传播过程中弄错，故写这篇文章来提醒易错点顺便起到日后查表改错的作用本文仅作本人查询参考(摘自吴恩达深度学习笔记)
吴恩达深度学习笔记(36)-神经网络的梯度消失/梯度爆炸极客Array
梯度消失/梯度爆炸（Vanishing/Explodinggradients）训练神经网络，尤其是深度神经所面临的一个问题就是梯度消失或梯度爆炸，也就是你训练神经网络的时候，导数或坡度有时会变得非常大，或者非常小，甚至于以指数方式变小，这加大了训练的难度。这节课，你将会了解梯度消失或梯度爆炸的真正含义，以及如何更明智地选择随机初始化权重，从而避免这个问题。假设你正在训练这样一个极深的神经网络，为了
吴恩达深度学习笔记(45)-Adam 优化算法(Adam optimization) 极客Array
Adam优化算法(Adamoptimizationalgorithm)在深度学习的历史上，包括许多知名研究者在内，提出了优化算法，并很好地解决了一些问题，但随后这些优化算法被指出并不能一般化，并不适用于多种神经网络，时间久了，深度学习圈子里的人开始多少有些质疑全新的优化算法，很多人都觉得动量（Momentum）梯度下降法很好用，很难再想出更好的优化算法。所以RMSprop以及Adam优化算法，就是
吴恩达深度学习（六）带刺的小花_ea97
超参数调整第一课：调整过程调整神经网络的过程包含了对许多不同超参数的设置，那么怎么样为这些参数找到比较合适的设定值呢？准则和系统化进行超参数设置的技巧将帮助你更加快速有效的获得合适的超参数。在深度神经网络训练中，面对大量的超参数，包括学习速率α、动量超参数β1、Adam优化算法中的超参数β2和ε、网络层数以及每层网络中隐藏单元的数量、学习率衰减情况下不可能只有单一的学习率、mini-batch的大
2023-11-21时间记录多喝开水少熬夜学习计划与实际学习
2023-11-21时间记录期望：学Linux听英语课程深度学习阅读书籍，也可以练练字今天干了什么2023-11-21时间记录8:30（下床）10:00（开始学习）学习输出8:30（下床）洗漱煮蛋，9:45出门10:00（开始学习）10:00-11:30英语听力吴恩达深度学习deeplearning.ai+社交间歇休息：吃午饭+锻炼（走圈25min）14:00-15:30：学Linux-thrif
吴恩达深度学习Course1-Week(3) 木心 DeepLearning 神经网络深度学习机器学习
吴恩达深度学习Course1-Week(3)文章目录吴恩达深度学习Course1-Week(3)一、什么是神经网络NeuralNetwork?（1）由逻辑回归到神经网络（2）神经网络的符号规定（3）向量化Vectorization（4）向量化后伪编程Programing二、激活函数ActiveFunction（1）常用的四种激活函数（2）四种激活函数的导数Derivatives三、梯度下降法Gra
吴恩达深度学习Course1-Week(1)(2) 木心 DeepLearning 深度学习神经网络机器学习
吴恩达深度学习Course1-Week(1)(2)文章目录吴恩达深度学习Course1-Week(1)(2)一、影响神经网络的性能的因素二、逻辑回归(logisticregression)中的一些符号(Notation)规定三、逻辑回归中的激活函数四、损失函数(lossfunction)与成本函数(costfunction)五、梯度下降法(GradientDescent)六、前向传播(forwar
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s

吴恩达深度学习系列笔记：第二课 改善深层神经网络