大局观选手周弈帆

吴恩达《深度学习专项》笔记+代码实战（五）：深度学习的实践层面（数据集划分、偏差与方差、参数初始化、正则化）

学习提示

第二门课的知识点比较分散，开始展示每周的笔记之前，我会先梳理一下每周涉及的知识。

这一周会先介绍改进机器学习模型的基本方法。为了介绍这项知识，我们会学习两个新的概念：数据集的划分、偏差与方差问题。知道这两个概念后，我们就能够诊断当前机器学习模型存在的问题，进而找出改进的方法。

之后，我们会针对“高方差问题”，学习一系列解决此问题的方法。这些方法成为“正则化方法”。这周介绍的正则化方法有：添加正则化项、dropout、数据增强、提前停止。

最后，我们会学习几项和神经网络相关的技术。我们会学习用于加速训练的输入归一化，用于防止梯度计算出现问题的参数带权初始化，以及用于程序调试的梯度检查。

课堂笔记

数据集的划分：训练集/开发集/测试集

在使用机器学习的数据集时，我们一般把数据集分成三份：训练集、开发集、测试集。

机器学习是比深度学习的父集，表示一个更大的人工智能算法的集合。

开发集（Development Set）另一种常见的称呼是验证集(Validation Set)，即保留交叉验证（Hold-out Cross Validation)。

三种数据集的定义

它们三者的区别如下：

	训练集	开发集	测试集
用于优化参数	是	否	否
训练时可见？	是	是	否
最终测试时可见？	是	是	是

训练集就是令模型去拟合的数据。对于神经网络来说，我们把某类数据集输入进网络，之后用反向传播来优化网络的参数。这个过程中用的数据集就是训练集。

开发集是我们在训练时调整超参数时用到的数据集。我们会测试不同的超参数，看看模型在开发集上的性能，并选择令模型在开发集上最优的一组超参数。

测试集是我们最终用来评估模型的数据集。当模型在测试集上评测时，我们的模型已经不允许修改了。我们一般把模型在测试集上的评测结果作为模型的性能评估标准。

在我们之前实现的小猫分类项目中，准确来说，我们使用的不叫测试集，而叫做开发集，因为我们是根据那个"testing set"优化网络超参数的。

有人把训练集比作上课，开发集比作作业，测试集比作考试。如果你理解了这三个数据集的原理，会发现这个比喻还是挺贴切的。事实上，由于测试集不参与训练，一个机器学习项目可以没有测试集，就像我们哪怕不经过考试，也可以学到知识一样。

人们很容易混淆开发集/测试集。很多论文甚至把开发集作为最终的性能评估结果。但是很多时候审稿人对这些细节并不在意。作为有操守的研究者，应该严肃地区分开发集与测试集。

通过划分数据得到训练/测试集

在前一个机器学习纪元，人们通常会拿到一批数据，按7:3的比例划分训练集/测试集（对于没有超参数要调的模型），或者按6:2:2的比例划分训练集/开发集/测试集。

而在深度学习时代，数据量大大增加。实际上，开发集和测试集的目的都是评估模型，而评估模型所需的数据没有训练需要得那么多。所以，当整体的数据规模达到百万级，甚至更多时，我们只需要各取10000组数据作为开发集和测试集即可。

收集来自不同分布的数据集

除了从同一批数据中划分出不同的数据集，还有另一种得到训练集、测试集的方式——从不同分布中收集数据集。

分布是统计学里的概念，这里可以理解成不同来源，内容的“平均值”差别很大的数据。

比如，假如我们要为某个小猫分类器收集小猫的图片，我们的训练图片可以是来自互联网，而开发和验证的数据来自用户用收集拍摄的图片。

注意，由于开发集和验证集都是用来评估的，它们应该来自同一个分布。

偏差与方差

机器学习中，我们的模型会出现高偏差或/和高误差的问题。我们需要设法判断我们的模型是否有这些问题。

偏差(bias)与方差(variance)是统计学里的概念，前者表示一组数据离期待的平均值的差距，后者表示数据的离散程度。

试想一个射击运动员在打靶。偏差与打靶的总分数有关，因为总分越高，意味着每次射击都很靠近靶心；方差与选手的发挥稳定性有关，比如一个不稳定的选手可能一次9环，一次6环。

高偏差意味着模型总是不能得到很好的结果，高方差意味着模型不能很好地在所有数据集上取得好的结果（即只能在某些特定数据集上表现较好，在其他数据集上都表现较差）。

我们把高偏差的情况叫做“欠拟合”（可能模型还没有训练完，所以表现不够好），把高方差的情况叫做“过拟合”（模型在训练集上训练过头了，结果模型只能在训练集上有很好的表现，在其他数据集上表现偶读不好）。

让我们看课件里的一个点集分类的例子：

上图显示了欠拟合、“恰好”、过拟合这三种情况。

对于欠拟合的情况来说，一条直线并不足以把两类点分开，这个模型的整体表现较差。

对于过拟合的情况来说，模型过分追求训练集上的正确，结果产生了一条很奇怪的曲线。由于训练数据是有噪声（数据的标签不完全正确）的，这样的模型在真正的测试上可能表现不佳。

让我们人类来划分的话，最有可能给出的是中间那种划分结果。在这个模型中，虽然有些训练集中的点划分错了，但我们会认为这个模型在绝大多数数据上更合适。当我们用更多的测试数据来测试这个模型时，中间那幅图的测试结果肯定是这三种中最好的。

要判断机器学习模型是否存在高偏差或高方差的现象，可以去观察模型的训练集误差和开发集误差。以下是一个判断示例：

情况	1	2	3	4
训练集误差	1%	15%	0.5%	15%
开发集误差	11%	16%	1%	30%
诊断结果	高方差	高偏差	低误差、低方差	高误差、高方差

也就是说，如果开发集和训练集的表现差很多，就说明是高方差；如果训练集上的表现都很差，就是高偏差。

上面这些结论建立在最优误差——贝叶斯误差(Beyas Error)是0%的基础上下的判断。很多时候，仅通过输入数据中的信息，是不足以下判断的。比如告诉一个人是长头发，虽然这个人大概率是女生，但我们没有100%的把握说这是女生。如果我们知道人群中留长发的90%是女生，10%是男生，那么在这个“长头发分辨性别”的任务里的贝叶斯误差就是10%。

假如上面那个任务的贝叶斯误差是15%，那么我们认为情况2也是一个低误差的情况，因为它几乎做到了最优的准确率。

改进机器学习的基本方法

通过上一节介绍的看训练误差、测试误差的方式，我们能够诊断出我们的模型当前是否存在高偏差或高误差的问题。这一节我们来讨论如何解决这些问题。

首先检查高偏差问题。如果模型存在高偏差，则应该尝试使用更复杂的网络、更多增加训练时间。

确保模型没有高偏差问题后，才应该开始检查模型的方差。如果模型存在高方差，则应该增加数据或使用正则化。

此外，使用更合理的网络架构，往往对降低误差和方差都有效。

正则化 (Regularization)

其实正则化的意思就是“为防止过拟合而添加额外信息的过程”。在机器学习中，一种正则化方法是给损失函数添加一些与参数有关的额外项，以调整参数在梯度下降中的更新过程。正则化的数学原理我们会在下一节里学习，这一节先认识一下正则化是怎么操作的。

先看一下，对于简单的逻辑回归，我们应该怎么加正则化项。

原来，逻辑回归的损失函数是:

$\frac{1}{m}\Sigma_{i=1}^{m}L(\hat{y}, y)$

现在我们给它加一个和参数 $w$ 有关的项

$\frac{1}{m}\Sigma_{i=1}^{m}L(\hat{y}, y) + \frac{\lambda}{2m}||w^2||_2$

最右边那个 $\frac{\lambda}{2m}||w||^2_2$ 就是额外加进来的正则项。其中 $\lambda$ 是一个可调的超参数， $w||^2_2$ 表示计算向量 $w$ 的l2范数，即:

$||w||^2_2 = \Sigma_{j=1}^{n_x}w_j^2$

也就是说，某向量的l2范数就是它所有分量平方再求和。

类似地，其实向量也有1范数，也可以用来做正则化：

$||w||_1 = \Sigma_{j=1}^{n_x}|w_j|$

1范数就是向量所有分量取绝对值再求和。

使用1范数做正则化会导致参数中出现很多0。人们还是倾向使用l2范数做正则化。

看到这里，大家或许会有问题： $b$ 也是逻辑回归的参数，为什么 $w$ 有正则项， $b$ 就没有？实际上，要给 $b$ 加正则项也可以。但是在大多数情况下，参数 $w$ 的数量远多于 $b$ , 和 $b$ 相关的正则项几乎不会影响到最终的损失函数。为了让整个过程更简洁一些， $b$ 的正则项就被省略了。（其实就是程序员们偷懒了，顺便让计算机也偷个懒）

当情况推广到神经网络时，添加正则项的方法是类似的，只不过参数 $W$ 变成了矩阵而已。对应的正则项如下：
$\frac{\lambda}{2m}\Sigma_{l=1}^{L}||W^{[l]}||_F^2$

其中,

$||W^{[l]}||_F^2 = \Sigma_{i=1}^{n^{[l]}}\Sigma_{j=1}^{n^{[l-1]}}(W_{ij}^{[l]})^2$

这种矩阵范数叫做Frobenius范数，叫它F-范数就行了。

如之前的文章所述，对于梯度下降算法来说，定义损失函数的根本目的是为了对参数求导。当参数 $W$ 在损失函数里多了一项后，它的导数会有怎样的变化呢？

对于某参数向量 $w$ 来说，其实它的导数就多了一项：

$KaTeX parse error: No such environment: align* at position 8: \begin{̲a̲l̲i̲g̲n̲*̲}̲ & (\frac{\lamb…$

大家知道为什么正则项分母里有一个2了吗？没错，这是为了让求出来的导数更简洁一点。反正有超参数 $\lambda$ ，分母多个2少个2没有任何区别。

最终，参数向量 $w$ 会按如下的方式更新：
$KaTeX parse error: No such environment: align* at position 8: \begin{̲a̲l̲i̲g̲n̲*̲}̲ w &:= w - \alp…$

仔细一看，其实相较之前的梯度更新公式，只是 $w$ 的系数从 $1$ 变成了 $1-\frac{\alpha\lambda}{m}$ 。因此，用l2范数做正则化的方法会被称为 “权重衰减(Weight Decay)” , $\lambda$ 在某些编程框架中直接就被叫做weight decay。

为什么正则项能减少方差

回忆前面见过的“高方差”的拟合曲线：

这个曲线之所以能够那么精确地过拟合，是因为这个曲线的参数过多。如果这个曲线的参数少一点，那么它就不会有那么复杂的形状，过拟合现象也会得到缓解。

也就是说，如果神经网络简单一点，每个参数对网络的影响小一点，那么网络就更难去过拟合那些极端的数据。

添加了正则项后，网络的参数都受到了一定的“惩罚”。因此，参数会倾向于变得更小，从而产生刚刚提到的减轻过拟合的效果。

Dropout (失活)

Dropout 怎么翻译都不好听，直接保持英文吧。

还有一种常用的正则化方法叫做 dropout，即随机使神经网络中的一些神经元“失活”。如下图所示：

我们可以令所有神经元在每轮训练中有50%的几率失活。在某轮训练中，神经网络的失活情况可能会像上图中下半部分所示：那些打叉的神经元不参与计算和，整个神经网络变得简单了许多。

在实现时，我们常常使用一种叫做"Inverted dropout"的实现方法。Inverted dropout 的思想是：对于神经网络的每一层，生成一个表示有哪些神经元失活的“失活矩阵”，再用这个矩阵去乘上这一层的激活输出（做乘法即令没有失效的激活保持原值，失效的激活取0）

其实现代码如下：

d = np.random.rand(a.shape[0], a.shape[1]) < keep_prob
a = a * d
a /= keep_prob

这段代码中，d是失活矩阵。该矩阵通过一个随机数矩阵和一个保留概率keep_prob做小于运算生成。np.random.rand可以生成一个矩阵，其中矩阵中每个数都会均匀地随机出现在0~1之间。这样，每个数小于keep_prob的概率都是keep_prob。比如keep_prob=0.8,那么每个神经元都有80%的几率得到保留，20%的几率被丢弃。

做完小于运算后，d其实是一个bool值矩阵。拿bool矩阵和一个普通矩阵做逐对乘法，就等于bool矩阵为True的地方取普通矩阵的原值，bool矩阵为False的地方取0。

最后，得到了丢弃掉某些神经元的激活输出a后，我们还要做一个操作a /= keep_prob。可以想象，如果我们丢掉了一些神经元，那么整个激活输出的“总和”的期望会变小。比如keep_prob为0.8，那么整个输出的大小都近似会变为原来的0.8倍。为了让输出的期望不变，我们要把激活输出除以keep_prob。

如前文所强调的，dropout一次是对一层而言的。也就是说，每一层可以有不同的keep_prob。

dropout可能对损失函数变化曲线产生影响。一般调试时，如果损失函数一直在降，就说明训练算法没什么问题。但是，加入dropout后，由于每次优化的参数不太一样了，损失函数可能不会单调递减。因此，为了调试神经网络，可以先关闭dropout。确定损失函数确实在下降后，再开启它。

由于在CV（计算机视觉）中，图像的输入规模都很大，数据不足而引起过拟合是一件常见的事。因此，dropout在CV中被广泛应用。

注意，dropout是一种训练策略。在测试的时候，不需要使用dropout。

和刚才一样，我们再来探讨一下为什么dropout能够生效。有了dropout，意味着神经网络的权重不能集中在部分神经元上，因为某个神经元随时都可能会失效。因此，神经网络的权重会更加平均。更加平均，意味着计算参数平方的l2范数会更小。也就是说，dropout令参数更平均，起到了和刚刚添加l2正则类似的效果。

其他正则化方法

数据增强

比如对于一幅图片，我们可以翻转、旋转、缩进，以生成“更多”的训练数据。

提前停止 (early stopping)

随着训练的进行，网络的损失函数可能越来越小，但开发集上的精度会越来越高。只是因为训练得越久，参数就会越来越大，即越来越倾向于过拟合。提早结束训练，能够让参数取到一个合适的值。

提前中止也有一些不好的地方。在机器学习中，训练模型可以分成两部分：让损失函数更小、防止模型过拟合。我们通常会对这两部分独立地进行优化，即控制优化方法不变，改变正则化方法；或者改变减小梯度的算法，保证模型不进行任何正则化操作。而提前中止实际上混淆了减小损失函数和防止模型过拟合这两件事，不利于采取更多的调试策略。

独立地看待问题的两个变量，这种方法叫做 “正交化”。这种控制变量的思想在科研、编程，甚至是处理人生中各种各样的问题时都很适用。

输入归一化(Normalization)

参考网上的翻译，我把 Normalization 翻译为归一化，Standardization 翻译成标准化。其实这两个中文翻译经常会混着用，翻译上的区别不用太在意。

我们应该尽可能让输入向量的每一个分量都满足标准正态分布。如果你对数学不熟，我们可以来看一个例子:

假设我们每个输出张量长度为2，即有两个分量: $x_1, x_2$ 。我们可以认为每个输入向量就是一个二维平面上的点。统计完了所有样本，我们或许可以发现所有样本的 $x_1$ 位于[0, 5]这个区间， $x_2$ 位于[0, 3]这个区间，两个区间长度不一。而且，数据在 $x_1$ 上比较分散, $x_2$ 上比较靠拢。这个训练样本显得非常凌乱。

如果我们让输入归一化，使输入向量的每一个分量都满足了正态分布，难么这些数据可能会长得这样:

这样，数据分布的区间不仅长度相同，而且离散的程度也相同了。

归一化可以通过以下方式实现：

$\mu=\frac{1}{m}\Sigma_{i=1}^{m}x^{(i)} \\ x := (x - \mu) \\ \sigma^2=\frac{1}{m}\Sigma_{i=1}^{m}(x^{(i)})^2 \\ x := x / \sigma$

注意，上式中我们计算方差时没有减均值，这是因为第二步更新的时候均值已经被减掉了。

简单概括这个数学公式，就是“减均值，除方差”。

如果输入数据在各个分量上更加均匀，梯度下降的优化会更加便捷。

这里直接记住这个结论，不用过于在意它的数学原理。一种比较直观的解释是：如果分量大小不一，则参数w的每个分量的“作用”也会大小不一。如果w的每个分量都按差不多的“步伐”进行更新，那些“影响力更大”的w分量就会更新得过头，而“影响力更小”的w分量就更新得不足。这样，梯度下降法要耗费更多步才能找到最优值。

梯度爆炸/弥散

如果一个神经网络的层数过深，可能会出现梯度极大或极小的情况，让我们看看这是怎么回事。

假设我们有上图这样一个“很深”的神经网络。我们取消所有的激活函数（即 $g (x) = x$ ），取消所有参数 $b$ （即 $b = 0$ ），那么这个网络的公式就是

$\hat{Y}=A=W^{{L}}W^{{L-1}}...W^{{1}}X$

其中 $W^{{L-1}}...W^{{1}}$ 都是2x2的矩阵。我们不妨假设它们都是同样的矩阵，那么上式可以写成

$\hat{Y}=A=W^{{L}}(W')^{L-1}X$

如果 $W^{'}$ 长这个样子：

$W'=\left[ \begin{matrix} &1.5 &0 \\ &0 &1.5 \\ \end{matrix} \right]$

那么经过 $L - 1$ 次矩阵乘法后，这个矩阵就变成这个样子：

$W'^{L-1}=\left[ \begin{matrix} &1.5^{L-1} &0 \\ &0 &1.5^{L-1} \\ \end{matrix} \right]$

由于这里的数值是随着 $L$ 成指数增长的， $L$ 稍微取一个大一点的值，最后算出来的 $A$ 就会特别大。回顾一下前面的知识，最后一层的 $d Z = A - Y$ ，而 $d W$ 又是和 $d Z$ 相关的。最后的 $A$ 很大，会导致所有算出来的梯度都很大。

这里要批评一下这门课。课堂里有一个地方讲得不够清楚：为什么 $A$ 很大，参数的梯度 $d W$ 就很大。课堂里只是带了一句，说可以用类似的方法得出 $d W$ 的增长规律和 $A$ 类似。但这里漏了一条逻辑链：算梯度的时候， $A$ 和 $d W$ 有关联性（ $d Z$ 和 $A$ 有关， $d W$ 和 $d Z$ 有关）。直观上来看， $A$ 很大，不能推出梯度就很大。中间还是欠缺了一步逻辑推理的。学东西和看东西一定要养成批判性思维，考据每一步推理的合理性。

同理，如果矩阵里的数不是1.5，而是0.5，那么整个公式的数值就会指数级下降，从而导致梯度近乎“消失”。

梯度问题的解决方法——加权初始化

推荐一篇讲这个知识点的英文文章：https://towardsdatascience.com/weight-initialization-in-neural-networks-a-journey-from-the-basics-to-kaiming-954fb9b47c79.

刚刚我们讲到，梯度会爆炸或者弥散，本质原因是矩阵 $W$ 的“大小”大于了1或者小于了1，从而使最后的计算结果过大或过小。但反过来想，如果我们令每一层的输出 $A^{[l]}$ 的“大小”都在1附近，那么是不是就不会有梯度指数级变化的问题了呢？

让我们来看看该如何让每层输出 $A^{[l]}$ 都保持一个合适的值。我们考察

$Z=w_1x_1+w_2x_2...+w_nx_n$

这个简单的网络。从直觉上看，如果 $n$ 越大，则公式里的项越多， $Z$ 也越大。事实上，用统计学知识计算过后，能知道：若 $w_i$ 都是满足标准正态分布的，则 $Z$ 的方差是 $n$ 。我们不希望 $Z$ 的值太大或太小，希望能通过修改 $w_i$ 的大小，让 $Z$ 的方差尽可能等于1。

为了做到这一点，我们可以在 $w$ 的初始化方法上做一点文章。我们可以改变 $w$ 的方差，以改变 $Z$ 的方差。其实，我们只要令 $w$ 的方差为 $\frac{1}{n}$ 就行了。用代码表示就是这样的:

W_l = np.random.randn(shape) * np.sqrt(1 / n[l-1])

别忘了哦，这里n[l-1]是第l层参数矩阵W_l的长度，即每个参数向量 $w$ 的长度。

但由于每一层的输入不是 $Z$ ，而是 $A = g (Z)$ ，我们在算方差时还要考虑到激活函数 $g$ 的影响。

经 Kaiming He 等人的研究，使用 Relu 时，初始化的权重用np.sqrt(2/ n[l-1])比较好，即用下面的代码：

W_l = np.random.randn(shape) * np.sqrt(2 / n[l-1])

对于 tanh 函数，令权重为 np.sqrt(1 / n[l-1])就行，这叫做 Xavier Initialization。还有研究表明用 np.sqrt(2 / (n[l-1]+n[l]))也行。

总结一下，为了缓解梯度爆炸或梯度弥散的问题，可以对参数使用加权初始化。只需要初始化时多乘一个小系数，这个问题就能很大程度上有所缓解。

梯度检查

进行深度学习编程时，梯度计算是比较容易出BUG的地方。我们可以用一种简单的方法来近似估计一个函数的导数，并将其与我们算出来的导数做一个对比，看看我们的导数计算函数有没有写错。

导数估计公式如下：

$f'(\theta) \approx \frac{f(\theta+\epsilon)-f(\theta+\epsilon)}{2\epsilon}$

这个式子随 $\epsilon$ 收敛得较块，准确来说:

$KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ f(\theta+\epsi…$

当 $lim_{\epsilon \to 0}$ 时，上面(2)式的收敛速度是 $O(\epsilon)$ ，(3)式的收敛速度是 $O(\epsilon^2)$ 。选用(3)式估计导数是一个更好的选择。

我们可以利用上面的公式调试深度学习中的梯度计算。其步骤如下：

把所有参数 $W^{[1]}, b^{[1]}...$ reshape 成向量，再把所有向量拼接(concatenate) 成一个新向量 $\theta$ 。
现在，我们有损失函数 $J(\theta)$ 和导数 $d\theta$ 。
对于某一个参数 $\theta_i$ ，计算其导数估计值：

$\hat{d_{\theta_i}}=\frac{J(\theta_0, ..., \theta_i+\epsilon, ...)-J(\theta_0, ..., \theta_i-\epsilon, ...)}{2\epsilon}$

比较 $\hat{d_{\theta_i}}, d_{\theta_i}$ ，计算误差值：

$error=\frac{||\hat{d_{\theta_i}}-d_{\theta_i}||_2}{||\hat{d_{\theta_i}}||_2\cdot||d_{\theta_i}||_2}$

遍历所有 $\theta_i$ ，做这个检查。

一般可以令 $\epsilon=10^{-7}$ 。如果error在 $10^{-7}$ 这个量级，则说明导数计算得没什么问题。 $10^{-5}$ 可能要注意一下，而 $10^{-3}$ 则大概率说明这里的导数算得有问题。

使用此梯度检查法时，有一些小提示：

不要每次训练的都用，只在训练前调试用。

梯度检查确实很慢，计算复杂度是 $\Omega(|\theta|^2)$ （这里没有用大O标记，因为复杂度的下界是那个值，而不是上界）（这个复杂度是 $|\theta|$ 乘上算一遍推理的运算量得来的。推理至少遍历每个参数一遍，所以推理的复杂度是 $\Omega(|\theta|)$ ）。

如果梯度检查出现了问题，尝试debug具体出错的参数。
别忘记损失函数中的正则化项。
无法调试 dropout.
有时候，当 $W, b$ 过大时导数的计算才会出现较大的误差。可以尝试先训练几轮网络，等参数大了，再做一次梯度检查。

总结

这堂课的信息量十分大。让我们总结一下：

数据集划分
- 训练集/开发集/测试集的意义
- 怎么去根据数据规模划分不同的数据集
偏差与方差
- 如何分辨高偏差与高方差问题
- 高偏差与高方差问题的一般解决思路
正则化
- 权重衰减
- dropout
- 数据增强
- 提前停止
梯度问题
- 梯度问题的产生原因
- 缓解梯度问题的方法
梯度检查的实现

这堂课中，正则化和参数带权初始化是两个很重要的话题，展开来的话有很多东西要学。过段时间，我会在课堂内容的基础上，对这些知识进行拓展介绍。

代码实战

在本周的代码实战中，我们将继续以点集分类任务为例，完成参数初始化和正则化两项任务。

参数初始化

项目地址：https://github.com/SingleZombie/DL-Demos/tree/master/dldemos/Initialization

在参数初始化问题中，我们要探究不同初始化方法对梯度更新的影响。假设我们有下面这样一个点集分类数据集：

我们分别用下面三种方法去初始化参数：

if initialization == 'zeros':
    self.W.append(np.zeros((neuron_cnt[i + 1], neuron_cnt[i])))
elif initialization == 'random':
    self.W.append(
        np.random.randn(neuron_cnt[i + 1], neuron_cnt[i]) * 5)
elif initialization == 'he':
    self.W.append(
        np.random.randn(neuron_cnt[i + 1], neuron_cnt[i]) *
        np.sqrt(2 / neuron_cnt[i]))
self.b.append(np.zeros((neuron_cnt[i + 1], 1)))

如果使用0初始化的话，就会出现之前学过的“参数对称性”问题。这个网络几乎学不到任何东西：

如果用比较大的值初始化的话，网络的梯度一直会很高，半天降不下来，学习速度极慢：

最后，我们使用比较高端的He Initialization.网络能够顺利学到东西了。

正则化

项目地址：https://github.com/SingleZombie/DL-Demos/tree/master/dldemos/Regularization

正则化要解决的是过拟合。为了“迫使”网络产生过拟合，我“精心”构造一个点集分类数据集：

在这个分类任务中，比较理想的分类结果是一条直线。但是，由于表示噪声的蓝点比较多，网络可能会过拟合训练数据。

在这项实验中，我们将分别测试在“不使用正则化”、“使用正则项”、“使用dropout”这三种配置下网络的表现情况。

如我们所预计地，不使用正则化策略的网络会过拟合训练数据：

之后，我们按照公式，尝试给网络添加正则化项：

def gradient_descent(self, learning_rate):
    for i in range(self.num_layer):
        if self.weight_decay:
            LAMBDA = 4
            self.W[i] = (1 - learning_rate * LAMBDA / self.m
                          ) * self.W[i] - learning_rate * self.dW_cache[i]
            self.b[i] -= learning_rate * self.db_cache[i]
        else:
            self.W[i] -= learning_rate * self.dW_cache[i]
            self.b[i] -= learning_rate * self.db_cache[i]

def loss(self, Y: np.ndarray, Y_hat: np.ndarray) -> np.ndarray:
    if self.weight_decay:
        LAMBDA = 4
        tot = np.mean(-(Y * np.log(Y_hat) + (1 - Y) * np.log(1 - Y_hat)))
        for i in range(self.num_layer):
            tot += np.sum(self.W[i] * self.W[i]) * LAMBDA / 2 / self.m
        return tot
    else:
        return np.mean(-(Y * np.log(Y_hat) + (1 - Y) * np.log(1 - Y_hat)))

网络成功规避了过拟合。

接下来，我们来尝试使用dropout策略。在训练时，我们每层有50%的概率丢掉训练结果：

def forward(self, X, train_mode=True):
    if train_mode:
        self.m = X.shape[1]
    A = X
    self.A_cache[0] = A
    for i in range(self.num_layer):
        Z = np.dot(self.W[i], A) + self.b[i]
        if i == self.num_layer - 1:
            A = sigmoid(Z)
        else:
            A = get_activation_func(self.activation_func[i])(Z)
        if train_mode and self.dropout and i < self.num_layer - 1:
            keep_prob = 0.5
            d = np.random.rand(*A.shape) < keep_prob
            A = A * d / keep_prob
        if train_mode:
            self.Z_cache[i] = Z
            self.A_cache[i + 1] = A

    return A

同样，使用dropout后，我们也得到了一个比较满意的分类结果：

欢迎大家自行调试这两个项目~

你可能感兴趣的:(吴恩达深度学习,深度学习,人工智能)

《深度剖析：鸿蒙系统下智能NPC与游戏剧情的深度融合》人工智能深度学习
在游戏开发领域，鸿蒙系统的崛起为开发者们带来了前所未有的机遇与挑战。尤其是在开发基于鸿蒙系统的人工智能游戏时，实现智能NPC的行为逻辑与游戏剧情紧密结合，成为了打造沉浸式游戏体验的关键。鸿蒙系统作为一款面向全场景的分布式操作系统，具有强大的多设备协同能力和出色的性能表现。这为人工智能游戏的开发提供了坚实的基础，使得游戏能够在不同设备上流畅运行，并且实现数据的无缝同步。而人工智能技术的融入，则为游戏
《解锁华为黑科技：MindSpore+鸿蒙深度集成奥秘》人工智能深度学习
在数字化浪潮汹涌澎湃的当下，人工智能与操作系统的融合已成为推动科技发展的核心驱动力。华为作为科技领域的先锋，其AI开发框架MindSpore与鸿蒙系统的深度集成备受瞩目，开启了智能生态的新篇章。华为MindSpore：AI框架的创新先锋MindSpore自2019年诞生以来，迅速在AI领域崭露头角。它以其独特的设计理念和先进的技术架构，为开发者提供了全场景的AI开发支持。从设计理念上看，MindS
Python API接口君王的羔羊 Python AI python
人工智能机器人EverydayWechat老李API图灵机器人：http://www.turingapi.com/（需求实名制认证，并每天免费数量只有100条）青云客智能聊天机器人：http://api.qingyunke.com/（无须申请，无数量限制，但有点智障，分手神器。分手神器，慎用）智能闲聊（腾讯）：https://ai.qq.com/product/nlpchat.shtml(申请使用
pytorch实现cifar10多分类总结 L_pyu 人工智能 pytorch 分类
cifar-10简介：CIFAR-10是一个常用的图像分类数据集，每张图片都是3×32×32，3通道彩色图片，分辨率32×32。它包含了10个不同类别，每个类别有6000张图像，其中5000张用于训练，1000张用于测试。这10个类别分别为：飞机、汽车、鸟类、猫、鹿、狗、青蛙、马、船和卡车。CIFAR-10分类任务是将这些图像正确地分类到它们所属的类别中。对于这个任务，可以使用深度学习模型，如卷积
数据挖掘技术介绍柒柒钏数据挖掘数据挖掘人工智能
数据挖掘技术介绍分类聚类关联规则挖掘预测异常检测特征选择与降维文本挖掘序列模式挖掘深度学习集成学习数据挖掘（DataMining）是一种从大量数据中提取有用信息和模式的技术，旨在从数据中发现隐藏的规律、趋势或关系，从而为决策提供支持。分类定义：是一种监督学习方法，用于将数据分为不同的类别。功能：根据已标记的训练数据，学习一个模型，用于预测新数据的类别。方法：决策树、支持向量机、神经网络、逻辑回归、
深度学习在医疗影像诊断中的应用与实现 Evaporator Core #DeepSeek快速入门人工智能 #深度学习深度学习人工智能
引言随着人工智能技术的快速发展，深度学习在医疗领域的应用日益广泛，尤其是在医疗影像诊断方面。医疗影像数据量大、复杂度高，传统的诊断方法往往依赖于医生的经验，容易受到主观因素的影响。而深度学习通过自动学习特征，能够从海量数据中提取出有用的信息，辅助医生进行更精准的诊断。本文将探讨深度学习在医疗影像诊断中的应用，并通过代码示例展示如何实现一个简单的医疗影像分类模型。深度学习在医疗影像诊断中的应用1.图
图神经网络学习笔记—高级小批量处理（专题十四） AI专题精讲图神经网络入门到精通人工智能
小批量（mini-batch）的创建对于让深度学习模型的训练扩展到海量数据至关重要。与逐条处理样本不同，小批量将一组样本组合成一个统一的表示形式，从而可以高效地并行处理。在图像或语言领域，这一过程通常通过将每个样本缩放或填充为相同大小的形状来实现，然后将样本在一个额外的维度中分组。该维度的长度等于小批量中分组的样本数量，通常称为batch_size。由于图是能够容纳任意数量节点或边的最通用的数据结
1985-2024年地级市人工智能专利数据经管数据库人工智能
《地级市人工智能专利数据（1985-2024）》于2025年1月完成最新更新。数据聚焦于中国各地级市，时间跨度设定为1985年至2024年。在数据整理过程中，参照《关键数字技术专利分类体系（2023）》，依据其中“人工智能”类技术的专利分类号，结合国家知识产权局所提供的信息，对各地每年的专利申请展开搜索与匹配。在此基础上，从众多专利申请中精准筛选出属于“人工智能”类别的专利，并进行数量统计，数据涵
每天五分钟玩转深度学习PyTorch：基于GoogLeNet完成CAFIR10分类每天五分钟玩转人工智能深度学习框架pytorch 深度学习 pytorch 分类 GoogLeNet 人工智能 CAFIR10
本文重点前面我们终于使用pytorch搭建了GoogLeNet，本文我们使用该网络模型解决一个实际问题，也就是使用它完成CAFIR10分类，其实就这些任务而言，我们只要搭建好模型，然后把数据喂进去就行了，其它的地方都是一样的，就是网络模型不一样。代码
Deepseek:物理神经网络PINN入门教程天一生水water 神经网络人工智能深度学习
一、物理信息网络（PINN）的概念与原理1.定义与来源物理信息网络（Physics-InformedNeuralNetworks,PINN）是一种将物理定律（如偏微分方程、守恒定律等）嵌入神经网络训练过程的深度学习方法。其核心思想是通过神经网络同时拟合观测数据并满足物理约束，从而解决传统数值方法难以处理的高维、噪声数据或复杂边界条件问题。来源：PINN起源于对传统数值方法局限性的改进需求（如网格生
python实现KNN算法的手写数字识别：深入解析与完整项目流程快撑死的鱼 Python算法精解算法
随着人工智能和机器学习的快速发展，图像识别技术在多个领域得到广泛应用。而手写数字识别作为图像识别的典型场景之一，已经成为研究者和开发者学习、应用机器学习算法的经典项目。本文将深入解析如何使用Python编程语言，结合KNN（K-最近邻）算法实现手写数字识别系统。文章不仅介绍了算法的核心原理，还从用户交互、图像处理、数据预处理等多个角度对整个项目进行了全方位的讲解。读者通过本文，可以全面掌握手写数字
《今日AI-人工智能-编程日报》小亦工作室人工智能
1.AI行业动态1.1Manus通用智能体初成型，开启AIAgent新时代中泰证券发布研报称，首款通用型AI智能体Manus已问世，能够将复杂任务拆解为可执行的步骤链，并在虚拟环境中灵活调用工具，标志着AI从“Reasoner”走向“Agent”阶段。Manus的成功引发了开源复现潮，DeepSeek模型已被整合到OWL项目中，并在GAIA基准测试中表现接近Manus。1.2DeepSeek-R2
1章5节：大模型术语解读与从生成到推理的演进 DAT｜R科学与人工智能人工智能
在人工智能的浩瀚宇宙中，大模型正以前所未有的速度演进，推动着科技变革的新浪潮。从多模态到通用模型，再到行业模型，人工智能的边界不断拓展，为各行各业带来了全新的机遇与挑战。本篇文章将深入剖析大模型相关的核心术语，探讨其内涵、应用及发展趋势，并回顾大模型从生成到推理的演进历程，解析全球科技巨头与国内前沿企业在这一领域的竞争与创新。让我们一同探索大模型的演进脉络，把握智能时代的发展脉搏。一、剖析大模型相
深度学习项目--基于DenseNet网络的“乳腺癌图像识别”，准确率90%+，pytorch复现羊小猪~~ 深度学习网络 pytorch 人工智能 python 机器学习分类
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前言如果说最经典的神经网络，ResNet肯定是一个，从ResNet发布后，很多人做了修改，denseNet网络无疑是最成功的一个，它采用密集型连接，将通道数连接在一起；本文是基于上一篇复现DenseNet121模型，做一个乳腺癌图像识别，效果还行，准确率0.9+;CNN经典网络之“DenseNet”简介，源码研究与复现(pytorch)：
Microsoft Fabric 功能更新！更多智能优化，数据平台更强大
近期，微软MicrosoftFabric又更新了，大大增强了AI方面的功能。迅易科技作为微软13年来紧密的生态合作伙伴，为300+行业头部客户实施1000+项目。今天，我们带大家来看下，MicrosoftFabric有什么新玩法？一年前，微软正式推出了一款端到端数据平台，MicrosoftFabric（国际版）是一个集成一体化的平台，提供支持各种数据项目的人工智能驱动服务，帮助所有数据团队能够更快
数据分析及人工智能框架汇总 xihuanyuye 机器学习
一、数据分析二、人工智能1、Tensorflow1、简介TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统，其命名来源于本身的运行原理。Tensor（张量）意味着N维数组，Flow（流）意味着基于数据流图的计算，TensorFlow为张量从流图的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。Tenso
谈为什么KLA和Camtech公司为什么可以做到，半导体那边，晶圆，键合可以做到不管哪款新产品进来。编程2小时，上线后准确率可以直接做到99.9%、 *Major* 机器视觉
谈为什么KLA和Camtech公司为什么可以做到，半导体那边，晶圆，键合可以做到不管哪款新产品进来。编程2小时，上线后准确率可以直接做到99.9%、这么里面的AI原理没什么，还是这些公司把AI技术层面用出花了，一是他们有公司可能比较成立时间长，数据丰富。二是像AI深度学习网络冻结，或者自适应调参，都是一些AI技巧，他们用的比较好。三什么跨层特征解耦，实现的基础是他们对半导体理解比较深刻KLA和Ca
AI 之路——数据分析（1）Pandas小结与框架整理 Robin_Pi 机器学习之路数据分析数据分析 python 人工智能可视化
目录1.写在前面1.1AI之路：1.2工具/技能：2.数据分析2.1数据分析的流程2.2数据的基本操作方法2.2.1Pandas概览2.2.2使用Pandas操作数据的核心(1)选择数据(2)操作数据2.2.2数据详解3.写在最后1.写在前面主要是阶段性框架总结1.1AI之路：数据分析——机器学习——深度学习——CV/NLP1.2工具/技能：Python、NumPy、Pandas、Matplotl
PyTorch 深度学习实战（13）：Proximal Policy Optimization (PPO) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们介绍了Actor-Critic算法，并使用它解决了CartPole问题。本文将深入探讨ProximalPolicyOptimization(PPO)算法，这是一种更稳定、更高效的策略优化方法。我们将使用PyTorch实现PPO算法，并应用于经典的CartPole问题。一、PPO算法基础PPO是OpenAI提出的一种强化学习算法，旨在解决策略梯度方法中的训练不稳定问题。PPO通过
嵌入式人工智能应用- 第七章人脸识别数贾电子科技嵌入式人工智能应用人工智能
嵌入式人工智能应用`文章目录嵌入式人工智能应用1人脸识别1.1dlib介绍1.2dlib特点1.3dlib的安装与编译2人脸识别原理2.1ResNet3代码部署3.1安装[CUDAToolkit12.8](https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&Distribution=Ubunt
2025 年最值得收听的 AI 播客推荐！助你轻松掌握人工智能前沿动态！真智AI 人工智能开发语言机器学习
如今，几乎每个人都被告知需要提升技能，而当前许多组织最看重的技能之一就是人工智能（AI）。学习AI相关技能通常涉及数学、统计学和机器学习，但除此之外，你还需要了解行业趋势、业内人士的观点以及各大公司的动态。然而，学习并不意味着时刻都要埋头苦读！有时候，你需要给大脑一个喘息的机会，同时依然能获取有价值的信息。而收听AI相关的播客，就是一个轻松高效的方式。以下是2025年你必须关注的AI播客！1.Th
人工智能概念 zhangpeng455547940 计算机人工智能
机器学习、深度学习、大模型机器学习提供框架，使得系统可以从数据中学习算法：线性回归、逻辑回归、支持向量机、决策树、随机森林、K近邻算法深度学习是实现这一目标的工具，模仿人脑，使用多层神经网络进行学习算法：多层感知器、卷积神经网络、循环神经网络、长短期记忆网络大模型指参数量巨大的深度学习模型人工智能应用：自然语言处理、图像识别与生成、语音识别、政务与企业服务...
机器学习(二) 本文(2.5万字) | KNN算法原理及Python复现 | 小酒馆燃着灯机器学习算法 k近邻算法
文章目录一KNN算法原理二KNN三要素三机器学习中标准化四KNN分类预测规则五KNN回归预测规则六KNN算法实现方式七KDTree7.1构造KDtree7.2KDtree查找最近邻八KNN特点九KNN算法实现案例一案例二1.机器学习2.深度学习与目标检测3.YOLOv54.YOLOv5改进5.YOLOv8及其改进6.Python与PyTorch7.工具8.小知识点9.杂记一KNN算法原理K近邻分类
（十一）人工智能 - Python 教程 - Python元组星星学霸人工智能 -Python系列教程 python 搜索引擎开发语言
更多系列教程，每天更新更多教程关注：xxxueba.com星星学霸1元组（Tuple）元组是有序且不可更改的集合。在Python中，元组是用圆括号编写的。实例创建元组：thistuple=("apple","banana","cherry")print(thistuple)("apple","banana","cherry")2访问元组元素可以通过引用方括号内的索引号来访问元组元素：实例打印元组中
CES Asia2025新机制引关注，科技创新奖申报火热赛逸展张胜科技
随着2025第七届亚洲消费电子技术贸易展（赛逸展）“展位即门票”机制的推出，科技创新奖的申报工作也正式拉开帷幕。截至目前，已有数十家企业提交了申报材料，涵盖人工智能、物联网、智能硬件等多个热门领域。据了解，CESAsia2025科技创新奖旨在表彰在科技研发和产品创新方面取得卓越成就的企业。此次申报面向所有预订展位的参展企业，评审过程将由行业专家、院士，协会，学者和媒体代表共同参与，确保评选结果的公
再添殊荣！移远通信工业智能品牌宝维塔™斩获AI创新应用奖移远通信算力人工智能工业智能
12月24日，2024中国物联网产业大会暨第21届慧聪品牌盛会在深圳圆满落幕。会上，移远通信凭借其工业智能品牌宝维塔™在推动AI技术落地与应用创新方面的卓越贡献，获颁“AI创新应用奖”。作为科技发展的前沿力量，AI技术正深刻改变着各行各业的生产模式和效率，尤其在工业领域，展现出了巨大潜力。宝维塔™是移远通信精心打造的工业智能品牌，专注于将人工智能、边缘计算、机器视觉、深度学习、软件算法平台等前沿技
验证码识别：使用OCR技术识别图形验证码详解数据知道 2025年爬虫和逆向教程 ocr python 爬虫 OCR识别验证码识别图片验证码
文章目录一、基本原理二、所需工具2.1Python环境2.2图像处理库2.3OCR引擎2.4Python接口三、实现步骤3.1获取验证码图像3.2图像预处理3.3使用OCR进行字符识别3.4基本OCR识别样例四、提高识别准确率的方法4.1字符分割4.2使用深度学习模型4.3数据增强4.4集成多个OCR引擎五、实际应用中的注意事项六、总结验证码（CAPTCHA）是一种用于区分人类用户和自动化程序的安
2025扩展可能性采购和供应链管理使用AI报告100+份汇总解读|附PDF下载拓端研究室百度人工智能
原文链接：https://tecdat.cn/?p=40348在当今快速发展的商业环境中，采购和供应链管理领域正经历着深刻变革，人工智能（AI）技术的融入成为推动这一变革的关键力量。本报告汇总解读聚焦于AI在采购和供应链管理中的应用，深入剖析其发展现状、面临挑战与潜在机遇。通过对大量数据的分析，揭示AI技术在实际应用中的具体表现，如不同行业的采用比例、应用场景等。本报告汇总洞察基于文末135份供应
从LayerNorm到RMSNorm：深度学习归一化技术的进化！qwen2.5的技术。 KangkangLoveNLP qwen2.5 深度学习人工智能 transformer pytorch 自然语言处理 python 神经网络
RMSNorm（RootMeanSquareNormalization，均方根归一化）是一种用于深度学习的归一化技术，是LayerNorm（层归一化）的一种改进。它通过计算输入数据的均方根（RootMeanSquare,RMS）来进行归一化，避免了传统归一化方法中均值和方差的计算1.LayerNorm（层归一化）LayerNorm（层归一化）是一种用于深度学习的归一化技术，主要用于稳定训练过程、加
【Agent实战】发票信息识别提取专家（AI +OCR技术结合ChatGPT4o能力+结构化prompt（CoT、One-shot等）+Knowledge - RAG+API工具Agent项目实践）姚瑞南大模型落地探索及agent搭建 RAG技术应用探索 prompt实战应用案例人工智能 ocr prompt AIGC chatgpt gpt agi
本文原创作者：姚瑞南AI-agent大模型运营专家，先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗；多年人工智能行业智能产品运营及大模型落地经验，拥有AI外呼方向国家专利与PMP项目管理证书。（转载需经授权）目录1.项目背景2.项目目标定性：定量：3.发票核心字段概述4.关键举措5.Workflow设计思路及编排5.1整体设计思路5.2流程搭建及解读流程解读：代码节点：解析agent数据
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc