dby_freedom

改善深层神经网络：超参数调试、正则化以及优化-- DeepLearning.ai 学习笔记（2-1）

课程笔记地址：https://blog.csdn.net/column/details/26931.html
课程代码地址：https://github.com/duboya/DeepLearning.ai-pragramming-code/tree/master
欢迎大家fork及star！(-^O-)

改善深层神经网络：超参数调试、正则化以及优化 —深度学习的实践方面

1. 训练、验证、测试集

对于一个需要解决的问题的样本数据，在建立模型的过程中，我们会将问题的data划分为以下几个部分：

训练集（train set）：用训练集对算法或模型进行训练过程；
验证集（development set）：利用验证集或者又称为简单交叉验证集（hold-out cross validation set）进行交叉验证，选择出最好的模型；
测试集（test set）：最后利用测试集对模型进行测试，获取模型运行的无偏估计。

小数据时代

在小数据量的时代，如：100、1000、10000的数据量大小，可以将data做以下划分：

无验证集的情况：70% / 30%；
有验证集的情况：60% / 20% / 20%；
通常在小数据量时代，以上比例的划分是非常合理的。

大数据时代

但是在如今的大数据时代，对于一个问题，我们拥有的data的数量可能是百万级别的，所以验证集和测试集所占的比重会趋向于变得更小。

验证集的目的是为了验证不同的算法哪种更加有效，所以验证集只要足够大能够验证大约2-10种算法哪种更好就足够了，不需要使用20%的数据作为验证集。如百万数据中抽取1万的数据作为验证集就可以了。

测试集的主要目的是评估模型的效果，如在单个分类器中，往往在百万级别的数据中，我们选择其中1000条数据足以评估单个模型的效果。

100万数据量：98% / 1% / 1%；
超百万数据量：99.5% / 0.25% / 0.25%（或者99.5% / 0.4% / 0.1%）

Notation

建议验证集要和训练集来自于同一个分布，可以使得机器学习算法变得更快；
如果不需要用无偏估计来评估模型的性能，则可以不需要测试集。

训练集与测试集必须来自同一数据分布，不然测试集性能无法衡量模型偏差，后续Ng会介绍当

对开发集和测试集上的数据进行检查，确保他们来自于相同的分布。使得我们以开发集为目标方向，更正确地将算法应用到测试集上。

“在深度学习的时代，因为需求的数据量非常大，现在很多的团队，使用的训练数据都是和开发集和测试集来自不同的分布。”

后面课程中Ng也提到，如做一个鉴定猫狗图片的分类器，训练数据往往是高清图片，但用户上传的照片质量则普遍偏低，这时候，train set、dev set来自高清图片，测试集来自用户上传照片，势必造成分类效果很差。

此时的做法通常有两种：一种是将收集到的少量实际数据如10000张与实际高清训练数据200000张照片打乱再依次分配到train set, dev set, test set。
虽然这种方式实现了数据的平均分布，dev set 与 test set也来自同一分布。但由于实际数据集占总数据集比例很小，此时，训练出的模型更倾向于高清照片分类，所以这种做法效果并不好。（不推荐）

另一种做法是采用训练集全部采用高清照片，dev set与test set采用实际数据集，或者从实际数据集中分出5000张加入到训练数据集中。
此时，好处是：开发集全部来自手机图片，瞄准目标；坏处则是：训练集和开发、测试集来自不同的分布。
从长期来看，这样的分布能够给我们带来更好的系统性能。（推荐)

通过估计学习算法的偏差和方差，可以帮助我们确定接下来应该优先努力的方向。但是当我们的训练集和开发、测试集来自不同的分布时，分析偏差和方差的方式就有一定的不同。

2. 偏差、方差

对于下图中两个类别分类边界的分割：

从图中我们可以看出，在欠拟合（underfitting）的情况下，出现高偏差（high bias）的情况；在过拟合（overfitting）的情况下，出现高方差（high variance）的情况。

在bias-variance tradeoff 的角度来讲，我们利用训练集对模型进行训练就是为了使得模型在train集上使 bias 最小化，避免出现underfitting的情况；

但是如果模型设置的太复杂，虽然在train集上 bias 的值非常小，模型甚至可以将所有的数据点正确分类，但是当将训练好的模型应用在dev 集上的时候，却出现了较高的错误率。这是因为模型设置的太复杂则没有排除一些train集数据中的噪声，使得模型出现overfitting的情况，在dev 集上出现高 variance 的现象。

所以对于bias和variance的权衡问题，对于模型来说是一个十分重要的问题。

例子：

几种不同的情况：

以上为在人眼判别误差在0%的情况下，该最优误差通常也称为“贝叶斯误差”，如果“贝叶斯误差”大约为15%，那么图中第二种情况就是一种比较好的情况。

上图中optimal (Bayes) error约为0，Bayes error是理论极限达到的最小错误，由于人非常擅长处理图像、音频之类的非结构化数据处理，其处理性能已逼近理论极限，故而常用人在这类事务上处理的error当做是理论上能达到的最小error，这也往往是train set训练模型力求达到的目标。

如果训练集距离Bayes error差距较大，则证明模型没有训练好，存在high bias，如果train set error $\approx$ Bayes error，则证明不存在high bias，此时，再分析dev set error，若dev set error $\approx$ train set error，则证明不存在high variance, 若dev set error >> train set error，则证明存在过拟合。

High bias and high variance的情况

上图中第三种bias和variance的情况出现的可能如下：

即训练的模型既存在高偏差(high bias)，又存在高方差(high variance)。这种情况在高维空间更常见：在高维空间中更容易存在部分空间过拟合，部分空间欠拟合现象。

3. 机器学习的基本方法

在训练机器学习模型的过程中，解决High bias 和High variance 的过程：

1.是否存在High bias ?
- 增加网络结构，如增加隐藏层数目；
- 训练更长时间；
- 寻找合适的网络架构，使用更大的NN结构；
2.是否存在High variance？
- 获取更多的数据；
- 正则化（ regularization）；
- 寻找合适的网络结构；

在大数据时代，深度学习对监督式学习大有裨益，使得我们不用像以前一样太过关注如何平衡偏差和方差的权衡问题，通过以上方法可以使得在不增加另一方的情况下减少一方的值。

机器学习中variance 与 bias 往往存在一个权衡取舍的问题，要么增大bias，来减少variance（如logistic regression减少输入变量），要么增大variance，来减少bias(如random forest增大tree的数量)。

而neural networks往往不需这样的权衡，可在不增大bias的情况下减少variance，同理也可在不增大variance的情况下减少bias。

4. 正则化（regularization）

正则化只用在模型训练过程中，在dev set与test set上是关闭的。
“正则化机制，如 Dropout 和 L1/L2 权重正则化，在测试时是关闭的”。

5. 为什么正则化可以减小过拟合

假设下图的神经网络结构属于过拟合状态：

对于神经网络的Cost function：

$J(w^{[1]}, b^{[l]}, \cdots , w^{[L]}, b^{[L]}) = \frac{1}{m}\sum_{i=1}^{m}l(\hat{y}^{(i)},y^{(i)}) + \frac{\lambda}{2m}\sum_{l=1}^{L} || w^{[l]}||_{F}^{2}$

加入正则化项，直观上理解，正则化因子 $\lambda$ 设置的足够大的情况下，为了使代价函数最小化，权重矩阵W就会被设置为接近于0的值。则相当于消除了很多神经元的影响，那么图中的大的神经网络就会变成一个较小的网络。

当然上面这种解释是一种直观上的理解，但是实际上隐藏层的神经元依然存在，但是他们的影响变小了，便不会导致过拟合。

数学解释：

假设神经元中使用的激活函数为 $g (z) = t a n h (z)$ ，在加入正则化项后：

当 $\lambda$ 增大，导致 $W^{[l]}$ 减小， $Z^{[l]} = W^{[l]}a^{[l−1]}+b^{[l]}$ 便会减小，由上图可知，在z较小的区域里， $t a n h (z)$ 函数近似线性，所以每层的函数就近似线性函数，整个网络就成为一个简单的近似线性的网络，从而不会发生过拟合。

注：由以上分析也应当得知，lambda应该设定合理，不然lambda过大的话，整个neural network变成了线型函数的叠加，依旧是线型函数，模型表达能力大大降低。

6. Dropout 正则化

Dropout（随机失活）就是在神经网络的Dropout层，为每个神经元结点设置一个随机消除的概率，对于保留下来的神经元，我们得到一个节点较少，规模较小的网络进行训练。

实现Dropout的方法：反向随机失活（Inverted dropout）

首先假设对 layer 3 进行dropout：

keep_prob = 0.8  # 设置神经元保留概率
d3 = np.random.rand(a3.shape[0], a3.shape[1]) < keep_prob
a3 = np.multiply(a3, d3)
a3 /= keep_prob

这里解释下为什么要有最后一步：a3 /= keep_prob

依照例子中的keep_prob = 0.8 ，那么就有大约20%的神经元被删除了，也就是说 $a^{[3]}$ 中有20%的元素被归零了，在下一层的计算中有 $Z^{[4]} = W^{[4]}a^{[3]} + b^{[4]}$ ，所以为了不影响 $Z^{[4]}$ 的期望值，所以需要 $W^{[4]}⋅a^{[3]}$ 的部分除以一个keep_prob。

Inverted dropout通过对“a3 /= keep_prob”,则保证无论keep_prob设置为多少，都不会对 $Z^{[4]}$ 的期望值产生影响。

Notation：在测试阶段不要用dropout，因为那样会使得预测结果变得随机。

dropout主要用于CV方向，由于CV方向input size很大，输入了太多像素，以至于没有足够多的数据，所以一直存在过拟合，故而常用到dropout，几乎成了默认设置！

但dropout是一种正则化手段，除非算法表现出过拟合，不然不用使用dropout，故而dropout在其他方向应用很少。因为即便是模型表现出了过拟合，也有很多方法可以用来对抗过拟合（比如使用L2正则式（很常用），使用L1正则式，加入更多数据，更改网络机构，提前结束训练）等方法。

一般输入层很少用到dropout，即对于输入层常设置keep_prob =1；
drop out实施时候，可采用不同方式，一种方式是针对不同层设置不同的keep_prob，对应层神经元数目过多的时候，设置keep_prob较小（如0.5-0.8），对应层神经元数目过少的时候，设置keep_porb较大，如设置0.8，0.9等，这时候每层设置的keep_prob也是一个超参数，需要使用交叉验证寻找超参，增加了训练难度；
另一种方法只针对神经元数目较多的层设置相同的drop_prob，这时候，只增加了一个keep_prob超参。
因为引入dropout之后程序，cost function难以明确定义，程序变得难以调试，故而Ng的通常做法是先关闭dropout，设置keep_prob=1，运行代码，保证损失函数J单调递减，然后再打开dropout函数，希望在dropout过程中，代码并未引入bug。

7. 理解 Dropout

另外一种对于Dropout的理解。

这里我们以单个神经元入手，单个神经元的工作就是接收输入，并产生一些有意义的输出，但是加入了Dropout以后，输入的特征都是有可能会被随机清除的，所以该神经元不会再特别依赖于任何一个输入特征，也就是说不会给任何一个输入设置太大的权重。

所以通过传播过程，dropout将产生和L2范数相同的收缩权重的效果。

对于不同的层，设置的keep_prob也不同，一般来说神经元较少的层，会设keep_prob =1.0，神经元多的层，则会将keep_prob设置的较小。

缺点：

dropout的一大缺点就是其使得 Cost function不能再被明确的定义，以为每次迭代都会随机消除一些神经元结点，所以我们无法绘制出每次迭代 $J (W, b)$ 下降的图，如下：

使用Dropout：

关闭dropout功能，即设置 keep_prob = 1.0；
运行代码，确保 $J (W ， b)$ 函数单调递减；
再打开dropout函数。

8. 其他正则化方法

数据扩增（Data augmentation）：通过图片的一些变换，得到更多的训练集和验证集；

Data augmentation是一种常用方法，会在第三课中详细讲述，大致有对称变换等方式。

Early stopping：在交叉验证集的误差上升之前的点停止迭代，避免过拟合。这种方法的缺点是无法同时解决bias和variance之间的最优。

这种方法Ng并不推荐用，因为按照Ng在第三课中讲到的正交性原则，设计、训练模型的时候应该使调整bias与调整variance的方法分开，互不影响，这样在模型出现hig bias or high variance的时候就可以针对问题进行单独处理而不会影响另一方。

9. 归一化输入

对数据集特征 $x_1$ , $x_2$ 归一化的过程：

计算每个特征所有样本数据的均值： $\mu = \frac{1}{m}\sum_{i=1}^{m}x^{(i)}$
减去均值得到对称的分布： $\mu$ ；
归一化方差： $\sigma^2 = \frac{1}{m}\sum_{i=1}^{m}x^{(i)^2}$ , $\sigma^2$

这是一种高斯归一化方法。

使用归一化的原因：

由图可以看出不使用归一化和使用归一化前后Cost function 的函数形状会有很大的区别。

在不使用归一化的代价函数中，如果我们设置一个较小的学习率，那么很可能我们需要很多次迭代才能到达代价函数全局最优解；如果使用了归一化，那么无论从哪个位置开始迭代，我们都能以相对很少的迭代次数找到全局最优解。

10. 梯度消失与梯度爆炸

如下图所示的神经网络结构，以两个输入为例：

上面的情况对于导数也是同样的道理，所以在计算梯度时，根据情况的不同，梯度函数会以指数级递增或者递减，导致训练导数难度上升，梯度下降算法的步长会变得非常非常小，需要训练的时间将会非常长。

在梯度函数上出现的以指数级递增或者递减的情况就分别称为梯度爆炸或者梯度消失。

梯度消失带来的问题是梯度无法有效回传，当从最后一层算出loss后，最后几层还能进行梯度下降，但越往前回传，梯度改变量越小，还没到中间就接近于0，造成前面的层无法得到训练，其最终结果就是虽然层数很多，但是前面层得不到训练，模型最终依旧是表现为浅层模型（只有最后几层起到作用）。

而梯度爆炸则直接使得前面层变化太大，导致参数数值溢出，最终前面层参数表现为Nan。

其实梯度爆炸和梯度消失问题都是因为网络太深，网络权值更新不稳定造成的，本质上是因为梯度反向传播中的连乘效应。对于更普遍的梯度消失问题，可以考虑用Relu激活函数取代sigmoid函数。另外，LSTM的结构设计也可以改善RNN的梯度消失问题。

注：上面图片最早是从知乎某答案上截图过来，其原因解释比较简答，但不影响管中窥豹，从梯度更新反向传播的公式来看：
$\begin{array}{l}{\frac{\partial C}{\partial b_{1}}=\frac{\partial C}{\partial y_{4}} \frac{\partial y_{4}}{\partial z_{4}} \frac{\partial z_{4}}{\partial x_{4}} \frac{\partial x_{4}}{\partial z_{3}} \frac{\partial z_{3}}{\partial x_{3}} \frac{\partial x_{3}}{\partial x_{2}} \frac{\partial x_{2}}{\partial z_{1}} \frac{\partial z_{1}}{\partial b_{1}}} \\ {=\frac{\partial C}{\partial y_{4}} \sigma^{\prime}\left(z_{4}\right) w_{4} \sigma^{\prime}\left(z_{3}\right) w_{3} \sigma^{\prime}\left(z_{2}\right) w_{2} \sigma^{\prime}\left(z_{1}\right)}\end{array}$
其反向传播表达式虽然看起来很长，其实质上就 3 块内容：

a. 损失函数导数: $\frac{\partial C}{\partial y_{4}}$ ；

b. 激活函数导数: $\frac{\partial y_{i}}{\partial z_{i}}$ ；

c. 权重参数: $\frac{\partial z_{i}}{\partial x_{i}}$ ；

因此，从这三者组合不难理解，若要避免梯度消失或者梯度爆炸，从权重角度考虑可以加入 Batch normalization，另外联调损失函数与权重激活函数也是一种很好的方式，这也是为什么损失函数的选择要配合激活函数一起选择会有更好的表现原因，下面再简单进一步阐述一下。

当激活函数采用 sigmoid 函数，损失函数采用 MSE 时会出现梯度消失。原因如下：

(1) MSE对参数的偏导
$\frac{\partial c}{\partial w}=(a-y) \sigma(z)^{\prime} x$
$\frac{\partial c}{\partial b}=(a-y) \sigma(z)^{\prime}$
(2) corss-entropy对参数的偏导
$\frac{\partial c}{\partial w}=\frac{1}{n} \sum x(\sigma(z)-y)$
$\frac{\partial c}{\partial b}=\frac{1}{n} \sum(\sigma(z)-y)$

由上述公式可以看出，在使用MSE时，w、b的梯度均与sigmoid函数对z的偏导有关系，而sigmoid函数的偏导在自变量非常大或者非常小时，偏导数的值接近于零，这将导致w、b的梯度将不会变化，也就是出现所谓的梯度消失现象。

而使用 cross-entropy 时，w、b 的梯度就不会出现上述的情况，而且使用交叉熵损失函数配合 sigmoid 函数带来一个附加优势，即反向回传时候的梯度与误差（预测值与实际值之差）成正比，这样更有利于加速模型的训练。

具体可参考： https://www.cnblogs.com/pinard/p/6437495.html

常用的用于解决梯度消失和梯度爆炸的方法如下所示：

使用 ReLU、LReLU、ELU、maxout 等激活函数
sigmoid函数的梯度随着x的增大或减小和消失，而ReLU不会。

使用批规范化
通过规范化操作将输出信号 x 规范化到均值为 0，方差为 1 保证网络的稳定性.从上述分析分可以看到，反向传播式子中有 w 的存在，所以 w 的大小影响了梯度的消失和爆炸，Batch Normalization 就是通过对每一层的输出规范为均值和方差一致的方法，消除了 w 带来的放大缩小的影响，进而解决梯度消失和爆炸的问题。

梯度爆炸比梯度消失更容易解决，也更容易判定，如果出现梯度爆炸，其经过BP参数更新，w会出现指数级增长（如上分析），导致最终w数值溢出，会造成前层神经网络出现很多Nan，这时候便可以判定是否出现梯度爆炸。

解决办法就是利用gradient clipping，对w设置一个上线，当达到这个上限之后就对其进行缩放，保证w不至于太大。

做gradient clipping有很多方法，在RNN编程实践的时候提到一种简单的方法，即设置上下线[-N, +N]，当达到这个上下线的时候就用上下线阈值替代w。对于梯度消失问题，在RNN结构中是我们首要关心的问题，也更难解决。

对于梯度消失问题，在RNN的结构中是我们首要关心的问题，也更难解决；虽然梯度爆炸在RNN中也会出现，但对于梯度爆炸问题，因为参数会指数级上升，会让我们的网络参数变得很大，得到很多的Nan或者数值，所以梯度爆炸是很容易发现的，我们的解决方法就是用梯度修剪，也就是观察梯度变量，如果其大于某个阈值，则对其进行缩放，保证它不会太大。

11. 利用初始化缓解梯度消失和爆炸问题

以一个单个神经元为例子：

由上图可知，当输入的数量n较大时，我们希望每个 $w_i$ 的值都小一些，这样它们的和得到的z也较小。

这里为了得到较小的 $w_i$ ，设置 $Var(w_i) = \frac{1}{n}$ ，这里称为Xavier initialization。
对参数进行初始化：

WL = np.random.randn(WL.shape[0],WL.shape[1])* np.sqrt(1/n)

这么做是因为，如果激活函数的输入x近似设置成均值为0，标准方差1的情况，输出z也会调整到相似的范围内。虽然没有解决梯度消失和爆炸的问题，但其在一定程度上确实减缓了梯度消失和爆炸的速度。

不同激活函数的 Xavier initialization：

激活函数使用Relu： $Var(w_i) = \frac{2}{n}$
激活函数使用tanh： $Var(w_i) = \frac{1}{n}$
其中n是输入的神经元个数，也就是 $n^{[l−1]}$ 。

12. 梯度的数值逼近

使用双边误差的方法去逼近导数：

由图可以看出，双边误差逼近的误差是0.0001，先比单边逼近的误差0.03，其精度要高了很多。

涉及的公式：

双边导数：

$f^{'}(\theta) = \lim_{\epsilon \rightarrow 0} = \frac{f(\theta + \epsilon) - f(\theta - \epsilon)}{2\epsilon}$

误差： $O(\epsilon^2)$

单边导数：

$f^{'}(\theta) = \lim_{\epsilon \rightarrow 0} = \frac{f(\theta) - f(\theta - \epsilon)}{\epsilon}$

误差： $O(\epsilon)$

13. 梯度检验

下面用前面一节的方法来进行梯度检验。

连接参数

因为我们的神经网络中含有大量的参数： $W^{[1]}$ , $b^{[1]}$ , $\cdots$ , $W^{[L]}$ , $b^{[L]}$ ，为了做梯度检验，需要将这些参数全部连接起来，reshape成一个大的向量 $\theta$ 。

同时对 $dW^{[1]}$ , $db^{[1]}$ , $\cdots$ , $dW^{[L]}$ , $db^{[L]}$ 执行同样的操作。

进行梯度检验

进行如下图的梯度检验：

判断 $d\theta_{approx} \approx d\theta$ 是否接近。

判断公式：
$\frac{\parallel d\theta_{approx} - d\theta \parallel_2}{\parallel d\theta_{approx}\parallel_2 + \parallel d\theta \parallel_2}$

其中，" $\parallel \cdot \parallel_2$ "表示欧几里得范数，它是误差平方之和，然后求平方根，得到的欧氏距离。

14. 实现梯度检验 Notes

不要在训练过程中使用梯度检验，只在debug的时候使用，使用完毕关闭梯度检验的功能；
如果算法的梯度检验出现了错误，要检查每一项，找出错误，也就是说要找出哪个 $d\theta_{approx}[i]$ 与 $d θ$ 的值相差比较大；
不要忘记了正则化项；
梯度检验不能与dropout同时使用。因为每次迭代的过程中，dropout会随机消除隐层单元的不同神经元，这时是难以计算dropout在梯度下降上的代价函数J；
在随机初始化的时候运行梯度检验，或许在训练几次后再进行。

注：补充参考自：
https://blog.csdn.net/koala_tree/article/details/78125697

【OpenAI官方课程】第一课：GPT-Prompt 的构建原则指南 euffylee ChatGPT Prompt官方课程 gpt prompt 人工智能
欢迎来到ChatGPT开发人员提示工程课程（ChatGPTPromptEngineeringforDevelopers）！本课程将教您如何通过OpenAIAPI有效地利用大型语言模型（LLM）来创建强大的应用程序。本课程由OpenAI的IsaFulford和DeepLearning.AI的AndrewNg主讲，深入了解LLM的运作方式，提供即时工程的最佳实践，并演示LLMAPI在各种应用程序中的使
Coursera | Andrew Ng (02-week2-2.10)—局部最优的问题 ZJ_Improve 深度学习正则化以及优化深度学习吴恩达局部最优深度学习
该系列仅在原课程基础上部分知识点添加个人学习笔记，或相关推导补充等。如有错误，还请批评指教。在学习了AndrewNg课程的基础上，为了更方便的查阅复习，将其整理成文字。因本人一直在学习英语，所以该系列以英文为主，同时也建议读者以英文为主，中文辅助，以便后期进阶时，为学习相关领域的学术论文做铺垫。-ZJCoursera课程|deeplearning.ai|网易云课堂转载请注明作者和出处：ZJ微信公众
6、5 门关于 AI 和 ChatGPT 的免费课程，带您从 0-100 AI算法蒋同学一起来学习下ChatGPT吧人工智能 chatgpt
5门关于AI和ChatGPT的免费课程，带您从0-100想在2024年免费了解有关AI和ChatGPT的更多信息吗？图片由DALLE3提供活着是多么美好的时光啊。还有什么比现在更适合了解生成式人工智能（尤其是ChatGPT）等人工智能元素的呢！许多人对这个行业感兴趣，但有些人需要更多关于如何到达那里的知识。该博客为您提供了来自哈佛、IBM、DeepLearning.AI等可信机构的免费课程列表。让
吴恩达深度学习-学习笔记p1-p6 丢了橘子的夏天深度学习学习笔记
哔哩哔哩网站视频-[双语字幕]吴恩达深度学习deeplearning.ai网站：up主：mHarvey，视频：[双语字幕]吴恩达深度学习deeplearning.ai一.p11.1欢迎二.p21.2什么是神经网络1.举例：根据面积预测房价假设有六个房子的房屋面积和价格，根据这个数据集，房屋面积预测房价的函数，这些是一个简单的神经网络神经元的功能就是输入面积完成线性运算，取不小于0的值，最后得到预测
【吴恩达机器学习】第一周课程笔记 Estella_07 机器学习笔记人工智能
Hello，这里是小梁。下面是我近期学习机器学习的笔记，出发点是希望对自己起到一个督促和输出的作用如果你对我的笔记感兴趣欢迎Like，有不足之处也欢迎评论留言B站【2022吴恩达机器学习Deeplearning.ai课程】笔记参考【吴恩达《MachineLearning》精炼笔记】1机器学习的定义与分类1.1监督学习Supervisedlearning1.2无监督学习Unsupervisedlea
Coursera | Andrew Ng (01-week-2-2.11)—向量化 ZJ_Improve 深度学习深度学习吴恩达吴恩达深度学习
该系列仅在原课程基础上部分知识点添加个人学习笔记，或相关推导补充等。如有错误，还请批评指教。在学习了AndrewNg课程的基础上，为了更方便的查阅复习，将其整理成文字。因本人一直在学习英语，所以该系列以英文为主，同时也建议读者以英文为主，中文辅助，以便后期进阶时，为学习相关领域的学术论文做铺垫。-ZJCoursera课程|deeplearning.ai|网易云课堂转载请注明作者和出处：ZJ微信公众
ML学习安排和资源链接 Nice night #ML吴恩达机器学习
第一阶段：学习前置数学知识机器学习的数学基础_二进制人工智能的博客-CSDN博客第二阶段：认知机器学习吴恩达机器学习【2022中文版教程全集】_哔哩哔哩_bilibili视频5h，看了一点发现后面没字幕了，这个(强推|双字)2022吴恩达机器学习Deeplearning.ai课程_哔哩哔哩_bilibili视频19h。但是这个是属于新课，所以还是先看第三阶段上：仔细了解机器学习视频链接：[中英字幕
吴恩达《ChatGPT Prompt Engineering for Developers》学习笔记 stay_foolish12 人工智能
来自：口仆本笔记是deeplearning.ai最近推出的短期课程《ChatGPTPromptEngineeringforDevelopers》的学习总结。1引言总的来说，当前有两类大语言模型（LLM）：「基础LLM」和「指令微调LLM」。基础LLM基于大量文本数据训练而成，核心思想为预测一句话的下一个单词（即词语接龙）。基于语料的限制，有时会返回不符合预期的结果（如上图所示）。指令微调LLM基于
Assignment | 04-week1 -Convolutional Neural Networks: Application Part_2 ZJ_Improve 深度学习吴恩达-Assignment 汇总深度学习吴恩达卷积神经网络 tensorflow
该系列仅在原课程基础上课后作业部分添加个人学习笔记，如有错误，还请批评指教。在学习了AndrewNg课程的基础上，为了更方便的查阅复习，将其整理成文字。因本人一直在学习英语，所以该系列以英文为主，同时也建议读者以英文为主，中文辅助，以便后期进阶时，为学习相关领域的学术论文做铺垫。-ZJCoursera课程|deeplearning.ai|网易云课堂转载请注明作者和出处：ZJ微信公众号-「SelfI
【机器学习小记】【平面数据分类】deeplearning.ai course1 3rd week programming LittleSeedling #初学深度学习机器学习神经网络
带有一个隐藏层的平面数据分类数据集介绍数据集形状模型搭建参数初始化前向传播隐藏层输出层反向传播输出层隐藏层梯度下降更新参数预测其他np.dot()与np.multiply()的区别结果使用简单逻辑回归测试不同的隐藏层神经元数测试其他数据集原始数据集测试不同的隐藏层神经元数目标：带有一个隐藏层的平面数据分类神经网络参考自：【中文】【吴恩达课后编程作业】Course1-神经网络和深度学习-第三周作业数
Coursera | Andrew Ng (02-week-1-1.3)—机器学习基础 ZJ_Improve 深度学习正则化以及优化深度学习吴恩达机器学习深度学习吴恩达 coursera
该系列仅在原课程基础上部分知识点添加个人学习笔记，或相关推导补充等。如有错误，还请批评指教。在学习了AndrewNg课程的基础上，为了更方便的查阅复习，将其整理成文字。因本人一直在学习英语，所以该系列以英文为主，同时也建议读者以英文为主，中文辅助，以便后期进阶时，为学习相关领域的学术论文做铺垫。-ZJCoursera课程|deeplearning.ai|网易云课堂转载请注明作者和出处：ZJ微信公众
进大厂全靠自学，微软&头条实习生现身说法：我是这样自学深度学习的丨课程传送门... QbitAl
作者SannyKim郭一璞编译量子位出品|公众号QbitAI跟着网络资料自学、刷MOOC是许多人学深度学习的方式，但深度学习相关资源众多，应该从哪儿开始学呢？富有自学经验的GitHub用户SannyKim贡献出了一份深度学习自学指南。她自学成才，有Udacity、deeplearning.ai、Coursera的一大堆课程认证，甚至连大学都是上的以自学、MOOC著称的Minerva大学，自学卓有成
吴恩达机器学习Deeplearning.ai课程学习笔记(Supervised Machine Learning Regression and Classification---week1) 智能提桶工程师人工智能学习
一、机器学习定义：机器学习即Machinelearning，涉及很多学科，简单点来说，就是使用计算机通过“学习“大量的数据模拟实现人类的行为，也就是让计算机自己学习到一些所谓的”知识与技能“（例如什么是苹果？什么是香蕉？），而且能够通过一些算法组织其实现不断学习不断完善自身的性能与知识架构，换句话说，让计算机越来越”知识渊博“，也就是-----人工智能。二、机器学习分类：机器学习一般分为监督学习与
大手笔！吴恩达一口气开放了 3 个 AIGC 教程。。机器学习社区自然语言机器学习 AIGC 人工智能自然语言处理大模型算法
一个月前，DeepLearning.ai创始人吴恩达与OpenAI开发者IzaFulford联手推出了一门面向开发者的技术教程：ChatGPT提示工程。该教程总共分为9个章节，总一个多小时，里面主要涵盖：提示词最佳实践、评论情感分类、文本总结、邮件撰写、文本翻译、快速搭建一个聊天机器人等等。你除了能在这个教程里面学到如何使用Prompt，你还能学到GPT接口调用开发知识。一个月时间过去了，因课程质
GitHub Copilot Chat将于12月全面推出；DeepLearning.AI免费新课 go2coding AI日报 github copilot 人工智能
AI新闻GitHubCopilotChat将于12月全面推出，提升开发者的生产力摘要：GitHub宣布将于12月全面推出GitHubCopilotChat，这是GitHubCopilot的一个新功能，旨在帮助开发者编写代码。它能够集成到开发者的桌面IDE环境中，并能够根据上下文联想出后文，不仅限于代码缺省补充和纠错。与此同时，CopilotChat还能够与开发者进行对话，提供更加细致的人机交互体验
【深度学习】Coursera的TensorFlow课程练习题精华部分风度78
大家好，这次给大家翻译的是来自Coursera，由deeplearning.ai提供的TensorFlowinPractice的课程系列的QUIZ部分本文来源：www.kesci.com该系列课程共分为4个专项一、人工智能、机器学习和深度学习的TensorFlow简介二、TensorFlow中的卷积神经网络三、TensorFlow中的自然语言处理四、序列、时间序列与预测原教程链接在此：Tensor
sheng的学习笔记-【目录】【中文】【deplearning.ai】【吴恩达课后作业目录】 coldstarry 吴恩达作业-深度学习人工智能
学习吴恩达的深度学习，用于记录笔记知识目录和引用文章原文见下面，但已经变为收费的：【目录】【中文】【deplearning.ai】【吴恩达课后作业目录】_吴恩达深度学习何宽-CSDN博客免费的用于学习的github地址，包含笔记和代码，资料来源于深度学习GitHub-fengdu78/deeplearning_ai_books:deeplearning.ai（吴恩达老师的深度学习课程笔记及资源）机
微调大型语言模型(一)：为什么要微调(Why finetune)? -派神- NLP Langchain ChatGPT 语言模型人工智能自然语言处理 chatgpt
今天我们来学习Deeplearning.ai的在线课程微调大型语言模型(一)的第一课：为什么要微调(Whyfinetune)。我们知道像GPT-3.5这样的大型语言模型(LLM)它所学到的知识截止到2021年9月，那么如果我们向ChatGPT询问2022年以后发生的事情，它可能会产生“幻觉”从而给出错误的答案，再比如我们有一些关于企业的某些产品的业务数据，但是由于ChatGPT没有学习过这些数据，
2022吴恩达机器学习Deeplearning.ai课程编程作业C1_W2: Linear Regression alterego2380 机器学习 python numpy 机器学习线性回归人工智能
PracticeLab:LinearRegressionWelcometoyourfirstpracticelab!Inthislab,youwillimplementlinearregressionwithonevariabletopredictprofitsforarestaurantfranchise.Outline1-Packages2-Linearregressionwithonevar
LangChain 手记 Conclusion结语从流域到海域大语言模型 langchain
整理并翻译自DeepLearning.AI×LangChain的官方课程：ConclusionConclusion结语本系列短课展示了大量使用LangChain构建的大语言模型应用，包括处理用户反馈、文档上的问答系统甚至使用LLM来决定发起外部工具的调用（比如搜索）来回答复杂问题。使用LangChain的好处在于能很大程度上提升开发效率，仅需要适量代码，就可以实现复杂的llm应用。课程作者希望大家
卷积神经网络之一维卷积、二维卷积、三维卷积 bebr 机器学习卷积神经网络一维二维
1.二维卷积图中的输入的数据维度为14×1414×14，过滤器大小为5×55×5，二者做卷积，输出的数据维度为10×1010×10（14−5+1=1014−5+1=10）。如果你对卷积维度的计算不清楚，可以参考我之前的博客吴恩达深度学习笔记（deeplearning.ai）之卷积神经网络（CNN）（上）。上述内容没有引入channel的概念，也可以说channel的数量为1。如果将二维卷积中输入的
LangChain手记 Agent 智能体从流域到海域大语言模型 langchain 人工智能
整理并翻译自DeepLearning.AI×LangChain的官方课程：Agent（源代码可见）“人们有时会将LLM看作是知识库，因为它被训练所以记住了来自互联网或其他地方的海量信息，因而当你向它提问时，它可以回答你的问题。有一个更加有用的认知模式是将LLM看作是一个推理引擎，如果提供给他文本块或者额外信息，它可以理由从互联网或者其他地方学会的背景知识利用新信息来帮助回答问题或者进行文本推理或者
LangChain手记 Evalutation评估从流域到海域大语言模型 langchain 人工智能
整理并翻译自DeepLearning.AI×LangChain的官方课程：Evaluation（源代码可见）基于LLM的应用如何做评估是一个难点，本节介绍了一些思路和工具。“从传统开发转换到基于prompt的开发，开发使用LLM的应用，整个工作流的评估方式需要重新考虑，本节会介绍很多激动人心的概念。”Evaluation评估构建一个上节课介绍过的QAchain：不同之处仅在于加了一个参数：chai
DeepLearning.ai学习笔记（一）神经网络和深度学习--Week4深层神经网络 marsggbo 机器学习神经网络深度学习前向传播反向传播 Andrew-ng
一、深层神经网络深层神经网络的符号与浅层的不同，记录如下：-用L表示层数,该神经网络L=4-n[l]表示第l层的神经元的数量，例如n[1]=n[2]=5,n[3]=3,n[4]=1-a[l]表示第l层中的激活函数,a[l]=g[l](z[l])二、前向和反向传播1.第l层的前向传播输入为a[l−1]输出为a[l],cache(z[l])矢量化表示：Z[l]=W[l]⋅A[l−1]+b[l]A[l]
LangChain手记 Question Answer 问答系统从流域到海域大语言模型 langchain
整理并翻译自DeepLearning.AI×LangChain的官方课程：QuestionAnswer（源代码可见）本节介绍使用LangChian构建文档上的问答系统，可以实现给定一个PDF文档，询问关于文档上出现过的某个信息点，LLM可以给出关于该信息点的详情信息。这种使用方式比较灵活，因为并没有使用PDF上的文本对模型进行训练就可以实现文档上的信息点问答。本节介绍的Chain也比较常用，它涉及
LangChain手记 Chains 从流域到海域 langchain 人工智能
整理并翻译自DeepLearning.AI×LangChain的官方课程：Chains（源代码可见）Chains直译链，表达的意思更像是对话链，对话链的背后是思维链LLMChain（LLM链）首先介绍了一个最简单的例子，LLMChain：将一个大语言模型和prompt模板组合起来调用LLMChain，即可得到一个LLMChain对象，该对象的run实现的功能即给定输入自动使用prompt模板生成p
LangChain手记 Memory 从流域到海域大语言模型 langchain
整理并翻译自DeepLearning.AI×LangChain的官方课程：MemoryMemory使用openai的API调用GPT都是单次调用，所以模型并不记得之前的对话，多轮对话的实现其实是将前面轮次的对话过程保留，在下次对话时作为输入的message数组的一部分，再将新一轮对话的提问也放入message数组，再发起一次API调用，即构手动建对话流（以上笔者注）。构建对话流（LangChain
LangChain手记 Models,Prompts and Parsers 从流域到海域大语言模型 langchain
整理并翻译自DeepLearning.AI×LangChain的官方课程：Models,PromptsandParsers模型，提示词和解析器（Models,PromptsandParsers）模型：大语言模型提示词：构建传递给模型的输入的方式解析器：获取模型输入，转换为更为结构化的形式以在下游任务中使用为什么使用提示词模板提示词会非常长且具体在可以的时候能直接复用提示词LangChain也为常用
使用 Gradio 构建生成式 AI 应用程序(一): 图片内容读取app -派神- NLP 自然语言处理人工智能自然语言处理深度学习神经网络机器学习
今天我们来学习DeepLearning.AI的在线课程：BuildingGenerativeAIApplicationswithGradio，该课程主要讲述利用gradio来部署机器学习算法应用程序,今天我们来学习第一课：Imagecaptioningapp，该课程主要讲述如何从图片中读取图片的内容信息，如下图所示：今天我们会使用huggingface的Salesforce/blip-image-
深度学习阶段性回顾猫咪的白手套深度学习人工智能
本文针对过去两周的深度学习理论做阶段性回顾，学习资料来自吴恩达老师的2021版deeplearning.ai课程，内容涵盖深度神经网络改善一直到ML策略的章节。视频链接如下：吴恩达深度学习视频链接（注：本文出自深度学习初学者，此文内容将以初学者的感悟与见解讲述。当然我也会努力搜寻资料以弥补自身认知的不足，希望本文能对深度学习的其他初学者也有所帮助，文章若有不当之处，望大家在评论区多多指正，我将虚心
java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$