YraYnofear

【Course 2 改善深度神经网络】Week 1 深度学习的实用层面

Practical aspects of Deep Learning : setting up your ML application

1.train/dev/test sets

2.Bias/Variance

3.Regularization Reduces Overfitting

3.1 L1、L2 Regularization

3.1.1 Prior knowledge：L1 Norm and L2 Norm（L1、L2范数）

3.1.2 L1 L2 Regularization

3.2 Why regularization reduces overfitting

3.3 Dropout Regularization

3.4 Other regularization methods

3.4.1数据扩增（data augmentation）

3.4.2 early stopping

4.归一化（Normalize inputs）

5.梯度消失、梯度爆炸及如何避免(Vanishing/exploding gradient）

6.梯度检验（Gradient checking）

7.编程作业

1.train/dev/test sets

应用深度学习是一个反复迭代的过程，需要通过反复多次的循环训练得到最优化参数。决定整个训练过程快慢的关键在于单次循环所花费的时间，单次循环越快，训练过程越快。而设置合适的训练集（Training sets）、验证集（Development sets）、测试集（Test sets）的数量，能有效提高训练效率。基于Idea，先选择初始的参数值，构建神经网络模型结构；然后通过代码Code的形式，实现这个神经网络；最后，通过实验Experiment验证这些参数对应的神经网络的表现性能。根据验证结果，我们对参数进行适当的调整优化，再进行下一次的Idea->Code->Experiment循环。通过很多次的循环，不断调整参数，选定最佳的参数值。

Train/Dev/Test sets的设置：

Train sets用来训练你的算法模型；

Test sets用来测试最好算法的实际表现，作为该算法的无偏估计。

Dev sets用来验证不同算法的表现情况，从中选择最好的算法模型。

样本数量较小时的比例分配：

Train sets和Test sets的数量比例为70%和30%。如果有Dev sets，则设置比例为60%、20%、20%，分别对应Train/Dev/Test sets。

样本数量较大时的比例分配：

科学的做法是要将Dev sets和Test sets的比例设置得很低。Train/Dev/Test sets的比例通常可以设置为98%/1%/1%，或者99%/0.5%/0.5%。

问题：训练样本和测试样本分布上不匹配

比如，假设你开发一个识别猫的手机app，可以让用户上传图片。在app识别算法中，训练样本可能来自网络下载，验证和测试样本可能来自不同用户的上传。从网络下载的图片一般像素较高而且比较正规，而用户上传的图片往往像素不稳定，且图片质量不一。因此，训练样本和验证/测试样本可能来自不同的分布。

解决：

尽量保证Dev sets和Test sets来自于同一分布

扩大训练样本的数量，从而让该模型更加强大（即使Train sets和Dev/Test sets不来自同一分布，使用这些技巧也能提高模型性能）：将现有的训练样本做一些处理，例如图片的翻转、假如随机噪声等。

2.Bias/Variance

下图显示了二维平面上high bias，just right，high variance的例子。

在输入特征是高维度的情况下，我们可以通过两个数值Train set error和Dev set error来理解bias和variance。一般，Train set error体现了是否出现bias，Dev set error体现了是否出现variance（正确地说，应该是Dev set error与Train set error的相对差值）

Train set error	Dev set error	Note
1%	11%	high variance 对训练样本识别较好，对验证集识别不太好。该模型对训练样本可能存在过拟合，模型泛化能力不强，导致验证集识别率低。
15%	16%	high bias 该算法模型对训练样本和验证集的识别都不太好。该模型对训练样本存在欠拟合。
15%	30%	high bias & high variance 深度学习中最坏的情况
0.5%	1%	low bias & low variance 深度学习中最好的情况

注：以上的这些假设都是建立在base error是0的基础上，即人类都能正确识别所有猫类图片。base error不同，相应的Train set error和Dev set error会有所变化，但没有相对变化。

传统机器学习算法中，Bias和Variance通常是对立的，减小Bias会增加Variance，减小Variance会增加Bias。而在现在的深度学习中，通过使用更复杂的神经网络和海量的训练样本，一般能够同时有效减小Bias和Variance。这也是深度学习之所以如此强大的原因之一。

目的

方法

减少high bias

增加神经网络的隐藏层个数、神经元个数；

训练时间延长；

选择其它更复杂的NN模型...

减少high variance

增加训练样本数据；

正则化Regularization；

选择其他更复杂的NN模型...

温馨提示：再来看这段视频（@莫烦python），生动地了解一下过拟合。

3.Regularization Reduces Overfitting

3.1 L1、L2 Regularization

温馨提示：理解这部分最好先看下L1 L2 Regularization @莫烦python

3.1.1 Prior knowledge：L1 Norm and L2 Norm（L1、L2范数）

L1 Norm

Q:L1产生稀疏矩阵的作用?

A:稀疏模型有助于进行特征选择，即L1可用来选择对结果贡献较大的主要特征。

解释说明：

稀疏矩阵指的是很多元素为0、只有少数元素是非零值的矩阵。以线性回归为例，即得到的线性回归模型的大部分系数都是0，这表示只有少数特征对这个模型有贡献，从而实现了特征选择。（如手语翻译项目中，有手、肢体、眼、口等特征值，其中手、肢体的特征值对该模型有主要贡献，那么就可以利用L1产生稀疏矩阵，从而有助于特征选择）

Q:为什么L1可以产生稀疏模型，即L1是怎么让系数等于0的？

A:最优解处某些权重可能为0。

解释说明：

现在我们的目标是求解 $argmin_{w}(J)$ ，换句话说，我们的任务是在L1的约束下求出 $J_{0}$ 取最小值的解。假设只考虑二维的情况，即只有两个权值 $w_{1}$ 和 $w_{2}$ ，此时的L1正则化公式为L1=| $w_{1}$ |+| $w_{2}$ |。对J使用梯度下降法求解，则求解 $J_{0}$ 的过程可以画出等值线，同时L1正则化的函数也可以在二维平面上画出来。如下图：

$J_{0}$ 等值线与L1图形首次相交的地方就是最优解，我们很容易发现L1黑色方形必然首先与等值线相交于方形顶点处。可以直观想象，因为L1函数有很多"突出的角"（二维情况下有四个，多维情况下更多）， $J_{0}$ 与这些角接触的概率远大于与其它部分接触的概率。而这些点某些权重为0（以上图为例，交点处 $w_{1}$ 为0），从而会使部分特征等于0。

L2 Norm

Q:为什么L2范数可以防止过拟合呢？

A:二维平面下L2正则化的函数图形是个圆，与方形相比，没有突出的棱角。因此交点在坐标轴的概率很低，即使权重等于0的概率小了许多。由上图可知，L2中得到的两个权值倾向于均为非零的较小数。

注：过拟合是指模型参数较大，模型过于复杂，模型抗扰动能力弱。只要测试数据偏移一点点，就会对结果造成很大的影响。因此，要防止过拟合，其中一种方法就是让参数尽可能的小一些。如上述链接中的视频中讲到，当批数据训练时，每次批数据都会得到不同的误差曲线。L2对于这种变化，交点（误差最小的点，又是参数正规化后的最优解）的移动不会很大，但L1下交点的跳动较大，从而侧面反应了L1下的解不稳定。

Q:为什么L2正则化可以获得值很小的参数？

A:每一次迭代，参数都要乘以一个小于1的因子，从而使其不断减小，因此总的来看，参数是不断减小的。（下面有公式推导）

在所有特征中只有少数特征起重要作用的情况下，选择L1范数比较合适，因为它能自动选择特征。而如果所有特征中，大部分特征都能起作用，而且起的作用很平均，那么使用L2范数也许更合适。

3.1.2 L1 L2 Regularization

相比于扩大训练样本数量，正则化regularization是解决过拟合（high variance）更可行有效的办法。因为通常获得更多训练样本的成本太高，比较困难。

L1 regularization：

$J(w,b)=\frac1m\sum_{i=1}^mL(\hat y^{(i)},y^{(i)})+\frac{\lambda}{2m}||w||_1$
$||w||_1=\sum_{j=1}^{n_x}|w_j|$

Logistic regression 中进行 L2 regularization：

$J(w,b)=\frac1m\sum_{i=1}^mL(\hat y^{(i)},y^{(i)})+\frac{\lambda}{2m}||w||_2^2$
$||w||_2^2=\sum_{j=1}^{n_x}w_j^2=w^Tw$

注意：为什么只对w进行正则化而不对b进行正则化呢？其实也可以对b进行正则化。但是一般w的维度很大，而b只是一个常数。相比较来说，参数很大程度上由w决定，改变b值对整体模型影响较小。所以，一般为了简便，就忽略对b的正则化了。

深度学习模型中的L2 regularization：

$J(w^{[1]},b^{[1]},\cdots,w^{[L]},b^{[L]})=\frac1m\sum_{i=1}^mL(\hat y^{(i)},y^{(i)})+\frac{\lambda}{2m}\sum_{l=1}^L||w^{[l]}||^2$

$||w^{[l]}||^2=\sum_{i=1}^{n^{[l]}}\sum_{j=1}^{n^{[l-1]}}(w_{ij}^{[l]})^2$

$||w^{[l]}||^2$ 被称为Frobenius范数，记作 $||w^{[l]}||_F^2$ 。一个矩阵的Frobenius范数就是计算所有元素平方和再开方，即

$||A||_F=\sqrt {\sum_{i=1}^m\sum_{j=1}^n|a_{ij}|^2}$

由于加入了正则化项，梯度下降算法中的 $dw^{[l]}$ 计算表达式需要做如下修改：

$dw^{[l]}=dw^{[l]}_{before}+\frac{\lambda}{m}w^{[l]}$

$w^{[l]}:=w^{[l]}-\alpha\cdot dw^{[l]}$

L2 regularization 也被称做weight decay。这是因为，由于加上了正则项， $dw^{[l]}$ 有个增量，在更新 $w^{[l]}$ 的时候，会多减去这个增量，使得 $w^{[l]}$ 比没有正则项的值要小一些。不断迭代更新，不断地减小。

$w^{[l]}:=w^{[l]}-\alpha\cdot dw^{[l]} =w^{[l]}-\alpha\cdot(dw^{[l]}_{before}+\frac{\lambda}{m}w^{[l]})\\ =(1-\alpha\frac{\lambda}{m})w^{[l]}-\alpha\cdot dw^{[l]}_{before}$ $(1-\alpha\frac{\lambda}{m})<1$

3.2 Why regularization reduces overfitting

下面从两个角度来解释

（一）由上图中W更新的推导公式可得， $\lambda$ 增加到足够大，会接近于0（实际上是不会发生这种情况），而减少许多隐藏单元的影响（直觉上认为大量隐藏单元被完全消除了, 其实不然，实际上是该神经网络的所有隐藏单元依然存在)，从而使这个网络变得更简单，简单到越来越接近逻辑回归，可是深度却很大，它会使这个网络从Over Fitting的状态（右图）更接近Under Fitting的状态（左图）。从而会找到一个合适的中间值λ，使网络接近Just Right的状态(中图）。

（二）更直观地理解，如果你使用的激活函数是，那么当 $\lambda$ 取值很大的时候，取值很小，经计算得出的也很小，很小意味着 $g\left (z \right )$ 取值集中于红色部分，相当于函数的线性部分。

$g\left (z \right )$ 大致呈线性，那么这个神经元起的作用就相当于是线性回归（linear regression）。如果每个神经元对应的权重都比较小，那么整个神经网络模型相当于是多个linear regression的组合，即可看成一个线性网络（linear network），得到的分类超平面就会比较简单，不会出现过拟合现象。

3.3 Dropout Regularization

温馨提示：吴恩达课程dropout这节看不懂的可以借鉴一下这个教学视频。

Dropout是另一种防止过拟合的方法。

原理：

训练时以p的概率保留神经元，以1-p的概率丢弃神经元及与之相连的边，以此得到每次训练的子网络；

每次单独训练时，每个不完整的神经网络都各不相同，但权值共享。

因为每次单独训练的神经网络不同，所以每次的预测结果都不会依赖于某个特定的神经元，从而防止过拟合。（通俗来说L1、L2正则化通过惩罚权值来防止过拟合，dropout则随机drop神经元而从根本上使神经网络过于依赖）

测试时，所有神经元都保留，但权重由变为。测试时的结果相当于训练时的期望结果值。

具体做法：

实现方法：

常用的方法是Inverted dropout（反向随机失活）

假设对于第L层神经元，设定保留神经元比例概率keep_prob=0.8，即该层有20%的神经元停止工作。为dropout向量，设置为随机vector，其中80%的元素为1，20%的元素为0。在python中可以使用如下语句生成 dropout vector:

dl = np.random.rand(al.shape[0],al.shape[1])

 
  实施dropout的另一个细节：一个拥有三个输入特征的网络，其中一个要选择的参数是keep-prob，它代表每一层上保留单元的概率。所以不同层的keep-prob也可以变化。第一层，矩阵 是7×3，第二个权重矩阵 是7×7，第三个权重矩阵 是3×7，以此类推，是最大的权重矩阵，因为 拥有最大参数集，即7×7，为了预防矩阵的过拟合，它的keep-prob值应该相对较低，假设是0.5。对于其它层，过拟合的程度可能不会那么严重，它们的keep-prob值可能高一些，可能是0.7。如果在某一层，我们不必担心其过拟合的问题，那么keep-prob可以为1 
   
   总结：如果你担心某些层比其它层更容易发生过拟合，可以把某些层的keep-prob值设置得比其它层更低，缺点是为了使用交叉验证，你要搜索更多的超级参数，另一种方案是在一些层上应用dropout，而有些层不用dropout，应用dropout的层只含有一个超级参数keep-prob。 
   
  dropout是一种正则化方法，它有助于预防过拟合，因此除非算法过拟合，不然是不会用dropout的，所以它在其它领域应用得比较少，主要存在于计算机视觉领域，因为我们通常没有足够的数据，所以一直存在过拟合，这就是有些计算机视觉研究人员如此钟情于dropout函数的原因。 
   dropout缺点：代价函数 不再被明确定义，每次迭代，都会随机移除一些节点，如果再三检查梯度下降的性能，实际上是很难进行复查的。定义明确的代价函数 每次迭代后都会下降，因为我们所优化的代价函数 实际上并没有明确定义，或者说在某种程度上很难计算，所以我们失去了调试工具来绘制这样的图片。 
  一种解决办法：先关闭dropout函数，将keep-prob的值设为1，运行代码，确保函数单调递减。然后打开dropout函数，希望在dropout过程中，代码并未引入bug。 
  3.4 Other regularization methods 
  3.4.1数据扩增（data augmentation） 
  在做图片分类器时，当获取更多数据集代价较高时，可以通过水平翻转图片、随意裁剪图片来扩增数据集。注意，像这样人工合成数据的话，我们须要通过算法验证，图片中的猫经过水平翻转之后依然是原类别。 
   
  光学字符识别，可以通过添加数字，随意旋转或轻微地扭曲数字来扩增数据，但它们仍然是数字，把这些数字添加到训练集。这里对字符做了强变形处理（便于清楚理解），所以数字4看起来是波形的，其实不用对数字4做这么夸张的扭曲，只要轻微的变形就好。  
   
  3.4.2 early stopping 
  验证集误差通常会先呈下降趋势，然后在某个节点处开始上升，early stopping 的作用是，神经网络已经在这个迭代过程中表现得很好了，我们在此停止训练吧。 
  early stopping 代表提早停止训练神经网络，但是它也有一个缺点，分析如下： 
   
   机器学习过程的其中2个步骤： 
   其一选择一个算法来优化代价函数，该问题的解决工具：如梯度下降、Momentum、RMSprop和Adam等等，在重点优化代价函数时，你只需要留意 和，使 的值越小越好，只需要想办法减小这个值，其它的不用关注。 
   其二是优化代价函数之后，不想发生过拟合，解决方法：如正则化，扩增数据等等。预防过拟合还有其他任务，换句话说就是减少方差，这一步我们用另外一套工具来实现，这个原理有时被称为“正交化”（Orthogonalization）(后面讲） 
   
  early stopping 的主要缺点就是不能独立地处理上述这两个问题，因为提早停止梯度下降，也就是停止了优化代价函数，因为现在不再尝试降低代价函数，所以代价函数的值可能不够小，同时你又希望不出现过拟合，但没有采取不同的方式来解决这两个问题，而是用一种方法同时解决两个问题，这样做的结果使考虑的东西变得更复杂。 
  如果不用early stopping，另一种方法就是L2 正则化，训练神经网络的时间就可能很长。这导致超级参数搜索空间更容易分解，也更容易搜索，但是缺点在于，你必须尝试很多正则化参数 的值，这也导致搜索大量 值的计算代价太高。 
  early stopping的优点是，只运行一次梯度下降，你可以找出的较小值，中间值和较大值，而无需尝试L2 正则化超级参数 的很多值。 
  4.归一化（Normalize inputs） 
  因为如果输入特征都大致在相同范围内，代价函数更易优化。归一化可以提高神经网络的训练速度，非归一化下，如果使用梯度下降，必须使用一个很小的学习率，而且某个位置要迭代多次才能找到最小值；归一化后的图形如果类似于一个椭球形，可能每个点都可直接找到最小值，而且可以采用较大的步长。 
  归一化的2个步骤： 
  1）零均值化 
   
   
  2）归一化方差 
  零均值化后，特征 的方差比特征 的方差要大得多 
   
   
   
  我们希望不论是训练数据还是测试数据，都是通过相同和 定义的相同数据转换，其中 和 是由训练集数据计算得来的。 
  5.梯度消失、梯度爆炸及如何避免(Vanishing/exploding gradient） 
  如果各层权重都大于1或者都小于1，那么各层激活函数的输出将随着层数L的增加，呈指数型增大或减小。当层数很大时，出现数值爆炸或消失。同样，这种情况也会引起梯度呈现同样的指数型增大或减小的变化。L非常大时，例如L=150，则梯度会非常大或非常小，引起每次更新的步进长度过大或者过小，这让训练过程十分困难。 
  为改善这种问题，要对神经网络的权重做一些初始化处理，为了让z不会过大或者过小，思路是让w与n有关，且n越大，w应该越小才好。这样能够保证z不会过大。有以下三种初始化权重的方法： 
  #如果激活函数是tanh,令其方差为1/n
w[l] = np.random.randn(n[l],n[l-1])*np.sqrt(1/n[l-1]) 
#如果激活函数的输入特征被零均值，则是标准方差1，相当于对权重未作处理

#如果激活函数是ReLu,令其方差为2/n——Xavier初始化
w[l] = np.random.randn(n[l],n[l-1])*np.sqrt(2/n[l-1]) 

#Yoshua Bengio提出了另外一种初始化w的方法，令其方差为2/(n[l-1]*n[l])
w[l] = np.random.randn(n[l],n[l-1])*np.sqrt(2/n[l-1]*n[l])  
  我们可以对这些初始化方法中设置某些参数，作为超参数，通过验证集进行验证，得到最优参数，来优化神经网络 
  6.梯度检验（Gradient checking） 
  参考：Gradient Checking 
  目的： 
  检查验证反向传播过程中梯度下降算法是否正确，验证训练过程是否出现bug。 
  过程： 
  1）构造一维向量 
  分别将这些矩阵构造成一维向量，然后将这些一维向量组合起来构成一个更大的一维向量。这样cost function就可以表示成。 
  然后将反向传播过程通过梯度下降算法得到的按照一样的顺序构造成一个一维向量。 
   的维度与一致。 
  2）求出近似梯度 
  利用微分思想，近似求出梯度值，即函数在点  处的梯度可以表示成： 
  其中， >0，且足够小。 
   
  利用对每个计算近似梯度，其值与反向传播算法得到的  相比较，检查是否一致。例如对于第个元素，近似梯度为： 
   
  具体步骤： 
    
  代码实现：  
  thetaplus = theta + epsilon                               # Step 1
thetaminus = theta - epsilon                              # Step 2
J_plus = forward_propagation(x, thetaplus)                # Step 3
J_minus = forward_propagation(x, thetaminus)              # Step 4
gradapprox = (J_plus - J_minus) / (2 * epsilon)           # Step 5 
  3）比较 与  的接近程度。 
   
  具体步骤： 
   
   1'. compute the numerator using np.linalg.norm(...) 
   2'. compute the denominator. You will need to call np.linalg.norm(...) twice. 
   3'. divide them. 
   
  代码实现： 
  numerator = np.linalg.norm(grad - gradapprox)                      # Step 1'
denominator = np.linalg.norm(grad) + np.linalg.norm(gradapprox)    # Step 2'
difference = numerator / denominator                               # Step 3' 
  一般来说，如果欧氏距离越小，例如，则表明二者越接近，即反向梯度计算是正确的，没有bug。如果欧氏距离较大，例如，则表明梯度计算可能出现问题，需要再次检查是否有bug存在。如果欧氏距离很大，例如，甚至更大，则表明二者差别很大，梯度下降计算过程有bug，需要仔细检查。 
  注： 
  梯度检查仅作为debug使用，不要在整个训练过程中都进行梯度检查。 
  如果梯度检查出现错误，找到对应出错的梯度，检查其推导是否出现错误。 
  注意不要忽略正则化项，计算近似梯度的时候要包括进去。 
  梯度检查时关闭dropout，检查完毕后再打开dropout。 
  随机初始化时运行梯度检查，经过一些训练后再进行梯度检查（不常用）。 
  7.编程作业

如何增强机器学习基础，提升大模型面试通过概率 weixin_40941102 机器学习面试人工智能
我的好朋友没有通过面试所以我给我的好朋友准备了这一篇学习路线随着大模型（如Transformer、GPT-4、LLaMA等）在自然语言处理（NLP）、计算机视觉（CV）和多模态任务中的广泛应用，AI行业的招聘竞争愈发激烈。面试官不仅要求候选人熟练使用深度学习框架（如PyTorch、TensorFlow），还希望他们具备扎实的机器学习理论基础、算法实现能力和实际问题解决经验。本文将从机器学习基础入手
Bottleneck、CSP、DP结构详细介绍 CV工程师小朱深度学习笔记人工智能深度学习 CSP 深度可分离残差网络
文章目录前言一、BottleneckDarknetBottleneck二、CSPCSP思想pp-picodet中的CSPLayerDP卷积前言本篇文章详细介绍了三种神经网络中常见的结构，bottleneck、CSP、DP，并附上了代码加深理解。一、BottleneckBottleneck出现在ResNet50/101/152这种深层网络中，基本思想就是先用1x1减少通道数再进行卷积最后再通过1x1
算力服务器主要是指什么？ wanhengidc 服务器运维
随着科技的快速发展，人工智能也逐渐兴起，算力服务器也受到了各个企业的重视，本文就来为大家介绍一下算力服务器主要都是指什么吧！算力服务器对于人工智能领域来说，在深度学习模型的训练和推理过程中扮演着非常重要的角色，算力服务器可以执行大规模的矩阵计算，加速神经网络的训练和推理过程，帮助企业使得模型训练的时间大幅度缩短。算力服务器通常会配备高速网络接口，以此来实现快速的数据信息传输速度和通信速度，同时高速
大模型问答机器人如何实现自然交互杭州大厂Java程序媛 DeepSeek R1 &AI人工智能与大数据 java python javascript kotlin golang 架构人工智能
大模型问答机器人如何实现自然交互关键词：大模型问答机器人,自然语言处理(NLP),深度学习,深度对话,多轮对话,意图理解,信息检索,逻辑推理1.背景介绍1.1问题由来近年来，随着人工智能技术的飞速发展，自然语言处理(NLP)领域取得了巨大的突破。特别是深度学习模型在自然语言理解和生成方面的卓越表现，使得基于深度学习的大模型问答机器人（LargeLanguageModel-basedChatbots
机器学习模型-从线性回归到神经网络 Earth explosion 机器学习线性回归神经网络
在当今的数据驱动世界中，机器学习模型是许多应用程序的核心。无论是推荐系统、图像识别，还是自动驾驶汽车，机器学习技术都在背后发挥着重要作用。在这篇文章中，我们将探索几种基础的机器学习模型，并了解它们的基本原理和应用场景。1.线性回归基本原理线性回归是最简单的机器学习模型之一。它旨在找到一个最佳拟合线来预测目标变量（通常是连续值）。线性回归假设输入变量和输出变量之间存在线性关系，其数学表达式为：[y=
神经网络探秘：原理、架构与实战案例二川bro 智能AI 神经网络人工智能深度学习
神经网络探秘：原理、架构与实战案例前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，可以分享一下给大家。点击跳转到网站。https://www.captainbed.cn/ccc在人工智能的浪潮中，神经网络作为核心驱动力之一，正引领着技术革新与产业变革。本文旨在深入剖析神经网络的原理、常见架构，并通过一个实际的代码案例，带领读者亲手实践神经网络的构建与训练过程。无论你是机器学习初学者，还
用物理信息神经网络（PINN）解决实际优化问题：全面解析与实践青橘MATLAB学习深度学习网络设计人工智能深度学习物理信息神经网络强化学习
摘要本文系统介绍了物理信息神经网络（PINN）在解决实际优化问题中的创新应用。通过将物理定律与神经网络深度融合，PINN在摆的倒立控制、最短时间路径规划及航天器借力飞行轨道设计等复杂任务中展现出显著优势。实验表明，PINN相比传统数值方法及强化学习（RL）/遗传算法（GA），在收敛速度、解的稳定性及物理保真度上均实现突破性提升。关键词：物理信息神经网络；优化任务；深度学习；强化学习；航天器轨道一、
为什么VAE效果不好，但VAE+diffusion效果就好了？ AndrewHZ 深度学习新浪潮算法计算机视觉深度学习扩散模型 VAE 生成式模型技术分析
1.什么是VAE?VAE（VariationalAutoencoder，变分自编码器）是一种基于概率生成模型的深度学习框架，主要用于数据生成和潜在空间建模。它结合了自编码器（Autoencoder）的结构和变分推断（VariationalInference）的思想，能够从数据中学习有意义的潜在表示，并生成与训练数据相似的新样本。VAE的核心思想编码-解码结构类似传统自编码器，VAE包含两个部分：编
【笔试面试】秒懂深度学习模型小型化：蒸馏法、剪枝… 聊北辰同学轻量级神经网络神经网络深度学习机器学习数据挖掘
蒸馏：主要思想是，通过大模型指导小模型学习。剪枝：网络剪枝的主要思想就是将权重矩阵中相对“不重要”的权值剔除，然后再重新finetune网络进行微调。紧凑模型设计：MobileNet的深度可分离卷积shufflenet的逐点群卷积(pointwisegroupconvolution)和通道混洗(channelshuffle)，前者通过分组卷积降低计算量，后者促进信息在不同组之间流转
Transformer 的原理是什么？玩人工智能的辣条哥人工智能 transformer 深度学习人工智能
环境：Transformer问题描述：Transformer的原理是什么？通俗易懂一点。解决方案：Transformer是一种基于注意力机制（AttentionMechanism）的深度学习架构，最初由Vaswani等人在2017年的论文《AttentionisAllYouNeed》中提出。它在自然语言处理（NLP）领域取得了巨大成功，并逐渐扩展到计算机视觉（CV）和其他领域。Transforme
计算机视觉深度学习入门（4） yyc_audio 计算机视觉人工智能计算机视觉深度学习神经网络
在小型数据集上从头开始训练一个卷积神经网络利用少量数据来训练图像分类模型，这是一种很常见的情况。如果你从事与计算机视觉相关的职业，那么很可能会在实践中遇到这种情况。“少量”样本既可能是几百张图片，也可能是上万张图片。我们来看一个实例——猫狗图片分类，数据集包含5000张猫和狗的图片（2500张猫的图片，2500张狗的图片）。我们将2000张图片用于训练，1000张用于验证，2000张用于测试。将介
Python训练的机器学习模型【保存】和【加载】的方法？福葫芦 python 机器学习开发语言
一.为什么要保存训练好的模型由于传统训练机器学习模型，需要耗费大量的人力和资源。因此，将训练好的模型保存成为一件特别重要的事情。现有的机器学习模型保存方法有三种，分别为使用pickle(通用)、joblib(大型模型)、HDF5（存储深度学习模型的权重）二.Python保存模型的三种方式1.方式一：pickle模块【通用】pickle是Python标准库中的一个模块，它可以将Python对象序列化
深入解析模型蒸馏（Knowledge Distillation）：原理、方法与优化策略赵大仁 AI 大语言模型人工智能人工智能深度学习神经网络机器学习自然语言处理
深入解析模型蒸馏（KnowledgeDistillation）：原理、方法与优化策略1.引言随着深度学习模型规模的不断增长，训练和部署大模型的计算成本也越来越高。模型蒸馏（KnowledgeDistillation,KD）是一种广泛使用的模型压缩与优化技术，通过让一个小模型（StudentModel）学习大模型（TeacherModel）的知识，使其能够在保持高准确度的同时降低计算复杂度，从而提升
LLM大模型技术实战4：热门开源LLMs对比和选型大模型学习教程机器学习开源人工智能职场和发展
一、大语言模型的特点和能力LLM(LargeLanguageModel,大型语言模型)是指那些规模庞大、参数数量众多的深度神经网络模型，用于理解和生成自然语言文本。在自然语言处理（NLP）领域有着广泛的应用，因其强大的语言理解和生成能力，能够处理各种复杂的文本任务。1.1主要特点架构特点LLM主要基于Transformer架构，Transformer通过自注意力机制（Self-Attention）
大模型面试--大模型（LLMs）基础面 TAICHIFEI 大模型面试语言模型人工智能
大模型（LLMs）基础面1.目前主流的开源模型体系有哪些？目前主流的开源大模型体系有以下几种：1.Transformer系列Transformer模型是深度学习中的一类重要模型，尤其在自然语言处理（NLP）领域。以下是一些主流的Transformer模型：GPT系列GPT-2和GPT-3：由OpenAI开发的生成式预训练变换器模型，用于生成高质量的文本。GPT-Neo和GPT-J：由Eleuthe
智能制造中的工业大数据分析实践 AI天才研究院 LLM大模型落地实战指南 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
智能制造中的工业大数据分析实践关键词:智能制造，工业大数据，数据分析，机器学习，深度学习，预测性维护，质量控制，生产优化文章目录智能制造中的工业大数据分析实践1.背景介绍1.1问题的由来1.2研究现状1.3研究意义1.4本文结构2.核心概念与联系2.1工业大数据2.2工业大数据分析2.3智能制造3.核心算法原理&具体操作步骤3.1算法原理概述3.2算法步骤详解3.3算法优缺点3.4算法应用领域4.
情感识别（Emotion Recognition）路野yue 人工智能自然语言处理
情感识别（EmotionRecognition）是通过分析人类的多模态数据（如面部表情、语音、文本等）来识别和理解其情感状态的技术。它在人机交互、心理健康、市场分析等领域有广泛应用。情感识别的主要方法1.基于面部表情的情感识别方法：通过分析面部特征（如眼睛、嘴巴、眉毛等）来识别情感。技术：传统方法：使用特征提取（如Gabor滤波器、LBP）和分类器（如SVM）。深度学习方法：使用卷积神经网络（CN
人工智能机器学习算法分类全解析 power-辰南人工智能人工智能机器学习算法 python
目录一、引言二、机器学习算法分类概述（一）基于学习方式的分类1.监督学习（SupervisedLearning）2.无监督学习（UnsupervisedLearning）3.强化学习（ReinforcementLearning）（二）基于任务类型的分类1.分类算法2.回归算法3.聚类算法4.降维算法5.生成算法（三）基于模型结构的分类1.线性模型2.非线性模型3.基于树的模型4.基于神经网络的模型
深度学习赋能中文情感分析：让机器读懂中国人的喜怒哀乐芯作者 DD：日记深度学习机器学习人工智能
当你在深夜刷到一条"这奶茶真是绝绝子"的朋友圈，AI如何判断这是真心赞美还是阴阳怪气？当电商评论区出现"手机壳颜色很高级，就是物流太佛系"，算法怎样量化其中的情感矛盾？在表情包与网络黑话齐飞的数字时代，中文情感分析技术正经历一场由深度学习驱动的认知革命。本文将深度解析这场让机器理解东方语境下复杂情感的科技进化史。一、中文情感分析：世界上最难破译的"情绪密码"1.中文的语义迷宫一词多义："这操作66
N1学习打卡笔记无涯学徒1998 学习笔记
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊Onhot编码one-hot编码的基本思想是将每个类别映射到一个向量，其中只有一个元素的值为1，其余元素的值为0。这样，每个类别之间就是相互独立的，不存在顺序或距离关系。例如，对于三个类别的情况，可以使用如下的one-hot编码：类别1：[1,0,0]类别2：[0,1,0]类别3：[0,0,1]这样的表示方式有助于模型更好地理解文本含义。
【光流】——liteflownet论文与代码浅读农夫山泉2号光流计算机视觉深度学习人工智能光流 liteflownet
光流，liteflownetcode:mmflowCVPR20181.前言FlowNet2是最先进的光流估计卷积神经网络(CNN)，需要超过160M的参数来实现精确的流量估计。在本文中，我们提出了一种替代网络，它在Sintel和KITTI基准测试上优于FlowNet2，同时在模型尺寸上要小30倍，在运行速度上要快1.36倍。这是通过深入研究当前框架中可能被遗漏的架构细节而实现的：（1）我们通过轻量
Faster R-CNN原理详解以及Pytorch实现模型训练与推理阿_旭深度学习实战 cnn pytorch 人工智能 Faster RCNN
《------往期经典推荐------》一、AI应用软件开发实战专栏【链接】项目名称项目名称1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】3.【手势识别系统开发】4.【人脸面部活体检测系统开发】5.【图片风格快速迁移软件开发】6.【人脸表表情识别系统】7.【YOLOv8多目标识别与自动标注软件开发】8.【基于深度学习的行人跌倒检测系统】9.【基于深度学习的PCB板缺陷检测系统
cornell grasp data 康奈尔大学抓取数据集百度云工科pai 深度学习自主抓取康奈尔抓取数据集自主抓取
国内下载较慢，康奈尔大学抓取数据集分享，给有用的人。科研之路道阻且长，互行方便。康奈尔大学抓取数据集是基于深度学习方法实现机器人自主抓取的必备数据集，直接推动了机器人自主抓取的发展。目前先进的基于视觉和机器人抓取方法都是在该数据集上训练过。该数据集共十组，每组100个物体，共计1000个物体，不仅包含物体的图像，还包含物体的抓取位姿。下载链接：链接：https://pan.baidu.com/s/
笔记本电脑外接固态移动硬盘可以用于深度学习吗 Vertira pytorch 电脑深度学习智能电视
笔记本电脑外接固态移动硬盘可以用于深度学习‌。虽然外接固态移动硬盘的传输速度和内置固态硬盘相比有一定差距，但在现代技术下，外接固态移动硬盘的传输速度已经非常快，能够满足深度学习的需求。例如，USB3.2Gen2×2PSSD的传输速度可以达到2000MB/s，这对于深度学习来说已经足够‌12。具体应用场景和性能表现‌传输速度‌：现代外接固态移动硬盘，如USB3.2Gen2×2PSSD，传输速度可以达
PointNet++改进策略：模块改进 | x-Conv | PointCNN，结合局部结构与全局排列提升模型性能我是瓦力 PointNet++改进策略人工智能深度学习计算机视觉
目录前言PointCNN实现细节1.XXX-Conv操作输入输出步骤2.PointCNN网络架构层级卷积分类与分割任务3.数据增强4.效率优化前言这篇论文介绍了一种名为PointCNN的方法，旨在从点云（pointcloud）数据中学习特征。传统卷积神经网络（CNN）在处理规则网格数据（如图像）时非常有效，但由于点云是无序且不规则的，直接在其上应用卷积操作会导致形状信息丢失，并对点的排列顺序敏感。
人工智能学习星月IWJ 人工智能机器学习深度学习神经网络目标检测人工智能
//-----初探-----//人工智能三大核心要素数据/算法/算力人工智能是通过机器来模拟人类认知能力的技术机器学习/神经网络/深度学习(多层隐藏层神经网络)tf1.14python3.5keras2.1.5//-----数学基础&&数字图像-----//向量大小/方向矢量(有大小和方向)标量(只有大小没有方向(长度))单位向量线性变换(矩阵运算)T(v+w)=T(v)+T(w)T(cv)=cT
深度学习复习笔记（6）线性回归——新冠预测项目 Kriol 深度学习初学深度学习笔记线性回归
importmatplotlib.pyplotaspltimporttorch#框架importnumpyasnp#矩阵处理importcsv#读excel文件fromtorch.utils.dataimportDataLoader,Dataset#两个与数据处理相关的包，类Datasetimporttorch.nnasnn#类nn.Module需要用，损失函数需要用fromtorchimport
向量空间与范数 Shockang 机器学习数学通关指南人工智能机器学习数学线性代数
前言本文隶属于专栏《机器学习数学通关指南》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见《机器学习数学通关指南》ima知识库知识库广场搜索：知识库创建人机器学习@Shockang机器学习数学基础@Shockang深度学习@Shockang正文一、向量空间：机器学习的舞台1.1定义与核心要素️向量空间是机器学习的数学基础，它提供了描述和处理高
互信息详解 Shockang 机器学习数学通关指南机器学习人工智能数学信息论
前言本文隶属于专栏《机器学习数学通关指南》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见《机器学习数学通关指南》ima知识库知识库广场搜索：知识库创建人机器学习@Shockang机器学习数学基础@Shockang深度学习@Shockang正文互信息：变量间关联性的量化利器互信息(MutualInformation)是信息论中的核心概念，也是
《自然语言处理实战入门》深度学习 ---- 预训练模型初探 shiter AI重制版】预训练 NLP 自然语言处理
文章大纲前言预训练模型简介语言表示学习神经上下文编码器为何需要预训练模型发展历史主流预训练模型预训练模型与分类将PTMs应用至下游任务微调策略未来研究方向参考文献前言随着深度学习的发展，各种神经网络被广泛用于解决自然语言处理(NLP)任务，如卷积神经网络(convolutionalneuralnetworks,CNNs)、递归神经网络(neuralnetworks,RNNs)、基于图的神经网络(g
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY NODEXY@2014.8.12 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa

【Course 2 改善深度神经网络】Week 1 深度学习的实用层面

1.train/dev/test sets

2.Bias/Variance

3.Regularization Reduces Overfitting

3.1 L1、L2 Regularization

3.1.1 Prior knowledge：L1 Norm and L2 Norm（L1、L2范数）

3.1.2 L1 L2 Regularization

3.2 Why regularization reduces overfitting

3.3 Dropout Regularization

3.4 Other regularization methods

3.4.1数据扩增（data augmentation）

3.4.2 early stopping

4.归一化（Normalize inputs）

5.梯度消失、梯度爆炸及如何避免(Vanishing/exploding gradient）

6.梯度检验（Gradient checking）

7.编程作业

你可能感兴趣的:(神经网络,深度学习)