布莱克1997

吴恩达深度学习系列笔记：第一课神经网络和深度学习

第二周神经网络基础

1.logistic回归

logistic回归是一个用于二分分类的算法，即输入一幅图像（64x64x3=12288），输出1或者0，将图像中的特征全部提取出来，形成一个[12288,1]的特征矩阵，若是M个样本，则M_train = [12288,m]，Y=[y1,y2...ym].输入参数X的维度为[12288,m]，参数w的维度同为[12288,1]，b为一个实数，则输出

$\hat y =w^Tx+b$

由于输出要控制在0-1之间，因此要通过激活函数将输出变换一下。logistic回归常通过sigmoid函数进行变换，其函数图像如下：

数学表达式为

$G(z) = \frac{1}{{1 + {e^{ - z}}}}$

符号约定：在神经网络中，我们常会把w和b分开，b在这里对应着一个拦截器，有的约定法则将b也写入参数矩阵w中。

2.代价函数

我们可以这样定义一个损失函数：
$L(\hat y,y) = \frac{1}{2}{\left( {y - \hat y} \right)^2}$

这个函数比较容易理解，但是当使用在logistic回归过程中，在学习这些参数时，之后讨论的优化问题会变成非凸的，容易得到一些局部最优解，梯度下降法可能找不到局部最优值。在logistic回归中，我们常定义以下函数为损失函数，便可以使得损失函数变为一个凸函数：

$L(\hat y,y)=-(y\log \hat y+(1-y)\log(1-\hat y))$

当y=1时， $L(\hat y,y)=-\log \hat y$ ，如果我们想让损失函数尽可能的小，则 $\hat y$ 需要尽可能的大，但是 $\hat y$ 被sigmoid函数限制在0-1之间，所以最终 $\hat y$ 会趋向于1。同理我们可以推出当y=0时，想让损失函数尽可能的小，需要让 $\hat y$ 尽可能的小，所以 $\hat y$ 最终也会趋向于0。

损失函数是衡量单个样本的输出值和真实值之间的差距，要衡量所有样本输出值和真实值的差距，我们需要定义一个代价函数：

$J(w,b) = \frac{1}{m}\sum\limits_{i = 1}^m {L({{\hat y}^{(i)}},{y^{(i)}}) = } \frac{1}{m}\sum\limits_{i = 1}^m -(y\log \hat y+(1-y)\log(1-\hat y))$

可以看出，代价函数只是对所有样本的损失函数进行了简单的平均化处理。

代价函数推导：

已知：

$\hat y = \sigma (w^{T}x+b) when \sigma(z)=\frac{1}{1+e^{-z}}$

我们设定y帽为给定样本x条件下y=1的概率。

$P(y|x)=\hat y$

则给定样本x条件下y=0的概率为：

$P(y|x)=1- \hat y$

将两式合在一起可以得到：

$P(y|x)=\hat y^{y}(1-\hat y)^{(1-y)}$

然后取对数即可获得：

$log P(y|x)=y\log \hat y+(1-y)\log(1-\hat y)$

由于训练过程需要最小化损失函数，所以前面要加一个负号。

多样本损失函数是假设各样本在独立同分布的条件下进行极大思然估计，使得损失函数达到最小。

3.梯度下降法

用来训练w和b，来使代价函数达到最小。首先初始化w,b,梯度下降法便是使代价函数上面的点每次都向着它周围最陡的方向走一步，直到到达最优解。

首先我们以一阶的代价函数为例，其函数图像如下图所示。

每次都按照以下公式进行参数更新：

$w: = w - \alpha \frac{{\partial J(w,b)}}{{\partial w}}$

容易看出，当导数为负数时，w会增大，随之J(w)的值会逐渐变小。反之，如果导数为正，w会逐渐变小，导致J(w)的值会逐渐增大。由于实际使用时J(w)有w和b两个参数，所以我们还需要用相同的方式更新b:

$b: = b - \alpha \frac{{\partial J(w,b)}}{{\partial b}}$

4.logistic回归中梯度下降法的应用

将前文中求得的logistic回归所用到的公式整理如下：

$z=w^{T}x+b$

$\hat y = a = \sigma (z)$

$L(a,y)=-(y\log a +(1-y)\log (1-a))$

其中a是logistic回归的输出，y是实际的值。

假设logistic回归中有x1,x2两个输入参数，我们需要更新参数w和b来使损失函数逐渐变小：

由于链式法则，要求得最终损失函数L的偏导，我们首先要求得a的导数：

$da=\frac {dL(a,y)}{da}=-\frac {y}{a}+\frac {1-y}{1-a}$

然后可以求出a对z的偏导：

$\frac {da}{dz}=\frac {e^{-z}}{(1+e^{-z})^2}=\frac {1+e^{-z}-1}{(1+e^{-z})^2}=a \times (a-1)$

最终容易求得

$\frac{dL}{dz}=\frac{dL}{da}\times\frac{da}{dz}=a(1-a)\times(\frac{1-y}{1-a}-\frac{y}{a})=a-y$

在实际编程中我们常用dz来表示L对z的偏导数。

之后便容易求得参数

然后根据下式进行更新即可：

$w_1:=w_1-\alpha dw_1$

$w_2:=w_2-\alpha dw_2$

$b:=b-\alpha db$

5.多样本的梯度下降法

多样本的梯度下降法就是将单样本对某一参数的梯度求平均，以w1为例：

$\frac{\partial J(w,b)}{\partial w_1}=\frac{1}{m}\sum_{i=1} ^{m}\frac{\partial L(a^{i},y^{i})}{\partial w_1}$

梯度下降法迭代一步参数更新代码如下：

import numpy as np
J=0  
dw1=0
dw2=0
db=0
for i in range(m):
    z(i)=w'*x(i)+b
    a(i)=sigmoid(z(i))
    J = J-[y(i)*loga(i)+(1-y(i)*log(1-a(i)]
    dz(i) =a(i)-y(i)
    dw1 = dw1+x1(i)+dz(i)
    dw2 = dw2+x2(i)+dz(i) 
    db = db+dz(i)
J=J/m
dw1 = dw1/m #全局的累加，所以没有标号
dw2 = dw2/m
db = db/m
w1:=w1-alpha*dw1
w2:=w2-alpha*dw2
b:=b-alpha*db

可见如果w的数目特别多的时候，计算起来很不方便，如果使用for循环则会大大的降低程序的效率，所以我们要进行向量化处理。

6.向量化

向量化处理常用于消除代码中显式的for循环，提高代码效率。对于一个100k大小的数组，使用向量化进行处理比for循环快近300倍。

假设有m个样本，每个样本有10000个特征，则X就是一个10000*m大小的矩阵，同样w是一个10000*1的矩阵,b是一个mx1的矩阵，根据之前得到的式子容易推出

$Z=w^{T}X+b$

则第5节中的代码去掉for循环之后为：

import numpy as np
Z = np.dot(w.T,x)+b #[1,1000]*[1000,60]+[1,60]
A = sigmoid(Z)  #[1,60]
dZ = A-Y        #[1,60]
dW = X*dZ.T/m   #[1000,1]
db = np.sum(dZ)/m #1
W:=W-alpha*dW
b:=b-alpha*db

7.python使用时的一些编程技巧

1.生成矩阵时一定要声明矩阵的大小,例如：

import numpy as np
a = np.random.randn(5)#不规范的初始化方式
a = np.random.randn(5,1)#初始化为5X1的矩阵

第三周浅层神经网络

1.神经网络概览

本周的任务是实现一个神经网络，我们首先把前面学到的公式和常用的神经网络模型结合起来，最简单常见的一个神经网络模型如下图所示：

公式：

首先第一个神经元完成了两部分操作：计算出Z并且使用sigmoid函数进行激活得到a。然后用a来表示y帽。最后就可以计算损失函数L。

在神经网络中，我们可以将许多个sigmoid单元堆叠起来形成一个大的神经网络:

在神经网络的第一层中的三个节点分别进行的操作如下：

$\left\{ \begin{array}{l} a_1^{[1]}=\sigma(z_1^{[1]})=\frac{1}{1+e^{-(w^{T}x+b)}}\\ a_2^{[1]}=\sigma(z_2^{[1]})=\frac{1}{1+e^{-(w^{T}x+b)}}\\ a_3^{[1]}=\sigma(z_3^{[1]})=\frac{1}{1+e^{-(w^{T}x+b)}}\\ \end{array} \right.$

这里的上标【1】表示的是第一层网络，下标1,2,3表示的是某一层的第几个参数，算出来之后，再把这些作为新的输入参数，然后再赋予一个权重矩阵 $W^{[2]},b^{[2]}$ ,然后在第2层中再一次计算 $a^{[2]}$ .然后输出 $\hat y$ ,即最终输出。简单的说，就是每一层都要单独输入一个权重矩阵。

例：共有600个训练样本，每个样本有10000个特征，则输入矩阵X的维度为(10000,600)，如果训练的网络模型如上所示，则对应的 $w^{[1]}_1,w^{[1]}_2,w^{[1]}_3$ 的维度都为(10000,1)，（PS：单个神经元的600个样本的w都是相同的，即使是600个样本，也应该只有一个w）。b的维度可以直接通过广播来确定，也可以人为设置为（10000,1）。所以第一层神经网络可以获得 $a^{[1]}_1,a^{[1]}_2,a^{[1]}_3$ 这三个参数，分别对应着第一个神经元对所有第二层的 $w^{[2]}$ 维度为（3,1）， $b^{[2]}$ 也为（3,1）。

2.激活函数

1.sigmoid函数

函数表达式为：

$G(z) = \frac{1}{{1 + {e^{ - z}}}}$

图像如下：

2.双曲正切函数

函数表达式为：

$g(z)=\tanh(z)=\frac{e^z-e^{-z}}{e^z+e^{-z}}$

图像如下：

可见双曲正切函数是相当于对sigmoid函数进行上下平移，这样使得输出的平均值可以为0，类似于数据中心化的效果，可以使下一层的计算更加方便。

以上说的这两种激活函数也有一个比较明显的缺陷：当Z特别大或者特别小的时候，该点的斜率就会变得比较小，这样一来应用梯度下降法的效果就不显著，下面这一种激活函数（又叫线性修正单元）ReLU可以避免这个问题。

3.线性修正单元（RELU）

该函数的表达式如下：

当Z大于零的时候，函数的导数一直为一，小于零则为零。这个函数一般是隐藏层节点的默认激活函数。

4.leaking ReLU

该函数的表达式如下：

图像：

3.为什么要用非线性激活函数？

如果使用线性激活函数，则模型的复杂度和直接计算输入参数不相上下，不如直接去掉隐藏层。只有当遇到机器学习中的回归函数时才会使用线性函数进行计算。

4.激活函数的导数

sigmoid函数：

$\frac{d}{dz}g(z)=g(z)(1-g(z))$

双曲正切函数导数：

$\frac{d}{dz}g(z)=(1-g(z))^2,g(z)=\tanh(z)=\frac{e^z-e^{-z}}{e^z+e^{-z}}$

ReLU函数：

$g(z)'=\left\{ \begin{array}{l} 0,if z<0\\ 1 ,if z \geq1 \\ \end{array} \right.$

Leaky ReLU函数:

$g(z)'=\left\{ \begin{array}{l} 0.01,if z<0\\ 1 ,if z \geq1 \\ \end{array} \right.$

5.神经网络的梯度下降法（反向传播）

本节主要是进一步的解释了梯度下降法在神经网络中的应用，与之前梯度下降法那一节的课程有一些重复的地方，可以当作是重新温习一下。

以一个2层的神经网络为例，单个样本的特征数目 $n_x=n^{[0]}$ ，第一层节点个数为 $n^{[1]}$ ，第二层节点个数为 $n^{[2]}$ 。

相关参数： $w^{[1]},b^{[1]},w^{[2]},b^{[2]}$ 的维度分别为 $(n^{[1]},n^{[0]}),(n^{[1]},1),(n^{[2]},n^{[1]}),(n^{[2]},1)$ 。z=w^{T}x+b，a为经过激活后的输出。

如之前所介绍，正向传播需要以下四个公式：

$Z^{[1]}=W^{[1]}X+b^{[1]}$

$A^{[1]}=g^{[1]}(Z^{[1]})$

$Z^{[2]}=W^{[2]}A^{[1]}+b^{[2]}$

$A^{[2]}=g^{[2]}(Z^{[2]})=\sigma(Z^{[2]})$

反向传播需要的公式稍微多一点，推导过程可以参照之前对梯度下降法的介绍：

$dZ^{[2]}=A^{[2]}-Y$

$dW^{[2]}=\frac{1}{m}dZ^{[2]}A^{[1]T}$

$db^{[2]}=\frac{1}{m}np.sum(dZ^{[2]},axis=1,keepdims=True)$

$dZ^{[1]}=W^{[2]T}dZ^{[2]}*g^{[1]}'(Z^{[1]})$ 应注意这里用的是激活函数的导数

$dW^{[1]}=\frac{1}{m}dZ^{[1]}X^{T}$

$db^{[1]}=\frac{1}{m}np.sum(dZ^{[1]},axis=1,keepdims=True)$

第四周深层神经网络

1.深层神经网络的概念

线性回归、单隐层神经网络（双层神经网络）、双隐层神经网络和5隐层神经网络的结构图如下所示：

符号约定：

L是神经网络层数； $n^{[L]}$ 为神经网络某一层的节点数,n0为输入层， $a^{[L]}$ 为某一层的激活函数

2.核对矩阵的维数

以一个5层神经网络为例，其示意图如下所示：

遵循上一节的符号约定，加上输入参数x,该神经网络的层数分别表示为 $n^{[0]}-n^{[5]}$ ,下面举一个例子来确认一下神经网络的层数：

假设共有600(m=600)个输入样本，每个样本分别有1000个特征（即 $n^{[0]}=1000$ ）,则向量化后X的维数为[1000,600],即 $[n^{[0]},m]$ ,则神经网络第一层参数的维度分别为：

$Z^{[1]}=W^{[1]}X+b^{[1]}$ 其中： $Z^{[1]}\in[3,600]([n^{[1]},m] )\quad W^{[1]T}\in[3,1000]([n^{[1]},n^{[0]}])\quad b^{[1]}\in [3,1]([n^{[1]},1])$

$A^{[1]}=g^{[1]}(Z^{[1]})$ 自然 $A^{[1]}\in[3,600]([n^{[1]},m])$

同样的可以计算出第二层各参数的维度：

$Z^{[2]}=W^{[2]}A^{[1]}+b^{[2]}$ 其中：

$Z^{[2]}\in[3,600]([n^{[1]},m] )\quad A^{[1]}\in[3,600]([n^{[1]},m])$ $W^{[2]T}\in[5,3]([n^{[2]},n^{[1]}])\quad b^{[2]}\in [5,1]([n^{[2]},1])$

$A^{[2]}=g^{[2]}(Z^{[2]})=\sigma(Z^{[2]})$ 同样 $A^{[2]}\in[5,600]([n^{[2]},m])$

通过这两层的例子，我们可以看出如下规律：

$Z^{[l]},A^{[l]}\in[n^{[1]},m] \quad W^{[l]T}\in[n^{[l]},n^{[l-1]}]\quad b^{[l]}\in [n^{[l]},1]$ 他们的导数维数也不变.

3.实现正向和反向传播

正向传播：输入 $a^{[l-1]}$ ，输出 $a^{[l]}$ ，缓存 $z^{[l]}\; w^{[l]}\; b^{[l]}$ 。

反向传播：输入 $da^{[l]}$ ，输出 $da^{[l-1]}$ , $dW^{[l]}\;db^{[l]}$

反向传播的公式如下：

$dZ^{[l]}=dA^{[l]}*g^{[l]}'(Z^{[l]})$ 应注意这里用的是激活函数的导数

$dW^{[l]}=\frac{1}{m}dZ^{[l]}A^{[l-1]T}$

$db^{[l]}=\frac{1}{m}np.sum(dZ^{[l]},axis=1,keepdims=True)$

$dA^{[l-1]}=W^{[l]}dZ^{[l]}$

一个深度神经网络的实现过程可以由下图来展示：

4.参数和超参数

超参数：能够控制学习参数的参数被称为超参数。例如在神经网络中，学习率、隐层的数量、节点的数量、迭代的次数、激活函数的选择等等这些参数都可以控制W和B的变化，因此这些参数被称为超参数。

可以通过查看代价函数的收敛情况来改变学习率这个超参数。

吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
吴恩达深度学习笔记(24)-为什么要使用深度神经网络？极客Array
为什么使用深层表示？（Whydeeprepresentations?）我们都知道深度神经网络能解决好多问题，其实并不需要很大的神经网络，但是得有深度，得有比较多的隐藏层，这是为什么呢？我们一起来看几个例子来帮助理解，为什么深度神经网络会很好用。首先，深度网络在计算什么？如果你在建一个人脸识别或是人脸检测系统，深度神经网络所做的事就是，当你输入一张脸部的照片，然后你可以把深度神经网络的第一层，当成一
吴恩达深度学习-L1 神经网络和深度学习总结向来痴_ 深度学习人工智能
作业地址：吴恩达《深度学习》作业线上版-知乎(zhihu.com)写的很好的笔记：吴恩达《深度学习》笔记汇总-知乎(zhihu.com)我的「吴恩达深度学习笔记」汇总帖（附18个代码实战项目）-知乎(zhihu.com)此处只记录需要注意的点，若想看原笔记请移步。1.1深度学习入门我们只需要管理神经网络的输入和输出，而不用指定中间的特征，也不用理解它们究竟有没有实际意义。1.2简单的神经网络——逻
神经网络与深度学习 Neural Networks and Deep Learning 课程笔记第一周林间得鹿吴恩达深度学习系列课程笔记深度学习神经网络笔记
神经网络与深度学习NeuralNetworksandDeepLearning课程笔记第一周文章目录神经网络与深度学习NeuralNetworksandDeepLearning课程笔记第一周深度学习简介什么是神经网络使用神经网络进行监督学习为什么神经网络会兴起本文是吴恩达深度学习系列课程的学习笔记。深度学习简介什么是神经网络深度学习一般是指训练神经网络。那么什么是神经网络？课程以房价预测的例子来说明
学习笔记1《吴恩达深度学习》Deep Learning 木懋懋深度学习
P11.1.1欢迎Welcome深度学习改变了传统互联网业务，例如网络搜索和广告，但是深度学习同时也使得许多新产品和企业以很多方式帮助人们，从获得更好的健康关注，深度学习做得非常好的一个方面就是读取X光图像，到生活中的个性化教育，到精准化农业，甚至到驾驶汽车以及其他一些方面。如果你想要学习深度学习的这些工具，并应用它们来做这些令人窒息的操作，就学习这门课程。在接下来的十年中，我认为我们所有人都有机
吴恩达深度学习-学习笔记p1-p6 丢了橘子的夏天深度学习学习笔记
哔哩哔哩网站视频-[双语字幕]吴恩达深度学习deeplearning.ai网站：up主：mHarvey，视频：[双语字幕]吴恩达深度学习deeplearning.ai一.p11.1欢迎二.p21.2什么是神经网络1.举例：根据面积预测房价假设有六个房子的房屋面积和价格，根据这个数据集，房屋面积预测房价的函数，这些是一个简单的神经网络神经元的功能就是输入面积完成线性运算，取不小于0的值，最后得到预测
吴恩达深度学习笔记(15）-浅层神经网络之神经网络概述极客Array
神经网络概述（NeuralNetworkOverview）从今天开始你将学习如何实现一个神经网络。这里只是一个概述，详细的在后面会讲解，看不懂也没关系，先有个概念，就是前向计算然后后向计算，理解了这个就可以了，有一些公式和表达在后面会详细的讲解。在我们深入学习具体技术之前，我希望快速的带你预览一下后续几天你将会学到的东西。现在我们开始快速浏览一下如何实现神经网络。之前我们讨论了逻辑回归，我们了解了
【吴恩达深度学习】— 参数、超参数、正则化 Sunflow007
32.jpg1.参数VS超参数1.1什么是超参数（Hyperparameters）？比如算法中的learningrate（学习率）、iterations(梯度下降法循环的数量)、L（隐藏层数目）、（隐藏层单元数目）、choiceofactivationfunction（激活函数的选择）都需要你来设置，这些数字实际上控制了最后的参数W和b的值，所以它们被称作超参数。实际上深度学习有很多不同的超参数，
交并比（Intersection over union）双木的木吴恩达深度学习笔记深度学习知识点储备笔记算法机器学习 python 深度学习计算机视觉
来源：Coursera吴恩达深度学习课程如何判断目标检测算法运作良好呢？接下来，你将了解到并交比（intersectionoverunion）函数，可以用来评价目标检测算法。交并比（loU）函数做的是计算两个边界框交集和并集之比。两个边界框的并集是这个区域，就是属于包含两个边界框区域（绿色阴影表示区域），而交集就是这个比较小的区域（橙色阴影表示区域），那么交并比就是交集的大小，这个橙色阴影面积，然
吴恩达深度学习笔记(82)-深度卷积神经网络的发展史极客Array
为什么要探索发展史(实例分析)？我们首先来看看一些卷积神经网络的实例分析，为什么要看这些实例分析呢？上周我们讲了基本构建，比如卷积层、池化层以及全连接层这些组件。事实上，过去几年计算机视觉研究中的大量研究都集中在如何把这些基本构件组合起来，形成有效的卷积神经网络。最直观的方式之一就是去看一些案例，就像很多人通过看别人的代码来学习编程一样，通过研究别人构建有效组件的案例是个不错的办法。实际上在计算机
吴恩达深度学习课程作业--C1W2 HELLOTREE1
1.3-Reshapingarraysv=v.reshape((v.shape[0]*v.shape[1],v.shape[2]))#v.shape[0]=a;v.shape[1]=b;v.shape[2]=c
吴恩达深度学习学习笔记-7建立神经网络猪猪2000 吴恩达深度学习学习笔记神经网络深度学习人工智能机器学习
1.训练神经网络训练神经网络时，需要做许多决策。例如，有多少层网络每层含有多少个隐藏单元学习率各层采用哪些激活函数…这些决策无法一次决定好，通常在项目启动时，我们会先有一个初步想法，然后编码，并尝试运行这些代码，再根据结果完善自己的想法，改变策略。2.train/dev/testsets通常把数据分为训练集，验证集，测试集。我们用训练集数据训练模型，用验证集做holdoutcrossvalidat
【吴恩达深度学习】Keras tutorial - the Happy House 深海里的鱼(・ω<)★ 人工智能机器学习深度学习 keras 深度学习 tensorflow
Kerastutorial-theHappyHouseWelcometothefirstassignmentofweek2.Inthisassignment,youwill:LearntouseKeras,ahigh-levelneuralnetworksAPI(programmingframework),writteninPythonandcapableofrunningontopofsever
吴恩达深度学习第二课-第一周笔记及课后编程题 Giraffeee_ 吴恩达深度学习深度学习人工智能机器学习
笔记训练_开发_测试集小数据时代训练集/测试集的分配比例大致遵循70%/30%或训练集/开发集（或crossvalidationset）/测试集的分配比例大致遵循60%/20%/20%大数据时代只要开发集能够确定哪一个算法/模型有更好的表现，测试集能够无偏评估模型的性能，就称赋予了开发集、测试集足够的数据量了；训练集将被赋予更大比重的数据量。如：训练集/开发集/测试集的比率为98%/2%/2%注：
吴恩达深度学习--神经网络的优化(1) Kangrant 吴恩达深度学习
1.训练集，验证集，测试集选择最佳的Train/Dev/Testsets非常重要。除此之外，构建神经网络时，需要设置的参数很多：神经网络层数，神经元个数，学习率的大小。激活函数的选择等等。实际上很难第一次就确定好这些参数，大致过程是：先确定初始参数，构建神经网络模型，然后通过代码实现该模型，之后进行试验确定模型的性能。根据性能再不断调整参数，重复上述过程，直到让神经网络模型最优。由上述可知，深度学
计划1 JLcucumber
1.吴恩达DL2021(强推|双字)2021版吴恩达深度学习课程Deeplearning.ai_哔哩哔哩_bilibiliPart1神经网络与深度学习（6+19+12+8）共45Part2训练、开发、测试集（14+10+11）共35Part3机器学习策略（13+11）共24Part4计算机视觉（11+14+14+(5+6)）共50Part5序列模型（12+10+15）共372.经典网络模型论文ht
吴恩达深度学习笔记(50)-超参数训练的实践极客Array
超参数训练的实践：PandasVSCaviar（Hyperparameterstuninginpractice:Pandasvs.Caviar）到现在为止，你已经听了许多关于如何搜索最优超参数的内容，在结束我们关于超参数搜索的讨论之前，我想最后和你分享一些建议和技巧，关于如何组织你的超参数搜索过程。如今的深度学习已经应用到许多不同的领域，某个应用领域的超参数设定，有可能通用于另一领域，不同的应用领
2019年上半年收集到的人工智能迁移学习干货文章城市中迷途小书童
2019年上半年收集到的人工智能迁移学习干货文章迁移学习全面指南：概念、项目实战、优势、挑战迁移学习：该做的和不该做的事深度学习不得不会的迁移学习TransferLearning谷歌最新的PlaNet对强化学习以及迁移学习的意义及启发迁移学习时间序列分类如何提高强化学习的可靠性？迁移学习之最大分类器差异的无监督域适应吴恩达深度学习笔记(67)-迁移学习（Transferlearning)深度学习不
吴恩达深度学习intuition Karen_Yu_ 机器学习
这里是看吴恩达课程的一些记录和联想（因为以前听过，因此不会很细致，只做个人记录）课程链接首先提到trainingset,validationset(devset)，testset的分割问题。老师提到，最常用的划分方法传统方法是三七分（也就是training70%，validation+test30%，一般而言validation20%test10%），同时，这也是应对数据集不太大的时候的方法。也可
吴恩达深度学习笔记（2）-什么是神经网络（Neural Network）极客Array
什么是神经网络？(WhatisaNeuralNetwork)我们常常用深度学习这个术语来指训练神经网络的过程。有时它指的是特别大规模的神经网络训练。那么神经网络究竟是什么呢？在这个视频中，会讲解一些直观的基础知识。首先，让我们从一个房价预测的例子开始讲起。假设你有一个数据集，它包含了六栋房子的信息。所以，你知道房屋的面积是多少平方英尺或者平方米，并且知道房屋价格。这时，你想要拟合一个根据房屋面积预
吴恩达深度学习笔记(28)-网络训练验证测试数据集的组成介绍极客Array
从今天开始我们进入新的一个大方向了，改善深层神经网络：超参数调试、正则化以及优化，首先进入深度学习的一个新层面，先认识下在深度学习中的数据集的分类。之前可能大家已经了解了神经网络的组成的几个部分，那么我们将继续学习如何有效运作神经网络，内容涉及超参数调优，如何构建数据，以及如何确保优化算法快速运行，从而使学习算法在合理时间内完成自我学习。训练，验证，测试集（Train/Dev/Testsets）在
吴恩达深度学习-序列模型 3.10触发字监测 + 课程总结 prophet__
今天学习的是触发字检测，这个说起来可能有点学术，但是简单来说就是。hey,siri!然后你的手机就会亮起来，这就是触发字检测。首先，关于触发字检测还处于发展阶段，并没有一个以绝对优势取胜的算法。如果我们想建立一个算法，那么我们首先要知道数据集如何进行标记，如果从简单的结果来想，我们可以在每次完成一次触发字之后的那个时间设置为1，其他时间设置为0。但这样做是有一些问题的，因为大部分时间是不会触发的，
深度学习记录--矩阵维数蹲家宅宅深度学习记录深度学习矩阵人工智能
如何识别矩阵的维数如下图矩阵的行列数容易在前向和后向传播过程中弄错，故写这篇文章来提醒易错点顺便起到日后查表改错的作用本文仅作本人查询参考(摘自吴恩达深度学习笔记)
吴恩达深度学习笔记(36)-神经网络的梯度消失/梯度爆炸极客Array
梯度消失/梯度爆炸（Vanishing/Explodinggradients）训练神经网络，尤其是深度神经所面临的一个问题就是梯度消失或梯度爆炸，也就是你训练神经网络的时候，导数或坡度有时会变得非常大，或者非常小，甚至于以指数方式变小，这加大了训练的难度。这节课，你将会了解梯度消失或梯度爆炸的真正含义，以及如何更明智地选择随机初始化权重，从而避免这个问题。假设你正在训练这样一个极深的神经网络，为了
吴恩达深度学习笔记(45)-Adam 优化算法(Adam optimization) 极客Array
Adam优化算法(Adamoptimizationalgorithm)在深度学习的历史上，包括许多知名研究者在内，提出了优化算法，并很好地解决了一些问题，但随后这些优化算法被指出并不能一般化，并不适用于多种神经网络，时间久了，深度学习圈子里的人开始多少有些质疑全新的优化算法，很多人都觉得动量（Momentum）梯度下降法很好用，很难再想出更好的优化算法。所以RMSprop以及Adam优化算法，就是
吴恩达深度学习（六）带刺的小花_ea97
超参数调整第一课：调整过程调整神经网络的过程包含了对许多不同超参数的设置，那么怎么样为这些参数找到比较合适的设定值呢？准则和系统化进行超参数设置的技巧将帮助你更加快速有效的获得合适的超参数。在深度神经网络训练中，面对大量的超参数，包括学习速率α、动量超参数β1、Adam优化算法中的超参数β2和ε、网络层数以及每层网络中隐藏单元的数量、学习率衰减情况下不可能只有单一的学习率、mini-batch的大
2023-11-21时间记录多喝开水少熬夜学习计划与实际学习
2023-11-21时间记录期望：学Linux听英语课程深度学习阅读书籍，也可以练练字今天干了什么2023-11-21时间记录8:30（下床）10:00（开始学习）学习输出8:30（下床）洗漱煮蛋，9:45出门10:00（开始学习）10:00-11:30英语听力吴恩达深度学习deeplearning.ai+社交间歇休息：吃午饭+锻炼（走圈25min）14:00-15:30：学Linux-thrif
吴恩达深度学习Course1-Week(3) 木心 DeepLearning 神经网络深度学习机器学习
吴恩达深度学习Course1-Week(3)文章目录吴恩达深度学习Course1-Week(3)一、什么是神经网络NeuralNetwork?（1）由逻辑回归到神经网络（2）神经网络的符号规定（3）向量化Vectorization（4）向量化后伪编程Programing二、激活函数ActiveFunction（1）常用的四种激活函数（2）四种激活函数的导数Derivatives三、梯度下降法Gra
吴恩达深度学习Course1-Week(1)(2) 木心 DeepLearning 深度学习神经网络机器学习
吴恩达深度学习Course1-Week(1)(2)文章目录吴恩达深度学习Course1-Week(1)(2)一、影响神经网络的性能的因素二、逻辑回归(logisticregression)中的一些符号(Notation)规定三、逻辑回归中的激活函数四、损失函数(lossfunction)与成本函数(costfunction)五、梯度下降法(GradientDescent)六、前向传播(forwar
吴恩达深度学习Course2-Week(1) 木心 DeepLearning 深度学习机器学习
吴恩达深度学习Course2-Week(1)文章目录一、Train/Dev/Test二、为什么双边导数的定义精度更高？三、机器学习基本方法BasicRecipeforMachineLearning一、Train/Dev/Test交叉验证集(Holdoutcrossvalidationset/Developmentset)与测试集(Testset)最好是同一分布。在一些情况下，没有测试集也没关系，测
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_

吴恩达深度学习系列笔记：第一课 神经网络和深度学习

第二周 神经网络基础