1-2 神经网络基础

吴恩达《神经网络和深度学习》课程笔记


以监督学习为例

1. 训练集的表达

一组训练样本:

m组训练样本的集合:

把m组训练样本合并,形成训练矩阵:

1-2 神经网络基础_第1张图片

2. logistic回归

给定输入x,输出结果y^,其中:

y^的计算公式如下:

3. 损失函数的表达

Loss function:一组训练样本的损失(下图为交叉熵损失,神经网络中最常用的损失函数)

Cost function:对于同一组参数,所有训练样本的损失的平均值

训练网络时,要找到一组参数使 Cost function 尽量小。

采用梯度下降法:每次是参数值往使 Cost function 减小的方向移动。

1-2 神经网络基础_第2张图片

为什么损失函数要写成上述形式?

1-2 神经网络基础_第3张图片

目标是上式最大,所以构建损失函数如上述形式。

4. 梯度的反向传播

1-2 神经网络基础_第4张图片
一个简单的计算流程图
  1. 如果a增加一个很小的增量,这个增量是从前往后传播的,先传递到v,再传递到a。
  2. 而在计算梯度时应该从后往前计算,例如 dJ/da=dJ/dv * dv/da。
  3. 计算dJ/db时,将c带入当前值就可以了。

5. Logistic回归的梯度下降法

伪代码描述:

J=0; dw1=0; dw2=0; db=0
for i = 1 to m
    z(i) = w.T*x(i) + b
    a(i) = sigmoid(z(i))
    J += -(y(i)*log(a(i)) + (1-y(i))*log(1-a(i)))
    dz(i) = a(i) - y(i)
    for j = 1 to n
        dwj += xj(i) * dz(i)
    db += dz(i)
J /= m
dw1 /= m; dw2 /= m; db /= m

w1 := w1 - c*dw1
w2 := w2 - c*dw2
b := b - c*db

其中,m 代表了训练样本的个数,j 代表了有多少个特征。例如 j=2,则 z=w1Tx1+w2Tx2+b。

所以,这里的 x1(1) 和 x2(1) 只是数字,合起来是向量 x(1),后面的 dwj 也是数字。把它们都合并成向量就可以去掉这一层 for 循环了。

使用向量化的方法(基于Python的numpy):

J=0; db=0
dw = np.zeros((nx,1))

Z = w.T*X + b
A = sigmoid(Z) 
dZ = A - Y
dw = X*dZ.T / m
db = np.sum(dZ) / m

w := w - c*dw
b := b - c*db

尽量不用for循环,而用Python内置的向量计算函数。因为向量计算函数是并行运行的,可以大大提高计算速度。

6. 使用Python向量的注意事项

Python中的broadcast机制

  1. (m,n) 的矩阵加(或减、乘、除)一个 (m,1) 的矩阵,Python 会将其复制为 n 列,再计算;
  2. (m,n) 的矩阵加(或减、乘、除)一个 (1,n) 的矩阵,Python 会将其复制为 m 行,再计算;
  3. (1,n) 的矩阵加(或减、乘、除)一个实数 r,Python 会将其复制为 n 列,再计算;
  4. (m,1) 的矩阵加(或减、乘、除)一个实数 r,Python 会将其复制为 m 行,再计算。

生成一个随机初始化的向量

  1. a = np.random.randn(5)
    生成的是秩为1的数组,既不是行向量也不是列向量
  2. a = np.random.randn(5,1)
    生成的是5*1的列向量
  3. a = np.random.randn(1,5)
    生成的是1*5的行向量

你可能感兴趣的:(1-2 神经网络基础)