《deep learning》前两周课程总结

AI发展迅速，特别是NLP，一会是Bert，一会是GPT-2，热火朝天。禁不住，我几个月前也想重新好好学习一下深度学习，并且用它做点东西。前几天，看《哈佛幸福课》的时候就说了，想做什么事情，不要拖着说等个什么契机再做，要立刻行动，行为改变态度。

于是，上个周末，我终于计划好学习计划，重新开始学习。学习深度学习，当然从吴恩达的《deep learning》开始，原理讲得很透彻也很易懂，适合我这种没什么基础的。下面，是我这个周末学习笔记。

一、神经网络和深度学习(第一周)

1、Relu全称是修正性单元，它的函数示例大概如下图：

image.png

2、一个简单的神经网络

image.png

例如：由房子大小、房间数量、邮政编码、富裕程度这个四个输入x，来决定最终的价格，也就是y。

注意：上面的圆圈，在神经网络中叫做隐藏单元。其中上面的x1,x2,x3,x4代表输入层，也就是4个特征。

最终，可以参考下图：

image.png

3、神经网络可以处理结构化数据，也可以处理非结构化数据

结构化数据：一般是我们数据库中的数据，例如Mysql中表的数据

非结构化数据：音频数据、图片数据、文本数据等等

4、神经网络分类

（1）基本的神经网络

（2）CNN也就是卷积神经网络，专门用来做图像识别等

（3）RNN循环神经网络，它主要用来处理一维的时间序列数据，例如音频数据、文本数据。

5、神经网络为什么突然这么厉害了？

image.png

参考上图：

1、当在数据量小的时候，也许一些机器学习算法，因为设计的更好，可能会被深度学习表现更好，所以小数据集时，并不能确定算法优劣。

2、而只有当数据量变得很大时，大型的神经网络才表现出更优异的结果。

3、也就是说，推动神经网络发展，不仅仅是技术的发展，网络规模的发展，更是因为有了海量的数据，注意了，这个数据还需要是标签化的数据。

6、神经网络发展的三要素

数据
计算力
算法

其中，算法的发展，有一个例子，就是sigmoid到relu，就会使梯度下降运行得更快，因为sigmoid到后面梯度越来越接近0了，如下：

image.png

二、神经网络基础(第二周)

1、神经网络拥有一个前向传播，然后又会有一个后向传播

2、二分分类符号

将m张图片，也就是使用 nx * m 代表(nx, m)矩阵，用python表达就是X.shape = (nx, m)，nx代表行，m代表列。最终，变成Y矩阵，Y.shape = (1, m)，代表1行m列，逻辑符号看下面：

image.png

原来，矩阵的符号是下面个：

image.png

代表 x 是 nx元素个矩阵，它是一维矩阵。

image.png

X代表是(nx, m)矩阵，它是二维矩阵。

3、怎么使用矩阵代表一张图片

一张64x64像素的RGB图片，因为它是3个通道，所以可以表示成 64x64x3，最终将其压缩到一列中，如下：

image.png

4、一个logistic回归

image.png

（1）使用w和b参数学习

（2）最终使用sigmoid函数转换为0和1

image.png

5、损失函数、成本函数

损失函数：预测的值与真实的值误差

成本函数：则是求所有的预测值和真实值误差的平均值

image.png

6、梯度下降

image.png

在梯度下降的时候，我们其实就是在找凸函数的最优解。

例如，上面的图形中底部那一点。刚开始，我们不管初始化多少，我们都会使用梯度下降，不停逼近那个最优解。

其中，在求最优解的时候，我们会使用导数更新w和b值，还有一个参数就是α，它代表学习率，它越大，学习的越快，但是最后精度可能不好。而求导的过程，其实就是求曲线的斜率。

7、直线求导

对于直线，斜率就是导数，一般导数这两种写法：

image.png

为啥说直线斜率就是导数，参考下面:

image.png

8、更多复杂的导数例子

注意：导数都是求函数的斜率，直线的斜率是一样的，但是其它函数，例如loga等，在不同的地方，曲线斜率是不一样的。

image.png

9、计算图流程

image.png

需要知道的是：

（1) 前向传播是计算图从左向右计算

（2）后向传播是计算图从右向左计算导数的计算

（3）python编程中，da代表损失函数对a求导，dv代表损失函数都v求导

10、logistic的梯度下降（在1个样本中的推导）

image.png

最主要，先求出dw1、dw2、db这些导数，然使用它们更新w1、w2、b，这就是梯度下降，更新公式如下：

image.png

其中α是学习率。

11、多个样本的logistic回归

其中sigmoid的函数为：

image.png

这一波推导比较复杂点，可以自己试着推导一遍。

12、将代码实现为向量化，可以在python中极大的提升速度，使用Numpy实现

image.png

numpy中有很多内置函数，当要计算时，尽量寻找numpy中内置函数，不要显示使用for循环

13、python中numpy向量编程广播(Broadcasting)基本原则：

image.png

还有更多的只是，可以查阅numpy的文档，输入broadcasting查阅。

14、python使用numpy时，需要注意的地方

image.png

不要使用 a = np.random.randn(5)这样方法，使用 a = np.random.randn((5, 1))创建列向量，或者使用

a = np.random.randn((1, 5))创建横向量。

如果不确定shape时，使用assert(a.shape = (5, 1))来确认。

15、sigmoid函数实现

sigmoid方程如下:

image.png

代码实现如下：

def sigmoid(z):
    """
    Compute the sigmoid of z
    Arguments:
    z -- A scalar or numpy array of any size.
    Return:
    s -- sigmoid(z)
    """

    s = 1 / (1 + np.exp(-z))

    return s

需要注意，np.exp()是返回e的幂次方

三、作业实现

1、通过完成作业，我知道了整个神经网络的构建流程。

那是如何构建这个神经网络的呢？

(1)预处理数据。

读取图片，并将图片处理成向量化；读取文本。并且，将训练的数据和测试的数据放在不同的变量中。

(2)初始化数据。

这一步，主要初始化w(权重)和b的值，其中w的维度是与图片相关的，等于宽度x高度x3

(3)构建模型

构建模型中，首先是计算出前向传播，然后计算后向传播，计算出梯度，然后进行梯度下降，更新w和b的值。经过多个循环之后，它就会越加接近那个最优解。

(4)预测方法

预测方法其实就是拿我们训练好的w和b的值，然后进行前向传播计算出对应的y值，也就是我们的预测值。

2、在完成作业的时候，我也碰到了问题

（1）不知道什么时候使用np.dot还是直接A*B

例如下面公式：

image.png

我在计算成本函数的时候，报错了。这个问题，我的解决方法是通过打印这些变量观察得到。

但是，其实可以看公式就知道，例如A的计算，没有标注是第几个只是大写X和w^T相乘，这个明显是矩阵的点积。而J的成本函数计算时，是它们内部每一个y⁽ⁱ⁾和log(a⁽ⁱ⁾)相乘，其中y⁽ⁱ⁾代表第i个y值，所以是矩阵的乘法，也就是每个元素相乘。

总结

整个知识梳理了一遍，比我以前只知道实现却不知其所以然好多了。所以，我更憧憬后面的课程，争取一个月把它学完。

《deep learning》前两周课程总结

一、神经网络和深度学习(第一周)

二、神经网络基础(第二周)

三、作业实现

总结

你可能感兴趣的:(《deep learning》前两周课程总结)