《deep learning》前两周课程总结

AI发展迅速,特别是NLP,一会是Bert,一会是GPT-2,热火朝天。禁不住,我几个月前也想重新好好学习一下深度学习,并且用它做点东西。前几天,看《哈佛幸福课》的时候就说了,想做什么事情,不要拖着说等个什么契机再做,要立刻行动,行为改变态度。

于是,上个周末,我终于计划好学习计划,重新开始学习。学习深度学习,当然从吴恩达的《deep learning》开始,原理讲得很透彻也很易懂,适合我这种没什么基础的。下面,是我这个周末学习笔记。

一、神经网络和深度学习(第一周)

1、Relu全称是修正性单元,它的函数示例大概如下图:

image.png

2、一个简单的神经网络

image.png

例如:由房子大小、房间数量、邮政编码、富裕程度这个四个输入x,来决定最终的价格,也就是y。

注意:上面的圆圈,在神经网络中叫做隐藏单元。其中上面的x1,x2,x3,x4代表输入层,也就是4个特征。

最终,可以参考下图:

image.png

3、神经网络可以处理结构化数据,也可以处理非结构化数据

结构化数据:一般是我们数据库中的数据,例如Mysql中表的数据

非结构化数据:音频数据、图片数据、文本数据等等

4、神经网络分类

(1)基本的神经网络

(2)CNN也就是卷积神经网络,专门用来做图像识别等

(3)RNN循环神经网络,它主要用来处理一维的时间序列数据,例如音频数据、文本数据。

5、神经网络为什么突然这么厉害了?

image.png

参考上图:

1、当在数据量小的时候,也许一些机器学习算法,因为设计的更好,可能会被深度学习表现更好,所以小数据集时,并不能确定算法优劣。

2、而只有当数据量变得很大时,大型的神经网络才表现出更优异的结果。

3、也就是说,推动神经网络发展,不仅仅是技术的发展,网络规模的发展,更是因为有了海量的数据,注意了,这个数据还需要是标签化的数据。

6、神经网络发展的三要素

  • 数据

  • 计算力

  • 算法

其中,算法的发展,有一个例子,就是sigmoid到relu,就会使梯度下降运行得更快,因为sigmoid到后面梯度越来越接近0了,如下:

image.png

二、神经网络基础(第二周)

1、神经网络拥有一个前向传播,然后又会有一个后向传播

2、二分分类符号

将m张图片,也就是使用 nx * m 代表(nx, m)矩阵,用python表达就是X.shape = (nx, m),nx代表行,m代表列。最终,变成Y矩阵,Y.shape = (1, m),代表1行m列,逻辑符号看下面:

image.png

原来,矩阵的符号是下面个:

image.png

代表 x 是 nx元素个矩阵,它是一维矩阵。

image.png

X代表是(nx, m)矩阵,它是二维矩阵。

3、怎么使用矩阵代表一张图片

一张64x64像素的RGB图片,因为它是3个通道,所以可以表示成 64x64x3,最终将其压缩到一列中,如下:

image.png

4、一个logistic回归

image.png

(1)使用w和b参数学习

(2)最终使用sigmoid函数转换为0和1

image.png

5、损失函数、成本函数

损失函数:预测的值与真实的值误差

成本函数:则是求所有的预测值和真实值误差的平均值

image.png

6、梯度下降

image.png
image.png

在梯度下降的时候,我们其实就是在找凸函数的最优解。

例如,上面的图形中底部那一点。刚开始,我们不管初始化多少,我们都会使用梯度下降,不停逼近那个最优解。

其中,在求最优解的时候,我们会使用导数更新w和b值,还有一个参数就是α,它代表学习率,它越大,学习的越快,但是最后精度可能不好。而求导的过程,其实就是求曲线的斜率。

7、直线求导

对于直线,斜率就是导数,一般导数这两种写法:

image.png

为啥说直线斜率就是导数,参考下面:

image.png

8、更多复杂的导数例子

注意:导数都是求函数的斜率,直线的斜率是一样的,但是其它函数,例如loga等,在不同的地方,曲线斜率是不一样的。

image.png

9、计算图流程

image.png

需要知道的是:

(1) 前向传播是计算图从左向右计算

(2)后向传播是计算图从右向左计算导数的计算

(3)python编程中,da代表损失函数对a求导,dv代表损失函数都v求导

10、logistic的梯度下降(在1个样本中的推导)

image.png

最主要,先求出dw1、dw2、db这些导数,然使用它们更新w1、w2、b,这就是梯度下降,更新公式如下:

image.png

其中α是学习率。

11、多个样本的logistic回归

其中sigmoid的函数为:

image.png

这一波推导比较复杂点,可以自己试着推导一遍。

12、将代码实现为向量化,可以在python中极大的提升速度,使用Numpy实现

image.png

numpy中有很多内置函数,当要计算时,尽量寻找numpy中内置函数,不要显示使用for循环

13、python中numpy向量编程广播(Broadcasting)基本原则:

image.png

还有更多的只是,可以查阅numpy的文档,输入broadcasting查阅。

14、python使用numpy时,需要注意的地方

image.png

不要使用 a = np.random.randn(5)这样方法,使用 a = np.random.randn((5, 1))创建列向量,或者使用

a = np.random.randn((1, 5))创建横向量。

如果不确定shape时,使用assert(a.shape = (5, 1))来确认。

15、sigmoid函数实现

sigmoid方程如下:

image.png

代码实现如下:

def sigmoid(z):
    """
    Compute the sigmoid of z
    Arguments:
    z -- A scalar or numpy array of any size.
    Return:
    s -- sigmoid(z)
    """

    s = 1 / (1 + np.exp(-z))

    return s

需要注意,np.exp()是返回e的幂次方

三、作业实现

1、通过完成作业,我知道了整个神经网络的构建流程。

那是如何构建这个神经网络的呢?

(1)预处理数据。

读取图片,并将图片处理成向量化;读取文本。并且,将训练的数据和测试的数据放在不同的变量中。

(2)初始化数据。

这一步,主要初始化w(权重)和b的值,其中w的维度是与图片相关的,等于宽度x高度x3

(3)构建模型

构建模型中,首先是计算出前向传播,然后计算后向传播,计算出梯度,然后进行梯度下降,更新w和b的值。经过多个循环之后,它就会越加接近那个最优解。

(4)预测方法

预测方法其实就是拿我们训练好的w和b的值,然后进行前向传播计算出对应的y值,也就是我们的预测值。

2、在完成作业的时候,我也碰到了问题

(1)不知道什么时候使用np.dot还是直接A*B

例如下面公式:

image.png

我在计算成本函数的时候,报错了。这个问题,我的解决方法是通过打印这些变量观察得到。

但是,其实可以看公式就知道,例如A的计算,没有标注是第几个只是大写X和wT相乘,这个明显是矩阵的点积。而J的成本函数计算时,是它们内部每一个y(i)和log(a(i))相乘,其中y(i)代表第i个y值,所以是矩阵的乘法,也就是每个元素相乘。

总结

整个知识梳理了一遍,比我以前只知道实现却不知其所以然好多了。所以,我更憧憬后面的课程,争取一个月把它学完。

你可能感兴趣的:(《deep learning》前两周课程总结)