学习笔记 — 神经网络和深度学习(ng)_第二周


不支持数学公式,文章中有大量截图。更好的阅读体验,请点击:nbviewer


在第一课第二周的的课程中,ng以识别图片中是否有猫为例,简单介绍了一下二分类(Binary Classification)问题,以此引出对数几率回归算法(Logistic Regression)。Logistic Regression 是一种常用的二分类问题求解算法,通常用于处理监督学习(supervised learning)相关问题。在讲解LR(Logistic Regression)算法的过程中,ng穿插着介绍了梯度下降(Gradient Descent)、导数(derivatives)、计算图(computation graph)和向量化(Vectorization)。此外,ng还特意介绍了Python中的广播(Boradcasting)机制,一种有效提高计算效率的方法,也可以认为是向量化在python中的实现。

在这份笔记中,我将先记录导数(derivatives)、计算图(computation graph)、向量化(Vectorization)等基本概念,然后记录梯度下降(Gradient Descent)相关知识,最后记录Logistic Regression算法及案例 — 识别图片中是否有猫。


名词约定


名词 含义
ng Andrew Ng, 吴恩达老师
数据集 所有个案构成的集合
样本 数据集中的某一个案
特征 样本中的变量

1.1 - 导数(derivative)基础


直观上理解,导数的意义是计算函数 $f(x)$ 在 $x_0$ 处的斜率,即$y=f(x)$的变化速率。
导数的定义如下:

学习笔记 — 神经网络和深度学习(ng)_第二周_第1张图片

基本求导法则:

学习笔记 — 神经网络和深度学习(ng)_第二周_第2张图片

函数的和、差、积、商的求导法则:

学习笔记 — 神经网络和深度学习(ng)_第二周_第3张图片

复合函数的求导法则:

学习笔记 — 神经网络和深度学习(ng)_第二周_第4张图片

注:以上图片来自于同济大学编写的《高等数学(第六版)》。


1.2 - 计算图(computation graph)


computatiom graph 是用有向箭头表示数据流动方向、方框表示计算内容的计算流程图,能够很好的描述算法的整个计算过程,对于理解算法很有帮助。ng给出的一个案例如下:

学习笔记 — 神经网络和深度学习(ng)_第二周_第5张图片

1.3 - 向量化(vectorization)


向量化是提高计算效率的有效方法,其核心思想是将需要循环的累加、累乘等计算任务,通过合适的数据转换(如:转置、广播、堆叠等),变成矩阵或向量计算任务。

import numpy as np

x1 = np.linspace(1, 100, 10000)
x2 = np.linspace(1, 10, 10000)

# 假设要计算想x1与x2的乘积和
# 使用循环进行计算
%timeit -qo sum([x1[i]*x2[i] for i in range(x1.shape[0])])

# 使用向量化方法进行计算
%timeit -qo np.dot(x1, x2)

比较以上两个计算耗时,可以发现:向量化计算x1与x2的乘积和比循环的方法块1000多倍!!!


2.1 - 梯度下降法(Gradient Descent)


梯度下降法(Gradient Descent)是一个最优化算法,通常也称为最速下降法,它将负梯度方向作为搜索方向,越接近最优化目标,步长越小,前进越慢,当步长小于一个给定的值或迭代次数达到设定的上限,迭代停止。

如果你想了解更多关于梯度下降法的知识,请点击 wiki - Gradient descent


2.2 - 随机梯度下降法(Stochastic Gradient Descent)


SGD的优势在于,每一次迭代中随机选取一个样本计算梯度,而不是使用全部样本。

SGD不需要记录哪些样例已经在前面的迭代过程中被访问过,有时候随机梯度下降能够直接优化期望风险,因为样例可能是随机从真正的分布中选取的。

如果你想了解更多关于随机梯度下降法的知识,请点击 wiki - Stochastic Gradient descent


3 - 对数几率回归(Logistic Regression)


事实上,Logistic Regression是一个简单的神经网络。由于 LR 本质上是一个线性回归模型,因此 LR 主要适用于线性可分(linearly separable)的二分类问题,也可以应用于线性可分的多分类问题(案例)。

ng在讲解Logistic Regression算法时,以图像中是否有猫这个经典的二分类问题为例,将整个算法流程做了介绍,并在作业中引导学习者实现了这一算法。

使用训练好的LR模型判断图片中是否有猫的过程如下图:

学习笔记 — 神经网络和深度学习(ng)_第二周_第6张图片

3.1 - 符号约定


学习笔记 — 神经网络和深度学习(ng)_第二周_第7张图片

3.2 - 基本概念


  1. Sigmoid函数
  2. 损失函数(loss function)
  3. 成本函数(cost function)

3.2.1 - Sigmoid函数


sigmoid函数是一个非线性函数,在机器学习和深度学习中都有应用,有时也称作对数几率函数(logistic function)。

学习笔记 — 神经网络和深度学习(ng)_第二周_第8张图片

sigmoid函数及其导数的Python实现如下:

import numpy as np
%matplotlib inline

def sigmoid(x):
    """
    Compute the sigmoid of x

    Arguments:
    x -- A scalar or numpy array of any size

    Return:
    s -- sigmoid(x)
    """  
    s = 1.0 / (1.0 + np.exp(-x)) 
    return s


def sigmoid_derivative(x):
    """
    Compute the derivative of the sigmoid function with respect to its input x.
    
    Arguments:
    x -- A scalar or numpy array

    Return:
    ds -- Your computed gradient.
    """
    s = sigmoid(x)
    ds = s * (1 - s)    
    return ds
import matplotlib.pyplot as plt

x = np.linspace(-10, 10, 10000)
y_sigmoid = sigmoid(x)

plt.figure(figsize=(8,6))
plt.plot(x, y_sigmoid)
学习笔记 — 神经网络和深度学习(ng)_第二周_第9张图片

3.2.2 - 损失函数(loss function)



3.2.3 - 成本函数(cost function)


学习笔记 — 神经网络和深度学习(ng)_第二周_第10张图片

3.3 - LR模型训练过程


学习笔记 — 神经网络和深度学习(ng)_第二周_第11张图片

3.3.1 - 初始化参数



3.3.2 - 计算当前参数对应的cost(成本)和gradient(梯度)


学习笔记 — 神经网络和深度学习(ng)_第二周_第12张图片

3.3.3 使用梯度下降法更新参数


学习笔记 — 神经网络和深度学习(ng)_第二周_第13张图片

满足以下任一条件,迭代停止:

  1. 迭代次数超过num_iterations
  2. 参数更新步长(梯度)小于一个给定的值

3.3.4 输出训练好的参数,得到LR模型


使用梯度下降法更新参数完成之后,可以得到最终的 W和 b,即LR模型确定。接下来,就可以使用这个模型去进行新样本的预测了。


其他资源


  1. broadcasting - numpy
  2. Coursera吴恩达《神经网络与深度学习》课程笔记(2)-- 神经网络基础之逻辑回归
  3. 吴恩达Coursera Deep Learning学习笔记 1 (下)

你可能感兴趣的:(学习笔记 — 神经网络和深度学习(ng)_第二周)