【机器学习(七)】神经网络入门及多元分类

声明:本文是以吴恩达机器学习系列课程为学习对象而作的学习笔记。本文对应P43-P49。

神经网络的起源

人们想尝试设计出模仿大脑的算法。它的理念就是,如果我们想要建立学习系统,我们可以选择去模仿大脑。
大脑能做很多事情,似乎你得写很多不同的软件来模拟所有大脑所做的事情。但能不能假设大脑做所有这些不同事情的方法,不需要通过上千个不同的程序去实现。相反的,只需要一个学习算法就可以了。

【机器学习(七)】神经网络入门及多元分类_第1张图片

神经系统科学家做了一个有趣的实验:把耳朵到听觉皮层的神经切断,将大脑的神经重新连接,使得从眼睛经由视神经传递的信号,最终将传到听觉皮层。这样做的结果是:听觉皮层将会学会“看”。

那么也许存在一种学习算法,可以同时处理视觉、听觉和触觉,而非运行上千个不同的程序或者上千个算法。我们要做的就是找出一些近似的或者实际的大脑学习算法,然后实现它,让大脑自己学习如何处理这些不同类型的数据。

神经网络的表示

神经网络模仿了大脑中的神经元或者神经网络。为了解释如何表示假设模型,我们先来看单个神经元在大脑中是什么样的。
【机器学习(七)】神经网络入门及多元分类_第2张图片
我们的大脑中充满了这样的神经元,它有细胞体和很多输入通道,即树突,以及一条输出通道,即轴突,用于给其他神经元传递信号或者传送信息。
简而言之,神经元是一个计算单元。它从输入通道接受一定数目的信息并做一些计算,然后将结果通过它的轴突传送到其他节点,或者大脑中的其他神经元。

在一个电脑上实现的人工神经网络里,我们将使用一个很简单的模型来模拟神经元的工作。我们将神经元模拟成一个逻辑单元:
【机器学习(七)】神经网络入门及多元分类_第3张图片
图中黄色圆圈类似于神经元细胞体的东西,然后通过树突给它传递一些信息,然后神经元做一些计算,并通过它的输出通道即轴突输出计算结果。
我们将其称为一个带有sigmoid或者logistic激活函数的人工神经元,激活函数是指非线性代数g(z)。

神经网络其实就是一组神经元连接在一起的集合:
【机器学习(七)】神经网络入门及多元分类_第4张图片
第一层称作输入层,最后一层称为输出层,中间的层称为隐藏层。神经网络中神经元的连接方式称为神经网络的架构。

神经网络的计算

下面我们来分析这个图表所呈现的计算步骤:
先明确一些概念

  • 激活项 由一个具体神经元计算并输出的值
  • a^(j)_i 第j层第i个神经元或单元的激活项
  • 权重矩阵 它控制从某一层到某一层的映射
  • θ^(j) 从第j层到第j+1层的权重矩阵

那么,其中的一个隐藏单元是这样计算它的值的:
【机器学习(七)】神经网络入门及多元分类_第5张图片
a^(2)_1等于logistic激活函数作用在这种输入线性组合上的结果,其他隐藏单元类似。

如果一个网络在第j层上有s_j个单元,在j+1层有s_j+1个单元,那么矩阵θ^(j),即控制第j层到第j+1层映射的矩阵,它的维度为s_(j+1)*(s_j+1)

我们再定义一个项:z^(j)_i
即a^ (2)_1=g(z^(2)_1)
这些z值都是线性组合某个特定神经元的输入值x_0 x_1 x_2 x_3 的加权线性组合。

我们现在将神经网络的计算向量化:
我们将特征向量x定义为x_0 x_1 x_2 x_3组成的向量 z(j)定义为由z(2)_1 z(2)_2 z(2)_3组成的向量,同时是一个三维向量
【机器学习(七)】神经网络入门及多元分类_第6张图片
【机器学习(七)】神经网络入门及多元分类_第7张图片
这个计算h(x)的过程也成为前向传播,如此命名是因为:我们从输出单元的激活项开始,然后进行前向传播给隐藏层,计算隐藏层的激活项,然后继续前向传播,并计算输出层的激活项。

多元分类

要在神经网络中实现多元分类,采用的方法本质上是一对多法的拓展。
现在我们要识别四个类别的对象,通过图像来辨别出哪些是行人、汽车、摩托车或者货车。
【机器学习(七)】神经网络入门及多元分类_第8张图片
如此一来,我们要做的是:建立一个有四个输出单元的神经网络。现在神经网络的输出,将是一个含4个数的向量,输出变成了一个四维的向量。那么我们现在要做的就是:用第一个输出单元来判断图中是否是一个行人,再用第二个输出单元来判断图片中是否是一辆汽车,以此类推。
【机器学习(七)】神经网络入门及多元分类_第9张图片

当图中是一个行人时,理想情况下,我们希望输出1 0 0 0
在这里插入图片描述

对应不同图片的取值情况,我们对这种设定下的训练集的表示方式如下所示:
【机器学习(七)】神经网络入门及多元分类_第10张图片

y(i) 的值取决于对应的图像x(i) ,那么对应的训练样本将由一组(x(i) ,y(i) )组成,其中x(i) 就是四种物体其中一种的图像,而y(i) 就是这些向量中的一个。我们希望找到一些方法,让神经网络输出一些数值,输出值h(x(i) )约等于y(i) 。(注意:两者都是四维向量,分别代表四种不同的类别)。

你可能感兴趣的:(机器学习,神经网络,分类)