机器学习(二) 神经网络——多层感知机——反向传播

个人学习总结第二篇

神经网络及其分类

博客神经网络浅讲,其中提到一些容易混淆的概念机器学习(二) 神经网络——多层感知机——反向传播_第1张图片

机器学习在历史的滚滚洪流中某些名称与概念之间发生了让人懵逼的纠缠,上边的博客按发展进程作了梳理,这里对各种神经网络做个人总结

神经网络 干嘛的 混淆点
单层 线性分类器,只能处理简单的任务 Percetron,感知器,单层感知机 (两层:输入层和输出层)
两层 通过线性变换处理非线性任务,BP算法反向传播进行训练 可以说是最简单的多层神经网络,也被称为MLP多层感知机 ( 三层: 输入层,隐藏层,输出层
多层 更深的层次能够实现更深入地抽象,同参数下具有更好的识别效率 也就是深度神经网络,包含多个隐藏层
深度 预训练等新方法可以大幅减少训练时间 单独出现时指代普通的多层神经网络,其实卷积CNN和循环RNN都属于DNN

神经细胞的数学模型

前馈神经网络中最简单的系统为单层感知机,可以看成是生物中神经细胞功能的简化数学模型(见下图from CS231N)。也称为单层神经网络,核心是训练一个目标函数,对输入项权重加偏置提取所需的数据特征。两层或多层的神经网络也可以看成是一个函数,其中一层的输入项是上一层的输出项,在这样对原输入数据的不断权衡(加权求和)过滤(激活函数)中提取更复杂的特征。神经网络的层数越多,能够提取的基本特征也越多,组合成的高级特征也越复杂。
机器学习(二) 神经网络——多层感知机——反向传播_第2张图片

要素
输入信号 X 接受的信号,可以有多个通道
权重 W 单个神经元受各个通道的影响不一样,对各个通道的值加权求和
偏置项 b 调节神经细胞是否容易被激活
激活函数 activation function 当总和达到阈值时才会被激活,常见的有Sigmoid,ReLu等

接下来看多了一层隐含层的感知机有什么特别之处。

多层感知机

https://blog.csdn.net/fg13821267836/article/details/93405572
逻辑回归

Multiple Layer Perceptron 虽然是线性分类器的叠加,但是却能够处理非线性问题。这是因为隐含层的本质是矩阵与向量相乘,意味着对向量进行坐标变化,注意下边左图和中间图的坐标格。多层感知机常常指代只有一层隐含层的两层神经网络,因为中间无论有多少层,如果只进行加权求和,那么中间的所有层都可以合并为一层。所以在深层网络中每一层的激活函数起了非线性处理的关键作用,关于深层网络会在下一节中详细解释,这里先关注一层隐含层的情况。

机器学习(二) 神经网络——多层感知机——反向传播_第3张图片
这三层关系中我们需要关注两个过程,从输入层到隐藏层是一个全连接层,从隐藏层到输出层是一个分类器实现逻辑回归。逻辑在这里是Logistics(统筹,物流)的音译而非逻辑,回归问题有在第一节和分类问题区分,分类问题中的类别在回归问题中是一个连续的值。所谓逻辑回归的意思就是用回归的方法做分类,也就是在线性回归的基础上加上激活函数。

层 - 层 关系 发生了什么
输入- 隐藏 普通的全连接层 加权求和
隐藏 - 输出 逻辑回归 非线性激活

这就是多层感知机——两层神经网络的结构。接下来用监督学习的方法调整参数。

反向传播

在单层感知机中已经知道可以用梯度下降法推导合适的参数(权重和偏置)。那么如何推导损失函数对于每一个权重的梯度呢?答案就是作为神经网络核心算法的Backpropagation。

机器学习(二) 神经网络——多层感知机——反向传播_第4张图片

我们把神经网络的计算过程分解为一次次加权求和—— 基本运算也就是相加和相乘
机器学习(二) 神经网络——多层感知机——反向传播_第5张图片
每一个相加相乘的过程可以告诉我们下一层的某个节点,收到了上一层的某个节点什么样的影响(通过对应的权重)。总结起来就是下面这个图,很恐怖,但是看懂左边的一个节点,其他都是一样的—— 将右边所有节点对其的影响求和。
机器学习(二) 神经网络——多层感知机——反向传播_第6张图片
具体地公式强烈推荐3Blue1Brown视频。

minibatch随机梯度下降 SGD

在上一节线性分类器中已经介绍过梯度下降法。 但是当神经网络变得复杂时,每次完整地反向传播只能针对一个数据样本计算出权重矩阵应该改变的量,而下降一步(改变一次)需要对整个样本集进行计算求平均值。为了减轻这个庞大的计算量,把样本分成小份的minibatch,每次改变(下山)只对一份minibatch计算求均,这样虽然每次的梯度方向不太准确,但是能大大加快速度。

小结

深度学习是属于机器学习的一个分支,机器学习是人工智能的核心。传统的机器学习方法需要人工给出数据样本的特征(feature engineering),而深度学习的特点是借鉴于人体神经网络的 多层 隐含感知器,通过低层特征组合成高层特征,利于忽略整体的一些无关变量,识别目标的细微差异,比如通过图像识别萨摩耶和白狼。

你可能感兴趣的:(机器学习,神经网络,机器学习)