人人都能懂的机器学习——用Keras搭建人工神经网络04

回归MLP

MLP可以用于计算回归问题。如果你想要预测一个单一值（比如，获得房子的各种情况来预测房价），那么你只需要一个输出神经元来输出预测值。对于多元回归（即同时输出多个预测值），对于每个输出值都需要一个输出神经元。比如定位图像上的一个点，需要预测二维坐标，那就需要两个输出神经元。如果还想在点的周围预测一个包围框，那么还需要另外两个神经元，用来输出长度和宽度，那么总共需要4个神经元。

通常在构建用于回归的MLP时，输出神经元不会有激活函数，那么输出神经元可以输出任意值。除非你希望保证输出结果总是正的，那么你可以使用一个ReLU函数。或者可以使用一个softplus函数，这是ReLU的平滑变体：

当z为负值时，输出接近于0，当z为正时，输出接近于z。最后，如果需要保证预测值在一个给定的范围内，那么可以使用sigmoid函数或者tanh函数，然后就可以保证输出在一个适当的区域：sigmoid函数的输出范围在0到1，tanh函数输出范围在-1到1。

在训练过程中使用的损失函数通常是均方误差，但是如果训练集中有很多异常值，可能使用平均绝对误差会更好。或者还可以使用Huber损失，这是两者的结合。

这里再简单介绍一下Huber损失，其公式如下式所示

公式中的是判断数据点是否离群的一个边界（通常选取1作为边界），小于这个边界时使用均方误差MSE来计算其误差，大于这个边界时使用一个线性函数来计算。这种方式能够减少离群点对于误差计算的权重，从而避免模型过拟合，并且对于大多数数据，均方误差计算能够使收敛速度更快，精度更高。

下面我们用一个表格来展示回归MLP的典型结构

表1.1 回归MLP的典型架构

分类MLP

MLP还可以用于分类任务。对于二元分类问题而言，只需一个带有sigmoid激活函数的输出神经元，使输出结果在0到1之间即可。而这个0到1之间的输出值可以被理解预测为正类别的概率，那么预测为负类别的概率即为1减去正类别概率。

MLP当然也可以处理多标签二元分类问题。举个例子，一个邮件分类系统可以判断每一封邮件是否是垃圾邮件，于此同时，还可以判断出是否为紧急邮件。这样，就会需要两个输出神经元，并且都使用sigmoid激活函数：第一个输出邮件为垃圾邮件的概率，第二个输出邮件是紧急邮件的概率。一般而言，需要给每个正类别都分配一个输出神经元。并且，这里的两个概率并无绝对的联系，并不需要总和为1。这样，分类系统就可以输出任意组合的标签：非紧急正常邮件，非紧急垃圾邮件，紧急正常邮件，紧急垃圾邮件（尽管这种情况会被视为错误）。

如果一个实例只能被分进一个类别当中，但是另外还有三个及以上的类别，那么每个类别都需要一个输出神经元，然后对整个输出层使用softmax激活函数。softmax函数的作用就是确保所有类别估算的概率都在0和1之间，并且各个类别的概率相加为1（为体现各个类别的相斥关系）。这就是多类别分类问题。

图1.9 分类MLP（包括ReLU和softmax）结构.jpg

至于损失函数，既然是预测概率分布，那么交叉熵损失（或者叫对数损失）通常是一个好选择。

表1.2 分类MLP的典型架构

用Keras搭建MLP

Keras是一个高级深度学习API，可以非常轻松地构建，训练，评估并执行各种神经网络。Keras的官方说明文档可以在下面的网址中找到：

https://keras.io/

Keras是由Francois Chollet作为研究项目的一部分而开发的，并在2015年3月被作为开源项目发布。由于Keras具有易用性、灵活性和设计得也十分漂亮，它很快就流行起来。为了能够执行神经网络的大量运算，Keras需要依赖于一个计算后端。目前，你可以从三个流行的开放深度学习库中选择：TensorFlow， Microsoft Cognitive Toolkit（CNTK）和Theano。因此，为了避免混淆，我们将这个实现方式称为多后端Keras。

另外，2016年底以来，其他的实现方式也已经发布。你也可以在Apache的MXNet，苹果的core ML，Javascript或者Typescript（在网页浏览器中运行Keras代码）以及PlaidML（它可以在所有GPU设备上运行，不仅仅是Nvidia）上运行Keras。不仅如此，TensorFlow本身现在也绑定了自己的Keras实现，tf.keras。这个实现方式只支持TensorFlow作为后端，但是它还提供一些非常有用的额外的特性（见图1.10）：比如它支持TensorFlow的数据API，这使得加载和预处理数据变得非常容易。因此，我们将使用tf.keras。然而我们暂时不会使用TensorFlow的任何特别的功能，因此代码只需要一点点小的修改就可以在其他的Keras实现中运行了，比如修改一下数据输入。

图1.10 两个Keras API的实现方式：多后端Keras（左）和tf.keras（右）.jpg

在Keras和TensorFlow之后，最受欢迎的深度学习库就当属Facebook的PyTorch了（也许PyTorch甚至更加流行一点？）。有一个好消息是，PyTorch的的API与Keras非常相似，所以如果你掌握了Keras，那么如果你想切换到PyTorch也不会很难。在2018年以后PyTorch的流行度指数级增长，这很大程度上要归功于它的易用性和出色的文档，而这正是TensorFlow 1.x的劣势。而现在TensorFlow 2可以说跟PyTorch一样简单了，因为它采用Keras作为其官方高级API，并且大大简化和清理了其他TensorFlow的API。另外，官方的说明文档也重新组织，使用户能更加方便地找到需要的内容。同样的，PyTorch的主要缺点也在PyTorch 1.0中得到了很大程度上的解决。良性竞争对所有人都有好处。

好的，至此我们可以正式开始编程了！下篇文章我们会正式讲讲如何操作！

尽请期待啦！

人人都能懂的机器学习——用Keras搭建人工神经网络04

回归MLP

分类MLP

用Keras搭建MLP

你可能感兴趣的:(人人都能懂的机器学习——用Keras搭建人工神经网络04)