人人都能懂的机器学习——用Keras搭建人工神经网络04

回归MLP

MLP可以用于计算回归问题。如果你想要预测一个单一值(比如,获得房子的各种情况来预测房价),那么你只需要一个输出神经元来输出预测值。对于多元回归(即同时输出多个预测值),对于每个输出值都需要一个输出神经元。比如定位图像上的一个点,需要预测二维坐标,那就需要两个输出神经元。如果还想在点的周围预测一个包围框,那么还需要另外两个神经元,用来输出长度和宽度,那么总共需要4个神经元。

通常在构建用于回归的MLP时,输出神经元不会有激活函数,那么输出神经元可以输出任意值。除非你希望保证输出结果总是正的,那么你可以使用一个ReLU函数。或者可以使用一个softplus函数,这是ReLU的平滑变体:

当z为负值时,输出接近于0,当z为正时,输出接近于z。最后,如果需要保证预测值在一个给定的范围内,那么可以使用sigmoid函数或者tanh函数,然后就可以保证输出在一个适当的区域:sigmoid函数的输出范围在0到1,tanh函数输出范围在-1到1。

在训练过程中使用的损失函数通常是均方误差,但是如果训练集中有很多异常值,可能使用平均绝对误差会更好。或者还可以使用Huber损失,这是两者的结合。

这里再简单介绍一下Huber损失,其公式如下式所示

公式中的是判断数据点是否离群的一个边界(通常选取1作为边界),小于这个边界时使用均方误差MSE来计算其误差,大于这个边界时使用一个线性函数来计算。这种方式能够减少离群点对于误差计算的权重,从而避免模型过拟合,并且对于大多数数据,均方误差计算能够使收敛速度更快,精度更高。

下面我们用一个表格来展示回归MLP的典型结构

表1.1 回归MLP的典型架构

分类MLP

MLP还可以用于分类任务。对于二元分类问题而言,只需一个带有sigmoid激活函数的输出神经元,使输出结果在0到1之间即可。而这个0到1之间的输出值可以被理解预测为正类别的概率,那么预测为负类别的概率即为1减去正类别概率。

MLP当然也可以处理多标签二元分类问题。举个例子,一个邮件分类系统可以判断每一封邮件是否是垃圾邮件,于此同时,还可以判断出是否为紧急邮件。这样,就会需要两个输出神经元,并且都使用sigmoid激活函数:第一个输出邮件为垃圾邮件的概率,第二个输出邮件是紧急邮件的概率。一般而言,需要给每个正类别都分配一个输出神经元。并且,这里的两个概率并无绝对的联系,并不需要总和为1。这样,分类系统就可以输出任意组合的标签:非紧急正常邮件,非紧急垃圾邮件,紧急正常邮件,紧急垃圾邮件(尽管这种情况会被视为错误)。

如果一个实例只能被分进一个类别当中,但是另外还有三个及以上的类别,那么每个类别都需要一个输出神经元,然后对整个输出层使用softmax激活函数。softmax函数的作用就是确保所有类别估算的概率都在0和1之间,并且各个类别的概率相加为1(为体现各个类别的相斥关系)。这就是多类别分类问题。

图1.9 分类MLP(包括ReLU和softmax)结构.jpg

至于损失函数,既然是预测概率分布,那么交叉熵损失(或者叫对数损失)通常是一个好选择。

表1.2 分类MLP的典型架构

用Keras搭建MLP

Keras是一个高级深度学习API,可以非常轻松地构建,训练,评估并执行各种神经网络。Keras的官方说明文档可以在下面的网址中找到:

https://keras.io/

Keras是由Francois Chollet作为研究项目的一部分而开发的,并在2015年3月被作为开源项目发布。由于Keras具有易用性、灵活性和设计得也十分漂亮,它很快就流行起来。为了能够执行神经网络的大量运算,Keras需要依赖于一个计算后端。目前,你可以从三个流行的开放深度学习库中选择:TensorFlow, Microsoft Cognitive Toolkit(CNTK)和Theano。因此,为了避免混淆,我们将这个实现方式称为多后端Keras。

另外,2016年底以来,其他的实现方式也已经发布。你也可以在Apache的MXNet,苹果的core ML,Javascript或者Typescript(在网页浏览器中运行Keras代码)以及PlaidML(它可以在所有GPU设备上运行,不仅仅是Nvidia)上运行Keras。不仅如此,TensorFlow本身现在也绑定了自己的Keras实现,tf.keras。这个实现方式只支持TensorFlow作为后端,但是它还提供一些非常有用的额外的特性(见图1.10):比如它支持TensorFlow的数据API,这使得加载和预处理数据变得非常容易。因此,我们将使用tf.keras。然而我们暂时不会使用TensorFlow的任何特别的功能,因此代码只需要一点点小的修改就可以在其他的Keras实现中运行了,比如修改一下数据输入。

图1.10 两个Keras API的实现方式:多后端Keras(左)和tf.keras(右).jpg

在Keras和TensorFlow之后,最受欢迎的深度学习库就当属Facebook的PyTorch了(也许PyTorch甚至更加流行一点?)。有一个好消息是,PyTorch的的API与Keras非常相似,所以如果你掌握了Keras,那么如果你想切换到PyTorch也不会很难。在2018年以后PyTorch的流行度指数级增长,这很大程度上要归功于它的易用性和出色的文档,而这正是TensorFlow 1.x的劣势。而现在TensorFlow 2可以说跟PyTorch一样简单了,因为它采用Keras作为其官方高级API,并且大大简化和清理了其他TensorFlow的API。另外,官方的说明文档也重新组织,使用户能更加方便地找到需要的内容。同样的,PyTorch的主要缺点也在PyTorch 1.0中得到了很大程度上的解决。良性竞争对所有人都有好处。

好的,至此我们可以正式开始编程了!下篇文章我们会正式讲讲如何操作!

尽请期待啦!

你可能感兴趣的:(人人都能懂的机器学习——用Keras搭建人工神经网络04)