多分类神经网络:Softmax回归

       在机器学习中,我们会使用二分类算法的Many-vs-Many(多对多)和One-vs-Rest(一对多)模式来进行多分类。其中,OvR是指将多个标签类别中的一类作为类别1,其他所有类别作为类别0,分别建立多 个二分类模型,综合得出多分类结果的方法。MvM是指把好几个标签类作为1,剩下的几个标签类别作为0,同样分别建立多个二分类模型来得出多分类结果的方法。这两种方法非常有效,尤其是在逻辑回归 做多分类的问题上能够解决很多问题,但是在深度学习世界却完全不奏效。理由非常简单:

1. 逻辑回归是一个单层神经网络,计算非常快速,在使用OvR和MvM这样需要同时建立多个模型的方 法时,运算速度不会成为太大的问题。但真实使用的神经网络往往是一个庞大的算法,建立一个模 型就会耗费很多时间,因此必须建立很多个模型来求解的方法对神经网络来说就不够高效。

2. 我们有更好的方法来解决这个问题,那就是softmax回归。

                        多分类神经网络:Softmax回归_第1张图片

       我们从网络左侧输入特征,从右侧输出概率,且概率是通过线性回归的结果z外嵌套softmax函数来进行计算。在二分类时,输出层只有一个神经元,只输出样本对于正类别(通常是标签为1)的概率,而softmax的输出层的神经元的个数有多个。在所分类中,神经元的个数与标签类别的个数是一致的,如果是三分类,在输出层上就会存在十个神经元,分别输出十个不同的概率。此时,样本的预测标签就是所有输出的概率中最大的概率对应的标签类别。

那每个概率是如何计算出来的呢?来看Softmax函数的公式:

                                  

      其中e为自然常数(约为2.71828),z与sigmoid函数中的z一样,表示回归类算法(如线性回归)的结果。K表示该数据的标签中总共有K个标签类别,如三分类时K=3,四分类时K=4。k表示标签类别k类。很容易可以看出,Softmax函数的分子是多分类状况下某一个标签类别的回归结果的指数函数,分母是多分类状况下所有标签类别的回归结果的指数函数之和,因此Softmax函数的结果代表了样本的结果为类别k的概率

       在PyTorch中,我们往往使用内置好的 softmax函数来计算softmax的结果,我们可以使用torch.softmax来轻松的调用它。softmax函数输出的是从0到1.0之间的实数,而且多个输出值的总和是1。因为有了这个性质,我们可以把softmax函数的输出解释为“概率”,这和我们使用sigmoid函数之后认为函数返回的结果是概率异曲同工。需要注意的是,使用了softmax函数之后,各个之间的大小关系并不会随之改变,这是因为指数函数是单调递增函数,也就是说,使用softmax之前的z如果比较大,那使用softmax之后返回的概率也依然比较大。这是说,无论是否使用softmax,我们都可以判断出样本被预测为哪一类,我们只需要看z最大的那一类就可以了。所以,在神经网络进行分类的时候,如果不需要了解具体分类问题每一类的概率是多少,而只需要知道最终的分类结果,我们可以省略输出层上的softmax函数。

       torch中的softmax函数有两个参数,第一个参数是我们输入的用来进行计算的张量z,另一个参数则是希望运行softmax计算的维度的索引。softmax函数只能对单一维度进行计算,它只能够识别单一维度上的不同类别,但我们输入softmax的张量却可能是一个很高维的张量。所以softmax函数中需要我们输入的,就是我们希望在哪个维度上进行softmax运算。比如:

          多分类神经网络:Softmax回归_第2张图片

       对于s而言,我们现在有三个维度——最外层代表了“2个二维张量”,3则代表每个二维张量中有3行,最后的2则代表每个二维张量中有2列。此时,我们可以从外向内索引我们的维度,索引0对应的就是最外层,索引2对应的就是最里层,相似的,我们也可以反向索引,-1对应的就是最里层,-3对应的就是最外层。

torch.softmax(s,dim=0)

#在整个张量中,有2个张量,一个二维张量就是一类

torch.softmax(s,dim=1)

#在一个二维张量中,有3行数据,每一行是一种类别

torch.softmax(s,dim=2)

#在每一行中,有4个数据,每个数据是一种类别

代码如下:

多分类神经网络:Softmax回归_第3张图片

 多分类神经网络:Softmax回归_第4张图片

       在实际中,训练神经网络时往往会使用softmax函数,但在预测时就不再使用softmax函数,而是直接读取结果最大的z对应的类别了。但无论如何,了解softmax是必要的,也是非常有用的。

你可能感兴趣的:(分类,神经网络,回归)