深度学习softmax函数理解

文章目录

    • 一,引入
    • 二,softmax是什么?
    • 三,为什么 使用 e x e^x ex
    • 实现
    • 总结

一,引入

我们为什么要引入这个函数,我们知道在机器学习当中,一些问题大概可以分为两种,一种是分类问题,一种是回归问题。
但,分类问题中可以有二分类问题和多分类问题。
对于而分类问题,我们可以很容易的想到使用逻辑回归算法。逻辑回归算法本身的逻辑并不复杂,最关键的步骤是将线性模型中输出值通过某种方式映射到[0,1]区间内。
深度学习softmax函数理解_第1张图片
通过sigmoid函数可以判断,根据头发等判断是否为男女,肿瘤问题等等。

对于softmax可以理解为就是解决多分类问题,将多分类问题结果通过概率的形式展现出来。

二,softmax是什么?

如果要说明softmax是什么的问题,就不得不提那种是非softmax的形式,举个例子,例如ReLu函数就是一种非softmax,而是一种hardmax。对于多分类问题(这里讨论的是两种分类以上),我么想要得到的信息是对于每种可能类别的可信度。即对每种可能结果赋予一个概率值。

下面给出softmax的定义:
在这里插入图片描述
z i z_i zi为第i个节点的输出值,C为节点的个数,可能输出结果的总数(分类类别数)。
通过上例中就可以将多分类问题的输出值(无论是多大)转化为范围在[0, 1]和为1的概率分布。

三,为什么 使用 e x e^x ex

认为最主要的是 对于 e x e^x ex,随着x的不断上升,斜率在不断的增大。当我们在x上有一点微小的变化时,都会导致y上的变化值较大。能够将输出的数值拉开距离,比较好的区分开来。
还有一个优点是在bp网络中求梯度,和使用各种梯度下降法去优化参数的时候, e x e^x ex求导为本身。
深度学习softmax函数理解_第2张图片

在pytroch中,Softmax与交叉熵损失函数同时实现。

实现

def softmax(X):
    """
    :param X:
    :return:
    """
    # 对向量中的每一个求他 e^x的值
    X_exp = torch.exp(X)
    # 对其进行一阶求和
    partition = X_exp.sum(1, keepdim=True) # 对求出的值任然保持维度
    return X_exp / partition #这里利用了一个广播机制, 将所有的数都进行除法的运算

def net(X):
    # -1
    return softmax(torch.matmul(X.reshape((-1, W.shape[0])), W) + b)

总结

如果模型输出为非互斥类别,且可以同时选择多个类别,则采用Sigmoid函数计算该网络的原始输出值。如果模型输出为互斥类别,且只能选择一个类别,则采用Softmax函数计算该网络的原始输出值。


参考:
[1] https://zhuanlan.zhihu.com/p/105722023
[2] http://www.noobyard.com/article/p-voihadih-qc.html
[3] https://www.bilibili.com/video/BV1K64y1Q7wu?from=search&seid=9124491475035014829&spm_id_from=333.337.0.0
[4] https://blog.csdn.net/bitcarmanlee/article/details/82320853

你可能感兴趣的:(深度学习,深度学习,分类,机器学习)