softmax的基本概念

分类问题
一个简单的图像分类问题，输入图像的高和宽均为2像素，色彩为灰度。
图像中的4像素分别记为。
假设真实标签为狗、猫或者鸡，这些标签对应的离散值为。
我们通常使用离散的数值来表示类别，例如。
权重矢量

神经网络图
下图用神经网络图描绘了上面的计算。softmax回归同线性回归一样，也是一个单层神经网络。由于每个输出的计算都要依赖于所有的输入，softmax回归的输出层也是一个全连接层。

Image Name

既然分类问题需要得到离散的预测输出，一个简单的办法是将输出值当作预测类别是的置信度，并将值最大的输出所对应的类作为预测输出，即输出。例如，如果分别为，由于最大，那么预测类别为2，其代表猫。

输出问题
直接使用输出层的输出有两个问题：
1. 一方面，由于输出层的输出值的范围不确定，我们难以直观上判断这些值的意义。例如，刚才举的例子中的输出值10表示“很置信”图像类别为猫，因为该输出值是其他两类的输出值的100倍。但如果，那么输出值10却又表示图像类别为猫的概率很低。
2. 另一方面，由于真实标签是离散值，这些离散值与不确定范围的输出值之间的误差难以衡量。

softmax运算符（softmax operator）解决了以上两个问题。它通过下式将输出值变换成值为正且和为1的概率分布：

其中

容易看出且，因此是一个合法的概率分布。这时候，如果，不管和的值是多少，我们都知道图像类别为猫的概率是80%。此外，我们注意到

因此softmax运算不改变预测类别输出。

计算效率
- 单样本矢量计算表达式
  为了提高计算效率，我们可以将单样本分类通过矢量计算来表达。在上面的图像分类问题中，假设softmax回归的权重和偏差参数分别为

$\boldsymbol{W} = \begin{bmatrix} w_{11} & w_{12} & w_{13} \\ w_{21} & w_{22} & w_{23} \\ w_{31} & w_{32} & w_{33} \\ w_{41} & w_{42} & w_{43} \end{bmatrix},\quad \boldsymbol{b} = \begin{bmatrix} b_1 & b_2 & b_3 \end{bmatrix},$

设高和宽分别为2个像素的图像样本的特征为

输出层的输出为

预测为狗、猫或鸡的概率分布为

softmax回归对样本分类的矢量计算表达式为

小批量矢量计算表达式
为了进一步提升计算效率，我们通常对小批量数据做矢量计算。广义上讲，给定一个小批量样本，其批量大小为，输入个数（特征数）为，输出个数（类别数）为。设批量特征为。假设softmax回归的权重和偏差参数分别为和。softmax回归的矢量计算表达式为

其中的加法运算使用了广播机制，且这两个矩阵的第行分别为样本的输出和概率分布。

softmax的基本概念

softmax的基本概念

你可能感兴趣的:(softmax的基本概念)