使用cross-entropy (交叉熵)定义loss的概率意义

证明:在多分类问题中,交叉熵损失(cross-entropy loss)定义loss是符合概率的。
证明:
极大似然的表述如下:
softmax函数给出了一个向量 y ^ \hat{\mathbf{y}} y^,它是一个概率分布,满足 ∑ 1 q y j ^ ( i ) = 1 \sum_1^q \hat{y_j}^{(i)} = 1 1qyj^(i)=1, 我们可以将其视为“对给定任意输入的每个类的条件概率”。 例如 P ( y = 猫 ∣ x ) P(y=\text{猫} \mid \mathbf{x}) P(y=x) 。 假设整个数据集 { X , Y } \{\mathbf{X}, \mathbf{Y}\} {X,Y} 具有 n n n 个样本, 其中索引 i i i 的样本由特征向量 x ( i ) \mathbf{x}^{(i)} x(i) 和独热标签向量 y ( i ) \mathbf{y}^{(i)} y(i) 组成。
上述样本出现的概率:
P ( Y ∣ X ) = ∏ i = 1 n P ( y ( i ) ∣ x ( i ) ) . P(\mathbf{Y} \mid \mathbf{X}) = \prod_{i=1}^n P(\mathbf{y}^{(i)} \mid \mathbf{x}^{(i)}). P(YX)=i=1nP(y(i)x(i)).

根据最大似然估计,我们最大化 P ( Y ∣ X ) P(\mathbf{Y} \mid \mathbf{X}) P(YX),相当于最小化负对数似然:

− log ⁡ P ( Y ∣ X ) = ∑ i = 1 n − log ⁡ P ( y ( i ) ∣ x ( i ) ) = ∑ i = 1 n l ( y ( i ) , y ^ ( i ) ) , -\log P(\mathbf{Y} \mid \mathbf{X}) = \sum_{i=1}^n -\log P(\mathbf{y}^{(i)} \mid \mathbf{x}^{(i)}) = \sum_{i=1}^n l(\mathbf{y}^{(i)}, \hat{\mathbf{y}}^{(i)}), logP(YX)=i=1nlogP(y(i)x(i))=i=1nl(y(i),y^(i)),

其中,对于任何标签和模型预测 y \mathbf{y} y,损失函数为 y ^ \hat{\mathbf{y}} y^
l ( y , y ^ ) = − ∑ j = 1 q y j log ⁡ y ^ j . l(\mathbf{y}, \hat{\mathbf{y}}) = - \sum_{j=1}^q y_j \log \hat{y}_j. l(y,y^)=j=1qyjlogy^j.

可以得到 P ( y ( i ) ∣ x ( i ) ) P(\mathbf{y}^{(i)} \mid \mathbf{x}^{(i)}) P(y(i)x(i)) 的定义
P ( y ( i ) ∣ x ( i ) ) = exp ⁡ ( ∑ j = 1 q y j ( i ) ⋅ log ⁡ ( y j ^ ( i ) ) ) P(\mathbf{y}^{(i)} \mid \mathbf{x}^{(i)}) = \exp(\sum_{j=1}^q y_j^{(i)} \cdot \log(\hat{y_j}^{(i)})) P(y(i)x(i))=exp(j=1qyj(i)log(yj^(i)))
下面说明 P ( y ( i ) ∣ x ( i ) ) P(\mathbf{y}^{(i)} \mid \mathbf{x}^{(i)}) P(y(i)x(i)) 定义符合概率定义。
1 。 1^。 1 P ( y ( i ) ∣ x ( i ) ) P(\mathbf{y}^{(i)} \mid \mathbf{x}^{(i)}) P(y(i)x(i)) > 0 0 0 是显然的。
2 。 2^。 2 y ( i ) y^{(i)} y(i) 是独热码,遍历所有 y ( i ) y^{(i)} y(i) 的可能性如下:
y 1 ( i ) y 2 ( i ) . . . y n ( i ) 1 0 . . . 0 0 1 . . . 0 . . . . . . . . . . . . 0 0 . . . 1 \begin{array}{ccc} y_1^{(i)} & y_2^{(i)} & ... & y_n^{(i)} \\ \hline 1&0 & ... &0\\ 0&1 & ... &0\\ ...&... & ... &...\\ 0&0 & ... &1\\ \end{array} y1(i)10...0y2(i)01...0...............yn(i)00...1
y ( i ) y^{(i)} y(i) q q q 个可能上对 P ( y ( i ) ∣ x ( i ) ) P(\mathbf{y}^{(i)} \mid \mathbf{x}^{(i)}) P(y(i)x(i)) 积分
∑ y ( i ) P ( y ( i ) ∣ x ( i ) ) = ∑ j q exp ⁡ ( log ⁡ ( y j ^ ( i ) ) ) = ∑ 1 q y j ^ ( i ) = 1 \begin{alignedat}{3} \sum_{y^{(i)}} P(\mathbf{y}^{(i)} \mid \mathbf{x}^{(i)}) & = \sum_j^q \exp(\log(\hat{y_j}^{(i)}))\\ & = \sum_1^q \hat{y_j}^{(i)}\\ & = 1\\ \end{alignedat} y(i)P(y(i)x(i))=jqexp(log(yj^(i)))=1qyj^(i)=1

你可能感兴趣的:(深度学习算法,人工智能,算法)