交叉熵(Cross Entropy)损失函数

交叉熵(Cross Entropy)损失函数是一种常用的损失函数,广泛应用于分类问题中,尤其是二分类问题和多分类问题。

假设有 N N N 个样本,每个样本有 C C C 个类别, y i ∈ { 0 , 1 } C y_i \in \{0,1\}^C yi{0,1}C 表示第 i i i 个样本的真实标签(one-hot编码), y i ^ ∈ [ 0 , 1 ] C \hat{y_i} \in [0,1]^C yi^[0,1]C 表示神经网络对第 i i i 个样本的预测标签(对应于各个类别的概率值),则交叉熵损失函数可以表示为:

J ( θ ) = − 1 N ∑ i = 1 N ∑ j = 1 C y i , j log ⁡ y i , j ^ J(\theta) = -\frac{1}{N} \sum\limits_{i=1}^N \sum\limits_{j=1}^C y_{i,j} \log \hat{y_{i,j}} J(θ)=N1i=1Nj=1Cyi,jlogyi,j^

其中, N N N 是样本总数, θ \theta θ 是神经网络模型的参数, y i , j y_{i,j} yi,j 表示第 i i i 个样本的第 j j j 个元素。交叉熵损失函数的直观理解是计算神经网络预测的标签分布与真实标签分布之间的距离。在神经网络的训练过程中,交叉熵损失越小,表示神经网络的预测结果与真实结果的误差越小。

对于二分类问题,交叉熵损失函数的表达式可以简化为:

J ( θ ) = − 1 N ∑ i = 1 N [ y i log ⁡ y i ^ + ( 1 − y i ) log ⁡ ( 1 − y i ^ ) ] J(\theta) = -\frac{1}{N} \sum\limits_{i=1}^N [y_i \log \hat{y_i} + (1-y_i) \log (1-\hat{y_i})] J(θ)=N1i=1N[yilogyi^+(1yi)log(1yi^)]

其中, y i ∈ { 0 , 1 } y_i \in \{0,1\} yi{0,1} 表示第 i i i 个样本的真实标签, y i ^ ∈ [ 0 , 1 ] \hat{y_i} \in [0,1] yi^[0,1] 表示神经网络对第 i i i 个样本的预测标签。

你可能感兴趣的:(机器学习,深度学习,人工智能)