DL Homework 2

习题 2-1 分析为什么平方损失函数不适用于分类问题 , 交叉熵损失函数不适用回归问题.


        首先解释两个函数,下面给出两个函数的定义:

        平方损失函数是从最小二乘法和欧几里得距离的角度理解的。最小二乘法是一种寻找最优拟合曲线的统计学方法,它的原理是使所有点到回归直线的距离的平方和最小。而平方损失函数正是这一原理的体现。

        交叉熵损失函数来源于信息论中的交叉熵概念,交叉熵是两个概率分布间的差异度量,用于衡量两个概率分布的相似性或不相似性。在分类问题中,真实的标签分布和模型预测的标签分布都可以看作是概率分布,因此可以使用交叉熵来度量它们之间的差异。

        简单的说,平方损失函数是指计算算法的预测结果和真实训练数据标签信息之间的差值的平方,然后取这些平方的均值作为损失函数值。计算公式如下:

SquareLoss=\frac{\sum_{i=1}^{n} \left ( y-{y}' \right )^{2}}{2n} 

        对于交叉熵损失函数,用于度量衡量同一个随机变量中的两个不同概率分布的差异程度,在机器学习中就表示为真实概率分布与预测概率分布之间的差异,计算公式如下

CrossEntropyLoss = -\sum_{i=1}^{n}y_i*log(f(x_i))

f(x_i)是模型预测的概率分布,y_i是真实的标签


平方损失函数不能适用于分类问题的原因:

        首先,平方损失函数是通过计算预测值和真实值之间的偏差程度来计算误差的,适用于连续关系的回归问题。而分类问题的数据通常是非连续的关系,平方损失函数不是很合适。其次,分类问题的函数大都是凹函数,优化过程中会陷入局部最小点,难以得到全局最优解,最后,对于分类问题,我们更多关注的是模型预测的结果是否和真实标签一致,平方损失函数不能很好的反应这个性质。

(搜索资料的时候发现一个很好的例子,为了更好的理解这段话,我再用例子更简单的讲解一下)

        比如分类 1,2,3, 真实分类是1, 而被分类到2和3错误程度应该是一样的,但是明显当我们预测到2的时候是损失函数的值为1/2而预测到3的时候损失函数为2,这里在预测的结果都是错,但却给出了不同的值,这也就对我们后续的参数优化等等产生了不利影响,不能很好的反映分类问题的目标,所以不能使用。


交叉损失函数不能使用于回归问题的原因:

         通过上方的表达式我们可以发现,交叉熵损失函数通过计算模型预测的概率分布与真实标签的概率分布之间的差异来衡量模型的性能,这个差异只关注是否预测正确,而回归问题中除了关注预测是否正确,还关注预测值与真实值之间的差距有多大。为了让差距尽可能小,从而调整参数,因此,交叉熵损失函数并不能很好地反映回归问题的目标,所以不能应用。


习题 2-12 对于一个三分类问题 , 数据集的真实标签和模型的预测标签如下 :

DL Homework 2_第1张图片

分别计算模型的精确率、召回率、F1值以及他们的宏平均和微平均。


真实标签/测试标签 \hat{y} = 1 \hat{y} = 2 \hat{y} = 3
y = 1 1 1 0
y = 2 0 2 1
y = 3 1 1 2

精确率(产准率):

P_1 =\frac{1}{1 + 0 + 1}=\frac{1}{2}

P_2=\frac{2}{1 + 2 + 1} = \frac{1}{2}

P_3=\frac{2}{0+1+2}=\frac{2}{3}

召回率(查全率):

R_1=\frac{1}{1+1+0}=\frac{1}{2}

R_2=\frac{2}{0+2+1}=\frac{2}{3}

R_3=\frac{2}{1+1+2}=\frac{1}{2}

F1值:

F1_1=\frac{2*P_1*R_1}{P_1+R_1}=\frac{2*\frac{1}{2}*\frac{1}{2}}{\frac{1}{2} +\frac{1}{2}}=\frac{1}{2}

F1_2=\frac{2*P_2*R_2}{P_2+R_2}=\frac{2*\frac{1}{2}*\frac{2}{3}}{\frac{1}{2} +\frac{2}{3}}=\frac{4}{7}

F1_3=\frac{2*P_3*R_3}{P_3+R_3}=\frac{2*\frac{2}{3}*\frac{1}{2}}{\frac{2}{3} +\frac{1}{2}}=\frac{4}{7}

宏平均:

P_{macro}=\frac{1}{3}*(P_1+P_2+P_3)=\frac{1}{3}*(\frac{1}{2}+\frac{1}{2}+\frac{1}{2})=\frac{1}{2}

R_{macro}=\frac{1}{3}*(R_1+R_2+R_3)=\frac{1}{3}*(\frac{1}{2}+\frac{2}{3}+\frac{1}{2})=\frac{5}{9}

F1_{macro}=\frac{2*P_{macro}*R_{macro}}{P_{macro}+R_{macro}}=\frac{2*\frac{5}{9}*\frac{5}{9}}{\frac{5}{9}+\frac{5}{9}}=\frac{5}{9}

微平均:

P_{micro}=\frac{(1+2+2)}{(1+2+2)+(0+1)+(1+1)+(0+1)}=\frac{5}{9}

R_{micro}=\frac{(1+2+2)}{(1+2+2)+(1+0)+(0+1)+(1+1)}=\frac{5}{9}

F1_{micro}=\frac{2*P_{micro}*R_{micro}}{P_{micro}+R_{micro}}=\frac{2*\frac{5}{9}*\frac{5}{9}}{\frac{5}{9}+\frac{5}{9}}=\frac{5}{9}


        总结:讲实话,这次的题目难度不大,唯一难度就是这个LaTeX公式用的真麻烦,但是一点点写完还是很有成就感的,Power!!!!!!

你可能感兴趣的:(DL,Homework,deep,learning)