习题 2-1 分析为什么平方损失函数不适用于分类问题 , 交叉熵损失函数不适用于回归问题.
明确了解分类和回归。才能知道什么是合适,什么是不合适的。
首先明确分类和回归的区别
我认为的分类,是把一堆东西,分成好几堆东西,且每堆东西都有他正确的类别,分类的好坏,取决于正确的类别的数目的多少,而回归,则是要找出一个描述这堆东西的函数,使所有的东西都尽可能都用我这个函数描述出来,所以回归的好坏不仅仅取决于已经可以用我这个函数进行描述的东西,还取决于那些暂不能进行描述的东西。即还没预测好的样本
为什么平方损失函数不能用于分类问题
在做实验的时候,接触到了这个问题,通过查阅资料,自己已经掌握了许多,分类问题的结果是离散值,即我们语义上的"是"或"不是",平方损失函数如果用于分类问题,分类正确的误差都是一样的,分类错误的误差都是一样,不具有距离的意义,并且平方损失误差还和预测结果错误的样本有联系,在分类问题中只关注分类正确的结果就好了。所以不适用于分类问题。
平方误差损失函数:
f ( x ) = ∑ 1 m ( y − y ^ ) 2 2 m f(x)=\frac{\sum_{1}^{m}(y-\hat{y})^{2}}{2m} f(x)=2m∑1m(y−y^)2
举个例子
现在要分类 Y Y Y={ 1 , 2 , 3 1,2,3 1,2,3},假设第一个样本属于 1 1 1,而如果使用平方差损失函数的预测为 2 2 2,那么误差为 1 2 \frac{1}{2} 21,如果结果预测为3,那么误差为 2 2 2。在分类问题中,预测为3和预测为2是等价的,代表的都是错误,并没距离的成分。所以平方误差不适合分类任务
为什么交叉熵损失函数不能用于回归问题。
通过交叉熵损失函数,我们可以看出交叉熵损失函数针对只分类正确的预测结果,和分类错误的预测结果没有联系,而分类任务中很少考虑分类错误的结果,主要考虑让正确的分类尽可能大。而在回归中,考虑错误的结果就很必要了,需要让回归的函数尽可能满足所有的样本包括错误的样本,所以交叉熵不适合回归。
交叉熵损失函数:
f ( x ) = 1 N ∑ i ∑ j = 1 M y i j l o g ( p i j ) f(x)=\frac{1}{N}\sum_{i}\sum_{j=1}^{M}y_{ij}log(p_{ij}) f(x)=N1∑i∑j=1Myijlog(pij)
【TensorFlow】TensorFlow从浅入深系列之六 – 教你深入理解经典损失函数(交叉熵、均方误差),这篇文章介绍了损失函数深度学习中的作用。通俗易懂。
交叉熵通常和softmax一起使用。
拓展:熵是什么?
上学期的信息论讲过。我们先来复习一下自信息的概念。对于事件集合 X = X= X={ x 1 , x 2 , x 3 x_{1},x_{2},x_{3} x1,x2,x3},其中某一事件 发生的概率为 p i p_{i} pi,则自信息量定义为:
I ( x i ) = − l o g p i I(x_{i})=-logp_{i} I(xi)=−logpi
熵,又叫平均自信息,数学定义如下:
H ( x ) = E ( I ( x i ) ) = − ∑ i = 1 n p i l o g p i H(x)=E(I(x_{i}))=-\sum_{i=1}^{n}p_{i}logp_{i} H(x)=E(I(xi))=−∑i=1npilogpi
从以下角度理解熵的概念
熵、交叉熵、kl散度的联系
kl散度=交叉熵-熵
熵 可以表示一个事件A的自信息量,也就是事件A包含多少信息
kl散度 可以用来表示从事件A的角度来看,事件B有多大的不同,适用于衡量ab之间的差异
交叉熵 可以从来表示从事件A的角度来看,如果描述事件B,适用于衡量不同事件B之间的差异。
对于不同的事件B,计算AB的kl散度时都同时需要减去事件A的熵,kl=交叉熵-熵(A) 因此比较不同B事件之间的差异,计算交叉熵和计算KL散度是等价的。
习题 2-12 对于一个三分类问题 , 数据集的真实标签和模型的预测标签如下
分别计算模型的精确率、召回率、F1值以及它们的宏平均和微平均.
格式要求:使用公式编辑器,在博客上正确书写公式。
精确率(Precision),也叫精度或查准率;
P c = T P c T P c + F P c P_{c}=\frac{TP_{c}}{TP_{c}+FP_{c}} Pc=TPc+FPcTPc
P 1 = T P 1 T P 1 + F P 1 = 1 1 + 1 = 1 2 P1=\frac{TP_{1}}{TP_{1}+FP_{1}}=\frac{1}{1+1}=\frac{1}{2} P1=TP1+FP1TP1=1+11=21
P 2 = T P 2 T P 2 + F P 2 = 2 2 + 2 = 1 2 P2=\frac{TP_{2}}{TP_{2}+FP_{2}}=\frac{2}{2+2}=\frac{1}{2} P2=TP2+FP2TP2=2+22=21
P 3 = T P 3 T P 3 + F P 3 = 2 2 + 1 = 2 3 P3=\frac{TP_{3}}{TP_{3}+FP_{3}}=\frac{2}{2+1}=\frac{2}{3} P3=TP3+FP3TP3=2+12=32
召回率(Recall),也叫查全率
R c = T P c T P c + F N c R_{c}=\frac{TP_{c}}{TP_{c}+FN_{c}} Rc=TPc+FNcTPc
R 1 = T P 1 T P 1 + F N 1 = 1 1 + 1 = 1 2 R_{1}=\frac{TP_{1}}{TP_{1}+FN_{1}}=\frac{1}{1+1}=\frac{1}{2} R1=TP1+FN1TP1=1+11=21
R 2 = T P 2 T P 2 + F N 2 = 2 2 + 1 = 2 3 R_{2}=\frac{TP_{2}}{TP_{2}+FN_{2}}=\frac{2}{2+1}=\frac{2}{3} R2=TP2+FN2TP2=2+12=32
R 3 = T P 3 T P 3 + F N 3 = 2 2 + 2 = 1 2 R_{3}=\frac{TP_{3}}{TP_{3}+FN_{3}}=\frac{2}{2+2}=\frac{1}{2} R3=TP3+FN3TP3=2+22=21
F值(F Measure)是一个综合指标,为精确率和召回率的调和平均
F = ( 1 + β ) ∗ P c ∗ R c β 2 ∗ P c + R c F=\frac{(1+\beta )*P_{c}*R_{c}}{\beta^{2}*P_{c}+R_{c}} F=β2∗Pc+Rc(1+β)∗Pc∗Rc
为了计算简便,令 β = 1 \beta = 1 β=1
F 1 = ( 1 + β ) ∗ P 1 ∗ R 1 β 2 ∗ P 1 + R 1 = 2 ∗ 1 2 ∗ 1 2 1 ∗ 1 2 + 1 2 = 1 2 F1=\frac{(1+\beta )*P_{1}*R_{1}}{\beta^{2}*P_{1}+R_{1}}=\frac{2*\frac{1}{2}*\frac{1}{2}}{1*\frac{1}{2}+\frac{1}{2}}=\frac{1}{2} F1=β2∗P1+R1(1+β)∗P1∗R1=1∗21+212∗21∗21=21
F 2 = ( 1 + β ) ∗ P 2 ∗ R 2 β 2 ∗ P 2 + R 2 = 2 ∗ 1 2 ∗ 2 3 1 ∗ 1 2 + 2 3 = 4 7 F2=\frac{(1+\beta )*P_{2}*R_{2}}{\beta^{2}*P_{2}+R_{2}}=\frac{2*\frac{1}{2}*\frac{2}{3}}{1*\frac{1}{2}+\frac{2}{3}}=\frac{4}{7} F2=β2∗P2+R2(1+β)∗P2∗R2=1∗21+322∗21∗32=74
F 3 = ( 1 + β ) ∗ P 3 ∗ R 3 β 3 ∗ P 3 + R 3 = 2 ∗ 2 3 ∗ 1 2 1 ∗ 2 3 + 1 2 = 4 7 F3=\frac{(1+\beta )*P_{3}*R_{3}}{\beta^{3}*P_{3}+R_{3}}=\frac{2*\frac{2}{3}*\frac{1}{2}}{1*\frac{2}{3}+\frac{1}{2}}=\frac{4}{7} F3=β3∗P3+R3(1+β)∗P3∗R3=1∗32+212∗32∗21=74
宏平均(Macro-averging)是每一类的性能指标的算术平均值
宏查全率
P m a c r o = 1 C ∑ c = 1 C p c P_{macro}=\frac{1}{C}\sum_{c=1}^{C}p_{c} Pmacro=C1∑c=1Cpc
P m a c r o = 1 C ∑ c = 1 C p c = 1 2 + 2 3 = 5 9 P_{macro}=\frac{1}{C}\sum_{c=1}^{C}p_{c}=\frac{1}{2}+\frac{2}{3}=\frac{5}{9} Pmacro=C1∑c=1Cpc=21+32=95
宏查准率
R m a c r o = 1 C ∑ c = 1 C r c R_{macro}=\frac{1}{C}\sum_{c=1}^{C}r_{c} Rmacro=C1∑c=1Crc
R m a c r o = 1 C ∑ c = 1 C r c = 1 3 ∗ ( 1 2 + 1 2 + 2 3 ) = 5 9 R_{macro}=\frac{1}{C}\sum_{c=1}^{C}r_{c}=\frac{1}{3}*(\frac{1}{2}+\frac{1}{2}+\frac{2}{3})=\frac{5}{9} Rmacro=C1∑c=1Crc=31∗(21+21+32)=95
F1
F 1 m a c r o = 2 ∗ P m a c r o ∗ R m a c r o β 2 ∗ P m a c r o + R m a c r o F1_{macro}=\frac{2*P_{macro}*R_{macro}}{\beta^{2}*P_{macro}+R_{macro}} F1macro=β2∗Pmacro+Rmacro2∗Pmacro∗Rmacro
F 1 m a c r o = 2 ∗ P m a c r o ∗ R m a c r o β 2 ∗ P m a c r o + R m a c r o = 2 ∗ 5 9 ∗ 5 9 5 9 + 5 9 = 5 9 F1_{macro}=\frac{2*P_{macro}*R_{macro}}{\beta^{2}*P_{macro}+R_{macro}}=\frac{2*\frac{5}{9}*\frac{5}{9}}{\frac{5}{9}+\frac{5}{9}}=\frac{5}{9} F1macro=β2∗Pmacro+Rmacro2∗Pmacro∗Rmacro=95+952∗95∗95=95
微平均(Micro-averging)是每一个样本的性能指标的算术平均值.
P m i c r o = ∑ c = 1 C T P c ∑ c = 1 C T P c + ∑ c = 1 C F P c P_{micro}=\frac{\sum_{c=1}^{C}TP_{c}}{\sum_{c=1}^{C}TP_{c}+\sum_{c=1}^{C}FP_{c}} Pmicro=∑c=1CTPc+∑c=1CFPc∑c=1CTPc
P m i c r o = ∑ c = 1 C T P c ∑ c = 1 C T P c + ∑ c = 1 C F P c = 1 + 2 + 2 ( 1 + 2 + 2 ) + ( 1 + 2 + 1 ) = 5 9 P_{micro}=\frac{\sum_{c=1}^{C}TP_{c}}{\sum_{c=1}^{C}TP_{c}+\sum_{c=1}^{C}FP_{c}}=\frac{1+2+2}{(1+2+2)+(1+2+1)}=\frac{5}{9} Pmicro=∑c=1CTPc+∑c=1CFPc∑c=1CTPc=(1+2+2)+(1+2+1)1+2+2=95
P m i c r o = ∑ c = 1 C T P c ∑ c = 1 C T P c + ∑ c = 1 C F N c P_{micro}=\frac{\sum_{c=1}^{C}TP_{c}}{\sum_{c=1}^{C}TP_{c}+\sum_{c=1}^{C}FN_{c}} Pmicro=∑c=1CTPc+∑c=1CFNc∑c=1CTPc
P m i c r o = ∑ c = 1 C T P c ∑ c = 1 C T P c + ∑ c = 1 C F N c = 1 + 2 + 2 ( 1 + 2 + 2 ) + ( 1 + 1 + 2 ) = 5 9 P_{micro}=\frac{\sum_{c=1}^{C}TP_{c}}{\sum_{c=1}^{C}TP_{c}+\sum_{c=1}^{C}FN_{c}}=\frac{1+2+2}{(1+2+2)+(1+1+2)}=\frac{5}{9} Pmicro=∑c=1CTPc+∑c=1CFNc∑c=1CTPc=(1+2+2)+(1+1+2)1+2+2=95
F 1 m i c r o = 2 ∗ P m i c r o ∗ R m i c r o β 2 ∗ P m i c r o + R m i c r o F1_{micro}=\frac{2*P_{micro}*R_{micro}}{\beta^{2}*P_{micro}+R_{micro}} F1micro=β2∗Pmicro+Rmicro2∗Pmicro∗Rmicro
F 1 m i c r o = 2 ∗ P m i c r o ∗ R m i c r o β 2 ∗ P m i c r o + R m i c r o = 2 ∗ 5 9 ∗ 5 9 5 9 + 5 9 = 5 9 F1_{micro}=\frac{2*P_{micro}*R_{micro}}{\beta^{2}*P_{micro}+R_{micro}}=\frac{2*\frac{5}{9}*\frac{5}{9}}{\frac{5}{9}+\frac{5}{9}}=\frac{5}{9} F1micro=β2∗Pmicro+Rmicro2∗Pmicro∗Rmicro=95+952∗95∗95=95
总结:路漫漫其修远兮,吾将上下而求索。这次作业打公式打了很久,主要有两个方面原因,一是对Latex公式还不太了解,另一点就是手速跟不上。不过这次题目还是比较人性化的,第一题做实验的时候学到了点东西,这次当巩固了,第二题都是十内的加减法也比较简单。同时温习了熵的概念,都快忘记了。
参考:
全面理解softmax与交叉熵
一文搞懂交叉熵在机器学习中的使用,透彻理解交叉熵背后的直觉
【TensorFlow】TensorFlow从浅入深系列之六 – 教你深入理解经典损失函数(交叉熵、均方误差)