作业

2-1

分析为什么平方损失函数不适用于分类问题 , 交叉熵损失函数不适用于回归问题.
对于同一个随机变量x的两个分布p(x)和q(x)之间的差异。在机器学习中,p(x)常用于描述样本的真实分布,例如[1,0,0,0]表示样本属于第一类,而q(x)则常常用于表示预测的分布,例如[0.7,0.1,0.1,0.1]。显然使用q(x)来描述样本不如p(x)准确,q(x)需要不断地学习来拟合准确的分布p(x)。
交叉熵损失函数:
L ( x ) = − ∑ i = 1 n p ( x i ) log ⁡ ( q ( x i ) ) L(x)=-\sum_{i=1}^n p\left(x_i\right) \log \left(q\left(x_i\right)\right) L(x)=i=1np(xi)log(q(xi))
平方损失函数:
L ( x ) = 1 N ∑ i = 1 N ( y i − y ^ i ) 2 L(x)=\frac{1}{N} \sum_{i=1}^N\left(y_i-\hat{y}_i\right)^2 L(x)=N1i=1N(yiy^i)2
交叉熵的损失函数只和分类正确的预测结果有关系,而MSE的损失函数还和错误的分类有关系,该分类函数除了让正确的分类尽量变大,还会让错误的分类变得平均,但实际在分类问题中这个调整是没有必要的。但是对于回归问题来说,这样的考虑就显得很重要了。所以,回归问题熵使用交叉上并不合适。

2-12

对于一个三分类问题 , 数据集的真实标签和模型的预测标签如下 :

真实标签 1 1 2 2 2 3 3 3 3
预测标签 1 2 2 2 3 3 3 1 2

精确率(查准率):
P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP
P 1 = T P 1 T P 1 + F P 1 = 1 1 + 1 = 1 2 P_{1}=\frac{TP_{1}}{TP_{1}+FP_{1}}=\frac{1}{1+1}=\frac{1}{2} P1=TP1+FP1TP1=1+11=21
P 2 = T P 2 T P 1 + F P 2 = 2 2 + 2 = 1 2 P_{2}=\frac{TP_{2}}{TP_{1}+FP_{2}}=\frac{2}{2+2}=\frac{1}{2} P2=TP1+FP2TP2=2+22=21
P 3 = T P 3 T P 3 + F P 3 = 2 2 + 1 = 2 3 P_{3}=\frac{TP_{3}}{TP_{3}+FP_{3}}=\frac{2}{2+1}=\frac{2}{3} P3=TP3+FP3TP3=2+12=32
召回率(查全率):
R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP
R 1 = T P 1 T P 1 + F N 1 = 1 1 + 1 = 1 2 R_{1}=\frac{TP_{1}}{TP_{1}+FN_{1}}=\frac{1}{1+1}=\frac{1}{2} R1=TP1+FN1TP1=1+11=21
R 2 = T P 2 T P 2 + F N 2 = 2 2 + 1 = 2 3 R_{2}=\frac{TP_{2}}{TP_{2}+FN_{2}}=\frac{2}{2+1}=\frac{2}{3} R2=TP2+FN2TP2=2+12=32
R 3 = T P 3 T P 3 + F N 3 = 2 2 + 2 = 1 2 R_{3}=\frac{TP_{3}}{TP_{3}+FN_{3}}=\frac{2}{2+2}=\frac{1}{2} R3=TP3+FN3TP3=2+22=21
F1值(综合评价指标):

F1值是精确率和召回率的加权调和平均。

为了满足人们查全率与查准率的不同偏好,F1度量的一般形式为 F β F_{\beta } Fβ
F β = ( 1 + β 2 ) × P × R ( β 2 × P ) + R F_{\beta }=\frac{\left ( 1+\beta ^{2} \right )\times P\times R}{\left (\beta ^{2}\times P\right )+R} Fβ=(β2×P)+R(1+β2)×P×R
其中 β \beta β>0度量了查全率对查准率的相对重要性。 β \beta β=1时退化为标准的F1; β \beta β>1时查全率影响更大, β \beta β<1时查准率影响更大 。

这道题令\beta=1
F β 1 = ( 1 + β 1 2 ) × P 1 × R 1 ( β 1 2 × P 1 ) + R 1 = 1 2 F_{\beta1 }=\frac{\left ( 1+\beta _{1}^{2} \right )\times P_{1}\times R_{1}}{\left (\beta_{1} ^{2}\times P_{1}\right )+R_{1}}=\frac{1}{2} Fβ1=(β12×P1)+R1(1+β12)×P1×R1=21
F β 2 = ( 1 + β 2 2 ) × P 2 × R 2 ( β 2 2 × P 2 ) + R 2 = 4 7 F_{\beta2 }=\frac{\left ( 1+\beta _{2}^{2} \right )\times P_{2}\times R_{2}}{\left (\beta_{2} ^{2}\times P_{2}\right )+R_{2}}=\frac{4}{7} Fβ2=(β22×P2)+R2(1+β22)×P2×R2=74
宏平均(每一类性能指标的算术平均):
F β 3 = ( 1 + β 3 2 ) × P 3 × R 3 ( β 3 2 × P 3 ) + R 3 = 4 7 F_{\beta3 }=\frac{\left ( 1+\beta _{3}^{2} \right )\times P_{3}\times R_{3}}{\left (\beta_{3} ^{2}\times P_{3}\right )+R_{3}}=\frac{4}{7} Fβ3=(β32×P3)+R3(1+β32)×P3×R3=74
P m a c r o = 1 n ∑ i = 1 n P i = 5 9 P_{macro}=\frac{1}{n}\sum_{i=1}^{n}P_{i}=\frac{5}{9} Pmacro=n1i=1nPi=95

R m a c r o = 1 n ∑ i = 1 n R i = 5 9 R_{macro}=\frac{1}{n}\sum_{i=1}^{n}R_{i}=\frac{5}{9} Rmacro=n1i=1nRi=95

F β m a c r o = 2 × P m i c r o × R m i c r o P m i c r o + R m i c r o = 5 9 F_{\beta macro}=\frac{2\times P_{micro}\times R_{micro}}{P_{micro}+R_{micro}}=\frac{5}{9} Fβmacro=Pmicro+Rmicro2×Pmicro×Rmicro=95
微平均(每个样本的性能指标的算术平均值):
P m i c r o = ∑ i = 1 n T P i ∑ i = 1 n T P i + ∑ i = 1 n F P i = 5 9 P_{micro}=\frac{\sum_{i=1}^{n}TP_{i}}{\sum_{i=1}^{n}TP_{i}+\sum_{i=1}^{n}FP_{i}}=\frac{5}{9} Pmicro=i=1nTPi+i=1nFPii=1nTPi=95

R m i c r o = ∑ i = 1 n T P i ∑ i = 1 n T P i + ∑ i = 1 n F N i = 5 9 R_{micro}=\frac{\sum_{i=1}^{n}TP_{i}}{\sum_{i=1}^{n}TP_{i}+\sum_{i=1}^{n}FN_{i}}=\frac{5}{9} Rmicro=i=1nTPi+i=1nFNii=1nTPi=95

F β m i c r o = 2 × P m i c r o × R m i c i o β 2 × P m i c r o + R m i c r o = 5 9 F_{\beta micro}=\frac{2\times P_{micro}\times R_{micio} }{\beta ^{2}\times P_{micro}+R_{micro}}=\frac{5}{9} Fβmicro=β2×Pmicro+Rmicro2×Pmicro×Rmicio=95
心得:学会编辑公式可以方便写论文和正式一些的文章,可以借助LaTeX导出PDF等。

你可能感兴趣的:(机器学习,人工智能,概率论)