我的人工智能之旅——偏斜类问题

偏斜类问题

正样本数占样本总数的比例极小时,容易出现偏斜类问题。

例如癌症测试。样本集合中仅有0.5%的癌症样本,99.5%的正常样本。通过某一假设函数后,得到1%为癌症患者,99%为正常样本。虽然总的正确率高达99%,但假设函数并不理想。因为,我们的目的是为了,检测出是否得癌。

这时候,如果将99%的准确率提升至99.2%,无疑是一个较大的提升,虽然,在数值上来看,只有0.2%。

因此,对于偏斜类问题,需要引入两个概念,查准率(precision)和召回率(recall).

查准率&召回率

还是癌症检测为例。

 

实际标签(1代表得癌)

1 0

预计标签(1代表得癌)

1 A B
0 C D

预计得癌人数中,真正得癌的人数,占预计得癌人数的比例,为查准率。即\frac{A}{A+B}

预计得癌人数中,真正得癌的人数,占实际得癌人数的比例,为召回率。即\frac{A}{A+C}

查准率和召回率通常是此长彼消的。

比如,我们使用逻辑回归,计算得癌风险,通过比对阀值p,预判是否得癌。高于p为癌症,低于p为正常。

当将p设置为0.9时,预测过于严谨,导致查出癌症的人数减少,准确率提高,即查准率提高。同时,由于过于严谨,导致部分得癌样本未被检出,因此召回率会比较低。

当将p设置为0.1时,结果又会反转。查准率低,召回率高。

如何权衡查准率和召回率呢?

权衡公式F

通常采用公式F。假设查准率为m,召回率为n,那么

F=\frac{2mn}{m+n}

F值高者,对应的模型更优秀。

例如查准率,召回率都趋近于1,则F趋近于1。

两者趋近于0,则F趋近于0.

你可能感兴趣的:(人工智能,机器学习,人工智能之旅)