谷歌机器学习速成课程笔记 12(Classification-分类)

谷歌机器学习速成课程笔记 12(Classification-分类)_第1张图片
例如,如果邮件为垃圾邮件的概率超过.8,我们可能就会将其标记为垃圾邮件,0.8就是阈值分类。


选定分类阈值后,如何评估模型质量呢?传统方法是看准确率——正确结果除以总数/正确结果所占的百分比。但是准确率虽然是一种直观且广泛使用的指标,但它也有一些重大缺陷:
谷歌机器学习速成课程笔记 12(Classification-分类)_第2张图片

假设有一个预测广告点击率的模型,并使用准确率来评估此模型的质量,但是现实中对于展示的广告,点击率通常为千分之一、万分之一甚至更低。
因此可能存在这样一个模型,它只有一个始终预测“假”的偏差特征(正如预测广告点击率的模型),这个模型预测出广告的准确率为99.999%,但这毫无意义,准确率并不适用于这种情况。


谷歌机器学习速成课程笔记 12(Classification-分类)_第3张图片
我们可以将这四种预期情况组合成几个不同的指标,

谷歌机器学习速成课程笔记 12(Classification-分类)_第4张图片
精确率——也就是,在小男孩说“狼来了”的情况中,有多少次是对的?
召回率——也就是,在所有试图进入村庄的狼中,我们发现了多少头?
值得注意的是,精确率和召回率往往是此消彼长的!比如在本例中,如果希望在召回率方面做的更好,那么即使仅听到树林中有一点点声响,也要马上说“狼来了”,这样做会降低分类阈值;如果希望在精确率方面做的更好,那么需要在男孩完全确定时才说“狼来了”,这样做会提高分类阈值。
正是由于它们是此消彼长的,所以我们就要调整参数以平衡它们,在两方面都要做好。这就意味着,当有人告诉你精确率为多少是,你还需要问清楚召回率是多少,然后才能评价模型的优劣。


我们选择特定的分类阈值后,精确率和召回率的值便都可以确定了。但如果我们想知道模型质量如何,却又不能事先得知最合适的分类阈值,那么我们可以尝试使用许多不同的分类阈值来评估模型——有一个指标可以衡量模型再所有分类阈值下的效果——ROC曲线(接收者操作特征曲线)

谷歌机器学习速成课程笔记 12(Classification-分类)_第5张图片

然后绘制一条曲线来将这些点连接起来,通过计算曲线与坐标轴所围的面积,我们可以有效解读概率。

谷歌机器学习速成课程笔记 12(Classification-分类)_第6张图片
比如,我从分布区域中拿起一个随机正分类样本,然后拿起一个随机负分类样本,那么模型正确地将较高分数分配给正分类样本而非负分类样本的概率是多少呢?/配对顺序正确的概率是多少?——大量实验结果表明,该概率整好对于ROC曲线与坐标轴所围的面积!


需要考虑的最后一个因素是预测偏差。我们希望预测值与观察到的值是相等的,如果不相等,就称模型存在一定的偏差(偏差为0代表预测值的总和与观察值的总和相等)。
谷歌机器学习速成课程笔记 12(Classification-分类)_第7张图片
不过,预测偏差可以起到有效的指示作用,这是因为如果某个模型的偏差不为0,则意味着可能存在问题,我们就需要对数据进行划分,了解模型在哪方面效果欠佳,从而调整模型;
另一方面,偏差为0也并不能说明模型完美无缺,还需要看其他指标(如下)。

谷歌机器学习速成课程笔记 12(Classification-分类)_第8张图片
对于校准曲线,我们需要采集多组数据,将数据分桶处理,然后比较相应桶中各项数据的平均预测值和平均观察值。
显然,我们需要大量的分桶数据(即大的样本量)才能使得校准有意义——比如抛硬币,抛的次数越多,才能更接近正反面各占0.5的结论。

你可能感兴趣的:(谷歌机器学习速成课程笔记)