吴恩达机器学习数据倾斜15

··数据倾斜的例子:
数据倾斜的例子,人群中的一种罕见病,患病率只有0.5%,编写一个程序,只输出0(未患病),那么准确率是99%,错误率只有0.5%,显然这是没有意义的。
吴恩达机器学习数据倾斜15_第1张图片
这时,我们通常使用不同的误差度量,而不仅仅是分类误差。如上图中所示:有三个程序,错误率分别是0.5%,1%,1.2%,这时并不能简单的通过错误率来选择出一个好的程序。因为0.5%只会输出0,这是没有意义的,而1%和1.2%的可能还会筛选出一些患者。

所以综上所述,我们通常使用不同的误差度量,而不仅仅是分类误差。

1.一个常见的错误度量:精确度和召回率

同时计算精确度和召回率,会更容易发现,是否一个算法是相当准确的,当它说一个病人得了一种病,病人很可能患有某种疾病,比如下面的这个例子中的概率是0.75,所有这种病的病人中,它可以帮助诊断其中的一部分,比如这里,它找到了其中的60%
吴恩达机器学习数据倾斜15_第2张图片
·一般来说,学习算法具有无论是0精确度还是零召回都不是有用的算法。
在上述例子中,如果算法一直输出0,那么精确度和召回率就都是0.
·summary:
当你有一个罕见的类时,关注精确度和召回率,确保这两个数字都很高,

(1).平衡精确度和召回率

吴恩达机器学习数据倾斜15_第3张图片
一般情况下,我们根据上图中画出的曲线,人工手动选择出一个合理的点,选出合理的精确度和召回率。
·下面有一些方法也可以自动的帮助我们选出精确度和召回率:

1.F1 score

这个方程也被称为P和R的调和均值。
吴恩达机器学习数据倾斜15_第4张图片

你可能感兴趣的:(机器学习)