第一周 机器学习(ML)策略(1):1.3 单一数字评估指标

转载 http://www.shareblogs.top/1784/

目录

第一章、简介

第二章、单一数字评估指标

2.1、如何评估系统的好坏

2.2、查准率和查全率两个指标来评估系统的准确性

2.3、单一指标评估系统的准确性

2.4、单实数评估指标的定义

2.5、单实数评估指标的案例应用

2.6、小节


第一章、简介

  • 本文基于吴恩达人工智能课程做学习笔记、并融入自己的见解(若打不开请复制到浏览器中打开)https://study.163.com/courses-search?keyword=吴恩达。
  • 本文第二章介绍单一数字评估指标。

 

第二章、单一数字评估指标

 

2.1、如何评估系统的好坏

 

  • 无论您是调整超参数,或者是尝试不同的学习算法,或者在搭建机器学习系统时尝试不同手段。你会发现,如果你有一个单实数评估指标,你的进展会快得多。
  • 它可以快速告诉你,新尝试的手段比之前的手段是好还是坏。所以,当团队开始进行机器学习项目时,我经常推荐他们,为你的问题设置一个单实数评估指标(single number evaluation metric)
  • 我们来看一个例子,你之前听过我说过,应用机器学习是一个非常经验性的过程,我们通常有一个想法——编程序、跑实验,来看看效果如何,然后使用这些实验结果来改善你的想法,然后继续走这个循环不断改进你的算法。

 

2.2、查准率和查全率两个指标来评估系统的准确性

 

  • 比如说对于你的猫分类器,之前你搭建了某个分类器 A ,通过改变超参数 还有改变训练集等手段训练出来了一个新的分类器 B,所以评估你的分类器的一个合理方式是,观察它的查准率和查全率,如图2-1所示
  • 查准率的定义是在你的分类器标记为猫的例子中,有多少真的是猫,所以如果分类器 A 有 95% 的查准率,这意味着你的分类器说这图有猫的时候,有 95% 的机会真的是猫。
  • 查全率就是对于所有真猫的图片,你的分类器正确识别出了多少百分比,实际为猫的图片中 有多少被系统识别出来?如果分类器 A 查全率是 90% 这意味着对于所有的图像,比如说你的开发集都是真的猫图,分类器 A 准确地分辨出了其中的 90% 。
  • 所以关于查准率和查全率的定义 不用想太多。事实证明 查准率和查全率之间往往需要折衷,两个指标都要顾及到。你希望得到的效果是,当你的分类器说某个东西是猫的时候,有很大的机会它真的是一只猫。但对于所有是猫的图片,你也希望系统能够将大部分分类为猫,所以用查准率和查全率来评估分类器,是比较合理的。

 

第一周 机器学习(ML)策略(1):1.3 单一数字评估指标_第1张图片

                                                                                    图2-1

 

2.3、单一指标评估系统的准确性

  • 使用查准率和查全率作为评估指标的时候有个问题,如果分类器 A 在查全率上表现更好,分类器 B 在查准率上表现更好,你就无法判断哪个分类器更好。
  • 所以本小结把查准率和查全率两个指标合成一个指标(下面讲到的调和平均指标),来评估分类器的好坏(或者说准确性),请看下面介绍。
  • 如果你尝试了很多不同想法、很多不同的超参数,你希望能够快速试验不仅仅是两个分类器,也许是十几个分类器,快速选出 “最好的”那个。这样你可以从那里出发再迭代。
  • 如果有两个评估指标就很难去快速地二中选一或者十中选一。所以我并不推荐使用两个评估指标,使用即查准率和查全率来选择一个分类器,你只需要找到一个新的评估指标,该指标能够结合查准率和查全率。
  • 在机器学习文献中,结合查准率(用P表示)和查全率(用R表示)的标准方法是所谓的 F1分数表达式,F1分数表达有多种形式,这里是随机举一个例子,所以不用纠结F1分数表达是那种表达式。
  • 你可以认为F1表达式的一个非正式表示是 $$F1 =(P +R)/2 $$ , 或者是一个典型的正式来看 F1表达式 $$ F1= 2/(1/P+1/R)$$.
  • 在数学上, $$ F1= 2/(1/P+1/R)$$这个函数叫做 查准率P 和查全率 R 的调和平均数。但非正式来说,你可以将它看成是某种查准率和查全率的平均值,只不过你算的不是直接的算术平均,而是用这个公式定义的调和平均。
  • 调和平均 这个指标在权衡查准率和查全率时有一些优势,但在这个例子中(如图2-2所示),你可以马上看出分类器 A 的F1分数更高,假设 F1 分数是结合查准率和查全率的合理表达式(即合理的单一指标),你可以快速选出分类器 A 淘汰分类器 B。

 

第一周 机器学习(ML)策略(1):1.3 单一数字评估指标_第2张图片

                                                                          图2-2

 

2.4、单实数评估指标的定义

 

  • 前面的三小节,为本小结的单一数值评估指标做了铺垫。
  • 我发现很多机器学习团队就是这样,有一个定义明确的开发集,用来测量查准率和查全率,再加上这样一个单一数值评估指标,有时我叫单实数评估指标
  • 单一数值评估指标能让你快速判断分类器 A 或者分类器 B 更好,所以有这样一个开发集加上单实数评估指标,你的迭代速度肯定会很快,它可以加速改进您的机器学习算法的迭代过程。

 

2.5、单实数评估指标的案例应用

我们来看另一个例子,假设你在开发一个猫识别应用系统,来服务四个地理大区的爱猫人士,美国、中国、印度还有世界其他地区。

  • 我们假设你的两个分类器在来自四个地理大区中,在识别猫的数据中得到了不同的误差,比如算法 A 在美国用户上传的图片中达到了3%错误率等等。
  • 所以跟踪一下,你的分类器在不同市场和地理大区中的表现应该是有用的,但是通过跟踪四个数字,很难通过扫一眼这些数值(如图2-3所示)去快速判断算法 A 或算法 B 哪个更好。

 

第一周 机器学习(ML)策略(1):1.3 单一数字评估指标_第3张图片

                                                                               图2-3

 

  • 如果你测试很多不同的分类器(如图2-4所示),那么看着那么多数字快速选一个最优是很难的。
  • 所以在这个例子中,我建议除了跟踪分类器在四个不同的地理大区的表现,也要算算平均值。假设平均表现是一个合理的单实数评估指标,通过计算平均值你就可以快速判断看起来算法 C 的平均错误率(即误差)最低。
  • 然后你可以继续用那个算法(比如算法C),你必须选择一个算法然后不断迭代.

 

第一周 机器学习(ML)策略(1):1.3 单一数字评估指标_第4张图片

                                                                                   图2-4

 

2.6、小节

  • 所以你的机器学习的工作流程往往是你有一个想法,你尝试实现它,看看这个想法好不好,所以本视频介绍的是一个单实数评估指标,真的可以提高你的效率,或者提高你的团队做出这些决策的效率。
  • 现在我们还没有完整讨论,如何有效地建立评估指标,在下一个视频中,我会教你们如何设置优化以及满足指标,我们来看下一段视频。

 

你可能感兴趣的:(吴恩达AI课堂)