理解 Bayes optimal error 贝叶斯最优误差

最近学习ML项目构建的时候涉及到“极限模型”的问题,其中谈到贝叶斯最优误差即系统所能达到的最低误差,那么贝叶斯误差是什么呢?在看过一些资料后,以下是我的总结以及一些个人想法:


  • 贝叶斯最优误差是已知真实分布前提下的最优误差

这里可能产生的疑问:既然已知了真实的分布,那么为什么会有误差呢?
需要注意的,贝叶斯最优误差针对的是“分类问题”,即给出确切的类别而并非给出一个分布。事实上,如果我们需要给出的是一个分布那么在已知的前提下当然是不可能存在误差的。举一个例子:在气象预测系统中,假设我们已知真实分布
一周中出现的下雨的可能性为99%,不下雨的可能性为1%(假设这是真实分布,绝对正确),问:下周是否会下雨?
这里就可以发现,即使我们已知真实分布,但是在面对确定性预测问题时我们同样可能出现错误:假设预测下周会下雨,那么下周仍然可能有1%的几率不下雨,这就是贝叶斯最优误差,是理论上可能出现的最低误差。


  • 贝叶斯误差表征了数据力量的极限

解释一下上面这段话的意思:数据的力量是有限的,贝叶斯最优误差对应了“拥有无限真实准确数据时我们能够从数据中汲取出的有效信息的极限”。事实上,我们利用数据进行预测,就是基于已知数据进行数据分布的预测,而贝叶斯最优误差是在已知分布的前提下进行的,这显然是一种极限状态,且要求我们能够利用现有数据推测出真实分布,这显然已经是极其困难甚至是无法预知和实现的。


说了这么多,贝叶斯最优误差究竟有什么用呢?
从上面的论述中我们已经知道:贝叶斯误差是理想误差,但是我们不可能事先已知真实分布,否则将没有进行机器学习的必要。因此工业项目中不会直接将贝叶斯最优误差作为模型的评价指标(无法得知的标准),那么贝叶斯估计在机器学习项目构建中体现在什么方面呢?
我想大家常听见一句话:这个模型已经和人类水平相当了!
是的,贝叶斯最优误差在机器学习项目中常常映射在“人类水平”上。对于一些问题,人类水平和贝叶斯误差相去不远(但是始终低于贝叶斯最优估计),如:图片内容识别与分类系统人类往往能够以高准确率识别出一张图片中的内容或含义。因此一些机器学习项目中我们常将人类水平作为模型评价标准。


一点补充:

  • 如果机器项目已经和人类水平相当,那么接下来的提升将很缓慢,这是很好理解的,越接近贝叶斯最有误差,就难以更进一步。
  • 为了接近人类水平,往往可以通过人类指导的方式对模型进行修正,例如找出错误分类样本,通过人类分析除可能的原因以指导改进方向。
  • 如果你的机器学习项目和人类水平相当,那么基本没有必要收集更多的数据以期望能够更进一步地提升模型水平。从上面的论述中有讲到到:贝叶斯最优估计体现了数据的极限,再收集更多的数据也不可能超过这个水平了。

最后补充大神Andrew Ng的推荐解决方案:
理解 Bayes optimal error 贝叶斯最优误差_第1张图片


参考:
贝叶斯误差理解
机器学习中,什么是贝叶斯估计?

你可能感兴趣的:(机器学习,机器学习,数据挖掘)