【深度学习】因果推断与机器学习的高级实践 数学建模_问题根因 分析 机器学习

【深度学习】因果推断与机器学习的高级实践 数学建模_问题根因 分析 机器学习_第1张图片

现阶段深度学习有三大特征:

  • 数据驱动:即数据训练,将数据输入到模型中进行训练;
  • 关联学习:模型基于给定训练数据集,进行关联学习;
  • 概率输出:即最后的输出,判断这个图片有“狗“的概率是多少。

以数据驱动、关联学习、概率输出为特征的深度学习存在什么问题呢?以一个简单的图片识别问题为例:识别一张图片中是否有狗。在很多预测问题中,我们拿到的数据集往往都是有偏的,比如我们拿到的数据中有80%的图片中狗都在草地上,这样就导致在训练集中草地这一特征会和图片中是否有狗这个变迁十分相关。基于这样的有偏数据集学习一个预测模型,无论是简单的logistic regression,还是Deep Model,都很有可能会将草地这一特征学习成很重要的预测特征。这样的预测模型,首先是不可解释的,其次,对于未来的测试数据集,如果和训练集一样也是狗在草地上,则模型可以得到正确的预测结果,当然测试数据集也可能是狗在沙滩上,但是背景中有一些树木或者绿植,这时模型也许能识别出来。但是对于狗在水里的图片,基于我们的训练集学习出来的模型肯定会识别不准。这样就导致了对于所有未知的测试数据集,模型的预测特别不稳定。

综上,该案例中存在着下面三个问题:

  • 为什么图像会被识别为“狗
  • 为什么会用“草地”预测狗?
  • 为什么面向不同测试数据,结果差异大?
<

你可能感兴趣的:(程序员,深度学习,机器学习,数学建模)