人工智能----机器学习基础

第一、弱监督学习

监督学习、非监督学习、半监督学习这些概念都比较好理解且常见。何为弱监督学习?

看起来就是指样本有标记,可能不止一个,还可能不正确,其训练的目的是为了将结果往好的标记上靠。感觉是非监督学习的样本上加了一些有意义的杂质。

 

第二、模型质量评价

这里需要记住以下几点:

1、正确率不是衡量模型好坏的唯一标准;

反例如下:

正确率确实是一个很直观很好的评价指标,但是有时候正确率高并不能完全代表一个算法 就好。比如对某个地区进行地震预测,地震分类属性分为 0:不发生地震、1 发生地震。我们 都知道,不发生的概率是极大的,对于分类器而言,如果分类器不加思考,对每一个测试样例 的类别都划分为 0,达到 99%的正确率,但是,问题来了,如果真的发生地震时,这个分类器 毫无察觉,那带来的后果将是巨大的。很显然,99%正确率的分类器并不是我们想要的。出现 这种现象的原因主要是数据分布不均衡,类别为 1 的数据太少,错分了类别 1 但达到了很高的 正确率缺忽视了研究者本身最为关注的情况。

2、模型质量有很多评价方法,需要因地制宜。

 

第三、什么样的分类器是最好的?这里的例子很好:

如果一个分类器能正确分对所有的实例,那么各项指标都已经达到最优,但这样的分类器 往往不存在。比如之前说的地震预测,既然不能百分百预测地震的发生,但实际情况中能容忍 一定程度的误报。假设在 1000 次预测中,共有 5 次预测发生了地震,真实情况中有一次发生 了地震,其他 4 次则为误报。正确率由原来的 999/1000=99.9 下降为 996/10000=99.6。召回率 由 0/1=0%上升为 1/1=100%。对此解释为,虽然预测失误了 4 次,但真的地震发生前,分类器 能预测对,没有错过,这样的分类器实际意义更为重大,正是我们想要的。在这种情况下,在 一定正确率前提下,要求分类器的召回率尽量高

第四、深度学习和大数据之间的关系

大数据是相对一般数据集来说的,本质上还是数据集,大数据的价值是通过数据挖掘来实现的。机器学习则是数据挖掘过程中可能使用到的工具。

 

 

 

你可能感兴趣的:(人工智能----机器学习基础)