机器学习推荐文章:A Few Useful Things to Know about Machine Learning

LEARNING = REPRESENTATION +EVALUATION + OPTIMIZATION(学习=表示+评估+优化)

机器学习有许多可用的学习算法,主要有三个部分组成。

representation表示

一个学习器必须可以表示成可以被计算出的语言,选择一个可用的分类器等价于选择学习的假设空间。一个不在假设空间中的分类器不能被学习。

evaluation评估

评估函数用于区分分类器的好坏。

optimization优化

在众多的分类器中决定得分高的一个, 是提升分类器效率的关键。


机器学习推荐文章:A Few Useful Things to Know about Machine Learning_第1张图片
机器学习算法的三个组成部分

IT’SGENERALIZATION THAT COUNTS(泛化能力很重要)

机器学习的目标是在训练集样例之外的泛化能力。将数据集分为训练集和测试集,训练集可以采用交叉验证法进行训练验证。测试集用于对学习得到的分类器进行评估。
目标函数只是真实目标的代替,可以不用完全地优化,事实上有时局部的优化结果比全局的好。

DATA ALONE IS NOT ENOUGH(仅有数据是不够)

针对不同领域,已经拥有的可以使机器学习更容易做出选择的知识,机器学习有归纳偏好。单单从数据中学习的结论并不比随机选择的结果好(免费午餐定理)。

OVERFITTING HAS MANY FACES(过拟合有很多面孔)

过拟合指的是在训练数据上表现很好,但在测试数据上表现很差,泛化能力差,主要是由训练样本太少或者模型太过复杂以及特征数过多。
过拟合表现有很多方式。一种理解过拟合的方式是将泛化错误拆分成偏差和方差。偏差表现泛化结果与真实结果之间的差异,体现模型对数据的拟合程度。方差表现数据波动的结果,体现问题学习的难度。
减弱抵制过拟合的方式有交叉验证法以及正则化。

INTUITION FAILS IN HIGH DIMENSIONS(直觉不适用于高维)

直觉告诉我们,维度越多越好,这样机器学习会更加精确。但是三维空间的直观感觉与高维空间是不一样的:

  • 数据维度高一般情况下数据特征 也会比较高,训练数据就会显得不够用。
  • 即使数据够用,大量的特征仅有少量的数据起着重要作用,多余的特征不但没有为分类器的学习带来益处,而且还带来了噪声,使得训练结果比原来还要差。
  • 训练数据即使够用,在高维许多数据特征因为噪声变得很相近。

“blessing of non-uniformity”对此起到了一定的帮助,大概的说在实际应用中大多数样例并不均匀的分布地分布在特征空间中,大多集中于分布在低维域,因此我们可以隐式利用低维空间或者显示降维。

THEORETICAL GUARANTEES ARE NOT WHAT THEY SEEM(理论保证与看上去的不一样)

  • 边界保证:给定一个足够大的训练集,告诉你在很大的概率上你的学习器会返回一个成功泛化的假设,但是无法找到一个保持正确的假设。解决机器学习的可行性问题。
  • 渐进保证:给定无穷的数据,学习器将保证输出正确的分类器。

理论保证就是为了理解,不会在实际运用中起决策作用,顶多就是在设计算法的时候给些提示。

FEATURE ENGINEERING IS THE KEY(特征工程是关键)

在机器学习工程中特征工程是关键,也是机器学习工程中主要做的事情。在使用机器学习做预测的时候会发现时间真正消耗不在学习的过程,而是在数据的收集,整理,清理和预处理以及特征设计的试验与设计。机器学习不是一次建立数据集并运行学习器的过程,而是反复运行学习器,分析学习预测结果,修改调整数据或者学习器的过程。
特征工程越来越困难是因为它是针对特定区域,机器学习算法是通用的。
机器学习倾向于自动化越来越多的特征选择过程,现在经常是通过自动产生大量的具有代表性的特征并根据信息增益从其中选择最好的。 同时需要牢记有些特征单独看上去是不相关的,当时在组合上是相关的。

MORE DATA BEATS A CLEVERER ALGORITHM(大量数据胜过聪明算法)

当构建了最好的特征集之后分类器仍然得不到足够的准确率,有两种主要的选择:设计更好的学习算法以及收集更多的数据。实际上后者是更快的方式获得成效。有大量数据的笨算法可以胜过数据量较少的聪明算法。
机器学习的瓶颈包括时间,内存以及训练数据。更多的数据意味着更复杂的分类器需要学习,更聪明的算法更难驾驭。

LEARN MANY MODELS, NOT JUST ONE(学习很多模型而不仅仅一个)

不同的应用对应不同的最好的分类器。现在选择最好的学习器是通过尝试不同的分类器中在其中选择。研究表明结合不同的学习器可以获得更好的结果。

SIMPLICITY DOES NOT IMPLY ACCURACY(简单并不意味着准确)

奥卡姆剃刀表明没有必要时不应该增加实体。这在免费午餐理论上不是正确的。(举了boosted ensemble以及支持向量机的例子。通过支持向量机的例子说明模型参数的数量与过拟合的趋势没有必然联系。)
奥卡姆剃刀偏好简单的假设因为简单是它的优点,与准确度无关。

REPRESENTABLE DOES NOT IMPLY LEARNABLE(可表示不一定可学习)

给定有限的数据,时间以及内存,标准的学习器只能学习所有可能函数的子集并且不同学习器的学到的子集不同,因此可表示的函数不一定能够学习到,可以尝试更多的学习器。

CORRELATION DOES NOT IMPLY CAUSATION(相关并不意味着因果)

机器学学习一方面发现观测变量之间的相关性,进一步希望从观测数据发现因果信息。另一方面,相关性是因果关系的标志,可以将其作为进一步考察的指南。

你可能感兴趣的:(机器学习推荐文章:A Few Useful Things to Know about Machine Learning)