介绍一下大学课程中常用的四本有关机器学习的教科书。通过的权威定义,为我们对该主题进行更深入的思考奠定基础,以突出显示该领域的一些有用且多样化的内容,并了解到该领域实用的方法,而且基于不同视角看待是取得进步的关键。
Mitchell’s Machine Learning(米切尔的机器学习)
汤姆·米切尔(Tom Mitchell)的《Machine Learning》有着简短而甜美的定义:机器学习领域涉及如何构建随经验而自动改进的计算机程序的问题。计算机程序 和 自动化改进 是比较核心的思想。
A computer program is said to learn from experience E with respect to
some class of tasks T and performance measure P, if its performance at
tasks in T, as measured by P, improves with experience E.
不要被形式主义的术语的定义吓到。简单来说即使用这种模式作为模板,将E、T和P作为数据字段,用列联表的方式展现复杂的问题。可以通过设计表单明确需要搜集的自变量元素数据(E),以及对应该条数据做出的因变量决策(T)以及评估结果(P)。这就是为什么经常被重复作为标准定义的原因。
Elements of Statistical Learning(统计学习的要素)
数据挖掘,推理和预测是由三位斯坦福统计学家撰写的组织其研究领域的统计框架。
Vast amounts of data are being generated in many fields, and the
statisticians’s job is to make sense of it all: to extract important
patterns and trends, and to understand “what the data says”. We call
this learning from data.
我理解统计学家的工作是使用统计工具来解释域上下文中的数据。将机器学习的所有领域都包括在内以实现这一目标。不仅统计人员可以从数据中学习,软件也是可以的,并且我们也能从软件中学习到的内容学习。通过各种机器学习方法做出的决策和获得的结果。
Pattern Recognition(模式识别)
Pattern recognition has its origins in engineering, whereas machine
learning grew out of computer science. However, these activities can
be viewed as two facets of the same field…
模式识别是工程或信号处理术语。Bishop从工程学来到该领域,学习并利用了计算机科学的相同方法。应该效仿这种成熟的方法,无论什么领域提出的何种方法,通过观察数据的积累满足需求,或者从数据学习中满足需求,这统称为机器学习。
An Algorithmic Perspective(算法观点)
One of the most interesting features of machine learning is that it
lies on the boundary of several different academic disciplines,
principally computer science, statistics, mathematics, and
engineering. …machine learning is usually studied as part of
artificial intelligence, which puts it firmly into computer science
…understanding why these algorithms work requires a certain amount of
statistical and mathematical sophistication that is often missing from
computer science undergraduates.
强调了该领域的多学科性质,机器学习来自各种形式的信息科学。理论和工程实践二者缺一不可,有理论不能付之于实践应用的理论就是空谈,有很大的局限性,所以需要工程人员实现该项业务。
机器学习 = 黑客 + 数学与统计
拥有理论和技术的人员如 黑客技术 + 专门知识 ,可以访问和构造数据,基于了解的业务领域,通过工程实现结果,但很多时候不了解结果的含义。
复杂问题
作为开发人员,很多时候需要用逻辑和程序解决实际业务中的问题提供解决方案。
以将垃圾邮件与非垃圾邮件区分开来。这是引入机器学习时一直使用的示例。当电子邮件进入您的电子邮件帐户时,如何编写程序来过滤电子邮件,并决定将其放入垃圾邮件文件夹或收件箱文件夹中?
可能先会收集一些示例,然后对它们进行研究并对其进行深入的思考。并会在垃圾邮件和非垃圾邮件中查找并考虑将这些模式抽象化,使用自定义的规则忽略那些无用的邮件,然后通过抽象化的内容不算的完善最终达到全部过滤的效果。
如果采用原始编码解决这种问题的话,不仅会消耗大量的工程师资源而且维护成本也相当高。
机器学习
如果从机器学习的角度思考这个问题,人工不停地进行筛选,通过基础编码的方式进行区分,使用统计学的算法不断完善的过程,这种增量不断改善的方式就是机器学习中的一种算法,机器学习方法就是这种自动化过程。
在垃圾邮件/非垃圾邮件示例中,示例(E)是我们收集的电子邮件。任务(T)是一个决策问题(称为分类),即将每封电子邮件标记为垃圾邮件或不将其标记为垃圾邮件,并将其放置在正确的文件夹中。我们的绩效指标(P)类似于0%(最差)至100%(最佳)之间的百分比准确率(正确决策除以总决策乘以100)。
准备这样的决策程序通常称为训练,其中将收集的示例称为训练集,而将该程序称为模型,就像将垃圾邮件从非垃圾邮件分类的模型一样。作为开发人员喜欢这种术语,模型具有状态并且需要持久化,训练是一次执行的过程,可以根据需要重新运行,分类是执行的任务。从技术上讲编写的所有程序都是自动化程序。
机器学习(MachineLearning)是从数据中对模型进行的培训,该模型根据性能度量来概括决策。
训练模型可以提供训练示例。一个模型表明了通过经验获得的状态。概括决策有能力根据输入进行决策,并在将来需要做出决策的情况下预测看不见的输入。最后,根据评估标准衡量,提出了针对所准备模型的目标需求和质量指导。