《机器学习实战》作者Peter Harrington:如何成为一位数据科学家(图灵访谈)

作者简介:
Peter Harrington
,拥有电气工程学士和硕士学位,他曾经在美国加州和中国的英特尔公司工作7年。Peter拥有5项美国专利,在三种学术期刊上发表过文章。他现任HG Data首席科学家。如果说LinedIn跟踪的是人和人之间的商务往来,HG Data则是致力于挖掘公司间的商业往来。他曾是Zillabyte公司的创始人和首席科学家,在此之前,他曾担任2年的机器学习软件顾问。Peter在业余时间还参加编程竞赛和建造3D打印机。

English version

机器学习似乎比其他计算机科学学科都要难,特别是对于数学不太好的程序员而言。你对这些程序员有什么样的建议呢?

我建议应该先自学基本的概率、统计,以及线性代数。你不需要学一个学期那么长的课,这些基础知识就会让你有很大收获。有很多在线资源,比如Kahn academy视频。(我在56.com和Kahn academy找了一下有很多英文的,也有一些中文的。)也有一些比较容易起步的书,我比较熟悉有美国英文版的“teach yourself”(自学)系列, “statistics for dummies”(傻瓜统计), “probability refresher”(概率补习),“statistics demystified”(统计解惑)等等。

我其实认为这里面其实很有商机。Kahn academy视频很不错,因为它们都很短,但遗憾的是这些视频都是英文的。我看见的中文线性代数视频都很长。如果你能做出像Kahn academy那样的中文视频,我觉得是会非常受欢迎的。

如何进阶学习机器学习?对于初学者是否有一个类似于路线图的东西?你有什么推荐书单吗?

我会读Witten 和 Frank所著的《数据挖掘:实用机器学习工具与技术》,这里面涉及的数学很少,但是又对普通算法做了很好的介绍。我觉得紧接着就该读Tan, Steinbach, 以及Kumar的《数据挖掘导论》。

当然,这些书都很厚,如果你想马上就搞明白一些东西,估计就不想读这些大部头了。如果要把某个算法弄明白,我会在网上找很多教程。比如Adboost算法,我认为多读一些不同的教程比只读一个,深入钻研要好很多。

最后我觉得应该多动手玩玩实例。问问你自己:如果我改变这个数据,结果会是怎么样的呢?

在真实案例中,数据预处理可能要比算法还要重要,你要不要考虑在新版《机器学习实战》加入数据预处理技巧和实例?

我完全同意,我的大部分时间都是用来做数据预处理。我会在未来加入数据预处理的内容。我不知道这里面会不会有什么神奇的捷径,有时候我面对的就是一堆苦活儿。我还要说:你一定要把能自动化的都自动化,这样就会节省很多你未来的工作量。

对于有些人来说“算法”才是机器学习真正有趣的地方,但是机器学习里面总有一些苦活累活不那么有意思,比如数据预处理。你是怎么完成这些“不那么有趣”的工作的?

当然,肯定有无聊的工作,所以你一定要把这部分工作自动化,这样你就不需要重复做这些无聊的工作了。这样做也会让你变成一个更好的软件开发者。

能向我们介绍一些机器学习方面的开源项目吗?

我现在能想到最好的就是Scikit-learn (http://scikit-learn.org/stable/) 了。这是用Python写的项目,用到了Scipy 和 Numpy。

数据科学家被评为世界上最火的工作之一,你认同吗?您本人作为一个数据科学家,有什么可以和我们分享的经验吗?要成为一个数据科学家需要有什么条件?

我认为数据科学家现在确实很好找工作。什么是数据科学家呢?我认为数据科学家是介于统计学家和软件工程师中间的一种工作。公司、个人、NPO,甚至运动队都需要根据数据来做决策。他们需要可以分析数据的人。这需要我之前提过的两种条件。人们不需要单纯的统计学家,这些人可能对于争论自己到底用不用贝叶斯定理更感兴趣,人们需要的是真正能做实事的人。

所以我也建议大家多动手一些东西。这是什么意思呢?创造一些项目,收集数据,预处理数据,然后做一些数据分析,展示数据,最后向公众展示这些数据。如果你做了很多这样的事情,那么你就有一个可以用来向你未来老板或者其他人展示的档案夹。几乎我书里的每个例子都可以用来做成一个网站或者智能电话app,这些都是你可以示人的资本。

人工智能的发展到了瓶颈期,而机器学习似乎是可以打破这个僵局的领域。你认为是什么原因造成了机器学习这样的发展步伐?

相比于物理学或者电气工程这样的学科,人工智能可能是很年轻的。一个年轻的学科中的很多课题和原则都是被不断发现和精炼的。很多时候,研究项目被当做事实一样摆出来,我认为这就是“人工智能承诺得太多,实现得太少”的真正原因。

我觉得这里面一个很好的例子就是很多学者想要用神经网络再造哺乳动物大脑。这让我想起来早些时候人们试图通过造出外形很像鸟翅膀的翼来制造飞机,其结果只能是飞起来把自己的骨头砸碎了。我不是要批判任何在做神经网络方面工作的人:这就是个试验,有一些有用的应用,但是这些解决不了我们的问题也没法造出有感知的机器。问题是这些试验被当做了事实放在教科书里、电影里,以及新闻里,但它们还仅仅是试验。

回到那个飞机的例子。当人类第一次知道动力飞行时,他们是因为要解决一个小任务而做出来的,而不是要建造什么机器鸟。我觉得同样的方法也促成了人工智能上的一些成功。2010-2011年的大突破:IBM的Watson计算机、Google的自动驾驶汽车,以及iPhone的Siri语音识别,甚至还有一个公司成功地用人工智能写出了新闻报道。这些都不是试验,这些都是生产线上的商品,被无数的人所使用。人工智能纯化论者会认为这些只是被用来完成明确任务的工具,而不是智能机器。

回到我们的问题,我认为机器学习是很实用的工具,可以用来解决很具体的问题,但是人工智能是一个高高在上的目标,很难达到。这也就是人工智总让人感到失望,而机器学习总会为我们带来惊喜的原因。

很多大(数据)公司,比如Google, Facebook 和 Baidu都投入很多精力在深度学习上。你认为深度学习会在未来取代“人工特性+机器学习”的方法吗?

不,我不认为深度学习会取代人工特性+机器学习。有很多领域,深度学习确实很擅长,比如识别图片。但是仍然有很多领域现存算法的表现更胜一筹。

在深度学习之后,机器学习的下一个热点是什么?

我不知道,也许你可以基于学术或者技术会议的论文提交来创造一个预测模型来告诉我下一个与研究热点。

很多人认为语言会是大数据和机器学习的未来主要功用。让我们举一个具体的例子,如果要预测一个公司的收入,你会用什么模型?

这点说得很对。我知道大的零售商会有一整个团队来做销售的预测。如果他们真能准确预测销量,那他们就会省下一大笔钱。如果要预测一家公司的收入,我会首先用回归+逻辑回归。逻辑回归让我们可以随时打开或关闭操作,这对于相关事情发生以及金钱入账这样的事来说都是一个很好的模型。

请问7.3节的著名的45问题到底是什么?

不好意思,我应该在书中说明地更清楚来着,这也来自于一个英文论坛上的问题。

45问题指的就是数据都在一条呈45°角的线上,或者以y=x的形式存在。这是关于如何为这类数据制造一个简单分类器的问题。

这为什么会是一个问题呢?如果我们有一个类:在y = x这条线上的1,我们还有第二个类:在y = x + 6这条线上的0。

那么现在在X轴(垂直轴)上选择一个值,这个值可以让所有属于1类的数值在其一边,而所有属于0类的数值在其另一边。再试着在Y轴(水平线)上找一个值。你无法找到一个简单的 X &Y组合把点分成两类,这就是45问题。

一个支撑向量机,或者逻辑回归对于这样的数据不会有什么问题。你也可以用一个数据转换,和一个决策残根来轻松应对这个数据。

你打算想让《机器学习实战》变得更加有趣吗?比方说,可以在每一章中加入一个日常生活中的例子。

这听起来是个不错的主意。

你可能感兴趣的:(机器学习)