Hortonworks章剑锋访谈:Tez、数据科学和隐私安全

MapReduce已经开始显现老化的迹象,局限性越来越明显。Tez作为下一代hadoop的执行引擎与传统的MapReduce相比做了很大的改进和优化,将计算模型直接建立在DAG上面,比传统的MapReduce更加直接,灵活,在性能上有很大的提升。同时由于Tez从项目开始就集成了Yarn,从而对于整个计算资源的Context了解的更加清楚,这也有助于性能的优化。

本次QCon上海的演讲嘉宾章剑锋接受了InfoQ邮件采访,访谈中谈到他正在使用的Tez平台、数据科学这个行业以及数据挖掘中的隐私问题。

受访者简介

章剑锋(@章剑锋_Jeff),Hortonworks Member of Technical Staff。很早的接触到了hadoop,从2009年开始使用pig,然后一步步延伸到hadoop,nosql,statisitcal data anlytics 等大数据领域。可以说一路走来都是在和data打交道,不管是从底层的infrastructure,还是更上层的统计数据分析,Machine Learning。和data打交道有一件很有趣,很有挑战,也能给人带来快乐的事情。喜欢技术,喜欢桌球,喜欢K歌,喜欢和人brainstorming:)

InfoQ:MapReduce这么多年,今日被吐槽的次数逐渐增多,您对Tez比较熟悉,请您给大家讲讲MapReduce的颓势和Tez的好处。

章剑锋:首先MapReduce是一个很General的计算框架,General的东西应用面很广,可以解决很多问题,可是在解决一些问题的时候通常不会是最优的方法,这是一个trade-off。以前人们急于解决单机不能处理的大数据问题,对性能要求相对较少,现在随着技术和业务的发展,对性能和计算场景提出了更高的要求。与MapReduce相比较,Tez在性能方面更加出色,同时在计算框架方面更加灵活,MapReduce相对来说是一个比较死的框架,所有的MRJob都只能有一个Mapper和Reducer,一个复杂的问题不得不分拆出很多个MRJob,而Tez在这方面更加灵活,一个复杂的任务就是一个TezJob。

InfoQ:Tez想要获得广大开发者认可的话,您觉的只是时间问题,还是有亟待改善的地方?

章剑锋:首先Tez从项目成立到现在为止只有1年时间,还有很多事情要做。我认为以下几点是要继续改善的:

  • API的易用性,Tez的API相对来说不是那么好用,相对于MapReduce的API来说,也不是那么好用,Tez 0.5已经在这方面做了很多工作(Tez-690)
  • 吸引更多的用户使用,任何东西都不能闭门造车,很多问题只有在真实环境下才能出现,我们希望能够收集到更多用户的反馈,推广tez的使用。

InfoQ:看到您简介中,对机器学习应用也很有了解,请您介绍一下这方面主要做了些什么工作?

章剑锋:研究生是学NLP的(自然语言处理),所以对Machine Learning也算有一定经验,做过一些基础的文本分类,关系抽取方面的工作。我认为机器学习可能是继大数据之后另一个热点。

InfoQ:您可以算的上是数据科学家了,请问平时跟数据打交道的时候,和跟代码打交道有什么不同呢?

章剑锋:首先我觉得和数据打交道要非常小心,代码可以有bug,但数据对bug的容忍度基本上就是0。一旦你的数据分析出了结果分享出去了,后来又发现了bug,就很麻烦,你的客户对你的信任度会降低,下次你出分析结果的时候,人家就会带有怀疑的眼光来看了。数据分析是一个很复杂的系统工程,涉及数据的采集,清理,分析,可视化等等一系列工作,任何一个步骤出错,都会影响到最终的业务。

InfoQ:近年来数据科学日益火爆,您觉得目前业界对数据的应用是否到位呢?有没有什么大数据应用是您特别看好的?

章剑锋:对于国内来说数据的应用应该还很不够,对于非IT类公司就不用说了,就算是一个互联网公司对数据的重视度也不够。国内的互联网公司往往在前期比较注重开发速度,各种产品推出的时候都比较粗糙,没有数据来验证这个feature到底是好还是不好,对于数据收集与分析这种不是立竿见影的东西都不会有太多投入。当然最近几年已经好多了,大家开始重视数据分析,未来对数据分析的人才也会急剧增加。由于最近的移动互联网和穿戴式设备的兴起,我相信前几年炒得物联网概念将会再次兴起,大数据和数据科学在这一方面将会起到很大的作用。

InfoQ:看您微博您还关心人工智能、图灵测试,您能谈谈前一阵子传出的图灵测试已经被突破的新闻么?

章剑锋:大概浏览过这个新闻,技术创兴永远不会停止,相信未来IT技术将在人类生活中产生更加重要的影响。

InfoQ:大数据时代,机器越来越智能,越来越了解用户,会不会在某种程度上造成安全隐患?

章剑锋:当然这会是一个问题,就算是很注重个人隐私保护的美国也会有这样的问题(比如之前曝光的iphone收集用户信息的问题)。但是因为数据里面隐藏着巨大的价值,这就会诱使企业去收集数据。我觉得这也是一个trade-off问题,相信未来人们能找到一个平衡。

采访者简介

张天雷(@小猴机器人),清华大学计算机系博士,熟悉知识挖掘,机器学习, 社交网络舆情监控,时间序列预测等应用。目前主要从事国产无人车相关的研发工作。

你可能感兴趣的:(Hortonworks章剑锋访谈:Tez、数据科学和隐私安全)