2011年,对 Hadoop 来说注定是载入史册的一年:Yahoo!与风险投资公司 Benchmark Capital 联合建立独立公司 Hortonworks,接手 Yahoo!开源软件平台 Apache Hadoop;Hadoop 海量数据分析平台 Datameer、Karmasphere 和 Hadapt 分别获得千万美元级别投资;一向对开源趋势不屑一顾的微软转投 Hadoop 怀抱;Hadoop 之父 Doug Cutting 第一次莅临中国,布道 Hadoop 0.23……

可以说,Hadoop 生态系统呈现出一派欣欣向荣的景象。近日,记者专门采访了 Hadoop in China 的两位发起人——Yahoo!北京全球研发中心高级经理韩轶平和中科院计算所副研究员查礼,请他们为大家诠释 Hadoop 的现状。

Hadoop 商机无限

2011年关于 Hadoop 的众多投资以及微软等公司转向 Hadoop 的事件,昭示了业内感受到了 Hadoop 中蕴藏的商机。

韩轶平认为:“互联网行业由于拥有深厚的技术实力,所以 Hadoop 得以率先在互联网行业得到了蓬勃发展。但这不意味着其他行业便没有商机。因为不是所有企业都有能力使用 Hadoop,但需求又实实在在地摆在那儿,需要很多的技术支持、定制化产品,这便会最终催生出一个产业,来做这些方面的服务。”

查礼则解释了传统 IT 公司对 Hadoop 的态度:“微软、IBM 这些公司拥抱 Hadoop,并不是说它们在向 Hadoop 倾斜,而是将 Hadoop 作为一个标准来支持,将 Hadoop 加入到自己的产品体系或者业务架构中,并进而巩固其在这个市场上的地位。”

通过支持 Hadoop,老牌 IT 厂商用最小的代价加入大数据处理这个新兴市场,不失为明智之举。

Haoop 技术热点

NoSQL

从 2010 年 NoSQL 的好处被认识到之后,好像一夜之间在 IT 业内便已街知巷闻。目前,NoSQL 已经不再停留在学习概念和坐而论道的阶段,而是得到了广泛应用,HBase、MongoDB、Redis 等深入人心。应该说 Facebook 在这中间起到了领头羊的作用,率先采用了一些开源 NoSQL 系统来支持其大数据应用,而国内互联网企业也看到了这个趋势,并积极跟进,不断进行深入的交流和实践。

实时处理

据韩轶平介绍,现在包括 Facebook 和 Yahoo!在内的越来越多的公司都在向“实时处理”这个方向发展,而且会有更多的公司来关注怎样真正地让数据处理和分析能够越来越实时,因为处理接近实 时之后,会对业务产生深远的影响。例如对在线广告系统,如果处理时间从十分钟、一小时减少到一分钟,广告收益会有本质的区别。查礼认为,在解决了实时处理 这个“快”的问题之后,“准”的问题就迫在眉睫了。而 Hadoop/NoSQL 就能解决“准”的问题,从而实现精准营销,达到高利润、低成本的目标。

此外,Namenode、Scalability(可扩展性)、HDFS Performance 这些存在已久的问题,仍然是 Hadoop 的技术热点。

应用需求或者业务需求,说到底是要为企业赚钱。企业对经营模式、盈利模式的追求,最后导致业务追求,这种业务追求就反映到对系统的追求上,所以 这些追求决定了有哪些问题要解决。例如,High Availability(高可靠性)对电商来说至关重要,如果在圣诞节宕机一小时,损失可想而知。

两位 Hadoop in china 发起人畅谈 Hadoop 热点(左为韩轶平,右为查礼)

Hadoop 应用场景

可能是长久苦于大数据处理手段有限的缘故,随着 Hadoop 应用的不断拓展,使很多人陷入了对它的盲目崇拜中,认为它能解决一切问题。

对此,韩轶平说:“在我们研发中心的每次 Hadoop 训练班开学时,我都会告诫学员务必记住‘Hadoop 不是万能的’。在做具体工作时,首先要考量它是否适合使用 Hadoop。”这正如 Doug Cutting 所说:“如果一个小任务用一个节点就能完成,为何还多此一举用 Hadoop 呢?”但如果任务当前很小,考虑到以后会有暴涨的话,最好还是一开始就用 Hadoop 来实现,以便保持将来良好的可扩展性。因此,在动手做之前,这些问题都应该要想清楚,如果没有把握的话,可以多参加一些社区讨论和交流活动,看看哪些人、 哪些公司在做类似的事情、有哪些经验教训,参考过后,再去做选型:技术到底怎样构架、应用怎样来组合这些技术。总之,做到不迷信、不盲从。

从狭义上来说,Hadoop 就是 MapReduce+HDFS,也就是一种离线处理或者批处理的模式。一方面,如果需求是对在线请求马上得到结果,Hadoop 肯定不适合;另一方面,MapReduce 是一个简化的并行模型,假设硬件总是要坏的,所以它中间所有的交互模式都做得很可靠、简单。这样一来,Hadoop 能够处理的负载或者应用,就会相对较窄。

而互联网应用模式是一种简单模式,传统 IT 行业则复杂得多,路数与互联网企业完全不同,正因如此,Hadoop 率先在互联网企业获得成功。但以后 Hadoop 极可能应用到传统 IT 行业,比如 MIS 或者 ERP。在传统 IT 行业中,Hadoop 是否保持原样,继续是专用系统,还是慢慢演化成为通用系统,现在尚未可知,但已经显露出这样的苗头。因此,查礼断言,Hadoop 就像早期的操作系统一样,刚推出时是个专用系统,经过多年的发展,才成为通用系统。这也符合计算机行业中从专用到通用的螺旋上升趋势。

虽然目前 Hadoop 在大企业,特别是互联网大企业中应用较多,但韩轶平认为这并不是因为存在技术门槛的缘故,而是一方面要看企业是否需要做 Hadoop,另一方面则是因为像 Facebook、Google、Yahoo!这样的公司得到了较多的媒体曝光,为人所熟知,而更多的小公司,不管是国内还是国外,都在用 Hadoop,可能规模较小、业务相对简单。而数据的膨胀,也让我们很难定义何为“小”公司了:硅谷一家创业公司,员工只有 13 人,但在 Amazon 租用了 1400 台机器跑它的一个搜索业务。

Hadoop 主力谁属

Doug Cutting 曾说:“Apache 软件基金会的初衷是不希望始终有企业在某一个项目里面一家独大,我们希望有更多的人参与进来,希望有更多的交流和碰撞。”因此,尽管目前 Yhaoo!在 Hadoop 中的贡献还是最大,但其占比一直在下降,这在韩轶平看来是件好事,因为现在有更多的公司在为 Hadoop 做贡献,Hadoop 生态系统也日益完善。

目前看来,对 Yahoo!老大地位形成挑战的几家势头较猛的公司是 Cloudera、Facebook、Hortonworks,还包括国内的企业,比如华为的增长就很快。尽管华为此前从不开源,但现在还能够往 Hadoop 社区里面做贡献,也着实让人感到惊讶。韩轶平点评道:“这也从侧面反映了开源在中国慢慢得到认可了。”查礼则认为:“我觉得还是 Hadoop 给它带来了好处,或者至少没有什么坏处。”

MapR 在特定应用场景下做出了贡献

2011年 5 月,MapR 公司推出分布式文件系统和 MapReduce 引擎——MapR Distribution for Apache Hadoop,号称比开源版本的 Hadoop 性能高数倍。

对此,韩轶平解释道:“在今年的 Hadoop Summit 上,我了解到 MapR 确实在某些特定的应用场景和特定的问题规模下,起到了一定的效果。这样的优化对业界和整个社区绝对是件好事,因为总体上能够推进技术的发展。但我又不认为 它能够完全解决问题,因为要把 Hadoop 做成一个通用系统,把所有问题都解决,还有很漫长的路要走。我很欣赏针对一类具体的问题,去提供一类的优化解决方案,这是绝对可能的,因为当整个产业扩大 了以后,必然会出现某种程度上的分化或者定制化。但我不觉得它已经本质性地改变了 Hadoop。而对于它公布出来的成绩,我也不怀疑,因为它是针对某些限定条件而得出的。”

查礼也表示认同:“既然 MapR 要兼容 Hadoop,那么它的模式肯定没有创造性或者颠覆性的变化。Hadoop 本身有很多能够优化的地方,在某个 Benchmark 上完全可以做到比 Hadoop 快很多。做系统其实就是在平衡,舍弃一些特性,就像 CAP 理论一样,总是有舍有得,不可能设计出一个完美的系统。”

2012年 Hadoop 畅想

2011年,可以看作是 Hadoop 蓄势待发的准备年,那么 2012 年,Hadoop 又会怎样呢?

韩轶平讲出了他的 Hadoop 愿景:“第一,完善 Hadoop 生态系统,而不仅仅局限于 Hadoop 本身的持续开发、新特征加入和改进。第二,希望进一步根据不同的应用场景、专业领域和应用逻辑,出现更多的中间件和解决方案,因为它们能够帮助 Hadoop 走出互联网公司,走进更多的公司和行业,从而真正推动整个信息产业和行业的发展。”

查礼也畅想道:“2012年应该是 Hadoop 向传统信息领域进军的一年。在这个领域,海量数据的问题早就存在,只是没有办法解决或者解决的成本太高,再加之那种‘反正这样的问题同行们也都解决不了’ 的心态,所以就先搁置。互联网企业已经为 Hadoop 的应用做出了表率,明年完全有理由期待它在传统信息领域得到更多的应用。”

众所周知,传统行业手中握有非常多的数据,但苦于没有好的方法充分利用起来。通过像 Hadoop 这样的大数据处理技术,完全可以帮助传统行业创造出更新的价值:一方面可以使其传统业务逻辑得到更有效的实现,另一方面也能够培养出一种思维和方法,使其 慢慢从中发现更多的价值,并进而延伸出更多的价值。此外,Hadoop 还可能催生很多其他行业,例如可以将高铁网络上的所有运行数据、轨道数据采集处理以后,进行优化,就会对交通运输的价格体系和物流体系产生深远影响。

社会总是要前进,需要有更新的产业出现,Hadoop 是一个值得信赖的推动引擎。