Hadoop社区渐成气候

日前,由中科院计算所主办的“Hadoop 中国2010云计算大会 - Hadoop in China 2010”于9月4日在京落下帷幕,共有600多名来自企业、高校、科研院所的Hadoop技术爱好者参加了此次盛会。记者现场采访了大会程序主席、中科院计算所副研究员查礼博士。

Hadoop社区渐成气候

中科院计算所副研究员查礼博士主持Hadoop大会

记者注意到,此次大会邀请了Yahoo!、Facebook、百度、中国移动研究院、淘宝、EMC、VMware、Intel、IBM、eBay等国内外著名IT企业到会分享交流技术内容,其中大部分是互联网企业。而且,听众当中也有很多人来自互联网、SNS、电子商务等领域。对于Hadoop为什么受到互联网等企业的追捧,查礼在接受采访时谈到,Hadoop作为一种支撑大规模互联网服务的软件平台和工具集,可以用来解决分布式计算中的很多问题,跟商业软件相比,有两大主要优势:一是实用,效率较高,能够处理许多商业软件如传统数据库不能做的事情,特别是在大规模数据处理和计算方面,Hadoop的优势非常明显;二是开源,成本低,而且容易修改,便于做二次开发,这尤其对于那些新兴互联网业务非常适用。

据了解,Hadoop的软件工具非常丰富,主要提供了一套名为HDFS的分布式文件系统以及支持Map-Reduce的计算框架。此外,还提供构建在HDFS 和Map/Reduce之上的可扩展的数据仓库Hive,结构化数据库HBase,数据流高层语言Pig,高性能分布式协同服务ZooKeeper,以及面向大规模分布式系统的数据收集软件Chukwa等。

自2002年Apache设置相关项目以来,源于互联网的Hadoop也渐渐在互联网领域扎下了根。如Yahoo!使用4000节点的机群运行Hadoop,支持广告系统和 Web搜索的研究;Facebook使用1000节点的机群运行Hadoop,存储日志数据,支持其上的数据分析和机器学习;百度用Hadoop每天处理1PB的数据,进行搜索日志分析和网页数据挖掘工作;中移动研究院基于Hadoop开发了“大云”(Big Cloud)系统,不但用于相关数据分析,还对外提供服务;淘宝的Hadoop系统用于存储并处理电子商务的交易相关数据。

 

Hadoop技术除已经在互联网领域得到广泛应用之外,同时也受到了学术界的普遍关注。国内的高校和科研院所基于Hadoop在数据存储、资源管理、作业调度、 性能优化、系统高可用性和安全性方面进行研究,相关研究成果多以开源形式贡献给Hadoop社区。在此次大会上,中科院计算所、江南计算所、清华大学、中国人民大学等科研院所专家到会报告了最新研究进展。毕竟,只要有大规模数据处理的地方,就可能有Hadoop的生存之地。

Hadoop社区渐成气候

计算所展示Hadoop研究成果

作为大会主办方的中科院计算所则是从2008年开始支持Hadoop在国内的发展,并于2008年11月举办了首次Hadoop技术沙龙,从而逐渐形成了在业界有着重要影响力的Hadoop in China 志愿者社区。在此次大会上,中科院计算所常务副所长孙凝晖也明确表示,计算所会坚定不移地支持开源,团结一切的力量,大力发展基于开放平台的互联网服务技术体系。

对此,查礼也向记者分享了他自己的看法,一是科研单位人力资源有限,现阶段光靠一家做大型产品不太现实,有必要聚集社会的力量;二是要想让产品快速实用化,开源是比较适合的路线。很多企业的实践表明,具有众包特点的开放源代码并没有造成恶性竞争,反而是企业核心竞争力的源泉。而且,Hadoop体现的就是一种开源文化,有着自己的草根特性,其开发贡献者大多都是年轻的一线工程师,对这些年轻人来说,贡献出来的技术被很多人关注和采用,本身就是一件很有成就感的事情。

Hadoop社区渐成气候

年轻的力量:来自Facebook、Yahoo、百度、IBM等企业的Hadoop技术专家在畅谈开源社区

 

如同Hadoop技术本身,Hadoop社区也还处于发展当中。谈到当前Hadoop的生态系统,查礼将其定位于“正在发展”当中,但已经过了“初创过渡”那个阶段。他告诉记者,现在Hadoop已经有了比较畅通的沟通渠道,比如Hadoop in China大会就是一个典型平台,而且也有很多企业参与其中,大家在不同的点上做开源式的创新。计算所本身也在做Hadoop的研究,查礼所在的系统软件组主要从事的是Hadoop的系统优化研究。

不过,查礼也谈到,国内Hadoop生态系统的运作机制还不够完善,比如在国外有专门的基金会支持开源,而且有企业愿意掏钱资助,但在国内这样的机制还不成熟,Hadoop开源社区运作起来就显得比较松散。计算所希望通过Hadoop in China 志愿者社区和相关会议平台,能够推动Hadoop在中国的发展,促进它成为更加完整、更加有效的开源软件。

你可能感兴趣的:(Hadoop社区渐成气候)