Cloudera公司首席架构师Doug Cutting谈Hadoop之变迁

Doug Cutting是开源界的大神,也是散仙非常膜拜的一个对象,从最早2000年Lucene的开始,到后来的基于Lucene衍生的企业级搜索项目Solr和ElasticSearch,以及发展到现在专职于全网采集的Nutch项目,再到后来从Nutch项目里,发展出来的Hadoop项目,无论哪一个开源项目,都是非常的出色,尤其是Hadoop项目及其衍生的基于yarn的生态系统,即使有了分布式内存计算框架Spark的出现,Hadoop的苗头,依然如火如荼,造就了大量的高新就业职位,当前前提是你得学的扎实,哈哈,扯多了,下面看看大神的访谈,感受感受大神的开源气息:


Cloudera公司首席架构师Doug Cutting谈Hadoop之变迁



Doug Cutting是众多获得巨大成功的开源项目的创始人,其中包括Lucene以及Hadoop这样的重量级成果。目前他在Cloudera公司担任首席架构师一职,同时也在Apache软件基金会董事会任职。

在这一次的采访中,他向我们解释了开源开发机制为何更加强调技术常识而非开发信念,同时深度剖析了开源机制在企业环境下的应用方式。此前他曾在All Things Open大会上作出过主题演讲,因此我也向他问起Lucene的开源开发之路、他个人在Apache软件基金会中所扮演的角色以及开源机制对他而言意味着什么。

您曾经在GPL许可之下在SourceForge上发布Lucene,早在2000年时就对Lucene进行开源处理一定面临着诸多不同于当下的问题吧?


其实当时的状况与现在相比并没有太多差别。学术界与研究界的从业者们早就开始了软件开发成果的分享之旅,因此免费下载技术方案的概念或者开源许可并不算是什么新鲜事物。(我与GPL的首次邂逅是在1985年,当时我在这套许可之下为GNU Emacs贡献了一部分代码。)要说差别,当时使用的工具与当下有所不同。我们那时候使用的是Concurrent Versions System (即并发版本系统,简称CVS),因为当时还不存在版本控制这类可用工具。我们并没有使用错误追踪机制,只是单纯通过邮件列表来处理沟通工作,不过其基本流程还是一样的。人们利用它来交流并协调自己在共享项目中的工作成果。


自从您最初创造的首个项目——Lucene——以来,您就一直将开源作为开发工作的基本原则。您当下仍在坚持这些原则吗,理由又是什么呢?

对我来说,开源开发机制的重点在于常识的积累而非对开放信念的强调。我希望自己的努力能够为用户带来切实可行的软件解决方案,也就是将实用性作为首要诉求。我喜欢与其他同伴一起完成这项任务。在这些基本前提确定下来之后,其它事情也就水到渠成了。我们必须要以敬意作为前提同其他参与者协同合作,否则根本不可能获得理想的协作成果。同样,要想构建起一个能够健康运作而且拥有长期协作关系的开源社区,透明度与精英管理体系也是不可或缺的。从这个角度来看,开源开发与非软件项目其实没什么不同。就像在组织聚会之后的清理分工一样,有些同志负责擦洗桌面、有些负责清洁碗筷、另一些则负责将椅子摆回原位。在这里我们并非上下级的关系,每个人都从属于自己有能力完成的那部分工作体系——换言之,既要把房子打扫干净、又不能因此破坏了彼此之间的朋友关系。

您是Apache软件基金会的董事会成员之一。您能从这个角度讲讲自己所扮演的角色吗?

从根本层面讲,Apache董事会的作用在于监督基金会旗下的各个项目,从而确保其各自拥有一套健康有序的社区体系。我们需要保证这些项目的实质性控制权不会落到某个个人或者公司手中,而是真正让每位参与者都能获得应有的尊重。目前的150多个Apache项目会定期向董事会提交季度报告,这意味着我们每个月大约需要审查50个项目的运作状态。一般来讲这项工作都能顺利进行。当然,我们偶尔也需要介入其中,为项目指明一个更为可行的发展方向。董事会还负责处理各种典型的组织管理工作,例如确保有人维持网站的正常运行、收集捐赠款项并及时纳税等等。

随着越来越多企业开始在运营环境下使用开源方案,您认为未来三到五年内Hadoop与开源将分别呈现出怎样的发展态势?

我非常欣赏开源机制,因为它适合我个人作为开发人员的身份。它能让很多用户使用我所打造的软件成果,这是一种非常宝贵的个人奖励与工作肯定。此外,开源对于普通软件用户而言也颇具吸引力,因为他们能够借此大大降低对于特定厂商的依赖性(也就是‘供应商锁定’)。现在已经有越来越多开发人员专注于为专有技术方案创造替代式开源成果。如果可以选择,用户更倾向于使用开源方案,因为这能够有效摆脱锁定效应的负面影响。事实上,开源实施方案算是开了个好头,而Hadoop生态系统则继续跟进并完成接下来的深层工作。大家可能注意到了,开发人员往往会以当前专有方案为基础开发出替代性开源成果,但却很少有人打算利用专有产品代替人们所喜爱的开源工具。我希望这种趋势能够一直保持下去。Hadoop生态系统的核心经历了诸多发展与变化,但其仍将坚持开源路线不动摇。虽然目前已经有一些专有工具出现在这套堆栈之上,但从基础层面看Hadoop的开源身份仍然可谓根红苗正。

待办事务团队的建立给您带来了怎样的帮助?

我会与他们进行简单交流,而且在我看来整个团队就是一份邮件列表——只不过这部分成员的主要工作在于运行企业开源项目并探讨与此相关的最佳实践。基本上就是这些,他们的全部议程都以此为核心。许多企业都会发布一些开源成果并因此面临常见的技术以及法务问题。他们希望在这方面找到可资合作的机会,或者至少给予劝解。








你可能感兴趣的:(hadoop,Lucene,hadoop变迁)