大数据骗局3.0: Hadoop已死

随着大数据客户纷纷远离复杂技术、拥抱云计算,Hadoop供应商们摇摇欲坠。

大数据仍然是很重要,但昔日大数据时代的几个典范:Cloudera、Hortonworks和MapR最近相继失利,让大数据行业多少备受冷落。这几大巨头曾经是数据界的宠儿,能够筹集大笔资金(英特尔在单单一轮融资就向Cloudera投资了7.66亿美元!),它们迫于无奈只好缩减,要么合并(Cloudera和Hortonworks),要么裁员(MapR)。

在此期间,Elastic和MongoDB等其他开源大数据供应商却一路扶摇直上。怎么会这样?当然有诸多原因,其中一个原因是这个事实:昔日的Hadoop供应商将大笔赌注押错了对象,押在了与数据中心息息相关的工程师上,而市场已转向向云端寻求自由的开发人员。

大是相对的

MapR是当初靠Hadoop大发其财的供应商当中最近的遭殃者。MapR的估值一度超过10亿美元,它最近透露必须解雇122名员工(约占员工总人数的25%),包括首席执行官John Schroeder、其他高管和许多工程师,同时还要关闭总部大本营,除非能找到一个投资者。

这个投资者要在6月14日前签约,否则MapR的前途一片黯淡。

不过,近几年的情况也好不到哪里。据LinkedIn的数据显示,在近两年里,MapR估值缩水29%。无独有偶。Cloudera与Hortonworks合并(可能是由于这两家公司无法独自存活)后,刚公布了灾难般的收益,预计收入将比分析师预计的少6900万美元至8900万美元。与此同时,首席执行官Tom Reilly和首席安全官兼联合创始人Mike Olson双双宣布辞职。

Cloudera的股价一下子暴跌40%。

这样的结果更容易归咎于炒作过度的大数据领域回归现实,但其他供应商却蓬勃发展,尽管Hadoop的几只领头羊步履蹒跚。比如说,MongoDB数据库越来越受欢迎,现在人气与Oracle和MySQL一样旺(按各种排行榜来衡量),形成三足鼎立之势,仅仅5年前其市场份额还只有十分之一。反过来,这么旺的人气不断促使这家同名公司收入迅猛增长,最近收入更是猛增了78%。

与之相似,Elasticsearch分布式搜索和分析引擎背后的Elastic公司在去年的员工人数增加了一倍,最近一个季度的收入激增了70%。许多公司一直将Elastic用于传统的文本搜索及其他任务,比如伦敦斯坦斯特德机场使用Elastic的工具来跟踪和显示通过机场的人员和行李流量,以提供实时分析。

剧本不应该是这样的。按理说,MongoDB和Elasticsearch等技术及其背后的公司从来无法挑战Hadoop及其后续技术,但它们挑战成功了。原因何在?

预计云形势大好

嗯,云是一个原因,但它是多方面原因的一部分。正如Anaconda的高级副总裁Mathew Lodge所写,虽然Cloudera、Hortonworks和MapR拼命地从内部部署产品发展而来,来自AWS、微软Azure和谷歌的云原生方案都共同提供了“完全集成的产品,它们的购置成本更低,扩展起来费用更省。”许多企业注意到了这一点。同样,Hadoop供应商们在尽快构建云服务,但它们根本赶不上云计算竞争对手的速度。

虽然就当时而言Hadoop是革命性的技术,但与云替代产品相比,想继续拥有云的优点,其成本高得离谱。正如Clint Sharp特别指出,“Hadoop最主要的用途一直是廉价存储。[鉴于云]存储变得更便宜,加上S3+ EMR及其他服务的用户体验要好1000倍。”比如说,虽然Hadoop可能是传统专有数据仓库的出色替代品,但远不如像基于云的Snowflake这些更现代化的方法那么好。

与此同时,云预示着处理数据有了不同的新方式。云服务本身不是对等替换,不过与MongoDB或Elasticsearch一样,它们处理与Hadoop同样的几种问题,但处理起来简单得多。正如MongoDB的Joe Drumgoole所说,“编写高效的分布式map-reduce算法很难,确实很难。”更糟糕的是,Hadoop供应商竞相往各自的Hadoop产品添加一大批开源附加组件(Impala!Pig!Hive!Flume!),开发出更为笨拙的“解决方案堆栈”,直到最后“没有人知道这些Hadoop公司到底做什么,”据一位观察人士所说。

对于负责“完成任务”的开发人员而言,他们日益选择更简单的替代方案。

方便压倒一切

对于Hadoop及后续技术的用户而言,开箱即用的体验很差劲。MongoDB与之形成了鲜明对比。MongoDB前高管Kelly Stirman认为MongoDB用户体验是个关键的差异化优势。怎么会这样?Tom Barber解释道:

[若使用]MongoDB,你可以借助apt install指令轻松地安装在一台服务器上,不必捣鼓糟糕的虚拟机来入手。在生产环境中,你可以在一台服务器上运行它。可以将它连接到一堆东西上,没必要编写一堆代码。人们想要数据库...... MongoDB很容易获取数据,也很容易倒出数据。”

TimeScale DB首席执行官Ajay Kulkarni同意这个说法,他补充道:

备受开发人员的喜爱[是MongoDB击败Hadoop的原因]。Mongo专注于首次使用体验。众所周知,Hadoop运行起来很难。[Hadoop供应商]向企业销售宣传的工作做得很到位,但得不到开发人员的追捧,增长停滞不前,市场随之蒸发。

虽说开发人员的喜爱完全解释MongoDB和Elastic较之Cloudera和MapR取得成功这种说法未免夸大其辞,但这确实是一个重要的因素。

Jake Kaldenbaugh推理道,开发人员开始将MongoDB“嵌入到”他们的现代应用程序中。久而久之,将MongoDB推入到不太重要的应用程序的开发人员将MongoDB推入到关键业务应用程序中,MongoDB添加了支持更复杂的使用场合的功能(比如多文档事务),又不会使它们的复杂性变得大大提高。

那么,这让昔日的大数据巨头们何去何从?Lodge给出了悼词:

在Cloudera和Hortonworks [以及MapR]作为大数据领域的主角享受了10年的风光后,行业重心已转移到别处。领先的云公司并不运行来自Cloudera和Hortonworks的大型Hadoop/Spark集群,它们而是在容器基础设施上运行分布式云规模数据库和应用程序。它们使用Python、R和其他非Java语言搞机器学习。公司企业日益转向类似的方法,因为它们希望在速度和规模方面获得同样的好处。现在是Hadoop和Spark领域该与时俱进的时候了。

这是开源数据基础设施创新的祝福之一,也是诅咒之一。这一幕正以极快的速度上演,一些供应商会在此过程中轰然倒下。

你可能感兴趣的:(大数据骗局3.0: Hadoop已死)