三驾马车已去,再论Hadoop已是凉凉

三驾马车已去,再论Hadoop已是凉凉_第1张图片

640?wx_fmt=gif&wxfrom=5&wx_lazy=1

最近一段时间,关于Hadoop有很多坏消息。在2018年10月,最大的两个Hadoop发行版厂商Cloudera和Hortonworks宣布合并,抱团取暖,最近由于财报不太好,高层也离职了。还有第三大Hadoop发行版厂商MapR差点破产,幸亏最后被HPE收购。

三驾马车已去,再论Hadoop已是凉凉_第2张图片

因此,在自媒体上充满了各种说Hadoop凉凉的文章,铺天盖地。

三驾马车已去,再论Hadoop已是凉凉_第3张图片

其实,大家不要恐慌,这个只是Hadoop发展中的正常调整,主要是原来Hadoop太火了,跌落神坛而已。

其实,Hadoop的收入一直保持增长。Gartner说,领先的Hadoop供应商(亚马逊,Cloudera,Hortonworks 和MapRTechnologies)的2017年收入增长了54%,达到12亿美元,占DBMS市场总量的3.2%。越来越多的客户每年在Hadoop软件上花费超过10万美元 - 甚至超过100万美元。这证实了Gartner的观察,即成功部署已经完成,并表明历史上低的整体增长率开始发生变化。

其实,从Gartner的统计数据看,Cloudera、Hortonworks和MapR去年的收入都在增长,只是增长不太高。大家可以看到,增长最高的基本都是公有云玩家,还有华为(也有公有云,但规模较小),MongoDB。

三驾马车已去,再论Hadoop已是凉凉_第4张图片

尽管如此,正如“2017年数据管理炒作周期”所述,竞争正在增加,就像Hadoop堆栈正在分解一样。客户正在挑选和选择他们想要的作品。事实上,ApacheSpark(在Databricks拥有自己的商业化版本)在不包含其他Hadoop元素的场景中表现出越来越多的采用,而Apache Kafka在涉及动态数据的情况下蓬勃发展(并且它在Confluent中也有自己的商业化版本)。其他Apache项目越来越多地被使用,有或没有通常不包含它们的商业发行版。

最大的变革载体仍然是向云平台迁移,以及来自云平台提供商的竞争。自2016年增加以来,对基于云的Hadoop部署在Gartner的调查里一直在稳步增长。在今年的市场指南中包含的供应商中,只有富士通仅在本地提供。降低成本和应对复杂性仍然是基于云的部署的主要推动因素。

三驾马车已去,再论Hadoop已是凉凉_第5张图片

Hadoop的存储正在转型:Amazon S3,Azure ADLS和其他产品越来越成为新数据湖的目标。亚马逊于2016年底宣布Athena进行本地S3查询,并且看到采用率迅速增长,突出了原生云平台软件为所有其他供应商所代表的竞争挑战的一个方面。这种对原生云对象存储的采用继续增加势头,取代了HDFS在许多云驻留部署中的使用。内部产品,EMC的ECS,Minio和Red Hat的Ceph存储,与S3兼容,并且引起了人们的兴趣。


此外,Hortonworks已将其ApacheHadoop Ozone对象存储发布为alpha,这表明在公共对象存储上的混合部署可能是本地玩家用于竞争的未来战场。

专业供应商的地理扩张使他们遇到了一些令人惊讶的新进入者,特别是在中国,Transwarp Technology(上海),华为等公司已经在他们去年报告的数百名客户的基础上进行了建设。Gartner名单里面的中国公司还有东方金信。

尽管供应商和部署环境各种各样,以及地理扩展,但基于Hadoop的项目超出试验阶段仍然具有挑战性。虽然供应商数据显示六位数和七位数的交易增长,但如果Hadoop仍然是不愿意在设计,部署,产品成熟度和技能挑战上挣扎的组织的相关选择,那么还有很多工作要做。

其实,Hadoop狭义来说,是Apache的一个开源项目,包含大家熟知的HDFS、MapReduce和YARN等。


三驾马车已去,再论Hadoop已是凉凉_第6张图片


现在对象热起来,因此又多了一个Ozone的开源对象存储。以后Hadoop估计对对象存储支持得得越来越好。不过,现在这个Ozone还没有GA,不太成熟。用户最好还是选择成熟的对象存储产品。其实,开源的对象存储很多,Ceph和Minio等都是,不知道为啥Hadoop非要搞一套自己的。估计针对流式数据有优化,像HDFS一样,虽然都是分布式文件系统,但是还是针对分析流进行了优化的。

三驾马车已去,再论Hadoop已是凉凉_第7张图片


HDFS可以理解为一个分布式文件系统的简化版,它放宽了一些POSIX要求,也加了一些限制,如不能在任意点更新,以实现对文件的流式访问。

不过,由于HDFS采用集中式的元数据节点,因此其扩展性和可靠性一直被外界所诟病。再加上存储不能独立扩展(其实HDFS也可以独立部署data node,我们叫Remote HDFS,这样扩展性略好一些),不是数据湖的理想底座。

三驾马车已去,再论Hadoop已是凉凉_第8张图片

因此,出现很多代替HDFS的共享存储,主要是各种分布式文件和对象存储。


三驾马车已去,再论Hadoop已是凉凉_第9张图片

这样的存储解决了HDFS的扩展性和不能独立扩展的问题,但是性能一般来说比HDFS要差些。


三驾马车已去,再论Hadoop已是凉凉_第10张图片

由于Hadoop应用在公有云上很热,因此,越来越多的企业采用对象存储来作为Hadoop的后端存储。企业对象存储的事实标准是S3,因此基本都采用一种叫S3A的Connector来取代HDFS。但S3A的性能一般,而且不支持追加写。

三驾马车已去,再论Hadoop已是凉凉_第11张图片

也有一些公司推出专用的对象存储Hadoop HDFS客户端取代S3A,这样可以取得更高性能,并且支持追加写。国外公司,以Dell EMC ECS的HDFS Client最为大家熟知。


三驾马车已去,再论Hadoop已是凉凉_第12张图片

国内的号称对象存储第一的XSKY,也推出了XSKY HDFS Client高性能客户端,杀入Hadoop后端存储市场。


三驾马车已去,再论Hadoop已是凉凉_第13张图片

还有其他IBM、NetApp、Pure Strong、MinIO、Redhat厂商,他们怎么做,性能如何,我将在闪存峰会上和大家一一分享。

既然是闪存峰会,我必然也会分享一下Intel最新的全闪存S3A的测试结果,看看作为Hadoop后端存储,全闪是否还有优势,大家不要错过哦。


三驾马车已去,再论Hadoop已是凉凉_第14张图片

总的来说,从目前来看,Hadoop还是数据的最佳选择。


三驾马车已去,再论Hadoop已是凉凉_第15张图片

而且,最近的Gartner研究数据表明,Hadoop的部署和需求仍然很大并且正在增长。在最近的一项调查中,有235名受访者表示,34%的受访者目前正在使用Hadoop进行数据和分析工作,另有55%的受访者计划在未来24个月内进行调查,总计达到89%。这是Gartner2016年研究以来的需求大幅增加。


三驾马车已去,再论Hadoop已是凉凉_第16张图片

还有,现在很多现代的大数据/AI应用,如TensorFlow,其实也保留了对HDFS的支持。


三驾马车已去,再论Hadoop已是凉凉_第17张图片

因此,如果对象存储对Hadoop的对接分析性能和本地HDFS相当的话,将为成为企业数据的理想底座。


温馨提示:

今天内容分享到此为止,更多相关知识已经汇总整理成架构师技术全店资料打包汇总(全)”电子书(32本技术资料打包汇总、详解目录和内容),请通过“阅读原文”获取。

640?wx_fmt=jpeg

640?wx_fmt=gif&wxfrom=5&wx_lazy=1

你可能感兴趣的:(三驾马车已去,再论Hadoop已是凉凉)