大数据的提升:Hadoop即服务的迅猛发展

云服务已经成为企业加快数字化活动的重要地点,以下便是评估HaaS提供商需要考虑的事项:

  Haadoop是一个基于开放源代码的软件框架,能够跨分布式集群高吞吐量处理大数据量。

  利基市场几年前就开始进入主流市场。随着数字化运动的快速扩展,Hadoop提供了充足的使用案例,允许使用普通商品硬件进行大数据处理。

  从单一服务器到多个服务器群也是高度可扩展的,每个集群都能够自我运行计算和存储。Hadoop在应用程序层就能提供高可靠性,因此集群硬件是现成的,能够使得节点轻松互换,节约成本。

  云化趋势

  尽管早期采用者通常能够使用内部部署,利用多个Apache发行版中的一个进行设置,无可否认的是,企业正在越来越多的利用云服务。相比之下,自己DIY的方法便是乏味和耗时的。

  由于市场需大于供,拥有资深Hadoop经验的技术娴熟的工程师便是非常罕见且昂贵的。购买硬件是一回事,但是在尝试错误的猜想中构建分析平台也是一段漫长而昂贵的过程。

  由于数字化时代的上市时间分秒必争,因此越来越多的公司正在利用Hadoop即服务(HaaS)产品,这些产品正在迅速出现,并且享有较高的采用率。

  从用户角度将云作为首选目标看待时间有意义的事情,由于规模经济化,单位成本变得更加低廉,企业获得高效率的同时减少了成本支出,并且获得了更大的灵活性。

  除了商业利益之外,云最重要的是开辟了一系列全新的数字用例,特别是在物联网和其他需要实时数据处理的场景中。其中,AWS的Elastic Map Reduce(EMR)便是这个领域的开拓性产品之一。

  虽然,基本上所有的大型服务提供商都在他们的产品组合中增加了一个基于云的Hadoop托管服务,但是发行商本身却在努力“框化”他们的框架,而Cloudera的Altus就是最近的例子之一。Altus允许用户使用MapReduce上的Hive或者Spark上的Spark按需运行数据处理作业。Cloudera already基本上宣布他们打算将服务扩展到其他领先的公有云(例如微软Azure),而其他供应商可能会遵循这项规则。

  市场发展

  在强大的云需求面前,越来越多的企业开始接纳Hadoop即服务。HaaS本质上是PaaS服务的一项子集,包括虚拟存储和计算资源,以及基于Hadoop的处理和分析框架。服务提供商通常运行多租户HaaS环境,允许在共享基础设施上托管多个客户。

  联合市场研究公司(Allied market Reserch)研究发现,随着各组织越来越多采用“Cloud First”的战略模式,预计到2020年哈斯商学院将获得169亿美元的收入。从2014年到2020年,该公司的年度复合增长了(CAGR)将达到70.8%。从收入角度来看,北美仍然位居首位,其次便是欧洲和亚太地区。

  哈斯商学院的爆发预计将会在2020年使其在Hadoop市场上的增长相形见绌。根据IDC的研究,公共云部署已经占到全球商业分析软件市场的12%,预计到2020年将达到25%的CAGR。除了大型企业,中小型企业也越来越多地选择HaaS,以获得可操作的见解,并创建以数据为中心的业务模型。

  哈斯商学院预计会在2020中集中爆发,而此时Hadoop市场将会出现状况。根据IDC的研究表明,公有云部署已经达到商业分析软件市场的12%。预计到2020年将会达到25%的CAGR.

  考虑HaaS时需要考虑的事情

  虽然利用HaaS无疑有大量的用例,但也有一些缺点。将数据载入云中可能会产生延迟并需要额外的带宽。虽然高度标准化的HaaS环境只需要点击几下便可以方便部署,但涉及权限将有服务提供商自行决定。此外,云中的数据将会展现重力并导致锁定效应。以下便是评估HaaS提供商时需要考虑的一些示例:

  1. 弹性

  Hadoop支持针对各种工作负载的弹性集群,在考虑基于云的部署的时候将会更加重要。什么是可用的计算和存储选项来支持不同的用例?例如,哪些额外的计算刀片可用于高I/O工作负载?环境的可扩展性如何,以及额外资源(计算,存储)的调试容易度如何?

  2. HDFS的持续使用

  虽然不需要HDFS作为持久的数据存储,但使用HDFS的时候发现了明显的优化。HDFS使用商品直接附加存储(DAS)并共享底层基础设施的成本。此外,HDFS无缝的支持YARN和MapReduce,使其能够本地处理查询并充当数据仓库。

  3. 开票

  服务提供商的底层价格指标是什么(按照订单,消费等计费)?如果能力未能得到充分使用,服务如何能够灵活退役?最重要的是,要记住数据湖的快速扩张,价格将如何随着时间而快速扩大规模?

在这里我还是要推荐下我自己建的大数据学习交流qq裙:522189307 , 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴。上述资料加群可以领取


  4. 高可用性

  实现“零中断”是一个微妙但是非常重要的问题。什么是提供商的SLA和故障转移概念,冗余是如何完成的?例如,供应商能够在不中断整个作业的情况下隔离和重新启动一台机器(又称“不间断操作”)?

  5. 互通性

  由于随着时间的推移使用案例将会变得越来越复杂,整合可能已经使用或计划使用的其他服务是多么容易?支持哪些数据流和API,以及他们记录的程度如何?

  6. 需要人才

  虽然建立HaaS环境所需的人力比DIY方法要少的多,但Hadoop并不是完全开箱急用,只需点击几下,节点就会运行,但这是实际工作开始的时间。定制仍然需要时间和精力。

你可能感兴趣的:(大数据,编程语言,程序员,hadoop)