hadoop2和hadoop3的比较


title: hadoop2和hadoop3的比较
date: 2022-03-23 11:47:10
tags: [hadoop, 大数据]
categories: [大数据, 翻译]

本文为翻译版本,请欣赏。

客观性

在这个hadoop教程中,我们将要讨论hadoop2.x和hadoop3.x版本之间的比较,在hadoop 3 版本中加入了哪些新特性,在hadoop 2 版本中的程序是否兼容hadoop 3,hadoop 2和hadoop 3的区别是什么?希望这篇文章能够解答上述问题。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2kSjIGTW-1648108109706)(hadoop2和hadoop3的比较/hadoop-2-and-hadoop-3.png)]

hadoop 2.x和hadoop 3.x的功能比较

这部分内容将让你知道22个hadoop2和hadoop3最大的区别,让我们来一个个讨论吧。

1. 证书

  • Hadoop 2.x - Apache 2.0,Open Source
  • Hadoop 3.x - Apache 2.0,Open Source

2. Java的最小支持版本

  • Hadoop 2.x - Java 7
  • Hadoop 3.x - Java 8

3. 容错性

  • Hadoop 2.x - 通过版本复制提高容错性
  • Hadoop 3.x - 通过擦除编码技术实现容错性,这个特性我会再写一篇技术文章分析它怎么实现,以及有哪些优势

4. 数据负载均衡

  • Hadoop 2.x - 对于数据,采用hdfs均衡器做负载均衡
  • Hadoop 3.x - 对于数据,采用数据内节点均衡器做负载均衡,通过HDFS磁盘均衡器CLI调用

5. 存储方案

  • Hadoop 2.x - 3倍副本存储方案
  • Hadoop 3.x - 在HDFS上支持擦除编码技术(Erasure Coding,简称EC),解决副本复制和副本存储带来的空间和资源的消耗,以EC代替副本,提供和副本存储相同的容错能力,并且存储开销不大于单副本开销的50%。

6. 存储开销

  • Hadoop 2.x - 2倍额外的存储空间开销
  • Hadoop 3.x - 0.5倍额外的存储空间开销

7. 存储开销实例

  • Hadoop 2.x - 如果有6个block块,那么基于副本方案,将会有18个块空间被使用
  • Hadoop 3.x - 如果有6个block块,那么基于EC技术方案,将会有9个块空间被使用,6个数据块和3个奇偶校验块

8. YARN时间线服务

  • Hadoop 2.x - 使用老的时间线服务,有性能扩展问题
  • Hadoop 3.x - 升级时间线服务v2,提高了稳定性和扩展性

9. 默认的端口区间

  • Hadoop 2.x - 在hadoop2.x中,一些默认端口是linux的临时端口范围,当服务启动时,可能无法绑定造成启动失败
  • Hadoop 3.x - 3.x中,这些端口从临时端口范围中移出来了

10. 工具

  • Hadoop 2.x - 使用Hive Pig Tez Hama Giraph和其他hadoop工具
  • Hadoop 3.x - Hive Pig Tez Hama Giraph和其他hadoop工具都可以使用

11. 兼容的文件系统

  • Hadoop 2.x - HDFS,FTP文件系统(将所有数据存储在远端FTP服务器上),亚马逊S3,微软Azure WASB文件系统
  • Hadoop 3.x - 以上及微软Azure数据湖文件系统

12. 数据节点资源

  • Hadoop 2.x - DataNode节点资源并非专用与MapReduce任务,也可以将其用于其他应用程序
  • Hadoop 3.x - DataNode节点资源也可以使用到其他应用程序

13. MR API兼容性

  • Hadoop 2.x - Hadoop 1.x应用程序可以兼容2.x
  • Hadoop 3.x - Hadoop 1.x应用程序可以兼容到3.x中

14. 是否支持windows

  • Hadoop 2.x - 支持
  • Hadoop 3.x - 支持

15. 插槽、容器

  • Hadoop 2.x - Hadoop 1任务运行在slot的概念中,hadoop 2任务运行在容器container概念中
  • Hadoop 3.x - Hadoop 3任务运行在容器概念中

16. 单点故障

  • Hadoop 2.x - 当namenode下线时,standby namenode自动上线提供服务,支持namednode单点故障恢复
  • Hadoop 3.x - 支持namednode单点故障恢复

17. HDFS联盟

  • Hadoop 2.x - Hadoop 1中,仅一个NameNode管理多个namespace命名空间,Hadoop 2中,多个NameNode管理多个命名空间
  • Hadoop 3.x - Hadoop 3中,多个NameNode管理多个命名空间

18. 扩展性

  • Hadoop 2.x - 在Hadoop 2中,单个集群可以扩展到10000个节点
  • Hadoop 3.x - 扩展性更好,单个集群可以扩展到大于10000个节点

19. 更快地访问数据

  • Hadoop 2.x - 由于DataNode有缓存机制,我们可以快速访问到数据
  • Hadoop 3.x - DataNode也有缓存机制

20. HDFS快照

  • Hadoop 2.x - Hadoop 2添加了快照的支持,当用户错误时提供了数据的灾难恢复和保护机制
  • Hadoop 3.x - 也提供了快照支持

21. 平台

  • Hadoop 2.x - 可以作为一个平台,运行事件处理、流计算、实时计算等不同类型数据分析
  • Hadoop 3.x - 也可以作为一个平台,在YARN上运行上述处理任务

22. 集群资源管理

  • Hadoop 2.x - 使用YARN作为集群资源管理,提高扩展性、高可用、多租户
  • Hadoop 3.x - 使用YARN进行资源管理

总结

综上所述,我们讨论了Hadoop 2.x和hadoop 3.x的比较,现在我们可以根据自己的情况做出选择,到底是2.x好还是3.x好。

如果你喜欢这篇文章,欢迎讨论,或者发现了2.x和3.x的另外一些区别,欢迎在下发进行评论。

可以看看其他内容
How do Apache Hadoop works?
Top 100 Hadoop Interview Questions and Answers

原文链接:https://data-flair.training/blogs/hadoop-2-x-vs-hadoop-3-x-comparison/


Keep reading, Keep writing, Keep coding.

欢迎关注我的微信公众号,比较喜欢分享知识,也喜欢宠物,所以做了这2个公众号:
hadoop2和hadoop3的比较_第1张图片

欢迎交流,这是我的微信:
hadoop2和hadoop3的比较_第2张图片

一起学习,一起进步。

你可能感兴趣的:(大数据,hadoop,大数据,hadoop)