Hadoop3.0.0版本的新特性:
- Java最低版本要求从Java7更改成Java8
- HDFS支持纠删码(Erasure Coding)
- 引入YARN的时间轴服务v.2(YARN Timeline Service v.2)
- 重写了shell脚本
- 隐藏底层jar包(shaded client jars)
- 支持containers和分布式调度
- MapReduce任务级本地优化
- 支持多于两个的NameNodes
- 改变了多个服务的默认端口(例如:HDFS的web界面,端口由50070变成9870)
- 支持Microsoft Azure Data Lake文件系统(这个文件系统可以更轻松的存储任何大小、形状和速度的数据以及跨平台和语言进行各种类型的处理和分析,消除了出入和存储所有数据的复杂性,同时启动更快,可批量、流式、交互式分析仪器运行。)
- Intra-datanode(用Intra解决DataNode宕机负载不均衡的问题)
- 重写守护进程以及任务的堆内存管理
- 使用S3Guard进行AMAZON S3一致性(解决客户端同时进行查询、上传操作时,数据元和显示给客户端的数据不一致问题)
Hadoop3.1.0版本的新特性:
- It supports both docker container and traditional process based containers in YARN.(支持docker container和传统的基于流程的container)
- First-class GPU scheduling and isolation (For both docker/non-docker containers) on YARN.(在YARN上支持一流的GPU调度)
- First-class FPGA scheduling and isolation (For both docker/non-docker containers) on YARN.(在YARN上支持一流的FPGA调度)
- Support more expressive placement constraints in YARN. (YARN 新的调度放置策略)
- Support administrators to specify absolute resources (X Memory, Y VCores, Z GPUs, etc.) to a queue instead of providing percentage based values. This provides better control for admins to configure required amount of resources for a given queue.(容量调度(Capacity Scheduler):支持在执行队列映射时自动创建叶队列)
- Provided storage allows data stored outside HDFS to be mapped to and addressed from HDFS. It builds on heterogeneous storage by introducing a new storage type, PROVIDED, to the set of media in a DataNode.(允许将存储在 HDFS 之外的数据映射到 HDFS 并从 HDFS 进行寻址。)
按照官网和牛人博客(过往记忆)进行整理,由于学识有限,若有问题请及时指出,避免误导他人,谢谢。