大数据Hadoop3.0更新,到底改进了哪些新的特性呢

截止到目前,大数据hadoop已经更新到了3.0版本,那么相比较之前的版本,3.0到底在哪些方面做出了新的改变呢?到底做了哪些重大的改进呢?

1、 Hadoop Common

(1)内核的精简,这个是很多次版本更新都会进行重组的地方。想比较与之前的版本,3.0剔除了一些过期的API和实现,将默认组件实现替换成最高效的实现(比如将FileOutputCommitter缺省实现换为v2版本,废除hftp转由webhdfs替代,移除Hadoop子实现序列化库org.apache.hadoop.Records

(2)Classpath isolation以防止不同版本jar包冲突,比如google Guava在混合使用Hadoop、HBase和Spark时,很容易产生冲突。

(3)Shell脚本重构。 Hadoop 3.0对Hadoop的管理脚本进行了重构,修复了大量bug,增加了新特性,支持动态命令等。

2、 Hadoop HDFS

(1)多NameNode支持,即支持一个集群中,一个active、多个standby namenode部署方式。

(2)HDFS支持数据的擦除编码,这使得HDFS在不降低可靠性的前提下,节省一半存储空间。

3 、Hadoop MapReduce

(1)MapReduce内存参数自动推断。

(2)Tasknative优化。为MapReduce增加了C/C++的map output collector实现(包括Spill,Sort和IFile等),通过作业级别参数调整就可切换到该实现上。

小编真理的大数据架构师相关学习资料,需要的请私信小编哦!

你可能感兴趣的:(大数据Hadoop3.0更新,到底改进了哪些新的特性呢)