HDFS文件系统之存储优化篇1

 

        随着业务数据规模逐渐变大,业务成本越来越高,同时HDFS本身的数据冗余多副本机制放大存储成本过高文题,且近年来各大公司都在搞降本增效,所以相关降本要求越来越高,对HDFS本身存储系统提出更多的挑战。

HDFS文件系统之存储优化篇1_第1张图片

一. HDFS EC介绍

        首先介绍一下EC,EC是Erasure coding的简称,是一种编码容错技术。HDFS 默认的EC编码为RS-6-3-1024,若应用此编码相比默认的三副本大概可以节省一半的成本。HDFS数据的布局方式分为两种,一种是连续布局,如果出现问题EC修复粒度太大,容易造成资源瓶颈问题,第二种是条行布局,EC修复粒度较小,修复成本低。整体如下图所示:

HDFS文件系统之存储优化篇1_第2张图片

二. HDFS EC应用

        一般的部署模式是EC数据用专门的大存储介质集群,上层用rbf统一管理,然后采用离线EC转换的方式进行EC数据落地,主要考虑点是:新产生的数据一般不是冷数据,且目前HDFS在线EC稳定性会差一些。同时为了保证数据安全需要做严格的效验和检测机制。上层可以做一套EC数据管理平台,方便业务进行接入和应用,同时也方便平台同学去管理,具体包括:冷数据分层管理,实现自动识别,自动转化支持,转换任务管理,数据安全管理,数据监控等。整体如下图所示:

HDFS文件系统之存储优化篇1_第3张图片

        当然,目前HDFS EC机制也存在一些问题,比如说会影响下线效率,应用EC Block的节点下线效率非常低,因为都是单副本,会有资源瓶颈问题。 另外在线读写效率一般,有一定的修复代价,整体稳定性差一些,无法满足温数据场景的性能要求。

三. 总结:

        本篇文章主要介绍了HDFS EC的机制以及具体应用,经过上边的叙述,我们可以看到HDFS EC较适用于冷数据场景,可以大大的减少存储成本,但是也会带来一定的修复代价,所以具体应用过程中还是要结合业务稳定性要求等因素进行考量。

你可能感兴趣的:(HDFS,hdfs,数据库,linux)