hadoop cdh s3

一.背景

      对于目前用户产生的数据量激增,尤其是最近几年,这些数据产生后一般都是存储在hdfs分布式文件系统中,随着数据量越来越大,使用hdfs的磁盘空间也也会越来越多,机器规模一旦上去了之后,就会面临这机器使用费用问题,由于hdfs配置3三副本才能保证数据高可靠性,所有冗余数据量还是蛮大的是原来的三倍,花费不必要的机器磁盘计费开销,面对花费这么高的存储也只是在内网才能访问hdfs的数据,假设我们只要链接互联网就是能分析或者得到视频 、音频和其他类型的数据那岂不是更友好?,如果hadoop 为数仓计算存储必须,把静态原始数据放在其他的池子中也是更加完美?

二.目的

       这么做的目的暂时只有两个,第一点节约资源使用率,合理利用数据热点和数据本身使用频率

第二点就是存算分离,目前datanode和nodemanger都是混在一台机器上,在计算过程中会产生不必要的数据落盘
三.实现

       基于CDH开源hadoop系统配置实现链接s3

        1.添加服务

        2.选择s3 connector,创建实例把用户名和密钥填写进去

        3.进入到s3 connector,点击配置,配置好自定义的Default S3 Endpoint

        4.这样hadoop 环境配置完成

    

你可能感兴趣的:(存算分离,hadoop,big,data)