hadoop 小文件处理方案

hadoop hdfs 被设计用作海量数据存储,适合存储大文件,文件在hdfs中是以block的形式存储的,在hadoop 1.x中,hdfs block的默认大小为64m,而在hadoop 2.x中,block的默认大小为128m,可以在hdfs-site.xml文件中的dfs.block.size配置项修改默认的块大小。文件由一个或多个block组成,文件的元数据信息由namenode记录,因此如果hdfs存储大量的小文件时,会占用大量的block以及namenode必须耗费大量内存来记录这些文件的元数据,造成存储空间浪费以及影响hdfs 集群的横向扩展。因此以下两种方案可以用来处理hdfs 小文件的问题:
1.sequencefile
2.hadoop archives file

SequenceFile

sequencefile 由header和一个个记录组成,header记录着keyclass 类型,valueclass 类型,压缩信息以及用户自定义的信息,记录record存储的是真正的数据并以key-value的格式进行存储,sequencefile文件按压缩可分为无压缩格式,记录压缩格式和块压缩格式。无压缩格式和记录压缩格式相似,唯一的区别是记录压缩格式是值压缩,格式如下图所示:


image.png

而块压缩是对record进行压缩,一个块由多个record组成,当一个record的大小达到io.seqfile.compress.blockseze 默认1000000字节时,可加入到块中,格式如图所示:


image.png

示例代码

package com.zjc.spark;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.SequenceFile;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.compress.DefaultCodec;
import org.apache.hadoop.util.LineReader;

import java.io.File;
import java.io.FileInputStream;

/**
 * Created by zjc on 2018/11/14.
 */

public class sparkApplication1 {

    static Configuration configuration = null;

    static {
        configuration = new Configuration();
        configuration.set("fs.defaultFS", "hdfs://z-cluster");
        configuration.set("dfs.nameservices", "z-cluster");
        configuration.set("dfs.ha.namenodes.z-cluster", "nn1,nn2");
        configuration.set("dfs.namenode.rpc-address.z-cluster.nn1", "192.168.1.22:8120");
        configuration.set("dfs.namenode.rpc-address.z-cluster.nn2", "192.168.1.107:8120");
        configuration.set("dfs.client.failover.proxy.provider.z-cluster", "org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider");
        configuration.set("hadoop.user.name", "hadoop4.27");
    }

    public static void main6(String[] args) {
        IntWritable key = new IntWritable();
        Text value = new Text();
        SequenceFile.Writer out = null;
        try {
            FileSystem fileSystem = FileSystem.get(configuration);
            out = SequenceFile.createWriter(configuration, SequenceFile.Writer.file(new Path("/testFile")), SequenceFile.Writer.keyClass(IntWritable.class), SequenceFile.Writer.valueClass(Text.class), SequenceFile.Writer.compression(SequenceFile.CompressionType.BLOCK, new DefaultCodec()));
            for (int i = 0; i < 100; i++) {
                key.set(100 - i);
                value.set(DATA[i % DATA.length]);
                out.append(key, value);
                if (i % 20 == 0) {
                    out.sync();//每四百条记录添加一个同步点
                }

            }

        } catch (Exception e) {
            System.out.println(e);
        } finally {
            IOUtils.closeStream(out);
        }
    }

 
    public static void main18(String[] args) {
        IntWritable key = new IntWritable();
        Text value = new Text();
        SequenceFile.Reader in = null;
        try {
            in = new SequenceFile.Reader(configuration, SequenceFile.Reader.file(new Path("/testFile")));
            // in.sync(2129);
            long position = in.getPosition();
            while (in.next(key, value)) {
                System.out.println("position:" + position + "  key:" + key.get() + "  value:" + value.toString());
                position = in.getPosition();
            }
        } catch (Exception e) {
            System.out.println(e);
        } finally {
            IOUtils.closeStream(in);
        }
    }


}

可通过mr将多个小文件合并成一个sequencefile文件,但是sequencefile的缺点是不支持追加。

Hadoop Archives File

可通过hdfs shell命令将多个小文件创建为归档文件,归档示例:

创建归档文件
hadoop archive -archiveName foo.har -p /user/hadoop -r 3 dir1 dir2 /user/zoo
上面的例子使用 /user/hadoop 作为创建归档的相对归档目录。/user/hadoop/dir1 和 /user/hadoop/dir2 目录将会归档到 /user/zoo/foo.har 里面。归档操作并不会删除输入文件。如果你想在创建归档文件之后删除这些输入文件,你需要自己做。在这个例子中,因为我们指定了 -r 3,那么副本因子为3将会被使用。

查找文件
在 hadoop 档案中查找文件就像在文件系统上执行 ls 一样简单。在我们归档完 /user/hadoop/dir1 和 /user/hadoop/dir2 目录,如果我们想查看归档里面有哪些文件,你仅仅需要使用下面命令:

hdfs dfs -ls -R har:///user/zoo/foo.har/
要理解-p 参数的重要性,让我们再看一遍上面的例子。 如果您只是在 hadoop 存档上使用 ls(而不是lsr)

hdfs dfs -ls har:///user/zoo/foo.har
输出如下:

har:///user/zoo/foo.har/dir1
har:///user/zoo/foo.har/dir2
您可以回忆一下使用以下命令创建存档

hadoop archive -archiveName foo.har -p /user/hadoop dir1 dir2 /user/zoo
如果我们将上面命令修改为下:

hadoop archive -archiveName foo.har -p /user/ hadoop/dir1 hadoop/dir2 /user/zoo
那么在 Hadoop 归档上如下使用 ls 命令:

hdfs dfs -ls har:///user/zoo/foo.har
那么你会得到如下结果:

har:///user/zoo/foo.har/hadoop/dir1
har:///user/zoo/foo.har/hadoop/dir2
请注意,已归档文件已相对于 /user/ 而不是/ user/hadoop 进行归档。

Hadoop Archives 和 MapReduce
在 MapReduce 中使用 Hadoop Archives 就像使用默认文件系统中的文件一样简单。 如果我们在 HDFS 上的 /user/zoo/foo.har 路径里面存储了 Hadoop 归档文件,那么在 MapReduce 里面将它作为输入文件可以使用 har:///user/zoo/foo.har。

Hadoop Archives 是根据索引文件对目标文件进行读取,所以读性能比正常读取低下。

你可能感兴趣的:(hadoop 小文件处理方案)