hadoop distcp同步工具使用

日常记录:

hadoop distcp数据据同步:
    注意事项:
        1、为避免集群带宽被全部占用,进而影响其他线上服务,在做数据迁移时应该限制占用带宽;
        2、为了避免失败了map影响整体任务的同步,最好忽略失败
    性能测试:
        命令:
            hadoop distcp -p -i -m 20 -log dir -update -strategy uniformsize -delete -bandwidth 2048 -skipcrccheck -numListstatusThreads 40 -copybuffersize 8192B hdfs://nn1:8020/srcDir hdfs://nn2:8020/destDir
            参数说明:
                -p:保留文件权限
                    可选参数:r: replication number b: block size u: user g: group p: permission c: checksum-type a: ACL x: XAttr t: timestamp
                -i:忽略失败
                    不忽略失败时,程序重试会导致已经同步的数据再次同步,并且可能导致失败的文件同步可能导致程序终止
                -m:限制同步启动的map数,默认每个文件对应一个map,每台机器最多启动20个map
                -update:如果目的文件的名称和大小与源文件不同,则覆盖;若目的文件大小和名称与源文件相同则跳过
                -delete:如果目的目录存在源目录中不存在的文件,则删除;走hdfs垃圾回收站
                -bandwidth:限制网络传输平均带宽,以MB/second为单位;注意网络带宽与传输带宽之间的单位换算,除8
                -skipcrccheck:跳过crc校验
                -numListstatusThreads:用于构建文件列表的线程数,当文件目录结构复杂时应该适当增大该值,最大值40
                -copybuffersize:复制缓冲区大小,默认值8192B
                -strategy:选择复制策略,默认值uniformsize,每个map复制的文件总大小均衡;可以设置为dynamic,使更快的map复制更多的文件,以提高性能
                -log:日志写入位置

            

 

 

 

你可能感兴趣的:(hadoop)