[ubuntu][转载]多线程压缩文件夹提高压缩速度

我使用zip压缩一个包含100w的图片结果用了一天以上,于是想到能不能多线程呢。于是找到下面文章。

Linux下常用的压缩包括:

  • tar: 如 tar zcvf a.tgz ./a
  • zip: 如 zip -qr a.zip ./a

如果只在Linux系统上使用,应用最多的是tar,如果涉及到与windows交互,一般用zip。

但有一个问题,就是它们在压缩时,最多占用一个cpu到100%,是单线程的,当要处理的文件比较大时,将非常耗时。

这里以使用tar为例,来介绍一下多线程压缩工具pigz。

使用多线程pigz

通过查看tar的man page,可以看到Compression options中可以指定压缩程序:

-I, --use-compress-program=COMMAND

在这里,我们指定pigz程序,以实现多线程并发压缩,从而提高压缩速度。

简单地说,pigz就是多线程版本的gzip。

需要安装:

apt -y install pigz

pigz只能对单个文件操作,要操作目录,需要结合tar一起使用。

如需要把当前目录下所有内容压缩到d.tgz,使用方法如下:

tar --use-compress-program=pigz -cvf d.tgz *

这时,可以看到cpu使用率上来了,压缩速度也提高很多,适用于cpu空闲状态下使用。

pigz常用命令参数:

-p: 设置最大使用线程数量,默认所有在线cpu,如果不能获取cpu数量,则取8
-b:设置压缩块大小,默认128k
-d:解压缩
-q:静默模式,不输出任何信息
-k:不删除原始文件
-l:输出压缩内容
-r:递归子目录
-S:使用sss后缀替换gz
-v:输出详细信息

使用方式:

tar -cvf - * | pigz -p 8 > output.tgz

比如 tar -cvf - ./train-voc | pigz -p 16 > data.tgz

tar --use-compress-program="pigz -k -p8" -cf output.tgz *

其中:

  • -k,不删除原文件,默认为删除
  • -p,指定cpu数,默认使用全部逻辑核

解压:

pigz -p 8 -d output.tgz
tar --use-compress-program="pigz -k -p8" -xf output.tgz

如果是使用tar压缩的,使用pigz解压会生成tar包 。建议直接使用tar的-x参数解压。

小节

使用pigz,利用了多核cpu,提高了压缩速度。

类似于windows中的winzip,可以设置全力压缩或者优化保证其他应用,其实就是在设置最高使用线程数量。

目前的服务器核心都比较多,建议使用pigz压缩及解压。

你可能感兴趣的:(ubuntu,ubuntu,linux,服务器)