Linux xargs 命令
xargs原理剖析及用法详解
1. 为什么需要xargs命令
1.1 管道|的缺陷
管道实现的是将前面的输出stdout
作为后面的输入stdin
,但是有些命令不接受管道的传递方式。例如:ls
,这是为什么呢?因为有些命令希望管道传递过来的是参数,但是直接使用管道有时无法传递到命令的参数位。这时候就需要xargs
,xargs
实现的是将管道传递过来的stdin
进行处理然后传递到命令的参数位置上。
用户查找文件:
用户希望处理查找后的文件:
也就是xargs完成了两个行为:
1. 处理管道传输过来的
stdin
;
2. 将处理后的数据传递到正确的位置;
1.2 xargs对数据的处理
处理大量数据的时候,可能会发生参数列表过长的情况。而xargs将完成参数的定位我们清楚,但是
xrags
如何处理管道传输的stdin
呢?
其实就是完成两个操作:
1. 对数据的分割;
2. 对数据的分批;
xargs处理的优先级或顺序:先分割,在分批,然后传递到参数位。
可以设想一个场景,我想对一堆数据进行处理,实际上是对一堆中的每个数据进行分别的处理。那么如何将一堆数据按照自定义规则分割为独立的数据?若是一次性传递的数据过多,又该如何处理?
1.2.1 xrags的并发处理
但需要注意的是,尽管实现了分批处理,但是默认情况下并没有提高任何效率,因为分批传递之后还是一次执行一个。而且有时候分批之后是将其作为一个参数的整体,并不会将分批中的信息分段执行。
但事实上,xargs
提高了-P
选项,用于指定并发执行的数量(默认是只要一个处理进程,不会提供效率,但是可以指定为N个子进程,或者指定为0表示尽可能多的利用CPU
)。这样就能将让分批操作更好的利用多核CPU,从而提升效率。例如上面分成了两批,指定-P 2
可以并发执行两批,而并非执行完第一批之后再执行第二批。
剩下的功能就是处理xargs
的细节问题了,比如如何分割(xargs、xargs -d、xargs -0)
,分割后如何划批(xargs -n、xargs -L)
,参数如何传递(xargs -i)
。另外xargs
还提供了询问交互处理(-p
选项)和预先打印一遍命令执行情况(-t
选项),传递终止符(-E
选项)等。
1.2.2 执行命令准备
命令准备:
[root@xuexi tmp]$ cd /tmp
[root@xuexi tmp]$ rm -fr *
[root@xuexi tmp]$ mkdir a b c d test logdir shdir
[root@xuexi tmp]$ touch "one space.log"
[root@xuexi tmp]$ touch logdir/{1..10}.log
[root@xuexi tmp]$ touch shdir/{1..5}.sh
[root@xuexi tmp]$ echo "the second sh the second line" > shdir/2.sh
[root@xuexi tmp]$ cat <shdir/1.sh
> the first sh
> the second line
> eof
1.2.3 Linux空格含义
那么按照什么规则进行“分割”以及“分批”呢?
Linux文件空格分类(重点):
- 正方形(
\t
)代表:(标记意义)制表符; - 圆形(空格)代表:(文本意义)普通空格;
- 长方形(
\n
)代表:(标记意义)换行符;
- 椭圆形代表:(文本意义)换行符;
- 长方形代表:(标记意义)换行符;
2. xrags的分割行为
xargs
命令会将接收的stdin所有的空白(空格、制表符、换行符)都转换为空格。我们使用xargs -d "xx"
自定义规则对数据进行切分。默认情况下,xargs使用空格来切分数据。
注意事项
- xargs -d可以指定分割符,可以是单个符号、字母或者数字。如指定
o
为分割符:xargs -d "o"
; - xargs -d是分割阶段的选项,所以会优先于分批选项
(-n、-L、-i)
- xargs -d不是先
xargs
在-d
处理的,它是区别于独立的xargs
的另外一个分割选项。
1. xargs -d原理
替换:将接收stdin所有的【标记意义】的符号替换为\n,替换完成后所有的符号(空格、制表符、分行符)变成【文本意义】上的普通符号。
分段:根据-d指定的分隔符进行分段,并用空格分开每段,由于发生了【替换】操作,所以符号都是【文本意义】上的。会导致分段中可能包含了空格、制表符、分行符。也就是说处了-d导致的【分段空格】,其余所有符号都是分段中的一部分。
输出:最后根据指定的【分批选项】来输出。
2. 案例分析
默认情况下,使用空格进行分割,但若是指定自定义分割符(此处使用o),那么将o替换为分段空格后,切分独立整体。
xargs -d "o"进行自定义分割后,然后分批,我们可以看到,实际上分成了2批。
3. xrags -0命令
xargs -0
的行为和xargs -d
基本一样,只是-d
是指定分割符,-0
是指定固定的\0
作为分割符。等价于xargs -d "\0"
。
(注意)xargs -0
可以处理接收到的stdin
中的null字符(\0)
。如果不使用-0
选项或-null
选项,检测到\0
后会给出警告提醒,并只向命令传递非\0
段。
【tr
命令:替换或者删除字符】
4. 实际应用:
-xargs -0的包含空格的文件的操作。
【起因】使用find+rm命令无法删除带有空格的文件。
【原因】:xargs默认是以空白字符(空格、换行符、制表符)来分割记录的,实际上rm
删除的数据便是./one
和file.txt
。而
【解决方案】:此时我们不能使用默认的分割符,而应该使用自定义的分割符!我们知道find
命令,文件后面均是换行符。
【解决方案】为了解决这个问题,可以在每个文件将换行符替换为NULL(\0
)。这样我们以\0
分割,就可以得到完整文件。
为什么要使用\0
作为分割符,而不是其他字符呢?因为在编程语言中,一般使用\0
作为结束标志。而文件的路径名不可能包含\0
。
本质上是借助xargs的对\0的分割操作。find命令将换行符替换成\0。
3. xargs的分批行为
对于xargs,不写命令时默认的执行是
echo
。
将换行处理掉不是echo
实现的,而是管道传递过来的stdin经过xargs处理后得到的。将所有【文本/标记意义】空格、制表符和分行符都替换为【文本意义】上空格并压缩到一行显示。
【注意】这一整行将作为一个整体。这个整体可能直接交给命令或者作为stdout
通过管道传递给管道右边的命令,这时结果将作为一个整体传递,也有可能被xargs
同时指定的【分批选项】分批处理。(这也是可能出现参数列表过长的原因)
xargs分批命令总结:
xargs -n :和独立的xargs命令配合使用时,按照默认分割符(空格)进行分批,但配合xargs -d命令,则按自定义分割符分批。
xargs -L
和-n
选项类似,唯一的区别就是-L
永远是按段划批,而-n
和独立的xargs
一起使用时是按空格分段划批的。
2. 对独立的xargs
指定分批选项
【标记/文本】指定
-n
时按空格分段,然后划批,不管是文本意义空格还是标记意义的空格,只要是空格都是-n
的操作对象。【标记】指定
-L
或者-i
时按段划批,文本意义的符号不被处理。
【需要注意的是】:【xargs -n】本质上分为两种情况:
- 和独立的
xargs
一起使用,这时按照每个空格分段划批;- 和
xargs -d
或xargs -0
一起使用,这时按段分批;xargs -L
和-n
选项类似,唯一的区别就是-L
永远是按段划批,而-n
和独立的xargs
一起使用时是按空格分段划批的。
4 xargs -i 接收传递的分批结果
xargs -i
选项在逻辑上用于接收传递的分批结果。
如果不使用
-i
,则默认是将分割处理
后的结果整体传递到【命令的最尾部】。但是有时候需要传递到多个位置,不使用-i
就不知道传递到哪个位置了。
例如:重命名备份的时候在每个传递过来的文件名加上后缀.bak
,这需要两个参数位。
语法:
使用xargs -i
时以大括号{}
作为替换符号,传递的时候看到{}
就将结果替换,可以将{}
放在任意需要传递的参数位置上。如果多个地方使用{}
就实现了多个传递。
xargs -I
和xargs -i
是一样的,只是-i
默认使用大括号作为替换符号,-I
可以指定其他符号、字母、数字作为替换符号,但是必须用引号
包起来。man推荐使用-I
代替-i
,但是一般使用-i
方便,除非在命令中不能使用{}
,例如touch {1...10}.log
时,大括号就不能用来做替换符号。
分析:重命名备份的时候在每个传递过来的文件名加上后缀
.bak
。
案例分析1:
【./
指的是当前目录】
- 重命名逻辑是:
mv ./logdir/a.log ./logdir/a.log.bak
- 我们想将一个目录下的文件都要执行某些逻辑。
命令:ls logdir/ | xargs -i mv ./logdir/{} ./logdir/{}.bak
为什么将“-i”
选项划分在分批选项里面,因为它默认一个段就是一个批,每次传递一个批就是传递一个段到指定大括号{}位上。不理解,可以看下1.2.4 分批选项的生效规则
案例分析2:
例如:想将数字1-10
没三个数显示在start
和end
之间。
start 1 2 3 end
start 4 5 6 end
start 7 8 9 end
start 10 end
由于指定了参数传递位置,所以必须使用-i
,那就无法一次传递3个数,要解决这个问题,就要想办法让每三个树分一次段,然后后使用-i
传递,那么可以将每三个数分一次行写入一个文件。
例如:
当然,也可以多次使用xargs
。在很多使用无法解决分段的问题都可以通过多次使用xargs
来解决。
5. 分批选项的生效规则
-i、-L、-n
选项都是分批选项,他们的生效规则是:谁指定在后面,谁就生效!!!
实际上,-i
就是隐含了-L 1
,-i
是分批并传递这两个作用跟严格些。
6. xargs观察命令的执行过程
使用-p
选项是交互询问式的,只有每次询问的时候输入y(或者yes)
才会执行,直接按entry
键是不会执行的。
使用-t
选项是在每次执行xargs
后面的命令都会先在stderr
上打印一遍命令的执行过程然后才正式执行。
使用-p
和-t
选项就可以根据xargs
后面的命令的执行顺序进行推测,xargs
是如何分段,分批以及传递的。
【后续】 分批选项的的典型应用
1. 同一目录下文件过多
分批选项有时特别有用,例如脚本规定每次只能传递三个参数,有时候grep
或者rm -rf
文件数量特别多的时候会提示参数列表过长
而导致失败,这时候就可以分批来按批查询或删除。
命令:ls | xargs -n 10000 rm -rf
2. xargs+find的使用
xargs原本就是为find而开发的。
find命令将匹配到的文件传递给xargs
命令,而xargs
命令每次只获取一部分而不是全部。不像-exec
选项那样,这样就可以先处理最先获取的一部分文件,然后是下一批。
实际应用:
ls+grep
跨目录查询时,我们将文件通过管道输入到grep
参数处,此时并没有包含目录地址,边会出现下面的错误。
解决方案:
将find
找到的文件地址传递给grep
命令的参数处。