上篇文章中我们较为详细的介绍了一下
sehll
解释命令行的规则和顺序,本篇我们将详细描述
sehll
中经常用到的一些程序(也称命令、工具)。当然,其中会参插很多前面讲过的。
Shell
脚本中经常用到的工具有
cut
、
tr
、
grep
、
sort
、
uniq
、
re
、
sed
、
awk
等。
Re
不是一个程序,我们认为他是
shell
中一个重量级的工具。对这些工具的使用越精通,编写
shell
脚本解决问题就越容易!
re/sed/awk
是
shell
中最难的一部分内容(至少笔者这么认为),在我的其他文章中专门对他们进行过讨论,所以这里将不做介绍。
一、
cut
如果要从数据文件或者命令的输出中截取(也就是剪出)各种各样的数据域,
cut
命令都会派上用场,命令的一般格式为
cut �Ccchars file
其中,
chars
指定想从文件的每一行中截取哪些文字。这可以是一个数字,如
-c5
就是把第
5
个字符截取出来;用逗号分隔的数值列表,如
-c1,13,50
把第
1
、
13
和
50
个字符截取出来;或用破折号分隔的数值范围,如
-c20-50
截取出第
20
到
50
之间的字符,包括他们自己。如果要把到行尾的字符全部截取出来,可以用数值范围,缺掉第
2
个参数,因此
cut �Cc5- data
把
data
文件每一行中从第
5
个字符到行尾的内容全部截取出来了,并把结果写入标准输出(屏幕)。
如果不指定
file
参数,
cut
从标准输入(通常是键盘)读取输入,这以为着可以把
cut
命令用作管道线中的过滤器。我们再看
who
命令的输出:
$who
root tty2 2009-08-17 16:59
root pts/0 2009-09-17 23:50 (192.168.1.130)
stu 1 pts /2 2009-09-27 15:26 (192.168.1.130)
$who | cut �Cc1-8
root 2009-08-17 16:59
root 2009-09-17 23:50 (192.168.1.130)
stu1 2009-09-27 15:26 (192.168.1.130)
$
选项
-c1-8,18-
意思是截取行中的第
1
到
8
个字符(用户名)和第
18
到行尾的字符(登陆时间)。
-d
和-f
选项
当数据文件或命令的输出不像
who
那样给出整齐的格式,那么
-c
选项就不那么好用了。例如,看一下文件
/etc/passwd:
$cat /etc/passwd
mysql:x:501:501::/home/mysql:/bin/bash
www:x:48:48::/home/www:/bin/bash
ldap:x:55:55:LDAP User:/var/lib/ldap:/bin/false
test:x:502:502::/home/test:/bin/bash
stu1:x:503:503::/home/stu1:/bin/bash
$
该文件的第一个冒号之前的字符都是系统用户名,我们想要截取这些用户名应该怎么办呢?因为每个名字的长度都可能不一样,所以
-c
在这里不能很好得完成任务了。但是这个文件有一个特点,它的各个字段都用冒号分隔。尽管不同行之间的每个字段长度都不一样,但可以数冒号来得到各行中的同一字段。这时候我们需要
-d
和
-f
,命令格式变为:
cut �Cddchar �Cffields file
其中,
dchar
是数据中分隔各字段的分隔符,
fields
表示要从文件
file
中截取出来的字段。字段编号从
1
开始,而且格式和
-c
指定字符是一样的
(
如
-f1-3,8-)
。
所以要从
/etc/passwd
中截取出系统中的用户名,可以键入以下命令:
$cut �Cd: -f1 /etc/passwd
mysq
www
ldap
test
stu1
$
二、tr
过滤器
tr
用来转换来自标准输入的字符。
Tr
命令的一般格式为
tr from-chars to-chars
其中
from-chars
和
to-chars
是一个或多个字符。所输入的任何字符,如果在
from-chars
中,它就被转换成
to-chars
中对应的字符。转换的结果写入标准输出。在
tr
最简单的格式中,它可以把一个字符转换成另一个字符。
$tr m M < /etc/passwd
Mysql:x:501:501::/hoMe/Mysql:/bin/bash
www:x:48:48::/hoMe/www:/bin/bash
ldap:x:55:55:LDAP User:/var/lib/ldap:/bin/false
test:x:502:502::/hoMe/test:/bin/bash
stu1:x:503:503::/hoMe/stu1:/bin/bash
$
/etc/passwd
文件中的小写
m
都被转换成大写
M
了。
$cut �Cd: -f1,6 /etc/passwd | tr : ‘ ‘
mysql /home/mysql
www /home/www
ldap /var/lib/ldap
test /home/test
stu1 /home/stu1
$
cut
先截取第1和6字段,然后
tr
将冒号替换成空格。
$cut �Cd: -f1,6 /etc/passwd | tr ‘[a-z]’ ‘[A-Z] ‘
MYSQL:/HOME/MYSQL
WWW:/HOME/WWW
LDAP:/VAR/LIB/LDAP
TEST:/HOME/TEST
STU1:/HOME/STU1
$
cut
先截取第1和6字段,然后
tr
将所有小写字母转换为大写。
-s
选项
tr
命令的
-s
选项用来压缩
to-chars
中重复的字符。换句话说,如果转换完成后,有
to-chars
中的某个连续字符重复出现,则这些连续的相同字符将被替换为一个字符。
$ cut �Cd: -f1,6 /etc/passwd | tr �Cs mw MW
Mysql:/hoMe/Mysql
W:/hoMe/W
ldap:/var/lib/ldap
test:/hoMe/test
stu1:/hoMe/stu1
$
tr
将
m
和
w
分别替换成
M
和
W
,并且将连续的
M
或
W
替换成一个字符,所以第二行的
WWW
变成了单个
W
。
$cat data
1 2 3
4 5 6
$tr �Cs ‘ ‘ ‘ ‘ < data
1 2 3
4 5 6
$
带
-s
参数的
tr
将
data
文件每行的多个空格压缩为一个,这里
from-chars
和
to-chars
同为单个空格。处理的顺序是先替换后压缩,不管替换有没有产生变化。该命令和
sed ‘s/ */ /g’
是同样的效果,而且和
sed
一样,
tr
、
cut
均不改变源文件(只是对文件的一个拷贝进行处理)
-d
选项
tr
也可以删除掉输入流中的字符,其一般格式为
tr �Cd from-chars
任何列在
from-chars
中的字符都会被从标准输入中删除。
$ tr -d ‘ ‘ < data
123
456
$
tr �Cd
删除
data
文件中的所有空格,结果写入标准输出(屏幕)。该命令和
sed ‘s/ //g’
等效。
tr
只能对个别字符操作,如果要转换多个字母的组合,就必须用其他程序,如
sed
。
三、grep
grep
命令可以从一个或者多个文件中搜索特定的字符串模式,其一般格式为
grep pattern files
每个文件中符合模式
pattern
的字符串所在的行都将显示在终端上。如果给
grep
指定了多个文件,会在每一行的前面显示文件名,这样可以识别从中找到该模式的文件。还是以前面的
/etc/passwd
文件为例:
$cat /etc/passwd
mysql:x:501:501::/home/mysql:/bin/bash
www:x:48:48::/home/www:/bin/bash
ldap:x:55:55:LDAP User:/var/lib/ldap:/bin/false
test:x:502:502::/home/test:/bin/bash
stu1:x:503:503::/home/stu1:/bin/bash
$grep www /etc/passwd
www:x:48:48::/home/www:/bin/bash
$
该输出表明,文件
/etc/passwd
中有一行包含字符串
www
。如果在给定的文件中没有符合该迷失的字符串,
grep
命令就什么也不显示:
$grep tom /etc/passwd
$
如果另一个文件
data
的内容如下:
$cat data
www in data
tom in data
jerry in data
$
在在
/etc/passwd
和
data
两个文件中搜索
www
的结果如下:
$ grep www /etc/passwd data
/etc/passwd:www:x:48:48::/home/www:/bin/bash
data:www in data
$
结果,除了显示包含
www
的行外,还显示了他们所在的文件名。
命令格式中的
pattern
通常是一个正则表达式
re
(
www
也是一个
re
),关于
re
的介绍不在本文给出,请参考其他文章。
-v
选项
有时用户所关心的不是包含指定模式的行,而是不包含的那些行。
grep
处理这个问题很容易:用
-v
选项。下面我们来查找
/etc/passwd
中不包含
www
的行:
$grep �Cv www /etc/passwd
mysql:x:501:501::/home/mysql:/bin/bash
ldap:x:55:55:LDAP User:/var/lib/ldap:/bin/false
test:x:502:502::/home/test:/bin/bash
stu1:x:503:503::/home/stu1:/bin/bash
结果中除了包含
www
的那行外,其他所有行都被显示了出来。
-l
选项
有时,用户可能不关心包含一个模式的具体行,而只想知道包含该模式的文件名。下面的例子给出了简单的方法:
$ grep �Cl www /etc/passwd data file
/etc/passwd
data
$
其中,只有
file
中没有包含
www
的行,于是结果显示了包含
www
的文件名。因为
grep
很方便的把每个文件显示为一行,我们可以在命令后面通过管道把输出输送给
wc �Cl
的输入,以获得包含指定模式的文件的个数。
$ grep �Cl www /etc/passwd data file | wc �Cl
2
-n
选项
如果
grep
用了
-n
选项,文件中符合指定模式的每一行都将加上该行在文件中相对行号。下面的例子告诉我们如何查明文件中包含模式的确切行号:
$grep �Cn www /etc/passwd
2
:
www:x:48:48::/home/www:/bin/bash
结果表明,包含
www
的行位于
/etc/passwd
的第
2
行。
四、sort
sort
用于对指定的文件中的行进行排序,其基本格式为:
sort file(s)
将文件
file(s)
中的行排序,若未指定,则排序标准输入(键盘输入)。
$cat names
Lucy
Tony
Fred
Tony
$
sort
有许多选项,可以让排序操作非常灵活。下面我们只介绍其中一部分选项。
-u
选项
-u
选项告诉
sort
命令,在输出结果中去除重复的行:
$sort names
Fred
Lucy
Tony
Tony
$sort �Cu names
Fred
Lucy
Tony
$
可以看出,包含
Tony
的重复行从输出中被去掉了。
-r
选项
用
-r
选项颠倒排序顺序:
$sort �Cr names
Tony
Tony
Lucy
Fred
$
-o
选项
默认情况下,
sort
把输出结果写入标准输出。要把结果写入文件,可以用输出重定向:
$sort names > sorted_names
$
另一种方法是用
-o
选项指定输出文件,只要在
-o
之后接着写上输出文件名:
$sort names -o sorted_names
$
该命令把对文件
names
排序的结果写入
sorted_names
。很多时候都会想把一个文件中的各行排序,然后把排好序的结果写回原来的文件,键入
$sort names > names
$
不能成功,它将以破坏文件而告终。然而,采用
-o
选项时,却可以给输出文件指定和输入文件相同的名字:
$sort names -o names
$cat names
Fred
Lucy
Tony
Tony
原来的文件顺序被排好了,并且不会有任何错误,这个
-o
确实蛮好的。
-n
选项
sort
默认是按照
ASCII
编码的顺序来进行排序的,如果要按照数学方式来排序,该怎么做呢?看下面的例子:
$cat data
1 11 www
-3 13 jerry
2 12 tom
$sort data
1 11 www
2 12 tom
-3 13 jerry
$sort �Cn data
-3 13 jerry
1 11 www
2 12 tom
可以看到,
-n
参数按照数字大小来进行排序了。
跳过字段
接着上面的例子,如果想要以第二列数字来进行排序该怎么办呢?看下面的做法:
$sort +1n data
1 11 www
2 12 tom
-3 13 jerry
$
结果是以第二列数字排序的,
+1
代表跳过第一字段。注意,不是所有的
sort
都支持
+
这个选项,这和你的系统或者
sort
版本有关。
$sort +1n data
sort: open failed: +1n: No such file or directory
某些系统运行该命令将得到如上的错误信息。
-t
选项
$cat /etc/passwd
mysql:x:501:501::/home/mysql:/bin/bash
www:x:48:48::/home/www:/bin/bash
ldap:x:55:55:LDAP User:/var/lib/ldap:/bin/false
test:x:502:502::/home/test:/bin/bash
stu1:x:503:503::/home/stu1:/bin/bash
$
如果想要以冒号作为分隔符,按照第三列数字(用户
id
)来对
/etc/passwd
进行排序,应该怎么做呢。是用下面这个命令吗?
$sort +2n /etc/passwd
错了,因为跳过字段时,
sort
默认是以空格或者制表符(
tab
)来分隔字段的。这里我们需要用
-t
参数,改变
sort
默认的字段分隔符:
$sort +2n �Ct: /etc/passwd
www:x:48:48::/home/www:/bin/bash
ldap:x:55:55:LDAP User:/var/lib/ldap:/bin/false
mysql:x:501:501::/home/mysql:/bin/bash
test:x:502:502::/home/test:/bin/bash
stu1:x:503:503::/home/stu1:/bin/bash
$
这里我们把第三字段用黑体标注了起来,方便检验排序的正确性。
四、uniq
如果要在文件中查找重复的行,
uniq
命令会很管用,该命令一般格式为
uniq in_file out_file
该格式中,
uniq
把
in_file
复制到
out_file
,处理过程中,去掉重复的行。
uniq
对重复行的定义是完全相同的连续行。
如果不指定第二个参数
out_file
,结果就写入标准输出;如果
in_file
也没有指定,
uniq
就成了一个过滤器,从标准输入读入输入。下面有几个例子示意
uniq
如何工作。
$cat names
Lucy
Tony
Fred
Tony
$
可以看出,文件中
Tony
出现了两次,可以用
uniq
来删除这种重复的行:
$uniq names
Lucy
Tony
Fred
Tony
$
奇怪,输出中
Tony
仍然出现了两次,
unqi
没有用吗?对了,前面说了,
uniq
对重复行的定义是完全相同的连续行。而这里的两行
Tony
被
Fred
分开了,
uniq
自然不会改变他们。再看下面是怎么处理的:
$sort names | uniq
Fred
Lucy
Tony
$
sort
先对文件进行了排序,这样两行
Tony
就连续了,这次
uniq
就派上用场了。(想想带
-u
选项的
sort
命令,完成的就是这个功能)
-d
选项
很多时候,用户所关心的是找出文件中有哪些重复行。
uniq
的
-d
选项就是这个作用:它告诉
uniq
把文件中的重复行写入
out_file
(或标准输出),不管他们在文件中连续出现多少次,这样的连续行只写一次。
$sort names | uniq -d
Tony
和前面一样,
sort
先对文件排序,然后
uniq �Cd
找到重复的连续行,然后只显示一行。下面的命令可以用来检查系统中是否有相同的帐户:
$sort /etc/passwd | uniq �Cd
$
结果将显示属性完全相同的两个
unix
帐户,如果只是想要找出同名的帐户呢,我们需要截取
/etc/passwd
文件的第一字段来进行操作:
$sort /etc/passwd | cut �Cd: -f1 | uniq �Cd
harry
tom
$
上面的结果表明,系统中至少有
2
个
harry
和
2
个
tom
帐户。
-c
选项
带
-c
选项的
uniq
删除重复行的同时,显示每行出现的次数。
$sort names | uniq -c
1 Fred
1 Lucy
2 Tony
$
本文详细介绍了工具
cut
、
tr
、
grep
、
sort
、
uniq
的用法。
re
、
sed
、
awk
在笔者以下几篇文章中分别加以讨论:
http://licong.blog.51cto.com/542131/200431
《正则表达式详解》
http://licong.blog.51cto.com/542131/152541
《
sed
学习笔记》
http://licong.blog.51cto.com/542131/204226
《
sed
学习笔记二
--
高级命令》
http://licong.blog.51cto.com/542131/151976
《
awk
学习笔记》
再重复一次,以上工具掌握得越灵活,编写
shell
脚本就越容易。