摘要: 首先学习正则表达式,然后使用它来在文件中查找。
本文为使用正则表达式进行搜索打基础。(1) 创建简单的正则表达式(2) 使用正则表达式进行搜索(3) 在sed命令中使用正则表达式
使用如下命令来创建本文需要的目录和文件。
mkdir -p 103-7 && cd lpi103-7 && { echo -e "1 apple\n2 pear\n3 banana" > text1 echo -e "9\tplum\n3\tbanana\n10\tapple" > text2 echo "This is a sentence. " !#:* !#:1->text3 split -l 2 text1 split -b 17 text2 y; cp text1 text1.bkp mkdir -p backup cp text1 backup/text1.bkp.2 }
正则表达式根源于计算机语言理论。计算机科学专业的学生们都知道能够被正则表达式表示的语言都可以同样被有限自动机来表达。本文讲述的正则表达式用来表达更复杂的东西,这与计算机科学课堂上所学的是不一样的,尽管两者之间是紧密联系的。正则表达式(也叫做regex或regexp)是用来描述一个字符串或模式的方式,这样程序就能够从任意的文本中查找满足模式的字符串,从而成为功能强大的搜索工具。grep(generalized regular express processor)是Linux或Unix管理员工具箱的标准组成部分, 它就允许使用正则表达式来搜索文本。sed则是另一个广泛使用正则表达式的工具,它可以用来在文件或文本流中查找和替换文本。本文将帮助你更好的理解grep和sed中使用的正则表达式。另外一个深度使用正则式的工具是awk。与本系列的其他文章一样,关于正则表达式和计算机语言理论的书籍有很多。在学习正则表达式的时候,你可能会看到正则表达式的语法和前面文章提到的通配符语法有些类似,但是这种类似只是表面的,本质上两者是不同的概念。
大多数Linux系统上的grep支持两种正则表达式语法格式:基本语法和扩展语法。对于GNUgrep,这两者在功能上没有差异。 基本语法、以及它与扩展语法的差异将在本文讲述。正则表达式由字符和操作符组成,其中操作符由元字符组成。大多数的字符匹配它们自身,大多数的元字符使用前必须被转义。基本的操作有:
为了防止shell对你的正则表达式做扩展,通常需要使用引号保住正则表达式。
我们将使用前面创建的文件来做实验。请注意grep命令把一个正则表达式作为必须的参数,搜索的文件名则是可选参数,如果没有提供文件名参数,grep会从stdin中搜索,这种特性让grep可以担任过滤器的角色,如果没有匹配的行,那么grep就不会产生输出,尽管它的退出码是可以用来得到的。
ot@centos192 lpi103-7]# grep p text1 1 apple 2 pear [root@centos192 lpi103-7]# grep pea text1 2 pear [root@centos192 lpi103-7]# grep "p*" text1 1 apple 2 pear 3 banana [root@centos192 lpi103-7]# grep "pp*" text1 1 apple 2 pear [root@centos192 lpi103-7]# grep "x" text1; echo $? 1 [root@centos192 lpi103-7]# grep "x*" text1; echo $? 1 apple 2 pear 3 banana 0 [root@centos192 lpi103-7]# cat text1 | grep "l\|n" 1 apple 3 banana [root@centos192 lpi103-7]# echo -e "find an \ns* here" | grep "s\*" s* here
从上面的例子中可以看出,有时候将会得到令人惊讶的结果,特别是在使用重复操作符的时候。你可能期望p*会匹配一组p,但是每一行都会匹配,因为*可以是0个。上面例子中使用了两次grep的退出码。如果至少存在一个匹配行,则返回0,如果没有匹配行,则返回1,大于1的返回值(对于GNU grep总是2)表示错误,比如提供的文件不存在。
ot@centos192 lpi103-7]# grep "pp\+" text1 # 至少两个p 1 apple [root@centos192 lpi103-7]# grep "pl\?e" text1 1 apple 2 pear [root@centos192 lpi103-7]# grep "p.*r" text1 # p, some string thren r 2 pear [root@centos192 lpi103-7]# grep "a.." text1 # a followed by two other letters 1 apple 3 banana
^匹配行的开始,$匹配行的结束。这样说来,^..b 匹开始任意两个字符跟着是b的行。ar$则匹配以ar最为最后两个字符的行。^$则匹配空行。4.3 复杂的表达式目前为止,我们看到了一个单一字符的重复。如果想让多个字符组成的字符串重复呢?这就需要使用(),在基本语法中,需要转义才能把()当作元字符使用。你可能不想使用|操作符来查找某一组字符,这正是字符组的用武之地。元字符是[],这个元字符可以直接使用,不需要转义。[]里面的表达式与正则式完全不同,其元字符含义也不同,请一定注意。看例子吧。
[root@centos192 lpi103-7]# grep "\(an\)\+" text1 # find at least 1 an 3 banana [root@centos192 lpi103-7]# grep "an\(an\)\+" text1 # find at least 2 an's 3 banana [root@centos192 lpi103-7]# grep "[3p]" text1 # find 3 or p 1 apple 2 pear 3 banana [root@centos192 lpi103-7]# echo -e "find an\ns* here\nsomwhere." | grep "s[.*]" s* here [root@centos192 lpi103-7]# echo -e "find an\n * in position 2." | grep ".[.*]" * in position 2.
对于字符组来说,还有很多有趣的地方。(1)范围表达式两个字符中间通过-连接就是范围表达式。如0-9表示数字,0-aa-fA-F表示16进制数字。注意范围表达式是与地域有关的。(2)命名类对一些经常使用的字符类进行了命名,这就是命名类。命名类以[:开头,以:]结束。它们可以用在字符组里面。例如[:alnum:] 字母数字字符[:blank:] 空格和tab[:digit:] 数字,与0-9含义相同[:upper:]和[:lower:] 大写字符和小写字符(3)取反如果^出现在[]里面的第一个位置,那么它表示取反的意思,也就是字符不匹配字符组里的字符。如果想匹配字面上的^,则一定不要把^放到[]内的第一个位置。符号]会结束一个字符组,除非把他放到第一个位置。
字符组、正则表达式、通配符,这三者有些类似,但是本质上是不同的领域。下面是一些字符组的例子::nochange[root@centos192 lpi103-7]# echo -e "123\n456\n789\n0" | grep "[3-7]"123456789[root@centos192 lpi103-7]# grep "[[:digit:]][^nr]*$" text11 apple[root@centos192 lpi103-7]# grep "[[:digit:]nz][^nr]*$" text11 apple3 banananochange:
最后一个例子让你感到惊奇了吗?第一个[]表达式表示匹配任意数字、或者n、或者z,然后接着是n和r之外的其他字符任意多个。
如果能够分辨出高亮部分,比如颜色,加粗或者下划线,你可以设置GREP_COLORS环境变量来让grep把匹配部分高亮显示。默认的设置是匹配部分被加粗、颜色以红色显示。如下图。可以看出,第一行匹配的是全部,而第二行匹配的是最后的na两个字符。
如果你对于正则表达式还不熟悉,或者不确定为什么一个特定的行被grep匹配并返回,那么这种高亮显示可以给你带来很大帮助。
扩展的正则表达式语法是GNU的一个扩展。这种语法减少了对于某些元字符的转义必要,如?+ | 和{,这些元字符在基本语法中必须进行转义才能发挥元字符的作用,在扩展语法中不在需要转义,当然此消彼长,扩展语法中当需要止血元字符的字面意义时就要进行转义了。使用grep的-E(或者--extended-regerexp)选项来使用扩展语法。或者直接使用egrep命令。下面例子使用了egrep和扩展语法来实现前面grep和基本语法完成的功能。
root@centos192 lpi103-7]# # Find b followed by one or more an's and then an a [root@centos192 lpi103-7]# grep "b\(an\)\+a" text1 3 banana [root@centos192 lpi103-7]# egrep "b(an)+a" text1 3 banana
既然我们已经学会了基本的命令,就让我们利用grep和find来在文件系统中查找东西吧。首先,grep可以一次查找多个文件。如果你提供了-n选项,那么输出中会有匹配行的行号。如果你仅仅想知道匹配了多少行,那么使用-c选项。如果只想知道那些文件匹配了,使用-l选项。下面是例子::nochange[root@centos192 lpi103-7]# grep plum *text2:9 plumyaa:9 plum[root@centos192 lpi103-7]# grep -n banana text[1-4]text1:3:3 bananatext2:2:3 banana[root@centos192 lpi103-7]# grep -c banana text[1-4]text1:1text2:1text3:0[root@centos192 lpi103-7]# grep -l pear *text1text1.bkpxaanochange:
注意上面的text3:0,这说明text3文件中匹配了0行,也就是没有匹配。grep还有一个-v选项,它的作用是输出没有匹配的行。下面的例子中,首先使用find来查找当前目录及其子目录下的所有常规文件,然后使用xargs把文件列表作为参数传递给grep来查找每个文件中banana出现的行数。最后,这个结果传给另一个grep过滤器,它使用-v选项来查找所有不是以:0结尾的行。
[root@centos192 lpi103-7]# find . -type f -print0 | xargs -0 grep -c banana | grep -v ":0$" ./text2:1 ./text1.bkp:1 ./text1:1 ./yaa:1 ./backup/text1.bkp.2:1 ./xab:1
前面我们学习sed的时候,提到过sed支持正则表达式。实际上sed命令有地址表达式和替换表达式两部分,都可以使用正则表达式。如果你仅仅是查找什么,那么你可能只是使用grep就足够了。如果你需要提取匹配的字符串然后进一步操作它,你就需要使用sed了。我们来看看sed是如何工作的。先回忆一下,在我们的例子文件text1和text2中,包含了一个数字,然后是一个空格然后是一种水果的名字。在text3中,包含了一个重复的句子。如下图所示:
ot@centos192 lpi103-7]# cat text[1-3] 1 apple 2 pear 3 banana 9 plum 3 banana 10 apple This is a sentence. -e This is a sentence. -e This is a sentence. -e
首先,我们使用grep和sed来提取特定的行,这些行满足以一个或多个数字开头,然后是空白。默认sed会打印出所有行,所哟我们首先使用-n来抑止sed的输出,然后使用p命令来打印匹配的行。为了确保grep和sed使用了相同的正则表达式,我们把这个正则表达式作为变量保存。
ot@centos192 lpi103-7]# oursearch='^[[:digit:]][[:digit:]]*[[:blank:]]' [root@centos192 lpi103-7]# grep "$oursearch" text[1-3] text1:1 apple text1:2 pear text1:3 banana text2:9 plum text2:3 banana text2:10 apple [root@centos192 lpi103-7]# cat text[1-3] | sed -ne "/$oursearch/p" 1 apple 2 pear 3 banana 9 plum 3 banana 10 apple
注意,当在多个文件中搜索时,grep会在结果中显示文件名。因为我们使用cat来为sed提供输入,所以sed没有办法知道原始的文件名。尽管结果格式不一样,但是匹配的行是完全一样的。现在假设我们只想要匹配行的第二个单词。在本例中,这个词就是水果的名字。在我们的例子中,把匹配的部分删除正好就是水果的名字了,如下:
[root@centos192 lpi103-7]# cat text[1-3] | sed -ne "/$oursearch/s/$oursearch//p" apple pear banana plum banana apple
下面的例子展示了完成上述任务的另一种方法。首先引入了()元字符来吧整行分割成3部分:数字和空白、第二个单词,剩余部分。我们使用s命令来用第二个单词来替换整个句子,然后打印结果。你可能要使用把这个正则表达式进行变形,忽略掉第三部分\(.*\),看看那样做的结果你是否能够解释。
ot@centos192 lpi103-7]# echo "7 lemon pie" | cat - text[1-3] | sed -ne "/$oursearch/s/\($oursearch\)\([^[:blank:]]*\)\(.*\)/\2/p" | sort | uniq apple banana lemon pear plum
一些老版本的sed不支持扩展语法的正则表达式。如果你的sed支持扩展语法,那么就使用-r选项来告诉sed你正在使用扩展语法。下面脚本展示了使用扩展语法完成于上面例子一样的功能。
ot@centos192 lpi103-7]# echo "7 lemon pie" | cat - text[1-3] | sed -nre "/$oursearch/s/($oursearch)([^[:blank:]]*)(.*)/\2/p" | sort | uniq apple banana lemon pear plum
本文中的例子仅仅是使用grep和sed结合正则表达式能完成的功能的冰山一角。请参考man手册页来学习这些无价之宝的工具程序。