正则表达式之grep

grep 的名称实际上就来自于正则表达式:g/RE/pgrep 用于在一个或多个文件中搜索特定字符串的实例。缺省情况下,grep 输出其中出现了您的搜索字符串的每一行(而不是仅输出搜索字符串)。如果您在多个文件中执行搜索,则 grep 还会输出在其中找到该行的文件名。

使用以下文本创建一个名为 grep.txt 的文件:

I like golf.
Golf is played on grass.
I created gilf.

grep 的基本语法如下:

grep REGULAREXPRESSION FILENAME(S)

基本搜索

现在,返回到前面的第一个正则表达式示例:单独的单词 golf。若要与 grep 一起使用这个表达式,可输入:

grep golf grep.txt

此命令在 grep.txt 文件中搜索字符串 golf 的所有实例,并输出包含该字符串的行。您的输出应该类似如下:

I like golf.

使用方括号

下一步,试验一些上面讨论过的特殊字符。您可以使用方括号(方括号表达式)来指示您想要搜索 golfGolf

grep [gG]olf grep.txt

输出应该类似如下:

I like golf.
Golf is played on grass.

句点

若要搜索 golfgilf,您同样可以使用方括号。取而代之的是,可以尝试使用一个句点来指示您想要搜索 glf 之间的任何字符:

$grep g.lf grep.txt

输出应该类似如下:

I like golf.
I created gilf.

搜索 golf、Golf 和 gilf

您现在已经找到了获得每种 golf 变体的方法,但是还没有哪个搜索返回了所有三个实例:golfGolfgilf。花点时间考虑一下如何搜索所有三个实例。这可以通过多种方法来实现。下面是两个示例:

grep ..lf grep.txt
grep [gG][oi]lf grep.txt

这两种方法都返回所有三行:

I like golf.
Golf is played on grass.
I created gilf.

短横线

您是否能够想出更多的方法来完成此任务呢?到目前为止,您仅学习了两个在正则表达式中使用的特殊字符。这只是开始!有些特殊字符在其他特殊字符之内使用。例如,当您将一组字符包括在方括号中时,您可以使用短横线 (-) 来搜索一系列字符。将以下行添加到您的文本文件:

What is g2lf?

使用您到目前为止已学到的知识,您知道如果使用类似于 g.lfg[oi2]lf 的正则表达式,则这一行将包括在搜索结果中。使用句点将返回在该位置具有任何字符的结果;使用 [oi2] 将返回仅在该位置具有 o i2 的结果。通过使用一个短横线,您可以实现第三种方法,其中不只包括少数字符,但并不是包括每个字符:

grep g[a-z]lf

此方法产生以下输出:

I like golf.
I created gilf.

从输出中可以看到,此方法搜索落在 az 之间的任何字符(按字母顺序)。这排除了在 glf 之间具有数字或符号的字符串,这些字符串不是真正的单词,可能不属于您所需的搜索条件。

方括号中的短横线

通过在方括号中包括附加集合,您还可以搜索多个字符序列。例如,若要搜索 a-zA-Z,可以使用以下搜索:

grep g[a-zA-Z]lf

脱字号 (^)

当您的字符序列列表变得更长时,可能发现通过避免某些字符而不是指定想要查找的字符来进行搜索会更容易。这可以通过在搜索序列前在方括号中使用脱字符 (^) 来实现。这说起来挺复杂的,但是通过观察一个示例,应该是很容易理解的。通过使用以下 grep 命令来更改您的搜索,以避免数字但是包括所有其他字符:

grep g[^0-9]lf

此搜索类似于前面查找所有字母字符的搜索,但是此搜索还返回诸如数字符号 (#) 和美元符号 ($) 等不属于字母并且也不在您排除的数字序列中的字符。

星号

要试验的下一个特殊字符是星号 (*),它是若干个重复操作符之一。大多数人都非常熟悉在命令行上使用星号作为文件名搜索条件(通配符),但是在正则表达式中使用星号还是相当新鲜的。星号指示搜索项(前一个字符或方括号表达式)可以出现零次、一次或多次。若要对此进行尝试,请将以下行添加到您已经在使用的 grep.txt 文件:

This time the o is missing in glf.
Some people might say goolf.
But they would not say goilf.

现在整个文件应该类似如下:

I like golf.
Golf is played on grass.
I created gilf.
What is g2lf?
This time the o is missing in glf.
Some people might say goolf.
But they would not say goilf.

尝试在 golf 中的 o 后面使用星号:

grep go*lf grep.txt

您的搜索将返回具有单词 golfglfgoolf 的行:

I like golf.
This time the o is missing in glf.
Some people might say goolf.

问号

另一个重复操作符是问号 (?)。问号的功能与星号类似,只不过搜索项可以出现零次或一次。多个实例将不匹配。使用问号取代星号来尝试您刚才执行的搜索:

grep go?lf grep.txt

可以看到,这次作为匹配结果返回了 golfglf,但是没有返回 goolf,因为其中存在问号前的搜索项 o 的多个实例:

I like golf.
This time the o is missing in glf.

加号

最后一个常规重复操作符是加号 (+)。加号将查找某个搜索项出现一次或多次的情况。与星号不同,必须至少找到一个实例才会匹配。请尝试以下示例:

grep go+lf grep.txt

这次,该搜索返回 golfgoolf,但它不返回 glf,因为没有找到 o

I like golf.
Some people might say goolf.

行首和行尾定位点

在转向 sed 之前,最后要学习的特殊字符是行首定位点(使用脱字符来实现)和行尾定位点(使用美元符号来实现)。您可能记得,您在本教程的前面使用过脱字符来对方括号表达式取反。当在方括号之外使用脱字符时,它执行完全不同的功能。将脱字符放在正则表达式开头将告诉该搜索仅操作行的开头。换句话说,正则表达式中的第一个字符(脱字符之后)必须与新行上的第一个字符匹配才能匹配该行。类似地,将美元符号放在正则表达式的结尾以指示您仅希望返回与行尾匹配的结果。换句话说,正则表达式中的最后一个字符(美元符号之前)必须与某行上的最后一个字符匹配才能匹配该行。若要对此进行测试,请将以下两行添加到 grep.txt:

golf has been a fine example
let's talk about something besides golf

请注意,对于此测试,您不应该对 golf 进行大写或加标点,因为它将演示一个针对同一单词的搜索,此搜索使用定位点在行尾或行首以不同的方式操作。若要测试行首定位点,请输入以下命令:

grep ^golf grep.txt

输出应该类似如下:

golf has been a fine example

若要测试行尾定位点,请使用同一个搜索,但是删除脱字符并在 golf 之后添加一个美元符号。

grep golf$ grep.txt

使用行尾定位点的输出类似如下:

let's talk about something besides golf

小结

现在您已经通过在命令行上使用 grep 来学习了正则表达式的基础知识。下一步,您将学习使用 sed,此实用程序不仅搜索文本,而且还对搜索结果进行替换。首先,下面是对您到目前为止已学习过的内容的小结:

.   句点表示任何单个字符
[]  方括号包括一个字符序列
-   短横线在字符之间使用以创建一个序列(在 [] 内)
^   脱字符用于对序列(在 [] 内)取反
*   星号搜索某个搜索项的零个、一个或多个实例
?   问号搜索某个搜索项的零个或一个实例
+   加号搜索某个搜索项的一个或多个实例
$   美元符号搜索行尾
^   脱字符搜索行首
\   特殊字符前的反斜杠使该字符成为普通字符(请参见下一部分。)

你可能感兴趣的:(正则表达式,Go)