通配符是shell在做PathnameExpansion(路径名扩展)时用到的。说白了一般只用于文件名匹配,它是由shell解析的,比如find,ls,cp,mv等。
通配符 |
含义 |
实例 |
* |
匹配 0 或多个字符 |
a*b a与b之间可以有任意长度的任意字符, 也可以一个也没有, 如aabcb, axyzb, a012b, ab。 |
? |
匹配任意一个字符 |
a?b a与b之间必须也只能有一个字符, 可以是任意字符, 如aab, abb, acb, a0b。 |
[list] |
匹配 list 中的任意单一字符 |
a[xyz]b a与b之间必须 |
[!list]或[^list] |
匹配 除list 中的任意单一字符 |
a[!0-9]b a与b之间必须也只能有一个字符, 但不能是阿拉伯数字, 如axb, aab, a-b。 |
[c1-c2] |
匹配 c1-c2 中的任意单一字符 如:[0-9] [a-z] |
a[0-9]b 0与9之间必须也只能有一个字符 如a0b, a1b... a9b。 |
[!c1-c2]或[^c1-c2] |
匹配不在c1-c2的任意字符 |
a[!0-9]b 如acb adb |
{string1,string2,...} |
匹配 sring1 或 string2 (或更多)其一字符串 |
a{abc,xyz,123}b 列出aabcb,axyzb,a123b |
shell 除了有通配符之外,还有一系列自己的其他特殊字符。
字符 |
说明 |
IFS |
由 |
CR |
由 |
= |
设定变量 |
$ |
取变量值或取运算值 |
> |
重定向 stdout |
< |
重定向 stdin |
| |
管道符号 |
& |
重导向 file descriptor ,或将命令置于后台执行 |
( ) |
将其内的命令置于 nested subshell 执行,或用于运算或命令替换 |
{ } |
将其内的命令置于 non-named function 中执行,或用在变量替换的界定范围 |
; |
在前一个命令结束时,而忽略其返回值,继续执行下一个命令 |
&& |
在前一个命令结束时,若返回值为 true,继续执行下一个命令。即前一个命令成功运行后才运行后一条命令 |
|| |
在前一个命令结束时,若返回值为 false,继续执行下一个命令 |
! |
运算意义上的非(not)的意思 |
# |
注释,常用在脚本中 |
\ |
转移字符,去除其后紧跟的元字符或通配符的特殊意义 |
有时候,我们想让 通配符,或者元字符 变成普通字符,不需要使用它。那么这里我们就需要用到转义符了。 shell提供转义符有三种:
字符 |
说明 |
‘’(单引号) |
硬转义,其内部所有的shell 元字符、通配符都会被关掉。 |
“”(双引号) |
软转义,其内部只允许出现特定的shell 元字符:$用于参数替换 `(反单引号,esc键下面)用于命令替换 |
\(反斜杠) |
又叫转义,去除其后紧跟的元字符或通配符的特殊意义 |
正则表达式是描述一组字符串的模式。正则表达式的构造类似于算术表达式,通过使用各种运算符来组合更小的表达式。
grep可以理解三种不同版本的正则表达式语法:“basic”、“extended”和“perl”。在GNU grep中,basic和extened语法在可用功能上没有区别。在其他实现中,基本正则表达式的功能没有那么强大。下列描述适用于extened正则表达式;之后将总结基本正则表达式的不同之处。Perl正则表达式提供了额外的功能,并在pcresyntax(3)和pcrepattern(3)中进行了记录,但可能不是在每个系统上都可用。
基本构建块是匹配单个字符的正则表达式。大多数字符,包括所有的字母和数字,都是匹配自身的正则表达式。任何具有特殊含义的元字符都可以在其前面加上反斜杠。 这段时间。匹配任何单个字符。
字符类和括号表达式(Character Classes and Bracket Expressions)
中括号表达式是由[和]括起的字符列表。它匹配列表中的任何一个字符;如果列表的第一个字符是插入符号^,那么它将匹配列表中没有的任何字符。例如,正则表达式[0123456789]匹配任何单个数字。
在中括号表达式中,范围表达式由用连字符分隔的两个字符组成。它匹配在这两个字符之间排序的任何单个字符,包括使用区域设置的排序序列和字符集。例如,在默认的C区域设置中,[a-d]等价于[abcd]。许多语言环境按照字典顺序对字符进行排序,在这些语言环境中[a-d]通常不等于[abcd];例如,它可能等价于[aBbCcDd]。要获得中括号表达式的传统解释,可以通过将LC_ALL环境变量设置为值C来使用C语言环境。
最后,在中括号表达式中预定义了一些指定的字符类,如下所示。他们的名字是自解释的,它们是 [:alnum:], [:alpha:], [:cntrl:], [:digit:], [:graph:], [:lower:], [:print:], [:punct:], [:space:], [:upper:]和 [:xdigit:].。例如,[[:alnum:]]表示当前区域设置中数字和字母的字符类。在C语言环境和ASCII字符集编码中,这与[0-9A-Za-z]相同。(注意,这些类名中的中括号是符号名的一部分,必须包含在分隔中括号表达式的中括号之外。为了包含字符 ] ,请把它放到列表中的第一个位置;类似的,为了包含字符 ^ ,请把它放到列表中除了第一个位置之外的任何位置;最后,为了包含字符 - ,请把它放在列表中的最后位置)
锚定(Anchoring)
插入符号 ^ 和美元符号 $ 是元字符,它们分别匹配行首和行尾的空字符串。
反斜杠字符和特殊表达式 (The Backslash Character and Special Expressions)
符号 \< 和 \> 分别匹配单词开头和结尾的空字符串。符号 \b 匹配单词边缘的空字符串, \B 匹配空字符串,前提是它不在单词的边缘。符号 \w 是 [_[:alnum:]] 的同义词,而 \W 是 [^_[:alnum:]] 的同义词。
重复(Repetition)
正则表达式后面可以跟着几个重复运算符中的一个:
? 前一项是可选的,最多匹配一次。
* 前一项将匹配零次或多次。
+ 前一项将匹配一次或多次。
{n} 前一项恰好匹配n次。
{n,} 前一项匹配n次或更多次。
{,m} 前一项最多匹配m次。这是一个GNU扩展。
{n,m} 前一项匹配至少n次,但不超过m次。
连接(Concatenation)
可以连接两个正则表达式;生成的正则表达式匹配由两个子字符串连接而成的任何字符串,这两个子字符串分别匹配连接后的表达式。
交替(Alternation)
两个正则表达式可以由中缀运算符 | 连接;生成的正则表达式匹配任何与任一备用表达式匹配的字符串。
优先级(Precedence)
重复优先于连接,连接又优先于交替。整个表达式可以用圆括号括起来,以覆盖这些优先规则并形成子表达式。
反向引用和子表达式(Back References and Subexpressions)
反向引用\n(其中n是一位数字)匹配前面由正则表达式的第n个圆括号子表达式匹配的子字符串
基本正则表达式vs扩展正则表达式(Basic vs Extended Regular Expressions)
在基本正则表达式中,元字符?、+、{、|、( 和 ) 失去了它们的特殊含义;相反,使用反斜杠版本 \?, \+, \{, \|, \(,和 \) 。
传统的egrep不支持{元字符,而一些egrep实现支持 \{ ,因此可移植脚本应该避免在grep -E模式中使用 {,而应该使用 [{] 来匹配字符 {。
GNU grep -E试图支持传统用法,如果 { 是一个无效区间规范的开始,那么它并不特殊。例如,命令 grep -E '{1' 搜索双字符串 {1,而不是报告正则表达式中的语法错误。POSIX允许这种行为作为扩展,但是可移植脚本应该避免这种行为。
在正则表达式的使用过程中,一些字符是以特定方式处理的。最常使用的特殊字符如下:
字符 |
含义 |
^ |
指向一行的开头 |
$ |
指向一行的结尾 |
. |
任意单个字符 |
[] |
字符范围。如[a-z] |
如果想将上述字符用作普通字符,就需要在它们前面加上\字符。例如,如果想使用$字符,你需要将它写为\$。
在方括号中还可以使用一些有用的特殊匹配模式,如下:
匹配模式 |
含义 |
[:alnum:] |
字母与数字字符,如grep[[:alnum:]] words.txt |
[:alpha:] |
字母 |
[:ascii:] |
ASCII字符 |
[:blank:] |
空格或制表符 |
[:cntrl:] |
ASCII控制字符 |
[:digit:] |
数字 |
[:graph:] |
非控制、非空格字符 |
[:lower:] |
小写字母 |
[:print:] |
可打印字符 |
[:punct:] |
标点符号字符 |
[:space:] |
空白字符,包括垂直制表符 |
[:upper:] |
大写字母 |
[:xdigit:] |
十六进制数字 |
另外,如果指定了用于扩展的-E选项,那些用于控制匹配完成的其他字符可能会遵循正则表达式的规则,对于grep命令,我们还需要在这些字符前面加上\,下表是扩展部分一览:
选项 |
含义 |
? |
最多一次 |
* |
必须匹配0次或多次 |
+ |
必须匹配1次或多次 |
{n} |
必须匹配n次 |
{n,} |
必须匹配n次或以上 |
{n,m} |
匹配次数在n到m之间,包括边界 |
通配符和正则表达式比较:
(1). grep简介
grep (global search regular expression(RE) and print out the line,使用正则表达式全面搜索文本并打印匹配的行)是一种强大的文本搜索工具,它能使用正则表达式在一个或多个文件中搜索字符串模式,并把匹配的行打印出来。Unix的grep家族包括grep、egrep和fgrep。egrep和fgrep的命令只跟grep有很小不同。egrep是grep的扩展,支持更多的re元字符,
fgrep就是fixed grep或fast grep,它们把所有的字母都看作单词,也就是说,正则表达式中的元字符表示回其自身的字面意义,不再特殊。linux使用GNU版本的grep。它功能更强,可以通过-E、-F命令行选项来使用egrep和fgrep的功能。
grep的工作方式是这样的,它在一个或多个文件中搜索字符串模板。如果模板包括空格,则模板必须使用引号,模板后的所有字符串被看作文件名。搜索的结果被送到屏幕,不影响原文件内容。
grep可用于shell脚本,因为grep通过返回一个状态值来说明搜索的状态,如果模板搜索成功,则返回0,如果搜索不成功,则返回1,如果搜索的文件不存在,则返回2。我们利用这些返回值就可进行一些自动化的文本处理工作。
用法:
grep [选项]... PATTERN [FILE]...
在每个 FILE 或是标准输入中查找 PATTERN。
默认的 PATTERN 是一个基本正则表达式(缩写为 BRE)。
或:
grep [OPTIONS] PATTERN [FILE...]
grep [OPTIONS] [-e PATTERN | -f FILE] [FILE...]
描述:
grep搜索指定的输入文件(或者标准输入如果没有指定文件或只给出一个连字符减号(-)作为文件名),查找包含与给定模式匹配的行。默认情况下,grep打印匹配的行。
此外,有两个变体程序egrep和fgrep是可用的。egrep和grep -E是一样的。fgrep和grep -F是一样的。不建议直接调用egrep或fgrep,但是提供了这种方法,允许依赖于它们的历史应用程序不加修改地运行。
(2). grep正则表达式元字符集(基本集)
(3). 用于egrep和 grep -E的元字符扩展集
(4). Grep命令选项
[hadoop@client-test ~]$ cat student1.txt
1,付坤,男,26
2,小猪,男,27
3,枫叶,女,28
4,小小,女,29
5,大大,女,30
[hadoop@client-test ~]$ cat student2.txt
6,五天,男,24
7,伯,男,25
8,仲,男,26
9,叔,男,27
10,季,男,30
11,姑,女,25
- [hadoop@client-test ~]$ grep "[0-9]+" student1.txt
[hadoop@client-test ~]$ grep -E "[0-9]+" student1.txt
1,付坤,男,26
2,小猪,男,27
3,枫叶,女,28
4,小小,女,29
5,大大,女,30 [hadoop@client-test ~]$ grep -E "[0-9]{1,}" student1.txt
1,付坤,男,26
2,小猪,男,27
3,枫叶,女,28
4,小小,女,29
5,大大,女,30
- [hadoop@client-test ~]$ grep -G "[0-9]{1,}" student1.txt
[hadoop@client-test ~]$ grep -G "[0-9]\{1,\}" student1.txt
1,付坤,男,26
2,小猪,男,27
3,枫叶,女,28
4,小小,女,29
5,大大,女,30
- [hadoop@client-test ~]$ grep -f "student2.txt" student1.txt
[hadoop@client-test ~]$ grep -f "student1.txt" student1.txt
1,付坤,男,26
2,小猪,男,27
3,枫叶,女,28
4,小小,女,29
5,大大,女,30
[hadoop@client-test ~]$ grep -f student1.txt student1.txt
1,付坤,男,26
2,小猪,男,27
3,枫叶,女,28
4,小小,女,29
5,大大,女,30
- [hadoop@client-test ~]$ grep -v 男 student1.txt
3,枫叶,女,28
4,小小,女,29
5,大大,女,30
- [hadoop@client-test ~]$ grep -w hello <
> hello world
> helloxiaohzu
> Hi and hello
> haha hello ena
> heh helloa
> EOF
hello world
Hi and hello
haha hello ena
[hadoop@client-test ~]$ grep -x hello <
hello world
helloxiaohzu
Hi and hello
hello
EOFhello