Shell 正则表达式详解

Shell 正则表达式

什么是正则表达式?

正则表达式在每种语言中都会有,功能就是匹配符合你预期要求的字符串。

为什么要学正则表达式?

在企业工作中,我们每天做的linux运维工作中,时刻都会面对大量带有字符串的文本配置、程序、命令输出及日志文件等,而我们经常会有迫切的需要,从大量的字符串内容中查找符合工作需要的特定的字符串。这就要靠正则表达式。因此,可以说正则表达式就是为过滤字符的需求而生的!
例如:ifconfig的输出取IP,例如:cat /var/log/messages输出等

两个注意事项:

  1. 正则表达式应用非常广泛,存在于各种语言中,例如:php、python、java等。但是我们今天讲的linux系统运维工作中的正则表达式,即linux正则表达式,最常用正则表达式的命令就是grep(egrep)、sed、awk,换句话说linux四剑客剑客要想工作的各高效,那一定离不开正则表达式配合的。
  2. 正则表达式和我们常用的通配符特殊字符是用本质去别的,这一点要注意。通配符例子:ls .log**这里的就是通配符(表示所有),不是正则表达式

Shell 正则表达式分为两种:

  • 基础正则表达式:BRE(basic regular express)
  • 扩展正则表达式:ERE(extend regular express),扩展的表达式有+、?、|和()

下面是一些常用的正则表达式符号

正则表达式 描述
\ 转义符,将特殊字符进行转义,忽略其特殊意义
^ 匹配行首,awk中,^则是匹配字符串的开始
$ 匹配行尾,awk中,$则是匹配字符串的结尾
. 匹配除换行符\n之外的任意单个字符,awk则中可以
[] 匹配包含在[字符]之中的任意一个字符
[^ ] 匹配[^字符]之外的任意一个字符
[1] 匹配不是中括号内任意一个字符开头的行
[ - ] 匹配[]中指定范围内的任意一个字符,要写成递增
? 匹配之前的项1次或者0次
+ 匹配之前的项1次或者多次
* 匹配之前的项0次或者多次
() 匹配表达式,创建一个用于匹配的子串
{ n } 匹配之前的项n次,n是可以为0的正整数
{n,} 之前的项至少需要匹配n次
{n,m} 指定之前的项至少匹配n次,最多匹配m次,n<=m
| 交替匹配|两边的任意一项
< 边界符,匹配字符串开始
> 边界符,匹配字符串结束

基本正则表达式实践

接下来的测试文本如下:

[root@localhost ~]# cat test.log 
%anaconda
pwpolicy root --minlen=6 --minquality=1 --notstrict --nochanges –notempty
pwpolicy user --minlen=6 --minquality=1 --notstrict --nochanges –emptyok
pwpolicy luks --minlen=6 --minquality=1 --notstrict --nochanges --notempty

%end...
=========================

以下实践通过grep 命令增加正则表达式进行匹配练习

  1. ^(尖角号)功能实践
# 匹配首字母为%的行
[root@localhost ~]#  grep -n "^%" test.log 
# -n 参数是显示匹配到的行号。

  1. $(美元符)功能实践
#匹配结尾字符为y的所在行
[root@localhost ~]# grep -n "y$" test.log 

  1. ^$ 功能实践
#匹配所有的空行进行显示
[root@localhost ~]# grep -n "^$" test.log 


  1. (点)功能实践
#匹配任意单个字符进行显示(排除空行)
[root@localhost ~]# grep -n "." test.log 

  1. \(转义符)功能实践

#将特殊字符进行转义,忽略其特殊意义

  1. *(星号)功能实践

#匹配任意的项0次或者多次

  1. .*组合符功能实践

.* 组合在一起使用可以匹配任意字符串

#匹配任意以o开头的行

  1. [](中括号)功能实践

#匹配到任意包含a-z 字母的字符

  1. [^abc](中括号内取反符)功能实践

#匹配取反字符,将^放在括号内代表取反的意思

扩展正则表达式实践

  1. +(加号)功能实践

#匹配之前+号之前的字符1次或者多次

  1. ?(问号)功能实践

#匹配之前?号之前的字符1次或者0次

  1. |(竖线)功能实践

#竖线匹配可以进行多个值的选定

  1. () 功能实践

要求:取出包含good或glad的行

#后向引用,后项引用主要用作于匹配分组调换顺序的时候进行使用,\1 表示调用前面第一个括号里面的内容,\2 代表调用第2个括号里面的内容,最多能引用九个括号,也就是说支持从 \1 - \9。

  1. {n,m}匹配次数功能实践

#单独使用一个大括号,可以引用前面的字符一次到多次

  1. \< \>边界符锚定

#边界符可以用固定字符的匹配

\<:其后面的字符必须作为单词的首部出现

\>:其前的字符必须作为单词的尾部出现

\

在Shell下使用这些正则表达式处理文本最多的命令有下面几个工具:

命令 描述
grep 默认不支持扩展表达式,加-E选项开启ERE。如果不加-E使用花括号要加转义符{}
egrep 支持基础和扩展表达式
awk 支持egrep所有的正则表达式
sed 默认不支持扩展表达式,加-r选项开启ERE。如果不加-r使用花括号要加转义符{}

  1. ^ ↩︎

你可能感兴趣的:(Shell 正则表达式详解)