正则表达式的字符串表达方法根据不同的严谨程度与功能分为基本正则表达式与扩展正则表达式。
基础正则表达式是常用正则表达式最基础的部分。在 Linux 系统中常见的文件处理工具中 grep 与 sed 支持基础正则表达式,而 egrep 与 awk 支持扩展正则表达式。掌握基础正则表达式的使用方法,首先必须了解基本正则表达式所包含元字符的含义,下面通过grep 命令以举例的方式逐个介绍。
复制一份配置http的文件来,或者自己随便写一个文件来练习
(1)查找特定字符
查找包含the的行
[root@localhost mnt]# grep -nv 'the' httpd.conf
[root@localhost mnt]# grep -nv 'the' httpd.conf
(2)利用中括号“[]”来查找集合字符
想要查找“shirt”与“short”这两个字符串时,可以发现这两个字符串均包含“sh”与“rt”。此时执行以下命令即可同时查找到“shirt”与“short”这两个字符串,其中“[]”中无论有几个字符, 都仅代表一个字符,也就是说“[io]”表示匹配“i”或者“o”。
[root@localhost mnt]# grep -n 'sh[io]rt' test.txt
若要查找包含重复单个字符“oo”时,只需要执行以下命令即可。
[root@localhost mnt]# grep -n 'oo' test.txt
若查找“oo”前面不是“w”的字符串,只需要通过集合字符的反向选择“[^]”来实现该目的。
[root@localhost mnt]# grep -n '[^w]oo' test.txt
若不希望“oo”前面存在小写字母,可以使用“grep -n‘[^a-z]oo’test.txt”命令实现,其中
“a-z”表示小写字母,大写字母则通过“A-Z”表示。
[root@localhost mnt]# grep -n '[^a-z]oo' test.txt
查找包含数字的行可以通过“grep -n‘[0-9]’test.txt”命令来实现。
[root@localhost mnt]# grep -n '[0-9]' httpd.conf
(3)查找以特定字符开头“^”及结尾“$”
查找以the开头的行
[root@localhost mnt]# grep -n '^the' test.txt
[root@localhost mnt]# grep -n '^[^a-zA-Z]' httpd.conf
“^”符号在元字符集合“[]”符号内外的作用是不一样的,在“[]”符号内表示反向选择,在“[]” 符号外则代表定位行首。
查找以.结尾的行,由于小数点也有其含义所以用转义符\
[root@localhost mnt]# grep -n '\.$' httpd.conf
当查询空白行时,执行“grep -n‘^$’test.txt”命令即可。
[root@localhost mnt]# grep -n '^$' httpd.conf
(4)查找任意一个字符“.”与重复字符“*”
正则表达式中小数点(.)也是一个元字符,代表任意一个字符。例如执行以下命令就可以查找“w??d”的字符串,即共有四个字符,以 w 开头 d 结尾。
[root@localhost mnt]# grep -n 'w..d' test.txt
“*”代表的是重复零个或多个前面的单字符。 “o*”表示拥有零个(即为空字符)或大于等于一个“o”的字符,因为允许空字符,所以执行“grep -n ‘o*’ test.txt”命令会将文本中所有的内容都输出打印。如果是“oo*”,则第一个 o 必须存在, 第二个 o 则是零个或多个 o,所以凡是包含 o、oo、ooo、ooo,等的资料都符合标准。同理,若查询包含至少两个 o 以上的字符串,则执行“grep -n ‘ooo*’ test.txt”命令即可。
以下语句表示查找一个及以上个o
[root@localhost mnt]# grep -n 'oo*' test.txt
查询以 w 开头 d 结尾,中间包含至少一个 o 的字符串,执行以下命令即可实现。
[root@localhost mnt]#grep -n 'woo*d' test.txt
执行以下命令即可查询以 w 开头 d 结尾,中间的字符可有可无的字符串。
[root@localhost mnt]# grep -n 'w.*d' httpd.conf
以下命令可实现任意数字所在行
[root@localhost mnt]# grep -n '[0-9][0-9]*' httpd.conf
(5)查询连续字符范围”{}”
在上面的示例中,使用了“.”与“*”来设定零个到无限多个重复的字符,如果想要限制一个范围内的重复的字符串该如何实现呢?例如,查找三到五个 o 的连续字符,这个时候就需要使用基础正则表达式中的限定范围的字符“{}”。因为“{}”在 Shell 中具有特殊意义,所以在使用“{}”字符时,需要利用转义字符“\”,将“{}”字符转换成普通字符。“{}”字符的使用方法如下所示。
1)查询两个o
[root@localhost mnt]# grep -n 'o\{2\}' test.txt
2)查询以 w 开头以 d 结尾,中间包含 2~5 个 o 的字符串。
[root@localhost mnt]# grep -n 'wo\{2,5\}d' test.txt
3)查询以 w 开头以 d 结尾,中间包含 2 个或 2 个以上 o 的字符串。
[root@localhost mnt]# grep -n 'wo\{2,\}d' test.txt
元字符 作用
^ 匹配输入字符串的开始位置。除非在方括号表达式中使用,表示不包含该字符集合。要匹配“^” 字符本身,请使用“\^”
$ 匹配输入字符串的结尾位置。如果设置了RegExp 对象的 Multiline 属性,则“$”也匹配‘\n’或‘\r’。要匹配“$”字符本身,请使用“\$”
. 匹配除“\r\n”之外的任何单个字符
\ 反斜杠,又叫转义字符,去除其后紧跟的元字符或通配符的特殊意义
* 匹配前面的子表达式零次或多次。要匹配“*”字符,请使用“\*”
[] 字符集合。匹配所包含的任意一个字符。例如,“[abc]”可以匹配“plain”中的“a”
[^] 赋值字符集合。匹配未包含的一个任意字符。例如,“[^abc]”可以匹配“plain”中任何一个字母
[n1-n2] 字符范围。匹配指定范围内的任意一个字符。例如,“[a-z]”可以匹配“a”到“z”范围内的任意一个小写字母字符。
注意:只有连字符(-)在字符组内部,并且出现在两个字符之间时,才能表示字符的范围;如果出现在字符组的开头,则只能表示连字符本身
{n} n 是一个非负整数,匹配确定的 n 次。例如,“o{2}”不能匹配“Bob”中的“o”,但是能匹配“food”中的“oo”
{n,} n 是一个非负整数,至少匹配 n 次。例如,“o{2,}”不能匹配“Bob”中的“o”,但能匹配“foooood”中的所有o。“o{1,}”等价于“o+”。“o{0,}”则等价于“o*”
{n,m} m 和 n 均为非负整数,其中 n<=m,最少匹配 n 次且最多匹配m 次
通常情况下会使用基础正则表达式就已经足够了,但有时为了简化整个指令,需要使用 范围更广的扩展正则表达式。
grep 命令仅支持基础正则表达式,如果使用扩展正则表达式,需要使用 egrep 或 awk 命令
(1)查找以w开头d结尾中间有一个或以上的o
+作用:重复一个或者一个以上的前一个字符
[root@localhost mnt]# egrep -n 'wo+d' test.txt
[root@localhost mnt]# egrep -n 'wo?' test.txt
[root@localhost mnt]# egrep -n 'bes?t' test.txt
|作用:使用或者(or)的方式找出多个字符
以下语句可以查找出"of"或者"if"或者"on"字符串
[root@localhost mnt]# egrep -n 'of|is|on' test.txt
[root@localhost mnt]# egrep -nv '^#|^$' httpd.conf
()作用:查找“组”字符串
该命令是查询开头的"T",中间有一个以上的"xyz"字符串的意思
[root@localhost mnt]# egrep -n 'T(xyz)+' test.txt
元字符 作用与示例
+ 作用:重复一个或者一个以上的前一个字符
? 作用:零个或者一个的前一个字符
| 作用:使用或者(or)的方式找出多个字符
() 作用:查找“组”字符串
()+ 作用:辨别多个重复的组
grep,sed,awk 是Shell 编程中经常用到的文本处理工具, 被称之为Shell 编程三剑客。
sed(Stream EDitor)是一个强大而简单的文本解析转换工具,可以读取文本,并根据指定的条件对文本内容进行编辑(删除、替换、添加、移动等),最后输出所有行或者仅输出处理的某些行。
sed 的工作流程主要包括读取、执行和显示三个过程。
在所有的文件内容都被处理完成之前,上述过程将重复执行,直至所有内容被处理完。
注意:默认情况下所有的 sed 命令都是在模式空间内执行的,因此输入的文件并不会发生任何变化,除非是用重定向存储输出。
sed用法
通常情况下调用 sed 命令有两种格式,如下所示。其中,“参数”是指操作的目标文件, 当存在多个操作对象时用,文件之间用逗号“,”分隔;而 scriptfile 表示脚本文件,需要用“-f” 选项指定,当脚本文件出现在目标文件之前时,表示通过指定的脚本文件来处理输入的目标文件。
常见的 sed 命令选项主要包含以下几种:
“操作”用于指定对文件操作的动作行为,也就是 sed 的命令。通常情况下是采用的“[n1[,n2]]”操作参数的格式。n1、n2 是可选的,代表选择进行操作的行数,如操作需要在 5~ 20 行之间进行,则表示为“5,20 动作行为”。常见的操作包括以下几种。
用法示例:
可随意写一个文本来练习
输出所有内容,相当于cat test.txt
[root@localhost mnt]# sed -n 'p' test.txt
[root@localhost mnt]# sed -n '3p' test.txt
[root@localhost mnt]# sed -n '3,5p' test.txt
[root@localhost mnt]# sed -n 'p;n' test01.txt
[root@localhost mnt]# sed -n 'n;p' test01.txt
[root@localhost mnt]# sed -n '2,5{p;n}' test01.txt
需要注意的是,这里所说的奇数行或是偶数行是相对的,如上查找2-5行的奇数行,那么整个文本的第二行就为我们搜索范围内的第一行,也就是奇数行,所以被打印输出
输出第10行到结尾之间的偶数行
[root@localhost mnt]# sed -n '10,${n;p}' test01.txt
以上是 sed 命令的基本用法,sed 命令结合正则表达式时,格式略有不同,正则表达式以“/”包围。
输出包含the的行
[root@localhost mnt]# sed -n '/the/p' test.txt
[root@localhost mnt]# sed -n '4,/the/p' test.txt
[root@localhost mnt]# sed -n '/the/=' test.txt
[root@localhost mnt]# sed -n '/^Tx/p' test.txt
[root@localhost mnt]# sed -n '/[0-9]$/p' httpd.conf
[root@localhost mnt]# sed -n '/\/p' test.txt
nl 命令用于计算文件的行数,结合该命令可以更加直观地查看到命令执行的结果。
删除第3行
[root@localhost mnt]# nl test.txt|sed '3d'
[root@localhost mnt]# nl test.txt|sed '3,5d'
[root@localhost mnt]# nl test.txt|sed '/the/!d' test.txt
[root@localhost mnt]# sed '/^[a-z]/d' test.txt
[root@localhost mnt]# sed '/\.$/d' test.txt
删除空行
[root@localhost mnt]# sed '/^$/d' test.txt
以下命令 删 除 重 复 的 空行 , 即 连 续 的 空 行 只 保 留 一 个 。其效果与“cat -s test.txt”相同,n 表示读下一行数据。
[root@localhost mnt]# sed -e '/^$/{n;/^$/d}' test.txt
在使用 sed 命令进行替换操作时需要用到 s(字符串替换)、c(整行/整块替换)、y(字符转换)命令选项,常见的用法如下所示。
将每行中的第一个the替换成THE
[root@localhost mnt]# sed 's/the/THE/' test.txt
[root@localhost mnt]# sed 's/o/O/2' test.txt
[root@localhost mnt]# sed 's/the/THE/g' test.txt
将文件中所有的o都删除(替换成空串)
[root@localhost mnt]# sed 's/o//g' test.txt
[root@localhost mnt]# sed 's/^/#/' test.txt
[root@localhost mnt]# sed '/the/s/^/#/' test.txt
[root@localhost mnt]# sed 's/$/END/' test.txt
[root@localhost mnt]# nl test.txt |sed '5,6s/the/THE/g' test.txt
将包含the的行所有o替换成O
[root@localhost mnt]# sed '/the/s/o/O/g' test.txt
在使用 sed 命令迁移符合条件的文本时,常用到以下参数.
将包含the的行迁移至文件末尾,{;}用于多个操作,d表示删除原来所在行;我们发现操作完之后会有一行空行,我们再过滤空行就好了
[root@localhost mnt]# sed '/the/{H;d};$G' test.txt
[root@localhost mnt]# sed '1,2{H;d};13G' test.txt
[root@localhost mnt]# sed '/the/w out.file' test.txt
将文件/etc/hostname 的内容添加到包含 the 的每行以后
[root@localhost mnt]# sed '/the/r /etc/hostname' test.txt
[root@localhost mnt]# sed '1aNEW' test.txt
[root@localhost mnt]# sed '/the/aNEW' test.txt
[root@localhost mnt]# sed '3aNEW1\nNEW2' test.txt
使用 sed 脚本将多个编辑指令存放到文件中(每行一条编辑指令),通过“-f”选项来调用。例如执行以下命令即可将第 1~5 行内容转移至第 10 行后。
sed ‘1,5{H;d};10G’ test.txt //将第 1~5 行内容转移至第 10 行后
以上操作可以改用脚本文件方式:
[root@localhost mnt]# vim opt.list
1,5H
1,5d
10G
[root@localhost mnt]# sed -f opt.list test.txt
编写一个脚本,用来调整 tftp服务配置,将disable的yes改成no
[root@localhost xinetd.d]# vim tftp.sh
#!/bin/bash
#
CONFIG="/etc/xinetd.d/tftp" ##配置文件所在位置
[ ! -e "$CONFIG.bak" ]&& cp $CONFIG $CONFIG.bak ###创建备份配置文件
sed -i '/disable/s/yes/no/g' $CONFIG ###修改配置文件
[root@localhost xinetd.d]# bash tftp.sh ##执行脚本后就可以将yes改成no了
在 Linux/UNIX 系统中,awk 是一个功能强大的编辑工具,逐行读取输入文本,并根据指定的匹配模式进行查找,对符合条件的内容进行格式化输出或者过滤处理,可以在无交互的情况下实现相当复杂的文本操作,被广泛应用于 Shell 脚本,完成各种自动化配置任务。
通常情况下 awk 所使用的命令格式如下所示,其中,单引号加上大括号“{}”用于设置对数据进行的处理动作。awk 可以直接处理目标文件,也可以通过“-f”读取脚本对目标文件进行处理。
awk 选项 '模式或条件 {编辑指令}' 文件 1 文件 2 … //过滤并输出文件中符合条件的内容
awk -f 脚本文件 文件 1 文件 2 … //从脚本中调用编辑指令,过滤并输出内容
前面提到 sed 命令常用于一整行的处理,而 awk 比较倾向于将一行分成多个“字段”然后再进行处理,且默认情况下字段的分隔符为空格或 tab 键。awk 执行结果可以通过 print 的功能将字段数据打印显示。在使用 awk 命令的过程中,可以使用逻辑操作符“&&”表示“与”、“||” 表示“或”、“!”表示“非”;还可以进行简单的数学运算,如+、-、*、/、%、^分别表示加、减、乘、除、取余和乘方。在 Linux 系统中/etc/passwd 是一个非常典型的格式化文件,各字段间使用“:”作为分隔符隔开,Linux 系统中的大部分日志文件也是格式化文件,从这些文件中提取相关信息是运维的日常工作内容之一。
若需要查找出/etc/passwd 的用户名、用户 ID、组 ID 等列,执行以下 awk 命令即可。
[root@localhost ~]# awk -F: '{print $1,$3,$4}' /etc/passwd
awk 从输入文件或者标准输入中读入信息,与 sed 一样,信息的读入也是逐行读取的。不同的是 awk 将文本文件中的一行视为一个记录,而将一行中的某一部分(列)作为记录中的一个字段(域)。为了操作这些不同的字段,awk 借用 shell 中类似于位置变量的方法, 用$1、$2、$3…顺序地表示行(记录)中的不同字段。另外 awk 用$0 表示整个行(记录)。不同的字段之间是通过指定的字符分隔。awk 默认的分隔符是空格。awk 允许在命令行中用“-F 分隔符”的形式来指定分隔符。在上述示例中,awk 命令对/etc/passwd 文件的理过程如图
awk 包含几个特殊的内建变量(可直接用)如下所示:
以下操作都是输出全部内容,相当于cat test.txt
[root@localhost mnt]# awk '{print}' test.txt
[root@localhost mnt]# awk '{print $0}' test.txt
输出1-3行的内容
[root@localhost mnt]# print 'NR==1,NR==3{print}' test.txt
[root@localhost mnt]# awk '(NR>=1)&&(NR<=3){print}' test.txt
输出所有奇数行内容
[root@localhost mnt]# awk '(NR%2)==1{print}' test.txt
输出所有偶数行内容
[root@localhost mnt]# awk '(NR%2)==0{print}' test.txt
输出以root开头的行
[root@localhost mnt]# awk '/^root/{print}' /etc/passwd
输出以nologin结尾的行
[root@localhost mnt]# awk '/nologin$/{print}' /etc/passwd
统计以/bin/bash 结尾的行数,等同于 grep -c “/bin/bash$” /etc/passwd
[root@localhost mnt]# awk 'BEGIN {x=0};/\/bin\/bash$/{x++};END {print x}' /etc/passwd
[root@localhost mnt]# grep "bash$" /etc/passwd |wc -l
[root@localhost mnt]# grep -c "/bin/bash$" /etc/passwd
[root@localhost mnt]# awk 'BEGIN{RS=""};END{print NR}' test.txt
4
[root@localhost mnt]#
输出每行中(以空格或制表位分隔)的第 3 个字段
[root@localhost mnt]# awk '{print $3}' test.txt
输出每行中(以空格或制表位分隔)的第 1,3 个字段
[root@localhost mnt]# awk '{print $1,$3}' test.txt
输出密码为空的用户shadow记录
[root@localhost mnt]# awk -F: '$2==""{print}' /etc/shadow
[root@localhost mnt]# awk 'BEGIN{FS=":"};$2==""{print}' /etc/shadow
输出以冒号分隔且第 7 个字段中包含/bash 的行的第 1 个字段
[root@localhost mnt]# awk -F: '$7~"/bash"{print $1}' /etc/passwd
输出以:分隔共有7个字段且第1个字段包含root的行的第3和7字段信息
[root@localhost mnt]# awk -F: '($1~"root")&&(NF==7){print $1,$7}' /etc/passwd
输出以:分隔第7个字段不为/bin/bash也不为/sbin/nologin的行
[root@localhost mnt]# awk -F: '($7!="/bin/bash")&&($7!="/sbin/nologin"){print}' /etc/passwd
调用wc -l 命令统计使用 bash 的用户个数,等同于 grep -c “bash$” /etc/passwd
[root@localhost mnt]# awk -F: '/bash$/{print |"wc -l"}' /etc/passwd
[root@localhost mnt]# grep -c "/bash$" /etc/passwd
调用w 命令,并用来统计在线用户数,因为使用w命令时输出的结果头两行我们是可以不用统计行数,所以需要减2
[root@localhost mnt]# awk 'BEGIN{while ("w"|getline)n++;{print n-2}}'
调用hostname,并输出当前的主机名
[root@localhost mnt]# awk 'BEGIN {"hostname" | getline ; print $0}'
在 Linux 系统中,常用的文件排序工具有三种:sort、uniq、wc 。介绍前两种工具的用法。
sort 是一个以行为单位对文件内容进行排序的工具,也可以根据不同的数据类型来排序。例如数据和字符的排序就不一样。sort 命令的语法为“sort [选项] 参数”,其中常用的选项包括以下几种。
账号记录会被按首字母顺序排列
[root@localhost mnt]# sort /etc/passwd
[root@localhost mnt]# sort -t: -rk 3 /etc/passwd
[root@localhost mnt]# sort -t: -k 3 /etc/passwd -o user.txt
Uniq 工具在 Linux 系统中通常与 sort 命令结合使用,用于报告或者忽略文件中的重复行。具体的命令语法格式为:uniq [选项] 参数。其中常用选项包括以下几种。
[root@localhost mnt]# uniq test03.txt
1
2
3
4
5
6
[root@localhost mnt]# uniq -c test03.txt
2 1
2 2
3 3
1 4
1 5
1 6
[root@localhost mnt]# uniq -d test03.txt
1
2
3
tr 命令常用来对来自标准输入的字符进行替换、压缩和删除。可以将一组字符替换之后变成另一组字符,经常用来编写优美的单行命令,作用很强大。
tr 具体的命令语法格式为:
[root@localhost mnt]# echo "BAIDU" |tr 'A-Z' 'a-z'
baidu
[root@localhost mnt]# echo "iii couldd never to gooo to anywhere.." |tr -s 'ido.'
i could never to go to anywhere.
[root@localhost mnt]# echo "hi man" |tr -d 'hn'
i ma
[root@localhost mnt]#
有点多