正则表达式又称正规表达式、常规表达式。在代码中常简写为 regex、regexp 或 RE。正则表达式是使用单个字符串来描述、匹配一系列符合某个句法规则的字符串,简单来说, 是一种匹配字符串的方法,通过一些特殊符号,实现快速查找、删除、替换某个特定字符串。
正则表达式是由普通字符与元字符组成的文字模式。模式用于描述在搜索文本时要匹 配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进 行匹配。其中普通字符包括大小写字母、数字、标点符号及一些其他符号,元字符则是指 那些在正则表达式中具有特殊意义的专用字符,可以用来规定其前导字符(即位于元字符 前面的字符)在目标对象中的出现模式。
正则表达式一般用于脚本编程与文本编辑器中。很多文本处理器与程序设计语言均支持正则表达式,例如 Linux 系统中常见的文本处理器(grep、egrep、sed、awk)以及应用比较广泛的 Python 语言。正则表达式具备很强大的文本匹配功能,能够在文本海洋中快速高效地处理文本。
常见的就是邮件服务器。在 Internet 中,垃圾/广告邮件经常会造成网络塞车,如果在服务器端就将这些问题邮件提前剔除的话,客户端就会 减少很多不必要的带宽消耗。而目前常用的邮件服务器 postfix 以及支持邮件服务器的相关分析软件都支持正则表达式的对比功能。将来信的标题、内容与特殊字符串进行对比,发现 问题邮件就过滤掉。
除邮件服务器之外,很多服务器软件都支持正则表达式。虽然这些软件都支持正则表达 式,不过字符串的对比规则还需要系统管理员来添加,因此正则表达式是系统管理员必须掌 握的技能之一。
shell 脚本
选项
-i 或 --ignore-case : 忽略字符大小写的差别。
-n 或 --line-number : 在显示符合样式的那一行之前,标示出该行的列数编号。
-v 或 --revert-match : 显示不包含匹配文本的所有行。过滤、反向查找
-a 或 --text : 不要忽略二进制的数据。
查找特定字符非常简单,如执行以下命令即可从 test.txt 文件中查找出特定字符“the”所在位置。其中“-n”表示显示行号、“-i”表示不区分大小写。命令执行后,符合匹配标准的字符, 字体颜色会变为红色(本章中全部通过加粗显示代替)。
[root@localhost ~]# grep -n 'the' test.txt
若反向选择,如查找不包含“the”字符的行,则需要通过 grep 命令的“-v”选项实现,并配合“-n”一起使用显示行号。
[root@localhost ~]# grep -vn 'the' test.txt
想要查找“shirt”与“short”这两个字符串时,可以发现这两个字符串均包含“sh”与“rt”。此时执行以下命令即可同时查找到“shirt”与“short”这两个字符串,其中“[]”中无论有几个字符, 都仅代表一个字符,也就是说“[io]”表示匹配“i”或者“o”。
[root@localhost ~]# grep -n 'sh[io]rt' test.txt
1:he was short and fat.
2:He was wearing a blue polo shirt with black pants.
若要查找包含重复单个字符“oo”时,只需要执行以下命令即可。
[root@localhost ~]# grep -n 'oo' test.txt 3:The home of Football on BBC Sport online. 5:google is the best tools for search keyword. 8:a wood cross!
11:#woood # 12:#woooooood #
14:I bet this place is really spooky late at night!
[root@localhost ~]# grep -n '[^w]oo' test.txt 3:The home of Football on BBC Sport online. 5:google is the best tools for search keyword. 11:#woood #
12:#woooooood #
14:I bet this place is really spooky late at night!
在上述命令的执行结果中发现“woood”与“wooooood”也符合匹配规则,二者均包含“w”。其实通过执行结果就可以看出,符合匹配标准的字符加粗显示,而上述结果中可以得知, “#woood #”中加粗显示的是“ooo”,而“oo”前面的“o”是符合匹配规则的。同理“#woooooood #”也符合匹配规则。
[root@localhost ~]# grep -n '[^a-z]oo' test.txt
3:The home of Football on BBC Sport online.
查找包含数字的行可以通过“grep -n‘[0-9]’test.txt”命令来实现。
[root@localhost ~]# grep -n '[0-9]' test.txt
4:the tongue is boneless but it breaks bones.12! 7:PI=3.141592653589793238462643383249901429
找行首“^”与行尾字符“$”
[root@localhost ~]# grep -n '^the' test.txt
查询以小写字母开头的行可以通过“^[a-z]”规则来过滤,查询大写字母开头的行则使用
“^[A-Z]”规则,若查询不以字母开头的行则使用“^[^a-zA-Z]”规则。
[root@localhost ~]# grep -n '^[a-z]' test.txt
[root@localhost ~]# grep -n '^[^a-zA-Z]' test.txt
“^”符号在元字符集合“[]”符号内外的作用是不一样的,在“[]”符号内表示反向选择,在“[]” 符号外则代表定位行首。反之,若想查找以某一特定字符结尾的行则可以使用“$”定位符。例如,执行以下命令即可实现查询以小数点(.)结尾的行。因为小数点(.)在正则表达式中也是一个元字符(后面会讲到),所以在这里需要用转义字符“\”将具有特殊意义的字符转化成普通字符。
[root@localhost ~]# grep -n '\.$' test.txt
大括号之前需要添加转义符 “ \ ”
①查找连续两个o的字符
② 查询以 w 开头以 d 结尾,中间包含 2~5 个 o 的字符串。
③ 查询以 w 开头以 d 结尾,中间包含 2 个或 2 个以上 o 的字符串。
^ 匹配输入字符串的开始位置。除非在方括号表达式中使用,表示不包含该字符集合。要匹配“^” 字符本身,请使用“\^”
$ 匹配输入字符串的结尾位置。如果设置了RegExp 对象的 Multiline 属性,则“$”也匹配‘\n’或‘\r’。要匹配“$”字符本身,请使用“\$”
. 匹配除“\r\n”之外的任何单个字符
\ 反斜杠,又叫转义字符,去除其后紧跟的元字符或通配符的特殊意义
* 匹配前面的子表达式零次或多次。要匹配“*”字符,请使用“\*”
[] 字符集合。匹配所包含的任意一个字符。例如,“[abc]”可以匹配“plain”中的“a”
[^] 赋值字符集合。匹配未包含的一个任意字符。例如,“[^abc]”可以匹配“plain”中任何一个字母
[n1-n2] 字符范围。匹配指定范围内的任意一个字符。例如,“[a-z]”可以匹配“a”到“z”范围内的任意一个小写字母字符。
注意:只有连字符(-)在字符组内部,并且出现在两个字符之间时,才能表示字符的范围;如果出现在字符组的开头,则只能表示连字符本身
{n} n 是一个非负整数,匹配确定的 n 次。例如,“o{2}”不能匹配“Bob”中的“o”,但是能匹配“food”中的“oo”
{n,} n 是一个非负整数,至少匹配 n 次。例如,“o{2,}”不能匹配“Bob”中的“o”,但能匹配“foooood”中的所有o。“o{1,}”等价于“o+”。“o{0,}”则等价于“o*”
{n,m} m 和 n 均为非负整数,其中 n<=m,最少匹配 n 次且最多匹配m 次
+ 作用:重复一个或者一个以上的前一个字符
示例:执行“egrep -n ‘wo+d’ test.txt”命令,即可查询"wood" “woood” "woooooood"等字符串
? 作用:零个或者一个的前一个字符
示例:执行“egrep -n ‘bes?t’ test.txt”命令,即可查询“bet”“best”这两个字符串
| 作用:使用或者(or)的方式找出多个字符
示例:执行“egrep -n ‘of|is|on’ test.txt”命令即可查询"of"或者"if"或者"on"字符串
() 作用:查找“组”字符串
示例:“egrep -n ‘t(a|e)st’ test.txt”。“tast”与“test”因为这两个单词的“t”与“st”是重复的,所以将“a”与“e”
列于“()”符号当中,并以“|”分隔,即可查询"tast"或者"test"字符串
()+ 作用:辨别多个重复的组
示例:“egrep -n ‘A(xyz)+C’ test.txt”。该命令是查询开头的"A"结尾是"C",中间有一个以上的"xyz"字符串的意思
sed(Stream EDitor)是一个强大而简单的文本解析转换工具,可以读取文本,并根据指定的条件对文本内容进行编辑(删除、替换、添加、移动等),最后输出所有行或者仅输出处理的某些行。sed 也可以在无交互的情况下实现相当复杂的文本处理操作,被广泛应用于 Shell 脚本中,用以完成各种自动化处理任务。
sed 的工作流程主要包括读取、执行和显示三个过程。
读取:sed 从输入流(文件、管道、标准输入)中读取一行内容并存储到临时的缓冲区中(又称模式空间,pattern space)。
执行:默认情况下,所有的 sed 命令都在模式空间中顺序地执行,除非指定了行的地址,否则 sed 命令将会在所有的行上依次执行。
显示:发送修改后的内容到输出流。在发送数据后,模式空间将会被清空。
在所有的文件内容都被处理完成之前,上述过程将重复执行,直至所有内容被处理完。
模式空间下的操作只是预览的并没有对配置文件修改。之前需要备份配置文件然后确定之后,用sed -i 对配置文件进行修改
注意:默认情况下所有的 sed 命令都是在模式空间内执行的,因此输入的文件并不会发生任何变化,除非是用重定向存储输出。
sed [选项] ‘操作’ 参数
sed [选项] -f scriptfile 参数
常见的 sed 命令选项主要包含以下几种。
-e 或–expression=:表示用指定命令或者脚本来处理输入的文本文件。
-f 或–file=:表示用指定的脚本文件来处理输入的文本文件。
-h 或–help:显示帮助。
-n、–quiet 或 silent:表示仅显示处理后的结果。
-i:直接编辑文本文件。
“操作”用于指定对文件操作的动作行为,也就是 sed 的命令。通常情况下是采用的“[n1[,n2]]”操作参数的格式。n1、n2 是可选的,代表选择进行操作的行数,如操作需要在 5~ 20 行之间进行,则表示为“5,20 动作行为”。常见的操作包括以下几种。
a:增加,在当前行下面增加一行指定内容。
c:替换,将选定行替换为指定内容。
d:删除,删除选定的行。
i:插入,在选定行上面插入一行指定内容。
p:打印,如果同时指定行,表示打印指定行;如果不指定行,则表示打印所有内容;如果有非打印字符,则以 ASCII 码输出。其通常与“-n”选项一起使用。
s:替换,替换指定字符。
y:字符转换。
sed 文本解析转化工具,可以读取文本,并根据
sed -i 覆盖原始的配置文件
cp -p (保留原始权限)
备份原始配置文件
[root@promote opt]# sed -n ‘2,10{p;n}’ test.txt //输出2-10行的奇数行(P先输出然后n换行)
2
4
6
8
10
[root@promote opt]# sed -n ‘2,10{n;p}’ test.txt //输出2-10行的偶数行,这里的偶数行是相对的2-10 的偶数行 (n是下一行,p是输出,先是下一行然后输出)
3
5
7
9
11
[root@promote opt]# cat test.txt
1
2
3
4
5
6
7
8
9
10
11
12
[root@promote opt]#
[root@promote opt]# sed -n ‘2,$p’ test.txt //输出第2行到最后一行
2
3
4
5
6
7
8
9
10
11
12
[root@promote opt]# sed -n ‘2,10{n;p}’ test.txt //这里输出11是指,先是n下一跳,然后p输出
3
5
7
9
11
[root@promote opt]#
[root@promote opt]# sed -n ‘4,/the/p’ test.txt //输出从第四行查到的一个the 的行输出
4
5
6
7
8
9
10
11
the
输出文件中the字符的行数
[root@promote opt]# sed -n '/the/= ’ test.txt
18
20
22
24
输出以数字结尾的行
[root@promote opt]# sed -n ‘/[0-9]$/p’ test.txt
1
2
3
12
78
90
输出包含单词wod的行
[root@promote opt]# sed -n ‘/
wod
下面命令中 nl 命令用于计算文件的行数,结合该命令可以更加直观地查看到命令执行的结果。
删除第三行,并且显示行数
[root@promote opt]# nl test.txt | sed '3d'
1 1
2 2
4 d
5 z
6 g
7 x
8 v
9 this is Hood
10 Hd
11 Hood
12 Hoood
13 Hod
14 Hooooood
15 Hod
16 Hwooood
17 Hod
18 the
19 12
20 the
21 78
22 the fHpejn
23 90
24 theetgae
25 o
26 Hooooooooooood
27 Hooooooooooooooooood
28 test
29 tast
30 iwod
31 wod
32 wood
33 woood
删除3-5行并且显示行数
[root@promote opt]# nl test.txt | sed '3,5d'
1 1
2 2
6 g
7 x
8 v
9 this is Hood
删除包含cross单词的行并且显示行数
[root@promote opt]# nl test.txt | sed '/cross/d'
1 this is Hood
2 Hd
3 Hood
4 Hoood
5 Hooooood
6 Hod
8 the
9 the
11 the fHpejn
12 theetgae
13 o
14 Hooooooooooood
**删除没有cross单词的行并且显示行数**
[root@promote opt]# nl test.txt | sed '/cross/!d'
7 cross
10 cross
18 cross
23 cross
**删除以小写字母开头的行**
[root@localhost ~]# sed '/^[a-z]/d' test.txt //删除以小写字母开头的行He was wearing a blue polo shirt with black pants.
The home of Football on BBC Sport online.
#woood # #woooooood # AxyzxyzxyzxyzC
I bet this place is really spooky late at night! Misfortunes
//删除以"."结尾的行
[root@localhost ~]# sed '/\.$/d' test.txt //删除以"."结尾的行the tongue is boneless but it breaks bones.12!
PI=3.141592653589793238462643383249901429
a wood cross!
Actions speak louder than words
#woood # #woooooood # AxyzxyzxyzxyzC
I bet this place is really spooky late at night!
//删除所有空行he was
[root@localhost ~]# sed '/^$/d' test.txt //删除所有空行he was short and fat.
注 意 : 若 是 删 除 重 复 的 空行 , 即 连 续 的 空 行 只 保 留 一 个 , 执 行“sed
-e‘/^KaTeX parse error: Expected group after '^' at position 6: /{n;/^̲/d}’test.txt”命令即可实现。其效果与“cat -s test.txt”相同,n 表示读下一行数据。
在使用 sed 命令进行替换操作时需要用到 s(字符串替换)、c(整行/整块替换)、y(字符转换)
sed 's/the/THE/' test.txt //将每行中的第一个the 替换为 THE
sed 's/l/L/2' test.txt //将每行中的第 2 个 l 替换为 L
sed 's/the/THE/g' test.txt //将文件中的所有the 替换为 THE
sed 's/o//g' test.txt //将文件中的所有o 删除(替换为空串)
sed 's/^/#/' test.txt //在每行行首插入#号
sed '/the/s/^/#/' test.txt //在包含the 的每行行首插入#号
sed 's/$/EOF/' test.txt //在每行行尾插入字符串EOF
sed '3,5s/the/THE/g' test.txt //将第 3~5 行中的所有 the 替换为 THE
sed '/the/s/o/O/g' test.txt //将包含the 的所有行中的 o 都替换为 O
H:复制到剪贴板;
g、G:将剪贴板中的数据覆盖/追加至指定行;
w:保存为文件;
r:读取指定文件;
a:追加指定内容。
sed '/the/{H;d};$G' test.txt //将包含the 的行迁移至文件末尾,{;}用于多个操作
sed '1,5{H;d};17G' test.txt //将第 1~5 行内容转移至第 17 行后
sed '/the/w out.file' test.txt //将包含the 的行另存为文件 out.file
sed '/the/r /etc/hostname' test.txt //将文件/etc/hostname 的内容添加到包含 the 的每行以后
sed '3aNew' test.txt //在第 3 行后插入一个新行,内容为New
sed '/the/aNew' test.txt //在包含the 的每行后插入一个新行,内容为 New
sed '3aNew1\nNew2' test.txt //在第 3 行后插入多行内容,中间的\n 表示换行
使用 sed 脚本将多个编辑指令存放到文件中(每行一条编辑指令),通过“-f”选项来调用。例如执行以下命令即可将第 1~5 行内容转移至第 17 行后。
sed ‘1,5{H;d};17G’ test.txt //将第 1~5 行内容转移至第 17 行后
[root@localhost ~]# vi opt.list
1,5H
1,5d
17G
[root@localhost ~]# sed -f opt.list test.txt
编写一个脚本,用来调整 vsftpd 服务配置,要求禁止匿名用户,但允许本地用户(也允许写入)。
[root@localhost ~]# vim local_only_ftp.sh
#!/bin/bash
# 指定样本文件路径、配置文件路径
SAMPLE="/usr/share/doc/vsftpd-3.0.2/EXAMPLE/INTERNET_SITE/vsftpd.conf "
CONFIG="/etc/vsftpd/vsftpd.conf"
# 备份原来的配置文件,检测文件名为/etc/vsftpd/vsftpd.conf.bak 备份文件是否存在, 若不存在则使用 cp 命令进行文件备份
[ ! -e "$CONFIG.bak" ] && cp $CONFIG $CONFIG.bak # 基于样本配置进行调整,覆盖现有文件
sed -e '/^anonymous_enable/s/YES/NO/g' $SAMPLE > $CONFIG
sed -i -e '/^local_enable/s/NO/YES/g' -e '/^write_enable/s/NO/YES/g' $CONFIG
grep "listen" $CONFIG || sed -i '$alisten=YES' $CONFIG
# 启动vsftpd 服务,并设为开机后自动运行
systemctl restart vsftpd systemctl enable vsftpd
[root@localhost ~]# chmod +x local_only_ftp.sh
在 Linux/UNIX 系统中,awk 是一个功能强大的编辑工具,逐行读取输入文本,
并根据指定的匹配模式进行查找,对符合条件的内容进行格式化输出或者过滤
处理,可以在无交互的情况下实现相当复杂的文本操作,被广泛应用于 Shell 脚
本,完成各种自动化配置任务。
AWK一般是以空格为分隔符,但是可以使用FS 来定义分隔符进行筛选
awk 选项 ‘模式或条件 {编辑指令}’ 文件 1 文件 2 … //过滤并输出文件中符合条件的内容
awk -f 脚本文件 文件 1 文件 2 … //从脚本中调用编辑指令,过滤并输出内容
awk 包含几个特殊的内建变量(可直接用)如下所示:
(1)按行输出文本
awk '{print}' test.txt //输出所有内容,等同于 cat test.txt
awk '{print $0}' test.txt //输出所有内容,等同于 cat test.txt
awk 'NR==1,NR==3{print}' test.txt //输出第 1~3 行内容
awk '(NR>=1)&&(NR<=3){print}' test.txt //输出第 1~3 行内容
awk 'NR==1||NR==3{print}' test.txt //输出第 1 行、第 3 行内容
awk '(NR%2)==1{print}' test.txt //输出所有奇数行的内容
awk '(NR%2)==0{print}' test.txt //输出所有偶数行的内容
awk '/^root/{print}' /etc/passwd //输出以root 开头的行awk
awk '/nologin$/{print}' /etc/passwd //输出以 nologin 结尾的行
awk 'BEGIN {x=0};/\/bin\/bash$/{x++};END {print x}' /etc/passwd
//统计以/bin/bash 结尾的行数,等同于 grep -c "/bin/bash$" /etc/passwd
awk 'BEGIN{RS=""};END{print NR}' /etc/squid/squid.conf
//统计以空行分隔的文本段落数
(2)按字段输出文本
awk '{print $3}' test.txt //输出每行中(以空格或制表位分隔)的第 3 个字段
awk '{print $1,$3}' test.txt //输出每行中的第 1、3 个字段
awk -F ":" '$2==""{print}' /etc/shadow //输出密码为空的用户的shadow 记录
awk 'BEGIN {FS=":"}; $2==""{print}' /etc/shadow
//输出密码为空的用户的shadow 记录
awk -F ":" '$7~"/bash"{print $1}' /etc/passwd
//输出以冒号分隔且第 7 个字段中包含/bash 的行的第 1 个字段
awk '($1~"nfs")&&(NF==8){print $1,$2}' /etc/services
//输出包含 8 个字段且第 1 个字段中包含 nfs 的行的第 1、2 个字段
awk -F ":" '($7!="/bin/bash")&&($7!="/sbin/nologin"){print}' /etc/passwd
//输出第 7 个字段既不为/bin/bash 也不为/sbin/nologin 的所有行
(3)通过管道、双引号调用 Shell 命令
awk -F: '/bash$/{print | "wc -l"}' /etc/passwd
//调用wc -l 命令统计使用 bash 的用户个数,等同于 grep -c "bash$" /etc/passwd
awk 'BEGIN {while ("w" | getline) n++ ; {print n-2}}'
//调用w 命令,并用来统计在线用户数
awk 'BEGIN { "hostname" | getline ; print $0}'
//调用hostname,并输出当前的主机名
sort 是一个以行为单位对文件内容进行排序的工具,也可以根据不同的数据类型来排序。例如数据和字符的排序就不一样。sort 命令的语法为“sort [选项] 参数”,其中常用的选项包括以下几种。
案例
******************************************************************
示例 1:将/etc/passwd 文件中的账号进行排序。
[root@localhost ~]# sort /etc/passwd
******************************************************************
示例 2:将/etc/passwd 文件中第三列进行反向排序。
[root@localhost ~]# sort -t ':' -rk 3 /etc/passwd
nobody:x:99:99:Nobody:/:/sbin/nologin postfix:x:89:89::/var/spool/postfix:/sbin/nologin dbus:x:81:81:System message bus:/:/sbin/nologin mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
******************************************************************
示例 3:将/etc/passwd 文件中第三列进行排序,并将输出内容保存至 user.txt 文件中。
[root@localhost ~]# sort -t ':' -k 3 /etc/passwd -o user.txt
[root@localhost ~]# cat user.txt
Uniq 工具在 Linux 系统中通常与 sort 命令结合使用,用于报告或者忽略文件中
的重复行。具体的命令语法格式为:uniq [选项] 参数。其中常用选项包括以下
几种。
******************************************************************
示例 1:删除 testfile 文件中的重复行。
[root@localhost ~]# cat testfile
Linux 10
Linux 20
Linux 30
Linux 30
Linux 30
CentOS 6.5
CentOS 6.5
CentOS 6.5
CentOS 7.3
CentOS 7.3
CentOS 7.3
[root@localhost ~]# uniq testfile
Linux 10
Linux 20
Linux 30
CentOS 6.5
CentOS 7.3
******************************************************************
示例 2:删除 testfile 文件中的重复行,并在行首显示该行重复出现的次数。
[root@localhost ~]# uniq -c testfile
1 Linux 10
1 Linux 20
3 Linux 30
3 CentOS 6.5
3 CentOS 7.3
******************************************************************
示例 3:查找 testfile 文件中的重复行。
[root@localhost ~]# uniq -d testfile
Linux 30
CentOS 6.5
CentOS 7.3
tr 命令常用来对来自标准输入的字符进行替换、压缩和删除。可以将一组字符
替换之后变成另一组字符,经常用来编写优美的单行命令,作用很强大。
tr 具体的命令语法格式为:
tr [选项] [参数]
其常用选项包括以下内容。
示例 1:将输入字符由大写转换为小写。
[root@localhost ~]# echo "KGC" | tr 'A-Z' 'a-z'
kgc
示例 2:压缩输入中重复的字符。
[root@localhost ~]# echo "thissss is a text linnnnnnne." | tr -s 'sn'
this is a text line.
示例 3:删除字符串中某些字符。
[root@localhost ~]# echo 'hello world' | tr -d 'od'
hell wrl