note_6.3_grep命令与基本正则表达式

文本处理工具

Linux上文本处理三剑客：
grep,egrep, fgrep:文本过滤工具（模式：pattern）工具
grep：基本正则表达式，-E，-F
egrep：扩展正则表达式， -G，-F
fgrep：不支持正则表达式，
sed:stream editor，流编辑器，文本编辑器
awk:Linux上实现为gawk，文本报告生成器（格式化文本）

正则表达式：Regular Expression，REGEXP
由一类特殊字符及文本字符所编写的模式，其中有些字符不表示其字面意义，而是用于表示控制或通配的功能；
分两类：
基本正则表达式：BRE
扩展正则表达式：ERE
元字符：(hello[[:space:]]+)+

grep

Global search REgular expression and Print out the line.

[root@localhost ~]# grep 'UUID' /etc/fstab 
UUID=6e0c483a-767f-4836-9722-4ee11ad0e354 /boot                   xfs     defaults        0 0

作用：文本搜索工具，根据用户指定的“模式（过滤条件）”对目标文本逐行进行匹配检查；打印匹配到的行；
模式：由正则表达式的元字符及文本字符所编写出的过滤条件；

NAME
       grep, egrep, fgrep - print lines matching a pattern

SYNOPSIS
       grep [OPTIONS] PATTERN [FILE...]
       grep [OPTIONS] [-e PATTERN | -f FILE] [FILE...]

OPTION:
--color=auto：对匹配到的文本着色后高亮显示；
-i：ignorecase，忽略字符的大小写；
-o：仅显示匹配到的字符串本身；
-v, --invert-match：显示不能被模式匹配到的行；
-E：支持使用扩展的正则表达式元字符；
-q, --quiet, --silent：静默模式，即不输出任何信息；

-A #：after, 后#行
-B #：before，前#行
-C #：context，前后各#行

基本正则表达式

字符匹配：

. ：匹配任意单个字符
[] ：匹配指定范围内单个字符
upper lower alpha digit space alnum punct
[^]：匹配范围外的单个字符

匹配次数：用在要指定其出现的次数的字符的后面，用于限制其前面字符出现的次数；默认工作于贪婪模式；

* ：匹配其前面的字符任意次；0,1,多次；
.*：匹配任意长度的任意字符
\?：匹配其前面的字符0次或1次；即其前面的字符是可有可无的；
\+：匹配其前面的字符1次或多次；即其面的字符要出现至少1次；
\{m\}：匹配其前面的字符m次；
\{m,n\}：匹配其前面的字符至少m次，至多n次；

位置锚定：

^：行首锚定；用于模式的最左侧；
$：行尾锚定；用于模式的最右侧；
^PATTERN$：用于PATTERN来匹配整行；
^$：空白行；
^[[:space:]]*$：空行或包含空白字符的行；

单词：非特殊字符组成的连续字符（字符串）都称为单词；

\< 或 \b：词首锚定，用于单词模式的左侧；
\> 或 \b：词尾锚定，用于单词模式的右侧；
\：匹配完整单词；

\w:数字字母下划线
\s:空白字符
\S:非空白字符

练习：

1、显示/etc/passwd文件中不以/bin/bash结尾的行；

[root@localhost ~]# grep -v '/bin/bash\>' /etc/passwd
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin
nobody:x:99:99:Nobody:/:/sbin/nologin
systemd-network:x:192:192:systemd Network Management:/:/sbin/nologin
dbus:x:81:81:System message bus:/:/sbin/nologin
polkitd:x:999:998:User for polkitd:/:/sbin/nologin
sshd:x:74:74:Privilege-separated SSH:/var/empty/sshd:/sbin/nologin
postfix:x:89:89::/var/spool/postfix:/sbin/nologin
chrony:x:998:996::/var/lib/chrony:/sbin/nologin
mariadb:x:997:995::/home/mariadb:/sbin/nologin
testgrep:x:4006:4006::/home/testgrep:/bin/bashhh

做错了，答案grep -v "/bin/bash$" /etc/passwd

2、找出/etc/passwd文件中的两位数或三位数；

[root@localhost ~]# grep '\b[[:digit:]]\{2,3\}\b' /etc/passwd
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin
nobody:x:99:99:Nobody:/:/sbin/nologin
systemd-network:x:192:192:systemd Network Management:/:/sbin/nologin
dbus:x:81:81:System message bus:/:/sbin/nologin
polkitd:x:999:998:User for polkitd:/:/sbin/nologin
sshd:x:74:74:Privilege-separated SSH:/var/empty/sshd:/sbin/nologin
postfix:x:89:89::/var/spool/postfix:/sbin/nologin
chrony:x:998:996::/var/lib/chrony:/sbin/nologin
mariadb:x:997:995::/home/mariadb:/sbin/nologin

3、找出/etc/rc.d/rc.sysinit或/etc/grub2.cfg文件中，以至少一个空白字符开头，且后面非空白字符的行；

[root@localhost ~]# grep '^[[:space:]]\{1,\}[^[:space:]]$' /etc/grub2.cfg 
[root@localhost ~]# grep '^[[:space:]]\{1,\}[^[:space:]]' /etc/grub2.cfg 
  load_env
   set default="${next_entry}"
   set next_entry=
   save_env next_entry
   set boot_once=true
   set default="${saved_entry}"
  menuentry_id_option="--id"
  menuentry_id_option=""

4、找出"netstat -tan"命令的结果中以'LISTEN'后跟0、1或多个空白字符结尾的行；

[root@localhost ~]# netstat -tan | grep 'LISTEN[[:space:]]*$'
tcp        0      0 0.0.0.0:22              0.0.0.0:*               LISTEN     
tcp        0      0 127.0.0.1:25            0.0.0.0:*               LISTEN     
tcp6       0      0 :::22                   :::*                    LISTEN     
tcp6       0      0 ::1:25                  :::*                    LISTEN

分组以及引用

：将一个或多个字符捆绑在一起，当作一个整体进行处理；
$xy$*ab

Note：分组括号中的模式匹配到的内容会被正则表达式引擎自动记录于内部的变量中，这些变量为：
\1:模式从左侧起，第一个左括号以及与之匹配的右括号之间的模式所匹配到的字符；
\2:模式从左侧起，第二个左括号以及与之匹配的右括号之间的模式所匹配到的字符；
\3
...

He loves his lover.
He likes his lover.
She likes her liker.
She loves her liker.

~]# grep "(l..e).*\1" lovers.txt

后向引用：引用前面的分组括号中的模式所匹配到的字符；