Linux上文本处理三剑客

grep, egrep, fgrep：文本过滤工具（模式：pattern）工具；
grep：基本正则表达式，-E，-F
egrep：扩展正则表达式， -G，-F
fgrep：不支持正则表达式，

sed：stream editor, 流编辑器；文本编辑工具；

awk：Linux上的实现为gawk，文本报告生成器（格式化文本）；

正则表达式：Regual Expression, REGEXP
由一类特殊字符及文本字符所编写的模式，其中有些字符不表示其字面意义，而是用于表示控制或通配的功能；
分两类：
基本正则表达式：BRE
扩展正则表达式：ERE

grep： Global search REgular expression and Print out the line.

作用：文本搜索工具，根据用户指定的“模式（过滤条件）”对目标文本逐行进行匹配检查；打印匹配到的行；
模式：由正则表达式的元字符及文本字符所编写出的过滤条件；
正则表达式引擎；
grep [OPTIONS] PATTERN [FILE...]
grep [OPTIONS] [-e PATTERN | -f FILE] [FILE...]
OPTIONS：
--color=auto：对匹配到的文本着色后高亮显示；
-i：ignorecase，忽略字符的大小写；
-o：仅显示匹配到的字符串本身；
-v, --invert-match：显示不能被模式匹配到的行；
-E：支持使用扩展的正则表达式元字符；
新增元字符：
+:匹配一个或多个加号前的字符 '[a-z]+ove'
?:匹配零个或一个前导字符 'lo?ve'
a|b:匹配a或b 'love|hate'
():字符组 'love(able|ly)(ov)+'
-q, --quiet, --silent：静默模式，即不输出任何信息；
-A #：after, 后#行
-B #：before，前#行
-C #：context，前后各#行
基本正则表达式元字符：
- 字符匹配：
  . ：匹配任意单个字符；
  []：匹配指定范围内的任意单个字符；
  [^]：匹配指定范围外的任意单个字符；
  [:digit:]、[:lower:]、[:upper:]、[:alpha:]、[:alnum:]、[:punct:]、[:space:]
- 匹配次数：用在要指定其出现的次数的字符的后面，用于限制其前面字符出现的次数；默认工作于贪婪模式；
  *：匹配其前面的字符任意次；0,1,多次；
```
[root@centos7 test]# cat 1.txt
abxy
aby
xxxxy
yab
[root@centos7 test]# grep "x*y" 1.txt
abxy
aby
xxxxy
yab
```
  .*：匹配任意长度的任意字符
  \?：匹配其前面的字符0次或1次；即其前面的字符是可有可无的；
  \+：匹配其前面的字符1次或多次；即其前面的字符要出现至少1次；
  \{m\}：匹配其前面的字符m次；
  \{m,n\}：匹配其前面的字符至少m次，至多n次；
  \{0,n\}：至多n次
  \{m,\}：至少m次

位置锚定：
^：行首锚定；用于模式的最左侧；
$：行尾锚定；用于模式的最右侧；
^PATTERN$：用于PATTERN来匹配整行；
^$：空白行；
^[[:space:]]*$：空行或包含空白字符的行；
单词：非特殊字符组成的连续字符（字符串）都称为单词；
\< 或 \b：词首锚定，用于单词模式的左侧；
\> 或 \b：词尾锚定，用于单词模式的右侧；
\：匹配完整单词；

练习：

1、显示/etc/passwd文件中不以/bin/bash结尾的行；
~]# grep -v "/bin/bash$" /etc/passwd
2、找出/etc/passwd文件中的两位数或三位数；
~]# grep  "\<[0-9]\{2,3\}\>"  /etc/passwd
3、找出/etc/rc.d/rc.sysinit或/etc/grub2.cfg文件中，以至少一个空白字符开头，且后面非空白字符的行；
~]# grep  "^[[:space:]]\+[^[:space:]]"  /etc/grub2.cfg
4、找出"netstat -tan"命令的结果中以'LISTEN'后跟0、1或多个空白字符结尾的行；
~]# netstat -tan | grep  "LISTEN[[:space:]]*$"

分组及引用
：将一个或多个字符捆绑在一起，当作一个整体进行处理；
$xy$*ab
Note：分组括号中的模式匹配到的内容会被正则表达式引擎自动记录于内部的变量中，这些变量为：
\1：模式从左侧起，第一个左括号以及与之匹配的右括号之间的模式所匹配到的字符；
\2：模式从左侧起，第二个左括号以及与之匹配的右括号之间的模式所匹配到的字符；
\3
...
找出grep.txt文件中以l开头e结尾的单词，前后重复的行？
```
[root@centos7 test]# cat grep.txt
He loves his lover.
He likes his lover.
She likes her liker.
She loves her liker.
[root@centos7 test]# grep  "$l..e$.*\1"  grep.txt
He loves his lover.
She likes her liker.
```

后向引用：引用前面的分组括号中的模式所匹配到的字符；

sed - stream editor for filtering and transforming text

命令：
sed [OPTION]... 'script' [input-file] ...
script
地址定界编辑命令
参数：
-n：不输出模式空间中的内容至屏幕；
-e script, --expression=script：多点编辑；
-f /PATH/TO/SED_SCRIPT_FILE
每行一个编辑命令；
-r, --regexp-extended：支持使用扩展正则表达式；
-i[SUFFIX], --in-place[=SUFFIX]：直接编辑原文件；
```
~]# sed  -e  's@^#[[:space:]]*@@'   -e  '/^UUID/d'  /etc/fstab    
```
地址定界：
(1) 空地址：对全文进行处理；
(2) 单地址：
#：指定行；
/pattern/：被此模式所匹配到的每一行；
(3) 地址范围
#,#：
#,+#：
#，/pat1/
/pat1/,/pat2/
$：最后一行；
(4) 步进：~
1~2：所有奇数行
2~2：所有偶数行
编辑命令：
d：删除；
p：显示模式空间中的内容；
a \text：在行后面追加文本“text”，支持使用\n实现多行追加；
i \text：在行前面插入文本“text”，支持使用\n实现多行插入；
c \text：把匹配到的行替换为此处指定的文本“text”；
w /PATH/TO/SOMEFILE：保存模式空间匹配到的行至指定的文件中；
r /PATH/FROM/SOMEFILE：读取指定文件的内容至当前文件被模式匹配到的行后面；文件合并；
=：为模式匹配到的行打印行号；
!：条件取反；
地址定界!编辑命令；
s///：查找替换，其分隔符可自行指定，常用的有s@@@, s###等；
替换标记：
g：全局替换；
w /PATH/TO/SOMEFILE：将替换成功的结果保存至指定文件中；
p：显示替换成功的行；

练习1：删除/boot/grub/grub2.cfg文件中所有以空白字符开头的行的行首的所有空白字符；

~]# sed  's@^[[:space:]]\+@@' /etc/grub2.cfg

练习2：删除/etc/fstab文件中所有以#开头的行的行首的#号及#后面的所有空白字符；

~]# sed  's@^#[[:space:]]*@@'  /etc/fstab

练习3：输出一个绝对路径给sed命令，取出其目录，其行为类似于dirname；

~]# echo "/var/log/messages/" | sed 's@[^/]\+/\?$@@'
~]# echo "/var/log/messages" | sed -r 's@[^/]+/?$@@'

Linux上文本处理三剑客

grep： Global search REgular expression and Print out the line.

sed - stream editor for filtering and transforming text

你可能感兴趣的:(Linux上文本处理三剑客)