正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq

文章目录

  • 基础正则表达式
    • 基础正则表达式示例
      • 文件处理工具grep
    • 基础正则表达式常见元字符
  • 拓展正则表达式
    • 拓展正则表达式实例
      • 文本处理工具egrep
    • 扩展正则表达式常见元字符
  • 文本处理器
    • sed工具
      • sed基本用法
        • 输出符合条件的文本(p 表示正常输出)
      • sed结合正则
        • 输出符合条件的文本
        • 删除符合条件的文本(d)
        • 替换符合条件的文本
        • 迁移符合条件的文本
        • 使用脚本编辑文件
        • sed 直接操作文件示例
    • awk 工具
      • awk 常见用法
      • 用法示例
        • (1)按行输出文本
        • (2)按字段输出文本
        • (3)通过管道、双引号调用 Shell 命令
    • sort工具
      • 用法示例
        • (1)将/etc/passwd 文件中的账号进行排序。
        • (2)将/etc/passwd 文件中第三列进行反向排序。
        • (3)将/etc/passwd 文件中第三列进行排序,并将输出内容保存至 user.txt 文件中。
    • uniq 工具
      • 用法示例
        • 示例 1:删除 文件中的重复行。
        • 示例 2:删除文件中的重复行,并在行首显示该行重复出现的次数。
        • 示例 3:查找文件中的重复行。
    • tr 工具
      • 用法示例
        • 示例 1:将输入字符由大写转换为小写。
        • 示例 2:压缩输入中重复的字符。
        • 示例 3:删除字符串中某些字符。

  正则表达式是一种匹配字符串的方法,通过一些特殊符号,实现快速查找、删除、替换某个特定字符串。
  正则表达式对于系统管理员来说是非常重要的,系统运行过程中会产生大量的信息,这些信息有些是非常重要的,有些则仅是告知的信息。身为系统管理员如果直接看这么多的信息数据,无法快速定位到重要的信息,如“用户账号登录失败”“服务启动失败”等信息。这时可以通过正则表达式快速提取“有问题”的信息。如此一来,可以将运维工作变得更加简单、方便。

基础正则表达式

  正则表达式的字符串表达方法根据不同的严谨程度与功能分为基本正则表达式与扩展正则表达式。
  基础正则表达式是常用正则表达式最基础的部分。在 Linux 系统中常见的文件处理工具中 grep 与 sed 支持基础正则表达式,而 egrep 与 awk 支持扩展正则表达式。掌握基础正则表达式的使用方法,首先必须了解基本正则表达式所包含元字符的含义,下面通过grep 命令以举例的方式逐个介绍。

基础正则表达式示例

文件处理工具grep

  • -n表示显示行号
  • -i表示忽略大小写
  • -v表示输出不符合条件的

复制一份配置http的文件来,或者自己随便写一个文件来练习
(1)查找特定字符
查找包含the的行

[root@localhost mnt]# grep -nv 'the' httpd.conf

正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq_第1张图片
查找不包含the的行,可使用反向查找

[root@localhost mnt]# grep -nv 'the' httpd.conf

正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq_第2张图片
(2)利用中括号“[]”来查找集合字符
  想要查找“shirt”与“short”这两个字符串时,可以发现这两个字符串均包含“sh”与“rt”。此时执行以下命令即可同时查找到“shirt”与“short”这两个字符串,其中“[]”中无论有几个字符, 都仅代表一个字符,也就是说“[io]”表示匹配“i”或者“o”。

[root@localhost mnt]# grep -n 'sh[io]rt' test.txt 

在这里插入图片描述
若要查找包含重复单个字符“oo”时,只需要执行以下命令即可。

[root@localhost mnt]# grep -n 'oo' test.txt

正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq_第3张图片
若查找“oo”前面不是“w”的字符串,只需要通过集合字符的反向选择“[^]”来实现该目的。

[root@localhost mnt]# grep -n '[^w]oo' test.txt 

在这里插入图片描述
若不希望“oo”前面存在小写字母,可以使用“grep -n‘[^a-z]oo’test.txt”命令实现,其中
“a-z”表示小写字母,大写字母则通过“A-Z”表示。

[root@localhost mnt]# grep -n '[^a-z]oo' test.txt

在这里插入图片描述
查找包含数字的行可以通过“grep -n‘[0-9]’test.txt”命令来实现。

[root@localhost mnt]# grep -n '[0-9]' httpd.conf

正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq_第4张图片
(3)查找以特定字符开头“^”及结尾“$”
查找以the开头的行

[root@localhost mnt]# grep -n '^the' test.txt 

在这里插入图片描述
查询不以字母开头的行

[root@localhost mnt]# grep -n '^[^a-zA-Z]' httpd.conf 

正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq_第5张图片
“^”符号在元字符集合“[]”符号内外的作用是不一样的,在“[]”符号内表示反向选择,在“[]” 符号外则代表定位行首。
查找以.结尾的行,由于小数点也有其含义所以用转义符\

[root@localhost mnt]# grep -n '\.$' httpd.conf

正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq_第6张图片
当查询空白行时,执行“grep -n‘^$’test.txt”命令即可。

[root@localhost mnt]# grep -n '^$' httpd.conf

正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq_第7张图片
(4)查找任意一个字符“.”与重复字符“*”
正则表达式中小数点(.)也是一个元字符,代表任意一个字符。例如执行以下命令就可以查找“w??d”的字符串,即共有四个字符,以 w 开头 d 结尾。

[root@localhost mnt]# grep -n 'w..d' test.txt

在这里插入图片描述
  “*”代表的是重复零个或多个前面的单字符。 “o*”表示拥有零个(即为空字符)或大于等于一个“o”的字符,因为允许空字符,所以执行“grep -n ‘o*’ test.txt”命令会将文本中所有的内容都输出打印。如果是“oo*”,则第一个 o 必须存在, 第二个 o 则是零个或多个 o,所以凡是包含 o、oo、ooo、ooo,等的资料都符合标准。同理,若查询包含至少两个 o 以上的字符串,则执行“grep -n ‘ooo*’ test.txt”命令即可。
以下语句表示查找一个及以上个o

[root@localhost mnt]# grep -n 'oo*' test.txt 

正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq_第8张图片
查询以 w 开头 d 结尾,中间包含至少一个 o 的字符串,执行以下命令即可实现。

[root@localhost mnt]#grep -n 'woo*d' test.txt

在这里插入图片描述
执行以下命令即可查询以 w 开头 d 结尾,中间的字符可有可无的字符串。

[root@localhost mnt]# grep -n 'w.*d' httpd.conf 

以下命令可实现任意数字所在行

[root@localhost mnt]# grep -n '[0-9][0-9]*' httpd.conf

正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq_第9张图片
(5)查询连续字符范围”{}”
  在上面的示例中,使用了“.”与“*”来设定零个到无限多个重复的字符,如果想要限制一个范围内的重复的字符串该如何实现呢?例如,查找三到五个 o 的连续字符,这个时候就需要使用基础正则表达式中的限定范围的字符“{}”。因为“{}”在 Shell 中具有特殊意义,所以在使用“{}”字符时,需要利用转义字符“\”,将“{}”字符转换成普通字符。“{}”字符的使用方法如下所示。
1)查询两个o

[root@localhost mnt]# grep -n 'o\{2\}' test.txt

正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq_第10张图片
2)查询以 w 开头以 d 结尾,中间包含 2~5 个 o 的字符串。

[root@localhost mnt]# grep -n 'wo\{2,5\}d' test.txt

在这里插入图片描述
3)查询以 w 开头以 d 结尾,中间包含 2 个或 2 个以上 o 的字符串。

[root@localhost mnt]# grep -n 'wo\{2,\}d' test.txt

在这里插入图片描述

基础正则表达式常见元字符

元字符   作用

^	匹配输入字符串的开始位置。除非在方括号表达式中使用,表示不包含该字符集合。要匹配“^” 字符本身,请使用“\^”
$	匹配输入字符串的结尾位置。如果设置了RegExp 对象的 Multiline 属性,则“$”也匹配‘\n’或‘\r’。要匹配“$”字符本身,请使用“\$”
.	匹配除“\r\n”之外的任何单个字符

\	反斜杠,又叫转义字符,去除其后紧跟的元字符或通配符的特殊意义

*	匹配前面的子表达式零次或多次。要匹配“*”字符,请使用“\*”

[]	字符集合。匹配所包含的任意一个字符。例如,“[abc]”可以匹配“plain”中的“a”

[^]	赋值字符集合。匹配未包含的一个任意字符。例如,“[^abc]”可以匹配“plain”中任何一个字母

[n1-n2]	字符范围。匹配指定范围内的任意一个字符。例如,“[a-z]”可以匹配“a”到“z”范围内的任意一个小写字母字符。
注意:只有连字符(-)在字符组内部,并且出现在两个字符之间时,才能表示字符的范围;如果出现在字符组的开头,则只能表示连字符本身
{n}	n 是一个非负整数,匹配确定的 n 次。例如,“o{2}”不能匹配“Bob”中的“o”,但是能匹配“food”中的“oo”
{n,}	n 是一个非负整数,至少匹配 n 次。例如,“o{2,}”不能匹配“Bob”中的“o”,但能匹配“foooood”中的所有o。“o{1,}”等价于“o+”。“o{0,}”则等价于“o*”
{n,m}	m 和 n 均为非负整数,其中 n<=m,最少匹配 n 次且最多匹配m 次

拓展正则表达式

  通常情况下会使用基础正则表达式就已经足够了,但有时为了简化整个指令,需要使用 范围更广的扩展正则表达式。
  grep 命令仅支持基础正则表达式,如果使用扩展正则表达式,需要使用 egrep 或 awk 命令

拓展正则表达式实例

文本处理工具egrep

(1)查找以w开头d结尾中间有一个或以上的o
+作用:重复一个或者一个以上的前一个字符

[root@localhost mnt]# egrep -n 'wo+d' test.txt 

在这里插入图片描述
?作用:零个或者一个的前一个字符

[root@localhost mnt]# egrep -n 'wo?' test.txt

正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq_第11张图片
以下命令即可查询bet和best两个

[root@localhost mnt]# egrep -n 'bes?t' test.txt

在这里插入图片描述
|作用:使用或者(or)的方式找出多个字符
以下语句可以查找出"of"或者"if"或者"on"字符串

[root@localhost mnt]# egrep -n 'of|is|on' test.txt 

在这里插入图片描述
还有刚刚那个空行和以#开头的

[root@localhost mnt]# egrep -nv '^#|^$' httpd.conf

()作用:查找“组”字符串
该命令是查询开头的"T",中间有一个以上的"xyz"字符串的意思

[root@localhost mnt]# egrep -n 'T(xyz)+' test.txt

在这里插入图片描述

扩展正则表达式常见元字符

元字符         作用与示例
+	作用:重复一个或者一个以上的前一个字符
?	作用:零个或者一个的前一个字符
|	作用:使用或者(or)的方式找出多个字符
()	作用:查找“组”字符串
()+	作用:辨别多个重复的组

文本处理器

  grep,sed,awk 是Shell 编程中经常用到的文本处理工具, 被称之为Shell 编程三剑客。

sed工具

  sed(Stream EDitor)是一个强大而简单的文本解析转换工具,可以读取文本,并根据指定的条件对文本内容进行编辑(删除、替换、添加、移动等),最后输出所有行或者仅输出处理的某些行。
sed 的工作流程主要包括读取、执行和显示三个过程。

  • 读取:sed 从输入流(文件、管道、标准输入)中读取一行内容并存储到临时的缓冲区中(又称模式空间,pattern space)。
  • 执行:默认情况下,所有的 sed 命令都在模式空间中顺序地执行,除非指定了行的地址,否则 sed 命令将会在所有的行上依次执行。
  • 显示:发送修改后的内容到输出流。在发送数据后,模式空间将会被清空。

  在所有的文件内容都被处理完成之前,上述过程将重复执行,直至所有内容被处理完。
注意:默认情况下所有的 sed 命令都是在模式空间内执行的,因此输入的文件并不会发生任何变化,除非是用重定向存储输出。
sed用法
  通常情况下调用 sed 命令有两种格式,如下所示。其中,“参数”是指操作的目标文件, 当存在多个操作对象时用,文件之间用逗号“,”分隔;而 scriptfile 表示脚本文件,需要用“-f” 选项指定,当脚本文件出现在目标文件之前时,表示通过指定的脚本文件来处理输入的目标文件。

  • sed [选项] ‘操作’ 参数
  • sed [选项] -f scriptfile 参数

常见的 sed 命令选项主要包含以下几种:

  • -e 或–expression=:表示用指定命令或者脚本来处理输入的文本文件。
  • -f 或–file=:表示用指定的脚本文件来处理输入的文本文件。
  • -h 或–help:显示帮助。
  • -n、–quiet 或 silent:表示仅显示处理后的结果。
  • -i:直接编辑文本文件。

  “操作”用于指定对文件操作的动作行为,也就是 sed 的命令。通常情况下是采用的“[n1[,n2]]”操作参数的格式。n1、n2 是可选的,代表选择进行操作的行数,如操作需要在 5~ 20 行之间进行,则表示为“5,20 动作行为”。常见的操作包括以下几种。

  • a:增加,在当前行下面增加一行指定内容。
  • c:替换,将选定行替换为指定内容。
  • d:删除,删除选定的行。
  • i:插入,在选定行上面插入一行指定内容。
  • p:打印,如果同时指定行,表示打印指定行;如果不指定行,则表示打印所有内容;如果有非打印字符,则以 ASCII 码输出。其通常与“-n”选项一起使用。
  • s:替换,替换指定字符。
  • y:字符转换。

sed基本用法

用法示例:
可随意写一个文本来练习

输出符合条件的文本(p 表示正常输出)

输出所有内容,相当于cat test.txt

[root@localhost mnt]# sed -n 'p' test.txt

正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq_第12张图片
输出第三行

[root@localhost mnt]# sed -n '3p' test.txt

在这里插入图片描述
输出3-5行

[root@localhost mnt]# sed -n '3,5p' test.txt

在这里插入图片描述
输出奇数行,n 表示读入下一行资料

[root@localhost mnt]# sed -n 'p;n' test01.txt 

正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq_第13张图片
输出所有偶数行

[root@localhost mnt]# sed -n 'n;p' test01.txt

正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq_第14张图片
输出范围内的奇数或偶数行

[root@localhost mnt]# sed -n '2,5{p;n}' test01.txt

在这里插入图片描述

需要注意的是,这里所说的奇数行或是偶数行是相对的,如上查找2-5行的奇数行,那么整个文本的第二行就为我们搜索范围内的第一行,也就是奇数行,所以被打印输出

输出第10行到结尾之间的偶数行

[root@localhost mnt]# sed -n '10,${n;p}' test01.txt

正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq_第15张图片

sed结合正则

  以上是 sed 命令的基本用法,sed 命令结合正则表达式时,格式略有不同,正则表达式以“/”包围。

输出符合条件的文本

输出包含the的行

[root@localhost mnt]# sed -n '/the/p' test.txt 

在这里插入图片描述
输出从第 4 行至第一个包含 the 的行

[root@localhost mnt]# sed -n '4,/the/p' test.txt

在这里插入图片描述
输出包含the 的行所在的行号,等号(=)用来输出行号

[root@localhost mnt]# sed -n '/the/=' test.txt

在这里插入图片描述
输出以Tx开头的行

[root@localhost mnt]# sed -n '/^Tx/p' test.txt 

在这里插入图片描述
输出以数字结尾的行

[root@localhost mnt]# sed -n '/[0-9]$/p' httpd.conf 

在这里插入图片描述
输出包含the的行,<、>代表单词边界

[root@localhost mnt]# sed -n '/\/p' test.txt

在这里插入图片描述

删除符合条件的文本(d)

nl 命令用于计算文件的行数,结合该命令可以更加直观地查看到命令执行的结果。
删除第3行

[root@localhost mnt]# nl test.txt|sed '3d'

正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq_第16张图片
删除第3-5行

[root@localhost mnt]# nl test.txt|sed '3,5d'

正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq_第17张图片
删除不包含the的行

[root@localhost mnt]# nl test.txt|sed '/the/!d' test.txt

在这里插入图片描述
删除以小写字母开头的行

[root@localhost mnt]# sed '/^[a-z]/d' test.txt

在这里插入图片描述
删除以.结尾的行

[root@localhost mnt]# sed  '/\.$/d' test.txt

删除空行

[root@localhost mnt]# sed '/^$/d' test.txt

以下命令 删 除 重 复 的 空行 , 即 连 续 的 空 行 只 保 留 一 个 。其效果与“cat -s test.txt”相同,n 表示读下一行数据。

[root@localhost mnt]# sed -e '/^$/{n;/^$/d}' test.txt

正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq_第18张图片

替换符合条件的文本

  在使用 sed 命令进行替换操作时需要用到 s(字符串替换)、c(整行/整块替换)、y(字符转换)命令选项,常见的用法如下所示。
将每行中的第一个the替换成THE

[root@localhost mnt]# sed 's/the/THE/' test.txt

正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq_第19张图片
将每行中的第二个o替换成O

[root@localhost mnt]# sed 's/o/O/2' test.txt

正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq_第20张图片
将每行中的the都替换成THE

[root@localhost mnt]# sed 's/the/THE/g' test.txt

将文件中所有的o都删除(替换成空串)

[root@localhost mnt]# sed 's/o//g' test.txt

正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq_第21张图片
在每行的行首都插入#号

[root@localhost mnt]# sed 's/^/#/' test.txt

正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq_第22张图片
在包含the的行首,插入#号

[root@localhost mnt]# sed '/the/s/^/#/' test.txt

正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq_第23张图片
在每行行为加上END

[root@localhost mnt]# sed 's/$/END/' test.txt

正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq_第24张图片
将5-6行所有的the替换成THE

[root@localhost mnt]# nl test.txt |sed '5,6s/the/THE/g' test.txt

将包含the的行所有o替换成O

[root@localhost mnt]# sed '/the/s/o/O/g' test.txt

正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq_第25张图片

迁移符合条件的文本

在使用 sed 命令迁移符合条件的文本时,常用到以下参数.

  • H:复制到剪贴板;
  • g、G:将剪贴板中的数据覆盖/追加至指定行;
  • w:保存为文件;
  • r:读取指定文件;
  • a:追加指定内容。

将包含the的行迁移至文件末尾,{;}用于多个操作,d表示删除原来所在行;我们发现操作完之后会有一行空行,我们再过滤空行就好了

[root@localhost mnt]# sed '/the/{H;d};$G' test.txt

正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq_第26张图片
将1-2行的内容迁移至13行后

[root@localhost mnt]# sed '1,2{H;d};13G' test.txt

正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq_第27张图片
将包含the 的行另存为文件 out.file

[root@localhost mnt]# sed '/the/w out.file' test.txt

将文件/etc/hostname 的内容添加到包含 the 的每行以后

[root@localhost mnt]# sed '/the/r /etc/hostname' test.txt

正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq_第28张图片
在第一行后面添加一个新行内容为NEW

[root@localhost mnt]# sed '1aNEW' test.txt

在这里插入图片描述
在包含the 的每行后插入一个新行,内容为 New

[root@localhost mnt]# sed '/the/aNEW' test.txt

正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq_第29张图片
在第 3 行后插入多行内容,中间的\n 表示换行

[root@localhost mnt]# sed '3aNEW1\nNEW2' test.txt

正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq_第30张图片

使用脚本编辑文件

使用 sed 脚本将多个编辑指令存放到文件中(每行一条编辑指令),通过“-f”选项来调用。例如执行以下命令即可将第 1~5 行内容转移至第 10 行后。
sed ‘1,5{H;d};10G’ test.txt //将第 1~5 行内容转移至第 10 行后
以上操作可以改用脚本文件方式:

[root@localhost mnt]# vim opt.list 
1,5H
1,5d
10G
[root@localhost mnt]# sed -f opt.list test.txt

正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq_第31张图片

sed 直接操作文件示例

编写一个脚本,用来调整 tftp服务配置,将disable的yes改成no

[root@localhost xinetd.d]# vim tftp.sh
#!/bin/bash
#
CONFIG="/etc/xinetd.d/tftp"    ##配置文件所在位置
[ ! -e "$CONFIG.bak" ]&& cp $CONFIG $CONFIG.bak    ###创建备份配置文件
sed -i '/disable/s/yes/no/g' $CONFIG    ###修改配置文件
[root@localhost xinetd.d]# bash tftp.sh     ##执行脚本后就可以将yes改成no了

awk 工具

  在 Linux/UNIX 系统中,awk 是一个功能强大的编辑工具,逐行读取输入文本,并根据指定的匹配模式进行查找,对符合条件的内容进行格式化输出或者过滤处理,可以在无交互的情况下实现相当复杂的文本操作,被广泛应用于 Shell 脚本,完成各种自动化配置任务。

awk 常见用法

  通常情况下 awk 所使用的命令格式如下所示,其中,单引号加上大括号“{}”用于设置对数据进行的处理动作。awk 可以直接处理目标文件,也可以通过“-f”读取脚本对目标文件进行处理。

awk 选项 '模式或条件 {编辑指令}' 文件 1 文件 2 … //过滤并输出文件中符合条件的内容
awk   -f   脚本文件 文件 1 文件 2 …	//从脚本中调用编辑指令,过滤并输出内容

  前面提到 sed 命令常用于一整行的处理,而 awk 比较倾向于将一行分成多个“字段”然后再进行处理,且默认情况下字段的分隔符为空格或 tab 键。awk 执行结果可以通过 print 的功能将字段数据打印显示。在使用 awk 命令的过程中,可以使用逻辑操作符“&&”表示“与”、“||” 表示“或”、“!”表示“非”;还可以进行简单的数学运算,如+、-、*、/、%、^分别表示加、减、乘、除、取余和乘方。在 Linux 系统中/etc/passwd 是一个非常典型的格式化文件,各字段间使用“:”作为分隔符隔开,Linux 系统中的大部分日志文件也是格式化文件,从这些文件中提取相关信息是运维的日常工作内容之一。
若需要查找出/etc/passwd 的用户名、用户 ID、组 ID 等列,执行以下 awk 命令即可。

[root@localhost ~]# awk -F: '{print $1,$3,$4}' /etc/passwd

在这里插入图片描述
  awk 从输入文件或者标准输入中读入信息,与 sed 一样,信息的读入也是逐行读取的。不同的是 awk 将文本文件中的一行视为一个记录,而将一行中的某一部分(列)作为记录中的一个字段(域)。为了操作这些不同的字段,awk 借用 shell 中类似于位置变量的方法, 用$1、$2、$3…顺序地表示行(记录)中的不同字段。另外 awk 用$0 表示整个行(记录)。不同的字段之间是通过指定的字符分隔。awk 默认的分隔符是空格。awk 允许在命令行中用“-F 分隔符”的形式来指定分隔符。在上述示例中,awk 命令对/etc/passwd 文件的理过程如图
正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq_第32张图片
awk 包含几个特殊的内建变量(可直接用)如下所示:

  • FS:指定每行文本的字段分隔符,默认为空格或制表位。
  • NF:当前处理的行的字段个数。
  • NR:当前处理的行的行号(序数)。
  • $0:当前处理的行的整行内容。
  • $n:当前处理行的第 n 个字段(第 n 列)。
  • FILENAME:被处理的文件名。
  • RS:数据记录分隔,默认为\n,即每行为一条记录。

用法示例

(1)按行输出文本

以下操作都是输出全部内容,相当于cat test.txt

[root@localhost mnt]# awk '{print}' test.txt
[root@localhost mnt]# awk '{print $0}' test.txt

输出1-3行的内容

[root@localhost mnt]# print 'NR==1,NR==3{print}' test.txt
[root@localhost mnt]# awk '(NR>=1)&&(NR<=3){print}' test.txt

输出所有奇数行内容

[root@localhost mnt]# awk '(NR%2)==1{print}' test.txt

输出所有偶数行内容

[root@localhost mnt]# awk '(NR%2)==0{print}' test.txt

输出以root开头的行

[root@localhost mnt]# awk '/^root/{print}' /etc/passwd

输出以nologin结尾的行

[root@localhost mnt]# awk '/nologin$/{print}' /etc/passwd

统计以/bin/bash 结尾的行数,等同于 grep -c “/bin/bash$” /etc/passwd

[root@localhost mnt]# awk 'BEGIN {x=0};/\/bin\/bash$/{x++};END {print x}' /etc/passwd
[root@localhost mnt]# grep "bash$" /etc/passwd |wc -l
[root@localhost mnt]# grep -c "/bin/bash$" /etc/passwd

统计以空行分隔的文本段落数
空行把文本分隔成四段
正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq_第33张图片

[root@localhost mnt]# awk 'BEGIN{RS=""};END{print NR}' test.txt
4
[root@localhost mnt]#

(2)按字段输出文本

输出每行中(以空格或制表位分隔)的第 3 个字段

[root@localhost mnt]# awk '{print $3}' test.txt

输出每行中(以空格或制表位分隔)的第 1,3 个字段

[root@localhost mnt]# awk '{print $1,$3}' test.txt

输出密码为空的用户shadow记录

[root@localhost mnt]# awk -F: '$2==""{print}' /etc/shadow
[root@localhost mnt]# awk 'BEGIN{FS=":"};$2==""{print}' /etc/shadow

输出以冒号分隔且第 7 个字段中包含/bash 的行的第 1 个字段

[root@localhost mnt]# awk -F: '$7~"/bash"{print $1}' /etc/passwd

输出以:分隔共有7个字段且第1个字段包含root的行的第3和7字段信息

[root@localhost mnt]# awk -F: '($1~"root")&&(NF==7){print $1,$7}' /etc/passwd

输出以:分隔第7个字段不为/bin/bash也不为/sbin/nologin的行

[root@localhost mnt]# awk -F: '($7!="/bin/bash")&&($7!="/sbin/nologin"){print}' /etc/passwd

在这里插入图片描述

(3)通过管道、双引号调用 Shell 命令

调用wc -l 命令统计使用 bash 的用户个数,等同于 grep -c “bash$” /etc/passwd

[root@localhost mnt]# awk -F: '/bash$/{print |"wc -l"}' /etc/passwd
[root@localhost mnt]# grep -c "/bash$" /etc/passwd

调用w 命令,并用来统计在线用户数,因为使用w命令时输出的结果头两行我们是可以不用统计行数,所以需要减2
在这里插入图片描述

[root@localhost mnt]# awk 'BEGIN{while ("w"|getline)n++;{print n-2}}'

调用hostname,并输出当前的主机名

[root@localhost mnt]# awk 'BEGIN {"hostname" | getline ; print $0}'

sort工具

  在 Linux 系统中,常用的文件排序工具有三种:sort、uniq、wc 。介绍前两种工具的用法。
sort 是一个以行为单位对文件内容进行排序的工具,也可以根据不同的数据类型来排序。例如数据和字符的排序就不一样。sort 命令的语法为“sort [选项] 参数”,其中常用的选项包括以下几种。

  • -f:忽略大小写;
  • -b:忽略每行前面的空格;
  • -M:按照月份进行排序;
  • -n:按照数字进行排序;
  • -r:反向排序;
  • -u:等同于 uniq,表示相同的数据仅显示一行;
  • -t:指定分隔符,默认使用[Tab]键分隔;
  • -o <输出文件>:将排序后的结果转存至指定文件;
  • -k:指定排序区域。

用法示例

(1)将/etc/passwd 文件中的账号进行排序。

账号记录会被按首字母顺序排列

[root@localhost mnt]# sort /etc/passwd

在这里插入图片描述

(2)将/etc/passwd 文件中第三列进行反向排序。

[root@localhost mnt]# sort -t: -rk 3 /etc/passwd

(3)将/etc/passwd 文件中第三列进行排序,并将输出内容保存至 user.txt 文件中。

[root@localhost mnt]# sort -t: -k 3 /etc/passwd -o user.txt

uniq 工具

  Uniq 工具在 Linux 系统中通常与 sort 命令结合使用,用于报告或者忽略文件中的重复行。具体的命令语法格式为:uniq [选项] 参数。其中常用选项包括以下几种。

  • -c:进行计数;
  • -d:仅显示重复行;
  • -u:仅显示出现一次的行。

用法示例

示例 1:删除 文件中的重复行。

正则表达式(RegularExpression,RE)--grep、egrep、sed、awk、sort、uniq_第34张图片

[root@localhost mnt]# uniq test03.txt 
1
2
3
4
5
6

示例 2:删除文件中的重复行,并在行首显示该行重复出现的次数。

[root@localhost mnt]# uniq -c test03.txt 
      2 1
      2 2
      3 3
      1 4
      1 5
      1 6

示例 3:查找文件中的重复行。

[root@localhost mnt]# uniq -d test03.txt 
1
2
3

tr 工具

  tr 命令常用来对来自标准输入的字符进行替换、压缩和删除。可以将一组字符替换之后变成另一组字符,经常用来编写优美的单行命令,作用很强大。
tr 具体的命令语法格式为:

  • tr [选项] [参数]
    其常用选项包括以下内容。
  • -c:取代所有不属于第一字符集的字符;
  • -d:删除所有属于第一字符集的字符;
  • -s:把连续重复的字符以单独一个字符表示;
  • -t:先删除第一字符集较第二字符集多出的字符。

用法示例

示例 1:将输入字符由大写转换为小写。

[root@localhost mnt]# echo "BAIDU" |tr 'A-Z' 'a-z'
baidu

示例 2:压缩输入中重复的字符。

[root@localhost mnt]# echo "iii couldd  never to gooo to anywhere.." |tr -s 'ido.'
i could  never to go to anywhere.

示例 3:删除字符串中某些字符。

[root@localhost mnt]# echo "hi man" |tr -d 'hn'
i ma
[root@localhost mnt]# 

有点多

你可能感兴趣的:(linux,shell)