awk由其三位创作者 Alfred Aho,Peter Weinberger, 和 Brian Kernighan 的 Family Name 的首字符组成的,与之前说过的流式文本编辑器sed(sed篇在这儿)虽都能匹配处理文本,但awk是一种编程语言。解释定义是我所不擅长的,但是如果是一种编程语言,毋庸置疑就会有一定的语法。在这里主要与大家一同学习如何去使用它!
awk在处理一段文本时,首先会逐行扫描并处理文件,从第一行到最后一行,寻找匹配的特定模式的行,并在这些行上进行指定的操作。如果没有指定处理动作,则会把匹配的行显示到标准输出(屏幕);如果没有指定匹配模式,则所有行都会被处理。
awk [options] ‘program’ filenames
其中,program表示一段代码,一般由多个pattern和action组成,当读入的记录被匹配到时,才会执行相应的动作。
/pattern/和{action}需要用单引号引起来。
① 记录:文本文件的每一行代表一个记录,$0可以表示当前记录的所有字段,也就是整条记录;记录分隔符默认为换行符,换行符可以通过RS和ORS两个内置变量来指定。
② 字段:文本文件的每一列代表一个字段,$n表示当前记录的第n个字段;字段分隔符默认为空格,换行符可以通过FS和OFS两个内置变量来指定。
001 zhangsan:2000
002 lisi :2300
003 wangwu :3100
004 zhaoliu :2900
005 wuqi :3400
[root@service ~]# awk '{print $0}' testfile //打印整条记录
001 zhangsan:2000
002 lisi :2300
003 wangwu :3100
004 zhaoliu :2900
005 wuqi :3400
[root@service ~]# awk '{print $1,$3}' testfile //打印第1个和第3个字段,以空格为字段分隔符那么第一条记录只有两个字段
001
002 :2300
003 :3100
004 :2900
005 :3400
前面说过,awk会逐行扫描,寻找匹配的特定模式的行,可以将其理解为"条件",满足则处理。那么模式都支持什么形式呢?
条件类型 | 条件 | 解释 |
---|---|---|
正则表达式 | /正则/ | 默认支持扩展正则(如果你不会,click here!),"//“中也可以写入字符,但是不要忘记”//"哦! |
行模式范围 | /正则1/,/正则2/ | 从被从被正则1匹配到的行开始,到被正则2匹配到的行结束 |
关系表达式 | >、<、>=、<=、==、!= | 尤其注意"==“判断两个值是否相等,而”="用来给变量赋值 |
模式匹配表达式 | x~/正则/、x!~/正则/ | A~B、A!~B分别判断x是否与指定的正则相匹配,前者匹配则为真,后者反之 |
保留字 | BEGIN | 在 awk 程序处理文本之前需要执行的操作,即刚开始时执行。BEGIN 后的动作只在程序开始时执行一次 |
保留字 | END | 在 awk 程序处理完所有行之后所需要执行的操作,即将结束时执行。END 后的动作只在程序结束时执行一次 |
下面主要学习一下BEGIN和END这两个模式。
BEGIN:指定了处理文本之前需要执行的操作,一般用来进行一些初始化操作,比如定义全局变量、打印一些头部信息。可以有一个或多个awk命令,该模式是可选的。
END:指定了处理完所有行之后所需要执行的操作,一般用来打印一些结尾信息,或做一些清理动作。可以有一个或多个awk命令,该模式是可选的。
通过这两个模式,就可以为上面说过的测试文件加上表头和一些提示信息。
[root@service ~]# awk 'BEGIN{print"ID name salary"} {print $0} END{print"表中数据纯属瞎编(∩_∩)"}' testfile
ID name salary
001 zhangsan:2000
002 lisi :2300
003 wangwu :3100
004 zhaoliu :2900
005 wuqi :3400
表中数据纯属瞎编(∩_∩)
选 项 | 解 释 |
---|---|
-f |
执行指定的awk脚本文件来处理文本 |
-F |
定义字段分隔符 |
-v | 执行程序之前定义变量 |
还是上面的测试文件,举个小栗子哦!
#执行指定的awk脚本文件来处理文本
[root@service ~]# cat awk_script //awk脚本写到awk_script文件中
BEGIN{print"ID name salary"}
{print $0}
END{print"表中数据纯属瞎编(∩_∩)"}
[root@service ~]# awk -f awk_script testfile //执行效果与前面一样哦
ID name salary
001 zhangsan:2000
002 lisi :2300
003 wangwu :3100
004 zhaoliu :2900
005 wuqi :3400
表中数据纯属瞎编(∩_∩)
#定义字段分隔符
[root@service ~]# awk -F":" '{print $1}' testfile //定义":"为字段分隔符
001 zhangsan
002 lisi
003 wangwu
004 zhaoliu
005 wuqi
#定义变量
[root@service ~]# awk -v "a=1" '{print $a}' testfile //定义变量a=1,并打印$a至屏幕
001
002
003
004
005
前面提到了RS、ORS、FS、OFS这些内置变量,其实awk还提供了很多其他的内置变量,在这里我们对他们进行了解学习。
选 项 | 解 释 |
---|---|
$n | 当前记录的第n个字段 |
$0 | 当前记录的全部字段 |
NF | 当前输入记录中字段的个数 |
NR | 已读记录的个数 |
FNR | 与NR类似,但awk如果打开一个新文件,FNR便会重新计数 |
FS | 字段分隔符,默认为空格 |
OFS | 输出字段的分隔符,默认为空格 |
RS | 记录的分隔符,默认为换行符 |
ORS | 输出记录的分隔符,默认为换行符 |
RT | 记录终止符 |
RSTART | 被匹配子串的起始索引值 |
RLENGTH | 被匹配子串的长度 |
ARGC | 命令行参数的个数 |
ARGV | 存放命令行参数的数组 |
ENVIRON | 存放当前环境变量的数组 |
FILENAME | 存放当前输入文件的名称 |
只看概念肯定马马虎虎,重点还是通过以下栗子来理解吧!对之前的测试文件进行一点修改:
001 zhangsan:2000 abc
002 lisi :2300 def
003 wangwu :3100 ghi
004 zhaoliu :2900 jkl
005 wuqi :3400 mno
① NF and NR:
[root@service ~]# awk '{print NR,NF}' testfile
1 3 //已读1条记录,第一条记录中有3个字段
2 4 //已读2条记录,第二条记录中有4个字段
3 4 //...
4 4 //...
5 4 //...
#可以利用NR打印行号哦!
[root@service ~]# awk '{print NR,$0}' testfile
1 001 zhangsan:2000 abc
2 002 lisi :2300 def
3 003 wangwu :3100 ghi
4 004 zhaoliu :2900 jkl
5 005 wuqi :3400 mno
② FNR:
#在处理多个文件时,就可以看出NR与FNR之间的区别啦!
[root@service ~]# cp testfile testfile_copy //所以我们copy一份测试文件
[root@service ~]# awk '{print NR,FNR,$0}' testfile testfile_copy
1 1 001 zhangsan:2000 abc
2 2 002 lisi :2300 def
3 3 003 wangwu :3100 ghi
4 4 004 zhaoliu :2900 jkl
5 5 005 wuqi :3400 mno
6 1 001 zhangsan:2000 abc //可以看到,在处理第二个文件时,FNR重置后继续计数哦!
7 2 002 lisi :2300 def
8 3 003 wangwu :3100 ghi
9 4 004 zhaoliu :2900 jkl
10 5 005 wuqi :3400 mno
③ FS and OFS:
#变量FS与-F选项的功能相同,都是指定字段分隔符。
#如果不指定,默认的字段分隔符为"空格"。
[root@service ~]# awk 'BEGIN{FS=":"}{print NR,$1}' testfile //指定 ":"为输入字段分隔符
1 001 zhangsan
2 002 lisi
3 003 wangwu
4 004 zhaoliu
5 005 wuqi
[root@service ~]# awk 'BEGIN{OFS="@_@"}{print NR,$1,$2}' testfile //指定 "@_@"为输出字段分隔符,其中NR变量所输出的行号也算一个字段哦!
1@_@001@_@zhangsan:2000
2@_@002@_@lisi
3@_@003@_@wangwu
4@_@004@_@zhaoliu
5@_@005@_@wuqi
④ RS and ORS:
#理解了上面的FS和OFS,那么RS和ORS就很简单。
#如果不指定,默认的记录分隔符为"换行符"。
[root@service ~]# awk 'BEGIN{RS=":"}{print NR,$0}' testfile //指定 ":"为输入记录分隔符
1 001 zhangsan
2 2000 abc
002 lisi
3 2300 def
003 wangwu
4 3100 ghi
004 zhaoliu
5 2900 jkl
005 wuqi
6 3400 mno
[root@service ~]# awk 'BEGIN{ORS="@@@@@"}{print $0}' testfile //指定 "@@@@@"为输出记录分隔符
1 001 zhangsan:2000 abc@@@@@2 002 lisi :2300 def@@@@@3 003 wangwu :3100 ghi@@@@@4 004 zhaoliu :2900 jkl@@@@@5 005 wuqi :3400 mno@@@@@
⑤ RT:
#RT解释为记录终止符,如何理解呢?
#其实可以认为他就是分隔符!
[root@service ~]# awk 'BEGIN{RS=":"}{print NR,$0,RT}' testfile
1 001 zhangsan :
2 2000 abc
002 lisi :
3 2300 def
003 wangwu :
4 3100 ghi
004 zhaoliu :
5 2900 jkl
005 wuqi :
6 3400 mno
⑥ RSTART and RLENGTH:
在这里插入代码片
⑦ ARGC and ARGV:
[root@service ~]# touch test{1,2} //创建两个测试文件,分别为test1和test2
[root@service ~]# echo"1" >> test1 //随意添加一条内容到test1中,添加一行内容是为了后续操作有一次输出
[root@service ~]# awk '{print ARGC,ARGV[0]}' test1 test2
3 awk
[root@service ~]# awk '{print ARGC,ARGV[1]}' test1 test2
3 test1
[root@service ~]# awk '{print ARGC,ARGV[2]}' test1 test2
3 test2
#ARGV这个数组存放了awk、test1和test2三个参数,可以看到'program'部分并不作为参数
#ARGC那就更好理解了,它表示参数的数量,也可以理解为ARGV数组的长度
⑧ ENVIRON:
#ENVIRON数组存放了一些系统环境变量
[root@service ~]# awk 'BEGIN{for (i in ENVIRON) {print i"="ENVIRON[i];}}'
AWKPATH=.:/usr/share/awk
SELINUX_LEVEL_REQUESTED=
SELINUX_ROLE_REQUESTED=
LANG=zh_CN.UTF-8
HISTSIZE=1000
XDG_RUNTIME_DIR=/run/user/0
USER=root
_=/usr/bin/awk
SELINUX_USE_CURRENT_RANGE=
...省略部分内容
⑨ FILENAME:
#很容易理解,就是存放输入文件名称的变量。但是如果有多个文件,存放的是被匹配的那个。
[root@service ~]# touch test{1,2} //创建两个测试文件,分别为test1和test2
[root@service ~]# echo 1 > test4 && echo 1 > test5 //随意添加一条内容到test1和test2中,为的是可以进行匹配
#两个文件中都只有一条内容
[root@service ~]# awk 'NR==1{print FILENAME}' test1 test2 //NR=1匹配的是第一条记录
test1
[root@service ~]# awk 'NR==2{print FILENAME}' test1 test2 //NR=2匹配的是第二条记录
test2
相信很多学习过C语言的同学都对他很熟悉,那就是printf函数。在awk中,print动作与我们所学习过的printf函数大同小异,下面我们一起来了解一下语法格式吧!
其中,类型符的数量必须与传入的参数的数量相同,也就是说,类型符和传入的参数必须一一对应。至于具体的参数项,这里不做过多介绍,后面会在总结Shell中展示。
① 条件语句;
② 循环语句;
在条件判断中当然"与或非"必不可少,分别是:&&、||、!,这里不做过多介绍。
什么是关联数组?相信你一定会有疑问。关联数组通俗理解,就是不但可以通过整数进行索引,还可以通过字符串或其他类型的值来索引它。这样做有什么便捷之处呢?可以接着看下面的栗子。
#统计一段文本文件中每个单词出现的次数
[root@service ~]# cat testfile
cat like fish,dog like bone.
[root@service ~]# awk -F"[,. ]" '{for(i=1;i
like 2
bone 1
cat 1
dog 1
fish 1
看到了吗,利用数组的索引唯一性,可以达到一个去重的效果。上例中," for(i=1;i 如果想要删除数组中的某一个元素或整个数组,可以使用delete函数。比如我们想删除count数组中的"cat"索引的值: ① sub函数; sub函数会用替换字符串替换正则匹配字符串。如果没有指定替换范围,默认匹配整个记录;并且替换只发生在第一次匹配的时候。 语法格式:sub(正则表达式,替换字符串[,替换范围]) 举个栗子: ② gsub函数 gsub函数与sub函数作用相似,区别在于gsub是全局替换,如果不指定替换范围,默认匹配整个记录;并且替换每一个符合条件的字符串。 语法格式:gsub(正则表达式,替换字符串[,替换范围]) 举个栗子: ③ match函数 语法格式:match(原始字符串,字串) 注:子串位置可以使用正则表达式 举个栗子: 本篇没有列举太多的实例,主要还是总结了一些awk中的知识点便于复习使用,后续如果有时间会继续扩展添加内容,谢谢支持哦!(๑′ᴗ‵๑)delete count["cat"];
,或者删除整个count数组:delete count;
。9、内置函数
[root@service ~]# cat testfile
cat like fish,dog like bone.
cat like fish,dog like bone.
[root@service ~]# awk '{sub(/l..e/,"dislike") ;print $0}' testfile //不指定替换范围,每一行第一次匹配到的内容会被替换
cat dislike fish,dog like bone.
cat dislike fish,dog like bone.
[root@service ~]# awk '{sub(/l..e/,"dislike",$4);print $0}' testfile //指定替换范围后,替换只发生在该区域内
cat like fish,dog dislike bone.
cat like fish,dog dislike bone.
[root@service ~]# cat testfile
cat like fish,dog like bone.
cat like fish,dog like bone.
[root@service ~]# awk '{gsub(/l..e/,"dislike");print $0}' testfile //不指定替换范围,每一行每一次匹配到的内容都会被替换
cat dislike fish,dog dislike bone.
cat dislike fish,dog dislike bone.
[root@service ~]# awk '{gsub(/l..e/,"dislike",$4);print $0}' testfile //指定替换范围,替换只发生在该区域内
cat like fish,dog dislike bone.
cat like fish,dog dislike bone.
match函数用来返回子串在原始字符串中的位置的索引,如果没有匹配到则返回0。前面说过的内置变量RSTART和RLENGTH分别存放字符串中被匹配子字符串的开始位置和长度。#测试文件虽然与本例无关,但是其中需只有一行内容,这样才能会有内容的输出
[root@service ~]# awk 'BEGIN{s="abcdefg";r="cdef"}{match(s,r);print RSTART,RLENGTH}' testfile //字符串赋值给变量,通过调用变量实现
3 4
[root@service ~]# awk '{match("abcdefg","cdef");print RSTART,RLENGTH}' testfile //直接使用字符串
3 4
[root@service ~]# awk '{match("abcdefg",/c.../);print RSTART,RLENGTH}' testfile //使用正则匹配
3 4
四、结束语