awk是Linux用来进行文本处理的命令,在日常工作中,广泛应用于日志分析。awk是一门解释型编程语言,包含变量,数组,循环控制结构,条件控制结构等。它的语法采用类C语言的语法。
awk命令用来做什么?
1.awk适用于具有一定结构的文本行,对其中的列进行提取信息
2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理,然后把直接结构返回给awk
3.awk实际工作中,广泛应用与日志分析
样例数据
ID Name Salary Bonus A000 Tom 9900 3212 A001 Jack 9999 2801 A002 Alex 8221 2003
针对这个数据,基本的需求可能是
1.查看某个人的BaseSalary,Bonus
2.列出所有人的BaseSalary和Bonus之和
3.列出所有人的Bonus(只显示Name和Bonus)
通过awk,可以很容易的实现这些需求
awk命令格式
awk命令包括三部分:pattern,action,input-file(可以是文件,可以是其它命令的管道)
- input-file文本文件,提供awk文本处理的数据源,awk每次一行的循环处理
- pattern 用于匹配input-file中的正在处理的行是否满足条件,它可以是普通字符串,也可以是正则表达式。对于不匹配的行,awk不会调用action以执行响应的操作。如果匹配,则执行相应的操作
- action 当当前处理的文本行满足条件时,将执行action操作,操作的结果作为命令结果的一部分
FS,RS,$0,$1,..,$n
awk对输入的文本,逐行进行处理以提取每行中各个字段值,为了达到这个目的,awk需要知道如下信息:
- 每行的结尾符是什么,即awk如何判定一定读取完某一个
- 每行文本以什么样的字符串来进行文本行切割以得到各个字段
- 分割得到的这些字段(可能有多个),如何读取,比如用户只希望得到示例数据中每行的Name列,忽略其它
1. 行结尾符
awk使用内置变量RS(Record )来设置行结尾符,默认是文本结束符\n,可以通过为RS赋值来设置结尾符(这适用于没有整个文本只有一行)。比如RS=end,表示使用end来把文本切割为多行
2. 字段分割符
awk使用内置变量FS(Field)来设置字段分隔符,默认是一个空格或者一个制表符\t。可以通过FS赋值来设置字段分隔符,例如FS=" ",使用两个空格作为分隔符。awk可以使用-F参数来设置字段分割符
3.$0, $1..$n
使用awk对一行文本按照给定的字段分割符进行处理后,如何引用各个字段的值。比如在示例数据中分割为多列后,如何取出每一列的值,这就是用到了$0..$n。其中$0表示当前处理的全文本行,$1表示第一列,$2表示第二列,。。$n表示第n列
示例:
1.打印四行完整数据
awk '{print}' data.txt
awk -F " " '{print $0}'
awk 'FS=" " {print}'
awk 'BEGIN{FS=" "} {print}'
输出结果:四行完整的数据
2.打印用户名
awk 'BEGIN{FS=" " ; print "用户名"} /^A/ {print $2}' data.txt
注意:
- 使用;分割FS赋值和print输出命令
- /^A/正则表达式表示以A开头的行被选中
输出结果:
用户名
Tom
Jack
Alex
3.计算每个人的总工资
awk 'BEGIN{FS=" " ; print "用户名\t月收入"} /^A/ {total = $3 + $4; print $2 , total}' data.txt
输出结果:
用户名 月收入
Tom 13112
Jack 9999
Alex 8221
4.输出Salary在9000以上的用户名和工资
awk 'BEGIN{FS=" " ; print "用户名\t月收入"} /^A/ {if ($3 >= 9000) print $2,$3} ' data.txt