概述
awk 是一种编程语言,她是由AT&T 贝尔实验室的Alfred Aho, Peter Weinberger 和Brian Kernighan开发的,Brian Kernighan。目前仍在维护及增强awk。awk的语法与C类似。
调用
1.awk ‘pattern-action statements’ input_file_list
2.将awk命令插入一个文件,并使awk程序可以执行,然后用awk命令解释器作为脚本首行。
3.将所有awk命令插入一个单独文件
awk -f awk-script-file inputfile
模式和动作
一个awk 程序是由一系列的"模式-动作"语句构成的:
pattern {action}
pattern {action}
pattern {action}
……
awk 程序为每个输入行依次地进行每一个"模式"的匹配寻找,对每一个匹配上的模式执行相应的"动作",接着读取下一行并再次开始匹配,直到所有的输入都处理完毕。
在一条语句中可以省略"模式"或者"动作",缺省的模式为匹配所有行,缺省的动作为输出当前行:print $0。无论何时,动作都必须用花括号引起来。
awk 从输入中一次读取一行(一条记录),缺省的行分割符(记录分割符)为\n。
然后awk 将记录分割为一个个的字段,缺省的字段分割符为“Blank”(空白)。一行中的第一个字段称为$1,第二个字段称为$2,. . . ,整个记录称为$0。
打印
一个动作可以没有模式,在这种情况下动作在所有行上执行。最简单的动作是打印某些或所有的记录;这可以通过 awk 命令 print 来完成。awk 程序{ print }打印每个记录,也就是把输入完好的复制到输出。更有用的是打印来自每个记录的一个字段或某些字段。例如
awk ‘{print $2, $1}’ filename
按逆序打印前两个字段。在 print 语句中用逗号分隔的项,在输出的时候会用当前输出字段分隔符分隔开。没有用逗号分隔的项会串联起来,所以
awk ‘{ print $1 $2 }’ filename
把第一个和第二个字段合在一起。
可以使用预定义的变量 NF 和 NR;例如
awk ‘{ print NR, NF, $0 }’ filename
打印出前导了记录数和字段数的每个记录。
输出可以被重定向到多个文件中
awk ‘{ print $1 >"foo1"; print $2 >"foo2" }’ filename
写第一个字段 $1 到文件 foo1 中,写第二个字段到文件 foo2 中。还可以使用 >> 符号:
awk ‘{ print $1 >>"foo" }’ filename
添加输出到文件 foo。(在每种情况下,输出文件都在必要时建立)。
文件名可以是一个变量或字段,同常量一样;例如
awk ‘{ print $1 >$2 }’ filename
使用字段 2 的内容作为文件名字。
自然的,有对输出文件数目的限制,目前是 10 个。
awk 还提供 printf 语句用于输出格式化:
printf format,expr, expr, …
依据在 format 中的规定格式化在列表中的表达式并打印它们。例如,
awk ‘{ printf "%8.2f %10ld\n", $1, $2 }’ filename
打印 $1 为 8 位宽的小数点后有两位的浮点数,打印 $2 为 10 位长的长十进制数,并跟随着一个换行。不自动生成输出分隔符;你必须自己增加它们,如这个例子那样。这个版本的printf 同于C 所使用的。
输出
1.抽取域
awk -F: ‘{print $1}’ /etc/passwd # -F 指定字段分割符
2.保存输出
awk -F: ‘{print $1}’ /etc/passwd | tee user
awk -F: ‘{print $1}’ /etc/passwd >user
3.使用标准输出
awk ‘/root/’ /etc/passwd # /xxx/为正则表达式,表示打印包含"root"的行
4.打印所有记录
awk ‘{print $0}’ /etc/passwd
5.打印表头
awk -F: ‘BEGIN {print "NAME\n"} {print $1}’ /etc/passwd
6.打印表尾
awk -F: ‘{print $1} END {print "this is all users"}’ /etc/passwd
条件操作符
1.匹配
awk ‘{if($1~/root/) print $0}’ /etc/passwd #如果field1包含"root",打印该行
2.精确匹配
!= ==
3.不匹配
!~
4.大小比较
> >= < <=
5.设置大小写
awk ‘/^[Rr]oot/’ /etc/passwd # 打印包含行首为Root或者root的行
6.任意字符
awk ‘$2~/^…a/’ /etc/passwd # 打印第二个字段开头第四个字母为a的行
7.或关系匹配
awk ‘/(root|ftp)/’ /etc/passwd #打印包含"root"或者"ftp"的行
8.AND && OR ||
awk ‘{$1~/mail/ && $7==/bin/bash}’ /etc/passwd
系统变量:
ARGV 命令行参数数组 ENVIRON 环境变量数组 FILENAME 当前输入文件名 FNR 当前文件中的记录号 FS 字段分隔符 IGNORECASE 忽略正则表达式和串的大小写 NF 当前记录中的字段数 NR 至今读取的记录数 OFMT 数的输出格式,缺省为"%.6g" OFS 输出字段分隔符 ORS 输出记录分隔符 RS 输入记录分隔符 RSTART 由match() 匹配的第一个字符的索引 RLENGTH 由match() 匹配的串的长度 SUBSEP 下标分隔符,缺省为"�34"
内置字符串函数
gsub(r,s,t) 在字符串t中,用字符串s替换和正则表达式r匹配的所有字符串。返回替换的个数。如果没有给出t,缺省为$0 index(s,t) 返回s 中字符串t 的位置,不出现时为0 length(s) 返回字符串s 的长度,当没有给出s时,返回$0的长度 match(s,r) 返回r 在s 中出现的位置,不出现时为0。设置RSTART和RLENGTH的值 split(s,a,r) 利用r 把s 分裂成数组a,返回元素的个数。如果没有给出r,则使用FS。数组分割和字段分割采用同样的方式 sprintf(fmt,expr_list) 根据格式串fmt,返回经过格式编排的expr_list sub(r,s,t) 在字符串t中用s替换正则表达式t的首次匹配。如果成功则返回1,否则返回0。如果没有给出t,默认为$0 substr(s,p,n) 返回字符串s中从位置p开始最大长度为n的字串。如果没有给出n,返回从p开始剩余的字符串 tolower(s) 将串s 中的大写字母改为小写,返回新串 toupper(s) 将串s 中的小写字母改为大写,返回新串
gsub(r,s,t):
echo ababab | awk ‘gsub(/a/,"c")’ # cbcbcb
sub(r,s,t)
echo ababab | awk ’sub(/a/,"c")’ # cbabab
其余函数自行尝试。
内置算术函数
cos(x) 返回x的余弦值 sin(x) 返回x的正弦值 int(x) 返回x的整数部分 log(x) 返回x的自然对数 sqrt(x) 返回x的平方根 antan2(x) 返回y/x的反正切,值在 -π到 π之间 rand() 返回随机数r,0 <= r < 1 srand(x) 建立rand()的随机种子,如果没有指定种子,则按当天时间。返回旧的种子
cos(x):
pai=$(echo "scale=66; a(1)*4" | bc -l)
awk -va=$pai ‘BEGIN{print cos(a/4)}’ OR awk ‘BEGIN{print cos(’$pai‘/4)}’ #0.707107
其余函数自行尝试。
附算术运算符
x^y x的y次幂
x**y 同上
x%y 计算x/y的余数(求模)
x+y x加y
x-y x减y
x*y x乘y
x/y x除y
-y 负y(y的开关符号);也称一目减
++y y加1后使用y(前置加)
y++ 使用y值后加1(后缀加)
–y y减1后使用y(前置减)
y– 使用后y减1(后缀减)
x=y 将y的值赋给x
x+=y 将x+y的值赋给x
x-=y 将x-y的值赋给x
x*=y 将x*y的值赋给x
x/=y 将x/y的值赋给x x%=y 将x%y的值赋给x
x^=y 将x^y的值赋给x
x**=y 将x**y的值赋给x
awk的两道练习题:
1. 将两个文件合并
源文件:
for i in $(ls comb*); do echo "$i"; cat $i; done
comb1
--daihao --zhanghao
101 aa
102 bb
103 cc
comb2
--daihao --zhanghao
101 aaaa
103 bbbb
104 dddd
awk 'NR==FNR {a[$1]=$2} NR>FNR {printf("%s\t%s\t%s\n",$1,a[$1],$2); delete a[$1]} END {for(i in a) printf("%s\t%s\t%s\n",i,a[i],"")}' comb*
关于NR和FNR的区别,请见:awk的NR和FNR详解
2. 文本统计
源文件:
cat case
Mike Harrington:[510] 548-1916:250:100:175
Christian Dobbins:[408] 538-2358:155:90:201
Susan Dalsass:[206] 654-6279:250:60:50
Archie McNichol:[206] 548-1348:250:100:175
Jody Savage:[206] 548-1278:15:188:150
Guy Quigley:[916] 343-6410:250:100:175
Dan Savage:[406] 298-7744:450:300:275
Nancy McNeil:[206] 548-1278:250:80:75
John Goldenrod:[916] 348-4278:250:100:175
Chet Main:[510] 548-5258:50:95:135
Tom Savage:[408] 926-3456:250:168:200
Elizabeth Stachelin:[916] 440-1763:175:75:300
要求输出成:
***CAMPAIGN 1998 CONTRIBUTIONS***
-----------------------------------------------------------------------------
NAME PHONE Jan Feb Mar Total Donated
-----------------------------------------------------------------------------
Mike Harrington [510] 548-1916 250 100 175 525
Christian Dobbins [408] 538-2358 155 90 201 446
Susan Dalsass [206] 654-6279 250 60 50 360
Archie McNichol [206] 548-1348 250 100 175 525
Jody Savage [206] 548-1278 15 188 150 353
Guy Quigley [916] 343-6410 250 100 175 525
Dan Savage [406] 298-7744 450 300 275 1025
Nancy McNeil [206] 548-1278 250 80 75 405
John Goldenrod [916] 348-4278 250 100 175 525
Chet Main [510] 548-5258 50 95 135 280
Tom Savage [408] 926-3456 250 168 200 618
Elizabeth Stachelin [916] 440-1763 175 75 300 550
-----------------------------------------------------------------------------
SUMMARY
-----------------------------------------------------------------------------
The campaign received a total of $6137 for this quarter.
The average donation for the 12 contributors was 511.417.
The highest contribution was $1025.
The lowest contribution was $280.
使用的AWK脚本如下:
#!/usr/bin/awk
BEGIN{
FS = "[ :]";
print "\t\t\t***CAMPAIGN 1998 CONTRIBUTIONS***";
print "-----------------------------------------------------------------------------";
print "NAME\t\t\tPHONE\t\tJan\tFeb\tMar\tTotal Donated";
print "-----------------------------------------------------------------------------";
sum = 0;
highest = 0;
lowest = 100000;
}
{
$8 = $5+$6+$7
sum += $8
printf("%s %-12s\t%s %s\t%-3s\t%-3s\t%-3s\t%-4s\n", \
$1, $2, $3, $4, $5, $6, $7, $8)
if(highest < $8)
highest = $8
if(lowest > $8)
lowest = $8
}
END{
print "-----------------------------------------------------------------------------";
print "\t\t\t\tSUMMARY";
print "-----------------------------------------------------------------------------";
printf("The campaign received a total of $%s for this quarter.\n", sum);
printf("The average donation for the %d contributors was %s.\n", NR, sum/NR);
printf("The highest contribution was $%s.\n", highest);
printf("The lowest contribution was $%s.\n", lowest);
}
注意BEGIN、END模块后的左括号要在同一行。