格式:awk -F '[分隔符]' '{pattern + action}' filename[s]
工作方式:awk对指定filename[s]逐行扫描,从第一行到最后一行,读入有'\n'换行符分割的一条记录,然后将记录按指定的域分隔符划分域,每个域部分再进行各种分析处理,寻找匹配的特定模式的行。如果没有指定处理动作,则把匹配的行显示到标准输出(屏幕),如果没有指定模式,则所有被操作所指定的行都被处理。
说明:awk是一个强大的文本分析工具,用于在linux/unix下对文本和数据进行处理,awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk,gawk 是 AWK 的 GNU 版本;模式pattern可以是正则表达式、关系表达式、模式匹配表达式,变量要用' '括起来(awk '$9 ~ /'$pattern'/ {print $6" "$7" "$8}');操作action由一个或多个命令、函数、表达式组成,之间由换行符或分号隔开,
参数:
-F fs: 指定输入文件折分隔符,FS是一个字符串或者是一个正则表达式,默认是空格或tab,可以同时使用多个域分隔符,这时应该把分隔符写成放到方括号中,,如$awk -F'[:\t]' '{print $1,$3}' test,表示以空格、冒号和tab作为分隔符。
-v var=value: 赋值一个用户定义变量
-f scripfile: 从脚本文件中读取awk命令
BEGIN:让用户指定在第一条输入记录被处理之前所发生的动作,通常可在这里设置全局变量。
BEGIN模块后紧跟着动作块,这个动作块在awk处理任何输入文件之前执行。所以它可以在没有任何输入的情况下进行测试。它通常用来改变内建变量的值,如OFS,RS和FS等,以及打印标题。如:$ awk 'BEGIN{FS=":"; OFS="\t"; ORS="\n\n"}{print $1,$2,$3} test。上式表示,在处理输入文件以前,域分隔符(FS)被设为冒号,输出文件分隔符(OFS)被设置为制表符,输出记录分隔符(ORS)被设置为两个换行符。$ awk 'BEGIN{print "TITLE TEST"}只打印标题。
END:让用户在最后一条输入记录被读取之后发生的动作
END不匹配任何的输入文件,但是执行动作块中的所有动作,它在整个输入文件处理完成后被执行。如$ awk 'END{print "The number of records is" NR}' test,上式将打印所有被处理的记录数。
print函数的参数可以是变量、数值或者字符串。自定义的内容如字符串、分隔符必须用双引号引用,逗号如果不用双引号输出为空格,输出域的分隔符默认是一个空格,保存在OFS中。如$ awk -F: '{print $1,$5}' test,$1和$5间的逗号就是OFS的值。
内建变量FS保存输入域分隔符的值,默认是空格或tab。可以通过-F命令行选项修改FS的值。可以同时使用多个域分隔符,此时需把分隔符放到方括号中,如$awk -F'[:/t]' '{print $1,$3}' test,表示以空格、冒号和tab作为分隔符
[root@justin ~]# touch /home/last [root@justin ~]# last -n 5 > !$ last -n 5 > /home/last [root@justin ~]# cat /home/last root pts/010.15.72.73 Thu Nov 21 16:45 still logged in reboot system boot 2.6.32-279.el6.i Thu Nov 21 16:45 - 15:46 (23:01) root pts/010.15.72.73 Mon Nov 18 11:02 - down (1+21:13) reboot system boot 2.6.32-279.el6.i Mon Nov 18 10:23 - 08:16 (1+21:53) root pts/010.15.72.73 Fri Nov 15 15:27 - down (02:09) wtmp begins Wed Nov 13 17:30:52 2013 [root@justin ~]# awk '{print $3}' /home/last 10.15.72.73 boot 10.15.72.73 boot 10.15.72.73 Wed [root@justin ~]# tail -5 /etc/passwd|awk -F ':' '{print $1}' nfsnobody abrt sshd tcpdump justin [root@justin ~]# tail -5 /etc/passwd|awk -F':' '{print $1"\t"$7}' nfsnobody /sbin/nologin abrt /sbin/nologin sshd /sbin/nologin tcpdump /sbin/nologin justin /bin/bash [root@justin ~]#
显示/etc/passwd最后5个账户和账户对应的shell,而账户与shell之间以逗号分割,而且在所有行添加列名name,shell,在最后一行添加"justin1,/bin/nosh"。
[root@justin ~]# tail -5 /etc/passwd|awk -F : 'BEGIN {print "name,shell"} {print $1","$7} END {print "justin1,/bin/nosh"}' name,shell nfsnobody,/sbin/nologin abrt,/sbin/nologin sshd,/sbin/nologin tcpdump,/sbin/nologin justin,/bin/bash justin1,/bin/nosh [root@justin ~]# tail -5 /etc/passwd|awk -F : 'BEGIN {print "name,shell"} {print $1 , $7} END {print "justin1,/bin/nosh"}' name,shell nfsnobody /sbin/nologin abrt /sbin/nologin sshd /sbin/nologin tcpdump /sbin/nologin justin /bin/bash justin1,/bin/nosh
环境变量:
NF:当前记录已经浏览域的个数,$NF 最后一个域值,$(NF-1)倒数第二个域....
NR:已读的记录数,每处理完一条记录,NR的值就增加1,,$NR 第几条记录的域值,NR=3,$NR 第三个域的值
打印最后一行最后一个域
[root@localhost platform.wizards]# ls -lrt out-* -rw-r--r--. 1 root root 70897310 Aug 10 18:00 out-23.log -rw-r--r--. 1 root root 646081744 Aug 24 05:28 out-37.log -rw-r--r--. 1 root root 2614436097 Sep 29 05:34 out-38.log -rw-r--r--. 1 root root 869 Oct 7 00:09 out-115.log -rw-r--r--. 1 root root 902 Oct 7 00:13 out-138.log -rw-r--r--. 1 root root 903 Oct 7 00:18 out-161.log -rw-r--r--. 1 root root 231190061 Oct 8 05:30 out-183.log -rw-r--r--. 1 root root 79889728 Oct 9 12:13 out-218.log -rw-r--r--. 1 root root 1364561105 Oct 26 06:09 out-235.log -rw-r--r--. 1 root root 1505025643 Nov 15 11:14 out-237.log -rw-r--r--. 1 root root 29474 Nov 15 17:59 out-239.log -rw-r--r--. 1 root root 643381486 Nov 23 07:12 out-240.log [root@localhost platform.wizards]# ls -lrt out-*|awk 'END {print $NF}' out-240.log [root@localhost platform.wizards]#
$n:当前行的第n个域,域间由分隔符隔开,$1表示当前行第一个域,$2表示第二个域,$0表示整行记录;默认情况下各域以空格或tab分隔开
ARGC: 命令行参数的数目。
ARGV 命令行参数排列
FILENAME: 当前文件名,awk浏览的文件名 ,注意大小写
FS 字段分隔符(默认是任何空格),等价于命令行 -F选项
OFS 输出字段分隔符(默认值是一个空格)
ORS 输出记录分隔符(默认值是一个换行符)
RS 记录分隔符(默认是一个换行符)
统计/etc/passwd:文件名,每行的行号,每行的列数,对应的完整行内容:
[root@justin ~]# awk -F: '{print "filename : " FILENAME,";""linenumber : " NR,";""Total number of columnsis :" NF,";""linename : " $0}' /etc/passwd ...... filename : /etc/passwd;linenumber : 32 ;Total number of columnsis :7 ;linename : abrt:x:173:173::/etc/abrt:/sbin/nologin filename : /etc/passwd;linenumber : 33 ;Total number of columnsis :7 ;linename : sshd:x:74:74:Privilege-separated SSH:/var/empty/sshd:/sbin/nologin filename : /etc/passwd;linenumber : 34 ;Total number of columnsis :7 ;linename : tcpdump:x:72:72::/:/sbin/nologin filename : /etc/passwd;linenumber : 35 ;Total number of columnsis :7 ;linename : justin:x:500:500:justin:/home/justin:/bin/bash
awk中执行linux的命令
awk可以用getline或system来调用shell的命令,在awk的print中我们可以直接调用shell命令,但都需要把命令放在双引号里,如:END{print "\nIP:'$IP'";system("date")|getline d;print d;close("date")}' 或者END{print "\nIP:'$IP'";"date"|getline d;print d;close("date")}'
注意:1、在awk中打开一个管道,且同一时刻只能有一个管道存在。执行完一个命令,最好立即调用close()关闭管道。
2、getline 是awk里用于输入重定向的一个函数,他可以从标准输入/一个管道/文件读取输入, 而不只是从当前被处理的文件来处理, 他取得输入的下一行并给NF,NR,FNR等内制变量置值,如果读取成功,getline返回1;如果读到文件结束符,getline返回0;如果发生错误,例如打不开文件,getline返回-1. 所以,getline可以用于while循环中;getline除了可以通过管道从shell命令里读取数据外,它还可以从标准输入(用"-"指定从标准输入读入,或者如果命令行没有任何输入文件且不用 重定向符"<"指定文件,默认也是从标准输入读)和文件里读取数据;如果getline后面没有指定变量,则读取的数据会放到$0里面
3、system的返回值是cmd的退出状态.如果要获得cmd的输出,就要和getline结合使用
4、如果system()括号里面的参数没有加上双引号的话,awk认为它是一个变量,它会从awk的变量里面把它们先置换为常量,然后再回传给shell
如果system()括号里面的参数有加上双引号的话,那么awk就直接把引号里面的内容回传给shell,作为shell的“命令行”
5、system()是新开一个shell,在相应的cmdline参数送回给shell,所以要注意当前shell变量与新开shell变量环境变量的问题
awk使用shell变量及shell使用awk中的变量
调用shell脚本里面自定义变量
双引号+单引号+双引号+shell变量+双引号+单引号+双引号”的格式:awk '{print "'"$VAR1"'", "'"$VAR2"'"}' input_file
IP=`ifconfig |grep -i "inet addr"|grep -v "127.0.0.1"|awk '{print $2}'|awk -F':' '{print $2}'|paste -s -d','` cat /tmp/iptables.txt|awk 'BEGIN {print "\[流泪\]IPtalbes Forward Restart!\n"} {print} END{print "\nIP:'$IP'";"date"|getline d;print d;close("date")}'
shell中使用awk程序中定义的变量
例如:
eval $(awk 'BEGIN{print "var1='str1';var2='str2'"}')
或者eval $(awk '{printf("var1=%s; var2=%s; var3=%s;",$1,$2,$3)}' abc.txt)
之后可以在当前shell中使用var1,var2等变量了。
echo "var1=$var1 ----- var2=$var2"
一个检测磁盘空间使用情况的脚本的例子
#!/bin/sh #文件系统名字 FILE_SYSTEM_NAME="rootfs" #文件系统挂在的目录 MOUNTED_ON="/" # shell命令使用awk中定义的变量spaceSize eval $(df -P | awk '$1=="'"$FILE_SYSTEM_NAME"'" && $6=="'$MOUNTED_ON'" {printf("spaceSize=%s;",$5)}') echo "主磁盘的使用空间为$spaceSize" spaceSize=`echo $spaceSize | cut -d% -f1` if [ aa$spaceSize = "aa" ]; then spaceSize=-1 fi if [ $spaceSize -le 85 ]; then echo '主磁盘的使用空间充足' elif [ $spaceSize -eq -1 ]; then echo '没有找到主磁盘使用空间,请检查脚本' else echo '主磁盘的使用空间超过阈值' fi
匹配操作符:
[root@justin ~]# awk "/root/" /etc/passwd root:x:0:0:root:/root:/bin/bash operator:x:11:0:operator:/root:/sbin/nologin [root@justin ~]# awk "/^root/" /etc/passwd root:x:0:0:root:/root:/bin/bash [root@justin ~]# awk -F : '/root/ {print $1}' /etc/passwd root operator [root@justin ~]# awk -F : '/root|justin/ {print $1}' /test.txt
范围模版:
范围模板匹配从第一个模板的第一次出现到第二个模板的第一次出现之间所有行。如果有一个模板没出现,则匹配到开头或末尾
[root@justin ~]# touch /home/passwd [root@justin ~]# tail -8 /etc/passwd > /home/passwd [root@justin ~]# cat !$ cat /home/passwd pulse:x:497:496:PulseAudio System Daemon:/var/run/pulse:/sbin/nologin gdm:x:42:42::/var/lib/gdm:/sbin/nologin rpcuser:x:29:29:RPC Service User:/var/lib/nfs:/sbin/nologin nfsnobody:x:65534:65534:Anonymous NFS User:/var/lib/nfs:/sbin/nologin abrt:x:173:173::/etc/abrt:/sbin/nologin sshd:x:74:74:Privilege-separated SSH:/var/empty/sshd:/sbin/nologin tcpdump:x:72:72::/:/sbin/nologin justin:x:500:500:justin:/home/justin:/bin/bash [root@justin ~]# awk "/gdm/,/sshd/" /home/passwd gdm:x:42:42::/var/lib/gdm:/sbin/nologin rpcuser:x:29:29:RPC Service User:/var/lib/nfs:/sbin/nologin nfsnobody:x:65534:65534:Anonymous NFS User:/var/lib/nfs:/sbin/nologin abrt:x:173:173::/etc/abrt:/sbin/nologin sshd:x:74:74:Privilege-separated SSH:/var/empty/sshd:/sbin/nologin [root@justin ~]#
获得外部变量
在awk中,变量不需要定义就可以直接使用,变量类型可以是数字或字符串。
赋值格式:Variable = expression,如$ awk '$1 ~/test/{count = $2 + $3; print count}' test,上式的作用是,awk先扫描第一个域,一旦test匹配,就把第二个域的值加上第三个域的值,并把结果赋值给变量count,最后打印出来。
awk可以在命令行中给变量赋值,然后将这个变量传输给awk脚本。如$ awk -F: -f awkscript month=4 year=2004 test,上式的month和year都是自定义变量,分别被赋值为4和2004。在awk脚本中,这些变量使用起来就象是在脚本中建立的一样。注意,如果参数前面出现test,那么在BEGIN语句中的变量就不能被使用。
域变量也可被赋值和修改,如$ awk '{$2 = 100 + $1; print }' test,上式表示,如果第二个域不存在,awk将计算表达式100加$1的值,并将其赋值给$2,如果第二个域存在,则用表达式的值覆盖$2原来的值。再例如:$ awk '$1 == "root"{$1 ="test";print}' test,如果第一个域的值是“root”,则把它赋值为“test”,注意,字符串一定要用双引号。
内建变量的使用。变量列表在前面已列出,现在举个例子说明一下。$ awk -F: '{IGNORECASE=1; $1 == "MARY"{print NR,$1,$2,$NF}'test,把IGNORECASE设为1代表忽略大小写,打印第一个域是mary的记录数、第一个域、第二个域和最后一个域。
fflush函数用以刷新输出缓冲区,如果没有参数,就刷新标准输出的缓冲区,如果以空字符串为参数,如fflush(""),则刷新所有文件和管道的输出缓冲区。
运算符:
= += -= *= /= %= ^= **= 赋值
|| 逻辑或
&& 逻辑与
[root@Super ~]# cat sed.txt |awk '/GSSAPIAuthentication no/||/GSSAPIAuthentication yes/ {print $0}' GSSAPIAuthentication no GSSAPIAuthentication yes GSSAPIAuthentication yes [root@Super ~]# cat sed.txt |awk '/GSSAPIAuthentication no/&&/GSSAPIAuthentication yes/ {print $0}' GSSAPIAuthentication no GSSAPIAuthentication yes [root@Super ~]# cat sed.txt GSSAPIAuthentication no GSSAPIAuthentication yes GSSAPIAuthentication yes [root@Super ~]#
~和 ~! 匹配后面的正则表达式和不匹配正则表达式;awk '$1 ~ /101/ {print $1}' file 显示文件中第一个域匹配101的行(记录),并打印第一个域
netstat -tnlp|egrep -i "$1"|awk {'print $4'}|awk -F':' '{if ($NF~/^[0-9]*$/) print $NF}'|sort |uniq 2>/dev/null,其中$NF~/^[0-9]*$/表示最后一个域匹配的是数字
< <= > >= != == 关系运算符
空格 连接
+ - 加,减
* / & 乘,除与求余
+ - ! 一元加,减和逻辑非
^ *** 求幂
++ -- 增加或减少,作为前缀或后缀
$ 字段引用 ,$NF表示最后一个域
[root@justin ~]# awk -F: '/root/ && /bash/ {print $0}' /etc/passwd root:x:0:0:root:/root:/bin/bash [root@justin ~]# awk -F: '/root/ {print $0}' /etc/passwd root:x:0:0:root:/root:/bin/bash operator:x:11:0:operator:/root:/sbin/nologin [root@justin ~]# awk -F: '$1=="tcpdump"' /etc/passwd tcpdump:x:72:72::/:/sbin/nologin [root@justin ~]# awk -F: '$3>499 || $4<1' /etc/passwd root:x:0:0:root:/root:/bin/bash sync:x:5:0:sync:/sbin:/bin/sync shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown halt:x:7:0:halt:/sbin:/sbin/halt operator:x:11:0:operator:/root:/sbin/nologin nfsnobody:x:65534:65534:Anonymous NFS User:/var/lib/nfs:/sbin/nologin justin:x:500:500:justin:/home/justin:/bin/bash [root@justin ~]#
函数
print函数的参数可以是变量、数值或者字符串。字符串必须用双引号引用,参数用逗号分隔。如果没有逗号,参数就串联在一起而无法区分。这里,逗号的作用与输出文件的分隔符的作用是一样的,只是后者是空格而已。
gsub
gsub(r,s) 在整个$0中用s替代r
gsub(r,s,t) 在整个t中用s替代r
将一行拆分成多行
[root@localhost ~]# cat test 1,2,3 a,b,c [root@localhost ~]#
拆分后
[root@localhost ~]# cat test 1 1 2 1 3 1 a 2 b 2 c 2 [root@localhost ~]#
解析:
先在每行末加个逗号“,”,不然每行的最后一位数3和c后面的1和2就没有
[root@localhost ~]# sed -i 's/$/,/' test [root@localhost ~]# cat test 1,2,3, a,b,c, [root@localhost ~]# cat test | awk 'BEGIN{i=1}{gsub(/,/,"\t"i"\n");i++;print}' 1 1 2 1 3 1 a 2 b 2 c 2 [root@localhost ~]# cat test | awk 'BEGIN{i=1}{gsub(/,/,"\t"i"\n");i++;print}'|sed '/^$/d' 1 1 2 1 3 1 a 2 b 2 c 2 [root@localhost ~]#
gsub(regular expression, subsitution string, target string);简称 gsub(r,s,t),gsub函数则使得在所有正则表达式被匹配的时候都发生替换
[root@localhost ~]# echo "a b c 2011-11-22 a:d" | awk '$4=gsub(/-/,"",$4)' a b c 2 a:d [root@localhost ~]# echo "a b c 2011-11-22 a:d" | awk 'gsub(/-/,"",$4)' a b c 20111122 a:d [root@localhost ~]# echo "a b c 2011-11-22 a:d" | awk 'gsub(/-/,"_",$4)' a b c 2011_11_22 a:d [root@localhost ~]# echo "a b c 2011-11-22 a:d" | awk 'gsub(/-/,"_")' a b c 2011_11_22 a:d [root@localhost ~]#
gsub(/-/,"",$4)的值是2【在赋值的情况下是这样的~】,你将2赋值给$4 ,gsub返回的是替换的次数
[root@localhost ~]# cat data.test 0001|123efskjfdj|EREADFASDLKJCV 0002|123456djfksdaa|JDKFJALSDJFsddf 0003|12345678efskjfdj|EREADFASDLKJCV 0004|123456789djfksdaa1234|JDKFJALSDJFsddf [root@localhost ~]# awk -F'|' 'BEGIN{OFS="|"}{sub(/[0-9]+/,"",$2);print $0}' data.test 0001|efskjfdj|EREADFASDLKJCV 0002|djfksdaa|JDKFJALSDJFsddf 0003|efskjfdj|EREADFASDLKJCV 0004|djfksdaa1234|JDKFJALSDJFsddf [root@localhost ~]# awk -F'|' 'BEGIN{OFS="|"}{sub(/[0-9]+5/,"",$2);print $0}' data.test #0-9出现任意次数,后面跟随5的替换 $2匹配的第二个域 0001|123efskjfdj|EREADFASDLKJCV 0002|6djfksdaa|JDKFJALSDJFsddf 0003|678efskjfdj|EREADFASDLKJCV 0004|6789djfksdaa1234|JDKFJALSDJFsddf [root@localhost ~]# awk -F'|' 'BEGIN{OFS="|"}{sub(/[0-9]+2/,"2018",$1);print $0}' data.test 0001|123efskjfdj|EREADFASDLKJCV 2018|123456djfksdaa|JDKFJALSDJFsddf 0003|12345678efskjfdj|EREADFASDLKJCV 0004|123456789djfksdaa1234|JDKFJALSDJFsddf [root@localhost ~]#
gsub匹配所有的符合模式的字符串,相当于 sed 's//g' 。
sub匹配第一次出现的符合模式的字符串,相当于 sed 's//' 。
sub函数匹配指定域/记录中最大、最靠左边的子字符串的正则表达式,并用替换字符串替换这些字符串。如果没有指定目标字符串就默认使用整个记录。替换只发生在第一次匹配的时候
$ awk '{ sub(/test/, "mytest"); print }' testfile #在整个记录中匹配,替换只发生在第一次匹配发生的时候。
$ awk '{ sub(/test/, "mytest", $1); print }' testfile #在整个记录的第一个域中进行匹配,替换只发生在第一次匹配
$ awk '{ gsub(/test/, "mytest"); print }' testfile #在整个文档中匹配test,匹配的都被替换成mytest。
$ awk '{ gsub(/test/, "mytest", $1); print }' testfile #在整个文档的第一个域中匹配,所有匹配的都被替换成mytest
例如:截取路径部分的目录
[root@localhost ~]# cat gsub.txt serv_dir=/home/level2/ini/netunitht.xml serv_dir=/home/level2/rawfiles/publicch/proxy_sysht.zip serv_dir=/home/level2/user/userini/dzhhqserverht.ini serv_dir=/home/level2/user/userini/autoupdateht.ini [root@localhost ~]# cat gsub.txt | sed "s/^.*=//"|awk -F'/' '{gsub($NF,"");print}'|sort -bu /home/level2/ini/ /home/level2/rawfiles/publicch/ /home/level2/user/userini/ [root@localhost ~]#
在赋值的情况下gsub返回的是替换的次数
[root@localhost ~]# echo "a b c 2011-11-22 a:d" | awk '$4=gsub(/-/,"",$4)' a b c 2 a:d [root@localhost ~]#
gsub(/-/,"",$4)的值是2
length
length函数返回没有参数的字符串的长度。length函数返回整个记录中的字符数,length($n)返回弟n个域的字符串长度
echo "1234567"|awk '{print length}'
[root@localhost ~]# echo "1234567"|awk '{print length}' 7 [root@Super ~]# awk -F'=' 'length($2)<7{print $2}' test.txt dweere [root@Super ~]# cat test.txt adfa=dweere=dabw3d=kj8kjfadf [root@Super ~]# awk -F'=' 'length($2)<7{print $2"\t"length($2)}' test.txt dweere 6 [root@Super ~]# awk -F'=' '{if(length($2)<7) print $2"\t"length($2)}' test.txt dweere 6 [root@Super ~]#
index
index(String1,String12) 在由 String1 参数指定的字符串(其中有出现 String2 指定的参数)中,返回位置,从 1 开始编号。如果 String2 参数不在 String1 参数中出现,则返回 0(零)。
index( String1, String2 )
blength
blength [(String)] 返回 String 参数指定的字符串的长度(以字节为单位)。如果未给出 String 参数,则返回整个记录的长度($0 记录变量)。
match
match(s,r) 测试s是否包含匹配r的字符串
tolower
tolower( String ) 返回 String 参数指定的字符串,字符串中每个大写字符将更改为小写。大写和小写的映射由当前语言环境的 LC_CTYPE 范畴定义。
toupper( String ) 返回 String 参数指定的字符串,字符串中每个小写字符将更改为大写。大写和小写的映射由当前语言环境的 LC_CTYPE 范畴定义。
sprintf
sprintf(Format, Expr, Expr, … ) 根据 Format 参数指定的 printf 子例程格式字符串来格式化 Expr 参数指定的表达式并返回最后生成的字符串。
gensub
gensub(a,b,c[,d])全局替换,匹配正则a, 用b替换,c为指定替换目标是第几次匹配,d为指定替换目标是哪个域如$1,$2,若无d指$0,返回值为target替换后内容(未替换还是返回 target原内容),与sub、gsub不同的是,target内容替换后不改变
eg:
gensub(/123/,"x",1,$1)替换$1中 第一次匹配到的123为字符x,返回值为$1替换后的内容,且$1的内容并没有改变
gensub(/a(.*)b/,"\\1",1) 返回值为匹配正则第1对()内的内容
gensub(/a(.*)b(.*)c/,"\\2",1) 返回值为匹配正则第2对()内的内容
substr
截取字符串,返回从起始位置起,指定长度之子字符串;若未指定长度,则返回从起始位置到字符串末尾的子字符串。
格式:
substr(s,p) 返回字符串s中从第p个字符串开始到结尾的后缀部分
substr(s,p,n) 返回字符串s中从第p个字符串开始长度为n的后缀部分
[root@localhost ~]# echo "1234|abcd|ab12"|awk '{print substr($0,6,4)}' #返回从第6个字符串开始长度为4的部分 abcd [root@localhost ~]# echo "1234|abcd|ab12"|awk '{print substr($0,6,8)}' abcd|ab1 [root@localhost ~]# echo "1234|abcd|ab12"|awk -F'|' '{print substr($3,2,2)}' #返回以|为分隔符的第3个域的第2个字符串开始长度为2的部分 b1 [root@localhost ~]# echo "1234|abcd|ab12"|awk -F'|' '{print substr($3,2)}' #返回以|为分隔符的第3个域的第2个字符串到字符串末尾的部分 b12 [root@localhost ~]# cat substr.txt 115!16201!1174113017250745 10.86.96.41 211.140.16.1 200703180718 F125!16202!1174113327151715 10.86.96.42 211.140.16.2 200703180728 F235!16203!1174113737250745 10.86.96.43 211.140.16.3 200703180738 F245!16204!1174113847250745 10.86.96.44 211.140.16.4 200703180748 F355!16205!1174115827252725 10.86.96.45 211.140.16.5 200703180758 [root@localhost ~]# awk -F'!' '{ print substr($3,6,11)}' substr.txt 13017250745 13327151715 13737250745 13847250745 15827252725 [root@localhost ~]#
split
初始化和类型强制,awk的内建函数split允许你把一个字符串分隔为单词并存储在数组中。你可以自己定义域分隔符或者使用现在FS(域分隔符)的值。
格式:
split (string, array, field separator)
split (string, array) -->如果第三个参数没有提供,awk就默认使用当前FS值。
[root@localhost ~]# time="12:34:56" [root@localhost ~]# out=`echo $time | awk '{split($0,a,":");print a[1],a[2],a[3]}'` [root@localhost ~]# echo $out 12 34 56 [root@localhost ~]# cat out-130.log +08:00 2019-01-08 11:59:30.935 : task:nw.platform.wizards_securities-SqlReader0057 ; cost:24 ms ; size:0 ; tmstamp:5069194669-5069195668 +08:00 2019-01-08 12:59:30.938 : task:nw.platform.wizards_securities-SqlReader0057 ; cost:3 ms ; mark:0 ; last:5069194668 +08:00 2019-01-08 13:59:30.989 : task:nw.platform.wizards_securities-SqlReaderPersonalName ; cost:81 ms ; size:0 ; tmstamp:5075630629-5075631628 +08:00 2019-01-08 13:59:30.992 : task:nw.platform.wizards_securities-SqlReaderPersonalName ; cost:3 ms ; mark:0 ; last:5075630628 +08:00 2019-01-08 14:59:31.345 : task:nw.platform.wizards_securities-SqlReader0057 ; cost:443 ms ; size:0 ; tmstamp:5069194669-5069195668 +08:00 2019-01-08 15:59:31.347 : task:nw.platform.wizards_securities-SqlReader0057 ; cost:2 ms ; mark:0 ; last:5069194668 [root@localhost ~]# cat out-130.log |grep '2019-01-08'|awk '{split($3,A,":");if(A[1]>="13" && A[1]<"14"){print $0}}' //过滤13-14点的日志 +08:00 2019-01-08 13:59:30.989 : task:nw.platform.wizards_securities-SqlReaderPersonalName ; cost:81 ms ; size:0 ; tmstamp:5075630629-5075631628 +08:00 2019-01-08 13:59:30.992 : task:nw.platform.wizards_securities-SqlReaderPersonalName ; cost:3 ms ; mark:0 ; last:5075630628 [root@localhost ~]# cat awk.txt [22/Feb/2017-18:51:21] api.momo.com /api/feed HTTP/1.1 121.0.0.1 iphone1.1 [root@localhost ~]# cat awk.txt|awk '{split($1,array,"[");split(array[2],array2,"]");if(array2[1] >= "22/Feb/2017-18:52:59"){print($0)}}
systime、strftime
systime函数将返回自1970 年1月l日以来经过的时间(按秒计算)。
[root@localhost ~]# date Tue May 22 19:35:29 CST 2018 [root@localhost ~]# awk 'BEGIN{a=systime();print a}' 1526988930 [root@localhost ~]#
strftime函数使用C库中的strftime函数对时间进行格式化。格式形式可以为%T %D等(参见下表)。时间戳的格式和systime函数返回值所采用的格式一样,如果不使用时间戳,则以当前的时间为默认时间。
[root@localhost ~]# awk 'BEGIN{a=strftime("%c");print a}' Tue 22 May 2018 07:37:27 PM CST [root@localhost ~]# awk 'BEGIN{a=strftime("%m%d%y");print a}' 052218 [root@localhost ~]# awk 'BEGIN{a=strftime("%m%d%Y");print a}' 05222018 [root@localhost ~]#
日期格式定义
%a简写的星期名(如Sun)
%A完整的星期名(如Sunday)
%b简写的月名(如Oct)
%B完整的月名(如October)
%c本地的日期和时间(如Sun Oct 17 15:26:46 2014)
%d用十进制表示的月份中的某一夭( 如17)
%D采用10/17/14 形式表示的日期
%e月份中的某一夭,如果只有一位数字,用空格填充份
%H用十进制表示的24 小时制的小时数以( 如15)
%I用十进制表示的12 小时制的小时数( 如03)
%j用十进制表示的从当年1 月1 日以来的天数。(如290)
%m用十进制表示的月数( 如10)
%M用十进制表示的分钟数( 如26)
%p采用12 小时制表示的AM/PM 表示法(如PM)
%S用十进制表示的秒数(如26)
%U用十进制表示的一年中的周数(星期日作为一周的开始)(如42)
%w用十进制表示的星期数(如星期日为0)
%W用十进制表示的一年中的周数(星期一作为一周的开始)(如41)
%x本地日期(如 10/17/14)
%X本地时间(如15:26:26)
%y用十进制表示的年份(采用两位十进制表示,如14)
%Y带世纪的年份(如2004)
%Z时间区(如PDT)
%%一个百分号字符标记(%)
几个实例
$ awk '/^(no|so)/' test-----打印所有以模式no或so开头的行。
$ awk '/^[ns]/{print $1}' test-----如果记录以n或s开头,就打印这个记录。
$ awk '$1 ~/[0-9][0-9]$/(print $1}' test-----如果第一个域以两个数字结束就打印这个记录。
$ awk '$1 == 100 || $2 < 50' test-----如果第一个或等于100或者第二个域小于50,则打印该行。
$ awk '$1 != 10' test-----如果第一个域不等于10就打印该行。
$ awk '/test/{print $1 + 10}' test-----如果记录包含正则表达式test,则第一个域加10并打印出来。
$ awk '{print ($1 > 5 ? "ok "$1: "error"$1)}' test-----如果第一个域大于5则打印问号后面的表达式值,否则打印冒号后面的表达式值。
$ awk '/^root/,/^mysql/' test----打印以正则表达式root开头的记录到以正则表达式mysql开头的记录范围内的所有记录。如果找到一个新的正则表达式root开头的记录,则继续打印直到下一个以正则表达式mysql开头的记录为止,或到文件末尾。
if语句
格式:
{if (expression){
语句; 语句; ...
}
}
$ awk '{if ($1 <$2) print $2 "too high"}' test。如果第一个域小于第二个域则打印。
$ awk '{if ($1 < $2) {count++; print "ok"}}' test.如果第一个域小于第二个域,则count加一,并打印ok。
注意:1、if 条件后面的语句块,如果是单个语句,可以省略花括号,如果是多个语句,必须用花括号
2、awk对大括号和语句的位置没有特殊的要求(和sed不同)。左大括号放在条件表达式后面,可以与条件表达式位于一行也可以在下一行。第一条语句可以紧跟左大括号或从下一行开始,右大括号可以与最后一条语句位于同一行也可以在下一行。在大括号的前后允许有空格或制表符。虽然没有要求语句缩进书写,但这样可以改善可读性。
[root@localhost ~]# cat mul.txt ABCD 1234 ab cd ABC 5678 12 3c ab 1234 3d 45 AB 12 ab cd ab CD 12 34 [root@localhost ~]# awk '{if($2==1234){print $1,$NF}}' mul.txt ABCD cd ab 45 [root@localhost ~]#
if/else语句,用于双重判断
格式:
{if (expression){statement; statement; ...}
else{statement; statement; ...}
}
$ awk '{if ($1 > 100) print $1 "bad" ; else print "ok"}' test。如果$1大于100则打印$1 bad,否则打印ok。
$ awk '{if ($1 > 100){ count++; print $1} else {count--; print $2}' test。如果$1大于100,则count加一,并打印$1,否则count减一,并打印$1。
注意:if 条件后面的语句块,如果是单个语句,可以省略花括号,如果是多个语句,必须用花括号
if/else else if语句,用于多重判断
格式:
{if (expression){statement; statement; ...}
else if (expression){statement; statement; ...}
else if (expression){statement; statement; ...}
else {statement; statement; ...}
}
if (avg >= 90) grade = "A"
else if (avg >= 80) grade = "B"
else if (avg >= 70) grade = "C"
else if (avg >= 60) grade = "D"
else grade = "F"
[root@localhost ~]# awk '{if($2==1234){print $NF}else if($2==1234 && $3==ab){print $3$NF}else if($1==ab)print $NF;else{print $0}}' mul.txt
循环
awk有三种循环:while循环;for循环;special for循环。
while循环:
使用while循环的时候第一步先给一个变量设初始值。然后在while表达式中测试该变量。
$ awk '{ i = 1; while ( i <= NF ) { print NF,$i; i++}}' test。变量的初始值为1,若i小于可等于NF(记录中域的个数),则执行打印语句,且i增加1。直到i的值大于NF.
for循环
$ awk '{for (i = 1; i $awk '{for(i=2;i<17;i++) {printf("%s ",$i)} print $NF"\n"}' 输出连续的多列 break、continue语句: break用于在满足条件的情况下跳出循环;continue用于在满足条件的情况下忽略后面的语句,直接返回循环的顶端。如: {for ( x=3; x<=NF; x++) {for ( x=3; x<=NF; x++) next语句从输入文件中读取一行,然后从头开始执行awk脚本。如: {if ($1 ~/test/){next} exit语句用于结束awk程序,但不会略过END块。退出状态为0代表成功,非零值表示出错。 待完善......
if ($x<0){print "Bottomed out!"; break}}
if ($x==0){print "Get next item"; continue}}
else {print}
}