awk的环境变量

变量

描述

$n

当前记录的第n个字段,字段间由FS分隔。

$0

完整的输入记录。

ARGC

命令行参数的数目。

ARGIND

命令行中当前文件的位置(0开始算)

ARGV

包含命令行参数的数组。

CONVFMT

数字转换格式(默认值为%.6g)

ENVIRON

环境变量关联数组。

ERRNO

最后一个系统错误的描述。

FIELDWIDTHS

字段宽度列表(用空格键分隔)

FILENAME

当前文件名。

FNR

NR,但相对于当前文件。

FS

字段分隔符(默认是任何空格)

IGNORECASE

如果为真,则进行忽略大小写的匹配。

NF

当前记录中的字段数。

NR

当前记录数。

OFMT

数字的输出格式(默认值是%.6g)

OFS

输出字段分隔符(默认值是一个空格)

ORS

输出记录分隔符(默认值是一个换行符)

RLENGTH

match函数所匹配的字符串的长度。

RS

记录分隔符(默认是一个换行符)

RSTART

match函数所匹配的字符串的第一个位置。

SUBSEP

数组下标分隔符(默认值是/034)

 

awk运算符

 

运算符

描述

= += -= *= /= %= ^= **=

赋值

?:

C条件表达式

||

逻辑或

&&

逻辑与

~ ~!

匹配正则表达式和不匹配正则表达式

< <= > >= != ==

关系运算符

空格

连接

+ -

加,减

* / &

乘,除与求余

+ - !

一元加,减和逻辑非

^ ***

求幂

++ --

增加或减少,作为前缀或后缀

$

字段引用

in

数组成员


 

记录和域

1. 记录

       awk把每一个以换行符结束的行称为一个记录。

       记录分隔符:默认的输入和输出的分隔符都是回车,保存在内建变量ORSRS中。

       $0变量:它指的是整条记录。如$ awk '{print $0}' test将输出test文件中的所有记录。

       变量NR一个计数器,每处理完一条记录,NR的值就增加1

       $ awk '{print NR,$0}' test将输出test文件中所有记录,并在记录前显示记录号。

 

2. 

       记录中每个单词称做“域”,默认情况下以空格或tab分隔awk可跟踪域的个数,并在内建变量NF中保存该值。如$ awk '{print $1,$3}' test将打印test文件中第一和第三个以空格分开的列()

3. 域分隔符

       内建变量FS保存输入域分隔符的值,默认是空格或tab。我们可以通过-F命令行选项修改FS的值。如$ awk -F: '{print $1,$5}' test将打印以冒号为分隔符的第一,第五列的内容。

       可以同时使用多个域分隔符,这时应该把分隔符写成放到方括号中,如$awk -F'[:/t]' '{print $1,$3}' test,表示以空格、冒号和tab作为分隔符。

       输出域的分隔符默认是一个空格保存在OFS。如$ awk -F: '{print $1,$5}' test$1$5间的逗号就是OFS的值。

Linux awk几乎是一种自解释的独立编程语言。它的最基本的功能就是在文件和字符串中基于指定规则浏览和抽取信息。有三种方式可以调用awk,第一种是命令行方式,例如:

 

Java代码  
  1. awk [-F seperator-fields]  'commands' input-file  

 

      commands是真正的awk命令,即由一系列的大括号组成,-F 域分割符 这个是可选的,awk默认采用空格来分割,但是对于/etc/passwd这样的文件,可能就需要采用冒号:  这样的分割符号。

 

      第二种方式是将所有的awk命令插入一个文件,并使awk程序可执行,然后用awk命令解释器作为脚本的首行,以便通过键入脚本名称来调用它

      第三种方式是将所有awk命令插入一个单独的文件,然后输入以下命令来调用: 

1awk '/101/' file 显示文件file中包含101的匹配行。 
awk '/101/,/105/' file 
awk '$1 == 5' file 
awk '$1 == "CT"' file
注意必须带双引号 
awk '$1 * $2 >100 ' file 
awk '$2 >5 && $2<=15' file 


2
awk '{print NR,NF,$1,$NF,}' file 显示文件file的当前记录号、域数和每一行的第一个和最后一个域。 
awk '/101/ {print $1,$2 + 10}' file
显示文件file的匹配行的第一、二个域加10 
awk '/101/ {print $1$2}' file 
awk '/101/ {print $1 $2}' file
显示文件file的匹配行的第一、二个域,但显示时域中间没有分隔符。 


3
df | awk '$4>1000000 ' 通过管道符获得输入,如:显示第4个域满足条件的行。 


4
awk -F "|" '{print $1}' file 按照新的分隔符“|”进行操作。 
awk 'BEGIN { FS="[: /t|]" } 
{print $1,$2,$3}' file
通过设置输入分隔符(FS="[: /t|]")修改输入分隔符。
 
Sep="|" 
awk -F $Sep '{print $1}' file
按照环境变量Sep的值做为分隔符。
 
awk -F '[ :/t|]' '{print $1}' file
按照正则表达式的值做为分隔符,这里代表空格、:TAB|同时做为分隔符。
 
awk -F '[][]' '{print $1}' file
按照正则表达式的值做为分隔符,这里代表[


5
awk -f awkfile file 通过文件awkfile的内容依次进行控制。 
cat awkfile 
/101/{print "/047 Hello! /047"} --
遇到匹配行以后打印 ' Hello! './047代表单引号。 
{print $1,$2} --
因为没有模式控制,打印每一行的前两个域。
 

6awk '$1 ~ /101/ {print $1}' file 显示文件中第一个域匹配101的行(记录) 

7awk 'BEGIN { OFS="%"} 
{print $1,$2}' file
通过设置输出分隔符(OFS="%")修改输出格式。 

8awk 'BEGIN { max=100 ;print "max=" max}

       BEGIN 表示在处理任意行之前进行的操作。 
{max=($1 >max ?$1:max); print $1,"Now max is "max}' file
取得文件第一个域的最大值。 

 

9awk '$1 * $2 >100 {print $1}' file 显示文件中第一个域匹配101的行(记录)。 

10awk '{$1 == 'Chi' {$3 = 'China'; print}' file 找到匹配行后先将第3个域替换后再显示该行(记录)。 
awk '{$7 %= 3; print $7}' file
将第7域被3除,并将余数赋给第7域再打印。
 

11awk '/tom/ {wage=$2+$3; printf wage}' file 找到匹配行后为变量wage赋值并打印该变量。 

12awk '/tom/ {count++;} 
END {print "tom was found "count" times"}' file

 

END表示在所有输入行处理完后进行处理。 

13awk 'gsub(//$/,"");gsub(/,/,""); cost+=$4; 
END {print "The total is $" cost>"filename"}' file

       gsub函数用空串替换$,再将结果输出到filename中。 
1 2 3 $1,200.00 
1 2 3 $2,300.00 
1 2 3 $4,000.00 

awk '{gsub(//$/,"");gsub(/,/,""); 
if ($4>1000&&$4<2000) c1+=$4; 
else if ($4>2000&&$4<3000) c2+=$4; 
else if ($4>3000&&$4<4000) c3+=$4; 
else c4+=$4; } 
END {printf "c1=[%d];c2=[%d];c3=[%d];c4=[%d]/n",c1,c2,c3,c4}"' file 
通过ifelse if完成条件语句 


awk '{gsub(//$/,"");gsub(/,/,""); 
if ($4>3000&&$4<4000) exit; 
else c4+=$4; } 
END {printf "c1=[%d];c2=[%d];c3=[%d];c4=[%d]/n",c1,c2,c3,c4}"' file 

通过exit在某条件时退出,但是仍执行END操作。 

awk '{gsub(//$/,"");gsub(/,/,""); 
if ($4>3000) next; 
else c4+=$4; } 
END {printf "c4=[%d]/n",c4}"' file 
通过next在某条件时跳过该行,对下一行执行操作。 


14
awk '{ print FILENAME,$0 }' file1 file2 file3>fileall

       file1file2file3的文件内容全部写到fileall中,格式为打印文件并前置文件名。 

 

15awk ' $1!=previous { close(previous); previous=$1 } 
{print substr($0,index($0," ") +1)>$1}' fileall

       把合并后的文件重新分拆为3个文件。并与原文件一致。 

 

16awk 'BEGIN {"date"|getline d; print d}'

       通过管道把date的执行结果送给getline,并赋给变量d,然后打印。 

 

17awk 'BEGIN {system("echo "Input your name://c""); getline d;print "/nYour name is",d,"/b!/n"}' 
       通过getline命令交互输入name,并显示出来。
 

       awk 'BEGIN {FS=":"; while(getline< "/etc/passwd" >0) { if($1~"050[0-9]_") print $1}}' 
      
打印/etc/passwd文件中用户名包含050x_的用户名。
 

18
awk '{ i=1;while(i 通过while语句实现循环。
 
       awk '{ for(i=1;i通过for语句实现循环。 


type file|awk -F "/" ' 
{ for(i=1;i { if(i==NF-1) { printf "%s",$i } 
else { printf "%s/",$i } }}'

显示一个文件的全路径。 


forif显示日期 
awk 'BEGIN { 
for(j=1;j<=12;j++) 
{ flag=0; 
printf "/n%d
月份/n",j; 
for(i=1;i<=31;i++) 

if (j==2&&i>28) flag=1; 
if ((j==4||j==6||j==9||j==11)&&i>30) flag=1; 
if (flag==0) {printf "%02d%02d ",j,i} 


}' 


19
、在awk中调用系统变量必须用单引号,如果是双引号,则表示字符串 
Flag=abcd 
awk '{print '$Flag'}'
结果为
abcd 
awk '{print "$Flag"}'
结果为$Flag

 

20. 其他小示例

$ awk '/^(no|so)/' test-----打印所有以模式noso开头的行。

$ awk '/^[ns]/{print $1}' test-----如果记录以ns开头,就打印这个记录。

$ awk '$1 ~/[0-9][0-9]$/(print $1}' test-----如果第一个域以两个数字结束就打印这个记录。

$ awk '$1 == 100 || $2 < 50' test-----如果第一个或等于100或者第二个域小于50,则打印该行。

$ awk '$1 != 10' test-----如果第一个域不等于10就打印该行。

$ awk '/test/{print $1 + 10}' test-----如果记录包含正则表达式test,则第一个域加10并打印出来。

$ awk '{print ($1 > 5 ? "ok "$1: "error"$1)}' test-----如果第一个域大于5则打印问号后面的表达式值,否则打印冒号后面的表达式值。

$ awk '/^root/,/^mysql/' test----打印以正则表达式root开头的记录到以正则表达式mysql开头的记录范围内的所有记录。如果找到一个新的正则表达式root开头的记录,则继续打印直到下一个以正则表达式mysql开头的记录为止,或到文件末尾。

 

Java代码  
  1. awk -f awk-script-file input-files  
  2. //-f 选项指明在文件awk_script_file的awk脚本,input_file是使用awk进行浏览的文件名  

 

      awk语言中采取一种特别的方式来访问文件--域和记录

      awk执行的时候,将其浏览域标记为$1 $2 ... $n ,使用$1,$3表示将参考第一个域和第三个域,这里采用逗号来分隔开不同的域,如果希望打印全部的域,可以直接使用$0,而不必一个一个域的去指定。例 如,打印/etc/passwd文件里的第一列(也即登录的用户名)

 

Java代码  
  1. awk -F :  '{ print $1 }' /etc/passwd  

      将输出该文件的第一列

 

      任何awk语句都是由模式和动作来组成,模式部分决定动作语句何时触发及触发事件,处理即对数据采取的动作,如果省略模式,动作将时刻保持执行状态。

      模式可以是任意的正则表达式语句或其他条件语句,它包括两个特殊的字段,BEGIN和END,BEGIN使用在任何文本浏览动作之前,常用来打印行头,而END用在所有文本浏览动作之后,常用来打印文本总数和结尾状态标志。

      例如:有这样一个文件:

 

Java代码  
  1. [chenwu@localhost unit9-awkIntroduce]$ cat grade.txt   
  2. chenwu 05/99 4811   
  3. mary   02/22 1231  
  4. tom    09/15 1182  

 

       下面的语句将打印一个常用的报表头,及第一列和第三列。

 

Java代码  
  1. [chenwu@localhost unit9-awkIntroduce]$ awk 'BEGIN {print "name""\t""id"} {print $1"\t"$3}' grade.txt   
  2. name    id  
  3. chenwu  4811  
  4. mary    1231  
  5. tom     1182  

       如果加上行尾,则应该是这样:

 

Java代码  
  1. [chenwu@localhost unit9-awkIntroduce]$ awk 'BEGIN {print "name""\t""id"} {print $1"\t"$3} END {print "end-of-report"}'   
  2. grade.txt >grade.report   
  3. [chenwu@localhost unit9-awkIntroduce]$ ls  
  4. grade.report  grade.txt  
  5. [chenwu@localhost unit9-awkIntroduce]$ cat grade.report   
  6. name    id  
  7. chenwu  4811  
  8. mary    1231  
  9. tom     1182  
  10. end-of-report  

 

     在碰到awk错误的时候,应该这样查找错误:

        1:查找命令commands是否被单引号括起来

        2:查找commands内大括号是否匹配

 

    尝试着加入条件判断:

    这里打印名称为mary的行.   使用if($x(第几列)~  正则表达式)  语句   

 

Java代码  
  1. [chenwu@localhost unit9-awkIntroduce]$ awk 'BEGIN {print "name""\t""ID"} {if($1 ~/mary/) print $0}  
  2.  END {print "end-of-report"}' grade.txt   
  3. name    ID  
  4. mary   02/22 1231  
  5. end-of-report  

 

    而取反的方式是if($1 !~ /mary/)

    在awk中组合条件语句与javascript很类似,都是使用||或者&& ,这与传统的shell -o 或者 -a 不同。

 

    同时在awk中提供了很多内置变量,可以方便的运用。常用的有以下几个:

    NF  域的个数   NR  已读记录的个数  FILENAME表示文件名

    例如:   

Java代码  
  1. [chenwu@localhost unit9-awkIntroduce]$ awk '{print NF,NR,$0} END{print FILENAME}' grade.txt   
  2. 3 1 chenwu 05/99 4811   
  3. 3 2 mary   02/22 1231  
  4. 3 3 tom    09/15 1182  
  5. grade.txt  

 

    awk中域值的比较操作有以下两种方式:

    第一种方式,直接在条件表达式里硬编码:

     例如,想查看所有得分在27分以下的同学:

 

Java代码  
  1. [chenwu@localhost unit9-awkIntroduce]$ cat grade.txt   
  2. chenwu 05/99 4811 27   
  3. mary   02/22 1231 30  
  4. tom    09/15 1182 25  
  5. [chenwu@localhost unit9-awkIntroduce]$ awk '{if($4<27) print $0}' grade.txt   
  6. tom    09/15 1182 25  

 

     这里还有第二种方式,在BEGIN模块里定义变量,从而可以提高内聚性。例如:

 

Java代码  
  1. [chenwu@localhost unit9-awkIntroduce]$ awk 'BEGIN {baseline=27} {if($4 grade.txt   
  2. tom    09/15 1182 25  

 

    注意这里取变量的时候,不能加上$符号,如果不小心加上$baseline,那么什么都不会输出了:

 

Java代码  
  1. [chenwu@localhost unit9-awkIntroduce]$ awk 'BEGIN {baseline=27} {if($4<$baseline) print $0}' grade.txt   
  2. [chenwu@localhost unit9-awkIntroduce]  

 

     如果只是想统计某一列的总和等,则应该这样做:     

 

Java代码  
  1. [chenwu@localhost unit9-awkIntroduce]$ awk '{total+=$4} END {print "total scores are "total}' grade.txt   
  2. total scores are 82  

 

     再例如,只查找所有普通文件的长度总和(非目录)。可以参考下面的方式:

 

Java代码  
  1. [chenwu@localhost unit9-awkIntroduce]$ ls -l | awk 'BEGIN {total=0} {if($1~/^[^d]/) total+=$5;print $0}   
  2. END {print "total size:"total}'   
  3. 总计 12  
  4. -rw-rw-r-- 1 chenwu chenwu   53 06-10 10:16 grade.report  
  5. -rw-rw-r-- 1 chenwu chenwu   64 06-11 10:12 grade.txt  
  6. drwxrwxr-x 2 chenwu chenwu 4096 06-11 10:28 testDir  
  7. total size:117  

 

      当然也可以将if($1 ~/^[^d]/) 换成if($1 ! ~ /^d/),例如:

 

Java代码  
  1. [chenwu@localhost unit9-awkIntroduce]$ ls -l | awk 'BEGIN {total=0} {if($1!~/^d/) total+=$5;print $0}   
  2. END {print "total size:"total}'   
  3. 总计 12  
  4. -rw-rw-r-- 1 chenwu chenwu   53 06-10 10:16 grade.report  
  5. -rw-rw-r-- 1 chenwu chenwu   64 06-11 10:12 grade.txt  
  6. drwxrwxr-x 2 chenwu chenwu 4096 06-11 10:28 testDir  
  7. total size:117