七.Linux三剑客之awk命令

awk的调用方式与sed类似，脚本文件以#!/bin/awk -f或#!/bin/gawk -f开头。相比于grep和sed，awk正则表达式支持"?"和"+"两个拓展元字符。

awk模式匹配

$ cat file 
qwer


1234
[jin1ming@ML linux_shell]$ awk '/^$/{print "Hello World!"}' file 
Hello World!
Hello World!

^$在此处用于匹配空行

记录和域
awk认为每行为一个记录，行中每个字符串为域，域之间用空格，Tab键或其他符号进行分隔，分隔域的是分隔符。（分隔符默认为空格）

$ cat phoneinfo 
张三 湖南 123455
李四 山西 222222
王五 河南 333333
$ awk '{print $1}' phoneinfo 
张三
李四
王五
$ awk '{print $1;{print $0}}' phoneinfo 
张三
张三 湖南 123455
李四
李四 山西 222222
王五
王五 河南 333333
$ awk 'BEGIN{num=3} {print$num}' phoneinfo 
123455
222222
333333

0代表所有域
awk处理时，将进行逐行扫描
BEGIN在遍历文件前执行
awk中可使用变量

$ awk 'BEGIN{OFS=";"} {print $1,$2,$3}' phoneinfo | 
> awk 'BEGIN{FS=";";OFS="::"} {print $1,$2,$3}'
张三::湖南::123455
李四::山西::222222
王五::河南::333333

OFS为输出域分隔符，FS为（输入）域分隔符
该demo，将文件中的空格作为域分隔符进行域划分，
将“；”作为域分隔符进行输出到管道，
最后将管道中的文本按“；”作为域分隔符进行域划分，
最后将“：：”作为输出域分隔符进行输出。

#修改字符串之间的空格为两个
$ cat phoneinfo 
张三  湖南  123455
李四  山西  222222
王五  河南  333333
$ awk 'BEGIN{OFS=","}{print $1,$2,$3}' phoneinfo 
张三,湖南,123455
李四,山西,222222
王五,河南,333333

说明空格作为域分隔符时，空格可为1个或多个

$ awk 'BEGIN{OFS="::"}{print $1,$2,$3}' phoneinfo |
> awk 'BEGIN{FS=":";OFS=","} {print $1,$2,$3}' 
张三,,湖南
李四,,山西
王五,,河南
$ awk 'BEGIN{OFS="::"}{print $1,$2,$3}' phoneinfo |
> awk 'BEGIN{FS="::";OFS=","} {print $1,$2,$3}' 
张三,湖南,123455
李四,山西,222222
王五,河南,333333

其他符号作为域分隔符只代表其一个字符，若想多个，必须使用“+”，
例如 \t+代表一个或多个该字符（支持正则）
注意此处第一个命令，输出中第二个域为空域

$ awk 'BEGIN{OFS="::"}{print $1,$2,$3}' phoneinfo |
> awk 'BEGIN{FS="::";OFS=",";ORS=";"}
> {print $1,$2,$3}' 
张三,湖南,123455;李四,山西,222222;王五,河南,333333;

ORS输出域分隔符，RS记录分隔符（默认都为换行符）

关系和布尔运算符

需注意：
1：～匹配正则表达式
2： !~ 不匹配正则表达式
其他运算符与c语言一致

$ awk 'BEGIN{FS=":"} $2~/dd/' 2.txt 
2:dd
:ddddddd

表达式
统计行数

$ awk 'BEGIN{i=0} {print ++i}' 2.txt 
1
2
3
4
5

计算每人平均分数

$ cat score 
张三:78 92 87
李四:91 64 87
王五:34 99 56
$ cat awkdomo.awk 
#!/bin/awk -f

BEGIN {FS="[: ]"}
{sum=$2+$3+$4
avg=sum/3
print $1,":",avg}

$ chmod u+x awkdomo.awk 
$ ./awkdomo.awk score 
张三 : 85.6667
李四 : 80.6667
王五 : 63

常用系统变量
以上提到的不再重复

ARGC 命令行参数的数量
ARGIND 命令行中当前文件的位置（以0开始标号）
ARGV 命令行参数的数组(ARGV[0]存储的是执行脚本的程序名)
FILENAME 当前文件名
NF 当前记录中的域数量

$ cat awkdomo.awk 
#!/bin/awk -f

BEGIN{FS="[: ]"}

{print "\nARGC:",$ARGC,
    "\nARGIND:",$ARGIND,
    "\nARGV",$ARGV[2],
    "\nFILENAME:",$FILENAME,
    "\nNF:",$NF
}

$ ./awkdomo.awk score 

ARGC: 78 
ARGIND: 张三 
ARGV 张三:78 92 87 
FILENAME: 张三:78 92 87 
NF: 87

ARGC: 91 
ARGIND: 李四 
ARGV 李四:91 64 87 
FILENAME: 李四:91 64 87 
NF: 87

ARGC: 34 
ARGIND: 王五 
ARGV 王五:34 99 56 
FILENAME: 王五:34 99 56 
NF: 56

格式化输出
printf (格式控制符,参数) ，与c语言一致
内置字符串函数

gsub(r,s) 在输入文件中用s替换r（全局替换）
gsub(r,s,t) 在t行中用s替换r
index(s,t) 返回s中字符串第一个t的位置
length(s) 返回s的长度
match(s,t) 测试s是否包含匹配t的字符串
split(r,s,t) 以t为分隔符将r进行分割，保存到数组s
sub(r,s,t) 将t中第一次出现的r替换为s
substr(r,s) 返回字符串r中从s开始的后缀部分
substr(r,s,t) 返回字符串r中从s开始长度为t的后缀部分

向awk脚本传递参数
awk -f 脚本文件 parameter=value 输入文件
或
awk [awk命令] parameter=value 输入文件

$ awk '
BEGIN{n = 999; print n}
{if (n==1) print "Continue!"
} ' n=1 2.txt
999
Continue!
Continue!
Continue!
Continue!
Continue!

参数赋值在BEGIN后执行

条件语句和循环语句
和c语言完全一致，在判断时可以使用～匹配符和正则表达式作为if语句的条件
数组
awk数组的形式和c语言一致，只是无需定义就可以使用,需要注意的是数组下标不是必须为整数,可以为浮点数或字符串，而且09和9作为下标是不一样的

$ awk '
BEGIN{nums[1.5]=5.1} {print nums[1.5];print nums[1]} 
' score
5.1

5.1

5.1

$ awk '
BEGIN{nums[wer]=9;nums[2]=2;nums[9]=9} 
END {for (var in nums)
print var,":",nums[var]
}' score
 : 9
9 : 9
2 : 2

数组和参数相结合的根据姓名查询个人信息

$ cat awkdomo2.awk 
#!/bin/awk -f

BEGIN{
   if(ARGC>2){
       name=ARGV[1];
       delete ARGV[1] }
   else{
       while(!name){
           print "请输入姓名：";
           getline name< "-"}
       }
   }

   $1~name {print $1,$2,$3}
./awkdomo2.awk  张三 phoneinfo 
张三 湖南 123455

输入姓名使用read将会使得"请输入姓名："疯狂输出，原因还尚未琢磨清楚

七.Linux三剑客之awk命令

你可能感兴趣的:(七.Linux三剑客之awk命令)