awk 通俗易懂教程

awk 教程

    • 简介
    • 语法
    • 分割符
    • 变量
      • 内置变量
      • 自定义变量
    • printf 格式化输出
    • 模式Pattern
    • 动作 action
    • 数组
    • 内置函数
      • 随机函数
      • 字符串函数
      • 其他函数
    • 参考文章

简介

awk 是一个报告生成器,它拥有强大的文本格式化的能力。它允许您创建简短的程序,这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表,还有无数其他的功能。

语法

awk [options] ‘pattern{action}’ file

分割符

awk 是逐行处理,用输入分割符(FS)将每行分割成多个字段,经过action处理后又使用输出分割符(OFS)将各字段拼接起来输出。

  • 输入分割符: 可通过 -F 或 -V FS=“XXX” 指定,默认使用空格作为分割符(能自动将多个连续空格理解为一个分割符)
    • $0:表示整行
    • $1、$2 … $n:表示 第一、第二 … 第n 个字段
    • $NF:表示最后一个字段
    • NF:表示一共有几个字段,则$(NF-1) 表示倒数第二个字段
  • 输出分割符: 可通过 -V OFS=“XXX” 指定,默认使用空格作为分割符
>> cat awk-test 
a1       b1 c1
a2 b2 c2 d2 e2 f2

>> cat awk-test | awk '{print $1,$2,$3,"$4",$5,"hello"}' # 或: awk '{print $1,$2,$3,"$4",$5,"hello"}' awk-test 
a1 b1 c1 $4  hello
a2 b2 c2 $4 e2 hello

>> awk -v OFS="-" '{print $1,$2,$3,"$4",$5,"hello"}' awk-test 
a1-b1-c1-$4--hello
a2-b2-c2-$4-e2-hell

# 注:
#    某一行缺少某一列时不会输出任何文本
#    当内置变量加上双引号后,会被当成普通文本输出

变量

内置变量

  • FS:输入字段分隔符
  • OFS:输出字段分隔符
  • RS:输入行结束符,默认是以换行作为行结束符
  • ORS:输出行结束符,默认是以换行作为行结束符
>> cat awk-test 
a1 b1 c1~~a2 b2 c2
 
>> awk -v RS="~~" '{print $1,$2}' awk-test
a1 b1
a2 b2

>> awk -v RS="~~" -v ORS="****" '{print $1,$2}' awk-test
a1 b1****a2 b2****
  • NF:行的字段数量
  • NR:行号,当前处理的文本行的行号
  • FNR:各文件分别计数的行号
  • FILENAME:当前文件名
>> cat awk-test
a1 b1 c1
a2 b2 c2 
>> cat awk-test2
a1 b1 c1
a2 b2 c2 

>> awk '{print FILENAME,NR,$1,$2,$3}' awk-test awk-test2
awk-test 1 a1 b1 c1
awk-test 2 a2 b2 c2
awk-test2 3 a1 b1 c1
awk-test2 4 a2 b2 c2

>> awk '{print FILENAME,FNR,$1,$2,$3}' awk-test awk-test2
awk-test 1 a1 b1 c1
awk-test 2 a2 b2 c2
awk-test2 1 a1 b1 c1
awk-test2 2 a2 b2 c2

  • ARGC:命令行参数的个数
  • ARGV:数组,保存的是命令行所给定的各参数
>> awk 'BEGIN{print ARGV[0],ARGV[1],ARGV[2],ARGC}' awk-test awk-test2
awk awk-test awk-test2 3

自定义变量

  • 方法一:-v varname=value 变量名区分字符大小写
  • 方法二:在program中直接定义。
>> awk -v aa="hello" -v bb="awk" 'BEGIN{print aa,bb}'
hello awk

>> awk 'BEGIN{aa="hello";bb="awk";print aa,bb}'
hello awk

printf 格式化输出

上面用到的 print 只能实现简单的文本输出功能,并不能对文本格式进行改变。如果想要改变文本的格式,则需要awk中的另一个action:printf。awk中的printf 跟系统的printf命令相似,可参考printf 命令详解。

>> cat awk-test
姓名 科目 成绩~~张小明 语文 88~~李小红 英语 90~~王小斌 数学 100 

>> awk -v RS="~~" '{print $1,$2,$3}' awk-test
姓名 科目 成绩
张小明 语文 88
李小红 英语 90
王小斌 数学 100

>> awk -v RS="~~" '{printf "%-4s\t %-4s\t %-4s\n",$1,$2,$3}' awk-test
姓名  	 科目  	 成绩  
张小明 	 语文  	 88  
李小红 	 英语  	 90  
王小斌 	 数学  	 100 

#注:
#   %s:字符串占位符,同理还有%f %d 等
#   \t:水平制表符,同理还有\n \r 等转义符
#   -: 左对齐
#   4:字符串的显示宽度为4,如果不满足4则用空格填充

模式Pattern

pattern是一个行条件表达式,只有满足该条件的行才会被处理。没有模式的情况下(空模式),awk会对每行都进行处理。

  • 空模式:没有pattern,会对每行数据都进行处理
  • BEGIN/END 模式:执行文本前/后的操作
  • 关系运算模式:只有满足该关系运算的行才会被处理
>> cat awk-test
张小明 语文 88
李小红 英语 90
王小斌 数学 100

#找出成绩大于90的学生
>> awk '$3>90{print $1,$2,$3}' awk-test
王小斌 数学 100
  • 正则模式:符合正则表达式的行才会被处理,正则表达式需要用两/包起来:/正则表达式/
>> cat awk-test
abcdefg
123456
324ag

#找出全为数字的那一行
>> awk '/^[0-9]*$/{print $0}' awk-test
123456
  • 范围模式:格式:’/正则1/,/正则2/{action}’,表示从正则1匹配到的行开始,到正则2匹配到的行结束,之间所有的行都会被处理。
>> cat awk-test
1 Allen Phillips
2 Green Lee
3 William Aiden James Lee
4 Angel Jack
5 Tyler Kevin
6 Lucas Thomas

#找出第一次出现Lee 到第一次出现Kevin 间的所有行
>> awk '/Lee/,/Kevin/{print $0}' awk-test
2 Green Lee
3 William Aiden James Lee
4 Angel Jack
5 Tyler Kevin

动作 action

  • if、if-else、if-else if-else:条件语句
>> cat awk-test
姓名 年龄
张三 15
李四 23
王五 50

>> awk 'NR!=1{if($2<18){print $1"是少年"}else if($2<30){print $1"是青年"}else{print $1"是中年"}}' awk-test
张三是少年
李四是青年
王五是中年
  • for(初始化;条件;更新){代码}、while(条件){代码}、do{代码}(条件):循环语句
>> awk 'BEGIN{for(i=0;i<10;i++){if(i==3){continue}else if(i>5){break}else{print i}}}'
0
1
2
4
5
  • exit()、next():exit:退出文本处理,进入END模式(如果有),next:直接跳过当前行
>> cat awk-test
aaaaa
bbbb
cccc
ddddd

>> awk 'END{print "finish"}{if(NR==1){next}else if(NR==3){exit}else{print $0}}' awk-test
bbbb
finish

数组

  • 数组的下标既可以是数字也可以是字符串
>> awk 'BEGIN{arr[0]=1;arr[1]=2;arr[2]=3;arr["a"]=4;arr["b"]=5;for(ele in arr){print ele}}'
a
b
0
1
2
  • 下标 in 数组: 可用来判断数组是否有该下标
>> awk 'BEGIN{arr[0]=1;arr[1]=2;arr[2]=3;if(1 in arr)print "arr有下标1";if(!(3 in arr))print "arr没有下标3"}'
arr有下标1
arr没有下标3
  • 访问不存在的下标,数组会自动创建该下标并赋值为空字符串
>> awk 'BEGIN{arr[0]=1;arr[1]=2;arr[2]=3;print arr[5];if(5 in arr)print "arr自动创建下标5"}'

arr自动创建下标5
  • 数组应用案例
# 知识补充 字符串跟数字相加时,字符串会转化成0
>> awk 'BEGIN{a="abc";b="";print a+1;print b+1}'
1
1

#需求:统计每个ip出现的次数
>> cat awk-test
192.168.1.1
192.168.1.2
192.168.1.3
192.168.1.6
192.168.1.3
192.168.1.3
192.168.1.2

>> awk '{ipArray[$1]++} END{for (i in ipArray){print i,ipArray[i]} }' awk-test
192.168.1.1 1
192.168.1.2 2
192.168.1.3 3
192.168.1.6 1

内置函数

随机函数

rand函数生成随机数,但是使用rand函数时,需要配合srand函数,否则rand函数返回的值将一直不变。

>> awk 'BEGIN{print rand()}'
0.237788
>> awk 'BEGIN{print rand()}'
0.237788
>> awk 'BEGIN{srand();print rand()}'
0.116798
>> awk 'BEGIN{srand();print rand()}'
0.748171

字符串函数

  • 字符串替换
    • gsub:替换指定范围内的所有字符串
    • sub:替换指定范围内第一个符合条件的字符串
>> cat awk-test
Allwn Phillips
Green Lee
William Ken Alle

>> awk '{gsub("l","6",$1);print $0}' awk-test
A66wn Phillips
Green Lee
Wi66iam Ken Allen

>> awk '{sub("l","6",$1);print $0}' awk-test
A6lwn Phillips
Green Lee
Wi6liam Ken Allen
  • length():获取长度
>> awk '{print $0,length()}' awk-test
Allwn Phillips 14
Green Lee 9
William Ken Allen 17
  • index():获取索引下标
>> awk '{print index($0,"ll")}' awk-test
2
0
3
  • split():分割
>> awk -v str="a-b-c" 'BEGIN{print "分成"split(str,arr,"-")"份";for(i in arr)print i}'
分成3份
1
2
3

其他函数

  • 数组排序
    • asort(arr):对数组arr进行排序,如果arr的下标是字符串,则下标会重置为数字
    • asort(arr,newArr):将数组arr的排序结果存到newArr数组中,则不会影响arr的下标
>> awk 'BEGIN{arr["a"]=1;arr["e"]=8;arr["g"]=3; asort(arr); for(i in arr){print i,arr[i]}}'
1 1
2 3
3 8

>> awk 'BEGIN{arr["a"]=1;arr["e"]=8;arr["g"]=3;asort(arr,newArr);\
print "arr数据如下:";\
for(i in arr)print i,arr[i];\
print "newArr 数据如下:";\
for(i in newArr)print i,newArr[i] }'
arr数据如下:
a 1
e 8
g 3
newArr 数据如下:
1 1
2 3
3 8

参考文章

awk从入门到放弃

你可能感兴趣的:(linux,awk教程)