awk编程学习笔记基础篇

awk编程学习笔记基础篇

  1. awk编程的基本框架为:

    BEGIN{} #循环前部命令

    {} #循环中,对于每行进行一次循环,包括模式和过程两个部分,如果匹配一次模式,则进行一次循环

    END{} #主循环结束后的命令

BEGIN模式用于在一个输入行读入之前要执行的动作

    $awk 'BEGIN {print "Hello,World"}'

awk程序是由所谓的主输入循环组成的,当没有其他行读入时循环终止
awk后缀脚本在hadoop集群中 /home/shanjiajun/ 文件夹中

/[0-9] */ {print "that is an integer"} 模式(可以为正则表达式)+过程

:连续的两个或多个空格和/或制表符被作为一个分隔符

  1. FS为系统变量读入指定域分隔符,OFS为系统变量写出指定域分隔符,在BEGIN中指定
    BEGIN {FS=",",OFS=","}
  1. awk 脚本的运行方法:
脚本 : BEGIN {FS=","}  {print $1","$6}
运行 : awk -f phonelist.awk names
  1. awk 编程中所有没有赋值的变量初始状态为0,多行打印用分号隔开

    NF和NR也为系统变量,分别为字段的数量和行号,则$NF为最后一个字段,$(NF-1)为倒数第二个字段

    LENGTH为字符串的长度函数

  2. 逻辑运算三种方式 : && || !

例如:

($5!~/MA/) && (NF==6)  {print $0}  #打印第五个字段不匹配MA字符且字段数为6的行
  1. print和printf的主要区别在于printf没有提供自动换行功能,需要加上一个\n

%s为字符型 %f为浮点型 %d为整型

一个printf语句表达式可以规定输出欲的宽度和对齐方式,可以由3个可选的修饰符组成,跟在%后面

形式为:%-width.precision format-specifier

awk打印默认为右对齐格式,-为设置为左对齐,width为设置的字符的宽度,precision为字符的精度,一般用在%f浮点型中

条件、循环、和数组

if(expression) action1 
[else action2]

特别的例子
if(x~/[yY](es)?/) print x

循环

while (condition) action 
do 
    action 
while (condition)
#至少循环一次
for(i=1;i<=NF;i++)  print $i
break 终止循环
continue 停止本次循环,直接进入下一次循环
数组

awk编程中数组下标从1开始
所有数组都是关联数组,下标可以是一个字符串或者数组

  • 有一个特殊的循环语法可以访问关联数组:
for(variable in array)
do something with array[variable]

分组运算

cat * |awk -F':' '{a[$1":"$2]+=$6}END{for(i in a) print i":"a[i]}' #注意:BEGIN和END一定要大写

函数:

function name (x1,x2...){statments }

你可能感兴趣的:(awk编程学习笔记基础篇)