gawk和sed,grep是linux中文本处理三剑客,功能异常强大,可以把它当做一门独立的编程语言使用,之前的博客中已经描述了grep和sed的使用方法,下面描述gawk

基本用法:gawk [options] 'program' FILE ...
    program: PATTERN{ACTION STATEMENTS}
    语句之间用分号分隔
    print, printf
    选项:
        -F:指明输入时用到的字段分隔符;
        -v var=value: 自定义变量;

1、print
    print item1, item2, ...
    要点:
    (1) 逗号分隔符;
    (2) 输出的各item可以字符串,也可以是数值;当前记录的字段、变量或awk的表达式;

wKiom1YCnP3TElqDAABmmlb_IlI679.jpg

注意:Awk中如果想实现变量替换不可以用引号

gawk学习笔记_第1张图片

    (3) 如省略item,相当于print $0;

gawk学习笔记_第2张图片

2、变量

    2.1 内建变量
        FS:input field seperator,默认为空白字符;相当于awk -F

gawk学习笔记_第3张图片

        OFS:output field seperator,默认为空白字符;

gawk学习笔记_第4张图片

        RS:input record seperator,输入时的换行符;

gawk学习笔记_第5张图片

        ORS:output record seperator,输出时的换行符;

        NF:number of field,字段数量
            {print NF}, {print $NF}

awk引用内部变量不需要在前面使用$

wKioL1YCnQ2i4NTPAAAqS3Fxv-s688.jpg

输出最后一段:

gawk学习笔记_第6张图片

        NR:number of record, 行数;

gawk学习笔记_第7张图片

        FNR:各文件分别计数;行数;

gawk学习笔记_第8张图片

        FILENAME:当前文件名;

gawk学习笔记_第9张图片

        ARGC:命令行参数的个数;

        ARGV:数组,保存的是命令行所给定的各参数;
gawk学习笔记_第10张图片

    2.2 自定义变量
        (1) -v var=value
       变量名区分字符大小写;

wKioL1YCnx_gbN-TAAA1kuhM6Z4274.jpg

        (2) 在program中直接定义

wKioL1YCnx-inKUFAAAxYBfa5Ok728.jpg

3、printf命令
        格式化输出:printf FORMAT, item1, item2, ...
        (1) FORMAT必须给出;
        (2) 不会自动换行,需要显式给出换行控制符,\n
        (3) FORMAT中需要分别为后面的每个item指定一个格式化符号;
        格式符:将item中的信息使用格式刷定义了格式后输出
        %c: 显示字符的ASCII码;
        %d, %i: 显示十进制整数;

gawk学习笔记_第11张图片

        %e, %E: 科学计数法数值显示;
        %f:显示为浮点数;
        %g, %G:以科学计数法或浮点形式显示数值;
        %s:显示字符串;

gawk学习笔记_第12张图片

        %u:无符号整数;
        %%: 显示%自身;   

    修饰符:
        #[.#]:第一个数字控制显示的宽度;第二个#表示小数点后的精度;
            例如:%3.1f代表宽度为3,精度为1
        -: 左对齐
        +:显示数值的符号

gawk学习笔记_第13张图片

4、操作符
    算术操作符:
        x+y, x-y, x*y, x/y, x^y, x%y
        -x
        +x: 转换为数值;
    字符串操作符:没有符号的操作符---表示字符串连接
    赋值操作符:
        =, +=, -=, *=, /=, %=, ^=
        ++, --
    比较操作符:
        >, >=, <, <=, !=, ==
    模式匹配符:
        ~:是否匹配
        !~:是否不匹配
    逻辑操作符:
        &&
        ||
        !

    函数调用:
        function_name(argu1, argu2, ...)
    条件表达式:
        selector?if-true-expression:if-false-expression

wKioL1YCrd6j8GjXAACGGvDagXM685.jpg

5、PATTERN:地址定界
    (1) empty:空模式,匹配每一行;
    (2) /regular expression/:仅处理能够被此处的模式匹配到的行;

gawk学习笔记_第14张图片

    (3) relational expression: 关系表达式;结果有“真”有“假”;结果为“真”才会被处理;
        真:结果为非0值,非空字符串都表示为真;

wKioL1YCr8LAuH2mAABDfay0foU980.jpg

    (4) line ranges:行范围,
        startline,endline:/pat1/,/pat2/
        注意: 不支持直接给出数字的格式

gawk学习笔记_第15张图片

使用判断:

wKioL1YCsVDhIHHLAABYlBd96N4032.jpg

使用模式并判断:

wKioL1YCr8PTemS8AABbaA5dRkA816.jpg

[root@node3 ~]# awk -F: '/^h/,/^u/{print $1}' /etc/passwd
halt
mail
uucp
haldaemon
gdm
ntp
apache
saslauth
postfix
rpcuser
nfsnobody
pulse
sshd
tcpdump
mysql
mongod

    (5) BEGIN/END模式
        BEGIN{}: 仅在开始处理文件中的文本之前执行一次;
        END{}:仅在文本处理完成之后执行一次;

gawk学习笔记_第16张图片

7、控制语句
    if(condition) {statments}
    if(condition) {statments} else {statements}
    while(conditon) {statments}
    do {statements} while(condition)
    for(expr1;expr2;expr3) {statements}
    break
    continue
    delete array[index]
    delete array
    exit
    { statements }

7.1 if-else    使用场景:对awk取得的整行或某个字段做条件判断;

单分支:

wKiom1YCt4DiKwMDAABHeoqVrM8936.jpg

awk -F: '{if($NF=="/bin/bash") print $1}' /etc/passwd


双分支:

gawk学习笔记_第17张图片

仅输出字段数大于5的行

gawk学习笔记_第18张图片

显示使用量大于20%的磁盘

wKioL1YCubeg7UvYAAA-byRRExM760.jpg

7.2 while循环
    语法:while(condition) statement
    条件“真”,进入循环;条件“假”,退出循环;

使用场景:对一行内的多个字段逐一类似处理时使用;对数组中的各元素逐一处理时使用

显示以空白和linux16开头的行的每一个字段包含的字符个数:

gawk学习笔记_第19张图片

显示以空白和linux16开头的行的每一个字段包含的字符个数,仅显示字符个数大于等于7的:

gawk学习笔记_第20张图片

7.3 do-while循环
    语法:do statement while(condition)
    意义:至少执行一次循环体
7.4 for循环
    语法:for(expr1;expr2;expr3) statement

        for(variable assignment;condition;iteration process) {for-body}

gawk学习笔记_第21张图片

特殊用法:
    能够使用变量遍历数组的下标从而处理数组中的元素;
    语法:for(var in array) {for-body}

7.5 switch语句
    语法:switch(expression) {case VALUE1 or /REGEXP/: statement; case VALUE2 or /REGEXP2/:     statement; ...; default: statement}

7.6 break和continue
    break [n]
    continue提前结束对本字段的处理而直接进入下一个字段
7.7 next
     提前结束对本行的处理而直接进入下一行;

偶数行用户和用户名

gawk学习笔记_第22张图片


8、array

    关联数组:array[index-expression]

    index-expression:

(1) 可使用任意字符串;字符串要使用双引号;

(2) 如果某数组元素事先不存在,在引用时,awk会自动创建此元素,并将其值初始化为“空串”;


若要判断数组中是否存在某元素,要使用"index in array"格式进行;


weekdays[mon]="Monday"


    若要遍历数组中的每个元素,要使用for循环;

for(var in array) {for-body}


~]# awk 'BEGIN{weekdays["mon"]="Monday";weekdays["tue"]="Tuesday";for(i in weekdays) {print weekdays[i]}}'


注意:var会遍历array的每个索引;

state["LISTEN"]++

state["ESTABLISHED"]++


~]# netstat -tan | awk '/^tcp\>/{state[$NF]++}END{for(i in state) { print i,state[i]}}'


~]# awk '{ip[$1]++}END{for(i in ip) {print i,ip[i]}}' /var/log/httpd/access_log


练习1:统计/etc/fstab文件中每个文件系统类型出现的次数;

~]# awk '/^UUID/{fs[$3]++}END{for(i in fs) {print i,fs[i]}}' /etc/fstab


练习2:统计指定文件中每个单词出现的次数;

~]# awk '{for(i=1;i<=NF;i++){count[$i]++}}END{for(i in count) {print i,count[i]}}' /etc/fstab


    9、函数


9.1 内置函数

数值处理:

rand():返回0和1之间一个随机数;


字符串处理:

length([s]):返回指定字符串的长度;

sub(r,s,[t]):以r表示的模式来查找t所表示的字符中的匹配的内容,并将其第一次出现替换为s所表示的内容;

gsub(r,s,[t]):以r表示的模式来查找t所表示的字符中的匹配的内容,并将其所有出现均替换为s所表示的内容;


split(s,a[,r]):以r为分隔符切割字符s,并将切割后的结果保存至a所表示的数组中;


~]# netstat -tan | awk '/^tcp\>/{split($5,ip,":");count[ip[1]]++}END{for (i in count) {print i,count[i]}}'


9.2 自定义函数