Linux文本处理三剑客之awk

一、awk介绍


  • AWK是一种优良的文本处理工具。它不仅是 Linux 中也是任何环境中现有的功能最强大的数据处理引擎之一。这种编程及数据操作语言(其名称得自于它的创始人 Alfred Aho 、Peter Weinberger 和 Brian Kernighan 姓氏的首个字母)的最大功能取决于一个人所拥有的知识。AWK 提供了极其强大的功能:可以进行样式装入、流控制、数学运算符、进程控制语句甚至于内置的变量和函数。它具备了一个完整的语言所应具有的几乎所有精美特性。实际上 AWK 的确拥有自己的语言:AWK 程序设计语言, 三位创建者已将它正式定义为“样式扫描和处理语言”。它允许您创建简短的程序,这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表,还有无数其他的功能。

  • 最简单地说, AWK 是一种用于处理文本的编程语言工具。AWK 在很多方面类似于 shell 编程语言,尽管 AWK 具有完全属于其本身的语法。它的设计思想来源于 SNOBOL4 、sed 、Marc Rochkind设计的有效性语言、语言工具 yacc 和 lex ,当然还从 C 语言中获取了一些优秀的思想。在最初创造 AWK 时,其目的是用于文本处理,并且这种语言的基础是,只要在输入数据中有模式匹配,就执行一系列指令。该实用工具扫描文件中的每一行,查找与命令行中所给定内容相匹配的模式。如果发现匹配内容,则进行下一个编程步骤。如果找不到匹配内容,则继续处理下一行

二、awk正则表达式


1、命令讲解

 awk '{print NR,NF,FILENAME}' file	            ###统计行列并在每一行,NR:行号 NF:列 FILENAME:文件名
 awk 'BEGIN{print "name"}' file		            ###初始化代码块(先处理,在处理其他),只能出现一次
 awk 'END{print WESTOS}' file	                   ###结束代码块(处理完结果后在处理),只能出现一次
 awk -F ":" '/\/{a++}END{print a}' file             ###找出可登陆的用户,并统计出个数
 awk -F ":" '/^root/{print}' file                 ###找出以root开头的并打印出来
 awk -F ":" '/^a|nologin$/{print $1,$7}' file     ###找出以a开头的或者nologin结尾的,打印出第1,7列
 awk -F ":" '$6~/bin$/{print $1,$7}' file         ###以冒号为分隔符,找出第6列为bin结束的行,打印出其第1,7列
 awk -F ":" '$6!~/bin$/{print $1,$7}' file        ###以冒号为分隔符,找出第6列不是bin结束的行,打印出其第1,7列

 awk 'NR==2,NR==5{print}' file                    ###显示出2,5行
 awk '/a/,/b/{print}' file                        ###匹配出有a字符的行到有b字符的行,并打印出来

2、显示当前系统可登陆用户的name和id

 awk -F ":" 'BEGIN{print "name id"}/\

3、统计行数可登陆行数

 awk 'BEGIN{n=0}/\

4、能够登陆且家目录不在home下的用户

 awk -F ":" '/\

5、显示文本中3-5行的内容

 awk -F ":" 'NR>=3&&NR<=5{print}' /etc/passwd

6、显示文本中6和8的内容

 awk -F ":" 'NR==6||NR==8{print}' /etc/passwd

7、抓取ip地址

 ifconfig eth0 |awk 'NR==2{print $2}'

8、求和1+2…+100:

 seq 100 >dream
 awk '$1<=100;a++;sum=sum+a;{print sum}' dream|tail -1
 awk '$1<=100{a++;sum+=a}END{print sum}' dream

9、shell脚本中传入变量:

(1)生成测试文件
[root@dream ~]# cat test.txt
a,1
b,2
c,3
(2)脚本:
[root@dream ~]# cat test.sh 
#!/bin/bash
for num in `seq 3`
do
    Row1=`awk -F "," "NR==$num{print "'$1'"}" $1`
    Row2=`awk -F "," "NR==$num{print "'$2'"}" $1`
    echo "$Row1 value is $Row2"
done
(3)结果:
[root@dream ~]# sh test.sh test.txt
a value is 1
b value is 2
c value is 3

三、awk数组


数组是一个包含一系列元素的表(和C有些类似):
其格式为:
array[1]="dream"
array[2]="dream_ya"
array为数组名,1和2可以理解为角标,代表着数组的第几个,引号中为对应的内容

1、定义数组并打印

(1)打印出数组的内容
 [root@dream mnt]# awk 'BEGIN{array[1]="dream";array[2]="dream_ya";print array[1]}'
 dream
(2)打印出数组角标
 [root@dream mnt]# awk 'BEGIN{array[1]="dream";array[2]="dream_ya";for (key in array) print key}'
 1
 2

2、统计IP存在的个数并按个数(从大到小)排列:

 cat >>dream<
(1)正常解法:
 [root@dream mnt]# sort dream |uniq -c|sort -nr                ###sort以第一位进行排列
       4 192.25.254.12
       4 172.25.254.125
       4 172.25.254.123
       3 172.25.254.1
       2 172.25.24.11
       1 192.25.25.25
       1 172.25.25.25
       1 172.25.25.12
(2)awk数组:
 awk '{array[$1]++} END {for(key in array) print array[key],key}' dream |sort -nr
(3)原理:

$1表示dream文件中的第一列即为IP本身,由于IP为角标的话,对于数组来说这个数组并未定义,但是由于后面的++让这个数组进行了+1且默认值为0,所以每个IP形成的数组都是未定义的,遇到相同的IP时便会自动加1达到统计IP个数的效果。
array[key]:为个数===>>相当于前面引号里面的内容
key:为IP(角标)

3、统计字母后面数字的和,并先显示字母在显示和(倒序)

 cat >>test<
 [root@dream mnt]# awk -F "/" '{a[$1]+=$2}END{for (n in a){print n,a[n]}}' test|sort -k 2 -nr
 f 9
 a 8
 b 7
 c 6
 e 5
 d 3

4、统计/etc/fstab下字符串出现的次数

 awk '{i=1;while(i<=NF){array[$i]++;i++}}END{for (key in array){print key,array[key]}}' /etc/fstab
原理:

每行处理完时,i小于等于NF(列数)为真,就会一直运行大括号里面的内容,当处理到最后一列时便会为假重新给i赋值,并且进入下一行,从而达到了统计字符串的次数

5、从字符串DreaM@$!2HLM%0#&BHh7+(+_UIdfa6dfea中找出所有数字

 echo "DreaM@$!2HLM%0#&BHh7+(+_UIdfa6dfea" | awk 'gsub(/[^[:digit:]]/,"",$0)'
 echo "DreaM@$!2HLM%0#&BHh7+(+_UIdfa6dfea"|sed 's/[^0-9]//g'
原理:

[^[:digit:]]:除了数字的字符,gsub(r,s,[t]):对t字符串进行搜索r表示的模式匹配的内容,并全部替换为s所表示的内容,模式匹配用的是扩展正则表达式

你可能感兴趣的:(运维)