shell脚本学习8-gawk

本节gawk是awk的gun版本，gawk实际上是一种编程语言而不是一个命令。gawk要用单引号和大括号包含进来，把程序写到大括号里面。

gawk处理一行数据时的分隔符
gawk会把一行数据按照任意的空白字符（比如空格或者制表符）进行分割，1代表第一个数据段，以此类推。比如文件data的内容为：

This is Fruit:apple
That is City:Beijing
These are books:maths
Those are animals:dogs

按照默认的空白字符进行分割，输入：

gawk '{print $3}' data

运行后结果为：

Fruit:apple
City:Beijing
books:maths
animals:dogs

如果想要修改分割符，比如以冒号作为分隔符，则输入：

gawk -F: '{ print $2}' data

运行后结果为：

apple
Beijing
maths
dogs

gawk中使用多个指令
gawk中使用多个指令的时候，除了最后一个指令外，每个指令的结尾都要加一个分号。比如输入

gawk '{$1="This";print $0}' data

运行后结果为：

This is Fruit:apple
This is City:Beijing
This are books:maths
This are animals:dogs

把指令放进文件中，用gawk去加载文件
比如建立一个文件gawk_file,内容为：

{
str="-->"
print $1 str $2
}

输入：

gawk -f gawk_file data

运行后输出：

This-->is
That-->is
These-->are
Those-->are

注意上面的gawk_file文件中去取str变量的值的时候并没有用美元符号，而且指令与指令之间也不需要用分号。

BEGIN关键字
BEGIN关键字后面可以加语句，这些语句会在gawk读取文件之前就执行。比如输入：

gawk 'BEGIN {print "Read file:..."} {print $0}' data

运行结果为：

Read file:...
This is Fruit:apple
That is City:Beijing
These are books:maths
Those are animals:dogs

END关键字
END关键字后面可以加语句，这些语句会在gawk处理文件后再执行。比如输入：

gawk 'BEGIN {print "Read file:..."} {print $0} END{print "Done!"}' data

运行后结果为：

Read file:...
This is Fruit:apple
That is City:Beijing
These are books:maths
Those are animals:dogs
Done!

可以把BEGIN,END等都写到一个文件中去，比如建立一个文件gawk_file2，内容为：

BEGIN {
print "Start"
print "Begin to read file"
FS=":"
}

{
print $0
}

END {
print "END"
}

输入：

gawk -f gawk_file2 data

运行后输出结果为：

Start
Begin to read file
This is Fruit:apple
That is City:Beijing
These are books:maths
Those are animals:dogs
END

分隔符内建变量
内建变量值得是shell中已经定义过可以直接使用的变量，shell中用于分割作用的内建变量有5个，之前已经提到过一个FS，FS是输入字段的分隔符，除了FS还有FIELDWIDTH，OFS,RS,ORS。

6.1 OFS对输出进行分割
默认情况下，对输出进行分割的是空格。当然如果设置OFS的话那么就能修改风格符了，比如输入：

gawk 'BEGIN {FS=":";OFS="<--->"} {print $1,$2}' data

运行后结果为：

This is Fruit<--->apple
That is City<--->Beijing
These are books<--->maths
Those are animals<--->dogs

如上所示，在BEGIN里面把输入分隔符和输出分隔符都设置号。

6.2 FIELDWIDTHS按宽度取出数据
FIELDWIDTHS设定之后，gawk根据输入的数字在输入的一行中去截取对应的长度，同时FIELDWIDTHS设定之后FS就不起作用了。比如对于文本data的数据为：

This is Fruit:apple
That is City:Beijing
These are books:maths
Those are animals:dogs

输入：

gawk 'BEGIN{FIELDWIDTHS="4 1 2 1 5 6";OFS="<--->"} {print $1,$3,$5,$6}' data

运行后结果为：

This<--->is<--->Fruit<--->:apple
That<--->is<--->City:<--->Beijin
Thes<---> a<--->e boo<--->ks:mat
Thos<---> a<--->e ani<--->mals:d

6.3 RS作为输入记录的分隔符
默认情况下，RS为换行符，也就说对于一个文本，每一行就是一个新的记录。之前的比如2这种都是对一个记录去处理的。有时候我们希望多行数据为一个记录的时候，可以修改RS的值。比如有一个文本data2的内容为：

Fan wei
China Beijing
Male
Actor

Ji Xiao Lan
Qing Beijing
Male
Guan

以上内容实际上是两段，现在想要把一段当成一个整体，并且整段中的每一行当做一个数据段。这里只要把FS设置为换行符\n，并把RS设置成空行。输入如下：

gawk 'BEGIN{FS="\n"; RS=""} {print $1,$2}' data3

运行后结果为：

Fan wei China Beijing
Ji Xiao Lan Qing Beijing

6.4 ORS作为输出记录的分隔符
同理，ORS作为输出记录的分隔符，默认也是换行符\n。当然也可以修改这个变量，输入：

gawk 'BEGIN{FS="\n"; RS="";ORS="<>\n"} {print $1,$2}' data3

data3的内容为：

Fan wei
China Beijing
Male
Actor

Ji Xiao Lan
Qing Beijing
Male
Guan

运行后结果为：

Fan wei China Beijing<>
Ji Xiao Lan Qing Beijing<>

自定义变量
gawk中也可以自己定义一些变量并使用，在使用变量的时候不需要加美元符号。比如在gawk中定义并打印字符串：

gawk 'BEGIN{str="Wu lin wai zhuan";print str}'

运行后输出结果为：

Wu lin wai zhuan

gawk中也可以使用数学运算，如输入：

gawk 'BEGIN{x=4;x=x*x+4;print x}'

运行后结果为：

gawk中使用字典
gawk中能够定义字典，类似于C++中的map一样，比如输入：

gawk 'BEGIN {city["JiangSu"]="NanJing";city["JiangXi"]="NanChang";print city["JiangSu"]}'

运行后输出结果为：

NanJing

当然，也可以用数字,比如：

gawk 'BEGIN{array[1]=3;array[2]=5;multi=array[1]*array[2];print multi}'

运行后输出结果为：

同时，也可以使用迭代语句来读取字典中的值。gawk中使用for语句来取出字典中的数据，不过每次取出的都是字典中key值。比如输入：

gawk 'BEGIN{dict["a"]=1;dict["b"]=2;dict["c"]=3;dict["d"]=4;for (idx in dict){print "index", idx,"value",dict[idx]}}'

运行后结果为：

index a value 1
index b value 2
index c value 3
index d value 4

注意index的返回值没有规律，也就是说多次执行的时候可能index返回的顺序并不相同。同时也可以删除字典中的一个对象，比如输入：

gawk 'BEGIN{dict["a"]=1;dict["b"]=2;dict["c"]=3;dict["d"]=4;delete dict["d"];for (idx in dict){print "index", idx,"value",dict[idx]}}'

运行后结果为：

index a value 1
index b value 2
index c value 3

gawk中使用正则表达式
gawk中可以使用正则表达式去匹配，当然详细的正则表达式的内容这一节不展开。这里以文件data4为例，介绍如何使用正则表达式，data4的内容为：

Vedio wulin is awesome
Apparently that is correct
which vulin

首先不用正则表达式，搜索匹配wulin这个单词并把第一个字段打印出来，输入：

gawk '/wulin/{print $1}' data4

运行后结果为：

Vedio

这是因为data4中的三行数据只有第一行有wulin这个单词。现在使用正则表达式，输入:

gawk '/[uvw]ulin/{print $1}' data4

运行后结果为：

Vedio
which

因为[uvw]这个表示属于这三个字母的任何一个都匹配，所以第一行和第三行的wulin和vulin都匹配上了。

上面的正则表达式是使用文本的一整行去匹配，但是如果想要用一行中的某一个字段去匹配的话也可以的，这个时候要使用匹配操作符（波浪号~）。输入：

gawk 'BEGIN{FS=":"} $1 ~ /^san/{print $1 $NF}' /etc/passw

运行后结果为：

saned /bin/false

其对应的原始数据为：

saned:x:119:127::/var/lib/saned:/bin/false

这个命令会在第一个字段中去判断$1是不是以san开头的单词，如果是的话则打印第一个字段和最后一个字段。

如果想要排除这个正则表达式的关键字的时候则可以使用!_{，也就是说用!}可以找出不匹配的行然后去处理，比如输入

gawk 'BEGIN{FS=":"} $1 !~ /^san/{print $1, $NF}' /etc/passwd|grep san

运行后结果中已经没有之前的saned的行了，但是/etc/passwd的其他行的数据都有。

gawk中使用数字和字符串的比较
对于数字的比较跟C语言的语法相同，有以下5种：
a)数字x与数字y相等，x==y
b)数字x大于数字y, x>y
c)数字x大于等于数字y, x>=y
d)数字x小于数字y, x e)数字x小于等于数字y, x<=y
新建文件data5，内容为：

100 madashuai xiaozhang
200 fandebiao chuzi
300 yufugui   cunzhang

输入：

gawk '$1==200 {print $0}' data5

运行后结果为：

200 fandebiao chuzi

再输入：

gawk '$1<=200 {print $0}' data5

运行后结果为：

100 madashuai xiaozhang
200 fandebiao chuzi

上面两个输入都是数字的比较，字符串同样也可以比较，当字符串完全相同的时候才能匹配，输入：

gawk '$2=="fandebiao" {print $0}' data5

运行后结果为：

200 fandebiao chuzi

再输入：

gawk '$2=="fande" {print $0}' data5

运行后结果为空，这说明必须要完全匹配才能处理。

gawk中使用分支语句
gawk中可以使用if-else这样的分支语句，其语法与C语言的语法相同，比如data5的内容为：

100 madashuai xiaozhang
200 fandebiao chuzi
300 yufugui   cunzhang

输入：

gawk '{if ($1 ==300){x=$1;x=x*x;print x}}' data5

运行后结果为：

当然，gawk中也可以使用else if和else语句，同样和C语言的语法相同，输入：

gawk '{if ($1==100) {print $1}else if($1 ==200 ){print $2} else {print $3}}' data5

运行后结果为：

100
fandebiao
cunzhang

gawk中使用while语句
gawk中可以使用while循环，语法与C语言相同，比如data6的内容如下：

1 2 3 4
5 6 7 8
9 10 -3 -99

输入：

gawk '{sum=0;i=1;while (i<=4){sum+=$i;i++;}avg=sum/3;print "average:",avg}' data6

运行后结果为：

average: 3.33333
average: 8.66667
average: -27.6667

上面的命令是把每一行的四个数字求和除以3然后打印出来。同时，gawk的while循环中也可以使用break和continue，输入

gawk '{sum=0;i=1;while (i<=4){sum+=$i;if (i==2){break}i++;}avg=sum/3;print "average:",avg}' data6

运行后结果为：

average: 1
average: 3.66667
average: 6.33333

gawk中使用for语句
gawk中使用for语句跟C语言相同，输入的data6文件内容为：

1 2 3 4
5 6 7 8
9 10 -3 -99

输入如下命令：

gawk '{sum=0;for (i=1;i<=4;i++){sum+=$i;}avg=sum/3;print "average:",avg}' data6

运行后结果为：

average: 3.33333
average: 8.66667
average: -27.6667

gawk中使用printf打印
gawk中除了可以使用print语句外，还可以使用printf语句打印，用法和C语言相同。比如data7文本的内容为：

312 3.145 great
666 45.01 good
899 0.004 nothing

输入：

gawk '{printf "integer:%d,   float:%f,   string:%s\n",$1,$2,$3}' data7

运行后结果为：

integer:312,   float:3.145000,   string:great
integer:666,   float:45.010000,   string:good
integer:899,   float:0.004000,   string:nothing

gawk中使用内建函数
gawk中有一些内建函数用于处理比较通用的运算，比如数学运算和字符串处理。
14.1 gawk中使用数学运算的内建函数
常用的数学运算函数有sin,cos,sqrt,int等等，int是用于去整数值的运算，输入：

gawk 'BEGIN {y=int(3.14);z=int(-3.14);print y,z}'

运行后结果为：

3 -3

14.2 gawk中使用字符串处理的函数
个人感觉这一节非常重要，之后可以用到的地方非常多。

14.2.1 toupper,tolower,length的使用
输入文本data8的内容为：

WuLinWaiZhuan,ZhaoBenShan

输入：

 gawk 'BEGIN{FS=","}{x=$1;y=toupper(x);z=tolower(x);printf("%s,   %s,   %s,   %d\n"),x,y,z,length(z)}' data8

运行后结果为：

WuLinWaiZhuan,   WULINWAIZHUAN,   wulinwaizhuan,   13

toupper和tolower函数将字符串分别转化成大写和小写，length返回字符串的长度。

14.2.2 split函数分割字符串
split是按照指定的分割字符去分割字符串，返回值是分割后的字符串的个数，输入：

echo "12:34:56:78"|gawk '{split($0,a,":");for(i=1;i<=4;i++){print a[i]}}'

运行后结果为：

当在shell脚本中去对字符串引用时候，要使用"和"组成的双引号。建立一个shell脚本，输入：

#/bin/bash
str=12:34:56:78
awk 'BEGIN {num=split('"\"$str\""', array, ":");for (i=1;i<=num;i++){print array[i]}}'

运行这个脚本后，结果为：

14.2.3 gawk中使用index函数
index（s,t）是查找字符串t在s字符串索引值，如果找不到返回0，index 返回子字符串第一次被匹配的位置，偏移量从位置1开始.输入：

awk 'BEGIN { a="mytest";b="test";print index(a, b) }'

运行后结果为：

再输入：

awk 'BEGIN { a="mytest";b="ttt";print index(a, b) }'

运行后结果为：

14.2.4 gawk中使用sub和gsub函数
sub和gsub都是用于字符串替换，sub只会替换一行中第一次的成功匹配，gsub会替换所有的成功匹配，比如文件data8的内容为：

LinWaiZhuan,ZhaoBenShanLin

输入：

gawk 'BEGIN{FS=","}{sub("Lin","Test");print $0}' data8

运行后结果为：

TestWaiZhuan,ZhaoBenShanLin

sub函数只修改了第一个Lin为Test。
再输入：

gawk 'BEGIN{FS=","}{gsub("Lin","Test");print $0}' data8

运行后结果为：

TestWaiZhuan,ZhaoBenShanTest

gsub把所有的Lin都改成Test
注意：sub和gsub可以使用正则表达式，比如输入：

gawk 'BEGIN{FS=","}{gsub("^Lin","Test");print $0}' data8

运行后结果为：

TestWaiZhuan,ZhaoBenShanLin

这里用逗号把一行数据分割之后，修改以Lin开头的字段。

14.2.5 substr函数截取字符串
substr(str, start,len)从字符串str的start索引位置截取len长度的字符串，如果么有指定len这个参数的话，那就截取到结尾。
输入：

awk 'BEGIN { print substr( "hello world", 7,11 ) }'

运行后结果为：

world

再输入：

awk 'BEGIN { print substr( "hello world", 4 ) }'

运行后结果为：

lo world

14.2.6 match函数正则表达式匹配
match 返回在字符串中正则表达式位置的索引，如果找不到指定的正则表达式则返回0。match函数会设置内建变量RSTART为字符串中子字符串的开始位置，RLENGTH为到子字符串末尾的字符个数。substr可利于这些变量来截取字符串
输入：

awk 'BEGIN{start=match("this is a test",/[a-z]+$/); print start}'

运行后结果为：

再输入：

awk 'BEGIN{start=match("this is a test",/[a-z]+$/); print start, RSTART, RLENGTH }'

运行后结果为：

11 11 4
```gawk中使用数字和字符串的比较

15. 总结与展望
15.1 总结
a) gawk中对一行数据进行分割的时候指定FS的值；
b) gawk中使用多个指令的时候用分号分割；
c) 把指令写到文件中，用-f去加载文件;
d) BEGIN和END关键字使用;
e) 分隔符内建变量的使用，FS,FIELDWIDTH，OFS,RS,ORS;
f) gawk中使用自定义变量不需要用美元符号；
g) gawk中使用字典；
h) gawk中使用正则表达式,!~不包含；
i)  gawk中使用数字和字符串的比较；
j）gawk中使用分支语句和循环语句（while,for）；
k) gawk中使用printf打印
l)   gawk中使用内建函数
15.2 展望
下一节学习shell脚本中的正则表达式，非常重要。

shell脚本学习8-gawk

你可能感兴趣的:(shell脚本学习8-gawk)