awk学习总结:
awk语言的最基本功能是在文件或字符串中基于指定规则浏览和抽取信息。awk抽取信息后,才能进行其他文本操作。完整的awk脚本通常用来格式化文本文件中的信息。
1、调用awk
第一种方法:命令行方式
awk [-F fild-separator] 'commands' input-file(s)
command是awk真正的命令。
【-F 域分隔符】是可选的默认是空格为缺省的域分隔符。
第二种方法:将所有的awk命令插入一个文件,并使awk程序可执行,然后用awk命令解释器做为脚本的首行,以便通过键入脚本名字来调用它。
第三种方法:将所有awk命令插入一个单独文件,然后调用:
awk -f awk-script-file input-files
-f选项指明在文件awk_script_file中的awk脚本。
2、awk脚本
在命令中调用awk时,awk脚本由各种操作和模式组成。
2.1模式和动作:
任何awk语句都由模式和动作组成,模式部分决定动作语句合适触发及触发事件。处理即对数据进行的操作。如果省略模式部分,动过将时刻保持执行装填。
模式可以是任何条件语句或符合语句或正则表达式。模式包括2个特殊字段:BEGIN和END。使用BEGIN语句设置计数和打印头。BEGIN语句使用在任何文本浏览动作之前,之后文本浏览动作一句输入文件开始执行。END语句用来在AWK完成文本浏览动作后打印输出文本总数和结尾状态标志。如果不特别指明模式,AWK总是拼配或打印行数。
实际动作在大括号{}内指明,动作大多数用来打印,但是还有些更长的代码诸如if和循环(looping)语句及循环退出结构。如果不指明采取动作,awk将打印出所有浏览出来的记录。
2.2域和记录
awk执行时,其浏览标记为$1,$2...$n。这种方法称为域标示,使用域标示更容易对域进行进一步处理。
$0标示所有域,awk浏览时,达到一新行,即假定到达包含域的记录末尾,然后执行新纪录下一行的读动作,并重新设置域分隔符。
域标示的$和shell中的$含义时不同的。
=========================================================================================================================================
1、抽取域
awk -F: '{print $6}' passwd 打印出所有用户的家目录。这里因不是默认的域分隔符,所以用-F指出分隔符为“:”
2、保存awk输出。
两种方法:
一、awk -F: '{print $6}' passwd >/root/1.txt 输出awk内容到1.txt文件。
二、awk -F: '{print $6}' passwd |tee /root/2.txt 输出awk内容到2.txt并同时显示到屏幕上。
3、使用标准输入
跟标准输出正好相反:1、<使用重定向输入符。2、管道。比如:cat passwd |awk -F: '{print $6}'
4、打印所有记录。
awk '{print $0}' passwd
5、打印部分域.
awk -F: '{print $6,$7}' passwd 这个打印域6和域7
6、打印报告头
awk -F: 'BEGIN {print "home shell\n--------------------------"}{print $6,"\t",$7}' passwd 打印结果出来后将会多了报告头.
7、打印信息尾
awk -F: 'BEGIN {print "home shell\n--------------------------"}{print $6,"\t",$7} END {print "end of report"}' passwd 报告结尾将多了end of report,告知我们完毕。
8、awk错误信息提示
借用别个总结:
(1)、确保整个awk命令用单引号括起来。
(2)、确保命令内部所有引号成对出现。
(3)、确保用花括号括起来动作语句,用圆括号括起来条件语句。
(4)、可能忘记使用花括号,也许你认为没有必要,但awk不这样认为,将按之解释语法。
9、awk键盘输入
awk -F: 'BEGIN {print "home shell\n--------------------------"}{print $6,"\t",$7} END {print "end of report"}' 这里BEGIN打印了文件头后,将一直等待用户从键盘输入,当我们输入完毕后,按<ctrl+D>。这个不常用,了解下。
==============================================================================================================
这里新建grade.txt文本,内容如下:
M.Tans 5/99 48311 Green 8 40 44
J.Lulu 06/99 48317 green 9 24 26
P.Bunny 02/99 48 Yellow 12 35 28
J.Troll 07/99 4842 Brown-3 12 26 26
L.Tansl 05/99 4712 Brown-2 12 30 28
以下例子基本都以此文本操作。
awk中正则表达式及其操作
1、元字符:
代码:
\ ^ $ . [] | * + ?
+ 使用+匹配一个或多个字符。
? 匹配模式出现皮率。例如使用/X Y?Z/匹配X Y Z 或YZ
2、条件操作符
awk条件操作符
操作符描述:
< 小于 >= 大于等于
<= 小于等于 ~ 匹配正则表达式
== 等于 !~ 不匹配正则表达式
!= 不等于
3、匹配
为使一域号匹配正则表达式,使用符号~ 后紧跟正则表达式,也可以用if语句。awk中if后面的条件用()括起来。
awk '{if($4~/Brown/)print $0}' grade.txt 返回所有含有Brown的行。
匹配记录找到时,如果不特别证明,awk缺省打印整条记录。
awk '$0~/Brown/' grade.txt 跟上面一句返回结果相同,此句为不含if语句。
4、精确匹配
awk '{if($3~/48/)print $0}' grade.txt 此句打印第三域匹配48的行,如果要精确,则需要使用==号
awk '$3=="48" {print $0}' grade.txt
awk '{if($3=="48")print $0}' grade.txt 上面2句意思一样,都是精确打印$3为48的行
5、不匹配
awk '$0!~/Brown/' grade.txt 打印不含Brown的所有行
awk '$4!="Brown-2" {print $0}' grade.txt 打印$4不含有Brown-2的所有行。
6、小于
awk '{if($6<$7)print $0}' grade.txt 打印$6<$7的行
7、小于等于
awk '$6<=$7 {print $1}' grade.txt 打印$6<=$7的第一列
8、大于
awk '$6>$7 {print $1}' greade.txt 打印$6>$7的第一列
9、设置大小写
awk '/[Gg]reen/' grade.txt 打印所有匹配green和Green的行
10、任意字符
awk '$1~/^...a/' grade.txt 打印第一域第四个字符是a的所有行
11、或关系匹配
awk '$0~/(Yellow|Brown)/' grade.txt 匹配的2个任意字符串必须用圆括号括起来
12、行首匹配
awk '/^M/' grade.txt
awk '/(^M|^L)/' grade.txt 此处测试时,曾写为(^M|8$),但是结果还是只有^M,原因至今未明,猜测括号中的2个属性应该相同的才可以做“或”关系。
&& AND :语句两边必须同时匹配为真
|| OR : 语句两边或其中一边匹配为真。
! :非求逆
13、AND
awk '{if($1=="P.Bunny" && $4=="Yellow") print $0}' grade.txt 如果域1匹配P.Bunny并且域4匹配Yellow,打印此行
14、OR
awk '{if($4=="Yellow" || $4~/Brown/) print $0}' grade.txt ||或符号2边的条件任一条为真,则执行动作打印,2边都为真,也要打印。
=号是赋值,而==则是等于,一定注意
===================================================================================================
awk 内置变量
awk有许多内置变量用来设置环境信息,这些变量可以被改变。
awk内置变量有:
ARGC argc 命令行参数个数
ARGV argv 命令行参数排列
ENVIRON environ 支持队列中系统环境变量的使用。
FILENAME filename awk浏览的文件名。
FNR fnr 浏览文件的记录数
FS fs 设置输入域分隔符,等价于命令行-F选项
NF nf 浏览记录的域个数
NR nr 已读的记录数
OFS ofs 输出的域分隔符
ORS ors 输出记录分隔符
RS rs 控制记录分隔符
NR :awk 'END {print NR}' grade.txt 打印文件的行数
NF\NR\FILENAME :awk '{print NF,NR,$0} END {PRINT FILENAME}' grade.txt 打印域个数,记录个数,文件名。
awk 'NR>0 && $4~/Brown/ {print $0}' grade.txt 文件中至少有一行,且其中第4域有匹配Brown的行打印。
echo $PWD |awk -F/ '{print $NF}' 结果为root 打印目录
echo "/usr/local/etc/rc.sybase" |awk -F/ '{print $NF}' 结果为:rc.sybase 打印文件名
以上如果不指定域分隔符,则返回完整路径及完整路径文件名
echo $PWD |awk '{print $NF}' 结果为:/root
echo "/usr/local/etc/rc.sybase" |awk '{print $NF}' 结果为:/usr/local/etc/rc.sybase
awk操作符
在awk中使用操作符,基本表达式可以划分为数字型、字符串型、变量型、域及数组元素。
下面为完整列表:
= += *= /= %= ^= 赋值操作符
?条件表达操作符
|| && !并 与 非
~ !~ 匹配操作符,包括匹配和不匹配。
< <= == != > 关系操作符
+ - * / % ^ 算数操作符
++ -- 前缀和后缀
1、设置输入域到域变量名
awk '{name=$1;belts=$4;if(belts~/Yellow/)print name "is belt" belts}' grade.txt 域1的变量名为name,域4的变量名为belts,然后再匹配。
2、域值比较操作
有两种方式测试一数值域是否小于另一数值域
1)在BEGIN中给变量名赋值
2)在关系操作中使用实际数值
通常在BEGIN部分赋值比较好,可以在awk表达式进行改动时减少很多麻烦,使用关系操作必须用圆括号括起来。
awk 'BEGIN{BASELINE="27"} {if($6<BASELINE)print $0}' grade.txt 对应第一种比较
awk '{if($6<27)print $0}' grade.txt 对应第二种,跟上一种结果相同
3、修改数值域取值(修改的域必须为数值,且文件本身没有修改,只修改了输出值)
awk '{if($1=="M.Tans") {$6=$6-1;print $1,$6,$7}}' grade.txt 6域的数值将减1,其余不变。
4、修改文本域
修改文本域即对其重新赋值。即赋值给一个新的字符串
awk '{if($1=="J.Troll")$1="J.L.Troll";print $1}' grade.txt 重新对J.Troll赋值为J.L.Troll
5、只显示修改记录
awk '{if($1=="J.Troll") {$1="J.L.Troll";print $1}}' grade.txt 此处将只打印出被修改的记录行。
6、创建新的输出域(即下面的$8就是新创建的)\t为tab键的意思
awk 'BEGIN{print "Name\tDifference"}{if($6<$7){$8=$7-$6;print$1,$8}}' grade.txt
awk 'BEGIN{print "Name\tDifference"}{if($6<$7){diff=$7-$6;print$1,diff}}' grade.txt 不同的变量名,可以域也可以为变量名
7、增加列值
awk '(tot+=$6);END{print "club student total points:"tot}' grade.txt 打印整个文件,并打印列和值
awk '{(tot+=$6)};END{print "clubstudent total points:"tot}' grade.txt 只打印出列和值
8、文件长度相加
ll |awk '/^[^d]/ {print $9"\t"$5}{tot+=$5}END{print "total kb:"tot}' 排除子目录,只计算所有文件相加的值,并打印出文件名及大小
ll |awk '/^[^d]/ {tot+=$5}END{print "total kb:"tot}' 只打印出总和值。
=================================================================================
awk内置字符串函数
gsub(r,s) 在整个$0中用s替代r
gsub(r,s,t) 在整个t中用s替代r
index(s,t) 返回s中字符串t的第一位置
length(s) 返回s长度
match(s,r) 返回s是否包含匹配r的字符串
split(s,a,fs) 在fs上将s分成序列a
sprint(fmt,exp) 返回经fmt格式化后的exp
sub(r,s) 用$0中最左边最长的字符串代替s
substr(s,p) 返回字符串s中从p开始的后缀部分
substr(s,p,n) 返回字符串s中从p开始长度为n的后缀部分
1、gsub
awk 'gsub(/4842/,4899){print $0}' grade.txt 打印出被替换的行。gusb替换用法,与sed相似
awk 'gsub(/4842/,4899)' grade.txt 同上
2、index
awk 'BEGIN{print index("Bunny","ny")}' grade.txt 返回ny在bunny中的第一位置,结果为4
3、length
awk '$1=="J.Troll" {print length($1)"\t"$1}' grade.txt 返回$1的字符串长度及字符串1内容
awk 'BEGIN{print length("J.Troll")}' grade.txt 返回字符串的长度
4、match
awk 'BEGIN{print match("ANCD",/d/)}' ANCD无匹配d的,则返回0
awk 'BEGIN{print match("ANCD",/D/)}' ANCD中匹配D的,位置在4,返回4
awk '$1=="J.Lulu" {print match($1,"u")}' grade.txt $1中有匹配u的,返回第一个位置4
5、split
awk 'BEGIN{split("123-456-789",pats_array,"-");print pats_array[2]}' 返回数组2值
awk 'BEGIN{split("123#456#789",pats_array,"#");print pats_array[3]}' 返回数组3值
6、sub
awk '$1=="J.Troll" sub(/26/,"29",$0)' grade.txt 这个我是没测试通过,测试返回值为空。。悲催
7、substr
awk '$1=="L.Tansl"{print substr($1,1,3)}' grade.txt 返回¥1从第个字符串长度为3的字符串:L.T
awk '$1=="L.Tansl"{print substr($1,1,99)}' grade.txt 给定长度远大于字符串长度,则返回从开始到结尾的全部字符串
awk '{print substr($1,3)}' grade.txt 打印$1从第三个字符串开始的后缀命长
awk 'BEGIN{STR="A FEW GOOD MEN"}END{print substr(STR,7)}' grade.txt 返回:GOOD MEN
8、从shell中向awk传入字符串
awk脚本大多只有一行,其中很少是字符串表示的。大多要求在一行内完成awk脚本,这一点通过将变量传入awk命令行会便得很容易。
echo "Stand-by" |awk '{print length($0)}'
STR="mydoc.txt"
echo $STR |awk '{print substr($STR,1,5)}' 返回文件名
echo $STR |awk '{print substr($STR,7)}' 返回后缀名
===============================================================
字符串屏蔽序列
使用字符串或正则表达式时,有时需要在输出中加入一新行或查询一元字符。
打印一新行时,(新行为字符\n),给出其屏蔽序列,以不失其特殊含义,用法为在字符串前加入反斜线。
如果使用正则表达式,查询花括号{},在字符前加入反斜线,如/\{/,将在awk中失掉其特殊含义。
awk中使用的屏蔽序列
\b 退格键
\t tab键
\f 走纸换页
\ddd 八进制值
\n 新行
\c 任意其它特殊字符,例如\\为反斜线符号
\r 回车键
例子:
awk 'BEGIN{print "\n\May\tDay\n\nMay\t\104\141\171"}' 此处略有不对,还没研究透彻,后面三个数字为8进制。
==================================================
awk 输出函数printf
awk 提供函数printf,拥有集中不同的格式化输出功能。例如按列输出,左对齐或右对齐方式。
每一种printf函数(格式控制字符)都以一个%符号开始,以一个决定转换的字符结束,转换包含三种修饰符。
printf函数的基本语法是printf ([格式控制符],参数)格式控制符号通常在引号里。
printf修饰符
- 左对齐
Width 域的步长,用0表示0步长
.prec 最大字符串长度,或小数点右边的位数
表9-7awk printf格式
%c ASCII字符
%d 整数
%e 浮点数,科学计数法
%f 浮点数,例如(123.44)
%g awk决定使用哪种浮点数转换e或者f
%o 八进制数
%s 字符串
%x 十六进制数
1、字符转换
echo "65" |awk '{printf "%c\n",$0}' 转换ASCII65的等价值。返回A。另外\n换行最好是加上,否则输出跟提示符混一行了
awk 'BEGIN{printf "%c\n",65}' 同上效果
awk 'BEGIN{printf "%f\n",999}' 浮点数转换
2、格式化输出
awk '{printf "%-15s%s\n",$1,$3}' grade.txt
awk 'BEGIN{printf "Name\t\tS.Number\n"}{printf "%-15s%s\n",$1,$3}' grade.txt 这里不太明白啥意思,以后慢慢看吧。
3、向一行awk命令传值
awk 命令变量=输入文件值
awk '{if($5<AGE)print $0}' AGE=10 grade.txt
df -k |awk '{if($4<TRIGGER) print$6"\t"$4}' TRIGGER=9210000 检查硬盘中值小于9210000的盘符
df -k |awk '($4~/^[0-9]/){if($4<TRIGGER)print $6"\t"$4}' TRIGGER=9210000 没意思
who |awk '{print $1 " is logged on"}'
pwd |awk '{if($1==derr)print $1}' derr=$HOME 打印家目录
4、awk脚本文件
#!/bin/awk -f
#student.awk
BEGIN{
print "Student Date Member NO. Grade Age Points Max"
print "Name joined Gained point Available"
print "========================================================="
}
(tot+=$6)
END{
print "Club student total points:" tot
print "Average Club Student Points:" tot/NR
}
这是个简单的脚本,awk脚本基本格式。
脚本这块比较复杂,需要多加练习,多想,才能慢慢熟练。
5、在awk中使用FS变量
awk -F: '{print $1,"\t",$7}' passwd
awk 'BEGIN {FS=":"}{print $1,"\t",$7}' passwd 2句意思一样,下面是脚本写法,当做练习
#!/bin/awk -f
#passwd.awk
BEGIN{
FS=":"
}
{print $1,"\t",$7}
6、想awk脚本传值
脚本为:
#!/bin/awk -f
#checkfeild.awk
NF!=MAX{
print("line" NR " does not have " MAX "fields")}
chmod 755 checkfeild.awk
./checkfeild.awk MAX=7 FS=":" passwd
#!/bin/awk -f
#name.awk
{if($5<AGE)
print $0}
chmod u+x name.awk
./name.awk AGE=10 grade.txt
数组:
例子
#!/bin/awk -f
#arr.awk
BEGIN{
record="123#456#789";
split(record,myarray,"#")}
END{for(i in myarray){print myarray[i]}}
chmod 755 arr.awk
./arr.awk /dev/null
上面脚本可以写成命令为:
awk 'BEGIN{record="123#456#789";split(record,myarray,"#")}END{for(i in myarray){print myarray[i]}}' /dev/null
数组和记录
举一例子:
文件如下:
vim grade_student.txt
Yellow#Junior
Orange#Senior
Yellow#Junior
Purple#Junior
Brown-2#Junior
White#Senior
Orange#Senior
Red#Junior
Brown-2#Senior
Yellow#Senior
目的:
1、统计Yellow,Orange和Red级别的人各多少
2、俱乐部有多少成年和未成年人
脚本如下:
#!/bin/awk -f
#count.awk
BEGIN{
FS="#"
belt["Yellow"]
belt["Orange"]
belt["Red"]
student["Junior"]
student["Senior"]
}
{for(colour in belt)
{if($1==colour)
belt[colour]++}}
{for(senior_or_junior in student)
{if($2==senior_or_junior)
student[senior_or_junior]++}}
END{for(colour in belt)print "The club has",belt[colour],colour,"Belts"
for(senior_or_junior in student)print "The club has ",\
student[senior_or_junior],senior_or_junior,"student"}
chmod 755 count.awk
./count.awk grade_student.txt
结果:
./count.awk grade_student.txt
The club has 1 Red Belts
The club has 2 Orange Belts
The club has 3 Yellow Belts
The club has 5 Senior student
The club has 5 Junior student
这个学的是又困又累又枯燥无味,真要命啊。。。这个基本上都是按照shell基础十二篇中照着做实验,加上自己的理解,总之太费劲了。
至此awk基本的知识点已经学的差不多了,反正咱是不懂的,直接找习题做,等以后再去慢慢熟悉原因,中间有些有点问题,不过基本上都测试过。最近要多练习练习,不然真枉费我这么大精力了。