awk是一种优良的文本处理工具,Linux及Unix环境中现有的功能最强大的数据处理引擎之一。这种编程及数据操作语言的最大功能取决于一个人所拥有的知识。awk命名:Alfred Aho Peter Weinberger和brian kernighan三个人的姓的缩写。
最简单地说, AWK 是一种用于处理文本的编程语言工具。
(1).awk 是一种可用于选择文件中的特定记录并对其执行操作的程序。
(2).awk 命令行语法如下
awk [options] -f progfile [–] file …
awk [options] [–] ‘program’ file …
1.options是命令行选项
2.progfile是awk程序文件
3.表示命令行选项截止,以后首字母为-的文件或其它不会视为选项
4.file为输入文件
5.program为awk程序脚本
(3).awk 可以使用管道,也可以将管道输入看做文件,可以使用-来代替
some_command | awk -f ‘program’ file1 - file2
awk常用内置变量
(1).FS(Field Separators)
1.字段分隔符,默认为" “。不仅可以是空格,还可以是\t和\n,还是组合的序列。
2.可以设置为单字符或正则。
(2).OFS(Output Field Separator)
输出字段分隔符,默认为” "
(3).RS(Record Separator)
1.记录分隔符,默认为\n。
2.记录可以不止以行分隔,当RS设置为空时,类似于设置\n\n+,可以用空行来分隔记录.
(4).ORS(Output Record Separator)
输出记录分隔符,默认为\n
(5).NR(Number of Records)
从程序开始执行,正在处理的记录数,每读一条Record加1
(6).NF(Number of Fields )
当前输入记录中的字段总数,一个新的记录被读取,NF就被重置
(7).FNR(File Number of Records)
当前文件中的当前记录编号,当一个新文件读取,FNR重置为0,而NR不会
awk 程序脚本
pattern
pattern 即模式,pattern用来查找匹配的record
1).BEGIN 会在读入第一条record前被执行,而且只执行一次
2).END 会在所有record读取完毕执行,也只会执行一次
3)./regular expression/ 正则表达式,匹配输入的record
4).expression 如果表达式的值为非零(如果是数字)或非空(如果是字符串),则模式匹配
5).begpat, endpat 匹配范围从开始模式begpat到结束模式endpat
6).pattern 为空,那代表匹配每一条record
action
1).action 是在匹配pattern后,需要完成的动作。使用action 时{}不能省略,如果只有pattern,没有action,那相当于{print $0}。
2).action 包含以下类型语句
a:表达式语句 调用函数或者为变量赋值
b:控制语句 控制的程序流程
If语句:有条件地执行一些 awk 语句.
if (condition) then-body [else else-body]
While语句:循环, 直到满足某些条件
while (condition)
body
Do语句: 在循环时执行指定的操作, 直到满足某些条件.
do
body
while (condition)
For语句: 另一个循环语句, 提供初始化和增量子句
for (initialization; condition; increment)
body
Switch语句: 基于值的语句,按条件执行
switch (expression) {
case value or regular expression:
case-body
default:
default-body
}
Break语句: 终止当前循环执行
break
Continue语句: 结束本次循环,进行下一次循环
continue
Next语句: 停止处理当前输入记录
next
Nextfile语句: 停止处理当前文件
nextfile
Exit语句: 停止awk执行.
exit [return code]
复合语句 用大括号包裹的多条语句
输入语句 使用getline,next,nextfile获取输入
输出语句 例如print,printf
删除语句 使用delete删除数组元素
awk 数组
awk 数组的索引可以是数字、字符串,不必是连续的正整数。数字也是被当成字符串保存的。
遍历数组
for (var in array)
body
删除数组元素
delete array[index-expression]
多维数组
多维数组的索引不是单个的索引,而是多个索引序列。例如二维数组,索引就是两个,array[x,y]
多维数组实际上还是一维数组,只是将多维数组的多个索引转化为字符串用内置变量SUBSEP来连接
多维数组遍历
for (combined in array) {
# split分割字符串为数组
split(combined, separate, SUBSEP)
# separate[1]是第一个
…
}
命令格式
sed [options] 'command' file(s)
sed [options] -f scriptfile file(s)
常用参数
-e #以指定的指令来处理输入的文本文件
-n #取消默认输出(如果和p命令同时使用只会打印发生改变的行)
-h #帮助
-V #显示版本信息
常用命令
a\ #在当前行下面插入文本
i\ #在当前行上面插入文本
c\ #把选定的行改为新的文本
d #删除,删除选择的行
D #删除模板块的第一行
s #替换指定字符
h #拷贝模板块的内容到内存中的缓冲区
H #追加模板块的内容到内存中的缓冲区
g #获得内存缓冲区的内容,并替代当前模板块中的文本
G #获得内存缓冲区的内容,并追加到当前模板块文本的后面
l #列表不能打印字符的清单
n #读取下一个输入行,用下一个命令处理新的行而不是用第一个命令
N #追加下一个输入行到模板块后面并在二者间嵌入一个新行,改变当前行号码
p #打印匹配的行
P #(大写)打印模板的第一行
q #退出Sed
b #lable 分支到脚本中带有标记的地方,如果分支不存在则分支到脚本的末尾
r #file 从file中读行
t #label if分支,从最后一行开始,条件一旦满足或者T,t命令,将导致分支到带有标号的命令处,或者到脚本的末尾
T #label 错误分支,从最后一行开始,一旦发生错误或者T,t命令,将导致分支到带有标号的命令处,或者到脚本的末尾
w #file 写并追加模板块到file末尾
W #file 写并追加模板块的第一行到file末尾
! #表示后面的命令对所有没有被选定的行发生作用
Sed替换命令
g #表示行内全面替换(全局替换配合s命令使用)
p #表示打印行
w #表示把行写入一个文件
x #表示互换模板块中的文本和缓冲区中的文本
y #表示把一个字符翻译为另外的字符(但是不用于正则表达式)
& #已匹配字符串标记
Sed正则
^ #匹配行开始
$ #匹配行结束
. #匹配一个非换行符的任意字符
* #匹配0个或多个字符
[] #匹配一个指定范围内的字符
[^] #匹配一个不在指定范围内的字符
\(..\) #匹配子串
& #保存搜索字符用来替换其他字符
\< #匹配单词的开始
\> #匹配单词的结束
x\{m\} #重复字符x,m次
x\{m,\} #重复字符x,至少m次
x\{m,n\} #重复字符x,至少m次,不多于n次
sed 实例
(1)替换 1.txt文本中word为study,代码如下
sed 's/word/study/g ’ 1. txt
(2)打印 1. txt文本第一行至第三行,代码如下
Sed -n ‘1,3p’ 1.txt
(3)打印 1.txt文本中第一行与最后一行,代码如下
Sed -n ‘1p;$p’ 1.txt
(4)删除 1.txt第一行至第三行、删除匹配行至最后一行,代码如下
Sed ‘1,3d’ 1.txt
Sed ‘/xxx/, $d’ 1.txt
(5)把文件第三行替换成“bbb”
sed ‘3cbbb’ b.txt
(6)删除空行
sed ‘/^ $/d’ passwd > c.txt
(7)把fstab中包含xfs的记录(行)写入新的文件中
sed ‘/xfs/w newfstab’ /etc/fstab
常用参数选项
-a 不要忽略二进制数据。
-A 除了显示符合范本样式的那一行之外,并显示该行之后的内容。
-b 在显示符合范本样式的那一行之外,并显示该行之前的内容。
-c 计算符合范本样式的列数。
-C或- 除了显示符合范本样式的那一列之外,并显示该列之前后的内容。
-d 当指定要查找的是目录而非文件时,必须使用这项参数,否则grep命令将回报信息并停止动作。
-e 指定字符串作为查找文件内容的范本样式。
-E 将范本样式为延伸的普通表示法来使用,意味着使用能使用扩展正则表达式。
-f 指定范本文件,其内容有一个或多个范本样式,让grep查找符合范本条件的文件内容,格式为每一列的范本样式。
-F 将范本样式视为固定字符串的列表。
-G 将范本样式视为普通的表示法来使用。
-h 在显示符合范本样式的那一列之前,不标示该列所属的文件名称。
-H 在显示符合范本样式的那一列之前,标示该列的文件名称。
-i 忽略字符大小写的差别。
-l 列出文件内容符合指定的范本样式的文件名称。
-L 列出文件内容不符合指定的范本样式的文件名称。
-n 在显示符合范本样式的那一列之前,标示出该列的编号。
-q 不显示任何信息。
-R/-r 此参数的效果和指定“-d recurse”参数相同。
-s 不显示错误信息。
-v 反转查找。
-w 只显示全字符合的列。
-x 只显示全列符合的列。
-y 此参数效果跟“-i”相同。
-o 只输出文件中匹配到的部分。
常用实例
多个文件搜索
grep “match_pattern” file_1 file_2 file_3
grep “match_pattern” file_*
#反向搜索
grep -v “match_pattern” file_name
#标记匹配颜色
grep “match_pattern” file_name --color=auto
#搜索本目录及子目录中所有文件
grep “text” . -r
搜索文件中排除,或包含指定文件
grep “main()” . -r --include *.{php,html}
grep “main()” . -r --exclude “README”
静默执行。不会输出任何信息,如果命令运行成功返回0,失败则返回非0值。一般用于条件测试。
grep -q “test” filename
打印匹配,之前或之后的行
grep “5” -A 3 # 打印匹配结果行之前3行
grep “5” -B 3 # 打印匹配结果行之后3行
grep “5” -C 3 # 打印匹配结果行之前和之后各3行