文本三剑客
grep (Global search REgular expression and Print out the line ):文本过滤(模式:pattern)工具
grep(支持正则表达式)
egrep(支持扩展正则表达式)
fgrep(不支持正则表达式搜索)
sed:stream editor,文本编辑工具
awk:文本报告生成器,功能更强大,
grep
grep(Global search REgular expression and Print out the line) 文本过滤工具
作用:文本搜索工具,根据用户指定的“模式”对目标文本逐行进行匹配检查;打印匹配到的行
--color=auto: 对匹配到的文本着色显示
-m # 匹配#次后停止
-v 显示不被pattern匹配到的行
-i 忽略字符大小写
-n 显示匹配的行号
-c 统计匹配的行数
-o 仅显示匹配到的字符串
-q 静默模式,不输出任何信息
-A # after, 后#行
-B # before, 前#行
-C # context, 前后各#行
-e 实现多个选项间的逻辑or关系
grep –e ‘cat ’ -e ‘dog’ file
-w 匹配整个单词
-E 使用ERE 相当于egrep
-F 相当于fgrep,不支持正则表达式
-f file 根据模式文件处理
sed
sed工作原理
sed是一种流编辑器,它一次处理一行内容。
处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。然后读入下行,执行下一个循环。如果没有使诸如‘D’ 的特殊命令,那会在两个循环之间清空模式空间,但不会清空保留空间。这样不断重复,直到文件末尾。文件内容并没有改变,除非你使用重定向存储输出。
sde除了有模式空间外,还有一个保持空间,sde在使用高级编辑命令时则会激活保持空间
可以简单理解为:”模式空间“是sde的加工车间,而”保持空间“则为半成品仓库
常用选项
-n 不输出模式空间内容到屏幕,即不自动打印
-e 多点编辑
-f /PATH/SCRIPT_FILE 从指定文件中读取编辑脚本
-r 支持使用扩展正则表达式
-i.bak 备份文件并原处编辑
编辑命令
d 删除模式空间匹配的行,并立即启用下一轮循环
p 打印当前模式空间内容,追加到默认输出之后
a \text 在指定行后面追加文本,支持使用\n实现多行追加
i \text 在行前面插入文本
c \text 替换行为单行或多行文本
w /path/file 保存模式空间中的内容至本地文件
r /path/file 读取指定文件的文本至模式空间中匹配到的行后
= 为模式空间中的行打印行号
! 模式空间中匹配行取反处理
高级编辑命令
P: 打印模式空间开端至\n内容,并追加到默认输出之前
h: 把模式空间中的内容覆盖至保持空间中
H: 把模式空间中的内容追加至保持空间中
g: 从保持空间取出数据覆盖至模式空间
G: 从保持空间取出内容追加至模式空间
x: 把模式空间中的内容与保持空间中的内容进行互换
n: 读取匹配到的行的下一行覆盖至模式空间
N: 读取匹配到的行的下一行追加至模式空间
d: 删除模式空间中的行
D: 删除多行模式空间中的所有行
注意:如果模式空间包含换行符,则删除直到第一个换行符的模式空间中的文本,并不会读取新的输入行,而使用合成的模式空间重新启动循环。如果模式空间不包含换行符,则会像发出d命令那样启动正常的新循环
awk
awk介绍
awk:Aho, Weinberger, Kernighan,报告(报表)生成器,格式化文本输出
有多种版本:New awk(nawk),GNU awk( gawk)
gawk:模式扫描和处理语言
基本用法:
awk [options] 'program' var=value file...
awk [options] 'program' -f programfile var=value file...
awk [options] 'program' 'BEGIN{action;...}pattern{action;...}END{action...}' file...
awk程序可由:BEGIN语句块、能够使用模式匹配的通用语句块、END语句块共3部分组成
program通常是被放在单引号中,可以有多个,语句用分号分隔
print,printf
选项:
-F “分割符” 指明输入时用到的字段分割符
-v var=value 变量赋值
awk语言
基本格式:awk [options] 'program' file…
Program:pattern{action statements;..}
pattern和action
• pattern部分决定动作语句何时触发及触发事件
BEGIN,END
• action statements对数据进行处理,放在{}内指明
print, printf
分割符、域和记录
• awk执行时,由分隔符分隔的字段(域)标记$1,$2...$n称为域标识。 $0为所有域
注意:此时和shell中变量$符含义不同
• 文件的每一行称为记录
• 省略action,则默认执行 print $0 的操作
awk工作原理
- 第一步:执行BEGIN{action;… }语句块中的语句
- 第二步:从文件或标准输入(stdin)读取一行,然后执行pattern{ action;… }语句块,它逐行描文件,从第一行到最后一行重复这个过程,直到文件全部被读取完毕。
- 第三步:当读至输入流末尾时,执行END{action;…}语句块
- BEGIN语句块在awk开始从输入流中读取行之前被执行,这是一个可选的语句块,比如变量初始化、打印输出表格的表头等语句通常可以写在BEGIN语句块中
- END语句块在awk从输入流中读取完所有的行之后即被执行,比如打印所有行的分析结果这类信息汇总都是在END语句块中完成,它也是一个可选语句块
- pattern语句块中的通用命令是最重要的部分,也是可选的。如果没有提供pattern语句块,则默认执行{ print },即打印每一个读取到的行,awk读取的每一行都会执行该语句块
awk变量
变量:内置变量和自定义变量 内建变量: FS(input field seperator):输入字段分隔符,默认为空白字符 awk -v FS=':' '{print $1,FS,$3}’ /etc/passwd awk –F: '{print $1,$3,$7}’ /etc/passwd OFS(output field seperator):输出字段分隔符,默认为空白字符 awk -v FS=‘:’ -v OFS=‘:’ '{print $1,$3,$7}’ /etc/passwd RS(input record seperator):输入记录分隔符,指定输入时的换行符 awk -v RS=' ' ‘{print }’ /etc/passwd ORS(output record seperator):输出记录分隔符,输出时用指定符号代替换行符 awk -v RS=' ' -v ORS='###'‘{print }’ /etc/passwd NF(number of field):字段数量 awk -F:‘{print NF}’ /etc/fstab 引用内建变量时,变量前不需加$ awk -F:‘{print $(NF-1)}' /etc/passwd打印每一行最后一个字段 NR(number of record):行数 awk ‘{print NR}’ /etc/fstab ; awk END‘{print NR}’ /etc/fstab FNR:各文件分别计数,行数(后面这几个内建变量知道就好,很少会用到) FILENAME:当前文件名 ARGC:命令行参数的个数 ARGV数组,保存的是命令行所给定的各参数 自定义变量(区分字符大小写) (1) -v var=value (2) 在program中直接定义
操作符
算术操作符: x+y, x-y, x*y, x/y, x%y, x^y - x:转换为负数 +x:将字符串转换为数值 字符串操作符:没有符号的操作符,字符串连接 赋值操作符: =, +=, -=, *=, /=, %=, ^=,++, -- 下面两语句有何不同 • awk ‘BEGIN{i=0;print ++i,i}’ • awk ‘BEGIN{i=0;print i++,i}’ 比较操作符: ==, !=, >, >=, <, <= 模式匹配符: ~:左边是否和右边匹配,包含 !~:是否不匹配 示例: awk -F: '$0 ~ /root/{print $1}‘ /etc/passwd awk '$0~“^root"' /etc/passwd awk '$0 !~ /root/‘ /etc/passwd awk -F: ‘$3==0’ /etc/passwd 逻辑操作符:与&&,或||,非! 示例: • awk -F: '$3>=0 && $3<=1000 {print $1}' /etc/passwd • awk -F: '$3==0 || $3>=1000 {print $1}' /etc/passwd • awk -F: ‘!($3==0) {print $1}' /etc/passwd • awk -F: ‘!($3>=500) {print $3}’ /etc/passwd
awk控制语句
1.if-else
语法:if(condition){statement;…}[else statement]
if(condition1){statement1}else if(condition2){statement2}else{statement3}
使用场景:对awk取得的整行或某个字段做条件判断
2.while循环
语法:while(condition){statement;…}
条件“真”,进入循环;条件“假”,退出循环
使用场景:
对一行内的多个字段逐一类似处理时使用
对数组中的各元素逐一处理时使用
3.do-while循环
语法:do {statement;…}while(condition)
意义:无论真假,至少执行一次循环体
4.for循环
语法:for(expr1;expr2;expr3) {statement;…}
常见用法:
for(variable assignment;condition;iteration process)
{for-body}
特殊用法:能够遍历数组中的元素
语法:for(var in array) {for-body}
5.switch语句(多分支的if语句)(更多的作为字符串比较判断)
语法:
switch(expression) {case VALUE1 or /REGEXP/: statement1; caseVALUE2 or /REGEXP2/: statement2; ...; default: statementn}
6.break和continue
awk ‘BEGIN{sum=0;for(i=1;i<=100;i++)
{if(i%2==0)continue;sum+=i}print sum}'
awk ‘BEGIN{sum=0;for(i=1;i<=100;i++)
{if(i==66)break;sum+=i}print sum}'
break [n]
continue [n]
7.next
提前结束对本行处理而直接进入下一行处理(awk自身循环)
awk -F: '{if($3%2!=0) next; print $1,$3}' /etc/passwd
用户ID被2取余,如果不等于0则执行next,提前进入下一行处理,如果等于0则继续执行后续命令
awk数组
关联数组:array[index-expression]
index-expression:
• (1) 可使用任意字符串;字符串要使用双引号括起来
• (2) 如果某数组元素事先不存在,在引用时,awk会自动创建此元素,并将其值初始化为“空串”
• (3) 若要判断数组中是否存在某元素,要使用“index in array” 格式进行遍历
若要遍历数组中的每个元素,要使用for循环
for(var in array) {for-body}
注意:var会遍历array的每个索引
awk函数
数值处理:
rand():返回0和1之间一个随机数
awk 'BEGIN{srand();print int(rand()*100)}'
awk 'BEGIN{srand(); for (i=1;i<=10;i++)print int(rand()*100) }'
字符串处理:
• length([s]):返回指定字符串的长度
• sub(r,s,[t]):对t字符串搜索r表示模式匹配的内容,并将第一个匹配内容替换为s
echo "2008:08:08 08:08:08" | awk 'sub(/:/,-",$1)'
• gsub(r,s,[t]):对t字符串进行搜索r表示的模式匹配的内容,并全部替换为s所表示的内容
echo "2008:08:08 08:08:08" | awk ‘gsub(/:/,“-",$0)'
• split(s,array,[r]):以r为分隔符,切割字符串s,并将切割后的结果保存至array所表示的数组中,第一个索引值为1,第二个索引值为2,…