文本三剑客

grep (Global search REgular expression and Print out the line ):文本过滤(模式:pattern)工具

    grep(支持正则表达式)
    egrep(支持扩展正则表达式)
    fgrep(不支持正则表达式搜索)

sed:stream editor,文本编辑工具
awk:文本报告生成器,功能更强大,

grep

grep(Global search REgular expression and Print out the line) 文本过滤工具

作用:文本搜索工具,根据用户指定的“模式”对目标文本逐行进行匹配检查;打印匹配到的行

    --color=auto: 对匹配到的文本着色显示
    -m # 匹配#次后停止
    -v 显示不被pattern匹配到的行
    -i 忽略字符大小写
    -n 显示匹配的行号
    -c 统计匹配的行数
    -o 仅显示匹配到的字符串
    -q 静默模式,不输出任何信息
    -A # after, 后#行
    -B # before, 前#行
    -C # context, 前后各#行
    -e 实现多个选项间的逻辑or关系
    grep –e ‘cat ’ -e ‘dog’ file
    -w 匹配整个单词
    -E 使用ERE   相当于egrep
    -F 相当于fgrep,不支持正则表达式
    -f file 根据模式文件处理

sed

sed工作原理

sed是一种流编辑器,它一次处理一行内容。
处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。然后读入下行,执行下一个循环。如果没有使诸如‘D’ 的特殊命令,那会在两个循环之间清空模式空间,但不会清空保留空间。这样不断重复,直到文件末尾。文件内容并没有改变,除非你使用重定向存储输出。
sde除了有模式空间外,还有一个保持空间,sde在使用高级编辑命令时则会激活保持空间
可以简单理解为:”模式空间“是sde的加工车间,而”保持空间“则为半成品仓库

常用选项

-n    不输出模式空间内容到屏幕,即不自动打印
-e    多点编辑
-f  /PATH/SCRIPT_FILE     从指定文件中读取编辑脚本
-r     支持使用扩展正则表达式
-i.bak     备份文件并原处编辑

编辑命令

d     删除模式空间匹配的行,并立即启用下一轮循环
p     打印当前模式空间内容,追加到默认输出之后
a \text     在指定行后面追加文本,支持使用\n实现多行追加
i \text      在行前面插入文本
c \text     替换行为单行或多行文本
w /path/file     保存模式空间中的内容至本地文件
r /path/file      读取指定文件的文本至模式空间中匹配到的行后
=     为模式空间中的行打印行号
!      模式空间中匹配行取反处理  

高级编辑命令

P:    打印模式空间开端至\n内容,并追加到默认输出之前
h:    把模式空间中的内容覆盖至保持空间中
H: 把模式空间中的内容追加至保持空间中
g:    从保持空间取出数据覆盖至模式空间
G: 从保持空间取出内容追加至模式空间
x:    把模式空间中的内容与保持空间中的内容进行互换
n:    读取匹配到的行的下一行覆盖至模式空间
N: 读取匹配到的行的下一行追加至模式空间
d:    删除模式空间中的行
D: 删除多行模式空间中的所有行

注意:如果模式空间包含换行符,则删除直到第一个换行符的模式空间中的文本,并不会读取新的输入行,而使用合成的模式空间重新启动循环。如果模式空间不包含换行符,则会像发出d命令那样启动正常的新循环

awk

awk介绍
awk:Aho, Weinberger, Kernighan,报告(报表)生成器,格式化文本输出
有多种版本:New awk(nawk),GNU awk( gawk)  
gawk:模式扫描和处理语言
基本用法:
awk [options] 'program'     var=value       file...
awk [options] 'program'     -f programfile  var=value       file...
awk [options] 'program' 'BEGIN{action;...}pattern{action;...}END{action...}'    file...
awk程序可由:BEGIN语句块、能够使用模式匹配的通用语句块、END语句块共3部分组成
program通常是被放在单引号中,可以有多个,语句用分号分隔
print,printf
选项:
-F  “分割符”       指明输入时用到的字段分割符
-v  var=value       变量赋值

awk语言

基本格式:awk [options] 'program' file…
    Program:pattern{action statements;..}
        pattern和action
            • pattern部分决定动作语句何时触发及触发事件
        BEGIN,END
            • action statements对数据进行处理,放在{}内指明
                print, printf
分割符、域和记录
    • awk执行时,由分隔符分隔的字段(域)标记$1,$2...$n称为域标识。 $0为所有域
        注意:此时和shell中变量$符含义不同
    • 文件的每一行称为记录
    • 省略action,则默认执行 print $0 的操作   

awk工作原理

  • 第一步:执行BEGIN{action;… }语句块中的语句
  • 第二步:从文件或标准输入(stdin)读取一行,然后执行pattern{ action;… }语句块,它逐行描文件,从第一行到最后一行重复这个过程,直到文件全部被读取完毕。
  • 第三步:当读至输入流末尾时,执行END{action;…}语句块
  • BEGIN语句块在awk开始从输入流中读取行之前被执行,这是一个可选的语句块,比如变量初始化、打印输出表格的表头等语句通常可以写在BEGIN语句块中
  • END语句块在awk从输入流中读取完所有的行之后即被执行,比如打印所有行的分析结果这类信息汇总都是在END语句块中完成,它也是一个可选语句块
  • pattern语句块中的通用命令是最重要的部分,也是可选的。如果没有提供pattern语句块,则默认执行{ print },即打印每一个读取到的行,awk读取的每一行都会执行该语句块

    awk变量

    变量:内置变量和自定义变量   
        内建变量:
            FS(input field seperator):输入字段分隔符,默认为空白字符
                awk -v FS=':' '{print $1,FS,$3}’ /etc/passwd
                awk –F: '{print $1,$3,$7}’ /etc/passwd
            OFS(output field seperator):输出字段分隔符,默认为空白字符
                awk -v FS=‘:’ -v OFS=‘:’ '{print $1,$3,$7}’ /etc/passwd
            RS(input record seperator):输入记录分隔符,指定输入时的换行符
                awk -v RS=' ' ‘{print }’ /etc/passwd
            ORS(output record seperator):输出记录分隔符,输出时用指定符号代替换行符
                awk -v RS=' ' -v ORS='###'‘{print }’ /etc/passwd
            NF(number of field):字段数量
                awk -F:‘{print NF}’ /etc/fstab 引用内建变量时,变量前不需加$
                awk -F:‘{print $(NF-1)}' /etc/passwd打印每一行最后一个字段
            NR(number of record):行数
                awk ‘{print NR}’ /etc/fstab ; awk END‘{print NR}’ /etc/fstab
            FNR:各文件分别计数,行数(后面这几个内建变量知道就好,很少会用到)
            FILENAME:当前文件名
            ARGC:命令行参数的个数
            ARGV数组,保存的是命令行所给定的各参数
    自定义变量(区分字符大小写)
        (1) -v  var=value
        (2) 在program中直接定义      

    操作符

    算术操作符:
        x+y, x-y, x*y, x/y, x%y, x^y
        - x:转换为负数
        +x:将字符串转换为数值
    字符串操作符:没有符号的操作符,字符串连接
    赋值操作符:
        =, +=, -=, *=, /=, %=, ^=,++, --
        下面两语句有何不同
            • awk ‘BEGIN{i=0;print ++i,i}’
            • awk ‘BEGIN{i=0;print i++,i}’
    比较操作符:
        ==, !=, >, >=, <, <=
    模式匹配符:
        ~:左边是否和右边匹配,包含
        !~:是否不匹配
        示例:
        awk -F: '$0 ~ /root/{print $1}‘ /etc/passwd
        awk '$0~“^root"' /etc/passwd
        awk '$0 !~ /root/‘ /etc/passwd
        awk -F: ‘$3==0’ /etc/passwd
    逻辑操作符:与&&,或||,非!
        示例:
            • awk -F: '$3>=0 && $3<=1000 {print $1}' /etc/passwd
            • awk -F: '$3==0 || $3>=1000 {print $1}' /etc/passwd
            • awk -F: ‘!($3==0) {print $1}' /etc/passwd
            • awk -F: ‘!($3>=500) {print $3}’ /etc/passwd  

awk控制语句

1.if-else
    语法:if(condition){statement;…}[else statement]
        if(condition1){statement1}else if(condition2){statement2}else{statement3}
    使用场景:对awk取得的整行或某个字段做条件判断
2.while循环
    语法:while(condition){statement;…}
        条件“真”,进入循环;条件“假”,退出循环
    使用场景:
        对一行内的多个字段逐一类似处理时使用
        对数组中的各元素逐一处理时使用
3.do-while循环
    语法:do {statement;…}while(condition)
    意义:无论真假,至少执行一次循环体
4.for循环
    语法:for(expr1;expr2;expr3) {statement;…}
    常见用法:
        for(variable assignment;condition;iteration process)
        {for-body}
    特殊用法:能够遍历数组中的元素
        语法:for(var in array) {for-body}
5.switch语句(多分支的if语句)(更多的作为字符串比较判断)
    语法:
    switch(expression) {case VALUE1 or /REGEXP/: statement1; caseVALUE2 or /REGEXP2/: statement2; ...; default: statementn}
6.break和continue
    awk ‘BEGIN{sum=0;for(i=1;i<=100;i++)
        {if(i%2==0)continue;sum+=i}print sum}'
    awk ‘BEGIN{sum=0;for(i=1;i<=100;i++)
        {if(i==66)break;sum+=i}print sum}'
    break [n]
    continue [n]
7.next
    提前结束对本行处理而直接进入下一行处理(awk自身循环)
        awk -F: '{if($3%2!=0) next; print $1,$3}' /etc/passwd
    用户ID被2取余,如果不等于0则执行next,提前进入下一行处理,如果等于0则继续执行后续命令   

awk数组

关联数组:array[index-expression]
    index-expression:
        • (1) 可使用任意字符串;字符串要使用双引号括起来
        • (2) 如果某数组元素事先不存在,在引用时,awk会自动创建此元素,并将其值初始化为“空串”
        • (3) 若要判断数组中是否存在某元素,要使用“index in array” 格式进行遍历
    若要遍历数组中的每个元素,要使用for循环
        for(var in array) {for-body}
        注意:var会遍历array的每个索引   

awk函数

数值处理:
    rand():返回0和1之间一个随机数
        awk 'BEGIN{srand();print int(rand()*100)}'
        awk 'BEGIN{srand(); for (i=1;i<=10;i++)print int(rand()*100) }'
字符串处理:
    • length([s]):返回指定字符串的长度
    • sub(r,s,[t]):对t字符串搜索r表示模式匹配的内容,并将第一个匹配内容替换为s
        echo "2008:08:08 08:08:08" | awk 'sub(/:/,-",$1)'
    • gsub(r,s,[t]):对t字符串进行搜索r表示的模式匹配的内容,并全部替换为s所表示的内容
        echo "2008:08:08 08:08:08" | awk ‘gsub(/:/,“-",$0)'
    • split(s,array,[r]):以r为分隔符,切割字符串s,并将切割后的结果保存至array所表示的数组中,第一个索引值为1,第二个索引值为2,…