正则(2)

内容摘要:

  • 打印某行到某行之间的内容
  • sed转换大小写
  • sed在某一行最后添加一个数字
  • 删除某行到最后一行
  • 打印1到100行含某个字符串的行
  • awk 中使用外部shell变量
  • awk 合并一个文件
  • 把一个文件多行连接成一行
  • awk中gsub函数的使用
  • awk 截取指定多个域为一行
  • 过滤两个或多个关键词
  • 用awk生成以下结构文件
  • awk用print打印单引号
  • 合并两个文件
  • awk的BEGIN和END
  • awk的参考教程

一、打印某行到某行之间的内容:

  • 问题:文件test的内容如上图,截取[abcfd]到[rty]之间的所有行。

答: sed -rn '/(abcfd)/,/(rty)/'p test.txt

二、sed 如何转换大小写字母

sed中,使用\u表示大写,\l表示小写

  • 把每个单词的第一个小写字母变大写:

答:sed 's/\b[a-z]/\u&/g' filename

  • 把所有小写变大写:

答:sed 's/[a-z]/\u&/g' filename

  • 大写变小写:

答:sed 's/[A-Z]/\l&/g' filename

三、sed在文件中某一行最后添加一个数字

  • 在a开头的行的末尾添加数字12

答:sed -r 's/(^a.*)/\1 12/' test   或者  sed -r 's/(^a.*)/& 12/' test

正则(2)_第1张图片

四、sed删除某关键字的下一行到最后一行

  • [root@test200 ~]# cat test

a

b

c

d

e

f

  • [root@test200 ~]# sed '/c/{p;:a;N;$!ba;d}' test          删除c后的所有行

a

b

c

  • 定义一个标签a,匹配c,然后N把下一行加到模式空间里,匹配最后一行时,才退出标签循环,然后命令d,把这个模式空间里的内容全部清除。
  1. if 匹配"c"
  2. :a
  3. 追加下一行
  4. if 不匹配"$"
  5. goto a
  6. 最后退出循环,d命令删除。
  • 由上,我们可以通过sed删除匹配行以及匹配行下一行
  1. 命令 sed -i '/sample/{N;d}' filename         sample是匹配字符,N在这里就是下一行,d是删除

五、使用sed打印1到100行包含某个字符串的行

  • 这个需求,其实就是sed指定行范围匹配,较少见。实现:sed  -n '1,100{/abc/p}'  1.txt

六、awk 中使用外部shell变量

  • 如: A=44echo "ABCD" | awk -v GET_A=$A ’{print GET_A}’
  • 说明:-v选项用于定义参数,这里表示将变量A的值赋予GET_A。
  • 有多少个变量需要赋值,就需要多少个-v选项。与之等价的:应用于脚本中:

#! /bin/bash

sort -n filename |awk -F ':' '{print $1}'|uniq >id.txt

for id in `cat id.txt`; do

        echo "[$id]"

        awk -v id2=$id -F ':' '$1==id2 {print $2}' filename  // 另外的方式为: awk -F ':' '$1=="'id'" {print $2}' filename  

done

  • 输出如下:

附件:

cat filename

1111111:13443253456

2222222:13211222122

1111111:13643543544

3333333:12341243123

2222222:12123123123

运行脚本后结果为:

[1111111]

13443253456

13643543544

[2222222]

13211222122

12123123123

[3333333]

12341243123

七、awk 合并一个文件

  • 我有这样的需求,需要把两个文件中,第一列相同的行合并到同一行中。举个例子,有两个文件,内容如:

cat 1.txt

1 aa

2 bb

3 ee

4 ss

cat 2.txt

1 ab

2 cd

3 ad

4 bd

5 de

合并后的结果为:

1 ab aa

2 cd bb

3 ad ee

4 bd ss

5 de

  • 实现的命令为: awk 'NR==FNR{a[$1]=$2}NR>FNR{print $0,a[$1]}'  1.txt  2.txt
  • 解释:NR表示读取的行数(两个文件的总行数), FNR表示读取的当前行数(读取2.txt时清零),大家可以运行这个命令 awk '{print NR,FNR}' 1.txt  2.txt,比较NR和FNR
  • 所以其实NR==FNR 就表示读取1.txt的时候。 同理NR>FNR表示读取2.txt的时候
  • 数组a其实就相当于一个map

八、把一个文件多行连接成一行

  • 使用命令实现需求: awk '{printf("%s ",$0)}' file 
  1. %s后记得要有一空格,否则出来就是完全连在一起的,中间连空格都没有
  2. %s也可以使用其他符号串联

  • 另外的方法是 cat a|xargs|sed 's/ /+/g'

九、awk中gsub函数的使用

  •  passwd文件中把所有www替换为abc:awk 'gsub(/www/,"abc")' /etc/passwd 
  • 替换$1中的www为abc: awk -F ':' 'gsub(/www/,"abc",$1) {print $0}' /etc/passwd

awk 截取指定多个域为一行

  • 用awk指定分隔符把文本分为若干段。如何把相同段的内容弄到一行?
  • 以/etc/passwd为例,该文件以":"作为分隔符,分为了7段:

for i in `seq 1 7`

do

    awk -F ':' -v a=$i '{printf $a " "}' /etc/passwd

    echo 

done

十、grep 或 egrep 或awk 过滤两个或多个关键词

  • 找出文件(filename)中包含123或者包含abc的行:grep -E '123|abc' filename 
  • 用egrep同样可以实现:egrep '123|abc' filename 
  • awk 的实现方式:awk '/123|abc/'  filename

十一、用awk编写生成以下结构文件

  • 需求:用awk编写生成以下结构文件的程序。( 最后列使用现在的时间,时间格式为YYYYMMDDHHMISS)  各列的值应如下所示,每增加一行便加1,共500万行。

1,1,0000000001,0000000001,0000000001,0000000001,0000000001,0000000001,2005100110101

2,2,0000000002,0000000002,0000000002,0000000002,0000000002,0000000002,2005100110101

  1. 答:awk 'BEGIN{for(i=1;i<=10;i++)printf("%d,%d,%010d,%010d,%010d,%010d,%010d,%010d,%d\n",i,i,i,i,i,i,i,i,strftime("%Y%m%d%H%M%S"))}'
  2. 如果要写多几行,就把这里的10改成需要的数字即可,例如:20  {for(i=1;i<=20;i++)

十二、awk用print打印单引号

  • 不用脱义,就多写几个单引号、双引号: awk 'BEGIN{print "a'"'"'s"}' 
  • 用脱义,脱义的是单引号: awk 'BEGIN{print "a'\''s"}' 
  • 用脱义,脱义的是双引号:awk 'BEGIN{print "a\"s"}' 

十三、paste合并输出两个文件的内容

  • 命令格式 paste  filename1  filename2
  • 举个例子:

cat  a.txt

1 2 3

4 5 6

a b c

cat b.txt

3 2 1

6 5 4

c b a

 paste  a.txt  b.txt  结果为

1 2 3   3 2 1

4 5 6   6 5 4

a b c   c b a

  • 如果,你想在两个文件连接处用一个指定的字符连接,还可以用-d来指定

paste -d '+'  a.txt b.txt

结果为

1 2 3+3 2 1

4 5 6+6 5 4

a b c+c b a

十四、awk的BEGIN和END 

  • 参考:http://blog.51cto.com/151wqooo/1309851

十五、awk的参考教程 

  • 参考:http://www.cnblogs.com/emanlee/p/3327576.html

十六、扩展

  • 选项i在指定行的上一行插入一行内容。

  • 选项-a  在指定行的下一行插入一行内容。

  • 指定多个符号为分隔符

  • 不使用OFS指定分隔符时,在多个输出之间需要用双引号标注符号。

你可能感兴趣的:(笔记)