文本处理工具sed和awk

文本处理工具sed

sed处理文本时是以行为单位的,每处理完一行就立即打印出来,然后再处理下一行,直至全文处理结束。sed可做的编辑动作包括删除、查找替换、添加、插入、从其他文件中读入数据等。

sed命令使用的场景包括以下:

常规编辑器编辑困难的文本。

太过于庞大的文本,使用常规编辑器难以胜任(比如vi一个几百兆的文件)

有规律的修改文本,加快文本的处理速度

sed修改文件流的方式如下:sed [options] ‘command’ file

# ‘command’命令均为vi编辑器中的命令

# sed命令默认不修改原文件,如果希望保存修改后的文件则需要用重定向’>’

#使用-e参数和分号连接多编辑命令

例如:sed –e ‘s/this/That/g’ –e ‘s/line/LINE/g’ sed.txt或者sed ‘s/this/That/g’ ; ‘s/line/LINE/g’ sed.txt

删除

sed ‘1d’ sed.txt >save.txt #删除第一行

sed ‘1,3d’ sed.txt #删除1到3行

sed ‘1,$d’ sed.txt #删除1到最后一行

sed ‘$d’ sed.txt  #删除最后一行

sed ‘5!d’ sed.txt  #只保留第五行

sed ‘/Empty/d’ sed.txt #删除所有包含Empty的行

sed ‘/^$/d’ sed.txt #删除空行

查找替换

使用s命令可将查找到的匹配文本内容替换为新的文本。

sed ‘s/line/LINE/’ sed.txt  #将line替换为LINE,每行默认替换一个

sed ‘s/line/LINE/2’ sed.txt  #将line替换为LINE,每行默认替换两个

sed ‘s/line/LINE/g’ sed.txt  #将line替换为LINE,全部替换

sed ‘s/^this/That/’ sed.txt  #只替换开头的this为That

#命令中间不能有空格

字符转换

使用y命令可进行字符转换,其作用为将一系列字符逐个的变换为另外一系列字符,基本用法如下:

sed ‘y/OLD/NEW/’ file  #将全文中字母O替换为N,字母L替换为E,字母D替换为W.

插入文本

使用i或者a命令插入文本,其中i代表在匹配行之前插入,而a代表在匹配行之后插入.

sed ‘2 i Insert’ sed.txt  #在第二行之前插入文本

sed ‘2 a Insert’ sed.txt  #在第二行之后插入文本

sed ‘/Second/ i \Insert’  #在匹配行之前插入文本

读入文本

使用命令r可以从其他文件中读取文本,并插入匹配行之后.

sed ‘/^$/r  /etc/passwd’ sed.txt  #将/etc/passwd中的内容读取到sed.txt空行之后

打印

使用p命令可进行打印,这里使用sed命令时一定要加参数-n,表示不打印没关系的行。

例:sed –n ‘1p’ sed.txt  #只打印第一行

#sed实际处理了第二行,其他几行由于没有匹配所以并未真正处理。

再如:sed –n ‘s/the/THE/gp’ sed.txt #只打印实际处理过的行,简化了输出,第二行the全部转换为THE

写文件

sed本身默认并不改写原文件,而只是对缓冲区的文本做了修改并输出到屏幕。所以想保存文件,除了使用重定向或-i,还可以使用w命令将结果保存到外部指定文件。

例如:sed –n ‘1,2 w output’ sed.txt #这里没有任何的输出,因为输出被重定向到文件output

#将sed.txt文件中1,2行写入文件output中

sed脚本

将动作静态化的写到某个文件中,然后调用sed命令并使用-f参数指定该文件。

vi sed.rules

s/this/THAT/g

/^$/d

sed sed.rules sed.txt

高级替换

替换匹配行的下一行,使用n命令

例如:sed ‘/^${n;s/line/LINE/g}’ sed.txt

文本处理工具awk

awk是基于列的处理工具,它的工作方式是按行读取文本并视为一条记录,每条记录以字段分割成若干字段,然后输出各字段的值。awk认为文件都是结构化的,也就是说都是由单词和各种空白字符组成的,“空白字符”包括空格、tab、连续的空格和tab等。每个非空白的部分叫做域,从左到右依次是第一个域,第二个域。$1,$2表示第一域第二个域,$0表示全部域。

打印指定的域

#打印第一个和第四个列awk ‘{print $1,$4}’ awk.txt

#打印全部内容awk ‘{print $0}’ awk.txt

指定打印的分隔符

默认情况下awk是使用空白字符作为分隔符的,但是也可以通过-F参数指定分隔符来区分不同的域(类似于cut命令).

注意:必须得使用单引号不能使用双引号.

例如:awk –F’.’ ‘{print $1,$2}’ awk.txt

打印每行的列数内部变量NF参数

awk ‘{print NF}’ awk.txt#打印每行的列数,指定不同的分隔符会有不同结果

打印固定域

在NF前加上$符号,则代表最后一列,这样不管有多少列,只要使用$NF就能打印出最后一行。倒数第二行为$(NF-1)

例如:awk ‘{print $NF}’ awk.txtawk ‘{print $(NF-1)}’ awk.txt

截取字符串

使用substr函数对指定域截取字符串

substr(指定域,第一个开始字符的位置,第二个结束的位置)

#其中第二个结束的位置可以为空,这样默认输出到该域的最后一个字符

例如:cat awk.txt | awk ‘{print substr($1,6,2)}’#输出第一个域从第六个字符开始长度为2的字段

内部变量length

使用内部变量length可以确定字符串的长度

例如:cat awk.txt | awk ‘{print length}’

使用awk求列和

例如: cat awk.txt | awk ‘BEGIN{total=0}{total+=$3}’END{print total}’ #求年龄的和

cat awk.txt | awk ‘BEGIN{total=0}{total+=$3}END{print total/NR}’ #求年龄的平均值

NR为内部变量,表示已经读取的记录数

你可能感兴趣的:(文本处理工具sed和awk)