文本三剑客之sed

一、sed编辑器的概述

1、sed编辑器的概念

sed是一种流编辑器,流编辑器会在编辑器处理数据之前基于预先提供的一组规则来编辑数据流。
sed编辑器可以根据命令来处理数据流中的数据,这些命令要么从命令行中输入,要么存储在一个命令文本文件中。

2、sed编辑器的工作流程

sed 的工作流程主要包括读取、执行和显示三个过程∶

  • 读取∶ sed 从输入流(文件、管道、标准输入)中读取一行内容并存储到临时的缓冲区中 (又称模式空间)
  • 执行:默认情况下,所有的sed 命令都在模式空间中顺序地执行,除非指定了行的地址, 否则sed 命令将会在所有的行上依次执行。
  • 显示∶发送修改后的内容到输出流。在发送数据后, 模式空间将会被清空。在所有的文件内容都被处理完成之前,上述过程将重复执行,直至所有内容被处理完。

在所有的文件内容都被处理完成之前,上述过程将重复执行, 直至所有内容被处理完。
注意∶ 默认情况下所有的sed命令都是在模式空间内执行的,因此输入的文件并不会发生任何变化,除非是用重定向存储输出。

3、sed命令的格式

第一种:
sed -e '操作' 文件1 文件2
 
第二种:
sed -n -e '操作' 文件1 文件2
 
第三种:
sed -f 脚本文件 文件1 文件2
 
第四种:
sed -i -e '操作' 文件1 文件2

4、sed命令的常用选项

-e 或 - -expression=∶ 表示用指定命令来处理输入的文本文件,只有一个操作命令时可省略,一般在执行多个操作命令使用
-f 或- -file=∶表示用指定的脚本文件来处理输入的文本文件。
-h 或- -help∶显示帮助。
-n、- -quiet 或 silent∶ 禁止sed编辑器输出,但可以与p命令一起使用完成输出。
-i∶ 直接修改目标文本文件。

5、sed命令的常用操作

s∶替换,替换指定字符。
d∶删除,删除选定的行。
a∶ 增加,在当前行下面增加一行指定内容。
i∶ 插入,在选定行上面插入一行指定内容。
c∶ 替换,将选定行替换为指定内容。
y∶ 字符转换,转换前后的字符长度必须相同。
p∶ 打印,如果同时指定行,表示打印指定行;如果不指定行,则表示打印所有内容; 如果有非打印字符,则以 AscII码输出。其通常与_n"选项一起使用。
=∶打印行号
l(小写L)∶打印数据流中的文本和不可打印的ASCII字符(比如结束符$、制表符\t)

r:是读命令。sed使用该命令将一个文本文件中的内容加到当前文件的特定位置上。

二、sed对文本的操作方式

1、打印内容

文本三剑客之sed_第1张图片

1.2 打印某行文件内容,指定行号

文本三剑客之sed_第2张图片


  

1.3 打印文件内容的行号 =

文本三剑客之sed_第3张图片


  

1.4 l(小写L)∶打印数据流中的文本和不可打印的ASCII字符(比如结束符$、制表符\t)

文本三剑客之sed_第4张图片


  

2、 sed编辑器有2种寻址方式:

• 以数字形式表示行区间

• 用文本模式来过滤出行

2.1 以数字形式表示行区间一:打印指定的行

文本三剑客之sed_第5张图片

2.2 以数字形式表示行区间二:打印奇数行、偶数行

文本三剑客之sed_第6张图片

2.3 以数字形式表示行区间三:打印间隔行(一行或者多行)

文本三剑客之sed_第7张图片

2.4 用文本模式来过滤出行 一:过滤文本所在的行

文本三剑客之sed_第8张图片

2.5 用文本模式来过滤出行 二:-r表示支持扩展正则表达式


  

3、删除内容

3.1 删除指定行的内容

文本三剑客之sed_第9张图片

文本三剑客之sed_第10张图片

3.2 删除包含指定内容的行

文本三剑客之sed_第11张图片

4、替换内容

4.1 格式

sed  行范围 s/旧字符串/新字符串/替换标记

4.2 四种替换标记:

  • 数字: 表明新字符串将替换第几处匹配的地方
  • g: 表明新字符串将会替换所有匹配的地方
  • p: 打印与替换命令匹配的行,与-n一起使用
  • w文件: 将替换的结果写到文件中

4.3、替换指定字符,并指定替换第几处或者替换所有(替换所有用g)

文本三剑客之sed_第12张图片

4.4 替换空值,表示删除

文本三剑客之sed_第13张图片


  

4.5 指定行范围进行替换,并将替换结果保存到指定文件中

文本三剑客之sed_第14张图片


  

4.6 sed 行范围 s/旧字符串/新字符串/替换标记 ,该格式中的/可用其他符号或者字母数字替代,只要保持一致即可,如#、?等等

当被替换的内容中包含/,则替换时会出现多个/,容易混淆,则可用其他符号或者字母数字替代,保持一致即可  

文本三剑客之sed_第15张图片

4.7 sed将筛选出的内容用w将其保存到指定文件

  

文本三剑客之sed_第16张图片

5、插入内容

5.1 c: 替换,将选定行替换为指定内容

文本三剑客之sed_第17张图片


    

5.2 y: 字符转换,转换前后的字符长度必须相同

文本三剑客之sed_第18张图片


  

5.3 a: 增加,在当前行下面增加一行指定内容

文本三剑客之sed_第19张图片

5.4 i: 插入,在选定行上面插入一行指定内容

文本三剑客之sed_第20张图片


 

5.5 r命令是读命令。sed使用该命令将一个文本文件中的内容加到当前文件的特定位置上

文本三剑客之sed_第21张图片

5.6 将输出的字符进行调整顺序

 
  

5.7 将输出的字符进行互换位置(第1个字符与第2个字符、第1个字符与最后1个字符)

每行文本拆分为“第1个字符(.)”、“第2个字符(.)”、“剩下的所有字符(.*)”三个部分,然后通过替换操作重排顺序为“3-2-1”

  

三、剪切复制粘贴内容

1、模式空间与保持空间概念

  • 模式空间:存放当前处理的行,将处理结果输出

​ 若当前行不符合处理条件,则原样输出,处理完当前行再读入下一行来处理

  • 保持空间:作用类似于“剪贴板”;默认存放一个空行(换行符\n)

2、剪切复制的基本动作(G、g、H、h)

复制:H:模式空间---[追加]--->保持空间

​ h:模式空间---[覆盖]--->保持空间

粘贴:G:保持空间---[追加]--->模式空间

​ g:保持空间---[覆盖]--->模式空间

剪切:复制结合d(删除)一起使用

3、实例操作

3、将指定的行的内容复制到指定的位置

文本三剑客之sed_第22张图片

经典技术题

怎么解决sed命令处理容量过大,或则内容过多的而导致执行效率慢的问题?

解决方案一(推荐用法):
使用split命令进行文件分割(例如文件如果是百万行,就创建一个单独的目录将文件分割为一百个为一万行的文本)再使用sed命令进行处理,除了split分割,也可以使用一个遍历分割shell脚本进行执行
split -l -30 test1.txt  se --按行分割
split -b 400M test1.txt se --按大小分割

解决方案二:
使用cat  文件名|sed  处理     
(但是该方案只能针对中大型的文件文本,如果文本量过大,处理效果不好)

2、删除空行的三种方法:
grep -v "^$" test1.txt     ----过滤出非空行
cat test1.txt |tr -s "\n"  ----压缩换行符
sed '/^$/d' test1.txt      ----删除空行

总结:

1.sed命令是一种流编辑器读取文件会进行逐行读取加上指令操作,所以过大的文件一定要拆分后再交给sed处理

2.sed  -r  搭配扩展正则表达式使用,使用\{n\}    \{n,\}     \{n,m\}    不需要加“\”

3.用 -i 时一定要先备份(尤其对重要文件的操作),或者时先实验好确定无误时,再使用 -i

4.sed  命令 的重点在于增删改查四个功能,可以运用在脚本中对重要文件配置的修改,添加等作用尤其有效 

你可能感兴趣的:(Linux,运维,linux,服务器,windows)