正则表达式与其应用
数据处理工具:awk ,sed
正则表达式基本上是一种“表示法”,只要工具程序支持这种表示法,那么该工具程序就可以用来作为正则表达式的字符串处理只用。例如vi,grep,awk,sed等工具
正则表达式特殊符号
语系对应正在表达式也会存在影响。比如
LANG=C时:0 1 2 3 4 … A B C D ..Z a b c d ..z
LANG=ZH_CN时:0 1 2 3 4 …a A b B c C d D …….
因此[a-z]当C语系时代表的意义是获取小写字母。在ZH_CN语系时代表的意义就是获取字母(大写与小写)
为了避免数字和字母的选取错误,正则表达式采用特殊符号来代表
[:alnum:]:代表英文大小写字符及数字。A-Z a-z 0-9
[:alpha:]:代表英文大小写字符 A-Z a-z
[:blank:]:代表空格与TAB键
[:cntrl:]:代表键盘上的控制按键 CR,LF,TAB,DEL等
[:digit:]:代表数据 0-9
[:graph:]:代表除了空格与TAB键的其他所有按键
[:lower:]:代表小写字符
[:upper:]:代表大写字符
[:print:]:代表任何可以被打印出来了的字符
[:punct:]:代表标点符号字符
[:space:]:代表会产生的空白的字符如TAB空格 CR
[:xdigit:]:代表十六进制的数字类型 0-9 A-F a-f
举例
[root@localhost ~]# cat xargsfile |grep -n '[[:upper:]]'
2:FRA
4:AWEE
基础正则表达式字符
字符 |
意义与范例 |
^word |
意义:查找以word为行首的数据
举例:查找以#开始的那一行 gerp ‘^#’ file.txt |
Word$ |
意义:查找以word为行尾的数据
举例:查找以#为结尾的那一行 grep‘#$’ file.txt |
. |
意义:代表一定有一个任意字符
举例查找字符串eae,ebe e e,ee之间一定有一个字符,空格也算字符 G
rep ‘e.e’ file.txt |
* |
意义:重复0个到无穷个前一个字符
举例:查找含有es ess esss等的字符串 grep ‘ess*’ file.txt |
[] |
意义:从字符集合中找出想要选取的字符
举例:查找含有gl或gd的那一行 grep ‘g[ld]’ file.txt |
[n1-n2] |
意义:从字符集合里找出想要选取的字符范围
举例:查找含有任意数字的哪一行 grep ‘[0-9]’ file.txt |
[^] |
意义:从字符集合中找处不要的字符或范围
举例:查找不含大写字母的那一行 grep ‘[^A-Z]’ file.txt |
\{n,m\} |
意义:连续n个到m个的前一个字符,如\{n\}则是连续n个前一个字符,如\{n,\}则是连续n个以上前一个字符
举例1:查找g与g之间包含2个到3个o的字符串如:goog gooog grep ‘\{2,\3}’ file.txt 举例2:查找g与g之间包含2个o的字符串如:goog grep ‘\{2\}’ file.txt 举例3:查找g与g之间包含3个及以上o的字符串如:gooog,gooood,goo….od grep ‘\{3,\}’ file.txt
|
扩展正则表达式
字符 |
意义与范例 |
+ |
意义:重复一个或一个以上的字符
举例:查找god,good,good等字符串 egrep ‘go+d’ file.txt |
? |
意义:0个过1个前一个字符
举例:查找gd god egrep ‘go?d’ file.txt |
| |
意义:用或的方式找出数个字符串
举例:找出my ,own egrep ‘my|own’ file.txt |
() |
意义:找出“组“的字符串
举例:找出good 或glad egrep ‘g(oo|la)d’ file.txt |
()+ |
意义:多个重复组的判别
举例:找出Axy123123123C egrep ‘Axy(123)+C’ file.txt |
说明:如grep需要使用扩展正则表达式,可使用grep –e或egrep
sed
sed本身是一个也是一个管道命令。可以分析输入数据流,还可以将数据进行替换,删除,选去等操作
sed与tr的区别
tr操作的单元是字符,它针对字符进行删除和替换
sed操作单元的是行,它针对行进行删除和替换
sed与vim的区别
sed是管道命令它修改只是输入数据流,并不会修改文件本身。虽然sed也可以直接修改文件,但是不需要打开文件,对于大文件来说很有帮助
vim是文本编辑器,它修改的是文件本身
语法:sed [-nefr] ‘动作’
选项与参数:
-n:silent模式,只将sed处理过的内容显示i出来
-e:设置多个sed动作
-f filename: 文件内记录sed脚本scipt
-r:sed支持的扩展正则表达式语法(默认是基础正则表达式)
-i:直接修改读取文件内容,而不是屏幕输出
动作:n1,n2function
n1,n2不一定存在
function:
a:新增,a后面接字符串,这些字符在当前的下一行显示
c:替换,c后面接字符串,这些字符替换n1-n2之间的行
d:删除,删除n1-n2之间的行
i:添加,i后面接字符串,这些字符在当前的上一行显示
p: 打印,打印n1~n2行之间的数据
s: 替换以关键字形式替换,并不是替换整行. sed ‘s/旧字符串/新字符串/g’’
举例:
[root@localhost ~]# cat sedfile |sed -n 'p' =>查询所有内容 line 1 line 2 line 3 line 4 line 5 line 6 line 7 line 8 line 9 line 10 [root@localhost ~]# cat sedfile |sed -n '1,4p'=>查询1~4内容 line 1 line 2 line 3 line 4 [root@localhost ~]# cat sedfile |sed '2a new line'|sed -n '1,5p' =>在第2行下添加新的一行 line 1 line 2 new line line 3 line 4 [root@localhost ~]# cat sedfile |sed '3d'|sed -n '1,4p' =>删除第3行 line 1 line 2 line 4 line 5 [root@localhost ~]# cat sedfile |sed '2i insert line'|sed -n '1,5p' =>在第2行上添加新的一行 line 1 insert line line 2 line 3 line 4 [root@localhost ~]# cat sedfile |sed '2,3c replace line'|sed -n '1,3p' =>替换2~3行 line 1 replace line line 4 [root@localhost ~]# cat sedfile |sed '1,3s/ne/NEL/g'|sed -n '1,6p' =>用NEL替换2~3行的ne liNEL 1 liNEL 2 liNEL 3 line 4 line 5 line 6
举例2:使用sed直接修改文件
[root@localhost ~]# sed -i '$a this is line' sedfile ;cat sedfile|tail -n 2 line 10 this is line
awk
(awk功能很强大,这里只是功能介绍性说明)
Awk 是一个数据处理工具,相比sed作用于一整行的处理,awk则将一行分为数个“字段”处理
awk的处理流程
1. 读入第一行,并将第一行的数据填入$0,$1,$2……等变量中
2. 依据条件类型的限制,判断是否需要后面的动作
3. 做完所有的动作与条件类型
4. 若还有后续的行的数据,则重复1-3步骤
语法:awk ‘条件类型1 {动作1}条件类型2 {动作2}……’ filename
说明:
1. awk默认用空格或tab来分割一行数据,并将数据填充到$1,$2..中
如:root pts1 192这一行, $1=root $2=pts1.
2. awk后方语句中非变量需使用双引号来定义,变量可以直接使用
awk内置变量
变量 |
描述 |
$n |
当前记录的第n个字段,字段间由FS分隔。 |
$0 |
完整的输入记录。 |
ARGC |
命令行参数的数目。 |
ARGIND |
命令行中当前文件的位置(从0开始算)。 |
ARGV |
包含命令行参数的数组。 |
CONVFMT |
数字转换格式(默认值为%.6g) |
ENVIRON |
环境变量关联数组。 |
ERRNO |
最后一个系统错误的描述。 |
FIELDWIDTHS |
字段宽度列表(用空格键分隔)。 |
FILENAME |
当前文件名。 |
FNR |
同NR,但相对于当前文件。 |
FS |
字段分隔符(默认是任何空格)。 |
IGNORECASE |
如果为真,则进行忽略大小写的匹配。 |
NF |
当前记录中的字段数。 |
NR |
当前记录数。 |
OFMT |
数字的输出格式(默认值是%.6g)。 |
OFS |
输出字段分隔符(默认值是一个空格)。 |
ORS |
输出记录分隔符(默认值是一个换行符)。 |
RLENGTH |
由match函数所匹配的字符串的长度。 |
RS |
记录分隔符(默认是一个换行符)。 |
RSTART |
由match函数所匹配的字符串的第一个位置。 |
SUBSEP |
数组下标分隔符(默认值是\034)。 |
awk运算符
运算符 |
描述 |
= += -= *= /= %= ^= **= |
赋值 |
?: |
C条件表达式 |
|| |
逻辑或 |
&& |
逻辑与 |
~ ~! |
匹配正则表达式和不匹配正则表达式 |
< <= > >= != == |
关系运算符 |
空格 |
连接 |
+ - |
加,减 |
* / & |
乘,除与求余 |
+ - ! |
一元加,减和逻辑非 |
^ *** |
求幂 |
++ -- |
增加或减少,作为前缀或后缀 |
$ |
字段引用 |
in |
数组成员 |
举例1:查看$1 NR NF
[root@bogon ~]# last -n 5 | awk '{print $1 "\t lines: " NR "\t cols: "NF }' root lines: 1 cols: 10 root lines: 2 cols: 9 root lines: 3 cols: 9 reboot lines: 4 cols: 9 root lines: 5 cols: 10
举例2:带有条件的,仅输出$1==root的数据
[root@bogon ~]# last -n 5 | awk '$1=="root" {print $1 "\t lines: " NR "\t cols: "NF }' root lines: 1 cols: 10 root lines: 2 cols: 9 root lines: 3 cols: 9 root lines: 5 cols: 10
awk关键字
BEGIN
BEGIN关键字作用是预设,在读如第一行前面就执行BEGIN后面的动作
比如每一行默认分割方式是空格或是TAB,所以我们可以设置FS来改变分割符,但是此时第一行数据已经读取分析完毕,列信息已经存在$1,$2..中,改变只能从第2行开始。
举例:
[root@bogon ~]# cat /etc/passwd|head -n 5 |awk 'BEGIN {FS=":"} NR=="1" {print"UID\tGID"} NR>="1" {print $1 "\t" $3}' UID GID root 0 bin 1 daemon 2 adm 3 lp 4
举例2 计算数据(num1+num2)
数据文件 month:num1:num2 1:100:150 2:200:250 3:300:350 4:400:450 5:500:550 6:600:650 [root@bogon ~]# cat cal.file |awk 'BEGIN {FS=":"} NR=="1" {print$1"\t"$2"\t"$3"\ttotal"} NR>"1" {print$1"\t"$2"\t"$3"\t"$2+$3}' month num1 num2 total 1 100 150 250 2 200 250 450 3 300 350 650 4 400 450 850 5 500 550 1050 6 600 650 1250
END
END操作将在扫描完全部的输入之后执行
举例:
[root@bogon ~]# cat cal.file |awk 'BEGIN {FS=":"} NR=="1" {print$1"\t"$2"\t"$3"\ttotal"} NR>"1" {print$1"\t"$2"\t"$3"\t"$2+$3} END {print "sum"}' month num1 num2 total 1 100 150 250 2 200 250 450 3 300 350 650 4 400 450 850 5 500 550 1050 6 600 650 1250 sum