正则表达式

1.正则表达式特殊符号

符号 含义
[:alnum:] 代表英文大小写字母及数字
[:alpha:] 代表英文大小写字母
[:blank:] 代表空格和 tab 键
[:cntrl:] 键盘上的控制按键,如 CR,LF,TAB,DEL
[:digit:] 代表数字
[:graph:] 代表空白字符以外的其他
[:lower:] 小写字母
[:print:] 可以被打印出来的任何字符
[:punct:] 代表标点符号
[:upper:] 代表大写字符
[:space:] 任何会产生空白的字符如空格,tab,CR 等
[:xdigit:] 代表 16 进位的数字类型

2.grep命令与正则表达式

grep [options]

options参数 含义
-c 只输出匹配行的计数。
-I 不区分大 小写(只适用于单字符)。
-h 查询多文件时不显示文件名。
-l 查询多文件时只输出包含匹配字符的文件名。
-n 显示匹配行及 行号。
-s 不显示不存在或无匹配文本的错误信息。
-v 显示不包含匹配文本的所有行。

3.字符组匹配

exp meanning
[abc] 表示“a”或“b”或“c”
[0-9] 表示 0~9 中任意一个数字,等价于[0123456789]
[\u4e00-\u9fa5] 表示任意一个汉字
[^a1<] 表示除“a”、“1”、“<”外的其它任意一个字符
[^a-z] 表示除小写字母外的任意一个字符
pattern正则表达式主要参数:
参数 含义
\ 忽略正则表达式中特殊字符的原有含义。
^ 匹配正则表达式的开始行
$ 匹配正则表达式的结束行
< 从匹配正则表达 式的行开始
> 到匹配正则表达式的行结束
[ ] 单个字符,如[A]即A符合要求
[ - ] 范围,如[A-Z],即A、B、C一直到Z都符合要求
所有的单个字符
* 有字符,长度可以为0
  • 行首符: ^              行尾符: $
  • 任意一个字符: " . "(小数点)    重复字符 “ * ”(星号)
*(星号):代表重复前面 0 个或者多个字符。
e*: 表示具有空字符或者一个以上 e 字符。
ee*,表示前面的第一个 e 字符必须存在。第二个 e 则可以是 0 个或者多个 e 字符。
eee*,表示前面两个 e 字符必须存在。第三个 e 则可以是 0 个或者多个 e 字符。
ee*e :表示前面的第一个与第三个 e 字符必须存在。第二个 e 则可以是 0 个或者多个 e 字符。
  • { }可限制一个范围区间内的重复字符数,需要用到转义字符\。
    exp:查找连续的两个 o 字符:
    $ grep -n 'o\{2\}' file.txt

4.sed工具命令

exp:

  • 基本操作
#将 file.txt 的内容列出并打印行号,同时,将 2-5 行删除显示
  $ nl file.txt | sed '2,5d'
#删除第 2 行
  $ nl file.txt | sed '2d'
#在原文件中删除第 1 行:
  $ sed -i '1d' file.txt
  • a表示在行后加上字符串   i表示在行前添加字符串
    exp:
#在第二行后添加 test 字符串
   $ nl file.txt | sed '2a test'
#在第二行前添加 test 字符串
   $ nl file.txt | sed '2i test'
#在第二行后加入两行 test,“\n”表示换行符
   $ nl file.txt | sed '2a    test\ntest'
  • c 为替换内容选项
#将 2-5 行内容取代为 No 2-5 number
$ nl regular_express.txt | sed '2,5c No 2-5 number'
  • 替换字符串
    #sed 's/被替换字符串/新字符串/g'
    exp:
#获取本机 IP 的行,将 IP 前面的部分予以删除(下面两条命令结果相同)
$ /sbin/ifconfig eth0 |grep 'inet '| sed 's/.inet...://g'
$ /sbin/ifconfig eth0 |grep 'inet '| sed 's/.\{0,9\}://'

#将 IP 后面的部分删除(下面两条命令结果相同)
$ /sbin/ifconfig eth0 |grep 'inet '| sed 's/.inet...://g'| sed 's/..:.*$//g'
$ /sbin/ifconfig eth0 |grep 'inet '| sed 's/.inet...://g'| sed 's/.\{0,3\}:.*$//g'

扩展正则表达式

  • + :表示重复一个或一个以上的前一个 RE 字符

$ egrep -n 'go+d' regular_express.txt
普通写法:
$ grep -n 'goo*d' regular_express.txt

  • ?: 表示重复零个或一个前一个 RE 字符
    $ egrep -n 'go?d' regular_express.txt

  • |:表示用或的方式找出数个字符串
    $ egrep -n 'gd|good' regular_express.txt

  • () : 表示找出群组字符串
    $ egrep -n 'g(la|oo)d' regular_express.txt     #搜寻(glad)或 good 这两个字符串

  • ()+ : 多个重复群组判别

#找开头是 A 结尾是 C 中间有一个以上的 ‘xyz’ 或 ‘xz’ 字符串
  $ echo 'AxyzxyzxyzxyzC'|egrep 'A(xyz)+C'
  $ echo 'AxyzxyzxyzxyzC'|egrep 'A(xz)+C'

你可能感兴趣的:(正则表达式)