grep命令及正则表达式,你需要知道这些

目录

    • 一、grep命令
    • 二、正则表达式
      • 1、什么是正则表达式?
      • 2、正则表达式元字符
          •   Ⅰ、字符匹配
          •   Ⅱ、匹配次数
          •   Ⅲ、位置锚定
          •   Ⅳ、分组及引用
            •     a、分组:
            •     b、引用:
      • 3、实例

一、grep命令

  • 命令解释
      grep, egrep, fgrep - print lines matching a pattern(打印和模式匹配的行)

基于用户指定的“模式”,对目标文件逐行进行匹配检查,打印匹配到的行,默认打印到终端窗口
其中,模式指的是:由正则表达式元字符所编写出的过滤条件

  • 命令语法
      grep [OPTIONS] PATTERN [FILE…]
      grep [OPTIONS] [-e PATTERN | -f FILE] [FILE…]
  • 命令选项
选 项 解 释
--color=auto 高亮显示匹配到的关键字
-i 或 --ignore-case 忽略字符大小写差别
-n 或 --line-number 在显示符合样式的那一行之前,标示出改行的列数编号
-E 或 --extend-regexp 将样式为延伸的正则表达式来使用
-w 或 --word-regexp 只显示全字符合的列
-o 或 --only-matching 只显示匹配PATTERN部分
-v 或 --revert-match 显示不包含匹配文本的所有行(反向匹配)
-A<显示行数> 或 --after-context=<显示行数> 除了显示符合范本样式的那一列之外,并显示该行之的内容。
-B<显示行数> 或 --before-context=<显示行数> 除了显示符合范本样式的那一列之外,并显示该行之的内容。
-C<显示行数> 或 --context=<显示行数> 除了显示符合范本样式的那一列之外,并显示该行之前后的内容。

二、正则表达式

1、什么是正则表达式?

  正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。它可以分为两类:基本正则表达式(Basic Regular Expression 又叫 Basic RegEx 简称 BREs)和 扩展正则表达式

2、正则表达式元字符

  正则表达式元字符分为四种:字符匹配,匹配次数,位置锚定、分组及引用。可以用它们来表示一些特殊的含义或功能。

  Ⅰ、字符匹配
BRE ERE 描 述
. . 匹配任意单个字符
[] [] 匹配指定范围内任意单个字符
[^] [^] 匹配指定范围外任意单个字符

  在方括号( [] )中可以使用一些特殊匹配模式:

匹配模式 描 述
[:upper:] 所有大写字母
[:lower:] 所有小写字母
[:alpha:] 所有字母
[:digit:] 所有数字
[:alnum:] 所有字母和数字
[:space:] 空白字符
[:punct:] 所有标点符号
  Ⅱ、匹配次数

tips:用在要指定出现次数的字符后面,用来限制前面字符的出现次数。

BRE ERE 描 述
* * 匹配前面的字符任意次,包括0次(贪婪模式:尽可能长的匹配)
.* .* 匹配任意长度的任意字符
\? ? 匹配前面的字符0或1次(至多1次)
\+ + 匹配前面的字符至少一次
\{n\} {n} 匹配前面的字符n次
\{n,m\} {n,m} 匹配前面的字符至少n次,至多m次
\{,n\} {,n} 匹配前面的字符至多n次
\{n,\} {n,} 匹配前面的字符至少n次
  Ⅲ、位置锚定
BRE ERE 描 述
^ ^ 行首锚定,用于模式的最左侧
$ $ 行尾锚定,用于模式的最右侧
^PATTERN$ ^PATTERN$ 用于模式匹配整行
^$ ^$ 空行
^[[:space:]]*$ ^[[:space:]]*$ 空白行
\< 或 \b < 或 \b 词首锚定,用于单词模式的左侧
\> 或 \b > 或 \b 词尾锚定,用于单词模式的最右侧
\ 或 \bPATTERN\b 或 \bPATTERN\b 匹配整个单词
  Ⅳ、分组及引用
    a、分组:
BRE ERE 描 述
\(string\) (string) 分组,将一个或多个字符捆绑在一起当作一个整体处理

听着很抽象吧!下面给大家举个栗子:

BRE ERE 含 意
\(root\)\+ (root)+ 匹配“root”至少一次
    b、引用:
符 号 描 述
\1 模式从左侧起,第一个左括号与之匹配的右括号之间模式所匹配到的字符
\2 模式从左侧起,第二个左括号与之匹配的右括号之间模式所匹配到的字符

同样也很抽象,栗子来了:

BRE ERE
\(string1+\(string2\)*\) (string1+(string2)*)

其中, \1:string1+(string2)*
    \2:string2

小tips:讲到这里,大家也可以发现:基本正则表达式与扩展正则表达式类似,只是扩展正则表达式的表达上更简单。正则表达式需要打"\(转义符)"来表示某些字符的意思,而扩展正则表达式则不需要。同时大家也要知道 egrepgrep -E 执行效果相似,都是使用extended regular expression语法来解读字符串的!

3、实例

1、显示 /etc/passwd 文件中不以/bin/bash结尾的行;

[root@localhost ~]# grep -v "/bin/bash$" /etc/passwd

2、找出 /etc/passwd 文件中的两位数或三位数;

[root@localhost ~]# grep --color=auto "[0-9]\{2,3\}" /etc/passwd

3、找出 /etc/c.d/rc.sysinit 文件中,至少一个空白字符开头,且后面非空白字符的行;

[root@localhost ~]# grep -n "^[[:space:]]\{1,\}[^[:space:]]" /etc/rc.d/rc.sysinit

4、找出"netstat -tan"命令的结果中以"LISTEN"后跟0、1或多个空白字符结尾的行;

[root@localhost ~]# netstat -tan | grep "LISTEN[[:space:]]*$"

5、这里给出一段浪漫的文本:


  He loves his lover.
  He likes his lover.
  She likes her liker.
  She loves her liker.


找出高亮显示的单词前后一致(同是love或like)的行;
在这里插入图片描述

150讲轻松搞定Python网络爬虫

你可能感兴趣的:(linux系统管理)