正则表达式特性精华

目录

一. 概念
二. 元字符总结
   1. 匹配单个字符的元字符
   2. 提供计数功能的元字符
   3. 匹配位置的元字符
   4. 其他元字符
   5. 转义有3种情况
三. 运算符优先级

内容


一. 概念

从字符表义角度上划分,字符可以分为:原义字符、转义字符:

  • 原义字符: 表示字符本身的含义;
  • 转义字符: 表示的含义与字符本身的含义不同;
  • 元字符: 正则表达式语言由两种基本字符类型组成:原义(正常)文本字符和元字符。元字符使正则表达式具有处理能力。所谓元字符就是指那些在正则表达式中具有特殊意义的专用字符,可以用来规定其前导字符(即位于元字符前面的字符)在目标对象中的出现模式。

二. 元字符总结

1. 匹配单个字符的元字符

  • . 点号:匹配除“\r\n”之外的任何单个字符;
  • […] 字符范围:匹配指定范围内的任意字符;
  • [^…] 负值字符范围:匹配任何不在指定范围内的任意字符;
  • \char 转义字符:若char是元字符,或转义序列无特殊含义时,匹配char对应的普通字符;

2. 提供计数功能的元字符

  • ? 问题:匹配前面的子表达式零次或一次;
  • * 星号:匹配前面的子表达式任意次;
  • + 加号:匹配前面的子表达式一次或多次(大于等于1次);
  • {min,max} 区间量词:最少匹配min次且最多匹配max次;min和max均为非负整数,其中min <= max;

3. 匹配位置的元字符

  • ^ 脱字符:匹配输入字符串的开始位置;
  • $ 美元符:匹配输入字符串的结束位置;
  • \< 单词分界符:匹配词(word)的开始位置;注意:这个元字符不是所有的软件都支持的;
  • \> 单词分界符:匹配词(word)的结束位置;注意:这个元字符不是所有的软件都支持的;

4. 其他元字符

  • | :将两个匹配条件进行逻辑“或”(Or)运算;
  • (…) 括号:限定多选结构的范围,标注量词作用的元素,为反向引用”捕获”文本;
  • \1,\2,… 反向引用:匹配之前的第一、第二组括号内的字表达式匹配的文本;
    使用括号的3个理由:限制多选结构、分组、捕获文本;
  • -i参数很有用,它能忽略大小写的匹配;

5. 转义有3种情况:

  • \ 加上元字符,表示匹配元字符所使用的普通字符。
  • \ 加上非元字符,组成一种由具体实现方式规定其意义的元字符序列 如<表示单词的起始边界。
  • \ 加上任意其他字符,默认情况就是匹配此字符,也就是说,反斜线被忽略了。

三. 运算符优先级

正则表达式从左到右进行计算,并遵循优先级顺序,这与算术表达式非常类似。
相同优先级的从左到右进行运算,不同优先级的运算先高后低。下表从最高到最低说明了各种正则表达式运算符的优先级顺序:

运算符 描述
\ 转义符
(), (?:), (?=), [] 圆括号和方括号
*, +, ?, {n}, {n,}, {n,m} 限定符
^, $, \任何元字符、任何字符 定位点和序列(即:位置和顺序)
| 替换,"或"操作字符具有高于替换运算符的优先级,使得"m|food"匹配"m"或"food"。若要匹配"mood"或"food",请使用括号创建子表达式,从而产生"(m|f)ood"。

你可能感兴趣的:(正则表达式特性精华)