正则表达式语法入门

语法规则

正则表达式的语法一般如下，两条斜线中间是正则主体，可以有多个字符，后面可以接修饰符（见下文）
比如： /^abc/i 表示匹配以abc开头的字符串，忽略大小写

1. 简单字符匹配

没有特殊意义的字符都是简单字符，简单字符就代表自身

/123/ // 匹配 123
/abc/ // 匹配 abc
/字符/ // 匹配 字符

2. 转义字符

\后面的字符会代表不同的意思，即为转义字符，主要有以下几个作用：

用于匹配不方便显示的特殊字符，如换行符，回车符等
用于代表某些特定意义，如\w代表匹配任何一个字母或数字或下划线

常用转义字符

转义字符	含义
\n	匹配换行符，等价于 \x0a 和 \cJ
\f	匹配一个换页符，等价于 \x0c 和 \cL
\cx	匹配由x指明的控制字符。例如， \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则，将 c 视为一个原义的 'c' 字符
\r	匹配一个回车符。等价于 \x0d 和 \cM
\t	匹配一个制表符，也就是tab键。等价于 \x09 和 \cI
\v	匹配一个垂直制表符,等价于 \x0b 和 \cK。
\x20	20是2位16进制数字，代表对于的字符
\u002B	002B是4位16进制数字，代表对应的字符
\w	匹配任何一个字母或数字或下划线，等价于[a-Z0-9_]
\W	匹配任何一个字母或者数字或者下划线以外的字符，等价于[^0-9a-Z_]
\s	匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。注意 Unicode 正则表达式会匹配全角空格符
\S	匹配任何非空白字符。等价于 [^ \f\n\r\t\v]
\d	匹配数字字符，等价于[0-9]
\D	匹配非数字字符，等价于[^0-9]
\b	匹配单词的边界
\B	匹配非单词边界
\	匹配\本身

3.特殊含义字符

字符	含义
\	将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如， 'n' 匹配字符 'n'。'\n' 匹配换行符。序列 '\\' 匹配 "\"，而 '\(' 则匹配 "("
.	代表匹配除了换行符（\n）以外的任意一个字符，要匹配 . ，请使用 \.
^	在字符集里面是非的意思，外部用到是匹配开头的意思
$	表示匹配结尾的意思，如果设置了RegExp对象的Multiline属性，则 $ 也匹配 '\n' 或 '\r'，要匹配 $ 字符本身，请使用 \$
( )	标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符，请使用 $ 和 $
*	匹配前面的子表达式零次或多次。要匹配 * 字符，请使用 \*
+	匹配前面的子表达式一次或多次。要匹配 + 字符，请使用 \+
?	匹配前面的子表达式零次或一次，或指明一个非贪婪限定符。要匹配 ? 字符，请使用 \?
[	标记一个中括号表达式的开始。要匹配 [，请使用 \[
{	标记限定符表达式的开始。要匹配 {，请使用 \{
\|	指明两项之间的一个选择。要匹配 \|，请使用 \\|

注意：

使用^和$匹配的是字符串的开头和结尾，\b匹配的是单词的边界，以空格区分，二者不一致
不能将限定符与定位符一起使用。由于在紧靠换行或者单词边界的前面或后面不能有一个以上位置，因此不允许诸如 ^* 之类的表达式

4. 字符集合 [ ]

可以用字符集来实现一类字符的匹配

[abc]  匹配a或者b或者c
[0123456789]或者[0-9]  匹配0到9之间的任一数字

在字符集里面使用^,可代表非得意思

[^12345] 匹配非1-5的数字
[^0-9a-Z_] 匹配非数字非字母非下划线的字符，等同于上面的\W

注意：在[]外使用^表示匹配开头的意思

5. 量词

根据上面的规则，如果需要多次匹配同一规则的字符，如数字，可以写成

[0-9][0-9][0-9]

但是很明显，这样写太过繁杂，针对这种，正则也提供了对应的量词功能，正则中的代表量词的特殊字符有多种写法，如{n}、{m,n}、{m,}、?、+、*等

{n}匹配n次，比如a{2}，匹配aa

{m, n}匹配m-n次，优先匹配n次，比如a{1,3}，可以匹配aaa、aa、a

{m,}匹配m-∞次，优先匹配∞次，比如a{1,}，可以匹配aaaa...

?匹配0次或1次，优先匹配1次，相当于{0,1}

+匹配1-n次，优先匹配n次，相当于{1,}

*匹配0-n次，优先匹配n次，相当于{0,}

上面的[0-9][0-9][0-9]等同于[0-9]{3}

凡是表示范围的量词，都优先匹配上限而不是下限,即贪婪模式，

a{1, 3} // 匹配字符串'aaa'的话，会匹配aaa而不是a

在量词后面加上?，就可以开启非贪婪模式

a{1, 3}? // 匹配字符串'aaa'的话，会匹配a而不是aaa

6.字符边界 ^、$

上面有写到，在[]外使用^表示匹配开头的意思

$表示匹配结尾的意思

此外，\b表示单词的边界

^123   匹配123开头
123$  匹配123结尾
\b123、 123\b  匹配单词以123开头/结尾

7. 选择表达式 |

如果想匹配a或者b，可以使用字符集合[ab]，

但是如果想匹配ab或者cd，则需要用到选择表达式 |

ab|cd

8. 分组

分组是正则中非常强大的一个功能，可以让上面提到的量词作用于一组字符，分组的语法是圆括号包裹(xxx)

(123){3}

分组不能放在字符集合[]中，分组中还可以使用选择表达式

(123|456){2} // 匹配 123123、456456、123456、456123

分组捕获与分组引用

分组和捕获在正则表达式中有着密切的联系，一般情况下，分组即捕获，都用小括号完成：

() 表示捕获分组，() 会把每个分组里的匹配的值保存起来，多个匹配值可以通过数字 n 来查看(n 是一个数字，表示第 n 个捕获组的内容)

但用 () 会有一个副作用，使相关的匹配会被缓存，此时可用 ?: 放在第一个选项前来消除这种副作用

(exp) ：分组，并捕获该分组匹配到的文本
(?:exp) ：分组，但不捕获该分组匹配到的文本

可参考https://www.cnblogs.com/ljhdo/p/10678281.html

9. 零宽断言

零宽断言用于查找在某些内容(但并不包括这些内容)之前或之后的东西

正向先行断言匹配表达式前面的位置 (?=表达式)

.*(?=abc)   匹配字符串中在abc之前的字符

正向后行断言匹配表达式后面的位置 (?<=表达式)

(?<=abc).*   匹配字符串中在abc之后的字符

负向先行断言匹配表达式不成立时前面的位置 (?!表达式)

.*(?!abc)   匹配字符串中不在abc之前的字符

负向后行断言 (?

(?

 
 修饰符 
 默认正则是区分大小写，这可能并不是我们想要的，正则提供了修饰符 
 例：/xxx/gi // 最后面的g和i就是两个修饰符 
  
  i正则 不区分(ignore)大小写
 默认是区分大小写的，i可以忽略大小写 
  g正则 全局(global)匹配
 正常遇到第一个符合条件的即匹配成功，返回，
 加上全局修复符g，可以让其匹配到结尾位置，找到每个符合条件的都记录下来 
  m正则 多行(multi line)匹配
 使边界字符 ^ 和 $ 匹配每一行的开头和结尾，记住是多行，而不是整个字符串的开头和结尾
 /^future/gm g只匹配第一行以future开头的字符串 m匹配多行 
  s：特殊字符圆点
 .匹配中包含换行符 \n ，
 默认情况下的圆点 . 是匹配除换行符 \n 之外的任何字符，加上 s 修饰符之后, 匹配中包含换行符 \n 
  
 常用工具 
 语法检测 https://c.runoob.com/front-end/854/?optionGlobl=global 
 语法图形化 https://jex.im/regulex/#!flags=&re=%5E(a%7Cb)*%3F%24 
 参考： 
 https://www.runoob.com/regexp/regexp-syntax.html 
 https://zhuanlan.zhihu.com/p/28672572?group_id=883065970518790144