正则表达式

什么是正则表达式

Regular Expression 使用单个字符串来描述，匹配一系列符合某个句法规则的字符串。

简单说就是按照某种规则去匹配符合条件的字符串。

字面量

var reg = /\bis\b/;
'This is a dog.where is she'.replace(reg,'Is');
"This Is a dog.where is she"
var reg = /\bis\b/g;
'This is a dog.where is she'.replace(reg,'Is');
"This Is a dog.where Is she"

构造函数

var reg = new RegExp('\\bis\\b');
'This is a dog.where is she'.replace(reg,'Is');
"This Is a dog.where is she"
var reg = new RegExp('\\bis\\b','g');
'This is a dog.where is she'.replace(reg,'Is');
"This Is a dog.where Is she"

修饰符

g：global 全文搜索，不添加，搜索到第一个匹配停止
i：ignore case 忽略大小写，默认大小写敏感
m：multiline 多行搜索

'He is a boy.Is he?'.replace(/\bis\b/g,'0')
"He 0 a boy.Is he?"
'He is a boy.Is he?'.replace(/\bis\b/gi,'0')
"He 0 a boy.0 he?"

元字符

正则表达式由两种基本字符类型组成：原义文本字符、元字符。

元字符是在正则表达式中有特殊含义的非字母字符

* + ? $ ^ . | \ ( ) { } [ ]

字符	含义
\t	水平制表符
\n	换行符
\r	回车符
\0	空字符
\f	换页符
\cX	与X对应的控制字符（Ctrl+X)

字符类

一般情况下正则表达式一个字符对应字符串一个字符。

表达式 [abc] 把字符 a 或 b 或 c 归为一类，表达式可以匹配这类的字符。

'a1b2c3d4'.replace(/[abc]/g,'X')
"X1X2X3d4"

字符类取反

使用元字符 ^ 创建反向类/负向类

反向类的意思是不属于某类的内容

表达式 [^abc] 表示不是字符 a 或 b 或 c 的内容

'a1b2c3d4'.replace(/[^abc]/g,'X')
"aXbXcXXX"

范围类

我们可以使用 [a-z] 来连接两个字符表示从 a 到 z 到任意字符，这是个闭区间，也就是包含 a 和 z 本身。

'a1b2c3d4y5z6'.replace(/[a-z]/g,'X')
"X1X2X3X4X5X6"

在 [] 组成的类内部是可以连写的 [a-zA-Z0-9]

'a1b2c3d4y5z6ABCXYZ789'.replace(/[a-zA-Z]/g,'X')
"X1X2X3X4X5X6XXXXXX789"
'a1b2c3d4y5z6ABCXYZ789'.replace(/[a-zA-Z0-9]/g,'X')
"XXXXXXXXXXXXXXXXXXXXX"
'2017-07-29'.replace(/[0-9]/g,'A')
"AAAA-AA-AA"
'2017-07-29'.replace(/[0-9-]/g,'A')
"AAAAAAAAAA"

预定义类

正则表达式提供预定义类来匹配常见的字符类

字符	等价类	含义
.	[^\r\n]	除了回车符和换行符之外的所有字符
\d	[0-9]	数字符
\D	[^0-9]	非数字符
\s	[\t\n\x0B\f\r]	空白符
\S	[^\t\n\x0B\f\r]	非空白符
\w	[a-zA-Z_0-9]	单词字符（字母、数字下划线）
\W	[^a-zA-Z_0-9]	非单词字符

边界

正则表达式还提供了几个常用的边界匹配字符

字符	含义
^	以xxx开始
$	以xxx结束
\b	单词边界
\B	非单词边界

'This is a boy'.replace(/is/g,'X')
"ThX X a boy"
'This is a boy'.replace(/\bis\b/g,'X')
"This X a boy"
'This is a boy'.replace(/\Bis\b/g,'X')
"ThX is a boy"

量词

字符	含义
？	出现零次或一次（最多出现一次）
+	出现一次或多次（至少出现一次）
*	出现零次或多次（任意次）
{n}	出现n次
{n,m}	出现n到m次
{n,}	至少出现n次

贪婪模式

'12345678'.replace(/\d{3,6}/g,'X')
"X78"

非贪婪模式

让正则表达式尽可能少的匹配，也就是说一旦成功匹配不再继续尝试就是非贪婪模式。在量词后加上 ? 即可

'12345678'.replace(/\d{3,6}?/g,'X')
"XX78"

分组

使用 ( ) 可以达到分组的功能，使用量词作用于分组。

'a1b2c3d4'.replace(/([a-z]\d){3}/g,'X')
"Xd4"

或

使用 | 可以达到或的效果

'ByronCasper'.replace(/Byron|Casper/g,'X')
"XX"
'ByronsperByrCasper'.replace(/Byr(on|Ca)sper/g,'X')
"XX"

忽略分组

不希望捕获某些分组，只需要在分组内加上 ?: 就可以

前瞻

前瞻就是在正则表达式匹配到规则的时候，向前检查是否符合断言，后顾方向相反。JavaScript 不支持后顾。符合和不符合特定断言称为正向匹配和负向匹配。

名称	正则
正向前瞻	exp(?=assert)
负向前瞻	exp(?!assert)

'a2*34V5_6'.replace(/\w(?=\d)/g,'X')
"X2*X4X5X6"
'a2*34V5_6'.replace(/\w(?!\d)/g,'X')
"aX*3XVX_X"