javascript正则表达式里分组模式以小括号来()表示分组,例:/([a-z])/
捕获性分组工作模式()会把每个分组里匹配的值保存起来。
比如利用捕获性分组把 hello world 互换成 world hello:
方法一:通过exec函数
var str = 'hello world'; //首先创建好字符串
var pattern = /([a-z]+)\s([a-z]+)/; //先通过正则匹配这个字符串,用分组模式来获取这两个单词
var arr = pattern.exec(str); // exec方法返回的是一个数组,包含匹配到的字符串以及分组(也称子串)里的值
console.log(arr); //['hello world','hello','world']
console.log(arr[0]); //'hello world' 匹配到的字符串
console.log(arr[1]); //'hello' 第一个分组([a-z]+)的值
console.log(arr[2]); //'world' 第二个分组([a-z]+)的值
//这时候两个分组的值都得到了,接下来用字符串拼接法实现互换
var n_str = arr[2]+' '+arr[1];
console.log(n_str) //world hello
方法二:通过属性$1-9
var str = 'hello world';
var pattern = /([a-z]+)\s([a-z]+)/;
pattern.test(str); //这个地方必须运行正则匹配一次,方式不限,可以是test()、exec()、以及String的正则方式
console.log(RegExp.$1) //'hello' 第一个分组([a-z]+)的值
console.log(RegExp.$2) //'world' 第二个分组([a-z]+)的值
var n_str = RegExp.$2+' '+RegExp.$1;
console.log(n_str) //world hello
方法三:通过String的replace()
var str = 'hello world';
var pattern = /([a-z]+)\s([a-z]+)/;
var n_str = str.replace(pattern,"$2 $1"); //这里的$1、$2与方法二里的RegExp.$1、RegExp.$2作用是相同的。
console.log(n_str) //world hello
非捕获性分组工作模式下分组(?:)会作为匹配校验,并出现在匹配结果字符里面,但不作为子匹配返回。
比如利用非捕获性分组获取字符串000aaa111,而且只返回一个值为aaa111的数组:
//先看用捕获性分组匹配会返回什么
var str1 = '000aaa111';
var pattern = /([a-z]+)(\d+)/; //捕获性分组匹配
var arr = pattern.exec(str1);
console.log(arr) //['aaa111','aaa','111'] 结果子串也获取到了,这并不是我们想要的结果
//非捕获性分组
var str2 = '000aaa111';
var pattern2 = /(?:[a-z]+)(?:\d+)/; //非捕获性分组匹配
var arr2 = pattern2.exec(str2);
console.log(arr2) //['aaa111'] 结果正确
捕获与引用
被正则表达式匹配(捕获)到的字符串会被暂存起来。其中,由分组捕获的串会从1开始编号,于是我们可以引用这些串:
1 2 3 4 5 6 7 |
|
$1引用了第一个被捕获的串,$2是第二个,依次类推。
候选
一个分组中,可以有多个候选表达式,用|分隔:
1 2 3 4 5 6 |
|
这里的|相当于“或”的意思。
与replace配合
String.prototype.replace方法的传参中可以直接引用被捕获的串。比如我们想将日期12.21/2012改为2012-12-21:
1 2 3 4 |
|
顺道一提,给replace传迭代函数,有时能优雅地解决一些问题。
将违禁词转换为等字数的星号是一个常见功能。比如文本是kid is a doubi,其中kid与doubi是违禁词,那么转换后应该为*** is a *****。我们可以这么写:
1 2 3 4 5 6 |
|
嵌套分组的捕获
如果碰到类似/((kid) is (a (doubi)))/的嵌套分组,捕获的顺序是什么?来试试:
1 2 3 4 5 6 7 8 9 |
|
规则是以左括号出现的顺序进行捕获。
反向引用
正则表达式里也能进行引用,这称为反向引用:
1 2 3 4 5 6 |
|
\1引用了第一个被分组所捕获的串,换言之,表达式是动态决定的。
注意,如果编号越界了,则会被当成普通的表达式:
1 2 3 4 |
|
分组的类型
分组有四种类型:
捕获型 - ()
非捕获型 - (?:)
正向前瞻型 - (?=)
反向前瞻型 - (?!)
我们之前说的都是捕获型分组,只有这种分组会暂存匹配到的串。
非捕获型分组
有时候,我们只是想分个组,而没有捕获的需求,则可以使用非捕获型分组,语法为左括号后紧跟?::
1 2 3 4 5 6 |
|
这个例子中,(?:\d{4})分组不会捕获任何串,所以$1为(\d{2})捕获的串。
正向与反向前瞻型分组
就好像你站在原地,向前眺望:
正向前瞻型分组 - 你前方是什么东西吗?
负向前瞻型分组 - 你前方不是什么东西吗?
太拗口了,我喜欢称之为肯定表达式与否定表达式。先举个正向前瞻的例子:
1 2 3 4 |
|
kid is a 后面跟着什么?如果是doubi才能匹配成功。
而负向前瞻则刚好相反:
1 2 3 4 |
|
如果前瞻型分组也不会捕获值。那么它与非捕获型的区别是什么?看例子:
1 2 3 4 5 6 7 8 9 |
|
可见,非捕获型分组匹配到的串,仍会被外层的捕获型分组捕获到,但前瞻型却不会。当你需要参考后面的值,又不想连它一起捕获时,前瞻型分组就派上用场了。