这是阅读《JavaScript正则表达式迷你书》后整理的一些笔记。
正则表达式是匹配模式,要么匹配字符,要么匹配位置。
下面主要介绍匹配字符的情况,匹配位置的情况我也正在学习中。
1.横向模糊匹配:一个正则可匹配的字符串的长度不是固定的。其实现方式是使用量词。比如说{m,n}是指字符最少连续出现m次,最多n次。
如/ab{2,5}c/
表示匹配这样一个字符串:第一个字符是 “a”,接下来是 2 到 5 个字符 “b”,最后是字符 “c”。
例如:(大家可以手动试一下,想想会得到哪些结果)
var regex = /ab{2,5}c/g;
var string = "abc abbc abbbc abbbbc abbbbbc abbbbbbc";
console.log( string.match(regex) );
g是一个修饰符,它表示全局匹配,就是在string里面按顺序找到满足匹配条件的所有的字串。
2.纵向模糊匹配:一个正则可匹配的字符串具体到某一位字符,可以不是一个确定的字符,可以有多种可能。其实现方式是使用字符组
如/a[123]b/
表示匹配这样一个字符串:第一个字符是a,第二个字符可以是’1’,‘2’,'3’中的任何一个,但是只能是一个。
1.常见的简写形式:
(1){m,}
表示至少出现m次
(2){m}
表示出现m次
(3)?
等价于{0,1}
表示出现或者不出现
(4)+
等价于{1,}
表示至少出现1次
(5)*
等价于{0,}
表示出现任意次,可以不出现,也可以若干次
2.贪婪匹配与惰性匹配
(1)贪婪匹配:/\d{2,5}/
表示数字连续出现2-5次,会尽量多的匹配
var regex = /\d{2,5}/g;
var string = "123 1234 12345 123456";
console.log( string.match(regex) );
// => ["123", "1234", "12345", "12345"]
(2)惰性匹配:/\d{2,5}?/
表示虽然2-5次都可以,但是当2个就够的时候,就不再尝试。
var regex = /\d{2,5}?/g;
var string = "123 1234 12345 123456";
console.log( string.match(regex) );
// => ["12", "12", "34", "12", "34", "12", "34", "56"]
1.范围表示:
(1)用连字符“-”来省略简写,如[123456abcdefGHIJKLM]就可以写成[1-6a-fG-M]。
(2)注意:若匹配的字符串中有连字符时,要么放开头,要么放结尾,要么进行转义-。
2.排除字符组:如[^abc]表示某位字符可以是任何东西,但不能是a,b,c。^脱字符表示求反,也有相应的范围表示。
3.常见的简写形式:
(1)\d
表示[0-9]
。是一位数字
(2)\D
表示[\^0-9]
。除数字外的任意字符。
(3)\w
表示 [0-9a-zA-Z_]
。数字、大小写字母和下划线。也称单词字符
(4)\W
表示[^0-9a-zA-Z_]
。非单词字符
(5)\s
表示[ \t\v\n\r\f]
。表示空白符,包括空格、水平制表符、垂直制表符、换行符、回车符、换页符。
(6)\S
表示[^ \t\v\n\r\f]
。非空白字符
(7).
表示[^\n\r\u2028\u2029]
。通配符,表示几乎任意字符。换行符、回车符、行分隔符和段分隔符除外。
要匹配任意字符,可以使用 [\d\D]
、[\w\W]
、[\s\S]
和 [^]
中任何的一个。
一个模式可以实现横向和纵向模糊匹配,多选分支可以支持多个子模式任选其一。
具体形式:(p1|p2|p3)
p1,p2,p3是子模式。
要注意下面的这个问题。
var regex = /good|goodbye/g;
var string = "goodbye";
console.log( string.match(regex) );
上面这个例子获得的结果是“good”
var regex = /goodbye|good/g;
var string = "goodbye";
console.log( string.match(regex) );
这个例子获得的是“goodbye”
我们得到这样的结论:分支结构也是惰性的,即当前面的匹配上了,后面的就不再尝试了。